Entropy
정보 엔트로피 (Information Entropy)
핵심 요약
엔트로피(Entropy)란 어떤 확률 분포가 가지고 있는 본질적인 불확실성(Uncertainty)의 크기를 의미한다.
AI 모델 관점에서는 모델이 스스로의 예측에 대해 느끼는 헷갈림의 정도, 즉 자신감(Confidence)의 결여 수준으로 해석할 수 있다.
1. 직관적 이해: 결과를 예측하기 얼마나 어려운가
엔트로피는 1948년 클로드 섀넌(Claude Shannon)이 제안한 정보이론의 핵심 개념이다.
결과가 뻔할수록 엔트로피는 낮아지고, 결과가 혼란스러울수록 높아진다.
엔트로피가 0일 때
결과가 100% 확실하여 전혀 헷갈림이 없는 상태이다.
예시:
- 양쪽 모두 앞면인 동전을 던질 때
- 결과를 이미 확실히 알고 있는 경우
즉, 예측 난도가 거의 0이다.
엔트로피가 최대일 때 (불확실성 최고)
모든 사건의 발생 확률이 균등할 때 엔트로피가 최대가 된다.
예시:
- 앞면/뒷면 확률이 정확히 50:50인 공평한 동전
- 이 경우 엔트로피는 1 bit
즉, 결과를 사전에 예측하기 가장 어렵다.
2. 수학적 정의
엔트로피는 각 사건의 정보량의 평균 기대값으로 정의된다.
$H(P) = - \sum_{x} P(x)\log_2 P(x)$
구성 요소
- $P(x)$: 사건 $x$가 발생할 확률
- $-\log_2 P(x)$: 사건 $x$의 정보량
- $H(P)$: 전체 확률 분포의 평균 불확실성
단위
로그 밑이 2이므로 단위는 bit이다.
bit의 의미는 다음과 같다.
이 불확실성을 해소하기 위해 평균적으로 몇 번의 예/아니오 질문이 필요한가
예시:
- 1 bit = 평균 1번 질문 필요
- 2 bit = 평균 2번 질문 필요
한 줄 정리
엔트로피는 확률 분포의 불확실성을 수치화한 값이며,
AI에서는 모델의 확신도 평가, 이상치 탐지, 탐험 전략, 분기 기준 선정 등에 핵심적으로 활용된다.
Leave a comment