Entropy

정보 엔트로피 (Information Entropy)

핵심 요약

엔트로피(Entropy)란 어떤 확률 분포가 가지고 있는 본질적인 불확실성(Uncertainty)의 크기를 의미한다.

AI 모델 관점에서는 모델이 스스로의 예측에 대해 느끼는 헷갈림의 정도, 즉 자신감(Confidence)의 결여 수준으로 해석할 수 있다.


1. 직관적 이해: 결과를 예측하기 얼마나 어려운가

엔트로피는 1948년 클로드 섀넌(Claude Shannon)이 제안한 정보이론의 핵심 개념이다.

결과가 뻔할수록 엔트로피는 낮아지고, 결과가 혼란스러울수록 높아진다.

엔트로피가 0일 때

결과가 100% 확실하여 전혀 헷갈림이 없는 상태이다.

예시:

  • 양쪽 모두 앞면인 동전을 던질 때
  • 결과를 이미 확실히 알고 있는 경우

즉, 예측 난도가 거의 0이다.

엔트로피가 최대일 때 (불확실성 최고)

모든 사건의 발생 확률이 균등할 때 엔트로피가 최대가 된다.

예시:

  • 앞면/뒷면 확률이 정확히 50:50인 공평한 동전
  • 이 경우 엔트로피는 1 bit

즉, 결과를 사전에 예측하기 가장 어렵다.


2. 수학적 정의

엔트로피는 각 사건의 정보량의 평균 기대값으로 정의된다.

$H(P) = - \sum_{x} P(x)\log_2 P(x)$

구성 요소

  • $P(x)$: 사건 $x$가 발생할 확률
  • $-\log_2 P(x)$: 사건 $x$의 정보량
  • $H(P)$: 전체 확률 분포의 평균 불확실성

단위

로그 밑이 2이므로 단위는 bit이다.

bit의 의미는 다음과 같다.

이 불확실성을 해소하기 위해 평균적으로 몇 번의 예/아니오 질문이 필요한가

예시:

  • 1 bit = 평균 1번 질문 필요
  • 2 bit = 평균 2번 질문 필요

한 줄 정리

엔트로피는 확률 분포의 불확실성을 수치화한 값이며,

AI에서는 모델의 확신도 평가, 이상치 탐지, 탐험 전략, 분기 기준 선정 등에 핵심적으로 활용된다.

Leave a comment