这个方程是信息论的基石,它不仅改变了通信领域,也深刻影响了计算机科学、统计学、物理学乃至语言学等多个学科。
核心思想:用不确定性来度量信息
在香农之前,人们对“信息”的理解是模糊的。香农的革命性想法是:信息是用来消除不确定性的东西。
一个事件的不确定性越大,它所包含的信息量就越大。
信息熵方程
对于一个离散随机变量 X,它有可能的取值为,每个取值对应的概率为
,且
。那么,X 的信息熵 H(X)定义为:
让我们来拆解这个公式的各个部分:
- H(X): 随机变量 X的信息熵。单位是比特。它代表了 X 的平均不确定性,或者说为了确定 X 的取值,平均需要多少比特的信息。
: 事件
发生的概率。
: 以2为底的对数。这里使用2为底,是由于在数字通信和计算机科学中,信息最自然的单位是“比特”。这个对数值衡量了事件
所携带的“惊喜度”。概率越低的事件,发生时带来的“惊喜”越大,其信息量(
)也越大。
- 负号 (-): 由于概率
总是在0到1之间,所以
是一个负数。加上负号后,整个熵 H(X) 就变成了一个正数。
- ∑: 求和符号。表明我们对所有可能事件的信息量按其概率进行加权平均。所以,熵是平均信息量或期望信息量。
如何直观理解?
可以把熵 H(X)理解为系统“混乱程度”或“不可预测性”的度量。
- 当系统超级确定时,熵很低。
- 极端情况1:某个事件
,其他事件概率为0。这时 H(X) = 0。由于系统没有任何不确定性。
- 当系统超级不确定时,熵很高。
- 极端情况2:所有事件概率均等(例如,抛一枚均匀硬币,
)。这时熵达到最大值。
- H(X)=
=1 比特。
核心结论:在给定取值数量的情况下,所有结果概率均等时,系统的熵最大。
应用领域
- 数据压缩:熵给出了无损压缩一个信息源所需的最小平均比特数。霍夫曼编码、算术编码等压缩算法都直接基于熵的概念。
- 通信领域:定义了信道的容量,是设计高效可靠通信系统的基础。
- 机器学习:
- 在决策树算法中,信息增益(分裂前后熵的减少)被用来选择最佳的分裂特征。
- 交叉熵损失函数是衡量模型预测概率分布与真实概率分布之间差异的常用方法。
- 自然语言处理:用于衡量语言的复杂性和冗余度。
- 密码学:衡量密钥的随机性和加密系统的强度。高熵是安全密码的必要条件。
- 量子信息:有对应的冯·诺依曼熵。

© 版权声明
文章版权归作者所有,未经允许请勿转载。如内容涉嫌侵权,请在本页底部进入<联系我们>进行举报投诉!
THE END
















暂无评论内容