Changchun Master Li

离散随机变量的相对熵和机器学习
KL divergence and Machine Learning

2016-12-01

目录

  • 熵和交叉熵 基础
  • 相对熵 性质
  • 证明一 Infomation inequality(信息不等性)
  • 证明二 KL and maximum likelihood(极大似然估计相对熵最小)

熵和交叉熵


关系

机器学习的核心问题 建立一个模型,它能够预测那种类型的数据是可能的,哪种不可能
在信息论中,频繁出现的信息通常编码较短(如汉语中 的 是)

引入概念 熵

有离散随机变量X,有K个状态,服从分布p。熵的输入为随机变量的__分布__,输出为分布的__不确定性__。





例子 拥有最大熵的离散分布是平均分布,并且

X服从二项分布


引入概念 交叉熵cross entropy


可以看出,交叉熵是数据来源于p当为p编码平均需要的比特数(wikipedia:In information theory, the cross entropy between two probability distributions p and q over the same underlying set of events measures the average number of bits needed to identify an event drawn from the set)

与熵的关系


概念 KL divergence

KL散度也叫相对熵

用于衡量两种概率分布p和q不相似的程度

另一种形式

也就是说,相对熵是使用分布q为分布p的数据编码平均需要额外的比特数


性质 KL divergence

  • asymmetric.
    相对熵不是距离

    例子:



  • Nonnegativity.


  • Chain rule for KL divergence.

    • 定义: 两个条件分布P(X|Y), Q(X|Y)的相对熵

    • 直观理解: P(X|Y = y) 和 Q(X|Y = y)) 对于随机变量y的期望

    • 可以证明链式规则


  • KL and maximum likelihood

    对于密度估计问题,假如给定一个训练集

    经验分布

    我们有参数为的分布,可以发现__的最大似然估计__等于__使得相对熵最小的__,即

证明一 Infomation inequality


引理: 詹森不等式(Jensen’s inequality)

其中


推导:


重要结论:

具有最大熵的离散分布是均值分布,更精确的表述是

其中是随机变量X所有的状态。p(x)为均值分布使得等号成立

使

不充分理由原则 principle of insufficient reason:

当没有理由去选择哪一个分布的时候,应该使用均值分布,KL可以用来创建满足特定限制的分布。

例如,高斯分布是满足两个力矩的限制具有最大熵的分布


证明二 KL and maximum likelihood

对于密度估计问题,假如给定一个训练集

经验分布

我们有参数为的分布,可以发现__的最大似然估计__等于__使得相对熵最小的__,即

证明:

相对熵应用

ensemble集成算法
transfer learning迁移学习

使用支付宝打赏
使用微信打赏

若你觉得我的文章对你有帮助,欢迎点击上方按钮对我打赏

扫描二维码,分享此文章