Changchun Master Li

logistic regression(逻辑斯蒂回归) 数学原理

2017-05-13

Introduction

一个概率分类器, 输入为X, 预测输出y. 有两种方式去构造, 一种是类似朴素贝叶斯的生成模型, 这类模型为联合概率 建模; 还有一种是判别模型,直接为 建模.

logistics回归是一个经典的二分类模型.

定义

所以,
如果把概率等于0.5作为阈值, 我们会得到一个垂直于w的超平面作为决策边界.


但是, 既然是一个分类模型, 而回归是探索因变量与自变量之间的关系, 为什么还叫做回归呢.

  • logistics回归最后是映射到0到1之间, 可以看做是对概率的回归模型.
  • logic的意义正是逻辑.

MLE 极大似然


给出负对数似然(negative log likelihood)函数, 其中是样本量:


我们知道香农信息量为
熵则为香农信息的期望.

交叉熵是用错误的分布 为原分布编码 编码.

因此, 这个损失函数也被叫做交叉熵代价函数(cross entropy error function)


为了方便表示, 将 值域改为 ,


所以

.
可以把 简化为

然而我们永远不能直接写出这个极大似然的封闭解, 只有靠数值方法计算.
需要推导出梯度和海森矩阵:

梯度推导过程: (Machine Learning A Probabilistic Perspective Exercise 8.3)


model fitting

无约束问题最优化方法的核心就是选择搜索方向

steepest descent 最速下降法

学习速率难以设置难以调参是一个重要问题, 太小导致收敛很慢, 太大可能难以收敛

解决方法:

  • 最直观的想法 line search 线性搜索

    , d是我们的下降方向, 如果足够小, 则 , 但我们的目的是尽量增大学习速率, 所以这个问题转化为

    但 line search 有严重的缺点, 算法的下降路径是z字形折线
    试想, , 它的必要条件是, 根据链式法则由公式1得 , . 所以, 要么梯度g等于0, 这表示我们找到了函数的驻点; 要么, 这意味着梯度垂直于搜索方向. 所以最终得到的效果是连续的正交.

  • 启发式 momentum 动量

    动量 bp神经网络的论文中很常见.

    其中 控制着动量的影响程度, 此方法大大缓解了上述问题.

Newton’s method 牛顿法

通过考察空间曲率可以得到更快速的优化方法(比如Hessian矩阵), 这些方法统称为二阶优化方法. 牛顿法是一个最基础的二阶优化.
迭代式为:

推导:

其中,

通过配方法得:

牛顿法要求海森矩阵是正定的, 这是目标函数是凸函数的充要条件. 如果不是正定的, 可能不是下降方向, 此时可以使用最速下降法. Levenberg Marquardt是结合上述两种方法的自适应算法. 另外一种方法是不直接计算, 而是使用共轭梯度求解线性系统 truncated Newton.


referrence

海森矩阵
共轭梯度法

使用支付宝打赏
使用微信打赏

若你觉得我的文章对你有帮助,欢迎点击上方按钮对我打赏

扫描二维码,分享此文章