Introduction
一个概率分类器, 输入为X, 预测输出y. 有两种方式去构造, 一种是类似朴素贝叶斯的生成模型, 这类模型为联合概率
logistics回归是一个经典的二分类模型.
定义
所以,
如果把概率等于0.5作为阈值, 我们会得到一个垂直于w的超平面作为决策边界.
但是, 既然是一个分类模型, 而回归是探索因变量与自变量之间的关系, 为什么还叫做回归呢.
- logistics回归最后是映射到0到1之间, 可以看做是对概率的回归模型.
- logic的意义正是逻辑.
MLE 极大似然
记
给出负对数似然(negative log likelihood)函数, 其中
我们知道香农信息量为
熵则为香农信息的期望.
交叉熵是用错误的分布
因此, 这个损失函数也被叫做交叉熵代价函数(cross entropy error function)
为了方便表示, 将
所以
.
可以把
然而我们永远不能直接写出这个极大似然的封闭解, 只有靠数值方法计算.
需要推导出梯度和海森矩阵:
梯度推导过程: (Machine Learning A Probabilistic Perspective Exercise 8.3)
model fitting
无约束问题最优化方法的核心就是选择搜索方向
steepest descent 最速下降法
学习速率难以设置难以调参是一个重要问题, 太小导致收敛很慢, 太大可能难以收敛
解决方法:
最直观的想法 line search 线性搜索
, d是我们的下降方向, 如果 足够小, 则 , 但我们的目的是尽量增大学习速率, 所以这个问题转化为 但 line search 有严重的缺点, 算法的下降路径是z字形折线
试想, , 它的必要条件是 , 根据链式法则由公式1得 , . 所以, 要么梯度g等于0, 这表示我们找到了函数的驻点; 要么 , 这意味着梯度垂直于搜索方向. 所以最终得到的效果是连续的正交.启发式 momentum 动量
动量
在 bp神经网络的论文中很常见.深 度 学 习 其中
控制着动量的影响程度, 此方法大大缓解了上述问题.
Newton’s method 牛顿法
通过考察空间曲率可以得到更快速的优化方法(比如Hessian矩阵), 这些方法统称为二阶优化方法. 牛顿法是一个最基础的二阶优化.
迭代式为:
推导:
令
通过配方法得:
牛顿法要求海森矩阵是正定的, 这是目标函数是凸函数的充要条件. 如果不是正定的,
referrence
若你觉得我的文章对你有帮助,欢迎点击上方按钮对我打赏
扫描二维码,分享此文章