1. 首页 > 数码 >

极大似然估计的原理 极大似然估计的原理推导

似然法的基本原理

似然法的基本原理是让信号通过一个滤波器,选择滤波器的参数使所关心的频率的正弦波信号能够不失真地通过。

极大似然估计的原理 极大似然估计的原理推导极大似然估计的原理 极大似然估计的原理推导


极大似然估计的原理 极大似然估计的原理推导


给定一个概率分布D,假定其概率密度函数(连续分布)或概率聚集函数(离散分布)为。以及一个分布参数θ,我们可以从这个分布中抽出一个具有n个值的采样。似然法选择的树是使得观察到的性状分布(character state distribution)出现的概率的树。

对数学家们提供的简式改为以下通俗易懂式,先不要拿走符号以便理解,重头戏 上述的对数似然代价公式M为样本数量,x为样本,y为标签,是由高斯和费希尔先后提出的,这个方法的基础是极大似然原理。极大似然法的原理是:样本所展现。

从原理的角度分析,似然法的基本思想是:首先定义一个从属于某种类别的概率分布集群然后把待分类像元落入各类别的条件概率作为判别函数。

写出似然函数;求出使得似然函数取值的参数的值,这个值就是我们对概率模型中参数值的极大似然估计。极大似然估计从根本上遵循——眼见为实。

似然估计法的原理是什么?

似然估计,对于点估计,有矩估计法和似然估计法。

矩估计法,其基于大数定律,求解未知参数θ θθ的时候,是一种简单的替换的思想(样本矩估计总体矩)。

似然估计法,基于极大似然原理(概率大的在一次观测中更容易发生)。求解未知参数θ θθ的时候,是当它作为估计值时,使样本出现的概率(样本出现的可能性)。

离散型总体似然估计法的步骤为:选择样本值→构造似然函数(每个样本值对应概率相乘)→似然函数取对数(方便计算)→求导→令导数为0→求出未知参数θ的似然估计值。离散型和连续型的区别,就是离散型取的是每一个样本点的概率,而连续型取的是每一个样本点的概率密度。它们都包含了参数θ θθ,都可以通过取对数求导来算出似然估计值。

贝叶斯分类器(2)极大似然估计、MLE与MAP

根据上一篇 贝叶斯分类器(1)贝叶斯决策论概述、贝叶斯和频率、概率和似然 ,我们对贝叶斯分类器所要解决的问题、问题的求解方法做了概述,将贝叶斯分类问题转化成了求解 的问题,并提出了个求解方法:极大似然估计,也对似然的概念做了一定的理解,在本篇中,我们来介绍极大似然估计的原理、使用方法及其与后验估计MAP的区别。

我们已经知道,似然即参数的似然,表示给定样本下,参数 为真值的可能性,所以,极大似然估计就是以化参数的似然值的方法来估计参数的真值的算法。

对于一批样本,共有M个属性值和N个类别,那么 就是一个M维向量,要求得 ,其实就是要求 ,因为对不同的类别 ,类条件概率 应该是不同的分布,所以应该有N个不同的分布假设和似然函数。

我们按极大似然估计的步骤来看看怎样计算

取对数得到对数似然函数,连乘转换为累加,求导之类的计算更加方便:

注意:

知乎上大神详细介绍了从散度的角度解读极大似然估计: 知乎 - 微调的回答 ,跟随大神的脚步学习一下(原回答了引入了期望,我觉得其实不用期望也没问题):

MLE的步是假设分布(或者已有一个分布),接下来就是通过化 发生的概率来求得分布参数,认为这就是可能真实的分布,这个思路其实还是有一点绕的,凭什么说 发生的概率的参数就是真的参数呢?我们的目的是求出真实分布,直观的思路应该是看我们 算出来的分布跟真实分布的相似程度 ,这刚好可以通过散度来解释。

这里的散度是机器学习的散度,也就是信息论中的散度,与物理上的散度不太一样。机器学习中我们常用的散度是KL散度(KL-Divergence)。信息论中, 可以理解为:用来衡量在同一份数据P下,使用P的编码方案和Q的编码方案的平均编码长度的异,如果我们把真实的分布 和计算得到的分布 看做样本数据的编码方案,那么我们就可以用KL散度来计算两种分布之间的相似程度:

注意上面两个分布的顺序是不能变的,因为定义中的P必须是真实分布,数据就是由P产生的。我们的目标是人是让 小,注意到式中 是定值,所以:

看上面的推导,再看看极大似然的公式:

是不是根本就是一样的?所以其实如果我们正向考虑极大似然估计,当模型是条件概率分布,损失函数是对数损失函数时,极大似然估计就是做 经验风险小化 ;如果我们反过来考虑,即上面从散度推导的过程,MLE就是在寻找接近真实分布的分布。

以上一篇提到的西瓜好坏分类为例:

西瓜数据集如下图:

显然样本共有 个属性值和 个类别,首先根据样本估计类先验概率 ,然后为每个属性估计条件概率 ,要求 ,应该假设两个六维概率分布,比如我们假设样本为6元正态分布:

均值向量 为6维向量,协方矩阵 是一个66的正定矩阵。

然后分别写出似然函数的对数形式:

再求偏导解方程即可,多元正态分布求导计算还是挺复杂的,本篇主要讲极大似然估计,具体计算过程就不写了,大家明白是怎么做的就好。

讲完了极大似然估计的理论和作,再来看看它和一个跟它很像的算法后验估计MAP的关系。

极大似然估计MLE是频率学派的参数估计方法,后验估计MAP是贝叶斯学派的参数估计方法。因此,同样是参数估计的问题,MLE中参数是确定值,故定义为 ;MAP中参数是一个随机变量,故定义为 ,是一个后验概率,受到先验 和样本 的共同作用,这就是他们本质的区别了,由此可得到其计算过程的区别:

极大似然估计MLE对参数 的估计是:

后验估计MAP对参数 的估计是:

我们发现原来MAP与MLE在计算上的不同就是多了一个先验概率项,因此如果有一个合理的先验的话,MAP会比MLE对样本数据的依赖更小一些,如果数据量很大的话他们基本就是一样的了,以我们上一篇中的抛硬例子来说:

如果按极大似然估计计算,取对数求导后计算得到 ,这似乎不太符合我们的常识,如果是用MAP呢?对抛硬问题,我们先验是 (注意MAP中的 是随机变量,先验是一个分布,不能是一个数值哦,如果给一个数值的话,样本就不起作用了),因此:

正态分布的概率密度函数:

因此:

在MAP中使用一个高斯分布的先验的效果就类似于在MLE中采用L2正则,相当于 结构风险小化 ,可以说,当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险小化就等价于后验估计。

回到 的计算上来, 进行取对数、求导,可得 ,结果受到了先验和样本共同的作用。

显然MAP的计算要麻烦的多,现实中很多问题都要比我们的例子复杂的多,其求解通常不会像我们的例子这样求导计算。

总结一下:

我们将贝叶斯分类器转化为了求解 的问题,使用极大似然估计是我们介绍的个求解方法,它还存在一些不足:

在下一篇中,我们来看看求解 问题的另一个方法:朴素贝叶斯。

主要参考资料

《机器学习》周志华

《统计学习方法》 李航

知乎 - 微调的回答

聊一聊机器学习的MLE和MAP:似然估计和后验估计

后验估计MAP

极大似然估计的原理是什么?

我认为似然估计和矩估计的区别在于,似然估计的思想是存在即合理(就是有一个概率控制着它,而不是偶然),同样是抽若干样本,似然估计把抽这些样本的每一次抽取看成一个个的,然后将它们的概率密度乘起来视为一个整体A,然后反推“参数为什么值的时候,A有可能发生”,而A发生就意味着上述所有抽取的发生,这就是似然估计的简单理解

什么是极大似然估计

极大似然估计是求估计的另一种方法。

极大似然法(maximum likelihood estimation,MLE)是概率统计中估算模型参数的一种很经典和重要的方法,贯穿了机器学习中生成模型(Generative model)这一大分支的始终。有一定基础的同学肯定会知道与之对立的还有另一分支判别模型(Discriminative model)。

极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为,则称为极大似然估计。

极大似然估计的例子:

假设要统计全国的年均收入,首先假设这个收入服从服从正态分布,但是该分布的均值与方未知。没有人力与物力去统计全国每个人的收入。有10几亿人口呢?那么岂不是没有办法了?

有了极大似然估计之后,可以采用!比如选取一个城市,或者一个乡镇的人口收入,作为观察样本结果。然后通过似然估计来获取上述假设中的正态分布的参数。

有了参数的结果后,就可以知道该正态分布的期望和方了。也就是通过了一个小样本的采样,反过来知道了全国年收入的一系列重要的数学指标量!

极大似然估计的核心关键就是对于一些情况,样本太多,无法得出分布的参数值,可以采样小样本后,利用极大似然估计获取假设中分布的参数值。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 12345678@qq.com 举报,一经查实,本站将立刻删除。

联系我们

工作日:9:30-18:30,节假日休息