参考:https://zhuanlan.zhihu.com/p/36824006

概率 (Probability) & 似然 (Likelyhood)

概率就是随机事件发生的可能性的度量,根据实验或者已知的模型来计算某种可能性,可以称之为概率。

似然则是已经知道数据结果分布,由结果来推测模型的参数,这个过程就是似然。

所以这两个过程大概上是相反的。似然更通俗的说就是给定样本下参数 相对于参数取另外的值为真实值的可能性。

似然函数

设模型参数为θ,则:

也就是说估计θ值使得实验结果X=x。

对于某一实验,我们可能包含多种情况,其中每个实验结果的概率可记为一个集合 :

假设做了m次实验,则实验结果出现概率为:

极大似然估计

似然函数L最大化时就是极大似然估计。极大似然估计因为是连乘,所以一般是取log之后变为求和,然后再去求最大值,具体可以参考文章开始提到的链接中的抓豆子实验,很形象。

思考

在深度学习中,用神经网络作分类问题实际上也就是建立了一个模型,这个模型的参数(w)就相当于似然估计中的参数θ,用大量的数据去学习,去调整w,也就是已经知道结果,由结果去估计参数(w),使得取参数w后可以更准确的估计真实数据概率。也就是在做最大似然估计,而最大似然估计已经证明就是最小化交叉熵。

所以极大似然估计就是根据经验来推断规律。