分类流程

(1)模型建立

其中,X为观测到的样本,求x属于C1的概率,同理多分类只是分母x计算发生变化

(2)P(x)对所有的分类计算概率来说都只是个常数,并不影响最终结果,故可省略

(3)分子中的P(C1)是先验概率,需要人为定义,一般假设等概率,亦可其他

(4)综合2,3 此时变化的量只剩了,即从C1分布中采样出x的概率,只需要最大化这一项。

假设C1服从高斯分布,那就是求出均值、方差 这两个参数使得最大化,也就是最大似然估计:

  • 上述用似然估计计算有一个假设就是假设X的属性之间相互独立

这里的xi表示的是样本的属性!

我一直奇怪这里的小x到底是啥,X是观测到的样本,xk是样本的各个属性,而C1类别对各个属性有个分布,假设是高斯分布,就是调整参数X使得这些个属性满足C1!

(5)对未知样本X分类,也就是对每个类Ci,计算

最终挑选出一个最大的值对应的类别即是X所属的分类。

踩坑

贝叶斯分类器中,x表示属性。