分类流程
(1)模型建立
其中,X为观测到的样本,求x属于C1的概率,同理多分类只是分母x计算发生变化
(2)P(x)对所有的分类计算概率来说都只是个常数,并不影响最终结果,故可省略
(3)分子中的P(C1)是先验概率,需要人为定义,一般假设等概率,亦可其他
(4)综合2,3 此时变化的量只剩了,即从C1分布中采样出x的概率,只需要最大化这一项。
假设C1服从高斯分布,那就是求出均值、方差 这两个参数使得最大化,也就是最大似然估计:
- 上述用似然估计计算有一个假设就是假设X的属性之间相互独立
这里的xi表示的是样本的属性!
我一直奇怪这里的小x到底是啥,X是观测到的样本,xk是样本的各个属性,而C1类别对各个属性有个分布,假设是高斯分布,就是调整参数X使得这些个属性满足C1!
(5)对未知样本X分类,也就是对每个类Ci,计算
最终挑选出一个最大的值对应的类别即是X所属的分类。
踩坑
贝叶斯分类器中,x表示属性。