Naive Bayes朴素贝叶斯法

朴素贝叶斯方法基于贝叶斯公式,之所以朴素(Naive)是因为它有一个较强的假设,让自己包含的条件概率数量大大减少,有助于模型的训练与预测,这个假设是:条件独立
1.png
注意:朴素贝叶斯估计和贝叶斯估计是不同的概念,下文会提到贝叶斯估计

Naive Bayes法的训练与分类

朴素贝叶斯法的基本思路:

  • 对于给定的训练集,基于特征之间条件独立的假设去学习条件概率分布P(X=x|Y=c_k),先验概率分布P(Y=c_k)
  • 对于测试集(或新数据)中的输入x,基于训练得到的模型(上述概率分布),利用贝叶斯定理求出使后验概率最大的输出y
    具体点就是:
    2.png
    后验概率计算公式:
    4.png
    朴素贝叶斯分类器:
    5.png

    为什么需要假设条件独立

    3.png

    后验概率最大化的含义

    朴素贝叶斯分类中,后验概率最大化等价于期望风险最小化
    6.png
    进一步有:
    7.png

    朴素贝叶斯法的参数估计

    极大似然估计

    极大似然估计属于频率派的想法

    先验概率估计

    8.png

    条件概率估计

    9.png

算法流程

Naive Bayes algorithm
10.png

贝叶斯估计

用极大似然估计可能会出现所要估计的概率值为0的情况,这时会影响到后验概率的计算结果,使分类产生偏差.
可以使用贝叶斯估计解决这一问题
11.png
参数及可行性说明
12.png

参考:
李航,统计学习方法