4.1 NaiveBayes
Naive Bayes分类器是一种概率分类器,它利用类别的先验概率和特征分布相对于类别的条件概率来计算未知文档属于某一类别的概率。假设文档中特征分布相互独立,Naive Bayes分类器用数学形式来表示,即:
对于不同的类别,上式的分母不变,故只要选择使得分子最大的类别,即认为是待分类文档的目标类别。通过对训练样本的学习,得到P(cj)和P(fi|cj)的估计:
Naive Bayes分类器最根本的特点是假设文档中词语的出现是互相独立的,这样的概率方法很简单但确是一种有效的文本分类方法。基于情感的文本分类同样采用文本向量空间模型来表示一个文档,表示为属性值形式,因此可以应用Naive Bayes分类器,一个文档正负面分类就是该文档中的词语在此处被观察到的概率最大的分类。
4.2 最大熵
最大熵方法的基本思想是在满足系统当前提供的所有条件下寻求分布最均匀的模型,即熵最大的模型。将已知事实作为制约条件,求得可使熵最大化的概率分布作为正确的概率分布。它把训练集中与分类有关的数据描述为一系列的特征,这些特征多数情况下是二值函数。对于基于情感的文本分类问题,我们这里选择“特征词-类别(fi-c)”作为一个特征,并根据应用需要确定特征值是二值还是词频,以适应文本分类这种文档层面的应用。本文中的特征函数的形式如下:
对于特征函数Fi,c,相对于经验概率分布P(fi,c)的期望值与相对于模型P(c|fi)的期望值一致,从而我们可以得到所求概率分布的m组约束:
λi,c看成是特征函数的参数,通过在训练集上训练获得,从而得到概率分布,完成最大熵模型的构造。λi,c的值我们通过IIS算法求得。对于基于情感的文档分类来说,文档中的特征是非常稀疏的,因而其中大部分特征函数值为0,需要采用平滑技术来处理,本文采用的平滑方法是高斯先验法。
5 实验结果与分析
目前尚未有用于基于情感的文本分类的中文语料,我们从网络上收集最近饱受负面新闻困扰的宝洁、高露洁和索尼的近年的相关的新闻和评论854篇作为实验数据,这些文档中包含正面的新闻和负面新闻,但不包含中性新闻。
5.1 实验设置
本文主要采用词频(Term Frequency)和二值(Binary)作为特征项权重,在基于主题的文本分类,TF的性能明显优于Binary。为了研究特征项权重计算方法的不同对基于情感的文本分类的影响,设计了实验一分别对上述两种权重计算方法进行比较实验。
与基于主题的文本分类不同,“不”、“没”等否定词不再作为停用词被删除,否定词本身是一个中性词,但是当它否定的对象是具有语义倾向的词语时,语义倾向发生反向变化。Sanjiv在其论文中采用对否定词到第一个标点符号间的所有词语加上“_N”后缀的方法来处理否定词对一句话的语义倾向的影响,这种方法引入了太多的无关特征项,只很小程度的提高了分类的性能。通过统计上述新闻语料发现,否定词否定的对象主要是其后第一个动词(“是”、“可能”等除外)、名词、形容词、成语和习惯语。本文采用的处理方法是将否定词与否定对象结合为一个新特征。为了研究否定词的处理与否对文本的情感分类的影响,设计了实验二分别对否定词的处理方法进行实验。
在基于主题的文本分类中主题词很重要,而在基于情感的文本分类中具有语义倾向的词语和短语更为重要。在汉语中,具有语义倾向的词语并不限于名词、形容词,具有语义倾向的词语的词性有12种。表1列出了常见的6种。其他的诸如某些叹词、状态词也可能具有感情色彩,但由于在新闻报导中出现的次数非常少,就不再把它们作为特征提取出来。同时,“不”、“没有”等表示否定,以及“非常”、“稍”等表示程度的副词也对文档的情感倾向起到重要作用,所以也都作为特征提取出来。


















