摘 要:本文主要研究机器学习方法在新闻文本的情感分类中的应用,判断其是正面还是负面。我们利用朴素贝叶斯和最大熵方法进行新闻及评论语料的情感分类研究。实验表明,机器学习方法在基于情感的文本分类中也能取得不错的分类性能,最高准确率能达到90%。同时我们也发现,对于基于情感的文本分类,选择具有语义倾向的词汇作为特征项、对否定词正确处理和采用:值作为特征项权重能提高分类的准确率。总之,基于情感的文本分类是一个更具挑战性的工作。
关键词:计算机应用;中文信息处理;文本分类;情感分析;贝叶斯;最大熵
中图分类号:TP391 文献标识码:A
1 引言
随着www的高速发展,在线的资源数量不断增多,这些资源多是以文本方式出现,从而文本分类成为处理和组织大量文档数据的关键技术,所以利用计算机进行文本的自动分类成为自然语言处理和人工智能领域一项非常有意义的研究课题。目前的文本自动分类的研究主要是采用统计和机器学习的方法,根据文本的主题和内容对文本进行分类等。
近年来,BBS和Blog的迅速发展,主观性的言论也越来越多,这些言论大部分都是一些主观的论断和对事物的一些看法,如对电子产品、汽车的使用评价、电影评论等,那么如何判断这些评论是正面还是反面?态度是赞成还是反对?认为其值得推荐还是不值一文?这就引出了文本分类领域一个新的研究方向——基于情感的文本分类。
基于情感的文本分类是近年来才兴起的一个研究方向,主要研究如何对文本所表达的情感等主观内容进行分类,判断其是正面还是负面。它具有很多重要的实际应用:
推荐系统:对用户对产品/服务的在线反馈进行自动分类和整理,分析和挑选出值得推荐的产品/服务,推荐给其他用户。如根据一部电影的所有相关评论,向未观看者做出是否值得观看的推介。同时,也可以帮助商业机构自动归类其产品和服务的反馈文档,避免繁琐的手工劳动。
过滤系统:对政府或商业机构的不利言论进行过滤,自动识别发文者的政治倾向或对组织机构的看法。如根据文本中的情感进行分类,对攻击个人或政府的邮件进行过滤。
问答系统:对问题答案进行自动的基于情感的文本分类,避免回答的感情色彩出现错误,适得其反。
本文主要研究如何利用机器学习的方法来对新闻及评论来进行正面和负面的分类。基于情感的文本分类的方法和基于主题的文本分类相似,不同的地方在于特征词的提取,在基于主题的文本分类中主题词很重要,而在基于情感的文本分类中具有主观性的词语更为重要,如危机、制裁、退货、优秀等。
2 相关研究
文本作为一种重要的信息交互媒介,主要的功能是传情达意,基于内容的研究已经很成熟,近些年来越来越多的研究开始集中到“传情”上——情感分析.主要的研究内容包括词语的语义倾向识别、基于情感的文本分类、观点提取、主观性分析等。
对一篇文档而言,能对其语义倾向起到决定性作用的主要是构成这篇文档所用的词语。所以,对文本进行基于情感的文本分类的基础是判定词的语义倾向。但是目前,不论是英语还是汉语,都没有一个完整的涵盖词语语义倾向的词典,也不可能有这样的一个完备的词典,因为很多的词语在不同语境中它的语义倾向也不尽相同。Hatzivassiloglou等根据词语之间关系来判定其语义倾向,他们注意到形容词的语义倾向受连接它们的连接词“and”、“but”等约束,知道其中一个词的语义倾向,就可以推测出另一个。如“excellent and X”,可以推测X也是褒义的。根据语言学上连接词对语义倾向约束性的分析,他们提出了一种四步法的有监督学习算法来判断一个形容词的语义倾向。Turney在其论文中介绍了两种利用词语与具有明显语义倾向的种子词语之间统计关系来自动识别词语语义倾向的方法:PMI-IR和LSA。Esuli通过对一个词语的注释(从词典中获得)进行训练和分类,从而判断其他词语的语义倾向。
基于情感的文本分类研究大多是通过统计正面或负面语义倾向的词语特征数目来对文本进行分类。如Turney就使用一无指导学习方法,利用前面提到的PMI-IR方法计算出文本中出现的符合规则的短语的语义倾向,通过对文档中所有短语的语义倾向的平均值的正负来判断文档描述的对象是否值得推荐。Pang Bo最早利用机器学习方法来解决基于情感的文本分类问题,应用朴素贝叶斯、最大熵、SVM对电影评论进行分类。SVM在几种分类方法中效果最好,分类准确率最高达到约80%。


















