设为首页  加入收藏  简版首页  注销  注册新用户 网通镜像 刊社管理 排行榜 约稿 
金月芽期刊网
 
首页 女性 育儿 婚姻 时尚娱乐 旅游 影视 小说 传奇 文化 新闻 军事 体育 小学 高中 大学学报
BBS 健康 美食 求医 电脑网络 摄影 文学 文摘 评论 英语 财经 经济 汽车 初中 教学 农业致富
拼音顺序检索:A B C D E F G H I J K L M N P Q R S T W X Y Z 其它
您现在的位置是:首页 > 电脑网络 > 《中文信息学报》 > 2007年第06期 > 文章正文
推荐阅读

使用机器学习方法进行新闻的情感自动分类


□ 徐 军 丁宇新 王晓龙 《中文信息学报》 2007年第06期
3/4页上一页1 2 3 4 下一页

  
  5 实验结果与分析
  
  目前尚未有用于基于情感的文本分类的中文语料,我们从网络上收集最近饱受负面新闻困扰的宝洁、高露洁和索尼的近年的相关的新闻和评论854篇作为实验数据,这些文档中包含正面的新闻和负面新闻,但不包含中性新闻。
  
  5.1 实验设置
  本文主要采用词频(Term Frequency)和二值(Binary)作为特征项权重,在基于主题的文本分类,TF的性能明显优于Binary。为了研究特征项权重计算方法的不同对基于情感的文本分类的影响,设计了实验一分别对上述两种权重计算方法进行比较实验。
  与基于主题的文本分类不同,“不”、“没”等否定词不再作为停用词被删除,否定词本身是一个中性词,但是当它否定的对象是具有语义倾向的词语时,语义倾向发生反向变化。Sanjiv在其论文中采用对否定词到第一个标点符号间的所有词语加上“_N”后缀的方法来处理否定词对一句话的语义倾向的影响,这种方法引入了太多的无关特征项,只很小程度的提高了分类的性能。通过统计上述新闻语料发现,否定词否定的对象主要是其后第一个动词(“是”、“可能”等除外)、名词、形容词、成语和习惯语。本文采用的处理方法是将否定词与否定对象结合为一个新特征。为了研究否定词的处理与否对文本的情感分类的影响,设计了实验二分别对否定词的处理方法进行实验。
  在基于主题的文本分类中主题词很重要,而在基于情感的文本分类中具有语义倾向的词语和短语更为重要。在汉语中,具有语义倾向的词语并不限于名词、形容词,具有语义倾向的词语的词性有12种。表1列出了常见的6种。其他的诸如某些叹词、状态词也可能具有感情色彩,但由于在新闻报导中出现的次数非常少,就不再把它们作为特征提取出来。同时,“不”、“没有”等表示否定,以及“非常”、“稍”等表示程度的副词也对文档的情感倾向起到重要作用,所以也都作为特征提取出来。
  很多的词本身并不带有情感倾向,但是当词语成对共现或以短语形式出现的时候,就会具有情感倾向,或者对原有单个词语的情感倾向发生改变。例如:“走出”,是一个中性词,常与表示负面的词语成对出现,如“走出困境”、“走出危机”,虽然“危机”、“困境”都是负面的词语,但整个短语却表达的是一个正面的意思。而否定词会对词的语义倾向发生反向的变化,如“不漂亮”;有的还会令没有情感倾向的词带上正面或负面的情感倾向,如“没有感觉”。有的会令原词的情感倾向增强或减弱,如“非常美丽”。“败退”本身是个负面的词语,但是当另外的负面词语共现时,如:“敌人败退”就表示正面的情感倾向。在基于情感的文本分类中,文档的情感主要是通过具有情感倾向的词语(或共现/关联词语)来体现出来的,这样的词语主要是有形容词、名词、动词、成语和习惯用语。实验三就是为了验证特征词提取上的差异。
  实验中,中文文本的分词及词性标注方法采用实验室的INSUN-ELUS系统完成,使用词作为文本特征。语料被随机按1:1的比例随机划分为训练集和测试集,训练集和测试集不重复。在测试集上的进行100次分类试验,利用平均准确率进行对比实验。
  
  5.2 实验结果
  实验结果分别参见表2、表3和表4。
  对于基于情感的文本分类,从表2中可以看出,采用Binary作为特征项权重的分类性能稍优于采用TF作为特征项权重,这与基于主题的文本分类截然不同,这主要是因为两个方面:
  (1)具有正面或负面的语义倾向的词语只要在一句话或文章中出现,就决定了这句话或文章的语义倾向。而与该词出现的次数无关。
  (2)统计发现,对于具有明显的语义倾向的文章中,这种正面或负面的词语,很少重复出现,而是多以同义词方式出现。
  从表3中我们可以看出,对否定词进行处理能够提高文本情感分类的准确率。汉语的词汇量很丰富,特别是带语义倾向的词语,都有若干个反义词,当作者在表达情感时,常用反义词来表达,使得每篇文档中的否定词有限(平均3至4个),所以性能提高不是十分明显。比较结果7和8可以看出,在对文档特征词根据词性进行过滤时,随着特征数目的减少,处理否定词,能一定程度上有效提高分类的准确率。
  由于形容词、名词、动词、成语和习惯语是最常见的具有语义倾向的词语,文档中使用的这类词语的语义倾向决定了文档的情感分类,这一点在表3种得到了印证。对比结果4和结果5,可以看到文档中的形容词、名词、动词、成语和习惯语是决定一篇文章情感分类的主要因素。从结果6我们也可以看出,当特征词仅是形容词和名词时,依然有很高的准确率。比较结果6和7,我们可以看出形容词和名词作为特征词的性能要明显好于只选择形容词,这是因为:
  (1)只有形容词作为特征时,特征数量太少,导致误差。
  (2)很多的形容词是名词共同出现时,才具有语义倾向,或者与不同的名词共同出现具有不同的语义倾向。如:
  
  a.“在媒体强大的压力之下,SK-Ⅱ悄然在实际操作中放宽退货条件,真是赔了名声折了业绩”。
  b.“从调查中可以看出,索尼仍然表现出强大的品牌优势”。
  c.“凭借无可挑剔的技术和产品与出色的公司品牌形象、强大的市场推广能力,索尼迅速成长壮大起来”。
  “强大”本身是一个正面词汇,但是在语料中,当其修饰具有不同语义倾向的名词时,却表现出不同的语义倾向。a中其修饰负面词汇,属负面;b中其修饰正面词汇,属正面;c中其修饰中性词汇,属正面。
  
  6 结论
  
  本文中,使用朴素贝叶斯和最大熵方法进行了基于情感的文本分类研究,不足之处未采用支持向量机方法,其中最大熵方法的准确率在多数情况下要高于贝叶斯方法。从实验的结果看,基于情感的文本分类的准确率明显低于基于主题的文本分类的准确率,而且采用Binary作为特征项权重的分类性能不逊于采用采用词频作为特征项权重,这也是与基于主题的文本分类的最大的不同。
  我们在试验中也发现,只有具有正负面情感语义倾向的词语对文本的分类性能起到决定性作用,而一些中性词语则不然,所以选择有情感语义倾向的词语作为特征项将会提高分类性能。另外,如前面的分析,很多的词语在共现时才具有情感语义倾向或具有相反的语义倾向,可以设计一种这样的Bigram项生成方法来提高分类性能。同时,新闻和评论中还有很多的客观语句,没有任何的情感语义倾向,有效的识别这些语句并去除也将能极大提高分类的性能,这也将是情感分析研究中的一个重要方向。
  准确的新闻及评论的基于情感的文本分类将会帮助个人、公司等有效地采取措施,减少负面新闻在网络等媒体上的传播和对其声誉造成的负面影响。本文使用机器学习的方法对新闻及评论进行正负面的情感分类,只是一个尝试,期望对相关的需求和应用有所帮助。
3/4页上一页1 2 3 4 下一页
上一篇:信息检索中一种基于词语-主题词相关度的语言模型 下一篇:塔公草地 炫彩花海
“使用机器学习方法进行新闻的情感自动分类”的相关评论共0篇 点击查看
我来评论
用户名: 密码: 匿名发表
留言 推荐 收藏 打印 关闭
热门杂志
    小说月报
    收获
    意林
    半月谈
    乒乓世界
    啄木鸟
    人民文学
    今古传奇·故事版
    小说月报·原创版
    青年文摘(绿版)
Google
 
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 合作伙伴 | 刊社管理 | 网站地图 | 联系方式
金月芽期刊网 2009