设为首页
加入收藏
简版首页
注销
注册新用户
网通镜像
刊社管理
排行榜
约稿
输入您的搜索字词
提交搜索表单
Web
qkzz.net
首页
女性
育儿
婚姻
时尚娱乐
旅游
影视
小说
传奇
文化
新闻
军事
体育
小学
高中
大学学报
BBS
健康
美食
求医
电脑网络
摄影
文学
文摘
评论
英语
财经
经济
汽车
初中
教学
农业致富
拼音顺序检索:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
P
Q
R
S
T
W
X
Y
Z
其它
您现在的位置是:
首页
>
电脑网络
>
《中文信息学报》
>
2007年第06期
> 文章正文
推荐阅读
数据在这个U盘里很保险
为什么要制造“最毒后妈”?
美国夫妇网上卖积雪
校园爆笑经典
你是我的面条王子
“高清家庭”三步走
平板电视“三包”承诺竞争蕴含风险
“计算机组装与维护”课程设置探讨
扶稳你的“葡萄架”
用“孔子的方式”管人
网络环境下教学模式的探索
Windows Vista中的EFS加密
使用机器学习方法进行新闻的情感自动分类
推荐到首页
□ 徐 军 丁宇新 王晓龙
《中文信息学报》
2007年第06期
3/4页
1
2
3
4
5 实验结果与分析
目前尚未有用于基于情感的文本分类的中文语料,我们从网络上收集最近饱受负面新闻困扰的宝洁、高露洁和索尼的近年的相关的新闻和评论854篇作为实验数据,这些文档中包含正面的新闻和负面新闻,但不包含中性新闻。
5.1 实验设置
本文主要采用词频(Term Frequency)和二值(Binary)作为特征项权重,在基于主题的文本分类,TF的性能明显优于Binary。为了研究特征项权重计算方法的不同对基于情感的文本分类的影响,设计了实验一分别对上述两种权重计算方法进行比较实验。
与基于主题的文本分类不同,“不”、“没”等否定词不再作为停用词被删除,否定词本身是一个中性词,但是当它否定的对象是具有语义倾向的词语时,语义倾向发生反向变化。Sanjiv在其论文中采用对否定词到第一个标点符号间的所有词语加上“_N”后缀的方法来处理否定词对一句话的语义倾向的影响,这种方法引入了太多的无关特征项,只很小程度的提高了分类的性能。通过统计上述新闻语料发现,否定词否定的对象主要是其后第一个动词(“是”、“可能”等除外)、名词、形容词、成语和习惯语。本文采用的处理方法是将否定词与否定对象结合为一个新特征。为了研究否定词的处理与否对文本的情感分类的影响,设计了实验二分别对否定词的处理方法进行实验。
在基于主题的文本分类中主题词很重要,而在基于情感的文本分类中具有语义倾向的词语和短语更为重要。在汉语中,具有语义倾向的词语并不限于名词、形容词,具有语义倾向的词语的词性有12种。表1列出了常见的6种。其他的诸如某些叹词、状态词也可能具有感情色彩,但由于在新闻报导中出现的次数非常少,就不再把它们作为特征提取出来。同时,“不”、“没有”等表示否定,以及“非常”、“稍”等表示程度的副词也对文档的情感倾向起到重要作用,所以也都作为特征提取出来。
很多的词本身并不带有情感倾向,但是当词语成对共现或以短语形式出现的时候,就会具有情感倾向,或者对原有单个词语的情感倾向发生改变。例如:“走出”,是一个中性词,常与表示负面的词语成对出现,如“走出困境”、“走出危机”,虽然“危机”、“困境”都是负面的词语,但整个短语却表达的是一个正面的意思。而否定词会对词的语义倾向发生反向的变化,如“不漂亮”;有的还会令没有情感倾向的词带上正面或负面的情感倾向,如“没有感觉”。有的会令原词的情感倾向增强或减弱,如“非常美丽”。“败退”本身是个负面的词语,但是当另外的负面词语共现时,如:“敌人败退”就表示正面的情感倾向。在基于情感的文本分类中,文档的情感主要是通过具有情感倾向的词语(或共现/关联词语)来体现出来的,这样的词语主要是有形容词、名词、动词、成语和习惯用语。实验三就是为了验证特征词提取上的差异。
实验中,中文文本的分词及词性标注方法采用实验室的INSUN-ELUS系统完成,使用词作为文本特征。语料被随机按1:1的比例随机划分为训练集和测试集,训练集和测试集不重复。在测试集上的进行100次分类试验,利用平均准确率进行对比实验。
5.2 实验结果
实验结果分别参见表2、表3和表4。
对于基于情感的文本分类,从表2中可以看出,采用Binary作为特征项权重的分类性能稍优于采用TF作为特征项权重,这与基于主题的文本分类截然不同,这主要是因为两个方面:
(1)具有正面或负面的语义倾向的词语只要在一句话或文章中出现,就决定了这句话或文章的语义倾向。而与该词出现的次数无关。
(2)统计发现,对于具有明显的语义倾向的文章中,这种正面或负面的词语,很少重复出现,而是多以同义词方式出现。
从表3中我们可以看出,对否定词进行处理能够提高文本情感分类的准确率。汉语的词汇量很丰富,特别是带语义倾向的词语,都有若干个反义词,当作者在表达情感时,常用反义词来表达,使得每篇文档中的否定词有限(平均3至4个),所以性能提高不是十分明显。比较结果7和8可以看出,在对文档特征词根据词性进行过滤时,随着特征数目的减少,处理否定词,能一定程度上有效提高分类的准确率。
由于形容词、名词、动词、成语和习惯语是最常见的具有语义倾向的词语,文档中使用的这类词语的语义倾向决定了文档的情感分类,这一点在表3种得到了印证。对比结果4和结果5,可以看到文档中的形容词、名词、动词、成语和习惯语是决定一篇文章情感分类的主要因素。从结果6我们也可以看出,当特征词仅是形容词和名词时,依然有很高的准确率。比较结果6和7,我们可以看出形容词和名词作为特征词的性能要明显好于只选择形容词,这是因为:
(1)只有形容词作为特征时,特征数量太少,导致误差。
(2)很多的形容词是名词共同出现时,才具有语义倾向,或者与不同的名词共同出现具有不同的语义倾向。如:
a.“在媒体强大的压力之下,SK-Ⅱ悄然在实际操作中放宽退货条件,真是赔了名声折了业绩”。
b.“从调查中可以看出,索尼仍然表现出强大的品牌优势”。
c.“凭借无可挑剔的技术和产品与出色的公司品牌形象、强大的市场推广能力,索尼迅速成长壮大起来”。
“强大”本身是一个正面词汇,但是在语料中,当其修饰具有不同语义倾向的名词时,却表现出不同的语义倾向。a中其修饰负面词汇,属负面;b中其修饰正面词汇,属正面;c中其修饰中性词汇,属正面。
6 结论
本文中,使用朴素贝叶斯和最大熵方法进行了基于情感的文本分类研究,不足之处未采用支持向量机方法,其中最大熵方法的准确率在多数情况下要高于贝叶斯方法。从实验的结果看,基于情感的文本分类的准确率明显低于基于主题的文本分类的准确率,而且采用Binary作为特征项权重的分类性能不逊于采用采用词频作为特征项权重,这也是与基于主题的文本分类的最大的不同。
我们在试验中也发现,只有具有正负面情感语义倾向的词语对文本的分类性能起到决定性作用,而一些中性词语则不然,所以选择有情感语义倾向的词语作为特征项将会提高分类性能。另外,如前面的分析,很多的词语在共现时才具有情感语义倾向或具有相反的语义倾向,可以设计一种这样的Bigram项生成方法来提高分类性能。同时,新闻和评论中还有很多的客观语句,没有任何的情感语义倾向,有效的识别这些语句并去除也将能极大提高分类的性能,这也将是情感分析研究中的一个重要方向。
准确的新闻及评论的基于情感的文本分类将会帮助个人、公司等有效地采取措施,减少负面新闻在网络等媒体上的传播和对其声誉造成的负面影响。本文使用机器学习的方法对新闻及评论进行正负面的情感分类,只是一个尝试,期望对相关的需求和应用有所帮助。
3/4页
1
2
3
4
上一篇:
信息检索中一种基于词语-主题词相关度的语言模型
下一篇:
塔公草地 炫彩花海
--->
返回《中文信息学报》2007年第06期目录
<---
“使用机器学习方法进行新闻的情感自动分类”的相关评论共0篇
点击查看
我来评论
:
用户名:
密码:
匿名发表
留言
推荐
收藏
打印
关闭
品牌推荐
新闻爱好者
武当
法治经纬
中外书摘
读与写
小说月刊
电脑知识与技术
中国民兵
中国改革(综合版)
糖尿病之友
意林
今日财富
爱情婚姻家庭
世界汽车
人生与伴侣
小说月报
每周排行
每日排行
我在深圳“二奶村”的60个日日夜夜
二十年前的一宗强奸案(中篇小说)
警察与流氓
爱一定很痛
大学生家教
小姨多鹤
红酒
门内的保姆门外的人
黄志忠、何音:用真爱面对演艺生涯...
嫁死(中篇小说)
我在深圳“二奶村”的60个日日夜夜
二十年前的一宗强奸案(中篇小说)
爱一定很痛
警察与流氓
红酒
大学生家教
小姨多鹤
门内的保姆门外的人
嫁死(中篇小说)
深喉
相关刊物
《中国计算机报》
《新浪潮》
《计算机工程与应用》
《电子世界》
《家庭电子(爱好者)》
《玩电脑》
《电脑安全专家》
《电脑高手》
《卫星通信广播电视》
《在线技术》
热门杂志
输入您的搜索字词
提交搜索表单
Web
qkzz.net
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们
|
网站声明
|
合作伙伴
|
刊社管理
|
网站地图
|
联系方式
金月芽期刊网 2009