设为首页
加入收藏
简版首页
注销
注册新用户
网通镜像
刊社管理
排行榜
约稿
输入您的搜索字词
提交搜索表单
Web
qkzz.net
首页
女性
育儿
婚姻
时尚娱乐
旅游
影视
小说
传奇
文化
新闻
军事
体育
小学
高中
大学学报
BBS
健康
美食
求医
电脑网络
摄影
文学
文摘
评论
英语
财经
经济
汽车
初中
教学
农业致富
拼音顺序检索:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
P
Q
R
S
T
W
X
Y
Z
其它
您现在的位置是:
首页
>
电脑网络
>
《中文信息学报》
>
2007年第06期
> 文章正文
推荐阅读
数据在这个U盘里很保险
为什么要制造“最毒后妈”?
美国夫妇网上卖积雪
校园爆笑经典
你是我的面条王子
“高清家庭”三步走
平板电视“三包”承诺竞争蕴含风险
“计算机组装与维护”课程设置探讨
扶稳你的“葡萄架”
用“孔子的方式”管人
网络环境下教学模式的探索
Windows Vista中的EFS加密
使用机器学习方法进行新闻的情感自动分类
推荐到首页
□ 徐 军 丁宇新 王晓龙
《中文信息学报》
2007年第06期
1/4页
1
2
3
4
摘 要:本文主要研究机器学习方法在新闻文本的情感分类中的应用,判断其是正面还是负面。我们利用朴素贝叶斯和最大熵方法进行新闻及评论语料的情感分类研究。实验表明,机器学习方法在基于情感的文本分类中也能取得不错的分类性能,最高准确率能达到90%。同时我们也发现,对于基于情感的文本分类,选择具有语义倾向的词汇作为特征项、对否定词正确处理和采用:值作为特征项权重能提高分类的准确率。总之,基于情感的文本分类是一个更具挑战性的工作。
关键词:计算机应用;中文信息处理;文本分类;情感分析;贝叶斯;最大熵
中图分类号:TP391 文献标识码:A
1 引言
随着www的高速发展,在线的资源数量不断增多,这些资源多是以文本方式出现,从而文本分类成为处理和组织大量文档数据的关键技术,所以利用计算机进行文本的自动分类成为自然语言处理和人工智能领域一项非常有意义的研究课题。目前的文本自动分类的研究主要是采用统计和机器学习的方法,根据文本的主题和内容对文本进行分类等。
近年来,BBS和Blog的迅速发展,主观性的言论也越来越多,这些言论大部分都是一些主观的论断和对事物的一些看法,如对电子产品、汽车的使用评价、电影评论等,那么如何判断这些评论是正面还是反面?态度是赞成还是反对?认为其值得推荐还是不值一文?这就引出了文本分类领域一个新的研究方向——基于情感的文本分类。
基于情感的文本分类是近年来才兴起的一个研究方向,主要研究如何对文本所表达的情感等主观内容进行分类,判断其是正面还是负面。它具有很多重要的实际应用:
推荐系统:对用户对产品/服务的在线反馈进行自动分类和整理,分析和挑选出值得推荐的产品/服务,推荐给其他用户。如根据一部电影的所有相关评论,向未观看者做出是否值得观看的推介。同时,也可以帮助商业机构自动归类其产品和服务的反馈文档,避免繁琐的手工劳动。
过滤系统:对政府或商业机构的不利言论进行过滤,自动识别发文者的政治倾向或对组织机构的看法。如根据文本中的情感进行分类,对攻击个人或政府的邮件进行过滤。
问答系统:对问题答案进行自动的基于情感的文本分类,避免回答的感情色彩出现错误,适得其反。
本文主要研究如何利用机器学习的方法来对新闻及评论来进行正面和负面的分类。基于情感的文本分类的方法和基于主题的文本分类相似,不同的地方在于特征词的提取,在基于主题的文本分类中主题词很重要,而在基于情感的文本分类中具有主观性的词语更为重要,如危机、制裁、退货、优秀等。
2 相关研究
文本作为一种重要的信息交互媒介,主要的功能是传情达意,基于内容的研究已经很成熟,近些年来越来越多的研究开始集中到“传情”上——情感分析.主要的研究内容包括词语的语义倾向识别、基于情感的文本分类、观点提取、主观性分析等。
对一篇文档而言,能对其语义倾向起到决定性作用的主要是构成这篇文档所用的词语。所以,对文本进行基于情感的文本分类的基础是判定词的语义倾向。但是目前,不论是英语还是汉语,都没有一个完整的涵盖词语语义倾向的词典,也不可能有这样的一个完备的词典,因为很多的词语在不同语境中它的语义倾向也不尽相同。Hatzivassiloglou等根据词语之间关系来判定其语义倾向,他们注意到形容词的语义倾向受连接它们的连接词“and”、“but”等约束,知道其中一个词的语义倾向,就可以推测出另一个。如“excellent and X”,可以推测X也是褒义的。根据语言学上连接词对语义倾向约束性的分析,他们提出了一种四步法的有监督学习算法来判断一个形容词的语义倾向。Turney在其论文中介绍了两种利用词语与具有明显语义倾向的种子词语之间统计关系来自动识别词语语义倾向的方法:PMI-IR和LSA。Esuli通过对一个词语的注释(从词典中获得)进行训练和分类,从而判断其他词语的语义倾向。
基于情感的文本分类研究大多是通过统计正面或负面语义倾向的词语特征数目来对文本进行分类。如Turney就使用一无指导学习方法,利用前面提到的PMI-IR方法计算出文本中出现的符合规则的短语的语义倾向,通过对文档中所有短语的语义倾向的平均值的正负来判断文档描述的对象是否值得推荐。Pang Bo最早利用机器学习方法来解决基于情感的文本分类问题,应用朴素贝叶斯、最大熵、SVM对电影评论进行分类。SVM在几种分类方法中效果最好,分类准确率最高达到约80%。
事实上,对一篇文章而言,它表达的情感的正面或负面是通过主观语句体现出来的,如“产品质量好!”。但是像“它的售价刚好是¥50元!”这样的客观语句,虽然有“好”这一特征词,但并不应该能起到任何作用。但是如果能区分一篇文章中的主观语句和客观语句,只对主观语句进行特征选择,会对分类的准确率有很大提高。Bruce、Wiebe等利用贝叶斯分类器对句子的主客观性进行分类。Pang Bo把主客观语句分类转换成求图的最小截问题,实现一个Cut-based分类器,对主客观语句进行分类。
近年,基于情感的文本分类逐渐被应用到更多的领域中。例如,微软公司开发的商业智能系统Pulse,它能够从大量的评论文本数据中,利用文本聚类技术提取出用户对产品细节的看法;产品信息反馈系统Opinion Observer,利用网络上丰富的顾客评论资源,对评论的主观内容进行分析处理,提取产品各个特征及消费者对其的评价,并给出一个可视化结果;Sanjiv从网络上的股评信息中获取某只股票的市场评价,对股票的价格进行预测。
中文的基于情感的文本分类研究还不是很多。基于HowNet,朱嫣岚在其论文中提出了两种词语语义倾向性计算的方法:基于语义相似度的方法和基于语义相关场的方法。Yuen通过计算词语和具有强烈感情色彩的语素或单个汉字之间在LI-VAC文集上的统计关系来判定词语语义倾向。T’SOU利用词语的语义倾向来计算新闻文本的语义倾向,衡量公众对名人的评价。
1/4页
1
2
3
4
上一篇:
信息检索中一种基于词语-主题词相关度的语言模型
下一篇:
塔公草地 炫彩花海
--->
返回《中文信息学报》2007年第06期目录
<---
“使用机器学习方法进行新闻的情感自动分类”的相关评论共0篇
点击查看
我来评论
:
用户名:
密码:
匿名发表
留言
推荐
收藏
打印
关闭
品牌推荐
新闻爱好者
武当
法治经纬
中外书摘
读与写
小说月刊
电脑知识与技术
中国民兵
中国改革(综合版)
糖尿病之友
意林
今日财富
爱情婚姻家庭
世界汽车
人生与伴侣
小说月报
每周排行
每日排行
我在深圳“二奶村”的60个日日夜夜
二十年前的一宗强奸案(中篇小说)
警察与流氓
爱一定很痛
大学生家教
小姨多鹤
红酒
门内的保姆门外的人
黄志忠、何音:用真爱面对演艺生涯...
嫁死(中篇小说)
我在深圳“二奶村”的60个日日夜夜
二十年前的一宗强奸案(中篇小说)
爱一定很痛
警察与流氓
红酒
大学生家教
小姨多鹤
门内的保姆门外的人
嫁死(中篇小说)
深喉
相关刊物
《中国计算机报》
《新浪潮》
《计算机工程与应用》
《电子世界》
《家庭电子(爱好者)》
《玩电脑》
《电脑安全专家》
《电脑高手》
《卫星通信广播电视》
《在线技术》
热门杂志
输入您的搜索字词
提交搜索表单
Web
qkzz.net
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们
|
网站声明
|
合作伙伴
|
刊社管理
|
网站地图
|
联系方式
金月芽期刊网 2009