手机版
您的当前位置: 今安美文网 > 美文 > 情感美文 > 中文情感分析数据集

中文情感分析数据集

来源:情感美文 时间:2018-09-21 18:30:04 点击: 推荐访问:中文文本情感分析 视频情感数据集下载

【www.zqhxrl.com--情感美文】

中文情感分析数据集篇一

情感分析简述

情感分析简述

分类: NLP2012-04-08 12:38 1022人阅读 评论(3) 收藏 举报

情感classification算法测试translationmatrix

情感分析,我研究了也有半年有余了,ACL Anthology上关于情感分析的论文也基本看过了一遍,但是到目前还没有什么成就的。以下是我为一位同学毕业设计写的情感分析方面的综述,引用的论文基本上是ACL和COLING还有EMNLP上历年关于情感分析的论文,本文应该学术性比较强一点,本文虽不打算发表,但由于将来可能还有用,以及关于学术上的原因,请大家如果要引用请务必标明出处

概述

情感分析自从2002年由Bo Pang提出之后,获得了很大程度的研究的,特别是在在线评论的情感倾向性分析上获得了很大的发展,目前基于在线评论文本的情感倾向性分析的准确率最高能达到90%以上,但是由于深层情感分析必然涉及到语义的分析,以及文本中情感转移现象的经常出现,所以基于深层语义的情感分析以及篇章级的情感分析进展一直不是很大。情感分析还存在的一个问题是尚未存在一个标准的情感测试语料库,虽然Bo Pang实验用的电影评论数据集(Wilson等建立的MPQA(

目前情感分析的研究基本借鉴文本分类等机器学习的方法,还没有根据自身的特点形成一套独立的研究方法,当然在某种程度上也可以把情感分析看出一种特殊的文本分类。比较成熟的方法是基于监督学习的机器学习方法,半监督学习和无监督学习目前的研究不是很多,单纯的基于规则的情感分析这两年已很少研究了。既然目前很多情感分析的研究基于机器学习,那么特征选择就是一个很重要的问题,N元语法等句法特征是使用最多的一类特征,而语义特征(语义计算)和结构特征(树核函数)从文本分类的角度看效果远没有句法特征效果好,所以目前的研究不是很多的。

由于基于监督学习情感分析的研究已经很成熟了,而且在真实世界中由于测试集的数量要远远多于训练集的数量,并且测试集的领域也不像在监督学习中被限制为和训练集一致,也就是说目前情感分析所应用的归纳偏置假设在真实世界中显得太强的,为了和真实世界相一致,基于半监督学习或弱指导学习的情感分析和跨领域的情感分析势必是将来的研究趋势之一。

在情感分析的最初阶段基于语义和基于规则的情感分析曾获得了比较大的重视,但是由于本身实现的复杂性以及文本分类和机器学习方法在情感分析应用上获得的成功,目前关于这方面的研究以及很少了,但是事实上,语义的相关性和上下文的相关性正是情感分析和文本分类最大的不同之处,所以将基于语义和规则的情感分析与基于机器学习的情感分析相结合也将是未来的研究趋势之一。

以下将分别对情感分析的起源,目前基于监督学习,无监督学习,基于规则和跨领域的情感分析的一些研究工作进行简单的介绍。

起源

虽然之前也有一些相关工作,但目前公认的情感分析比较系统的研究工作开始于(Pang et al., 2002)基于监督学习(supervised learning)方法对电影评论文本进行情感倾向性分类和(Turney,2002)基于无监督学习(unsupervised learning)对文本情感情感倾向性分类的研究。(Pang et al., 2002)基于文本的N元语法(ngram)和词类(POS)等特征分别使用朴素贝叶斯(Naive Bayes),最大熵(Maximum Entropy)和支持向量机(Support Vector Machine,SVM)将文本情感倾向性分为正向和负向两类,将文本的情感进行二元划分的做法也一直沿用至今。同时他们在实验中使用电影评论数据集目前已成为广泛使用的情感分析的测试集。(Turney ,2002)基于点互信息(Pointwise Mutual Information,PMI)计算文本中抽取的关键词和种子词(excellent,poor)的相似度来对文本的情感倾向性进行判别(SO-PMI算法)。

在此之后的大部分都是基于(Pang et al., 2002)的研究。而相对来说,(Turney et al.,2002)提出的无监督学习的方法虽然在实现上更加简单,但是由于单词之间的情感相似度难以准确的计算和种子词的难以确定,继续在无监督学习方向的研究并不是很多的,但是利用SO-PMI算法计算文本情感倾向性的思想却被很多研究者所继承了。

监督学习

目前,基于监督学习的情感分析仍然是主流,除了(Li et al.,2009)基于非负矩阵三分解(Non-negative Matrix Tri-factorization),(Abbasi et al.,2008)基于遗传算法(Genetic Algorithm)的情感分析之外,使用的最多的监督学习算法是朴素贝叶斯,k最近邻(k-Nearest Neighbor,k-NN),最大熵和支持向量机的。而对于算法的改进主要在对文本的预处理阶段。

一个和文本分类不同地方就是情感分析有时需要提取文本的真正表达情感的句子。(Pang et al., 2004)基于文本中的主观句的选择和(Wilson el al.,2009)基于文本中的中性实例(neutral instances)的分析,都是为了能够尽量获得文本中真正表达情感的句子。(Abbasi et al.,2008)提出通过信息增益(Information Gain,IG)的方法来选择大量特征集中对于情感分析有益的特征。

而对于特征选择,除了N元语法和词类特征之外,(Wilson el al.,2009)提出混合单词特征,否定词特征,情感修饰特征,情感转移特征等各类句法特征的情感分析,(Abbasi et al.,2008)提出混合句子的句法(N元语法,词类,标点)和结构特征(单词的长度,词类中单词的个数,文本的结构特征等)的情感分析。

除了对于文本的预处理,对于监督学习中情感分析还进行了以下方面的研究的。(Melville et al., 2009)和(Li et al.,2009)提出结合情感词的先验的基于词典的情感倾向性和训练文本中后验的基于上下文的情感情感倾向性共同判断文本的情感倾向性。(Taboada et al.,2009)提出结合文本的题材(描述,评论,背景,解释等)和文本本身的特征共同判断文本的情感倾向性。(Tsutsumi et al.,2007)提出利用多分类器融合技术来对文本情感分类。(Wan, 2008)和(Wan, 2009)提出结合英文中丰富的情感分析资源来提高中文情感分析的效果。

基于规则/无监督学习

和基于监督学习的情感分析相比,基于规则和无监督学习方面的研究不是很多。除了(Turney,2002)之外,(朱嫣岚 et al.,2002)利用HowNet对中文词语语义的进行了情感倾向计算。(娄德成 et al.,2006)利用句法结构和依存关系对中文句子语义进行了情感分析,(Hiroshi et al.,2004)通过改造一个基于规则的机器翻译器实现日文短语级情感分析,(Zagibalov et al.,2008)在(Turney,2002)的SO-PMI算法的基础上通过对于中文文本特征的深入分析以及引入迭代机制从而在很大程度上提高了无监督学习情感分析的准确率。

跨领域情感分析

跨领域情感分析在情感分析中是一个新兴的领域,目前在这方面的研究不是很多,主要原因是目前的研究还没有很好的解决如何寻找两个领域之间的一种映射关系,或者说如何寻找两个领域之间特征权值之间的平衡关系。对于跨领域情感分析的研究开始于(Blitzer et al.,2007)将结构对应学习(Structural Correspondence Learning,SCL)引入跨领域情感分析,SCL是一种应用范围很广的跨领域文本分析算法,SCL的目的是将训练集上的特征尽量对应到测试集中。(Tan et al.,2009)将SCL引入了中文跨领域情感分析中。(Tan2 et al.,2009)提出将朴素贝叶斯和EM算法的一种半监督学习方法应用到了跨领域的情感分析中。(Wu et al.,2009)将基于EM的思想将图排序(Graph Ranking)算法应用到跨领域的情感分析中,图排序算法可以认为是一种迭代的k-NN算法。

从目前的研究可以看出,跨领域的情感分析主要问题在于寻找两个领域之间的一种映射关系,但是这样的映射关系或者很难寻找,或者需要相当强的数学证明。所以很多研究借用半监督学习的方法,通过逐次迭代逐渐减少训练集和测试集之间的差异。

参考文献:

[1]Xiaojun Wan.Using Bilingual Knowledge and Ensemble Techniques for Unsupervised Chinese Sentiment Analysis.Proceedings of EMNLP-08,553-561

[2]Xiaoun Wan.Co-Training for Cross-Lingual Sentiment Classification.Proceedings of ACL-09,234-243

[3]Theresa Wilson,Janyce Wiebe,Paul Hoffmann. Recognizing Contextual Polarity: An Exploration of Features for Phrase-Level. Computer Linguistics,25(3),399-433

[4]Ahmed Abbasi,Hsinchun Chen,Arab,Salem.Sentiment Analysis in Multiple Languages:Feature Selection for Opinion Classification in Web Forums.ACM Transaction on Information Systems,26(3),12:1-12:34

[5]Prem Melville,Wojciech Gryc,Richard D.Larence.Sentiment Analysis Of Blogs by Combining Lexical Knowledge with Text Classification.Proceedings of KDD-09,1275-1283

[6]KANAYAMA Hiroshi,NASUKAWA Tetsuya,WATANBE Hideo.Deep Sentiment Analysis Using Machine Translation Technology.Proceedings of Coling -04

[7]Maite Taboada,Julian Brooke,Manfred Stede.Genre-Based Paragraph Classification for Sentiment Analysis.Proceedings of SIGDIAL-09,62-70

[9]Taras Zagibalov,John Carroll.Automatic Seed Word Selection for Unsupervised Sentiment Classification of Chinese Text.Proceedings of Coling-08,1073-1080

[10]Bo Pang,Lillian Lee.A Sentimental Education:Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts.Proceedings of ACL-04

[11]Bo Pang,Lillian Lee,Shivakumar Vaithyanathan.Thumbs up?Sentiment Classification using Machine Learning Techniques.Proceedings of EMNLP-02,79-86

[12]Peter D. Turney.Thumbs Up or Thumbs Down?Senmantic Orientition Applied to Unsupervised Classification of Reviews.Proceedings of ACL-02,417-424

[13]Kimitaka Tsutsumi, Kazutaka Shimada,Tsutomu Endo. Movie Review Classification Based on a Multiple Classifier. Proceedings of the 21st Pacific Asia Conference on Language, Information and Computation (PACLIC21), 481-488

[14]John Blitzer,Mark Dredze, Fernando Pereira. Biographies, Bollywood, Boom-boxes and Blenders:Domain Adaptation for Sentiment Classification. Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, 440–447

[15]Songbo Tan,Xueqi Cheng. Improving SCL Model for Sentiment-Transfer Learning. Proceedings of NAACL HLT 2009: Short Papers, 181–184

[16]Songbo Tan, Xueqi Cheng, Yuefen Wang, Hongbo Xu. Adapting Naive Bayes to Domain Adaptation for Sentiment Analysis. ECIR 2009,337–349

[17]Qiong Wu,Songbo Tan,Xueqi Cheng. Graph Ranking for Sentiment Transfer. Proceedings of the ACL-IJCNLP 2009 Conference Short Papers, 317–320

[18]Tao Li Ti Zhang,Vikas Sindhwani.A Non-negative Matrix Tri-factorization Approach to Sentiment Classification with Lexical Prior Knowledge.Proceeding of ACL-09,244-252

[19]娄德成,姚天妨.汉语与子语义极性分析和观点抽取方法的研究.计算机应用,2006,26(11),2622-2625

[20]朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德. 基于HowNet的词汇语义倾向计算. 中文信息学 报,2006,20(1),14-20

中文情感分析数据集篇二

文本情感分析综述

随着企业信息化与互联网的发展,信息以爆炸性速度飞速增长,其中包括了大量的非结构化与半结构化数据。非结构化与半结构化数据,主要是文本型数据,阐述5w问题,即who,when,where,what,Why。如何充分利用非结构化数据与半结构化数据,分析其包含的潜在信息,拥有支持决策,成为了众多企业与研究者关注的重点。尤其,针对互联网(如博客和论坛)上大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信息的收集和处理,因此迫切需要计算机帮助用户快速获取和整理这些相关评价信息。因此,如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。情感分析(sentiment analysis)技术也就应运而生(本文中提及的情感分析,都是指文本情感分析)。

文本情感分析(sentiment analysis),又称为意见挖掘,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。其中,主观情感可以是他们的判断或者评价,他们的情绪状态,或者有意传递的情感信息。因此,情感分析的一个主要任务就是情感倾向性的判断,Pang等人在文献1中将情感倾向分为正面、负面和中性,即褒义、贬义和客观评价。研究初期,大量研究者都致力于针对词语和句子的倾向性判断研究,但随着互联网上大量主观性文本的出现,研究者们逐渐从简单的情感词语的分析研究过渡到更为复杂的情感句研究以及情感篇章的研究。文本情感分析主要可以归纳为3项层层递进的研究任务,即情感信息的抽取、情感信息的分类以及情感信息的检索与归纳[2]。情感信息抽取就是将无结构的情感文本转化为计算机容易识别和处理的结构化文本。情感信息分类则是利用情感信息抽取的结果将情感文本单元分为若干类别,供用户查看,如分为褒、贬、客观或者其他更细致的情感类别。情感信息检索和归纳可以看作是与用户直接交互的接口,强调检索和归纳的两项应用。

情感分析是一个新兴的研究课题,具有很大的研究价值和应用价值,正受到国内外众多研究者的青睐。目前实现情感分析的技术主要包括基于机器学习法和基于语义方法两类。本文主要针对这两大方法的研究进展进行比较分析,接着介绍国内外现有的资源建设情况,最后介绍情感分析的几个重要应用和展望它的发展趋势。

1 基于统计机器学习法

随着大规模语料库的建设和各种语言知识库的出现,基于语料库的统计机器学习方法进入自然语言处理的视野。多种机器学习方法应用到自然语言处理中并取得了良好的效果,促进了自然语言处理技术的发展。机器学习的本质是基于数据的学习(Learning from Data)。利用机器学习算法对统计语言模型进行训练,最后用训练好的分类器对新文本情感进行识别。 2002年,Pang 等人就在文献[1]中提出用机器学习的方法进行情感倾向的挖掘工作,他们以互联网上的电影评论文本作为语料,采用了不同的特征选择方法,应用朴素贝叶斯(Naive Bayes)、最大熵(Maximum Entropy)、向量机(SVM)对电影评论分别进行分类,实验表明SVM的分类性能最好,准确率达到 87.5%。该研究引起学术界的关注,之后用于倾向性判断的机器学习算法的改进被陆续提出,基本的算法有:支持向量机(SVM)、朴素贝叶斯(NB)、K-近邻(KNN)、简单线性分类器(SLC)和最大熵(ME)等。他们在另一项工作中,将文本极性分类问题转换成求取句子连接图的最小分割问题,实现了一个基于minimum-cut的分类器。[7]。 Whitelaw等人[11]关注研究带形容词的词组及其修饰语(如“extremely boring”或“not really verygood”),他们提取带形容词的词组作为特征,基于这些特征,用向量空间模型表示文

档,并采用Support Vector Machine进行分类,来区分带有正面和负面评论的文档。

Feizhongchao[3]等利用句子短语模式对文本的情感倾向进行分类,主要通过构造文本中的每个句子短语模式计算情感倾向得分。Ni等利用CHI和信息增益进行特征选择,并采用NB、SVM和Rocchio’s算法对情感分类 [8]。Cui等利用PA(Passive Aggressive)、LM(Language Modeling)和Winnow分类器,并比较了她们的性能[9]。

在英文评论领域,研究者已经初步取得一些成果,而针对中文网络用户评论的研究仍还处于起步阶段。随着中国电子商务在世界领域内的崛起,亟需对于中文评论中有用信息的自动提取技术。

{中文情感分析数据集}.

对于利用机器学习的方法进行中文的情感分析,由于机器学习方法的通用性,面向英文的很多方法都可以借鉴。近几年国内研究人员在此方面也取得一些成果,唐慧丰等人[10]还特别针对各种情感分类技术包括面向中文文本的方法进行了总结和比较。

2005年,叶强[4,5]等人从文本中抽取主观性的信息,并赋予相应的权值,根据权重构造倾向分类器。蔡健平等人[6]提出的基于机器学习的词语和句子极性分析,该方法通过构建极性词典来分析领域极性词,同时采用基于词的方法和Bayes方法对网上手机评论文章包含的主观意见进行褒贬挖掘,取得了一定的成果。李艺红,蒋秀凤在文献[12]中采用SentWordNet构建中文倾向性词表,通过剔除停用词等降低句子向量的维数,以此来提高句子向量化速度,然后利用支持向量机分类器进行句子倾向性判断,最后提出两种新的置信度计量方法对倾向性句子进行排序。实验结果表明,构建的识别系统在一定程度上能有效识别倾向性句子。白鸽,左万利等在文献[13]中针对汉语评论的多种特征使用机器学习方法(如贝叶斯、最大熵和支持向量机),解决了汉语评论的情感分类问题。实验结果表明,机器学习方法对汉语评论的分类效果较好,支持向量机的表现最好。句子级别和评论级别的准确率分别达到88.26%和91.79%。随着研究进展的深入,逐渐出现一些研究者结合不同分类方法进行情感计算。郭明等在针对新闻报道情感分析中将机器学习中的经典分类方法与规则方法相结合,通过支持向量机分类器来研究特征选择方法及特征权重计算方法的组合进行实验以分析新闻语音文本的情感倾向,并判断其强弱[14]。{中文情感分析数据集}.

并且,近年来有关自然语言处理、人工智能、信息检索、数据挖掘以及Web应用等领域的多个国际顶级会议(AAAI、ACL、SIGIR等)都收录了文本情感倾向分析的相关论文。

机器学习的方法虽然在目前来讲分类的准确程度比较高,但是它针对每一种产品使用前,训练样本集的建立都需要采用人工方法对大量的评论文章逐一阅读甄别,并进行手工标志,这与利用自动情感分类降低人的阅读负担这一初衷还有着一定的差距。因此,近来许多研究者将情感分析研究的重点集中在对训练样本的需求量较低的语义方法上。

2、基于语义的方法

最初学者想到利用词典将手工采集的种子评价词语进行扩展来获取大量的评价词

[10-12].这种方法简单易行,但是较依赖于种子评价词语的个数和质量,并且容易由于一些词语的多义性而引入噪声.为了避免词语的多义性,一部分学者使用词典中词语的注释信息来完成评价词语的识别与极性判断[13-16].此外,一些学者[17]沿用了Turney等人的点互信息的方法[9],通过计算WordNet中的所有形容词与种子褒义词代表good和贬义词bad之间的关联度值来识别出评价词语情感倾向。

2002年,Turney在其论文[15]中介绍了基于语义倾向的非监督文本分类方法。根据褒贬含义的倾向信息对评论性文章进行分类,其分类结果更符合人们对评论性文章分类的实际需求。Pang提出了对语义倾向分类结果进行后续处理,进一步将分类结果按照语义倾向强度{中文情感分析数据集}.

进行细分的方法,并通过一系列的实验证明了其方法的可行性[16]。

2004 年,Hu [17]等人首先提出应用关联规则分类方法提取英文评论中的产品特征,利用该非监督型方法对于包括手机、数码相机等产品评论进行挖掘,平均查全率达到 80%,平均查准率达到 72%,并在此基础上进行了后续的研究[18],判断了用户对这些特征的情感导向。Popescu 等人[19]利用研发的 KonwItAll 系统进行贝叶斯分类,从而提取产品特征,提高 Hu 的准确率,但是查准率却有所下降。刘健等人[21]提出与产品特征挖掘并考虑产品特征的情感倾向这两个功能类似的意见实例抽取(opinion instance extraction) 需要建立相关的领域知识;Kobayashi 等人[20]采用了一个半自动化的循环方法提取产品特征和用户观点,但是需要大量的人工参与。

以上研究都是针对于词语的情感分类,利用已有的电子词典或词语知识库扩展生成情感倾向。英文词语情感倾向信息的获取主要是在General Inquirer和WordNet的基础上进行的研究;Peter[23]最早提出将点互信息( pointwise mutual information) 与信息检索方法( information retrieval) 相结合,借助搜索引擎的后台数据库获得语义倾向信息,得到汽车评论的准确率是 84%,电影评论的准确率是66% 。其可靠性已经在英文客户情感分类的研究中得到了初步的验证。而中文词语情感倾向信息的获取依据主要有HowNet,但是还是处于研究阶段。2006年,复旦大学朱嫣岚等基于HowNet[24],提出了两种词汇语义倾向性计算的方法:基于语义相似度的方法和基于语义相关场的方法。实验表明,这两种方法在汉语常用词中的效果较好,词频加权后的判别准确率可达80%以上,具有一定的实用价值。党蕾,张蕾在文献[25]中提出采用否定模式匹配与依存句法分析相结合的方法。研究分析了修饰词极性以及否定共享模式,确定修饰词以及扩展极性的定量和否定共享范围,提出依存语法距离的影响因素来计算情感倾向,并且在否定模式匹配后改进句子极性算法。实验结果表明该方法取得了良好的效果。

因此,对于文档的情感倾向分析研究逐渐成为研究者新的起点。Ye 等人[29]探索了中文环境下对于文档的情感分析理论与方法,在 PMI-IR 方法的基础上,初步建立了中文语义倾向情感分析方法,获得了接近英文同类研究的分析结果,显示出该方法在中文情感分析上的应用前景。熊徳兰等人[28]提出了基于知网的语义距离和语法距离相结合的句子褒贬倾向性计算方法,利用夹角余弦法对语义倾向进行了改进。何婷婷等 [30]基于HowNet的语义相似度计算的基础上,提出了一种改进的基于语义理解的文本情感分类方法来判定文本的情感倾向性。文中引入了情感义原的概念,同时考虑文本中否定副词和程度副词对词语的影响强度值,最后综合统计判定文本的情感倾向性。实验选取435篇关于照相机、笔记本和手机三个领域的评论文档进行研究,得出当知网义原和情感义原的权重分别是0.7和0.3时,平均准确率可以达到0.8393,文本的情感分类准确率可以达到比较理想的结果。

除此之外,也陆续出现了一些利用语义倾向分析技术开发的商业智能系统,如NEC公司Kusha等人开发的的Reviewseer,通过对评价性文章的语义倾向分析,为商品的受欢迎程度进行打分评价,该评价结果是极具价值的商业信息[26]。Bing Liu在其论文[27]中介绍了商用产品信息反馈系统Opinion Observer,利用网络上丰富的顾客评论资源,进行商品的市场反馈分析,为生产商和消费者提供针对商品各个特性的网络评价报告。

3、情感分析的资源建设

3.1 情感分析的语料

随着互联网上带有情感色彩的主观性文本的增多,情感分析越来越受到学者和研究机构的关注。近年来,为了推动情感分析技术的发展,国内外一些机构和个人构建了一些一定规模的语料库,供研究者使用。

(1) 康奈尔(Cornell)大学提供的影评数据集[31]:由电影评论组成,其中持肯定和否定态度

的各l 000篇;另外,还有标注了褒贬极性的句子各5331句,标注了主客观标签的句子各 5 000句。目前,影评库被广泛应用于各种粒度如词语、句子和篇章级的情感分析研究中。

(2)

参考文献

1. PANG B O,LEE L,VAITHYANATHAN S. Thumbs up? Sentiment classification using machine learning techniques[C]/ / Proc of Conference on Empirical Methods in Natural Language Processing. Morristown,NJ: Assuciation for Computational Linguistics,2002: 79-86.

2. 赵妍妍,秦兵等.文本情感分析[J].软件学报,2010,21(8)

3. Fei Z C, Liu J, Wu G F. Sentiment classification using phrase patterns[C] // Proceeding of the Fourth International Conference on Computer and Information Technology. 2004: 1 147-1 157.

4.Ye Q, ShiW, LiY J. Sentiment classification for reviews: comparison between SVM and semantic approaches[C] // The Fourth International Conference onMachine and Cybernetics. Guangzhou: [s. n. ], 2005: 2 341-2 346.

5.YeQ, ShiW, LiY J. Sentimentclassification formovie reviews in Chinese by improved semantic oriented approach[C] //Proceedings of the 39thHawaii InternationalConference on System Sciences, 2006: 53-60.

6.蔡健平,王琳琳,林世平.基于机器学习的词语和句子极性分析[c]t/中国人工智能学会第12届全国学术年会论文集:上集.北京:北京邮电大学出版社,2007.

7.Pang B ,Lee L. A sentimental education Sentiment analysis using subjectivity summarization based onminimum cuts[C]∥Proc. of the 42th Meeting of the Association for Computational Languages .Barcelona ,Spain ,2004:271-278

8. Ni X ,Xue G,Ling X ,et al. Exploring in the Weblog space by detecting informative and affective articles[C]∥Proc .of the16th Int’l.Conf .on World Wide Web,2007:281-290.

9. Cui H ,Mittal V ,Datar M .Comparative experiments on sentiment classification for online product reviews [C]//Proc .of the 21th National Conf .on Artificial Intelligence (AAAI-06), Boston,USA,2006

10. 唐慧丰,谭松波,程学旗. 基于监督学习的中文情感分类技术比较研究[J]. 中文信息学报,2007,21( 6) :55-94.

11. Casey Whitelaw,Navendu Garg and Shlomo Argamon.Using appraisal groups for sentiment analysis[A].In:Proceedings of CIKM-05,14th ACM International Conference on Information and Knowledge Management[C].Bremen,DE.625-631.

12. 李艺红,蒋秀凤《中文句子倾向性分析》

13. 白鸽,左万利等.使用机器学习对汉语评论进行情感分类[J].吉林大学学报,2009,47(6)

14. 郭明,柴玉梅等.新闻报道文本的情感倾向性研究[J].计算机工程,2010,36(15)

{中文情感分析数据集}.

15. Tumey Peter.Thumbs Up Or Thumbs Down?Semantic Orientation Applied to Unsupervised Classification of Reviews[A].In:proceeding of the 40th Annual Meeang of the Association for Computational Linguistics[C].2002:417—424.

16. Bo Pang,Lillian Lee.Seeing Stars..Exploiting Class Relationships for Sentiment Categorization with respect to Rating Scales[A].ACL2005,115—124.

17. HU Ming-qing,LIU Bing. Mining and summarizing customer reviews[C]/ /Proc of the 10th ACM SIGKDD International Conference on

18.Knowledge Discovery and Data Mining. New York: ACM Press,2004: 168-177.

LIU Bing,HU Ming-qing,CHENG Jun-sheng. Opinion observer: analyzing and comparing opinions on the Web[C]/ / Proc of the 14th International Conference on World Wide Web. New York: ACM Press,2005: 342-351.

中文情感分析数据集篇三

文本情感分析论文总结

文本情感分析

赵妍妍, 秦兵, 刘挺 - 软件学报, 2010 - jos.org.cn

按粒度,情感分析可分为词语级、短语级、句子级、篇章级、多篇章级;按文本类别,可分为基于新闻评论和基于产品的情感分析。

情感分析的研究任务:情感信息的抽取、分类以及检索与归纳。

一、情感信息抽取(评价词语、评价对象、观点持有者)

1. 评价词语的抽取:基于语料库的抽取;基于词典的抽取;基于图的方法。

2. 评价对象的抽取:基于规则/模板的方法(词序列、词性、句法规则、关联规则挖掘);评

价对象最为产品属性,考察评价对象与领域指示词的关联度来获取;多粒度的话题模型方法。

3. 观点持有者抽取:命名实体识别技术(人名或机构名)、语义角色标注;分类任务,看做

序列标注问题,使用CRF融合特征抽取;名词短语作为候选,使用ME模型计算。

4. 组合评价单元的抽取:

主观表达式:Wiebe的主观表达式库(抽取n元词语/词组作为候选,对比训练预料判断) 评价短语抽取(程度副词-评价词语):情感词典的方法;依存句法解构(ADV,ATT,DE)。 评价搭配抽取(评价词语-评价对象):基于模板的方法(8个共现模板、句法关系模板)。

二、情感信息分类

1. 主客观信息分类:文本是否含情感知识方法;组合评价单元判断;情感模板识别;基于

分类器和分类特征的二元分类任务(词语特征,标点、人称代词、数字特征,基于图);

2. 主观信息情感分类(句子级、篇章级):基于情感知识、基于特征分类的方法(n-gram词语

特征和词性特征、位置特征、评价词特征)。

三、情感信息的检索与归纳

1. 情感信息检索

2. 情感信息归纳

基于产品属性的情感文摘:识别评论信息中的产品属性,抽取描述产品属性的情感句,判断其倾向性。

基于情感标签的情感文摘:标签可定义为评价搭配形式,建立标签库,相似度聚类的方法聚类得到相似的情感标签,每一类视为潜在的话题(即产品属性)。

基于新闻评论的文摘

四、情感分析的评测与资源

1. 情感分析的评测:TREC,NTCIR的MOAT(新闻观点检测,情感问答,跨语言情感分析),{中文情感分析数据集}.

国内的COAE。

2. 情感分析的语料:康奈尔大学的影评数据集,UIC的Hu和Liu的产品领域的评论语料,

Wiebe的MPQA新闻评论深度标注语料,MIT的多角度餐馆评论语料,中科院的中文酒店评论语料。

3. 词典资源:GI(general inquirer)评价词词典,NTU评价词词典(繁体中文),主观词词典(英

文),HowNet评价词词典(简体中文、英文)

问题:情感信息抽取忽略词语所在语境的影响;评价对象的情感分类,而非句子级或篇章级;基于情感标签的情感文摘的深入研究;

基于层次结构的多策略中文微博情感分析和特征抽取

谢丽星, 周明, 孙茂松 - 中文信息学报, 2012 - nlp.csai.tsinghua.edu.cn

三种情感分析方法的研究:表情符号的规则方法、情感词典的规则方法、基于SVM的层次结构的多策略方法。

主题无关的情感分析:不关心情感极性所描述的对象,有基于词典的方法、有监督的机器学习和无监督的方法。

主题相关的情感分析:基于规则的方法;基于特征(属性)的方法。

主客观分类特征、极性分类特征:链接、表情、情感词典、情感短语、上下文

微博消息句子构成特征:首句、尾句情感极性,正负中情感句数

主题相关的句子筛选:包含主题词的句子、零指代情感、主题词相邻的一定范围内。

本文中主题无关的最佳组合方法:单句用一步三分类,特征为表情+词典+短语+上下文,整体为句子组成SVM,特征为首句尾句极性+三种情感极性句子数。

主题相关的特征(本文提供主题词来获取数据):测试三种主题相关句子筛选方法。 本文后续工作:构建网络用语词典;深入研究主题相关的特征;构建图模型。

Cross-Lingual Mixture Model for Sentiment Classification

X Meng, F Wei, X Liu, M Zhou, G Xu… - Proceedings of the 50th …, 2012 - dl.acm.org 问题:英语的标记数据比其他语言多,很多现存的方法都是直接用机器翻译将源语言翻译为目标语言,以获取标记数据,但是翻译后的词典覆盖率有限,且翻译本身的准确性限制。

解决:提出跨语言混合模型,利用平行语料库,可以提高词典覆盖率,通过在飞标注的平行语料中学习情感词,同时在源语言与目标语言间传递极性标签信息。

思路:把平行语料库中的未标注数据的极性当做隐变量,而语料库中的可观察的词语当做是基于隐变量的词语生成分布来生成的。给定一个平行语料库,通过最大化生成这个语料库的似然值来fit CLMM模型,通过最大化似然值,CLMM可以估计没在标记数据中出现但是在平行语料中出现的词语的产生概率,进而扩展词典。另外,CLMM还能利用源语言和目标语言中的词语来判断平行语料中句子的极性。

Cross-Domain Co-Extraction of Sentiment and Topic Lexicons

F Li, SJ Pan, O Jin, Q Yang, X Zhu - … of the 50th Annual Meeting of the …, 2012 - dl.acm.org 问题:之前的工作表明监督方法的有效性,但是却需要人工标注训练数据。

解决:本文提出一个domain自适应的方法来得到情感和主题词典,不需要任何标注数据,但是需要另外一个相关领域的标注数据。首先,在目标域中生成一些有高置信度的情感和主题词种子,然后提出一个新的Relational Adaptive bootstraPping算法根据源域中标注数据的情感词和主题词的关系来在目标域中扩展种子,进而得到目标域的情感主题词典。

1. 情感词种子生成:源域中的情感词作为候选,用公式(1)得到得分最高的top r 个词汇作

为情感词种子

2. 主题词种子生成:在源域中抽取出情感词与主题词的所有pattern及主题词作为候选,

根据公式(2)得到pattern的得分,Acc(Rj)是在源域中pattern Rj的准确率,Freq(Rj)是在目标域中的出现频率。选取得分最高的top r个pattern作为种子,然后根据公式(3)选取得分最高的top r 个词作为主题词种子。B是情感词种子集合,A是满足wi,wk的模式集合。{中文情感分析数据集}.

3. 种子扩展:

{中文情感分析数据集}.

Twitter Sentiment Classification using Distant Supervision

A Go, R Bhayani, L Huang - CS224N Project Report, Stanford, 2009 - cs.wmich.edu Tweets出现在新闻标题中或者维基百科中,则认为其为中性。

Tweets的特性:长度,可用数据多,语言模型(数据格式杂乱,错误常出),没有特定领域。 方法:分类器用了NB,最大熵,SVM,特征用了unigrams,bigrams,两个的结合,unigrams结合POS(词性标注) tags。

训练数据:用twitter API检索:)和:(下载包含emotion(分为正负极性两种表情符号)的tweets数据,对数据进行预处理(去掉emotions,删去有两种极性emotion的tweet

,删去重复数据

等等),最终得到1600000个tweets。训练数据中要把emotion去掉,引发的问题是由于训练数据没有用emotion特征,因而测试数据中有emotion特征时,对其分类无影响,这是一个需要解决的问题。

测试数据:用不同的领域的query term检索tweets,对其标注形成测试数据。

实验后发现,单独的unigrams比bigrams效果好,因为bigram数据稀疏,两种结合的特征,NB和最大熵正确率提高,但是SVM降低。而POS特征对分类无明显影响。

以后需要解决的问题:语义问题,特殊领域的情感分类,中性tweets的处理,其他语言的情感分类,测试数据中emotion特征的应用。

Target-dependent Twitter Sentiment Classification

L Jiang, M Yu, M Zhou, X Liu, T Zhao - ACL, 2011 - aclweb.org

问题:以往的工作大多是target无关的情感分析,即只分析情感,而没有考虑情感对应的对象;由于tweets的特殊性(短小且多歧义,一个tweets中可能涉及多个target,或者同一个tweet中有很多与target无关的说明),情感分析时会造成内容不够,数据稀疏。所以有必要进行target相关的情感分析,同时扩展相关的tweets,综合分析得到结果。

方法:采用三步进行分析:主客观分类,极性分类,基于图的优化。前两步采用相同的特征,SVM分类器。

1. 数据预处理:tweets标准化,词性标注,词干,句法分析

2. target无关的特征:词、标点、表情符号、hashtag、情感词典特征(即句子中有多少正负

极性词语)

3. Target扩展:首先,包含target的名词短语作为扩展目标;然后,与target有co-reference

的也作为扩展目标;用点互信息求出与target最相关的K个名词和名词短语,抽取出所有扩展目标的中心名词,如果其与target的点互信息大于阈值,则也作为扩展目标。 Target有关的特征:依靠句法分析树,得到多种特征,比如,I love iPhone得到 love_arg2, Flower is beautiful得到Flower_arg1,等等。

4. 基于图的情感优化:

相关tweets的获取:retweets(转发的),同一人发的包含target的tweets,对该tweet的回复。对于不同扩展,将其用不同的连线与原本的tweet连接,形成图。进而:

对于图中的每个tweet,计算出p(c|t,G),输出其中p最大的一个。

5. 实验:实验的训练和测试数据用不同的query term(Obama,Google,iPad,Lakers,Lady Gaga)

从twitter上获取,人工标注其极性,得到459个+,268个-,1212个中性tweets。

中文情感分析数据集篇四

文本情感分析:让机器读懂人类情感

文本情感分析:让机器读懂人类情感 1 引言

在大数据和人工智能的时代,机器能否拥有情感成为人们热议的话题。真正的人工智能系统不仅具有像人类的思考和推理能力,也需要也要能够感知和表达情感。MIT 的Minsky (人工智能之父)早在 1985年在“The Society of Mind”中指出“问题不在于智能机器能否拥有任何情感,而在于机器实现智能时怎么能够没有情感?”。赋予机器情感分析能力引起了社会的广泛关注,研究领域也开展了很多相关的研究工作。科幻电影《她》中人工智能系统和主人公谈恋爱的故事,激发了人们对机器具有人类情感的无限想象。那么,机器是怎样理解人类情感呢?通常来讲,机器理解人类情感是一个多模态的感知过程,通过表情、行为、语言来理解情感。语言通常以文本的形式存在,本文主要是从文本的角度讨论情感分析的研究。

2 文本情感分析定义

文本情感分析([1],[2])是自然语言处理研究的一个热点,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。按照Liu[2]对情感的定义,情感表达由四个元素构成,分别是[Holder,Target,Polarity,Time],其中文本发表的时间通常可以使用简单的规则获取,因此情感分析的目标通常是从无结构的文本中自动分析出Holder(观点持有人)、Target(评价对象)、Polarity(极性)三元素。Holder是观点的发出者;Target是该观点评价的对象(如实体或实体的属性,或者话题);Polarity是所表达的情感类别,由于任务不同,情感类别体系会不同,通常包括褒贬、褒贬中、喜怒哀乐悲恐惊、情感打分(如1-5分)等分类体系。文本中的情感又分为显式情感及隐式情感,显式情感是指包含明显的情感词语(例如高兴、漂亮)情感文本,隐式情感是指不包含情感词语的情感文本,例如“这个桌子上面一层灰”。由于隐式情感分析难度比较大,比较依赖于背景知识及常识知识,目前许多工作集中在显示情感分析研究。

目前的情感分析研究可归纳为:情感资源构建、情感元素抽取、情感分类及情感分析应用系统,具体见图1。

图1 情感分析研究框架

3 情感分析研究任务

情感分析任务和其他自然语言处理任务一样,首先需要资源的支持,在此基础上,开展情感分析元素抽取以及文本情感分类工作,下面我们将进行简要介绍。

3.1 文本情感资源构建

情感资源一般包括情感词典和情感语料库。

目前人工构建情感词典较多的是收集了褒贬情感词的词典,如哈佛大学GI(General Inquiry)情感词典、匹兹堡大学提供的OpinionFinder主观情感词典、伊利诺伊大学Bing Liu提供的词典资源,而对于喜、怒、哀、乐、悲、恐、惊等情感相应的词典还比较少,英语中主要有WordNet-Affect,随后有不少学者基于WordNet-Affect又陆续扩展到其他语言。由于是人工构建,上述词典规模基本都在几千词范围内。在中文方面,大连理工大学的情感词汇本体将情感分为七个基本大类和二十一个小类,收录情感词语27466条。

可以看到,人工构建词典需要较大的代价,规模也会受限。(人们开始研究自动构建情感词典的方法,已有方法一般分为两种:基于词典资源和基于语料库的方法。基于词典资源的方法通常利用外部语义词典(如WordNet)中词语之间的语义关系(如同义词、反义词、上位词关系等)生成情感词典;Hu and Liu[3]借助WordNet中的同义词和反义词信息判断形容词的情感极性;Esuli et al.[4]利用同义词集合的注释信息自动构建了情感词典资源SentiWordNet。基于语料库的情感词典构建方法最早源自Hatzivassiloglou和McKeown[5];Google的Velikovich et al.[6]在大规模互联网语料上利用上下文计算词语之间的语义关联构建情感词典,最终获得了大规模(17万左右)的情感词典;Mohammad et al.[7]在Twitter数据上自动构建大规模情感词典,他们人工定义表情符和hashtag的情感种子集合,利用词语和情感种子的点互信息计算情感分值,获得了6.2万情感词语,67万情感短语(Bigram)。 值得一提的是,情感分析的语料库和相关评测也对推动情感分析的进步至关重要。国际TREC、NTCIR,SemEval组织的面向不同任务的情感分析评测以及国内中文信息学会及中国计算机学会相继连续举办中文情感分析评测,促进同行的交流和学习,同时针对不同情感分析任务提供了大量的人工标注语料库。当然,人工标注语料库的领域、规模都会受到一定限制。利用distant supervision方法从评论网站(如Yelp、IMDB)或社交媒体上(如Twitter)自动获取的情感分析语料库[8],为在不同领域、不同任务上开展情感分析研究提供了语料库的支持。

需要指出,无论是自动构建词典还是自动构建语料库,都扩大了情感分析的研究领域,但是由于规模较大,无法直接评估其质量,需要通过具体任务体现。

3.2 情感元素抽取

情感元素抽取旨在抽取文本中的评价发出者、评价对象和情感表达,也称为细粒度情感分析。 评价发出者是文本中观点/评论的隶属者。很自然的,人们会想到评论发布者一般是由命名实体(如人名、机构名)组成,因此早期的研究工作尝试使用命名实体识别和语义角色标注技术来获取观点持有者([9],[10])。也有很多学者将评价发出者的抽取定义为分类任务,这种方法的关键在于分类器和特征的选取。例如,Choi et al.[11]使用CRF模型和抽取模板及各种特征在MPQA数据集上来识别句子中评价的来源。Ku et al. [12]先用SVM来识别作者的意见,再用CRF来标注评价的发出者,

在NTCIR7 MOAT 任务上取得了与最好系统接近的性能。虽然在产品评论及社交网络上都有明确的用户ID,使评价发出者抽取研究淡化,但是在一些文本中存在描述第三方情感和观点的情况,需要对其进行抽取。

评价对象和评价表达抽取是情感元素抽取任务的核心。评价对象是指文本中被讨论的主题,具体表现为文本中评价表达所修饰的对象;评价表达抽取主要针对显式情感表达的文本,是指文本中代表情绪、情感、意见或其他个人状态的主观表述,通常以词语或短语形式出现,如“非常漂亮”,“不高兴”。由于评价对象和评价表达紧密联系的,并且可以按照序列标注任务进行识别,尽管两者可以作为独立的任务,但采用联合识别模型会更好的结合两者的信息[13]。目前用来抽取评价表达和评价对象的方法主要分为两种:基于句法规则匹配的方法和基于机器学习的有指导学习算法。Qiu et al.[14]采用了一种称为双向传播(double propagation)的算法,通过使用依存句法分析器获取情感词与评价对象的关系,并在两者之间传播信息,在迭代过程中对种子情感词进行Bootstraping来扩充情感词典并抽取出评价对象。基于机器学习的有指导学习算法通常将评价表达和评价对象抽取看成字符级别的序列标注([15],[16])问题。具有代表性的机器学习的算法包括基于特征的CRF([17],[18],[19],[20])序列标注算法和基于神经网络的序列标注算法。由于前者通常依赖专家撰写的特征模板、外部情感词典资源,领域通用性受限,基于神经网络的表示学习算法受到了越来越多的关注,例如,Irosy和Cardie[21]在词向量的基础上运用深层循环神经网络(Recurrent Neural Network)结构。Liu et al.[22]进一步使用了基于LSTM的循环神经网络(RNN),同时融入了词性(pos tagging)的分布语义表示,并且在多个数据集上证明优于CRF方法。

需要注意的是,在实际的文本语料中,评价对象省略现象,情感的隐晦表达,都会给情感元素的抽取工作带来挑战,需要自然语言处理技术中的指代消解、隐式情感分析技术([23][24])等支持。

3.3 文本情感分类

文本情感分类的目的是判断给定句子或篇章的情感类别,也称为粗粒度情感分析。文本情感分类是情感分析的最终目标,通常可以在情感元素抽取的基础上进行句子或篇章的情感分类。近年来,由于深度学习的兴起,可以越过情感元素的抽取过程,避免级联错误,使端到端的情感分析成为可能。 已有的研究工作可以大体分为基于情感词典和基于特征学习方法,我们将分别从这个两角度介绍已有的相关工作。顾名思义,基于情感词典的方法通常利用情感词或情感短语及情感反转、加强等规则判断句子的情感极性。Turney[25]提出了一种基于搜索引擎的方法,判断每个词语和已有情感词语的相关度,随后进行文本情感分类[2];Ding et al.[26]利用否定词语和转折词语,提升了基于词典的情感分类方法;Taboada et al.[27]利用词语的情感强度以及情感加强和否定规则判断篇章的情感极性。 基于特征学习的方法是近年来句子级和篇章级情感分类的主流方法[2],Pang et al.[28]提出基于特征的机器学习算法解决情感分类,后续有众多学者设计复杂的特征以提高情感分类的性能。由于手工设计特征很耗时并且依赖于专家知识,越来越多的学者尝试自动地从数据中学习文本的特征表示。基于神经网络的语义组合算法被验证是一种非常有效的特征学习手段,Socher et al.[29]提出多个基于树结构的Recursive Neural Network,该方法通过迭代运算的方式学习变量长度的句子或短语的语义表示,在斯坦福情感分析树库(Stanford Sentiment Treebank)上验证了该方法的有效性。Kalchbrenner

et al.[30]使用卷积神经网络学习句子的表示,在句子级情感分类任务上取得了非常出色的效果。Tai et al.[31]在序列化的LSTM (Long Short-Term Memory)模型的基础上加入了句法结构的因素,该方法在句法分析的结果上进行语义组合,在句子级情感分类和文本蕴含任务上都取得了很好的效果。 随着社交媒体的日益发展,用户在社交媒体上更侧重于喜怒哀乐多类别情感表达,由于多类别情感语料分布不均衡给情感分析带来一定困难,尽管采取了一些解决方案[32][33],但是多元分类在分类性能上不及褒贬分类。

4 情感分析应用系统

在上述分析技术的支持下产生了大批基于情感分析的系统和应用。总体来看,它们应用在商品/服务评论分析、社交网络分析、情感机器人这三方面。

传统的情感分析应用聚焦于来自消费产品和服务的评论。基于产品评论的代表性平台有Google Shopping ,它还可以为用户提供在线购物平台的商品检索和比价服务;OpinionEQ允许商业组织和个人按需定制产品分析服务。

微博、Twitter等社交网络服务的爆炸式发展也为研究人员带来了极大的机遇,研究人员能够通过分析大量富情感的数据来分析公众的情绪变化,并对政府管理、经济、娱乐领域产生影响。从政府和管理者角度出发,联合国开发了针对全球情感波动监测的应用Global Pulse ,北航的研究小组推出了第一个针对中文微博的在线情感系统MoodLens;2012年美国大选时罗姆尼和奥巴马在Twitter上展开了激烈宣传,借此影响普通民众及新闻从业者,成为互联网参与总统竞选典型案例。在金融应用方面,许多研究机构将情感分析技术应用于股票分析及预测系统,例如Stock Sonar 在每只股票的价格旁边展示了每天针对该股的积极和消极的情感信息,为投资者提供即时的参考,UIC开发的Twitter情感分析进行为股市的涨跌进行预测和追踪。在娱乐领域,阿里云的人工智能系统“小Ai” 在《我是歌手》节目中成功预测李玟夺冠,也是依靠现场数据以及社交网络上的点评数据进行分析预测,这其中都运用了对海量文本情感分析技术。可以看到,对社交媒体的情感大数据的监测和分析预测,不断影响着政府决策和大众选择。{中文情感分析数据集}.

除了在电商平台和社交网络得到广泛应用,情感分析技术还被引入到对话机器人领域。例如,微软的“小冰”机器人可以通过分析用户的文本输入和表情贴图,理解用户当前的情绪状况,并据此回复文本或者语音等情感回应。部分研究机构还将情感分析技术融入实体机器人中。日本软银公司的Pepper机器人依据常见的情感认知(喜怒哀惊)及对用户的面部表情、肢体语言和措辞的分析,了解用户的情绪并选择恰当的方式与用户交流。而香港Hanson Robotics公司开发的Han机器人不仅可以理解用户的情感,它还可以将情感反馈以模拟的面部表情展现出来。国内的Gowild公司也推出了可以提供生活助理和年轻人强社交情感交流服务的“公子小白”机器人。这些工作实际上并不是从认知机理出发,而是通过外在的形式(词语,表情,肢体)判断人类情感。

5 挑战与趋势

正如前文所述,现在的情感分析工作已经能够完成一些简单的任务,在上述任务上都表现出机器具有识别人类情感的能力,但也面临许多挑战。  在情感研究对象上,随着应用领域的不断扩展,情感对象从之前的对产品、服务等的褒贬倾向

性评论到对社交媒体中的用户、话题情绪分类,表现形式更加多样,情感种类更加繁多,研究的内容也会发生相应转变,包括更加关注用户的信息以及针对社交媒体中事件用户情感的变迁。  在情感表达形式上,人们对于情感的表达也多样化的,有直截了当的,也有含蓄不露的,更有

通过修辞手段及反讽的多种形式表达情感,因此需要更深层次的机器学习技术以及情感常识库的支持,如何构建常识知识库是亟待解决的问题。

 在情感

本文来源:http://www.zqhxrl.com/mw/214079.html

扩展阅读文章

今安美文网 http://www.zqhxrl.com

Copyright © 2002-2018 . 今安美文网 版权所有 京ICP备11356960号

Top