HI,欢迎来到好期刊网!

超高效学习方法

时间:2023-06-12 16:20:42

导语:在超高效学习方法的撰写旅程中,学习并吸收他人佳作的精髓是一条宝贵的路径,好期刊汇集了九篇优秀范文,愿这些内容能够启发您的创作灵感,引领您探索更多的创作可能。

超高效学习方法

第1篇

关键词:英语词汇教学,农村高中

所谓病从浅中医,东西也要从最简单的学起,在英语教学中,词汇既是基础又是难关。可能有人会问,“为什么这样说呢?”其实很简单,因为学习一门语言,首先从词---句---篇的顺序,但是根据对现状的调查,现在的学生对英语的最难过的也是词汇。所以说,英语词汇教学从开始到结束都是占有很大的比重。2001年,自从中国加入世贸,中国与外国的联系越来越多,不但是政治、经济上,就连文化上也有很大的交融,特别的,英语在全球是最广泛的语言,但是从对农村高中英语调查来看,大部分的学生都是反映英语教学词汇始终是冲不破的难关,虽然农村学生比较勤奋,但是仍然对英语词汇摸不着头脑,这到底是为什么?难道还不够勤奋,非也!应该是没有一个系统的学习方法,学习一样东西除了要付出相应的努力外,还要有计划有方法,那样学东西才能事半功倍。对于英语词汇教学,很多商家洞察先机,生产了很多英语学习机(例如:一本通、诺亚舟、文曲星等等),有些家庭为了能让自己的孩子在英语词汇方面有了一定的突破,都为他们买了学习机,希望能提高他们的词汇量,还有些家庭聘请了家教,让他们传授学习方法给自己的孩子……。这些做法都反映了人们注重英语词汇的教学,同时一些农村高中委派老师到一些地方培训,学习先进的经验和方法。

先探讨农村高中教学的英语词汇教学:

现在的农村高中英语词汇教学中,许多教师习惯于照着课本,脱离具体的语境来教词汇,使得词汇学习变得枯燥乏味,继而造成学生对学习英语词汇的兴趣和信心渐渐丧失。这对广大教师有效的提高词汇教学带来了更高的挑战。词汇学习效率低下,给学生在听说读写诸方面的学习带来了很大的困难。他们的学习应该是较高阶段的学习,死记硬背不仅仅是枯燥乏味的,而且往往会徒劳无功,学习效率不高。特别的一些地区似乎只有学生掌握了语法,说出来的英语才“正宗”,殊不知,没有一定量的词汇输入,学生语法学得再好,句型框架学得再多,学生们还是“巧妇难为无米之炊”,长此以往,学生们学成的英语便演变成“哑巴英语”;语法学得好的同学也只是暂时地能应付考试,却无法领会英语作为语言工具可以交流的快乐。尤其是近年来推广使用的高中牛津英语词汇量大,掌握要求高,不少学生感到难以适应新一轮英语课改的要求。一方面,缺少训练的平台;农村高中的教学设备不足,很多时候学生只能在课堂的45分钟接受英语知识,没有其他方面的交流,但是对牛津英语词汇只能靠短短的45分钟是远远不够的;另一方面,由于高考的影响,很多地区都是应试教学(在农村最为出),所以一些老师总是重语法轻词汇,由于农村的条件差,学生回到家后还要干活,不能把时间全部投进学习,而老师又是教学生自己记单词,学生一、没有时间,二、缺乏科学的记词汇方法。总的来说这样下去,学生的词汇效果还是不能提升。还有,英语是一门语言,少不了交流,但是对农村学生来说,英语交流很贫乏,所以学生记词汇时只是机械式的记忆,只是注重知识的传授,单纯地讲解词汇的词义、拼写及各种用法,把英语单词和汉语意思笼统对应,或简单举例,缺乏对构词法知识和词的文化内涵的讲解,更不善于把词放在一定语境中讲解。殊不知,这又陷入了词汇教学的另一个误区。教学反馈——词汇量不足,对词汇学习渐失信心;据调查,农村的学生大部门都认为读书是他们唯一的出路,所以他们把高考看成人生中的一件大事,因此心理上就有很大的负担,因为他们知道,他们不可以输。慢慢的自卑的心理也出现了,当他们看见别人比自己好,心理就过不去,加上如果还有考试失败的话,可能会导致心理上的打击,所以学生都是忙着背单词,有同学甚至背词典,但收效甚微。这令他们苦恼万分,有的对词汇学习渐失信心,有的甚至采取放弃的态度。这不能不令人担忧。所以教师在教学过程中要有意识地发现语言成分之间的共同形式特征,让学生感受到语言的魅力,激发他们英语学习的兴趣;学东西关键的是有兴趣,如果兴趣失去了,很多学生的主动性便会变得很低,学生的动力就会下降。单是在压力的驱动下使学生记好单词,不但取不到好的效果,而且还有给学生造成心理的负担。比如说,可以通过搞什么比赛活动或师生的互动,尽量的提及有关活动式的教学,那么学生的兴趣就会提高。

鉴于种种情况,笔者拟就本文谈谈词汇教学的几点具体做法。

1.在新授课中,通过情景教学,利用具体的语境来传授新的词汇。在新教学中,英语注重的更多是语境,记得上大一的时候,老师不是一味的给我们解析单词的意义,而是从语境出发,着重讲解文章的语境,让我们从英语的语境中掌握词汇,那样一来不但减少工作量又能增加乐趣,同学在明白英语语境时又能从深层的领会到英语精髓,可以说是一举几得;因为英语是一门语言,学好一门语言首先要融入语境来理解,就好像学习古文一样,要知道作者当时的背景,那样才能明白作者当时的心情和作者的写作目的。英语教学也是一样,词汇教学方法要求学生通过语境猜测词义,通过意境领悟语感这对学生掌握词汇也具有重要的意义。因为信息处理水平对记忆具有很大的影响。对信息的加工水平越深,信息就越能更长时间地深存在记忆中。

2.运用阶段,可以采用读和写,说等,或者是通过翻译写作来操练所学的词汇。英语学科离不开交流,所以学生在学习时要多朗读,多听,还有就是多写,对于《牛津英语》教材题材丰富,词汇量大,知识涉及面广,信息量大,图文并茂,内容新颖,实用性强等特点,学生如果还是一味的记单词可能收获不大,但是如果学生能通过多读,读写。多听,那么学生的阅历就会更广,而且语感也会慢慢的变好,还有的就是学生能通过写作来提升词汇,比如说,同意思的单词不知一个,学生在写作时默写一个单词时要想到另外一个单词,那样学生的记忆就会提高,同时在无意中学生把一些同义词汇归类了,记得上高中时老师曾经对我说,“当你们阅读或翻译时,遇上不懂的单词就把它抄出来,然后查出它的意思和用它造句,周期性的回顾”当时我是半信半疑的,可是但我像老师说的那样做时,慢慢的发现词汇量增加了。

3.巩固阶段,可采用复述课文的大意等巩固所学的词汇。这就要整篇文章的结构都要理解,就像当我们做阅读时,遇到不懂的单词,不是叫我们停下来想单词的意思,而是通读文章,明白文章的内容后再回来弄懂该单词的意思,有时候可以从上下文来明白单词的意思。高中那个时,我班有个同学,她的阅读能力超高,而且速度很快;当时我就很不解的问她,“为什么你的阅读那么快,而且准确率那么高”,她只是笑笑的说,“没有你们好,我的词汇没有你们多,我想我可能是从通篇内容来弄懂单词的意思的吧”,想想,也是,不想我们那样,一遇上不懂的单词就慢慢的停下来想,所以阅读能力自然低,在这里笔者认为,通过文章内容或上下句明白词汇是一种很好的办法。

4.创新式,所谓创新就不想以前那样看到单词就死机,而且是机械式的那种,而是采取适合现代学生的要求来记忆。这几年各式各样的词汇记忆方法都有,例如,词汇整体教学法、归类法、记忆帮助法等,然而迄今为止结合牛津教材特点实施的有效词汇教学的研究成果还不多,尤其是适合学力中下的农村学校的学生的词汇教学方法更为匮乏。虽然上面所说的方法理论上有用,但是对于新版的牛津词汇教学就不太适用了。笔者想在这里提出语音串记,字根巧计,语音串记就是利用新语言信息和已掌握语言信息之间语音上的某种共同特征来建立两者之间的联系,以此来促进单词的记忆。如大家熟知的英语谚语:(1)Anappleadaykeepsthedoctoraway.一天一苹果,不用请医生。一方面加强了句子内部以及句子间的组织程度,另一方面更方便了批量单词的记忆。还有字根式的—ject推出project,reject等等。通过结合语音或字根可以使词汇更加牢固。

5.兴趣式,根据调查,农村高中英语教学大部分都是很孤躁,同学的兴致都没有,整个教室呈现出沉闷的气氛。其实无论做什么最重要的还是兴趣,就像填志愿时,学生都是根据兴趣去填自己喜欢的专业,如果做一样事自己是没有兴趣,即使是做了,还是按部就班,根本没有动力,由于缺乏了自动力,那么想学好它就是难事,所以在新版的英语教学中,由于牛津教学更切实生活,当时词汇量大大提高了,学生要从生活上的乐趣学习,老师上课时也可以提出师生互动或让学生成为课堂的主人,让他们自由发挥,可以的话,通过问答形式,那样听的同学有精神,答的同学有记忆。其实条件允许的话可以通过通过举行公开课,因为公开课一来可以使学生认真听课,二来上课的效率又高,学生的积极性相对的也提高。学生兴趣被激发起来后,学单词的一大难事就不再可怕了。在课件中插入许多相关图片,准备在课上教给学生。用生动形象的图片作为载体,让学生在快乐中学会单词。特别的对于牛津词汇教学本来就是很孤躁的学科,如果再不能提升学生的兴趣,英语词汇根本就跟不上。

6.网络式,因为现在网络技术非常发达,学生用所有可使用的资源,如网络,图片,漫画,动画,VCD,flash,电脑光盘等,各类文件播放载体如豪杰超级解霸,realplayer,flash等。课件的目的很简单,不求花哨,只求实用,做教学有效的辅助手段。通过网络可以下载一些词汇软件,也可以通过看一下西方的电影,话剧,在平时的生活中了解英语,把以前的被动变成主动,让“生活会说话”,通过网络上的英语聊天,英语上网,词汇默写等等方式来记忆英语词汇。例如现在的视听说(网络版),那就需要同学们在网络上完成人机口语,同学在上机做英语,一方面学习的效率高;另一方面,学生不会感觉到尴尬,因为上课时,学生会考虑到自己的词汇不懂,从而自己的信心下跌。所以通过网络,学生敢大声朗读。

7.师生配合;因为英语词汇教学不单单是老师或学生的问题,要老师与学生相结合才能发挥最大的作用,老师在上课有什么问题是没有说到的?哪个方面做得不好的?有没有认真备课?学生有没有预习?有没有按照老师的要求学习?等等都会影响英语词汇教学。所以学生可以通过师生的交流,培养老师与学生之间的关系,可以的话,做一些评价,就是评价老师的上课能力和学生的学习能力,学生在学习中领会到老师的上课方法。老师在授课中明白学生的难处,那样针对性的学习可以缩短时间提高效率。

8.作为学校方面应该采取奖励制度;就是对好的学生好的老师进行期末评比,然后进行表扬。那样老师就会更加用功的讲课,学生也会更加努力的学习。还有的就是老师和同学都会变得更加主动。好的老师,学生继续努力。没有得到奖励的老师和学生也会抓紧,这样共同进步,共同发展,形成了良好的学习风气。

结论:词汇教学是高中英语教学中非常重要的环节。英语词汇是英语学习的基础,是语言的三大要素之一。高中学生在英语学习中遇到的主要问题之一是词汇,词汇在英语学习和教学中的重要性已经引起国内外专家的认识与肯定。英语教学和其他学科的教学一样,就是要结合词汇,事实证明,很多学生花很多时间和精力学习词汇,却没有得到预期的效果,主要原因就是他们缺乏有效的词汇学习策略,不懂得如何有效地学习和巩固词汇。学生是教学活动的主体,如果能够在语言学习过程中,教师在高效率开展教学活动的同时,有效地指导学生的外语学习,特别是有效地指导学生的词汇学习,让学生掌握一些行之有效的词汇学习理论与方法,无疑将促进他们对语言学习的兴趣和提高学习自主性,使其真正成为学习过程的主体。在词汇教学中,采用多种教学方法相结合的方式才能扩大学生词汇量,多方面提高学生学习新词汇的能力和水平,才能使学生合理、准确地使用所学词汇,进行听、说、读、写、译等各项活动,语言交流才能得以更好地实现。

参考文献:

第2篇

〔关键词〕在线评论;意见挖掘;特征抽取;文本分析

DOI:10.3969/j.issn.1008-0821.2016.08.031

〔中图分类号〕TP3911〔文献标识码〕A〔文章编号〕1008-0821(2016)08-0168-06

〔Abstract〕With the rapid development of Web20 technology and electronic commerce,more and more customers participate in the Internet,share product experience and express likes or dislikes about product.It is a challenge to extract product feature from customer reviews effectively in the product opinion mining field.Firstly,this paper introduced the research progress of extracting product feature from frequency,co-occurrence,modeling and implicit feature mapping both at home and abroad.Secondly,it presented their strength and limitation respectively.Finally,it enumerated some research interest about this task.

〔Key words〕online review;opinion mining;feature extraction;text analysis

近年来,随着Web20技术的发展,大量的在线产品评论文本不断涌现,对于有购买意向的潜在消费者来说,手工从产品评论中总结归纳出消费者对已购产品所持的褒贬态度是不现实的,尤其是意见相左的产品评论更让他们感到无所适从;对于生产厂家来说,从产品评论中了解消费者对产品整体或某一特征的意见,对企业竞争情报分析和后期产品质量的改进都大有裨益,因而对于评论中用户表达意见的研究具有重要意义。

随着物质文化生活水平的提高,人们对消费品需求日趋多元化、个性化,他们不再满足于产品的整体性能优劣,而是根据个人的消费喜好来关注产品的某一部件或属性的性能,较多关注产品局部的评论内容,因此如何准确全面抽取评论文本中所蕴含的产品特征信息是研究者所面临的重要问题。本文站在技术实现的角度从四个方面综述文本评论中产品特征抽取技术在国内外的研究进展及各自的优势和不足,最后指出产品特征抽取技术所面临的挑战和今后的发展方向。

1基于频繁项的特征抽取

该方法通常对评论语料中出现频率较高的名词或名词短语应用约束条件而抽取出来作为产品特征。产品特征词通常由名词、形容词、副词或动词组成。Liu[1]认为60%~70%的产品特征词是显式名词,由于人们习惯在评论中经常使用,因此产品的部件或属性常由经常出现的这类名词表示,同时还需要对频繁出现的名词中的非产品特征词进行过滤。

Hu[2]最先提出的基于特征摘要(Feature-based Summarization)算法。他首先将产品评论中频繁出现的名词短语作为候选种子词,然后通过密实度修剪(Compactness Pruning)去掉那些未按照指定顺序在一起出现的无意义词以及冗余修剪(Redundancy Pruning)去掉未能表示产品特征的单个词,比如手机产品评论中的“时间”一词,只有在“待机时间”或“通话时间”的名词短语中才表示手机产品属性,单独出现则毫无意义,所以就把它从候选种子词中去掉。随后Popescu[3]基于如下假设:共现的次数越多的两个词,则它们之间的关联度越高,因此Popescu提出点互信息(Point-wise Mutual Information,PMI)方法比Hu的算法提高了22%的准确率,但是召回率降低了3%。Ku[4]利用TF*IDF从文档和段落级别来判断某词对产品特征的重要程度,Scaffidi[5]也用此方法将频繁出现的名词短语候选项在评论语料中的出现频率与在一般性英文中的出现频率进行比较。Raju[6]等人同样在实验中丢弃所有那些相比在产品描述中更为频繁出现在一般性英文中的名词短语,然后将剩下的描述产品同一特征的名词短语进行聚类,该模型通过双连词重叠(Bigram Overlap)值来衡量名词短语间的相似性,最后只保留至少含3个名词短语的聚类簇。Long[7]等人基于出现频率和信息距离(Information Distance)的考虑来抽取名词短语,他们首先通过统计频率方式找到产品特征核心词,然后利用信息距离来查找与产品特征相关的其他词或短语,如“”和“Dollars”均是产品价格属性的核心词。Hao[8]提出的基于语言依存分析和语料库统计相结合的未登录产品特征项抽取算法,实验证明抽取的前200个产品属性中准确率达到875%。

基于频繁项的产品特征抽取方式简单高效,许多商业机构通过这种方式分析客户对产品的反馈意见。但也导致了抽取过程中出现过多与产品特征无关的词汇同时漏掉那些不常出现的产品特征词。另外需要对各种阈值参数进行手工调整,因此移植性差。

2基于产品特征和意见的共现关系

基于共现关系的产品特征项抽取前提是产品意见挖掘的主观陈述中,意见的表达总是针对具体的评论对象,而意见词在文本评论中是容易发现的[9]。

Liu[10]实现的Opinion Observer系统针仅对句子级的用户评论内容使用监督模式发现算法进行意见挖掘后并可视化显示不同产品(3种品牌)中各个特征(显示屏、电池、扬声器等)的比较结果。首先通过词性标注器(NLProcessor Linguistic Parser)对训练集进行词性标注,然后手工识别产品特征项并用指定的词([Feature])取代,如:“超高的性价比”被标注为“超高的ADJ性价比NN”,其中ADJ和NN分别表示形容词和名词。接着用“[Feature]”替换掉“性价比”,结果变成“超高的ADJ[Feature]NN”形式,上述操作的依据是他认为用户在评论中的描述方式通常是以类似的语法形式出现,只是所用的特征项不同,所以需要词性标注和[Feature]替换作为寻找语法规则的桥梁。最后利用关联规则挖掘对上述的词性标注模式进行产品特征项抽取。实验结果表明该方法可使召回率和准确率分别达到902%和889%的效果。

Baccianella[11]提出的层次性评级(Multi-facet Rating)方式抽取产品特征。首先通过预定义的3种POS模式抽取出意见短语(如:“nice room”、“horrible location”)作为候选项,然后充分利用General Inquirer[12]词典中情感词的极性、强度、词性等标签知识对候选项进行细粒度的标注,比如将“nice room”标注为“[Virtue][Positive]room”,将“horrible location”标注为“[Strong][Negative]location”。最后按照这些已标注过的候选项的区分度使用最小方差(Minimum Variance)进行计算打分完成产品特征的抽取,在对TripAdvisor网站爬取来的26 000条酒店评论实验中发现微观平均绝对误差(Micro Mean Absolute Error)降低了359%,宏观平均绝对误差降低了302%。

利用产品特征项的句法结构来抽取匹配项的方式,对于意见评论句中出现的相似句法结构处理起来显得有些无能为力。针对该情况,Jiang[13]基于树核(Tree Kernel)函数提出在线产品评论的产品特征抽取和情感极性分类方法可以隐式利用句法结构的子结构(substructure)特点并计算出子结构间的相似性。

Zhuang[14]通过应用依赖解析器来识别产品项之间的依赖关系和Du[15]利用产品特征项与情感词之间的关系达到抽取的目的。二人均首先考虑将所有的名词短语和形容词分别作为产品特征项和情感词,然后基于二者的共现关系建立对应的知识图,最后使用信息增强(Information Reinforcement)的图聚类算法来抽取与情感密切相关的产品特征项。随后Hai[16]也利用产品特征项和情感(aspect-sentiment)之间的共现矩阵挖掘出用来形成抽取新的产品-观点对的规则集。Qiu[17]也将依赖关系的思想应用到双传播方法中同时完成产品项和情感词的抽取任务。Shi[18]通过人工建立基于产品特征的概念模型再利用中文语义词典扩展的方式完成特征-意见对的抽取。

基于产品特征和意见之间共现关系抽取产品特征项的优势在于能发现低频的产品特征项,不足之处是抽取出的匹配共现关系模式的短语项中部分不能表示产品特征。简言之,这类方法的召回率高,准确率低。

也可将基于频繁项和基于共现关系的两种抽取方法结合使用,主要思想就是产品特征通常由频繁出现的名词表示并被情感词所修饰。因此常利用特征-情感关系对过滤掉非特征词。Li[19]等人首先从关于手机评论的中文文本中抽取出频繁出现的名词短语作为候选特征词,然后通过如下两步处理掉候选项中的噪音词,第一步使用形容词限制模式,如:ADJNN,其中ADJ表示形容词,NN表示名词短语;第二步利用信息检索(Information Retrieve)的词频(Term Frequency)计算,将那些在Web文本中出现频率高的常用词从候选项集中去掉,因为Li认为频繁出现的常用词表示产品特征的概率低。实验结果证明该算法优于仅使用自然语言处理产品特征的抽取技术并且具有领域适应性。Yu[20]利用领域知识(如产品说明书)将产品的所有特征以树状结构组织。该思路首先是从评论中抽取高频名词短语,然后对单分类支持向量机(One-class SVM)进行训练以识别候选特征项,接着利用特征项间的语义距离(Inter-aspect Semantic Distance)对候选特征项进行筛选。特征项间的语义距离一般由共现频率、上下文相似性和句法模式相似性等因素决定。最后通过递增式迭代将符合条件的特征项陆续加入到初始的树状结构中形成完整的层状产品特征树,对来自4个领域的11种产品的特征抽取实验证明了该算法的有效性。

与前两种方法相比,组合方式的优势在于由于使用了更多的约束条件(如:频率阈值和关系模式)使得非产品特征词的数量大大减少,不足的地方是仍会抽取出低频的非产品特征词,同样也需要对各种训练参数进行手工调整。

3基于训练模型的特征抽取

上述3种方法的局限性在于需要人工干涉抽取算法中的各种参数,并且定制好的抽取规则难以移植到其他数据集中去,而自动从数据中学习训练参数的训练模型则能克服该局限性。

31监督学习技术方式

特征抽取通常看作是一般信息抽取的特例,那么信息抽取中所使用的监督学习算法仍适用于意见挖掘中对产品特征、观点词和观点极性的识别。已有基于监督学习技术的模型如隐马尔科夫模型[21](Hidden Markov Model)和条件随机域[22](Conditional Random Field),它们采用序列学习(Sequential Learning)方法,主要从标注的训练数据中推断出函数以应用到未标注的数据中去,是目前研究较多的两种模型。其中隐马尔科夫模型属于生成概率模型,它使用联合概率分布为观察序列从状态集合中选择具有最大可能性的状态序列过程。条件随机域属于判别式概率模型(Discriminative Probabilistic Model)它是在给定观察序列的条件下,计算整个观察序列状态标记的概率无向图学习模型。

Wong[23]结合隐马尔科夫模型提出的概率图模型对来自多个站点的数码相机、MP3播放器和液晶电视的产品特征进行联合抽取和分组。Jin[24]基于隐马尔科夫模型实现的OpinionMiner机器学习系统主要将词性标注信息与马尔科夫假设相结合,产生的每个词不仅由它前面的词决定并且也依赖于自身的词性标签。实验首先建立由产品特征项、正负观点词(包含显式和隐式)和背景词组成的标签集,然后利用该标签集手工标注训练文档,接着将该标注的文档通过自学习的方式抽取高置信度的特征项,最后应用基于HMM的模型用来抽取出所有产品特征和观点词。Li[25]采用Skip-CRF和Tree-CRF两种CRF变体结合方式完成产品特征项的抽取任务,该方式可利用文本评论中的句子结构并解决了传统CRF在学习过程中只能使用词序列的缺陷。其中Liu[10]和Choi[26]在实验中也用到条件随机域(CRF)模型,其中Choi通过标签、依赖关系、词距(Word Distance)和观点句使用序列模式挖掘技术形成一套序列模式规则来发现产品特征项和观点词。对于中文评论文本中产品特征项的抽取工作,Song[27]首先人工定义文本模式构成种子集合,再采用Bootstrapping算法从评论语句中抽取评价对象,然后将评价对象聚类为产品名称和产品特征两类,该方法取得较高召回率和准确率,但忽视了产品名称容易从产品评论网站的产品目录结构中获取的特点。Yao[28]利用本体知识建立汽车领域的产品特征集。Liu[29]提出意见实例抽取(opinion instance extraction)建立相关领域知识完成特征项和情感词同步抽取。

监督学习方法可以自动从训练数据中学习模型参数,解决了前两种方法中需人工参与的问题,但是仍需要手工标注训练数据,不同的产品意见挖掘模型需要标注不同的训练集,耗时费力并难以适用所有产品的特征抽取任务,并且手机这类电子产品更新换代快,短时间内就会有新的功能和特征参数面世。

32基于主题模型的特征抽取

主题建模是对文档中隐含主题进行无监督的学习方法,它假定每篇文档由多个主题组成,每个主题就是词汇表中词语的条件概率分布,主要由若干出现频率较高的词语组成,只有这些词语才与主题有很强的相关性。

主题模型主要有两类:概率潜在语义分析[30](Probabilistic Latent Semantic Analysis)和隐含狄利克雷分布[31](Latent Dirichlet Allocation)。从技术上讲,主题模型是基于贝叶斯网络的图模型,pLSA和LDA均能直接应用于意见挖掘中的产品主题和意见主题抽取,为了避免抽取主题的混乱,部分研究者用联合模型(Joint Model)分别完成产品特征项和意见词的抽取工作。

扩展的主题模型在产品特征项抽取中应用较多,Mei[32]在pLSA主题模型基础上实现的主题情感混合(Topic-Sentiment Mixture)模型。该模型针对iPod等主题的即席(Ad hoc)查询显示各项特征(如:电池寿命、外观、尺寸)详细的情感极性及强度,并显示各主题随时间的情感变化曲线。主要实现思路是将单词依照概率分布分为与主题无关的普通词(如the,a,of)、正向主题相关词、负向主题相关词、中性主题相关词4类,用最大期望(Expectation-Maximization)算法估计每个类中的词项概率分布。实验结果证明其模型比Opinmind[33]系统中情感分析的粒度更细。

Titov[34]提出的多粒度LDA模型(Multi-Grain LDA)避免了LDA模型中出现的主题含义无法显式确定的问题,并将其应用于主题的情感摘要生成系统中。他认为评论文档是由滑动窗口(Sliding Window)的集合构成,而滑动窗口又由文档中连续的句子组成。每个滑动窗口中存在局部主题的概率分布,而整篇文档对应一个全局主题的概率分布。特征词项不仅可以从局部主题的概率分布中生成,还可从全局主题的概率分布中产生。在对网站获取的关于hotel评论文本实验中,将hotel领域实体(如:London hotels、seaside resorts)作为全局主题,将属于实体的特征项(如:service、location、rooms)作为局部主题,并将每个特征的评分(1~5的整数值)作为观测值加入到模型中,同时假定对特征评论的文本是对该特征评分的预测信息,这样完成了主题与特征项的关联。

Zhao[35]等人结合最大熵(Maximum Entropy)和主题模型提出的ME-LDA模型(MaxEnt-LDA)利用句法结构规则完成特征词和与特征相关的意见词抽取。该实验中首先在标注的训练集中用ME算法学习一系列变量参数,然后从这些参数的多项概率分布中产生指示变量(Indicator Variable),最后通过指示变量来确定句子中的词项是产品特征项还是意见词。Sauper[36]将隐马尔科夫(HMM)和主题模型结合提出的联合模型(HMM-LDA)仅适应于短文本片段的产品特征项抽取,如:“我最看中的是这款手机的外观”中的“外观”特征项抽取。该思路在Griffith[37]、Liu[38]、Lu[39]等人的文献中也有所体现。Brody[40]提出的针对句子而非篇章级的局部隐含狄利克雷分布(Local LDA)模型完成餐馆和上网本领域的产品特征抽取。Lin[41]等人对词采集情感标签和主题标签实现的Joint Sentiment/Topic(JST)模型,而Jo[42]对句子采集情感标签和主题标签提出的Aspect Sentiment Unification Model(ASUM)模型均可看作是对LDA模型的扩展。Mukherjee[43]等人认为用户对产品特征词的归类受个人主观影响,因此采用半监督方式实现ME-SAS模型(Maximum Entropy Seeded Aspect Sentiment)完成特征词的抽取和聚类工作,主要由用户提供少量特征种子词再利用ME-SAS模型指导生产满足用户需要的其他特征词。

与监督学习技术相比,主题模型的优势在于无需人工标注数据,并且在无人监督情况下同时完成产品特征项的抽取和归类任务。但是为了达到较高的准确率,主题模型通常需要大量未标注的数据进行长时间训练。

4隐式与显式产品特征间的关联

上述方法主要对名词或名词短语这类显式产品特征进行抽取,对于那些没有在语句中直接进行描述,需要对句子进行语义理解才能得到的隐式特征也不容忽视,它们通常由形容词或动词表示产品的某一属性。如:“哇,iPhone 5s屏幕上的内容,我要眯着眼才能看清楚。”中的动词短语“眯着眼看”表示手机的屏幕小。

近年来产品隐式特征抽取方面,各学者也介绍了自己的实现思路。Su[44]提出的聚类方法来建立那些假定为情感词的隐式特征表达与对应显式特征之间的映射。该方法利用显式特征和情感词之间相互强化的关系,同时对两者的内容信息和情感链接信息不断聚类形成产品特征簇和情感词簇。Yan[45]等人基于PageRank算法提出的NodeRank来依据特征-情感对的重要程度对隐式特征进行抽取。Tuarob[46]等人利用产品设计上下文知识,采用共词网络(Co-word Network)的概率模型,对Twitter中有关智能手机评论内容完成隐式产品特征的抽取工作。Hai[16]提出的两相共生(Two-phase Co-occurrence)关联规则挖掘方法完成隐式特征(假定为情感词)与显式特征的匹配。该方法在第一阶段对句中经常共同出现的情感词和显式特征来说,将情感词作为条件,显式特征代表结果,由此生成对应的关联规则;第二阶段将规则的结果(显式特征)聚类以生成对情感词更健壮的规则(Robust Rule)。如果情感词没有相应的显式产品特征,则将最佳规则簇内的代表性词作为识别出的产品特征。

5结语

本文结合国内外的研究现状从4个方面对意见挖掘模型中的产品特征抽取工作进行了综述,并指出了各自的优势和不足。随着电子商务的日渐普及,产品意见挖掘作为情感分析的一个重要应用方向,其产品特征抽取研究更具有举足轻重的地位,未来需要深入研究的问题还有:

(1)由于受文化和表达习惯的影响,人们用不同的术语来表述同指特征(如:MMC卡,microSD卡、TF卡和扩展卡均指手机的外部存储卡),通过WorldNet或HowNet词典进行同义词分组归类的处理方式是远远不够的,一方面词典收录的局限性导致缩略语、专门术语(Jargon)等无法识别;另一方面许多同义词具有领域依赖性,因此对同指特征的抽取可通过查找网页计算其与已知特征的互信息(Mutual Information)来决定。

(2)目前大部分研究集中在结构化或半结构化文档集合的特征抽取上,但是近年来微博成为用户进行产品评论的重要信息源,由于其言简意赅的特点和表达用语的不规范性,因此针对微博中短文本的产品特征抽取研究更具有挑战性。

(3)隐式产品特征的抽取虽有进展,但目前研究较少,笔者认为借鉴前人研究的由少量显式特征种子词结合词间相似度计量方法来抽取产品特征词思路,利用Mikolov[47]在2013年实现的深度学习(deep learning)工具word2vec会提高产品特征词的召回率和准确率。

参考文献

[1]Liu B.Web data mining:exploring hyperlinks,contents,and usage data[M].Springer Verlag,2007.

[2]Hu M,Liu B.Mining and summarizing customer reviews[C].Proceedings of the Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining,ACM,2004:168-177.

[3]Popescu A-M,Etzioni O.Extracting product features and opinions from reviews[M].Natural language processing and text mining.Springer.2007:9-28.

[4]Ku L-W,Liang Y-T,Chen H-H.Opinion Extraction,Summarization and Tracking in News and Blog Corpora[C].Proceedings of the AAAI Spring Symposium:Computational Approaches to Analyzing Weblogs,2006:100-107.

[5]Scaffidi C,Bierhoff K,Chang E,et al.Red Opal:product-feature scoring from reviews[C].Proceedings of the Proceedings of the 8th ACM conference on Electronic commerce,ACM,2007:182-191.

[6]Raju S,Pingali P,Varma V.An unsupervised approach to product attribute extraction[M].Advances in Information Retrieval.Springer,2009:796-800.

[7]Long C,Zhang J,Zhut X.A review selection approach for accurate feature rating estimation[C].Proceedings of the Proceedings of the 23rd International Conference on Computational Linguistics:Posters,Association for Computational Linguistics,2010:766-774.

[8]郝博一,夏云庆,郑方.OPINAX:一个有效的产品属性挖掘系统[C].Proceedings of the 第四届全国信息检索与内容安全学术会议论文集(上卷),2008.

[9]Liu B.Sentiment analysis and opinion mining[J].Synthesis Lectures on Human Language Technologies,2012,5(1):1-167.

[10]Liu B,Hu M,Cheng J.Opinion observer:analyzing and comparing opinions on the web[C].Proceedings of the Proceedings of the 14th international conference on World Wide Web,ACM,2005:342-351.

[11]Baccianella S,Esuli A,Sebastiani F.Multi-facet rating of product reviews[M].Advances in Information Retrieval.Springer,2009:461-472.

[12]Stone P J,Dunphy D C,Smith M S.The General Inquirer:A Computer Approach to Content Analysis[J].1966.

[13]Jiang P,Zhang C,Fu H,et al.An approach based on tree kernels for opinion mining of online product reviews[C].Proceedings of the Data Mining(ICDM),2010 IEEE 10th International Conference on,IEEE,2010:256-265.

[14]Zhuang L,Jing F,Zhu X-Y.Movie review mining and summarization[C].Proceedings of the Proceedings of the 15th ACM international conference on Information and knowledge management,ACM,2006:43-50.

[15]Du W,Tan S.An iterative reinforcement approach for fine-grained opinion mining[C].Proceedings of the Proceedings of Human Language Technologies:The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics,Association for Computational Linguistics,2009:486-493.

[16]Hai Z,Chang K,Kim J-j.Implicit feature identification via co-occurrence association rule mining[M].Computational Linguistics and Intelligent Text Processing.Springer,2011:393-404.

[17]Qiu G,Liu B,Bu J,et al.Opinion word expansion and target extraction through double propagation[J].Computational Linguistics,2011,37(1):9-27.

[18]Shi B,Chang K.Mining chinese reviews[C].Proceedings of the Data Mining Workshops,2006 ICDM Workshops 2006 Sixth IEEE International Conference on,IEEE,2006:585-589.

[19]Li Z,Zhang M,Ma S,et al.Automatic extraction for product feature words from comments on the web[M].Information Retrieval Technology.Springer,2009:112-123.

[20]Yu J,Zha Z-J,Wang M,et al.Domain-assisted product aspect hierarchy generation:towards hierarchical organization of unstructured consumer reviews[C].Proceedings of the Proceedings of the Conference on Empirical Methods in Natural Language Processing,Association for Computational Linguistics,2011:140-150.

[21]Eddy S R.Hidden markov models[J].Current opinion in structural biology,1996,6(3):361-365.

[22]Lafferty J,McCallum A,Pereira F C.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[J].2001.

[23]Wong T-L,Bing L,Lam W.Normalizing web product attributes and discovering domain ontology with minimal effort[C].Proceedings of the Proceedings of the fourth ACM international conference on Web search and data mining,ACM,2011:805-814.

[24]Jin W,Ho H H,Srihari R K.OpinionMiner:a novel machine learning system for web opinion mining and extraction[C].Proceedings of the Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining,ACM,2009:1195-1204.

[25]Li F,Han C,Huang M,et al.Structure-aware review mining and summarization[C].Proceedings of the Proceedings of the 23rd International Conference on Computational Linguistics,Association for Computational Linguistics,2010:653-661.

[26]Choi Y,Cardie C.Hierarchical sequential learning for extracting opinions and their attributes[C].Proceedings of the Proceedings of the ACL 2010 Conference Short Papers,Association for Computational Linguistics,2010:269-274.

[27]宋晓雷,王素格,李红霞.面向特定领域的产品评价对象自动识别研究[J].中文信息学报,2010,24(1):89-93.

[28]姚天,聂青阳,李建超,等.一个用于汉语汽车评论的意见挖掘系统[C].Proceedings of the 中文信息处理前沿进展-中国中文信息学会二十五周年学术会议论文集,北京:清华大学出版社,2006:260-281.

[29]Liu J,Wu G,Yao J.Opinion searching in multi-product reviews[C].Proceedings of the Computer and Information Technology,2006 CIT06 The Sixth IEEE International Conference on,IEEE,2006:25-25.

[30]Hofmann T.Probabilistic latent semantic indexing[C].Proceedings of the Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval,ACM,1999:50-57.

[31]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].the Journal of machine Learning research,2003,(3):993-1022.

[32]Mei Q,Ling X,Wondra M,et al.Topic sentiment mixture:modeling facets and opinions in weblogs[C].Proceedings of the Proceedings of the 16th international conference on World Wide Web,ACM,2007:171-180.

[33]Mei I-H,Mi H,Quiaot J.Sentiment Mining and Indexing in Opinmind[C].Proceedings of the ICWSM,Citeseer,2007.

[34]Titov I,McDonald R.A joint model of text and aspect ratings for sentiment summarization[J].Urbana,2008,51(61801.

[35]Zhao W X,Jiang J,Yan H,et al.Jointly modeling aspects and opinions with a MaxEnt-LDA hybrid[C].Proceedings of the Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing,Association for Computational Linguistics,2010:56-65.

[36]Sauper C,Haghighi A,Barzilay R.Content models with attitude[C].Proceedings of the,Association for Computational Linguistics,2011.

[37]Griffiths T L,Steyvers M,Blei D M,et al.Integrating topics and syntax[C].Proceedings of the Advances in neural information processing systems,2004:537-544.

[38]Liu J,Cao Y,Lin C-Y,et al.Low-Quality Product Review Detection in Opinion Summarization[C].Proceedings of the EMNLP-CoNLL,2007:334-342.

[39]Lu Y,Zhai C.Opinion integration through semi-supervised topic modeling[C].Proceedings of the Proceedings of the 17th international conference on World Wide Web,ACM,2008:121-130.

[40]Brody S,Elhadad N.An unsupervised aspect-sentiment model for online reviews[C].Proceedings of the Human Language Technologies:The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics,Association for Computational Linguistics,2010:804-812.

[41]Lin C,He Y.Joint sentiment/topic model for sentiment analysis[C].Proceedings of the Proceedings of the 18th ACM conference on Information and knowledge management,ACM,2009:375-384.

[42]Jo Y,Oh A H.Aspect and sentiment unification model for online review analysis[C].Proceedings of the Proceedings of the fourth ACM international conference on Web search and data mining,ACM,2011:815-824.

[43]Mukherjee A,Liu B.Aspect extraction through semi-supervised modeling[C].Proceedings of the Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics:Long Papers-Volume 1,Association for Computational Linguistics,2012:339-348.

[44]Su Q,Xu X,Guo H,et al.Hidden sentiment association in chinese web opinion mining[C].Proceedings of the Proceedings of the 17th international conference on World Wide Web,ACM,2008:959-968.

[45]Yan Z,Xing M,Zhang D,et al.EXPRS:An extended pagerank method for product feature extraction from online consumer reviews[J].Information & Management,2015,52(7):850-858.