CN109933793B - 文本极性识别方法、装置、设备及可读存储介质 - Google Patents

文本极性识别方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN109933793B
CN109933793B CN201910197367.XA CN201910197367A CN109933793B CN 109933793 B CN109933793 B CN 109933793B CN 201910197367 A CN201910197367 A CN 201910197367A CN 109933793 B CN109933793 B CN 109933793B
Authority
CN
China
Prior art keywords
vocabulary
polarity
target
value
seed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910197367.XA
Other languages
English (en)
Other versions
CN109933793A (zh
Inventor
侯皓文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910197367.XA priority Critical patent/CN109933793B/zh
Publication of CN109933793A publication Critical patent/CN109933793A/zh
Application granted granted Critical
Publication of CN109933793B publication Critical patent/CN109933793B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种文本极性识别方法、装置、设备及可读存储介质,涉及人工智能领域。该方法包括:获取目标文本内容;对目标文本内容进行分词处理,得到n个分词词汇;通过机器学习模型对n个分词词汇的词汇极性值进行识别,机器学习模型中包括极性词汇表,其中包括种子词汇和语料词汇,语料词汇的极性值是根据训练语料以及种子词汇的极性值确定的;根据分词词汇的极性值确定目标文本内容的极性。通过预先标注有极性值的种子词汇确定语料词汇的极性值,避免了由于词汇极性仅能通过人为标注,且极性词汇表中需要大量的参考词汇而导致的消耗大量人力资源以及时间资源的问题,语料词汇的极性值的标注效率较高。

Description

文本极性识别方法、装置、设备及可读存储介质
技术领域
本申请实施例涉及人工智能领域,特别涉及一种文本极性识别方法、装置、设备及可读存储介质。
背景技术
在人工智能领域,对文本内容进行处理时,可采用的处理方式包括文本翻译、文本极性分类、文本语义理解等方式,其中,文本分类是指根据文本内容对该文本内容的极性进行识别的方式,该极性用于对文本内容所表达的结果进行区分,如:在金融领域,当文本内容为上涨时,则表达的极性为正面极性,当文本内容为下跌时,则表达的极性为负面极性。
相关技术中,在对文本内容的极性进行识别时,是通过预设神经网络模型进行识别的。而该预设神经网络模型中包括极性词汇表,该极性词汇表中包括标注有极性的词汇,根据该极性词汇表中的词汇对文本内容的极性进行识别。
然而,通过上述技术进行文本分类时,由于预设神经网络模型中的极性词汇表中的词汇是通过人为标注词汇极性的,在对文本极性进行识别的过程中,极性词汇表中需要有大量的词汇参与识别以确保识别的准确性,而人为对词汇极性进行标注的效率较低,标注过程需要耗费大量的资源。
发明内容
本申请实施例提供了一种文本极性识别方法、装置、设备及可读存储介质,可以解决人为对词汇极性进行标注的效率较低,标注过程需要耗费大量的资源的问题。所述技术方案如下:
一方面,提供了一种文本极性识别方法,所述方法包括:
获取目标文本内容,所述目标文本内容为待识别极性的文本内容;
对所述目标文本内容进行分词处理,得到n个分词词汇,n为正整数;
通过机器学习模型对所述n个分词词汇的词汇极性值进行识别,其中,所述机器学习模型中包括与所述目标文本内容属于同一领域的极性词汇表,所述极性词汇表中包括标注有极性值的参考词汇,所述参考词汇中包括种子词汇和语料词汇,所述种子词汇的极性值为预先标注的,所述语料词汇的极性值是根据训练语料以及所述种子词汇的所述极性值确定的;
根据所述n个分词词汇的所述词汇极性值确定所述目标文本内容的极性。
另一方面,提供了一种文本极性识别装置,所述装置包括:
获取模块,用于获取目标文本内容,所述目标文本内容为待识别极性的文本内容;
处理模块,用于对所述目标文本内容进行分词处理,得到n个分词词汇,n为正整数;
识别模块,用于通过机器学习模型对所述n个分词词汇的词汇极性值进行识别,其中,所述机器学习模型中包括与所述目标文本内容属于同一领域的极性词汇表,所述极性词汇表中包括标注有极性值的参考词汇,所述参考词汇中包括种子词汇和语料词汇,所述种子词汇的极性值为预先标注的,所述语料词汇的极性值是根据训练语料以及所述种子词汇的所述极性值确定的;
确定模块,用于根据所述n个分词词汇的所述词汇极性值确定所述目标文本内容的极性。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中提供的文本极性识别方法。
另一方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中提供的文本极性识别方法。
另一方面,提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如上述本申请实施例中提供的文本极性识别方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
在对文本极性进行识别时,所应用的极性词汇表中的参考词汇中包括种子词汇和语料词汇,而语料词汇的极性值是通过预先标注有极性值的种子词汇确定的,也即通过种子词汇的极性值自动对语料词汇的极性值进行标注,避免了由于词汇极性仅能通过人为标注,且极性词汇表中需要大量的参考词汇而导致的消耗大量人力资源以及时间资源的问题,语料词汇的极性值的标注效率较高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的实施环境的示意图;
图2是本申请一个示例性实施例提供的文本极性识别方法的流程图;
图3是基于图2示出的实施例提供的文本极性识别方法的数据流示意图;
图4是基于图3示出的数据流提供的另一个文本极性识别方法的流程图;
图5是基于图4示出的实施例提供的CBOW模型的应用示意图;
图6是基于图4示出的实施例提供的文本分词后的训练样本示意图;
图7是本申请另一个示例性实施例提供的文本极性识别方法的流程图;
图8是基于图7示出的实施例提供的结合上下文词汇确定目标词汇的极性的流程图;
图9是本申请一个示例性实施例提供的文本极性识别方法的***流程示意图;
图10是本申请一个示例性实施例提供的文本极性识别装置的结构框图;
图11是本申请另一个示例性实施例提供的文本极性识别装置的结构框图;
图12是本申请一个示例性实施例提供的服务器的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,对本申请实施例中涉及的名词进行简单介绍:
极性:是指事物向特定方向发展的倾向或趋势,可选地,极性可以分为正面极性和负面极性,如:在金融领域中,金融产品的上涨对应正面极性,金融产品的下跌对应负面极性。可选地,极性还可以分为正面极性、负面极性和中间极性,示意性的,在金融领域中,当金融产品既未上涨,也未下跌时,则该金融产品的走势对应中间极性。可选地,正面极性用于表示发展情况较好的趋势,负面极性用于表示发展情况较差的趋势。
可选地,本申请实施例中,以极性值的方式对词汇以及文本的极性进行表示,也即,以数值的方式对词汇以及文本的极性进行表示,可选地,该极性值可以通过2个值对正面极性和负面极性进行表示,如:1表示正面极性,-1表示负面极性;也可以通过不固定的值对在正面极性和负面极性之间的偏向进行表示,如:0.8、0.7表示偏向正面极性,-0.6、-0.8表示偏向负面极性。示意性的,在金融领域中,“利好、上涨、牛市”等词汇的极性值为1,“利空、下跌、熊市”等词汇的极性值为-1,其中,当极性值大于0.5时表示为正面极性,当极性值小于-0.5时表示为负面极性,当极性值在0.5与-0.5之间时表示为中间极性。可选地,上述极性值标注方式仅为示意性的举例,实际操作过程中,还可以以十分制的方式、百分制的方式对极性值进行标注等,本申请实施例对极性值的标注形式不做限定。
在人工智能领域中,存在多种对文本内容进行处理的方式,其中,文本极性识别是一种通过对目标文本内容所属的极性进行识别的技术,而本申请提供的文本极性识别方法可以应用于如下场景中的至少一种:
第一,该文本极性识别方法应用于金融应用程序中,该金融应用程序中推送有金融相关的新闻信息,通过获取新闻信息,并对新闻信息中的新闻内容进行极性识别,将识别得到的极性向用户进行展示,用户可以根据识别得到的极性对金融产品的走势或金融行业的整体发展情况进行分析及预测;
第二,该文本极性识别方法应用于影视评价***中,该影视评价***可以是影视购票应用程序中的一个功能模块,如:电影票购买软件中的功能模块,针对目标影视作品,通过获取该目标影视作品的评价信息,并对评价信息中的评价内容进行极性识别,将识别得到的极性向用户进行展示,用户可以根据识别得到的极性对该目标影视作品收到的评价进行参考,并以此判断是否对目标影视作品进行观看;
第三,该文本极性识别方法应用于购物应用程序中,该购物应用程序中包括评价功能,用户可以对已购商品进行文字评价,针对目标商品通过获取该目标商品的评价信息,并对评价信息中的评价内容进行极性识别,将识别得到的极性向用户进行展示,用户可以根据识别得到的极性对该目标商品收到的评价进行参考,并以此判断是否购买该目标商品。
值得注意的是,上述应用场景仅为示意性的举例,本申请提供的文本极性识别方法可以应用于任意通过识别文本极性进行文本内容分析的应用场景中。
可选地,本申请实施例中提供的文本极性识别方法可以应用于终端中,也可以应用于服务器中,当该文本极性识别方法应用于终端中时,终端可以直接对识别得到的极性进行展示;当该文本极性识别方法应用于服务器中时,服务器将识别得到的极性发送至终端,并由终端对该极性进行展示。
示意性的,以该文本极性识别方法应用于服务器中为例进行说明,如图1所示,该文本极性识别方法的实施环境包括:终端110、服务器120以及通信网络130;
终端110中安装有金融应用程序111,服务器120中包括机器学习模型121以及金融应用程序111对应的后台数据122,通过机器学习模型121对后台数据122进行文本极性识别后,得到文本极性识别结果123,服务器120通过通信网络130将该文本极性识别结果123发送至终端110,终端110在金融应用程序111的显示界面112中对该文本极性识别结果123进行展示。
其中,服务器120可以实现为一台服务器,也可以实现为一组服务器构成的服务器集群,可选地,服务器120可以是物理服务器,也可以实现为云服务器;终端110可以是手机、平板电脑、膝上便携式笔记本电脑等移动终端,也可以是台式电脑、投影式电脑等终端,本申请实施例对此不加以限定。可选地,通信网络130可以是有线网络也可以是无线网络,且该通信网络130可以是局域网、城域网以及广域网中的至少一种。
图2是本申请一个示例性实施例提供的文本极性识别方法的流程图,该方法可以实现在终端中,也可以实现在服务器中,本申请实施例中,以该方法应用在服务器中为例进行说明,如图2所示,该方法包括:
步骤201,获取目标文本内容。
可选地,该目标文本内容为待识别极性的文本内容。可选地,当该文本极性识别方法应用于服务器中时,服务器可以直接获取当前生成的数据,或存储器中已存储的数据。
可选地,触发获取目标文本内容的方式包括如下方式中的任意一种:
第一,该目标文本内容为金融类的新闻内容时,用户在使用终端中的安装的金融应用程序时,触发对目标金融产品的产品走势进行自动分析,终端向服务器发送针对目标金融产品的分析请求,根据该分析请求,服务器从已存储的数据中获取该目标金融产品对应的新闻内容作为目标文本内容;
第二,该目标文本内容为影视评价内容时,用户在使用影视购票应用程序时,触发对目标影视作品的评价信息进行自动分析,终端向服务器发送针对目标影视作品的分析请求,根据该分析请求,服务器从影视评价***中获取该目标影视作品的评价内容作为目标文本内容;
第三,该目标文本内容为商品评价内容时,用户在使用购物应用程序时,触发对目标商品的评价信息进行自动分析,终端向服务器发送针对目标商品的分析请求,根据该分析请求,服务器从商品评价***中获取该目标商品的评价内容作为目标文本内容;
第四,服务器每隔预设时间对最新生成的文本内容通过文本极性识别方法极性识别,故服务器每隔预设时间获取最新生成的文本内容。
步骤202,对目标文本内容进行分词处理,得到n个分词词汇。
可选地,分词处理是指将汉字序列切分为一个个单独的词汇,也即,将连续的字序列按照一定的规范重新组成词序列的处理方式。
可选地,该分词处理可以通过如下三种方式中的至少一种进行:1、基于字符串匹配的分词方法;2、基于理解的分词方法;3、基于统计的分词方法。
其中,基于字符串匹配的分词方法是按照一定的策略将待分词的字符串与词库中的词汇进行匹配,当在词库中存在与字符串匹配的词汇时,则匹配成功的词汇即为该字符串中分词得到的一个词汇;基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词汇的效果,在分词处理的同时进行句法、语义分析,并利用句法信息以及语义信息处理歧义现象;基于统计的分词方法中,首先给出大量已分词的样本,利用机器学习模型学习词汇的切分规律,从而将待分词的文本输入该机器学习模型进行分词处理。
可选地,通过上述三种方式中的至少一种对目标文本内容进行分词处理后,得到n个分词词汇,其中,n为正整数。
步骤203,通过机器学习模型对n个分词词汇的词汇极性进行识别,其中,机器学习模型中包括与目标文本内容属于同一领域的极性词汇表。
可选地,该极性词汇表中包括标注有极性值的参考词汇,该参考词汇中包括种子词汇以及语料词汇,其中,种子词汇的极性值为预先标注的,语料词汇的极性值是根据训练语料以及种子词汇的极性值确定的。
可选地,当目标文本内容属于金融领域时,该极性词汇表中的参考词汇标注的极性值是根据金融领域对应的极性分类进行标注的,如:词汇“利好”标注极性值为1,词汇“利空”标注极性值为-1;当目标文本内容属于影视评价领域时,该极性词汇表中的参考词汇标注的极性值是根据影视评价领域对应的极性分类进行标注的,如:词汇“推荐”标注极性值为1,词汇“差评”标注极性值为-1。
可选地,种子词汇的极性值为预先标注的,而语料词汇的极性值是根据训练语料以及种子词汇的极性值确定的,可选地,语料词汇的极性值可以是统一根据种子词汇确定,也可以第一批次语料词汇的极性值根据种子词汇确定,第二批次语料词汇的极性值根据种子词汇以及第一批次种子词汇确定,第三批次语料词汇的极性值根据种子词汇、第一批次种子词汇以及第二批次种子词汇确定,以此类推。
可选地,该文本极性识别方法的在多个场景下应用时,种子词汇的组成包括如下情况中的任意一种:
第一,该文本极性识别方法应用于金融领域时,该目标文本内容以及极性词汇表皆属于金融领域,种子词汇包括从极性值标注为1的利好、上涨、牛市组成的群组中选择的至少一个,以及从极性值标注为-1的利空、下跌、熊市组成的群组中选择的至少一个,其中,当极性值大于0.5时表示为正面极性,当极性值小于-0.5时表示为负面极性,当极性值在0.5与-0.5之间时表示为中间极性;
第二,该文本极性识别方法应用于影视评论领域,目标文本内容以及极性词汇表皆属于影视评论领域,种子词汇包括从极性值标注为1的佳片、好看、推荐组成的群组中选择的至少一个,以及从极性值标注为-1的无趣、低分、不推荐组成的群组中选择的至少一个,其中,当极性值大于0.5时表示为正面极性,当极性值小于-0.5时表示为负面极性,当极性值在0.5与-0.5之间时表示为中间极性;
第三,该文本极性识别方法应用于购物评论领域,目标文本内容以及极性词汇表皆属于购物评论领域,种子词汇包括从极性值标注为1的推荐、好物、好评组成的群组中选择的至少一个,以及从极性值标注为闲置、难用、不推荐组成的群组中选择的至少一个,其中,当极性值大于0.5时表示为正面极性,当极性值小于-0.5时表示为负面极性,当极性值在0.5与-0.5之间时表示为中间极性。
可选地,该机器学习模型主要运用双向长短时记忆(Bi Long Short TermMemory,Bi-LSTM)神经网络。
步骤204,根据n个分词词汇的词汇极性值确定目标文本内容的极性。
可选地,根据n个分词词汇确定目标文本内容的极性时,可以通过计算该n个分词词汇的词汇极性值的平均值,将该平均值作为目标文本内容的极性值,并根据该目标文本内容的极性值所处的范围确定给目标文本内容的极性。
可选地,当目标词汇之前或之后存在副词时,根据副词对该目标词汇的词汇极性值参与计算时的取值进行调整,如:文本内容中包括“未有下跌”分词得到“未有”以及“下跌”,其中,“下跌”的极性值为-1,在计算目标文本内容的极性时,根据副词“未有”将“下跌”的极性值乘0参与计算。
综上所述,本实施例提供的文本极性识别方法,在对文本极性进行识别时,所应用的极性词汇表中的参考词汇中包括种子词汇和语料词汇,而语料词汇的极性值是通过预先标注有极性值的种子词汇确定的,也即通过种子词汇的极性值自动对语料词汇的极性值进行标注,避免了由于词汇极性仅能通过人为标注,且极性词汇表中需要大量的参考词汇而导致的消耗大量人力资源以及时间资源的问题,语料词汇的极性值的标注效率较高。
本实施例提供的方法,通过根据种子词汇的极性值确定语料词汇的极性值,并将该种子词汇和语料词汇运用在目标文本内容的极性识别过程中,由于通过种子词汇确定语料词汇的极性值时,能够以极性值的表达方式对极性进行表示,以更细致更准确的方式对极性进行标注,对文本内容的极性进行识别时,识别准确度较高。
结合上述图2所示的实施例,以该文本极性识别方法应用于金融领域为例进行说明,请参考图3,如图3所示,用户在终端310中选择分析xx产品后,终端310向服务器320发送分析请求,该分析请求用于请求服务器320对xx产品进行分析,服务器320根据接收到的分析请求,获取该xx产品对应的新闻数据321,并将新闻数据321输入至机器学习模型322进行分析,通过机器学习模型322得到该新闻数据321对应的分析结果323,其中,该机器学习模型322中包括极性词汇库324,该分析结果323表示该新闻数据321对应的文本极性为正面极性,服务器320将该分析结果323发送至终端310后,终端310对该xx产品的分析结果进行展示,展示内容为“根据新闻内容分析得到xx产品表现较好”。
可选地,该极性词汇库324中包括标注有极性值的参考词汇3241,该参考词汇中包括种子词汇3242以及语料词汇3243,其中,语料词汇3243是根据种子词汇3242以及训练语料3244确定得到的。
可选地,上述实现方式中,终端310向服务器320发送分析请求的过程还可以实现为服务器320通过爬虫实时监控特定新闻页面,当页面更新时爬取更新内容,并对更新内容进行分析。本申请实施例对文本极性识别的触发条件不加以限定。
可选地,上述语料词汇的极性值的确定方式具体请参考如下图4,图4是本申请另一个示例性实施例提供的文本极性识别方法流程图,该方法可以实现在服务器中,也可以实现在终端中,该方法包括:
步骤401,获取已标注有极性值的种子词汇。
可选地,该种子词汇的极性值是由开发人员进行主动标注的,而非自动生成的。示意性的,当该文本极性识别方法应用于金融领域时,该种子词汇中包括:利好(极性值:1)、上涨(极性值:1)、牛市(极性值:1)、利空(极性值:-1)、下跌(极性值:-1)、熊市(极性值:-1),其中,当极性值大于0.5时表示为正面极性,当极性值小于-0.5时表示为负面极性,当极性值在0.5与-0.5之间时表示为中间极性。
步骤402,获取训练语料。
可选地,该训练语料可以是金融领域的任意语料。可选地,该训练语料可以是金融应用程序中生成的新闻内容、即时推送内容等。
步骤403,对训练语料进行分词处理,得到语料词汇。
可选地,该对训练语料进行的分词处理可以参考上述步骤202中对目标文本内容进行分词处理的方式,且对训练语料进行分词处理的方式可以与对目标文本内容进行分词处理的方式一致,也可以与对目标文本内容进行分词处理的方式不一致,本申请实施例对此不加以限定。
值得注意的是,上述步骤401和步骤402至步骤403,可以先执行步骤401,再执行步骤402至步骤403,也可以先执行步骤402至步骤403,再执行步骤401,还可以步骤401和步骤402至步骤403同时执行,本申请实施例对此不加以限定。
步骤404,提取种子词汇的第一词汇向量以及语料词汇的第二词汇向量。
可选地,在提取种子词汇的第一词汇向量以及语料词汇的第二词汇向量的过程中,可以采用word2vec模型对词汇向量进行提取,其中,该word2vec模型是一种用于产生词向量的模型。
可选地,word2vec模型中还包括连续词袋模型(Continuous Bag-Of-WordsModel,CBOW),该CBOW模型用于在文本中根据目标词汇的上下文词汇对目标词汇进行识别,如图5所示,该CBOW模型包括输入层510、投影层520以及输出层530,其中,输入层510输入的内容为目标词汇的上下文词汇向量,如图5所示,该输入层510输入有V(context(w)1)、V(context(w)2)、…、V(context(w)2c),将输入层510输入的向量之和确定为投影层520的内容Xw,并根据投影层520的内容得到输出层530的内容w。其中,投影层520中得到的内容需要输入损失函数,输出层530需要在词汇表中随机采样k个负样本并将k个负样本的向量和输入损失函数得到目标词汇的识别结果,极大化目标词汇的概率,同时极小化负样本词汇的概率。可选地,该识别结果用于将文本中的词汇进行聚类。
其中,根据分词结果确定目标词汇的上下文词汇的过程请参考图6,如图6所示,针对文本内容“我就讲一句话叫好好学习”进行分词后,得到“我/就/讲/一句/话/叫/好好/学习”,其中针对目标词汇“讲”得到训练样本610“讲;我,就,一句,话”,针对目标词汇“一句”得到训练样本620“一句;就,讲,话,叫”,针对目标词汇“话”得到训练样本630“话;讲,一句,叫,好好”。
其中,CBOW模型中运用的损失函数如下:
Figure BDA0001996250050000111
其中,L表示目标词汇的识别结果,σ表示计算过程中的计算参数,
Figure BDA0001996250050000112
表示T个上下文向量之和,θwc表示第一激励函数,
Figure BDA0001996250050000113
表示k个负样本的向量之和,θwk表示第二激励函数。
步骤405,根据第一词汇向量和第二词汇向量之间的距离,以及种子词汇的极性值确定语料词汇的极性值。
可选地,第一词汇向量和第二词汇向量之间的距离可以通过余弦相似度计算公式进行计算,可选地,第一词汇向量和第二词汇向量之间的距离还可以通过欧氏距离计算公式、马氏距离计算公式、曼哈顿距离计算公式中的任意一种进行计算,本申请实施例对两向量之间的距离计算方式不加以限定。
可选地,根据第一词汇向量和第二词汇向量之间的距离,确定与语料词汇相似度最高的目标种子词汇,并根据目标种子词汇的极性值对语料词汇的极性值进行标注。如:将目标种子词汇与语料词汇之间的相似度与目标种子词汇的极性值的乘积,作为语料词汇的极性值。示意性的,目标种子词汇的极性值为1,而目标种子词汇与语料词汇之间的相似度为80%,将目标种子词汇与语料词汇之间的相似度与目标种子词汇的极性值的乘积作为语料词汇的极性值,即0.8。
可选地,根据目标种子词汇的极性值对语料词汇的极性值进行标注时,还可以根据目标种子词汇与语料词汇之间的相似度确定语料词汇的极性,如:目标种子词汇的极性值为1,则该目标种子词汇为正面极性的词汇,而目标种子词汇与语料词汇之间的相似度为80%,目标种子词汇与语料词汇之间相似度较高,则确定语料词汇为正面极性的词汇,将语料词汇的极性值标注为1。
步骤406,根据标注有极性值的语料词汇和种子词汇确定极性词汇表。
可选地,语料词汇和种子词汇的集合即为极性词汇表中的参考词汇集合。
值得注意的是,上述步骤401至步骤406主要是针对极性词汇表的确定方式进行说明,该步骤401至步骤406可以执行在步骤407之前,也可以执行在步骤407之后,本申请实施例对该极性词汇表的确定方式的执行过程不加以限定。
步骤407,获取目标文本内容。
可选地,该目标文本内容为待识别极性的文本内容。可选地,当该文本极性识别方法应用于服务器中时,服务器可以直接获取当前生成的数据,或存储器中已存储的数据。
可选地,当该方法应用于金融领域,并通过获取新闻内容作为目标文本内容时,通过爬虫实时监控特定新闻页面,并当新闻页面存在更新时通过爬虫实时爬取新闻内容作为目标文本内容。
步骤408,对目标文本内容进行分词处理,得到n个分词词汇。
可选地,对目标文本内容的分词处理方式请参考上述步骤202,此处不再赘述。
步骤409,通过机器学习模型对n个分词词汇的词汇极性值进行识别。
可选地,该极性词汇表中包括标注有极性值的参考词汇,该参考词汇中包括种子词汇以及语料词汇,其中,种子词汇的极性值为预先标注的,语料词汇的极性值是根据训练语料以及种子词汇的极性值确定的。
可选地,种子词汇的极性值为预先标注的,而语料词汇的极性值是根据训练语料以及种子词汇的极性值确定的,可选地,语料词汇的极性值可以是统一根据种子词汇确定,也可以第一批次语料词汇的极性值根据种子词汇确定,第二批次语料词汇的极性值根据种子词汇以及第一批次种子词汇确定,第三批次语料词汇的极性值根据种子词汇、第一批次种子词汇以及第二批次种子词汇确定,以此类推。
步骤410,根据n个分词词汇的词汇极性值确定目标文本内容的极性。
可选地,根据n个分词词汇确定目标文本内容的极性时,可以通过计算该n个分词词汇的极性值的平均值,将该平均值作为目标文本内容的极性值,并根据该目标文本内容的极性值所处的范围确定给目标文本内容的极性。
综上所述,本实施例提供的文本极性识别方法,在对文本极性进行识别时,所应用的极性词汇表中的参考词汇中包括种子词汇和语料词汇,而语料词汇的极性值是通过预先标注有极性值的种子词汇确定的,也即通过种子词汇的极性值自动对语料词汇的极性值进行标注,避免了由于词汇极性仅能通过人为标注,且极性词汇表中需要大量的参考词汇而导致的消耗大量人力资源以及时间资源的问题,语料词汇的极性值的标注效率较高。
本实施例提供的方法,通过根据种子词汇的极性值确定语料词汇的极性值,并将该种子词汇和语料词汇运用在目标文本内容的极性识别过程中,由于通过种子词汇确定语料词汇的极性值时,能够以极性值的表达方式对极性进行表示,以更细致更准确的方式对极性进行标注,对文本内容的极性进行识别时,识别准确度较高。
本实施例提供的方法,由于在对词汇进行标注时,通过种子词汇自动对语料词汇的极性值进行标注,避免了由于通过人工对语料词汇进行标注时,由人工主观判断语料词汇的极性而导致标注结果准确性较低的问题。
在一个可选的实施例中,通过机器学习模型对分词词汇的词汇极性值进行是别的过程请参考下图7,图7是本申请另一个示例性实施例提供的文本极性识别方法的流程图,该方法可以应用于服务器中,也可以应用于终端中,如图7所示,该方法包括:
步骤701,获取目标文本内容。
可选地,该目标文本内容为待识别极性的文本内容。可选地,当该文本极性识别方法应用于服务器中时,服务器可以直接获取当前生成的数据,或存储器中已存储的数据。
可选地,当该方法应用于金融领域,并通过获取新闻内容作为目标文本内容时,通过爬虫实时监控特定新闻页面,并当新闻页面存在更新时通过爬虫实时爬取新闻内容作为目标文本内容。
步骤702,对目标文本内容进行分词处理,得到n个分词词汇。
可选地,对目标文本内容的分词处理方式请参考上述步骤202,此处不再赘述。
步骤703,提取n个分词词汇的词向量。
可选地,该n个分词词汇的词向量是通过随机初始化生成的,也即针对每一个分词词汇,随机生成一个词向量。
步骤704,针对n个分词词汇中的目标词汇,确定目标词汇的上下文词汇的目标词向量之和。
可选地,针对目标词汇,首先通过查表在n个分词词汇的词向量中查找该目标词汇的上下文词汇的向量,可选地,每个词汇对应一个词汇标识,根据词汇标识通过查表查找与该上下文词汇的标识对应的词向量。可选地,目标词汇的上下文词汇包括位于目标词汇之前距离目标词汇最近的两个词汇,以及位于目标词汇之后距离目标词汇最近的两个词汇。示意性的,第t个分词词汇为目标词汇时,获取该第t个分词词汇的上下文词汇的词向量wt-2,wt-1,wt+1,wt+2
可选地,当目标词汇之前没有词汇,或目标词汇之前的词汇少于实际需要获取的词汇时,可以减少获取的数量,并在构成矩阵时以0代替,也可以通过顺次获取目标词汇后面的词汇代替。
可选地,该上下文词汇的目标词向量之和表达方式如下所示:
Figure BDA0001996250050000141
其中,
Figure BDA0001996250050000142
表示该上下文词汇的目标词向量之和,wt-2,wt-1,wt+1,wt+2表示目标词汇的上下文词汇的各个向量。
步骤705,从极性词汇表中抽取k个参考词汇,并提取k个参考词汇的词向量。
其中,k为正整数。可选地,从极性词汇表抽取k个参考词汇可以通过如下方式中的任意一种进行抽取:
第一,随机对k个参考词汇进行抽取;
第二,按序间隔性对k个参考词汇进行抽取,如:抽取第2个、第4个、第6个、第8个…,以此类推。
步骤706,确定k个参考词汇的参考词向量之和。
步骤707,将目标词向量之和以及参考词向量之和代入损失函数,计算得到目标词汇的词汇极性值。
可选地,该损失函数包括第一损失函数和第二损失函数,将目标词向量之和以及参考词向量之和代入损失函数时,包括如下过程:
将目标词向量之和以及参考词向量之和代入第一损失函数,计算目标词汇的第一极性值,其中,第一损失函数用于根据目标词向量之和与第一激励函数的乘积以及参考词向量之和与第二激励函数的乘积计算第一极性值;将目标词向量之和代入第二损失函数,计算得到目标词汇的第二极性值,其中,第二损失函数用于根据目标词向量之和与预测矩阵的乘积计算第二极性值,计算第一极性值和第二极性值之和,得到目标词汇的词汇极性值。
可选地,计算得到目标词向量之和后,通过两路损失函数分别对目标词汇的词汇极性值进行计算,其中,第一损失函数为参考上述CBOW模型中的损失函数得到的函数,通过负采样在极性词汇库中获取k个负样本参与计算,该第一损失函数形式如下:
Figure BDA0001996250050000151
其中losscbow用于表示通过第一损失函数计算得到的第一极性值,σ表示计算过程中的计算参数,
Figure BDA0001996250050000152
表示T个上下文向量之和,
Figure BDA0001996250050000153
表示第一激励函数,
Figure BDA0001996250050000154
表示k个负样本的向量之和,θwk表示第二激励函数。其中,第一激励函数和第二激励函数用于将任意形式的数值转换为0至1之间的数值。
第二损失函数为通过预测矩阵计算第二极性值的函数,该第二损失函数计算过程中,需要首先将预测矩阵与目标词向量之和相乘,并投影到三维向量上,通过tanh函数,得到fpos,fneg,该计算过程如下:
Figure BDA0001996250050000155
其中,fpos为预测为正面极性的分数,fneg为预测为负面极性的分数,θpolar表示预测矩阵。
根据,通过第二损失函数计算第二极性值,该第二损失函数形式如下:
losspolar=max(0,1-δfpos+δfneg)
其中losspolar用于表示通过第二损失函数计算得到的第二极性值,当样本极性为正面极性时δ为1,当样本极性为负面极性时δ为-1,可选地,中性样本不通过该损失函数进行计算。
可选地,根据第一损失函数计算得到losscbow以及根据第二损失函数计算得到losspolar后,该目标词汇的总损失函数公式如下:
loss=losscbow+losspolar
其中,loss用于表示总损失函数,通过梯度下降法对该总损失函数进行计算,得到目标词汇的词汇极性值。
示意性的,以该目标文本内容为“就讲一句话叫好好学习”,以及目标词汇为“话”为例进行说明,请参考图8,通过查表得到目标词汇“话”的上下文词汇为“讲,一句,叫,好好”,在输入层810确定该上下文词汇的向量wt-2,wt-1,wt+1,wt+2,其中“讲”对应向量wt-2,其中“一句”对应向量wt-1,其中“叫”对应向量wt+1,其中“好好”对应向量wt+2。通过该四个上下文词汇的上下文向量之和821得到投影层820,并通过输出层830得到目标词汇831“话”,以及该目标词831的极性832。
步骤708,根据n个分词词汇的词汇极性值确定目标文本内容的极性。
可选地,根据n个分词词汇确定目标文本内容的极性时,可以通过计算该n个分词词汇的极性值的平均值,将该平均值作为目标文本内容的极性值,并根据该目标文本内容的极性值所处的范围确定给目标文本内容的极性。
综上所述,本实施例提供的文本极性识别方法,在对文本极性进行识别时,所应用的极性词汇表中的参考词汇中包括种子词汇和语料词汇,而语料词汇的极性值是通过预先标注有极性值的种子词汇确定的,也即通过种子词汇的极性值自动对语料词汇的极性值进行标注,避免了由于词汇极性仅能通过人为标注,且极性词汇表中需要大量的参考词汇而导致的消耗大量人力资源以及时间资源的问题,语料词汇的极性值的标注效率较高。
本实施例提供的方法,通过根据种子词汇的极性值确定语料词汇的极性值,并将该种子词汇和语料词汇运用在目标文本内容的极性识别过程中,由于通过种子词汇确定语料词汇的极性值时,能够以极性值的表达方式对极性进行表示,以更细致更准确的方式对极性进行标注,对文本内容的极性进行识别时,识别准确度较高。
本实施例提供的方法,通过第一损失函数以及第二损失函数对目标词汇的词汇极性值进行识别,该两个损失函数的计算方式不同,从不同的角度对该目标词汇的词汇极性值进行识别,提高的极性值的识别准确度。
在一个可选的实施例中,以本申请实施例提供的文本极性识别方法应用于金融领域中为例进行说明,对该方法的***过程进行示意性说明,请参考图9,该***流程900包括四个主要过程,该四个主要过程包括新闻数据抓取910、数据清洗与整理920、利好利空模型预测930以及形成指数940。
其中,新闻数据抓取910中包括:实时数据收集911以及页面监控912;
该新闻数据抓取910的执行过程中,通过爬虫实时监控特定新闻页面,并当新闻页面出现更新时,实时爬取更新的新闻,以确保获得最新咨询。
数据清洗与整理920中包括:数据清洗921、数据整合922、离线挖掘923以及特征抽取924。
该数据清洗与整理920的执行过程中,通过对数据进行过滤实现过滤清洗921,也即根据规则将不符合识别要求的数据进行过滤,如:在金融领域中,针对文本“今日娱乐热点新闻”进行过滤;针对多段文本,将多段文本进行分词后,对重复出现的词汇进行合并,实现数据整合922;针对在线数据通过爬虫实时爬取,针对服务器中已存储的离线数据也需要进行识别,实现离线挖掘923;针对完成预处理的分词词汇,提取分词词汇的特征向量,实现特征抽取924。
利好利空模型预测930中包括:种子词挖掘931、金融极性词向量932以及模型训练933;
其中,该利好利空模型预测930的执行过程中,使用利好利空模型对新闻内容进行预测,该利好利空模型主要使用Bi-LSTM神经网络,其输入主要使用金融极性词向量932,且该金融极性词向量932通过种子词挖掘931获取。
形成指数940中包括模型融合941,即,将两个损失函数的结果融合,输出得到个股因子或整体指数。
图10是本申请一个示例性实施例提供的文本极性识别装置的结构框图,该文本极性识别装置可以设置于服务器中,也可以设置于终端中,如图10所示,该装置包括:获取模块1010、处理模块1020、识别模块1030以及确定模块1040;
获取模块1010,用于获取目标文本内容,所述目标文本内容为待识别极性的文本内容;
处理模块1020,用于对所述目标文本内容进行分词处理,得到n个分词词汇,n为正整数;
识别模块1030,用于通过机器学习模型对所述n个分词词汇的词汇极性值进行识别,其中,所述机器学习模型中包括与所述目标文本内容属于同一领域的极性词汇表,所述极性词汇表中包括标注有极性值的参考词汇,所述参考词汇中包括种子词汇和语料词汇,所述种子词汇的极性值为预先标注的,所述语料词汇的极性值是根据训练语料以及所述种子词汇的所述极性值确定的;
确定模块1040,用于根据所述n个分词词汇的所述词汇极性值确定所述目标文本内容的极性。
在一个可选的实施例中,所述获取模块1010,还用于获取已标注有所述极性值的所述种子词汇;
所述获取模块1010,还用于获取所述训练语料,其中,所述训练语料、所述种子词汇以及所述目标文本内容皆属于同一领域;
所述处理模块1020,还用于对所述训练语料进行分词处理,得到所述语料词汇;
所述获取模块1010,还用于提取所述种子词汇的第一词汇向量以及所述语料词汇的第二词汇向量;
所述确定模块1040,还用于根据所述第一词汇向量和所述第二词汇向量之间的距离,以及所述种子词汇的所述极性值确定所述语料词汇的所述极性值;
所述确定模块1040,还用于根据标注有所述极性值的所述语料词汇和所述种子词汇确定所述极性词汇表。
在一个可选的实施例中,所述确定模块1040,还用于根据所述第一词汇向量和所述第二词汇向量之间的距离,确定与所述语料词汇相似度最高的目标种子词汇;将所述目标种子词汇与所述语料词汇的相似度和所述目标种子词汇的所述极性值的乘积,作为所述语料词汇的所述极性值。
在一个可选的实施例中,如图11所示,所述识别模块1030,包括:
提取单元1031,用于提取所述n个分词词汇的词向量;
确定单元1032,用于针对所述n个分词词汇中的目标词汇,确定所述目标词汇的上下文词汇的目标词向量之和;
所述提取单元1031,还用于从所述极性词汇表中抽取k个所述参考词汇,并提取k个所述参考词汇的词向量,k为正整数;
所述确定单元1032,还用于确定k个所述参考词汇的参考词向量之和;
所述确定单元1032,还用于将所述目标词向量之和以及所述参考词向量之和代入损失函数,计算得到所述目标词汇的所述词汇极性值。
在一个可选的实施例中,所述损失函数包括第一损失函数以及第二损失函数;
所述确定单元1032,还用于将所述目标词向量之和以及所述参考词向量之和代入所述第一损失函数,计算得到所述目标词汇的第一极性值,其中,所述第一损失函数用于根据所述目标词向量之和与第一激励函数的乘积以及所述参考词向量之和与第二激励函数的乘积计算所述第一极性值;
所述确定单元1032,还用于将所述目标词向量之和代入所述第二损失函数,计算得到所述目标词汇的第二极性值,其中,所述第二损失函数用于根据所述目标词向量之和与预测矩阵的乘积计算所述第二极性值;
所述确定单元1032,还用于计算所述第一极性值和所述第二极性值之和,得到所述目标词汇的所述词汇极性值。
在一个可选的实施例中,所述目标词汇的上下文词汇包括位于所述目标词汇之前距离所述目标词汇最近的两个词汇,以及位于所述目标词汇之后距离所述目标词汇最近的两个词汇。
需要说明的是:上述实施例提供的文本极性识别装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文本极性识别装置与文本极性识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请还提供了一种服务器,该服务器包括处理器和存储器,存储器中存储有至少一条指令,至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的文本极性识别方法。需要说明的是,该服务器可以是如下图12所提供的服务器。
请参考图12,其示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲:所述服务器1200包括中央处理单元(CPU)1201、包括随机存取存储器(RAM)1202和只读存储器(ROM)1203的***存储器1204,以及连接***存储器1204和中央处理单元1201的***总线1205。所述服务器1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O***)1206,和用于存储操作***1213、应用程序1214和其他程序模块1215的大容量存储设备1207。
所述基本输入/输出***1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中所述显示器1208和输入设备1209都通过连接到***总线1205的输入输出控制器1210连接到中央处理单元1201。所述基本输入/输出***1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1207通过连接到***总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。所述大容量存储设备1207及其相关联的计算机可读介质为服务器1200提供非易失性存储。也就是说,所述大容量存储设备1207可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的***存储器1204和大容量存储设备1207可以统称为存储器。
存储器存储有一个或多个程序,一个或多个程序被配置成由一个或多个中央处理单元1201执行,一个或多个程序包含用于实现上述文本极性识别方法的指令,中央处理单元1201执行该一个或多个程序实现上述各个方法实施例提供的文本极性识别方法。
根据本申请的各种实施例,所述服务器1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1200可以通过连接在所述***总线1205上的网络接口单元1211连接到网络1212,或者说,也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机***(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本申请实施例提供的文本极性识别方法中由服务器所执行的步骤。
本申请实施例还提供一种计算机设备,该计算机设备包括存储器和处理器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并实现上述如图2、图4以及图7任一所述的文本极性识别方法。
本申请实施例还提供一种计算机可读存储介质,该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如图2、图4以及图7任一所述的文本极性识别方法。
本申请还提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述各个方法实施例提供的文本极性识别方法。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如图2、图4以及图7任一所述的文本极性识别方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (11)

1.一种文本极性识别方法,其特征在于,所述方法包括:
获取目标文本内容,所述目标文本内容为待识别极性的文本内容;
对所述目标文本内容进行分词处理,得到n个分词词汇,n为正整数;
提取所述n个分词词汇的词向量;
针对所述n个分词词汇中的目标词汇,确定所述目标词汇的上下文词汇的目标词向量之和;
从极性词汇表中抽取k个参考词汇,并提取k个所述参考词汇的词向量,k为正整数,所述极性词汇表中包括标注有极性值的参考词汇,所述参考词汇中包括种子词汇和语料词汇,所述种子词汇的极性值为预先标注的,所述语料词汇的极性值是根据训练语料以及所述种子词汇的所述极性值确定的;
确定k个所述参考词汇的参考词向量之和;
将所述目标词向量之和以及所述参考词向量之和代入第一损失函数,计算得到所述目标词汇的第一极性值,其中,所述第一损失函数用于根据所述目标词向量之和与第一激励函数的乘积以及所述参考词向量之和与第二激励函数的乘积计算所述第一极性值;
将所述目标词向量之和代入第二损失函数,计算得到所述目标词汇的第二极性值,其中,所述第二损失函数用于根据所述目标词向量之和与预测矩阵的乘积计算所述第二极性值;
计算所述第一极性值和所述第二极性值之和,得到所述目标词汇的词汇极性值;
根据所述n个分词词汇的所述词汇极性值确定所述目标文本内容的极性。
2.根据权利要求1所述的方法,其特征在于,所述极性词汇表是通过如下方法确定的:
获取已标注有所述极性值的所述种子词汇;
获取所述训练语料,其中,所述训练语料、所述种子词汇以及所述目标文本内容皆属于同一领域;
对所述训练语料进行分词处理,得到所述语料词汇;
提取所述种子词汇的第一词汇向量以及所述语料词汇的第二词汇向量;
根据所述第一词汇向量和所述第二词汇向量之间的距离,以及所述种子词汇的所述极性值确定所述语料词汇的所述极性值;
根据标注有所述极性值的所述语料词汇和所述种子词汇确定所述极性词汇表。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一词汇向量和所述第二词汇向量之间的距离,以及所述种子词汇的所述极性值确定所述语料词汇的所述极性值,包括:
根据所述第一词汇向量和所述第二词汇向量之间的距离,确定与所述语料词汇相似度最高的目标种子词汇;
将所述目标种子词汇与所述语料词汇的相似度和所述目标种子词汇的所述极性值的乘积,作为所述语料词汇的所述极性值。
4.根据权利要求1所述的方法,其特征在于,所述目标词汇的上下文词汇包括位于所述目标词汇之前距离所述目标词汇最近的两个词汇,以及位于所述目标词汇之后距离所述目标词汇最近的两个词汇。
5.根据权利要求1至4任一所述的方法,其特征在于,
所述方法应用于金融领域,所述目标文本内容以及所述极性词汇表皆属于所述金融领域,所述种子词汇包括从所述极性值标注为1的利好、上涨、牛市组成的群组中选择的至少一个,以及从所述极性值标注为-1的利空、下跌、熊市组成的群组中选择的至少一个,其中,当所述极性值大于0.5时表示为正面极性,当所述极性值小于-0.5时表示为负面极性,当所述极性值在0.5与-0.5之间时表示为中间极性;
或,
所述方法应用于影视评论领域,所述目标文本内容以及所述极性词汇表皆属于所述影视评论领域,所述种子词汇包括从所述极性值标注为1的佳片、好看、推荐组成的群组中选择的至少一个,以及从所述极性值标注为-1的无趣、低分、不推荐组成的群组中选择的至少一个,其中,当所述极性值大于0.5时表示为正面极性,当所述极性值小于-0.5时表示为负面极性,当所述极性值在0.5与-0.5之间时表示为中间极性;
或,
所述方法应用于购物评论领域,所述目标文本内容以及所述极性词汇表皆属于所述购物评论领域,所述种子词汇包括从所述极性值标注为1的推荐、好物、好评组成的群组中选择的至少一个,以及从所述极性值标注为闲置、难用、不推荐组成的群组中选择的至少一个,其中,当所述极性值大于0.5时表示为正面极性,当所述极性值小于-0.5时表示为负面极性,当所述极性值在0.5与-0.5之间时表示为中间极性。
6.一种文本极性识别装置,其特征在于,所述装置包括:
获取模块,用于获取目标文本内容,所述目标文本内容为待识别极性的文本内容;
处理模块,用于对所述目标文本内容进行分词处理,得到n个分词词汇,n为正整数;
识别模块,包括:
提取单元,用于提取所述n个分词词汇的词向量;
确定单元,用于针对所述n个分词词汇中的目标词汇,确定所述目标词汇的上下文词汇的目标词向量之和;
所述提取单元,还用于从极性词汇表中抽取k个参考词汇,并提取k个所述参考词汇的词向量,k为正整数;所述极性词汇表中包括标注有极性值的参考词汇,所述参考词汇中包括种子词汇和语料词汇,所述种子词汇的极性值为预先标注的,所述语料词汇的极性值是根据训练语料以及所述种子词汇的所述极性值确定的;
确定单元,用于确定k个所述参考词汇的参考词向量之和;
所述确定单元,还用于将所述目标词向量之和以及所述参考词向量之和代入第一损失函数,计算得到所述目标词汇的第一极性值,其中,所述第一损失函数用于根据所述目标词向量之和与第一激励函数的乘积以及所述参考词向量之和与第二激励函数的乘积计算所述第一极性值;
所述确定单元,还用于将所述目标词向量之和代入第二损失函数,计算得到所述目标词汇的第二极性值,其中,所述第二损失函数用于根据所述目标词向量之和与预测矩阵的乘积计算所述第二极性值;
所述确定单元,还用于计算所述第一极性值和所述第二极性值之和,得到所述目标词汇的词汇极性值;
所述装置,还包括:确定模块,用于根据所述n个分词词汇的所述词汇极性值确定所述目标文本内容的极性。
7.根据权利要求6所述的装置,其特征在于,
所述获取模块,还用于获取已标注有所述极性值的所述种子词汇;
所述获取模块,还用于获取所述训练语料,其中,所述训练语料、所述种子词汇以及所述目标文本内容皆属于同一领域;
所述处理模块,还用于对所述训练语料进行分词处理,得到所述语料词汇;
所述获取模块,还用于提取所述种子词汇的第一词汇向量以及所述语料词汇的第二词汇向量;
所述确定模块,还用于根据所述第一词汇向量和所述第二词汇向量之间的距离,以及所述种子词汇的所述极性值确定所述语料词汇的所述极性值;
所述确定模块,还用于根据标注有所述极性值的所述语料词汇和所述种子词汇确定所述极性词汇表。
8.根据权利要求7所述的装置,其特征在于,所述确定模块,还用于根据所述第一词汇向量和所述第二词汇向量之间的距离,确定与所述语料词汇相似度最高的目标种子词汇;将所述目标种子词汇与所述语料词汇的相似度和所述目标种子词汇的所述极性值的乘积,作为所述语料词汇的所述极性值。
9.根据权利要求6所述的装置,其特征在于,所述目标词汇的上下文词汇包括位于所述目标词汇之前距离所述目标词汇最近的两个词汇,以及位于所述目标词汇之后距离所述目标词汇最近的两个词汇。
10.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如权利要求1至5任一所述的文本极性识别方法。
11.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如权利要求1至5任一所述的文本极性识别方法。
CN201910197367.XA 2019-03-15 2019-03-15 文本极性识别方法、装置、设备及可读存储介质 Active CN109933793B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910197367.XA CN109933793B (zh) 2019-03-15 2019-03-15 文本极性识别方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910197367.XA CN109933793B (zh) 2019-03-15 2019-03-15 文本极性识别方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN109933793A CN109933793A (zh) 2019-06-25
CN109933793B true CN109933793B (zh) 2023-01-06

Family

ID=66987227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910197367.XA Active CN109933793B (zh) 2019-03-15 2019-03-15 文本极性识别方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN109933793B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377915B (zh) * 2019-07-25 2022-11-29 腾讯科技(深圳)有限公司 文本的情感分析方法、装置、存储介质及设备
CN112286422B (zh) * 2020-11-17 2021-12-07 北京城市网邻信息技术有限公司 一种信息显示方法及装置
CN116629250B (zh) * 2023-04-28 2024-01-12 华南师范大学 一种暴力词汇的分析方法、***、装置及介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
CN103473356A (zh) * 2013-09-26 2013-12-25 苏州大学 一种篇章级情感分类方法及装置
CN104536953A (zh) * 2015-01-22 2015-04-22 苏州大学 一种文本情绪极性的识别方法及装置
CN105930411A (zh) * 2016-04-18 2016-09-07 苏州大学 一种分类器训练方法、分类器和情感分类***
CN106294316A (zh) * 2016-07-29 2017-01-04 陕西师范大学 一种基于词典的文本情感分析方法
CN107577665A (zh) * 2017-09-11 2018-01-12 电子科技大学 文本情感倾向的判别方法
CN107766331A (zh) * 2017-11-10 2018-03-06 云南大学 对单词情感值进行自动标定的方法
CN107885785A (zh) * 2017-10-17 2018-04-06 北京京东尚科信息技术有限公司 文本情感分析方法和装置
CN107943860A (zh) * 2017-11-08 2018-04-20 北京奇艺世纪科技有限公司 模型的训练方法、文本意图的识别方法及装置
CN107977352A (zh) * 2016-10-21 2018-05-01 富士通株式会社 信息处理装置和方法
CN108268439A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 文本情感的处理方法及装置
CN108519976A (zh) * 2018-04-04 2018-09-11 郑州大学 基于神经网络生成大规模情感词典的方法
CN108763214A (zh) * 2018-05-30 2018-11-06 河海大学 一种针对商品评论的情感词典自动构建方法
CN108874937A (zh) * 2018-05-31 2018-11-23 南通大学 一种基于词性结合和特征选择的情感分类方法
CN108920545A (zh) * 2018-06-13 2018-11-30 四川大学 基于扩展的情感词典和卡方模型的中文情感特征选择方法
CN109271493A (zh) * 2018-11-26 2019-01-25 腾讯科技(深圳)有限公司 一种语言文本处理方法、装置和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10706044B2 (en) * 2016-04-06 2020-07-07 International Business Machines Corporation Natural language processing based on textual polarity

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
CN103473356A (zh) * 2013-09-26 2013-12-25 苏州大学 一种篇章级情感分类方法及装置
CN104536953A (zh) * 2015-01-22 2015-04-22 苏州大学 一种文本情绪极性的识别方法及装置
CN105930411A (zh) * 2016-04-18 2016-09-07 苏州大学 一种分类器训练方法、分类器和情感分类***
CN106294316A (zh) * 2016-07-29 2017-01-04 陕西师范大学 一种基于词典的文本情感分析方法
CN107977352A (zh) * 2016-10-21 2018-05-01 富士通株式会社 信息处理装置和方法
CN108268439A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 文本情感的处理方法及装置
CN107577665A (zh) * 2017-09-11 2018-01-12 电子科技大学 文本情感倾向的判别方法
CN107885785A (zh) * 2017-10-17 2018-04-06 北京京东尚科信息技术有限公司 文本情感分析方法和装置
CN107943860A (zh) * 2017-11-08 2018-04-20 北京奇艺世纪科技有限公司 模型的训练方法、文本意图的识别方法及装置
CN107766331A (zh) * 2017-11-10 2018-03-06 云南大学 对单词情感值进行自动标定的方法
CN108519976A (zh) * 2018-04-04 2018-09-11 郑州大学 基于神经网络生成大规模情感词典的方法
CN108763214A (zh) * 2018-05-30 2018-11-06 河海大学 一种针对商品评论的情感词典自动构建方法
CN108874937A (zh) * 2018-05-31 2018-11-23 南通大学 一种基于词性结合和特征选择的情感分类方法
CN108920545A (zh) * 2018-06-13 2018-11-30 四川大学 基于扩展的情感词典和卡方模型的中文情感特征选择方法
CN109271493A (zh) * 2018-11-26 2019-01-25 腾讯科技(深圳)有限公司 一种语言文本处理方法、装置和存储介质

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
An automatic short-answer grading model for semi-open-ended questions;Lishan Zhang等;《Interactive Learning Environments》;20190730;177-190 *
CBOW最强理解;ylyyyy;《CSDN博客》;20180725;全文 *
Learning Domain-Sensitive and Sentiment-Aware Word Embeddings;Bei Shi等;《arXiv》;20180510;1-11 *
Sentiment Polarity Detection for Software Development;Fabio Calefato等;《ICSE"18》;20180527;128 *
一种基于混合特征的中文情感词典扩展方法;谢松县; 赵舒怡;《计算机工程与科学》;20160715;第38卷(第7期);1502-1509 *
刘秋慧等.中文微博情感分析模型 SR-CBOW.《小型微型计算机***》.2018,第39卷(第8期),1693-1699. *
基于表示学习的情感分析研究;厉小军等;《https://kns.cnki.net/kcms/detail/11.2442.N.20180822.1544.005.html》;20180822;1-9 *
基于词向量的跨领域中文情感词典构建方法;冯超等;《数据采集与处理》;20170515;第32卷(第3期);579-587 *
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类;机器学习AI算法工程;《https://cloud.tencent.com/developer/article/1061949》;20180315;全文 *

Also Published As

Publication number Publication date
CN109933793A (zh) 2019-06-25

Similar Documents

Publication Publication Date Title
Cambria et al. Benchmarking multimodal sentiment analysis
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
CN106599226B (zh) 一种内容推荐方法及内容推荐***
CN111191428B (zh) 评论信息处理方法、装置、计算机设备和介质
CN109933793B (zh) 文本极性识别方法、装置、设备及可读存储介质
CN112749344A (zh) 信息推荐方法、装置、电子设备、存储介质及程序产品
US10496751B2 (en) Avoiding sentiment model overfitting in a machine language model
CN106339368A (zh) 文本情感倾向的获取方法及装置
CN112188312B (zh) 用于确定新闻的视频素材的方法和装置
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN104850617A (zh) 短文本处理方法及装置
CN112257452A (zh) 情感识别模型的训练方法、装置、设备和存储介质
CN114648392A (zh) 基于用户画像的产品推荐方法、装置、电子设备及介质
CN115982376A (zh) 基于文本、多模数据和知识训练模型的方法和装置
CN112926308A (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
He et al. Deep learning in natural language generation from images
CN112232067A (zh) 文案生成方法、文案评估模型的训练方法、装置及设备
KR20190108958A (ko) 유해단어 어휘목록 자동 생성과 기계학습을 이용한 청소년 유해가사 자동 분류 방법 및 장치
CN115393094A (zh) 预测模型的训练方法、数据分析方法、装置以及介质
Haripriya et al. Detection of sarcasm from consumer sentiments on social media about luxury brands
Kumar et al. Domain adaptation based technique for image emotion recognition using image captions
CN114004235A (zh) 基于句向量和多特征融合的情感原因对抽取方法、***及装置
Harfoushi et al. Amazon Machine Learning vs. Microsoft Azure Machine Learning as Platforms for Sentiment Analysis
CN113220999B (zh) 用户特征的生成方法、装置、电子设备和存储介质
Shabadi et al. Youtube Spam Detection Scheme Using Stacked Ensemble Machine Learning Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant