CN110569504B - 一种关系词确定方法及装置 - Google Patents
一种关系词确定方法及装置 Download PDFInfo
- Publication number
- CN110569504B CN110569504B CN201910833495.9A CN201910833495A CN110569504B CN 110569504 B CN110569504 B CN 110569504B CN 201910833495 A CN201910833495 A CN 201910833495A CN 110569504 B CN110569504 B CN 110569504B
- Authority
- CN
- China
- Prior art keywords
- word
- target
- words
- similar
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了一种关系词确定方法及装置,其中,该方法包括:在对文本进行实体识别处理后,若任意两个实体之间仅存在一个词则将该词作为目标词放入预定义的目标词集合中,分别统计所述目标词集合中所述多个目标词的词频以及所述多个目标词的左右实体搭配类型的频率;分别根据所述多个目标词中每个目标词的词频以及所述每个目标词的左右实体搭配类型的频率计算所述每个目标词的信息熵;根据所述每个目标词的相似词的词频和信息熵信息确定所述每个目标词的可信度值;将所述可信度值大于预定阈值的一个或多个目标词确定为关系词,通过上述方案可以解决相关技术中如何确定能合理描述实体语义关系的关系词的问题。
Description
技术领域
本发明涉及信息技术领域,具体而言,涉及一种关系词确定方法及装置。
背景技术
实体关系抽取作为信息抽取领域的重要环节,其目的是发现或识别实体间的语义关系,比如从文本中提取关系三元组(entity1,relationWord,entity2),其中(entity1,entity2)是存在关系的实体对,关系词relationWord是描述实体之间语义关系的词或词序列。目前,有不少研究成果显示无论是传统关系抽取方法还是开放式的抽取方法仍需要关系词表的介入,以帮助其提取可靠的、有意义的关系知识,但如何建立覆盖面广泛且能合理描述实体语义关系的关系词表仍存在诸多困难。
针对相关技术如何确定能合理描述实体语义关系的关系词的问题,尚未提出解决方案。
发明内容
本发明实施例提供了一种关系词确定方法及装置,以至少解决相关技术如何确定能合理描述实体语义关系的关系词的问题。
根据本发明的一个实施例,提供了一种关系词确定方法,包括:
在对文本进行实体识别处理后,若任意两个实体之间仅存在一个词则将该词作为目标词放入预定义的目标词集合中;
分别统计所述目标词集合中所述多个目标词的词频以及所述多个目标词的实体搭配类型的频率,其中,所述多个目标词的实体搭配类型的频率是根据所述多个目标词左右实体词的类型确定的;
分别根据所述多个目标词中每个目标词的词频以及所述每个目标词的实体搭配类型的频率确定所述每个目标词的信息熵;
根据所述每个目标词的相似词的词频和信息熵信息确定所述每个目标词的可信度值,其中,所述可信度值用于衡量目标词为关系词的可信度,所述相似词为所述目标词集合中的一个或多个词;
将所述可信度值大于预定阈值的一个或多个目标词确定为关系词。
可选地,在对文本进行实体识别处理后,若任意两个实体之间仅存在一个词则将该词作为目标词放入预定义的目标词集合中之后,所述方法还包括:
对实体识别后的文本进行纠错处理。
可选地,在对文本进行实体识别处理后,若任意两个实体之间仅存在一个词则将该词作为目标词放入预定义的目标词集合中之前,所述方法还包括:
对训练文本进行句子拆分,并对拆分后的句子进行实体识别,得到含有实体标识的文本。
可选地,对训练文本进行句子拆分,并对拆分后的句子进行实体识别包括:
对所述训练文本根据分隔符进行拆分,得到包括多个句子的句子集合,其中,所述分隔符包括以下至少之一:句号、感叹号、问号;
对所述句子集合中的句子进行句法分析;
根据句法分析中的预定标记将所述句子集合中的句子拆分成多个简单句;
对所述多个简单句进行实体识别,并标记识别出的实体词的类型。
可选地,分别根据所述多个目标词中每个目标词的词频以及所述每个目标词的实体搭配类型的频率确定所述每个目标词的信息熵包括:
分别根据所述每个目标词的词频以及所述每个目标词的实体搭配类型的频率确定所述每个目标词的实体搭配类型的出现概率;
根据所述每个目标词的实体搭配类型的出现概率确定所述每个目标词的信息熵。
可选地,根据所述每个目标词的相似词的词频和信息熵信息确定所述每个目标词的可信度值包括:
分别获取所述每个目标词的相似词以及所述每个目标词与每个相似词的相似性系数,其中,所述每个目标词对应一个或多个相似词;根据所述每个相似词的词频、或者所述每个相似词的词频和所述每个相似词的信息熵确定所述每个相似词对所述每个目标词的贡献分数;
根据所述每个相似词的贡献分数以及所述相似性系数确定所述每个目标词的可信度值。
可选地,通过以下方式之一根据所述每个相似词的词频、或者所述每个相似词的词频和所述每个相似词的信息熵确定所述每个相似词对所述每个目标词的贡献分数:
所述每个相似词的贡献分数等于所述相似词的词频;
在所述相似词的信息熵大于或等于1的情况下,所述每个相似词的贡献分数为所述相似词的词频与所述相似词的信息熵的a次方的比值;
在所述相似词的信息熵大于0且小于1的情况下,所述每个相似词的贡献分数为所述相似词的词频与所述相似词的信息熵的b次方的比值,其中,所述a、所述b为自然数,且,所述a大于所述b。
可选地,根据所述每个相似词的贡献分数以及所述相似性系数确定所述每个目标词的可信度值包括:
分别获取所述每个目标词的初始分数;
分别确定所述每个相似词的贡献分数与所述相似性系数的乘积;
计算每个所述乘积与所述每个目标词的初始分数的加权和;
分别将所述加权和与所述相似词的个数的比值确定为所述每个目标词的可信度值,其中,所述相似性系数大于或等于0且小于或等于1。
根据本发明的另一个实施例,还提供了一种关系词确定装置,包括:
第一确定模块,用于在对文本进行实体识别处理后,若任意两个实体之间仅存在一个词则将该词作为目标词放入预定义的目标词集合中;
统计模块,用于分别统计所述目标词集合中所述多个目标词的词频以及所述多个目标词的实体搭配类型的频率,其中,所述多个目标词的实体搭配类型的频率是根据所述多个目标词左右实体词的类型确定的;
第二确定模块,用于分别根据所述多个目标词中每个目标词的词频以及所述每个目标词的实体搭配类型的频率确定所述每个目标词的信息熵;
第三确定模块,用于根据所述每个目标词的相似词的词频和信息熵信息确定所述每个目标词的可信度值,其中,所述可信度值用于衡量目标词为关系词的可信度,所述相似词为所述目标词集合中的一个或多个词;
第四确定模块,用于将所述可信度值大于预定阈值的一个或多个目标词确定为关系词。
可选地,所述装置还包括:
纠错模块,用于对实体识别后的文本进行纠错处理。
可选地,所述装置还包括:
拆分模块,用于对训练文本进行句子拆分,并对拆分后的句子进行实体识别,得到含有实体标识的文本。
可选地,所述拆分模块包括:
第一拆分子模块,用于对所述训练文本根据分隔符进行拆分,得到包括多个句子的句子集合,其中,所述分隔符包括以下至少之一:句号、感叹号、问号;
分析子模块,用于对所述句子集合中的句子进行句法分析;
第二拆分子模块,用于根据句法分析中的预定标记将所述句子集合中的句子拆分成多个简单句;
识别子模块,用于对所述多个简单句进行实体识别,并标记识别出的实体词的类型。
可选地,所述第二确定模块包括:
第一确定子模块,用于分别根据所述每个目标词的词频以及所述每个目标词的实体搭配类型的频率确定所述每个目标词的实体搭配类型的出现概率;
第二确定子模块,用于根据所述每个目标词的实体搭配类型的出现概率确定所述每个目标词的信息熵。
可选地,所述第三确定模块包括:
获取子模块,用于分别获取所述每个目标词的相似词以及所述每个目标词与每个相似词的相似性系数,其中,所述每个目标词对应一个或多个相似词;
第三确定子模块,用于根据所述每个相似词的词频、或者所述每个相似词的词频和所述每个相似词的信息熵确定所述每个相似词对所述每个目标词的贡献分数;
第四确定子模块,用于根据所述每个相似词的贡献分数以及所述相似性系数确定所述每个目标词的可信度值。
可选地,所述第三定子模块,还用于通过以下方式之一根据所述每个相似词的词频、或者所述每个相似词的词频和所述每个相似词的信息熵确定所述每个相似词对所述每个目标词的贡献分数:
所述每个相似词的贡献分数等于所述相似词的词频;
在所述相似词的信息熵大于或等于1的情况下,所述每个相似词的贡献分数为所述相似词的词频与所述相似词的信息熵的a次方的比值;
在所述相似词的信息熵大于0且小于1的情况下,所述每个相似词的贡献分数为所述相似词的词频与所述相似词的信息熵的b次方的比值,其中,所述a、所述b为自然数,且,所述a大于所述b。
可选地,所述第四确定子模块,还用于
分别获取所述每个目标词的初始分数;
分别确定所述每个相似词的贡献分数与所述相似性系数的乘积;
计算每个所述乘积与所述每个目标词的初始分数的加权和;
分别将所述加权和与所述相似词的个数的比值确定为所述每个目标词的可信度值,其中,所述相似性系数大于或等于0且小于或等于1。
根据本发明的又一个实施例,还提供了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,在对文本进行实体识别处理后,若任意两个实体之间仅存在一个词则将该词作为目标词放入预定义的目标词集合中,分别统计所述目标词集合中所述多个目标词的词频以及所述多个目标词的实体搭配类型的频率;分别根据所述多个目标词中每个目标词的词频以及所述每个目标词的实体搭配类型的频率确定所述每个目标词的信息熵;根据所述每个目标词的相似词的词频和信息熵信息确定所述每个目标词的可信度值,其中,所述可信度值用于衡量目标词为关系词的可信度,所述相似词为所述目标词集合中的一个或多个词;将所述可信度值大于预定阈值的一个或多个目标词确定为关系词,通过统计训练文本识别出的实体词间仅有一个词的词频及其左右实体搭配类型,进而使用每个词的信息熵确定目标词为关系词的可信度,实现了关系词的准确区分,可以解决相关技术如何确定能合理描述实体语义关系的关系词的问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种关系词确定方法的移动终端的硬件结构框图;
图2是根据本发明实施例的关系词确定方法的流程图;
图3是根据本发明实施例的管理层扩展方法的流程图;
图4是根据本发明实施例的关系词确定装置的框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种关系词确定方法的移动终端的硬件结构框图,如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的报文接收方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
基于上述的移动终端,本实施例提供了一种关系词确定方法,图2是根据本发明实施例的关系词确定方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,在对文本进行实体识别处理后,若任意两个实体之间仅存在一个词则将该词作为目标词放入预定义的目标词集合中;
步骤S204,分别统计所述目标词集合中所述多个目标词的词频以及所述多个目标词的实体搭配类型的频率,其中,所述多个目标词的实体搭配类型的频率是根据所述多个目标词左右实体词的类型确定的;
步骤S206,分别根据所述多个目标词中每个目标词的词频以及所述每个目标词的实体搭配类型的频率确定所述每个目标词的信息熵;
步骤S208,根据所述每个目标词的相似词的词频和信息熵信息确定所述每个目标词的可信度值,其中,所述可信度值用于衡量目标词为关系词的可信度,所述相似词为所述目标词集合中的一个或多个词;
步骤S210,将所述可信度值大于预定阈值的一个或多个目标词确定为关系词。
通过上述步骤S202至S210,通过统计训练文本识别出的实体词间仅有一个词的词频及其左右实体搭配类型,进而使用每个词的信息熵确定目标词为关系词的可信度,实现了关系词的准确区分,可以解决相关技术如何确定能合理描述实体语义关系的关系词的问题。
本发明实施例中,为了进一步确定实体词的准确性,在上述步骤S202之后,对所述目标词集合中的目标词进行纠错处理。
本发明实施例中,在上述步骤S202之前,对训练文本进行句子拆分,并对拆分后的句子进行实体识别,得到含有实体标识的文本。
进一步的,对所述训练文本根据分隔符进行拆分,得到包括多个句子的句子集合,其中,所述分隔符包括以下至少之一:句号、感叹号、问号;对所述句子集合中的句子进行句法分析,可以根据句法分析工具进行句法分析,根据句法分析中的预定标记将所述句子集合中的句子拆分成多个简单句,预定标记可以是并列语句的标记(如COO),对所述多个简单句进行实体识别,并标记识别出的实体词的类型。
本发明实施例中,上述步骤S206具体可以包括:
步骤S2061,分别根据所述每个目标词的词频以及所述每个目标词的实体搭配类型的频率确定所述每个目标词的实体搭配类型的出现概率;
步骤S2062,根据所述每个目标词的实体搭配类型的出现概率确定所述每个目标词的信息熵。
进一步的,上述步骤S2062具体可以包括:
分别获取所述每个目标词的相似词以及所述每个目标词与每个相似词的相似性系数,其中,所述每个目标词对应一个或多个相似词;根据所述每个相似词的词频、或者所述每个相似词的词频和所述每个相似词的信息熵确定所述每个相似词对所述每个目标词的贡献分数;
根据所述每个相似词的贡献分数以及所述相似性系数确定所述每个目标词的可信度值。
进一步地,可以通过以下方式之一根据所述每个相似词的词频、或者所述每个相似词的词频和所述每个相似词的信息熵确定所述每个相似词对所述每个目标词的贡献分数:
所述每个相似词的贡献分数等于所述相似词的词频;
在所述相似词的信息熵大于或等于1的情况下,所述每个相似词的贡献分数为所述相似词的词频与所述相似词的信息熵的a次方的比值;
在所述相似词的信息熵大于0且小于1的情况下,所述每个相似词的贡献分数为所述相似词的词频与所述相似词的信息熵的b次方的比值,其中,所述a、所述b为自然数,且,所述a大于所述b。
本发明实施例中,上述步骤S208具体可以包括:
分别获取所述每个目标词的初始分数;
分别确定所述每个相似词的贡献分数与所述相似性系数的乘积;
计算每个所述乘积与所述每个目标词的初始分数的加权和;
分别将所述加权和与所述相似词的个数的比值确定为所述每个目标词的可信度值,其中,所述相似性系数大于或等于0且小于或等于1。
下面通过具体实施方式对本发明实施例进行说明。
本发明实施设计了一种关系词扩展方法,通过大规模训练文本进行实体识别,然后统计实体间仅有一个词的词频及其左右实体搭配类型,进而使用每个词的信息熵及相似词表来计算得分,以衡量其成为关系词的可能性。图3是根据本发明实施例的管理层扩展方法的流程图,如图3所示,具体包括:
步骤S301,对训练文本进行句子拆分,并进行识别实体,包括人名、地名、机构名。
步骤S302,过滤实体识别中明显的错误。
步骤S303,如果实体之间仅有1个词语,确定为目标词,统计其频次,目标词用a来表示。
步骤S304,统计a中所有词语跟左右实体的搭配类型。
步骤S305,使用信息熵来度量a中每个词与具体实体类型搭配的稳定性,熵值越小搭配越稳定。
步骤S306,计算a中每个词的搭配得分,即统计词语的相似词搭配能力,若某个词ai的相似词也具有很高的搭配关系,则可以确定该相似词对ai贡献分数较大。
本发明实施例中的相似词是通过采用词向量表获得的,即先计算某个词ai与其它词之间的余弦相似度,然后选取与ai相似性系数最高的N个词作为该词的相似词。
步骤S307,根据搭配得分对a中所有词排序,确定目标词是否为关系词,得分越高,是关系词的可能性越大。
上述步骤S301具体可以包括:
训练文本,为了抽取覆盖领域较广的关系词表,收集大规模语料(新闻数据和百科数据)进行实验。
句子切分及实体识别,将训练文本中的复杂结构句子拆分为结构简单的句子集合,并对其进行实体识别,具体过程如下:
Step1:根据句号将训练文本切分成句子集合Sentences={sentencei}(i=1,2,...,n);
Step2:使用句法分析工具对子句sentencei进行句法分析。
Step3:根据句法分析中的COO标记把并列(包含从句并列和词语并列两种)的句子拆分成多个简单句。
Step4:对每个简单句进行实体识别:若句子中存在实体,则将实体及其类型(类型主要包括人名(标记为NR)、地名(标记为NS)和组织机构名(标记为NT)放入一对花括号“{}”中,如“{NR张三}创建了{NT阿里巴巴公司}。”
上述步骤S302具体包括:过滤有误实体,对识别出的实体词集中的实体词进行纠错处理,即过滤实体识别中明显的错误,如英文组成的机构名、单字组成的机构名。
上述步骤S303中,具体地,统计词频及其搭配类型频率,对于频繁出现在不同句法、同一搭配环境的词往往成为关系词的可能性更大。例如:词语“出生于”经常会出现在“李四(NR)出生于中国黑龙江省(NS)”这种“人名-地名”搭配中,那么该词就可作为一个关系词来描述实体对(李四,中国黑龙江省)的语义关系。
根据经验,每个实体对(entity1,entity2)之间的词数越少,即两个实体entity1和entity2的词距越小,则该实体对存在关系的可能性越大;每个实体对之间存在的实体数越少,该实体对存在关系的可能性越大。
上述步骤S304具体可以包括:统计训练文本中词距为1的实体对间的词ai的频率(或词频)及其搭配类型频率,并以键值对(词,词频)和(词,搭配类型:频率)的形式分别保存在FreqMap和TypeMap中。这里,词ai满足长度不超过6。实体类型搭配频率则是根据该词的左右实体类型来统计的,例如对于文本“{NT百度}高级研究员{NR张三}曾担任过“小度机器人”的技术负责人。”,我们可以统计出搭配类型“组织机构名-人名”,该搭配类型出现的次数为1.0。表1列出了名词“高级研究员”和动词“位于”的词频及搭配类型统计情况。
表1
上述步骤S305具体包括:计算词信息熵,为了衡量各词搭配的稳定性,我们使用信息熵公式来度量,具体计算过程如下:
将每个词ai的词频记为FreqMapi,词ai的搭配类型有m种,第j(1≤j≤m)种搭配类型ai,j的频率记为TypeMapi,j,如表1中词“高级研究员”的词频为6531.0,搭配类型“人名-人名”出现的频率为4.0。
对于词ai来说,第j种搭配关系出现的概率为:
则ai的熵为
entropy(ai)=-∑jp(ai,j)log(p(ai,j))
ai熵值越大,表明该词的搭配越不稳定。
根据以上公式我们可以获得表1中的词“高级研究员”和“位于”的信息熵,即
entiry(″高级研究员″)=0.048,entiry(″位于″)=0.85。
将每个词的信息熵以键值对(词,信息熵)的形式保存在EntropyMap中。
上述步骤S306具体可以包括:计算词得分,统计a中词语的相似词搭配能力,即若某个词的相似词也具有很高的搭配关系,则对该词加权。具体计算方法如下:
Step1:初始化词ai的得分Scorei为A,即
Scorei=A
Step2:获取词ai的相似词表simWords={xk}(0<k≤50);
Step3:对于每个相似词xk重复执行:
1)初始化xk对词ai的贡献分数tempScorei,k为
tempScorei,k=count(xk),
其中count(xk)为xk的词频;
2)通过对xk进行以下操作来更新Scorei的值:
a)若xk同时出现在FreqMap和EntropyMap中,则使用以下公式更新tempScorei和Scorei,并转Step4:
Scorei=Scorei+similarity(xk,ai)*tempScorei,k,
其中,(entropy(xk)为相似词xk的信息熵。
b)若xk仅出现在FreqMap中,则使用以下公式更新Scorei,并转Step4:
Scorei=Scorei+similarity(xk,ai)*count(xk),
其中similarity(xk,ai)为词xk和词ai的相似性系数,其取值范围为[0,1]。
c)若xk不满足上述两种情况,则Scorei值保持不变。
Step4:计算最终的加权得分:
其中number(simWords)为相似词表simWords中相似词的个数。
上述步骤S307具体可以包括:获取关系词,对每个词的得分Score进行排序,根据用户需求可以自行选出分数最高的K个词作为关系词。通过实验我们获得了1w多个名词关系和2w多个动词关系,经人工检验发现我们扩展的关系词可以在文本中描述两个实体间的语义关系。表2展示了部分得分较高的候选关系词。
表2
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
本发明实施例,还提供了一种关系词确定装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本发明实施例的关系词确定装置的框图,如图4所示,包括:
第一确定模块42,用于在对文本进行实体识别处理后,若任意两个实体之间仅存在一个词则将该词作为目标词放入预定义的目标词集合中;
统计模块44,用于分别统计所述目标词集合中所述多个目标词的词频以及所述多个目标词的实体搭配类型的频率,其中,所述多个目标词的实体搭配类型的频率是根据所述多个目标词左右实体词的类型确定的;
第二确定模块46,用于分别根据所述多个目标词中每个目标词的词频以及所述每个目标词的实体搭配类型的频率确定所述每个目标词的信息熵;
第三确定模块48,用于根据所述每个目标词的相似词的词频和信息熵信息确定所述每个目标词的可信度值,其中,所述可信度值用于衡量目标词为关系词的可信度,所述相似词为所述目标词集合中的一个或多个词;
第四确定模块410,用于将所述可信度值大于预定阈值的一个或多个目标词确定为关系词。
可选地,所述装置还包括:
纠错模块,用于对实体识别后的文本进行纠错处理。
可选地,所述装置还包括:
拆分模块,用于对训练文本进行句子拆分,并对拆分后的句子进行实体识别,得到含有实体标识的文本。
可选地,所述拆分模块包括:
第一拆分子模块,用于对所述训练文本根据分隔符进行拆分,得到包括多个句子的句子集合,其中,所述分隔符包括以下至少之一:句号、感叹号、问号;
分析子模块,用于对所述句子集合中的句子进行句法分析;
第二拆分子模块,用于根据句法分析中的预定标记将所述句子集合中的句子拆分成多个简单句;
识别子模块,用于对所述多个简单句进行实体识别,并标记识别出的实体词的类型。
可选地,所述第二确定模块46包括:
第一确定子模块,用于分别根据所述每个目标词的词频以及所述每个目标词的实体搭配类型的频率确定所述每个目标词的实体搭配类型的出现概率;
第二确定子模块,用于根据所述每个目标词的实体搭配类型的出现概率确定所述每个目标词的信息熵。
可选地,所述第三确定模块48包括:
获取子模块,用于分别获取所述每个目标词的相似词以及所述每个目标词与每个相似词的相似性系数,其中,所述每个目标词对应一个或多个相似词;
第三确定子模块,用于根据所述每个相似词的词频、或者所述每个相似词的词频和所述每个相似词的信息熵确定所述每个相似词对所述每个目标词的贡献分数;
第四确定子模块,用于根据所述每个相似词的贡献分数以及所述相似性系数确定所述每个目标词的可信度值。
可选地,所述第三定子模块,还用于通过以下方式之一根据所述每个相似词的词频、或者所述每个相似词的词频和所述每个相似词的信息熵确定所述每个相似词对所述每个目标词的贡献分数:
所述每个相似词的贡献分数等于所述相似词的词频;
在所述相似词的信息熵大于或等于1的情况下,所述每个相似词的贡献分数为所述相似词的词频与所述相似词的信息熵的a次方的比值;
在所述相似词的信息熵大于0且小于1的情况下,所述每个相似词的贡献分数为所述相似词的词频与所述相似词的信息熵的b次方的比值,其中,所述a、所述b为自然数,且,所述a大于所述b。
可选地,所述第四确定子模块,还用于
分别获取所述每个目标词的初始分数;
分别确定所述每个相似词的贡献分数与所述相似性系数的乘积;
计算每个所述乘积与所述每个目标词的初始分数的加权和;
分别将所述加权和与所述相似词的个数的比值确定为所述每个目标词的可信度值,其中,所述相似性系数大于或等于0且小于或等于1。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在对文本进行实体识别处理后,若任意两个实体之间仅存在一个词则将该词作为目标词放入预定义的目标词集合中;
S2,分别统计所述目标词集合中所述多个目标词的词频以及所述多个目标词的实体搭配类型的频率,其中,所述多个目标词的实体搭配类型的频率是根据所述多个目标词左右实体词的类型确定的;
S3,分别根据所述多个目标词中每个目标词的词频以及所述每个目标词的实体搭配类型的频率确定所述每个目标词的信息熵;
S4,根据所述每个目标词的相似词的词频和信息熵信息确定所述每个目标词的可信度值,其中,所述可信度值用于衡量目标词为关系词的可信度,所述相似词为所述目标词集合中的一个或多个词;
S5,将所述可信度值大于预定阈值的一个或多个目标词确定为关系词。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
实施例4
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,在对文本进行实体识别处理后,若任意两个实体之间仅存在一个词则将该词作为目标词放入预定义的目标词集合中;
S2,分别统计所述目标词集合中所述多个目标词的词频以及所述多个目标词的实体搭配类型的频率,其中,所述多个目标词的实体搭配类型的频率是根据所述多个目标词左右实体词的类型确定的;
S3,分别根据所述多个目标词中每个目标词的词频以及所述每个目标词的实体搭配类型的频率确定所述每个目标词的信息熵;
S4,根据所述每个目标词的相似词的词频和信息熵信息确定所述每个目标词的可信度值,其中,所述可信度值用于衡量目标词为关系词的可信度,所述相似词为所述目标词集合中的一个或多个词;
S5,将所述可信度值大于预定阈值的一个或多个目标词确定为关系词。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种关系词确定方法,其特征在于,包括:
在对文本进行实体识别处理后,若任意两个实体之间仅存在一个词则将该词作为目标词放入预定义的目标词集合中;
分别统计所述目标词集合中多个目标词的词频以及所述多个目标词的实体搭配类型的频率,其中,所述多个目标词的实体搭配类型的频率是根据所述多个目标词左右实体词的类型确定的;
分别根据所述多个目标词中每个目标词的词频以及所述每个目标词的实体搭配类型的频率确定所述每个目标词的信息熵,包括:分别根据所述每个目标词的词频以及所述每个目标词的实体搭配类型的频率确定所述每个目标词的实体搭配类型的出现概率;根据所述每个目标词的实体搭配类型的出现概率确定所述每个目标词的信息熵;
根据所述每个目标词的相似词的词频和信息熵信息确定所述每个目标词的可信度值,其中,所述可信度值用于衡量目标词为关系词的可信度,所述相似词为所述目标词集合中的一个或多个词;
将所述可信度值大于预定阈值的一个或多个目标词确定为关系词。
2.根据权利要求1所述的方法,其特征在于,在对文本进行实体识别处理后,若任意两个实体之间仅存在一个词则将该词作为目标词放入预定义的目标词集合之后,所述方法还包括:
对实体识别后的文本进行纠错处理。
3.根据权利要求1所述的方法,其特征在于,在对文本进行实体识别处理后,若任意两个实体之间仅存在一个词则将该词作为目标词放入预定义的目标词集合之前,所述方法还包括:
对训练文本进行句子拆分,并对拆分后的句子进行实体识别,得到含有实体标识的文本。
4.根据权利要求1所述的方法,其特征在于,根据所述每个目标词的相似词的词频和信息熵信息确定所述每个目标词的可信度值包括:
分别获取所述每个目标词的相似词以及所述每个目标词与每个相似词的相似性系数,其中,所述每个目标词对应一个或多个相似词;
根据所述每个相似词的词频、或者所述每个相似词的词频和所述每个相似词的信息熵确定所述每个相似词对所述每个目标词的贡献分数;
根据所述每个相似词的贡献分数以及所述相似性系数确定所述每个目标词的可信度值。
5.根据权利要求4所述的方法,其特征在于,根据所述每个相似词的词频、或者所述每个相似词的词频和所述每个相似词的信息熵确定所述每个相似词对所述每个目标词的贡献分数:
所述每个相似词的贡献分数等于所述相似词的词频;
在所述相似词的信息熵大于或等于1的情况下,所述每个相似词的贡献分数为所述相似词的词频与所述相似词的信息熵的a次方的比值;
在所述相似词的信息熵大于0且小于1的情况下,所述每个相似词的贡献分数为所述相似词的词频与所述相似词的信息熵的b次方的比值,其中,所述a、所述b为自然数,且,所述a大于所述b。
6.根据权利要求1至5中任一项所述的方法,其特征在于,根据所述每个相似词的贡献分数以及相似性系数确定所述每个目标词的可信度值包括:
分别获取所述每个目标词的初始分数;
分别确定所述每个相似词的贡献分数与所述相似性系数的乘积;
计算每个所述乘积与所述每个目标词的初始分数的加权和;
分别将所述加权和与所述相似词的个数的比值确定为所述每个目标词的可信度值,其中,所述相似性系数大于或等于0且小于或等于1。
7.一种关系词确定装置,其特征在于,包括:
第一确定模块,用于在对文本进行实体识别处理后,若任意两个实体之间仅存在一个词则将该词作为目标词放入预定义的目标词集合中;
统计模块,用于分别统计所述目标词集合中多个目标词的词频以及所述多个目标词的实体搭配类型的频率,其中,所述多个目标词的实体搭配类型的频率是根据所述多个目标词左右实体词的类型确定的;
第二确定模块,用于分别根据所述多个目标词中每个目标词的词频以及所述每个目标词的实体搭配类型的频率确定所述每个目标词的信息熵,包括:分别根据所述每个目标词的词频以及所述每个目标词的实体搭配类型的频率确定所述每个目标词的实体搭配类型的出现概率;根据所述每个目标词的实体搭配类型的出现概率确定所述每个目标词的信息熵;
第三确定模块,用于根据所述每个目标词的相似词的词频和信息熵信息确定所述每个目标词的可信度值,其中,所述可信度值用于衡量目标词为关系词的可信度,所述相似词为所述目标词集合中的一个或多个词;
第四确定模块,用于将所述可信度值大于预定阈值的一个或多个目标词确定为关系词。
8.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至6中任一项所述的方法。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910833495.9A CN110569504B (zh) | 2019-09-04 | 2019-09-04 | 一种关系词确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910833495.9A CN110569504B (zh) | 2019-09-04 | 2019-09-04 | 一种关系词确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110569504A CN110569504A (zh) | 2019-12-13 |
CN110569504B true CN110569504B (zh) | 2022-11-15 |
Family
ID=68777749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910833495.9A Active CN110569504B (zh) | 2019-09-04 | 2019-09-04 | 一种关系词确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110569504B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111221951B (zh) * | 2020-01-03 | 2021-05-28 | 北京字节跳动网络技术有限公司 | 文本处理方法及装置 |
CN113297213B (zh) * | 2021-04-29 | 2023-09-12 | 军事科学院***工程研究院网络信息研究所 | 一种实体对象的动态多属性匹配方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
CN109408818A (zh) * | 2018-10-12 | 2019-03-01 | 平安科技(深圳)有限公司 | 新词识别方法、装置、计算机设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4333229B2 (ja) * | 2003-06-23 | 2009-09-16 | 沖電気工業株式会社 | 固有表現文字列の評価装置および評価方法 |
-
2019
- 2019-09-04 CN CN201910833495.9A patent/CN110569504B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
CN109408818A (zh) * | 2018-10-12 | 2019-03-01 | 平安科技(深圳)有限公司 | 新词识别方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
正则表达式引擎的构建——基于编译原理DFA(龙书第三章)——1 概述;Chinamming;《CSDN博客https://blog.csdn.net/chinamming/article/details/17175065》;20131206;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110569504A (zh) | 2019-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018086470A1 (zh) | 关键词提取方法、装置和服务器 | |
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
CN110968684B (zh) | 一种信息处理方法、装置、设备及存储介质 | |
CN102411563A (zh) | 一种识别目标词的方法、装置及*** | |
TWI554896B (zh) | Information Classification Method and Information Classification System Based on Product Identification | |
CN112069298A (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
CN109710744B (zh) | 一种数据匹配方法、装置、设备及存储介质 | |
CN108376129B (zh) | 一种纠错方法及装置 | |
CN107301163B (zh) | 包含公式的文本语义解析方法及装置 | |
CN113254643B (zh) | 文本分类方法、装置、电子设备和 | |
CN107679075B (zh) | 网络监控方法和设备 | |
CN110569504B (zh) | 一种关系词确定方法及装置 | |
CN109446393B (zh) | 一种网络社区话题分类方法及装置 | |
CN113722478A (zh) | 多维度特征融合相似事件计算方法、***及电子设备 | |
CN113947084A (zh) | 基于图嵌入的问答知识检索方法、装置及设备 | |
CN110209781A (zh) | 一种文本处理方法、装置以及相关设备 | |
US11561970B2 (en) | Techniques for accurately specifying identification information | |
CN111930949B (zh) | 搜索串处理方法、装置、计算机可读介质及电子设备 | |
CN109672586A (zh) | 一种dpi业务流量识别方法、装置与计算机可读存储介质 | |
CN112560425A (zh) | 模板生成方法、装置、电子设备及存储介质 | |
CN113095081A (zh) | 疾病的识别方法及装置、存储介质、电子装置 | |
CN110705258A (zh) | 文本实体识别方法及装置 | |
CN117195829A (zh) | 文本标注方法、文本标注装置及电子设备 | |
CN111881288A (zh) | 笔录信息真假的判断方法、装置、存储介质及电子设备 | |
CN115630639A (zh) | 一种关键词抽取方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |