CN114444496A - 短文本实体相关性识别方法、***、电子设备及存储介质 - Google Patents

短文本实体相关性识别方法、***、电子设备及存储介质 Download PDF

Info

Publication number
CN114444496A
CN114444496A CN202110439445.XA CN202110439445A CN114444496A CN 114444496 A CN114444496 A CN 114444496A CN 202110439445 A CN202110439445 A CN 202110439445A CN 114444496 A CN114444496 A CN 114444496A
Authority
CN
China
Prior art keywords
entity
word
vector
text
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110439445.XA
Other languages
English (en)
Inventor
郭艳波
刘瑞熙
王兆元
龚浩
李青龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Smart Starlight Information Technology Co ltd
Original Assignee
Beijing Smart Starlight Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Smart Starlight Information Technology Co ltd filed Critical Beijing Smart Starlight Information Technology Co ltd
Priority to CN202110439445.XA priority Critical patent/CN114444496A/zh
Publication of CN114444496A publication Critical patent/CN114444496A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种短文本实体相关性识别方法、***、电子设备及存储介质,该方法包括:将包含实体上下文语义信息的词向量、包含实***置编码信息的位置向量和包含实体预编码信息的预编码向量进行融合得到训练文本中单词的融合词向量;将每一个训练文本的单词的融合词向量输入到TD_LSTM模型中得到向前向量编码和向后向量编码,并将向前向量编码和向后向量编码拼接得到实体拼接向量,将实体拼接向量经过前馈神经网络得到每一个训练文本的分类编码向量,将分类编码向量归一化,根据归一化的分类编码向量得到损失函数,对损失函数进行迭代优化得到最优模型;将待识别短文本输入至最优模型中得到待识别文本的识别结果;实现了短文本实体相关性识别的准确性。

Description

短文本实体相关性识别方法、***、电子设备及存储介质
技术领域
本发明涉及文本处理领域,具体涉及到一种短文本实体相关性识别方法、***、电子设备及存储介质。
背景技术
目前,文本实体相关性的处理方法主要分为基于机器学习和基于神经网络两类。
基于机器学习的方法主要是对文本进行手动构建特征信息,再使用机器学习分类器将特征信息进行分类,常用的特征分类器有支持向量机 (Support Vector Machine,SVM)、朴素贝叶斯等。传统的机器学习方法,特征的构建很重要,是决定准确率的关键,需要做大量的特征工程的工作,特征信息的提取构建不全面,从而导致根据给定的特征信息进行实体相关性识别的准确性较低。
基于神经网络的方法则是对文本进行深度语义特征向量表示,之后根据给定实体来预测实体的相关度。相比于手动构建特征信息,使用神经网络进行特征提取可以更全面,并且其本身可以从数据中学习到目标特征表示。神经网络自动地学习特征的特性,避免了需要大量领域知识的特征提取过程。常用的神经网络有循环神经网络(Recurrent NeuralNetwork,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM)等。然而,根据上下文语义自动学习到的实体特征仍然不全面,存在实体相关度识别不准确的问题。
发明内容
有鉴于此,本发明实施例提供了一种短文本实体相关性识别方法、***、电子设备及存储介质,以解决现有技术中短文本实体相关度识别不准确的问题。
为此,本发明实施例中提供了如下技术方案:
根据第一方面,本发明实施例中提供了一种短文本实体相关性识别方法,包括:获取短文本训练集,所述短文本训练集包括多个训练文本和每一个训练文本所对应的命名实体;获取实体预编码矩阵,所述实体预编码矩阵包括所有实体对应的预编码向量,其中,实体预编码是根据实体预先编码的语境信息得到的;分别将每一个训练文本中的每一个单词转换为词向量,将每一个单词在训练文本中的位置转换为位置向量;根据每一个训练文本中的每一个单词和实体预编码矩阵得到每一个单词所对应的预编码向量,其中,每一个训练文本中命名实体所对应的单词的预编码向量为实体预编码向量,每一个训练文本中非命名实体所对应的单词的预编码向量为零向量;根据每一个训练文本中的每一个单词所对应的词向量、位置向量和预编码向量得到每一个训练文本中的每一个单词所对应的融合词向量;分别将每一个训练文本的融合词向量输入到 TD_LSTM网络中得到每一个训练文本所对应的向前向量编码和向后向量编码;分别将每一个训练文本所对应的向前向量编码和向后向量编码进行拼接,得到每一个训练文本对应的实体拼接向量;将每一个训练文本对应的实体拼接向量经过前馈神经网络,得到每一个训练文本所对应的分类编码向量;将分类编码向量进行归一化,得到归一化的分类编码向量;根据归一化的分类编码向量得到模型编码的分类向量与实际实体分类向量之间的损失函数;根据损失函数进行迭代优化训练,得到最优模型,所述最优模型用于识别短文本与短文本中实体的相关强度;获取待识别短文本;将所述待识别短文本输入至最优模型,得到待识别文本的识别结果。
可选地,融合词向量的计算公式如下:
w_a=w_ta+w_pa+w_da
其中,w_a为单词a所对应的融合词向量;w_ta为单词a所对应的词向量;w_pa为单词a所对应的位置向量,w_da为单词a所对应的预编码向量。
可选地,分别将每一个训练文本的融合词向量输入到TD_LSTM网络中得到每一个训练文本所对应的向前向量编码和向后向量编码的步骤之后,还包括:分别将每一个训练文本的融合词向量输入到TD_LSTM 网络中每一个训练文本中实体词所对应的实体词编码向量、实体词左侧第一预设个数单词的编码向量、实体词右侧第二预设个数单词的编码向量;对实体词编码向量、实体词左侧第一预设个数单词的编码向量和实体词右侧第二预设个数单词的编码向量进行加权平均,得到实体词所对应的新的编码向量;将实体词所对应的新的编码向量与实体预编码矩阵中所述实体词所对应的预编码向量进行相似度比较,得到相似度计算值;判断相似度计算值是否大于预设相似度阈值;若相似度计算值大于预设相似度阈值,则对实体预编码矩阵不进行更新;若相似度计算值小于或者等于预设相似度阈值,则将实体词所对应的新的编码向量和实体预编码矩阵中实体词对应的预编码向量进行加权平均,得到更新后的预编码向量,并将更新后的预编码向量更新至实体预编码矩阵。
可选地,相似度计算值的计算公式如下:
Threshold=cosine(w_new,w_d)
其中,Threshold为相似度计算值,w_new为实体词所对应的新的编码向量,w_d为实体词所对应的预编码向量;
实体词所对应的新的编码向量的计算公式如下:
Figure RE-GDA0003586198780000031
其中,s为实体词左侧第一预设个数,v为实体词右侧第二预设个数; w_t为训练文本中实体词所对应的实体词编码向量,w_tl-1为训练文本中实体词左侧第一个单词的编码向量,w_tl-2为训练文本中实体词左侧第二个单词的编码向量,w_tl-s为训练文本中实体词左侧第s个单词的编码向量,w_tr+1为训练文本中实体词右侧第一个单词的编码向量,w_tr+2为训练文本中实体词右侧第二个单词的编码向量,w_tr+v为训练文本中实体词右侧第v个单词的编码向量。
可选地,更新后的预编码向量的计算公式如下:
Figure RE-GDA0003586198780000032
其中,w_z为实体词更新后的预编码向量;w_new为实体词所对应的新的编码向量,w_d为实体词所对应的预编码向量。
可选地,将所述待识别短文本输入至最优模型的步骤之前,还包括:将待识别短文本输入至TextRCNN模型进行文本二分类,得到分类结果;若所述待识别短文本的分类结果为噪音文本,则将所述待识别文本去除;若所述待识别短文本的分类结果为非噪音文本,则将所述待识别文本保留。
可选地,损失函数的计算公式如下:
Figure RE-GDA0003586198780000033
其中,n是训练样本的个数,yi是第i个训练样本的实际分类向量, ai是第i个训练样本经过模型编码的分类向量。
根据第二方面,本发明实施例中提供了一种短文本实体相关性识别***,包括:
第一获取模块,用于获取短文本训练集,所述短文本训练集包括多个训练文本和每一个训练文本所对应的命名实体;
第二获取模块,用于获取实体预编码矩阵,所述实体预编码矩阵包括所有实体对应的预编码向量,其中,实体预编码是根据实体预先编码的语境信息得到的;
第一处理模块,用于分别将每一个训练文本中的每一个单词转换为词向量,将每一个单词在训练文本中的位置转换为位置向量;
第二处理模块,用于根据每一个训练文本中的每一个单词和实体预编码矩阵得到每一个单词所对应的预编码向量,其中,每一个训练文本中命名实体所对应的单词的预编码向量为实体预编码向量,每一个训练文本中非命名实体所对应的单词的预编码向量为零向量;
第三处理模块,用于根据每一个训练文本中的每一个单词所对应的词向量、位置向量和预编码向量得到每一个训练文本中的每一个单词所对应的融合词向量;
第四处理模块,用于分别将每一个训练文本的融合词向量输入到 TD_LSTM网络中得到每一个训练文本所对应的向前向量编码和向后向量编码;
第五处理模块,用于分别将每一个训练文本所对应的向前向量编码和向后向量编码进行拼接,得到每一个训练文本对应的实体拼接向量;
第六处理模块,用于将每一个训练文本对应的实体拼接向量经过前馈神经网络,得到每一个训练文本所对应的分类编码向量;
第七处理模块,用于将分类编码向量进行归一化,得到归一化的分类编码向量;
第八处理模块,用于根据归一化的分类编码向量得到模型编码的分类向量与实际实体分类向量之间的损失函数;
第九处理模块,用于根据损失函数进行迭代优化训练,得到最优模型,所述最优模型用于识别短文本与短文本中实体的相关强度;
第三获取模块,用于获取待识别短文本;
第十处理模块,用于将所述待识别短文本输入至最优模型,得到待识别文本的识别结果。
可选地,融合词向量的计算公式如下:
w_a=w_ta+w_pa+w_da
其中,w_a为单词a所对应的融合词向量;w_ta为单词a所对应的词向量;w_pa为单词a所对应的位置向量,w_da为单词a所对应的预编码向量。
可选地,还包括:第十一处理模块,用于分别将每一个训练文本的融合词向量输入到TD_LSTM网络中每一个训练文本中实体词所对应的实体词编码向量、实体词左侧第一预设个数单词的编码向量、实体词右侧第二预设个数单词的编码向量;第十二处理模块,用于对实体词编码向量、实体词左侧第一预设个数单词的编码向量和实体词右侧第二预设个数单词的编码向量进行加权平均,得到实体词所对应的新的编码向量;第十三处理模块,用于将实体词所对应的新的编码向量与实体预编码矩阵中所述实体词所对应的预编码向量进行相似度比较,得到相似度计算值;判断模块,用于判断相似度计算值是否大于预设相似度阈值;第十四处理模块,用于若相似度计算值大于预设相似度阈值,则对实体预编码矩阵不进行更新;第十五处理模块,用于若相似度计算值小于或者等于预设相似度阈值,则将实体词所对应的新的编码向量和实体预编码矩阵中实体词对应的预编码向量进行加权平均,得到更新后的预编码向量,并将更新后的预编码向量更新至实体预编码矩阵。
可选地,相似度计算值的计算公式如下:
Threshold=cosine(w_new,w_d)
其中,Threshold为相似度计算值,w_new为实体词所对应的新的编码向量,w_d为实体词所对应的预编码向量;
实体词所对应的新的编码向量的计算公式如下:
Figure RE-GDA0003586198780000051
其中,s为实体词左侧第一预设个数,v为实体词右侧第二预设个数; w_t为训练文本中实体词所对应的实体词编码向量,w_tl-1为训练文本中实体词左侧第一个单词的编码向量,w_tl-2为训练文本中实体词左侧第二个单词的编码向量,w_tl-s为训练文本中实体词左侧第s个单词的编码向量,w_tr+1为训练文本中实体词右侧第一个单词的编码向量,w_tr+2为训练文本中实体词右侧第二个单词的编码向量,w_tr+v为训练文本中实体词右侧第v个单词的编码向量。
可选地,更新后的预编码向量的计算公式如下:
Figure RE-GDA0003586198780000052
其中,w_z为实体词更新后的预编码向量;w_new为实体词所对应的新的编码向量,w_d为实体词所对应的预编码向量。
可选地,还包括:第十六处理模块,用于将待识别短文本输入至 TextRCNN模型进行文本二分类,得到分类结果;第十七处理模块,用于若所述待识别短文本的分类结果为噪音文本,则将所述待识别文本去除;第十八处理模块,用于若所述待识别短文本的分类结果为非噪音文本,则将所述待识别文本保留。
可选地,损失函数的计算公式如下:
Figure RE-GDA0003586198780000061
其中,n是训练样本的个数,yi是第i个训练样本的实际分类向量, ai是第i个训练样本经过模型编码的分类向量。
根据第三方面,本发明实施例中提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行上述第一方面任意一项描述的短文本实体相关性识别方法。
根据第四方面,本发明实施例中提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行上述第一方面任意一项描述的短文本实体相关性识别方法。
本发明实施例技术方案,具有如下优点:
本发明实施例提供了一种短文本实体相关性识别方法、***、电子设备及存储介质,其中,该方法包括:获取短文本训练集,所述短文本训练集包括多个训练文本和每一个训练文本所对应的命名实体;获取实体预编码矩阵,所述实体预编码矩阵包括所有实体对应的预编码向量,其中,实体预编码是根据实体预先编码的语境信息得到的;分别将每一个训练文本中的每一个单词转换为词向量,将每一个单词在训练文本中的位置转换为位置向量;根据每一个训练文本中的每一个单词和实体预编码矩阵得到每一个单词所对应的预编码向量,其中,每一个训练文本中命名实体所对应的单词的预编码向量为实体预编码向量,每一个训练文本中非命名实体所对应的单词的预编码向量为零向量;根据每一个训练文本中的每一个单词所对应的词向量、位置向量和预编码向量得到每一个训练文本中的每一个单词所对应的融合词向量;分别将每一个训练文本的融合词向量输入到TD_LSTM网络中得到每一个训练文本所对应的向前向量编码和向后向量编码;分别将每一个训练文本所对应的向前向量编码和向后向量编码进行拼接,得到每一个训练文本对应的实体拼接向量;将每一个训练文本对应的实体拼接向量经过前馈神经网络,得到每一个训练文本所对应的分类编码向量;将分类编码向量进行归一化,得到归一化的分类编码向量;根据归一化的分类编码向量得到模型编码的分类向量与实际实体分类向量之间的损失函数;根据损失函数进行迭代优化训练,得到最优模型,所述最优模型用于识别短文本与短文本中实体的相关强度;获取待识别短文本;将所述待识别短文本输入至最优模型,得到待识别文本的识别结果。上述步骤,采用了多维信息相融合,第一维信息是包含实体上下文语义信息的词向量,第二维信息是包含实***置编码信息的位置向量,第三维信息是包含实体预编码信息的预编码向量,将上述三个向量进行融合得到训练文本中单词所对应的融合词向量,不仅从局部语境考虑到了实体与该上下文的相关度,还从大语境环境考虑到了实体本身携带的语境信息与该上下文的相关度,从多个信息维度丰富实体特征表达,提高实体与文本相关度计算的置信度;之后,将每一个训练文本的单词所对应的融合词向量输入到TD_LSTM模型中得到每一个训练文本所对应的向前向量编码和向后向量编码,并将向前向量编码和向后向量编码拼接得到实体拼接向量,将实体拼接向量经过前馈神经网络,得到每一个训练文本所对应的分类编码向量,将分类编码向量归一化得到归一化的分类编码向量,根据归一化的分类编码向量得到模型编码的分类向量与实际实体分类向量之间的损失函数,根据损失函数进行迭代优化训练,得到最优模型;最后,将待识别短文本输入至最优模型中得到待识别文本的识别结果,确定待识别短文本中实体与待识别短文本的相关度。通过上述步骤实现了短文本实体相关性的识别准确性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的短文本实体相关性识别方法的一个具体示例的流程图;
图2为本发明实施例的短文本实体相关性识别方法的另一个具体示例的流程图;
图3为本发明实施例的短文本实体相关性识别***的一个具体示例的框图;
图4为本发明实施例的电子设备的示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种短文本实体相关性识别方法,如图1所示,该方法包括步骤S1-S13。
步骤S1:获取短文本训练集,所述短文本训练集包括多个训练文本和每一个训练文本所对应的命名实体。
作为示例性的实施例,短文本是相对于长文本来说的,具体的短文本是指字数在预设字数以内的文本,本实施例中,预设字数设置为350,也就是说字数在350字以内的文本为短文本,本实施例对此仅作示意性说明,不以此为限;当然,在其它实施例中,预设字数还可以设置为其它数值,在实际应用中根据需要合理设置即可。
短文本训练集中包括多个短文本训练文本,以及每一个短文本中包含的命名实体。具体的,可通过现有技术中的命名实体识别方法对训练文本进行命名实体的识别,得到该训练文本所对应的命名实体。本实施例中,命名实体包括机构名称;当然,在其它实施例中,命名实体还可以包括人名、地名等,具体类型根据实际需要合理确定即可,本实施例对此仅作示意性说明,不以此为限。
步骤S2:获取实体预编码矩阵,所述实体预编码矩阵包括所有实体对应的预编码向量,其中,实体预编码是根据实体预先编码的语境信息得到的。
作为示例性的实施例,实体预编码矩阵包括所有实体对应的预编码向量,每一个实体对应一个预编码向量。预编码向量是根据实体预先编码进去的语境信息得到的,具体过程是首先初始化一个实体预编码矩阵,然后通过TD_LSTM训练,得到该实体向量、左边预设个数的词向量和右边预设个数的词向量,将该实体向量和左边词的词向量和右边词的词向量,加权平均,得到该实体融合了上下文语境信息的新的实体向量。将新的实体向量与实体预编码矩阵中的实体向量计算相似度。相似度小于预设阈值,不做操作。相似度大于等于预设阈值,则将新的实体向量与原来的实体向量进行加权平均更新到实体预编码矩阵中。通过不断的迭代训练,不断的将新的语境信息融入实体预编码矩阵中,使得实体本身携带有丰富的语境信息。利用语境信息计算与该短文本的相关程度,来帮助判断该实体是否是主要实体。具体可以是通过pre-encoding模块初始化一个所有实体的向量矩阵得到实体预编码矩阵。
在判断实体相关性时,利用实体预先编码进去的语境信息,计算与该短文本的相关程度,来帮助判断该实体是否是主要实体。实体预编码是通过训练数据得到的,将实体预编码向量中融入了大量的语境信息。比如下文中,提到四个实体,分别是万科、中国平安、贵州茅台和宁德时代。
万科的语境信息一般是地产相关的,中国平安的语境信息一般是保险相关的,贵州茅台的语境信息一般是白酒相关的。通过一轮一轮的迭代训练,将这些语境信息融入实体向量中,让实体本身携带了很大的信息量,能够帮助判别实体相关性,提高实体相关判别的置信度。
步骤S3:分别将每一个训练文本中的每一个单词转换为词向量,将每一个单词在训练文本中的位置转换为位置向量。
作为示例性的实施例,预先基于多领域语料训练了一个预设维度的 word2vec词向量模型,从该模型中获取的词向量。本实施例中,预设维度设置为300维,当然,在其它实施例中,预设维度还可以设置为其它数值,根据需要合理设置即可。将训练文本中的每一个短文本中的单词转换成词向量w_t,词向量表示实体上下文语义信息。
将单词在短文本中的位置转换成位置向量w_p,位置向量表示实***置编码信息。本实施例中,位置向量的维度也是预设维度,具体的,预设维度设置为300维。
位置向量编码如下:本实施例中使用了正余弦位置编码,利用sine 和cosine函数的线性变化特性来编码单词在短文本中的位置信息。具体公式如下:
Figure RE-GDA0003586198780000091
Figure RE-GDA0003586198780000092
上式中pos表示某个词在短文本中的实际位置,i表示词向量的第i 个维度,dmodel表示的是词向量的维度。
通过对大量短文本的分析统计,短文本所关联的主要实体与上下文的语义密切度更高,而次要实体与上下文的语义密切度会低一些。主要实体一般位于短文本的头部,很少出现于短文本的尾部,所以位置编码也可以提升实体相关性的判别。
步骤S4:根据每一个训练文本中的每一个单词和实体预编码矩阵得到每一个单词所对应的预编码向量,其中,每一个训练文本中命名实体所对应的单词的预编码向量为实体预编码向量,每一个训练文本中非命名实体所对应的单词的预编码向量为零向量。
作为示例性的实施例,将一个训练文本中每一个单词与实体预编码矩阵中的实体进行匹配。若单词是实体所对应的单词,那么该实体所对应的单词存在于实体预编码矩阵中,也就是在实体预编码矩阵中能够找到该单词所对应的实体,故将实体预编码矩阵中该实体所对应的预编码向量作为该实体单词的预编码向量。若单词是非命名实体所对应的单词,那么该实体所对应的单词不存在于实体预编码矩阵中,也就是实体预编码矩阵中没有该单词所对应的实体,则该单词所对应的预编码向量设置为零向量,也就是非实体单词不加预编码向量还是保持原来的向量不变。
步骤S5:根据每一个训练文本中的每一个单词所对应的词向量、位置向量和预编码向量得到每一个训练文本中的每一个单词所对应的融合词向量。
作为示例性的实施例,将每一个短文本中单词转换成的词向量w_t,将单词在短文本中的位置转换成的位置向量w_p,并从实体预编码矩阵中获取到的短文本中单词的预编码向量w_d相加得到融合词向量,将融合词向量w_a输入BI_LSTM网络。
具体的,融合词向量的计算公式如下:
w_a=w_ta+w_pa+w_da
其中,w_a为单词a所对应的融合词向量;w_ta为单词a所对应的词向量;w_pa为单词a所对应的位置向量,w_da为单词a所对应的预编码向量。当单词a是命名实体单词,则w_da为实体预编码矩阵中对应的预编码向量;当单词a是非命名实体单词,则w_da为零向量。
步骤S6:分别将每一个训练文本的融合词向量输入到TD_LSTM网络中得到每一个训练文本所对应的向前向量编码和向后向量编码。
作为示例性的实施例,TD_LSTM网络采用两个LSTM网络,即 LSTM_L网络和LSTM_R网络。LSTM_L网络的输入是短文本的第一个词到实体词,从左至右输入LSTM_L,输出的是融入了该短文本上文信息的向前向量编码。LSTM_R网络的输入是短文本的最后一个词到实体词,从右至左输入LSTM_R,输出的是融入了该短文本下文信息的向后向量编码。
具体的输出结果如下:
w_l=LSTM_L(w0,w1,…,wt)
w_r=LSTM_R(wn,wn-1,…,wt)
其中,LSTM_L是前向的长短期记忆网络(输入词从左向右依次喂给网络),LSTM_R是后向的长短期记忆网络(输入词从右向左依次喂给网络);w0是左起第一个词,w1是左起第二个词,依次类推,wt是实体词;wn是右起第一个词,wn-1是右起第二个词,依次类推,wt是实体词。
本实施例中识别主要实体还是次要实体所用的模型是TD-LSTM (Target-Dependent Long Short_Term Memory)。该模型是根据实体词之前和之后的上下文分别建模,所用实际上是拥有两个LSTM,即LSTM_L 和LSTM_R。
如下句所示:
我一商场员工为什么天天被苏宁广场的保安赶着到处跑!!!
该句中的实体是“苏宁广场”,苏宁广场的上文是从“我”到“苏宁广场”,“苏宁广场”的下文是从“苏宁广场”到句尾感叹号。
LSTM_L是将“苏宁广场”的上文输入LSTM,即从句子的第一个词到实体词,从左到右依次输入网络,进行语义信息编码,得到融合了上文语义信息的向前向量编码。
LSTM_R是将“苏宁广场”的下文输入LSTM,即从句子的最后一个词到实体词,从右到左依次输入网络,进行语义信息编码,得到融合了下文语义信息的向后向量编码。
步骤S7:分别将每一个训练文本所对应的向前向量编码和向后向量编码进行拼接,得到每一个训练文本对应的实体拼接向量。
作为示例性的实施例,融入了上文信息的向前向量编码和融入了下文信息的向后向量编码进行拼接,得到拼接向量。具体的拼接方式可以是concat函数拼接,将实体相关的上文语义信息和下文语义信息,融入实体向量中,丰富了实体的信息含量。因为实体融入了上下文语义信息,才可以判断出该实体与上下文的相关性。
拼接向量的计算公式为:
w_i=concat(w_l,w_r)
其中,w_i为训练文本对应的实体拼接向量,w_l为训练文本所对应的向前向量编码,w_r为训练文本所对应的向后向量编码。
步骤S8:将每一个训练文本对应的实体拼接向量经过前馈神经网络,得到每一个训练文本所对应的分类编码向量。
作为示例性的实施例,将得到的训练文本对应的实体拼接向量经过前馈神经网络,得到分类编码向量,这里的分类指的是强相关和弱相关。本实施例中,分类编码包括两种,分别为0和1,0表示弱相关,1表示强相关。
分类编码向量的计算公式为:
c_i=FeedForward(w_i)
其中,c_i为训练文本所对应的分类编码向量;w_i为训练文本对应的实体拼接向量。
步骤S9:将分类编码向量进行归一化,得到归一化的分类编码向量。
作为示例性的实施例,归一化的作用是将分类的值域映射到[0,1]的区间,从而可以跟实际的分类值0和1计算损失差,进行反向传播,更新参数,迭代优化模型。将分类编码向量c_i输出给SoftMax进行归一化,得到归一化的分类编码向量。
步骤S10:根据归一化的分类编码向量得到模型编码的分类向量与实际实体分类向量之间的损失函数。
作为示例性的实施例,将归一化的分类编码向量经过计算得到模型编码的分类向量与实际实体分类向量之间的损失函数。
损失函数的计算公式为:
Figure RE-GDA0003586198780000121
其中,n是训练样本的个数,yi是第i个训练样本的实际分类向量, ai是第i个训练样本经过模型编码的分类向量。
步骤S11:根据损失函数进行迭代优化训练,得到最优模型,所述最优模型用于识别短文本与短文本中实体的相关强度。
作为示例性的实施例,将损失函数通过反向传播,进入迭代环节,更新参数权重,继续进行训练。这里是为了通过不断训练,得到模型的最优参数,最终实现判别出实体的相关度的目的。通过不断更新参数,将模型的预测值尽量拟合样本的真实值,从而减小预测值与真实值之间的误差,训练出能预测实体相关性的最优模型。
步骤S12:获取待识别短文本。
作为示例性的实施例,根据识别任务获取到待识别短文本。
步骤S13:将待识别短文本输入至最优模型,得到待识别文本的识别结果。
作为示例性的实施例,将待识别短文本输入到最优模型中,得到最优模型输出的识别结果,识别结果包括0和1,0表示实体与短文本是弱相关,1表示实体与短文本是强相关。
上述步骤,采用了多维信息相融合,第一维信息是包含实体上下文语义信息的词向量,第二维信息是包含实***置编码信息的位置向量,第三维信息是包含实体预编码信息的预编码向量,将上述三个向量进行融合得到训练文本中单词所对应的融合词向量,不仅从局部语境考虑到了实体与该上下文的相关度,还从大语境环境考虑到了实体本身携带的语境信息与该上下文的相关度,从多个信息维度丰富实体特征表达,提高实体与文本相关度计算的置信度;之后,将每一个训练文本的单词所对应的融合词向量输入到TD_LSTM模型中得到每一个训练文本所对应的向前向量编码和向后向量编码,并将向前向量编码和向后向量编码拼接得到实体拼接向量,将实体拼接向量经过前馈神经网络,得到每一个训练文本所对应的分类编码向量,将分类编码向量归一化得到归一化的分类编码向量,根据归一化的分类编码向量得到损失函数,根据损失函数进行迭代优化训练,得到最优模型;最后,将待识别短文本输入至最优模型中得到待识别文本的识别结果,确定待识别短文本中实体与待识别短文本的相关度。通过上述步骤实现了短文本实体相关性的识别准确性。
作为示例性的实施例,步骤S6分别将每一个训练文本的融合词向量输入到TD_LSTM网络中得到每一个训练文本所对应的向前向量编码和向后向量编码的步骤之后,还包括步骤S14-S19。
步骤S14:分别将每一个训练文本的融合词向量输入到TD_LSTM 网络中每一个训练文本中实体词所对应的实体词编码向量、实体词左侧第一预设个数单词的编码向量、实体词右侧第二预设个数单词的编码向量。
本实施例中,第一预设个数设置为3个,第二预设个数设置为3个;当然,在其它实施例中,第一预设个数和第二预设个数的具体数值还可以根据需要合理设置,本实施例中对此仅作示意性描述,不以此为限。
具体的,LSTM_L网络和LSTM_R网络还会输出每个词的编码向量,本实施例中采取LSTM网络输出的实体词所对应的实体词编码向量w_t 和实体词编码向量左右各三个窗口内的单词所对应的编码向量,左侧三个单词的编码向量分别记为w_tl-1、w_tl-2和w_tl-3,右侧三个单词的编码向量分别记为w_tr+1、w_tr+2和w_tr+3
步骤S15:对实体词编码向量、实体词左侧第一预设个数单词的编码向量和实体词右侧第二预设个数单词的编码向量进行加权平均,得到实体词所对应的新的编码向量。
作为示例性的实施例,实体词所对应的新的编码向量的计算公式如下:
Figure RE-GDA0003586198780000141
其中,s为实体词左侧第一预设个数,v为实体词右侧第二预设个数; w_t为训练文本中实体词所对应的实体词编码向量,w_tl-1为训练文本中实体词左侧第一个单词的编码向量,w_tl-2为训练文本中实体词左侧第二个单词的编码向量,w_tl-s为训练文本中实体词左侧第s个单词的编码向量,w_tr+1为训练文本中实体词右侧第一个单词的编码向量,w_tr+2为训练文本中实体词右侧第二个单词的编码向量,w_tr+v为训练文本中实体词右侧第v个单词的编码向量。
具体的,对实体词编码向量、实体词左侧3个单词的编码向量和实体词右侧3个单词的编码向量加权平均,将上下文三个窗口内的语境信息融入实体词编码向量,得到实体词所对应的新的编码向量。
步骤S16:将实体词所对应的新的编码向量与实体预编码矩阵中所述实体词所对应的预编码向量进行相似度比较,得到相似度计算值。
作为示意性的实施例,相似度的比较采用cosine函数进行余弦相似度的计算。Cosine函数是计算两个向量夹角的大小,相比距离度量, Cosine函数更加注重两个向量在方向上的差异,而非距离或长度上。 Cosine函数不会受指标刻度的影响,Cosine函数的值落于区间[-1,1],值越大,差异越小。
本实施例中,相似度计算值的计算公式如下:
Threshold=cosine(w_new,w_d)
其中,Threshold为相似度计算值,w_new为实体词所对应的新的编码向量,w_d为实体词所对应的预编码向量。
步骤S17:判断相似度计算值是否大于预设相似度阈值。若相似度计算值大于预设相似度阈值,则执行步骤S18;若相似度计算值小于或者等于预设相似度阈值,则执行步骤S19。
作为示例性的实施例,预设相似度阈值可以是0.7;当然,在其它实施例中,预设相似度阈值的具体数值还可以是其它数值,如0.8或者0.6,本实施例中对此仅作示意性说明,不以此为限,在实际应用中根据需要合理设置即可。
步骤S18:若相似度计算值大于预设相似度阈值,则对实体预编码矩阵不进行更新。
作为示例性的实施例,当相似度计算值大于预设相似度阈值时,表明短文本中实体词所对应的新的编码向量和实体预编码矩阵中实体词对应的预编码向量的相似度较高,则说明该条短文本所携带的语境信息在之前已经融入实体编码向量中了,故不需要再做操作,无需对实体预编码矩阵进行更新。
步骤S19:若相似度计算值小于或者等于预设相似度阈值,则将实体词所对应的新的编码向量和实体预编码矩阵中实体词对应的预编码向量进行加权平均,得到更新后的预编码向量,并将更新后的预编码向量更新至实体预编码矩阵。
作为示例性的实施例,当相似度计算值小于或者等于预设相似度阈值时,表明短文本中实体词所对应的新的编码向量和实体预编码矩阵中实体词对应的预编码向量的相似度较低,则说明该条短文本所携带的语境信息相对而言是比较新的信息,需要将新的语境信息融入原来的实体编码向量中,故将实体词所对应的新的编码向量和实体预编码矩阵中实体词对应的预编码向量进行加权平均,得到更新后的预编码向量,并将更新后的预编码向量更新至实体预编码矩阵。
更新后的预编码向量的计算公式如下:
Figure RE-GDA0003586198780000151
其中,w_z为实体词更新后的预编码向量;w_new为实体词所对应的新的编码向量,w_d为实体词所对应的预编码向量。
将新的编码向量w_new和原来的预编码向量w_d加权平均,得到最终的预编码向量w_z,将w_z更新到实体预编码矩阵中,替换原来的w_d。这里是为了通过不断的向实体中融入新的语境信息,更新实体预编码向量,增大了实体预编码向量的语境覆盖范围,从而提高了实体相关性识别的准确性。
具体如图2所示,图2中Entity emddings模块的功能是产生新的实体向量。新的实体向量是由其本身与左右两边预设个数内的词向量加权平均得到的,其产出的新的实体向量用e2’表示,也就是新的编码向量。
上述步骤,采取LSTM网络输出的实体词编码向量和实体词左右预设个数的单词的编码向量,对这些编码向量进行加权平均,将上下文多个单词的语境信息融入实体向量编码,得到新的编码向量。将新的编码向量和实体预编码矩阵中的原来的预编码向量进行相似度计算,如果相似度计算值大于预设相似度阈值,则说明该条短文本所携带的语境信息在之前已经融入实体预编码向量中了,不需要再做操作;如果相似度计算值小于或者等于相似度阈值,则说明该条短文本所携带的语境信息相对而言是比较新的信息,需要将新的语境信息,融入原来的实体预编码向量,将新的预编码向量和原来的预编码向量加权平均,得到最终的实体预编码向量并将其更新到实体预编码矩阵中,替换原来的实体预编码向量。通过不断的向实体中融入新的语境信息,更新实体预编码向量,提高实体相关性的判别。
作为示例性的实施例,步骤S13将所述待识别短文本输入至最优模型的步骤之前,还包括步骤S20-S22。
步骤S20:将待识别短文本输入至TextRCNN模型进行文本二分类,得到分类结果。
作为示例性的实施例,TextRCNN先使用双向RNN获取输入待识别短文本的上下文语义和语法信息,接着使用最大池化自动地筛选出最重要的特征,然后接一个全连接层用于分类,得到分类结果。
TextRCNN综合了RNN和CNN的优点,用双向循环结构获取上下文信息,这比传统的基于窗口的神经网络更能减少噪声,而且在学习文本表达时可以大范围的保留词序。其次,使用最大池化层获取文本的重要部分,自动判断哪个特征在信息去躁过程中起更重要的作用。
具体的,TextRCNN将单词的左上下文、右上下文、单词本身结合起来作为单词表示,使用了双向RNN来分别提取句子的上下文信息。经过卷积层后,获得了所有词的表示,首先对其进行最大池化操作,最大池化可以帮助找到句子中最重要的潜在语义信息。然后经过全连接层得到文本的表示,最后通过softmax层进行分类。
具体的,分类结果包括两种结果,分别是噪音文本和非噪音文本,其中,噪音文本为短文中不包含实体,非噪音文本为短文本中包含实体。
步骤S21:若待识别短文本的分类结果为噪音文本,则将待识别文本去除。
具体的,由于本实施例是对短文本中实体的相关性进行识别,故只需要对包含实体的短文本进行识别,不包含实体的短文本则不需要进行识别,故待识别文本的分类结果是噪音文本时,则将该待识别文本去除,也就是不将噪音文本输入至下一步的最优模型中。
步骤S22:若待识别短文本的分类结果为非噪音文本,则将待识别文本保留。
具体地,当待识别短文本的分类结果是非噪音文本,也就是待识别短文本中包含一个或者多个实体,需要将待识别文本保留,进而将待识别文本输入至最优模型中进行实体相关性的识别。
通过上述步骤将待识别短文本中未包含实体的文本去除,去除了大量的噪音信息,仅保留包含实体的文本,提高了实体相关度识别的准确性。
本实施例中的技术方案是基于目标的相关性分析(TBCA,Target basedcorrelation analysis),主要功能是识别短文本中出现的实体的相关度,即该文本中出现了一个实体或者多个实体时,能识别出该实体是主要实体还是次要实体,即判定出该实体与这段文本是强相关的关系还是弱相关的关系(主要实体是强相关的关系,次要实体是弱相关的关系)。
一段文本中出现了三个实体,分别是A1、A2和A3,这三个实体与该段文本都是强相关的关系。最优模型会输出1表示强相关,0表示弱相关。最终输出结果为A1-1、A2-1、A3-1。
另一段文本中出现了四个实体,分别是B1、B2、B3、B4。其中, B1与该段文本是强相关的关系,B2、B3、B4与该段文本是弱相关的关系。最终输出结果为B1-1、B2-0、B3-0、B4-0。
本方法基于深度学习的网络框架,从多维度信息携带的角度,采用融合方案识别短文中实体的相关度。本方法考虑到实体(如机构实体) 本身也携带了很大的信息量,所以在设计深度学习网络框架的时候,加入了实体预编码矩阵,在训练的时候,通过不断的将新的语境信息融入实体向量,完成实体信息预编码。在预测的时候,词特征加上位置特征通过深度学习网络编码成该短文本中的实体向量,然后从实体信息预编码矩阵中获取带有语境信息的实体预编码向量,共同进入前向反馈神经网络,计算该实体在该段短文本中的相关度。本方法的优点在于利用了深度学习模型强大的编码能力,以及融入了丰富的语义语法语境信息。不仅设计了词法信息和句法信息,还设计了实体的语境环境。从多个信息维度,丰富实体特征表达,提高实体与文本相关度计算的置信度。不仅从局部语境考虑到了实体与该上下文的相关度,还从大语境环境考虑到了实体本身携带的语境信息与该上下文的相关度。
该方法对于商情领域的实体监测和信息检索都很有意义,当文本中出现一个或多个实体时,能告知信息获取者,哪些实体是文本所描述的主要实体,哪些实体是文本所描述的次要实体,从而能返回给信息获取者最相关的信息;本方法极大地提高了舆情分析工作者的工作效率。
在本实施例中还提供了一种短文本实体相关性识别***,该***用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的***较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例还提供一种短文本实体相关性识别***,如图3所示,包括:
第一获取模块1,用于获取短文本训练集,所述短文本训练集包括多个训练文本和每一个训练文本所对应的命名实体;
第二获取模块2,用于获取实体预编码矩阵,所述实体预编码矩阵包括所有实体对应的预编码向量,其中,实体预编码是根据实体预先编码的语境信息得到的;
第一处理模块3,用于分别将每一个训练文本中的每一个单词转换为词向量,将每一个单词在训练文本中的位置转换为位置向量;
第二处理模块4,用于根据每一个训练文本中的每一个单词和实体预编码矩阵得到每一个单词所对应的预编码向量,其中,每一个训练文本中命名实体所对应的单词的预编码向量为实体预编码向量,每一个训练文本中非命名实体所对应的单词的预编码向量为零向量;
第三处理模块5,用于根据每一个训练文本中的每一个单词所对应的词向量、位置向量和预编码向量得到每一个训练文本中的每一个单词所对应的融合词向量;
第四处理模块6,用于分别将每一个训练文本的融合词向量输入到 TD_LSTM网络中得到每一个训练文本所对应的向前向量编码和向后向量编码;
第五处理模块7,用于分别将每一个训练文本所对应的向前向量编码和向后向量编码进行拼接,得到每一个训练文本对应的实体拼接向量;
第六处理模块8,用于将每一个训练文本对应的实体拼接向量经过前馈神经网络,得到每一个训练文本所对应的分类编码向量;
第七处理模块9,用于将分类编码向量进行归一化,得到归一化的分类编码向量;
第八处理模块10,用于根据归一化的分类编码向量得到模型编码的分类向量与实际实体分类向量之间的损失函数;
第九处理模块11,用于根据损失函数进行迭代优化训练,得到最优模型,所述最优模型用于识别短文本与短文本中实体的相关强度;
第三获取模块12,用于获取待识别短文本;
第十处理模块13,用于将所述待识别短文本输入至最优模型,得到待识别文本的识别结果。
作为示例性的实施例,融合词向量的计算公式如下:
w_a=w_ta+w_pa+w_da
其中,w_a为单词a所对应的融合词向量;w_ta为单词a所对应的词向量;w_pa为单词a所对应的位置向量,w_da为单词a所对应的预编码向量。
作为示例性的实施例,还包括:第十一处理模块,用于分别将每一个训练文本的融合词向量输入到TD_LSTM网络中每一个训练文本中实体词所对应的实体词编码向量、实体词左侧第一预设个数单词的编码向量、实体词右侧第二预设个数单词的编码向量;第十二处理模块,用于对实体词编码向量、实体词左侧第一预设个数单词的编码向量和实体词右侧第二预设个数单词的编码向量进行加权平均,得到实体词所对应的新的编码向量;第十三处理模块,用于将实体词所对应的新的编码向量与实体预编码矩阵中所述实体词所对应的预编码向量进行相似度比较,得到相似度计算值;判断模块,用于判断相似度计算值是否大于预设相似度阈值;第十四处理模块,用于若相似度计算值大于预设相似度阈值,则对实体预编码矩阵不进行更新;第十五处理模块,用于若相似度计算值小于或者等于预设相似度阈值,则将实体词所对应的新的编码向量和实体预编码矩阵中实体词对应的预编码向量进行加权平均,得到更新后的预编码向量,并将更新后的预编码向量更新至实体预编码矩阵。
作为示例性的实施例,相似度计算值的计算公式如下:
Threshold=cosine(w_new,w_d)
其中,Threshold为相似度计算值,w_new为实体词所对应的新的编码向量,w_d为实体词所对应的预编码向量;
实体词所对应的新的编码向量的计算公式如下:
Figure RE-GDA0003586198780000191
其中,s为实体词左侧第一预设个数,v为实体词右侧第二预设个数; w_t为训练文本中实体词所对应的实体词编码向量,w_tl-1为训练文本中实体词左侧第一个单词的编码向量,w_tl-2为训练文本中实体词左侧第二个单词的编码向量,w_tl-s为训练文本中实体词左侧第s个单词的编码向量,w_tr+1为训练文本中实体词右侧第一个单词的编码向量,w_tr+2为训练文本中实体词右侧第二个单词的编码向量,w_tr+v为训练文本中实体词右侧第v个单词的编码向量。
作为示例性的实施例,更新后的预编码向量的计算公式如下:
Figure RE-GDA0003586198780000201
其中,w_z为实体词更新后的预编码向量;w_new为实体词所对应的新的编码向量,w_d为实体词所对应的预编码向量。
作为示例性的实施例,还包括:第十六处理模块,用于将待识别短文本输入至TextRCNN模型进行文本二分类,得到分类结果;第十七处理模块,用于若所述待识别短文本的分类结果为噪音文本,则将所述待识别文本去除;第十八处理模块,用于若所述待识别短文本的分类结果为非噪音文本,则将所述待识别文本保留。
作为示例性的实施例,损失函数的计算公式如下:
Figure RE-GDA0003586198780000202
其中,n是训练样本的个数,yi是第i个训练样本的实际分类向量, ai是第i个训练样本经过模型编码的分类向量。
本实施例中的短文本实体相关性识别***是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本发明实施例还提供了一种电子设备,如图4所示,该电子设备包括一个或多个处理器71以及存储器72,图4中以一个处理器71为例。
该控制器还可以包括:输入装置73和输出装置74。
处理器71、存储器72、输入装置73和输出装置74可以通过总线或者其他方式连接,图4中以通过总线连接为例。
处理器71可以为中央处理器(Central Processing Unit,CPU)。处理器71还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit, ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者是任何常规的处理器等。
存储器72作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的短文本实体相关性识别方法对应的程序指令/模块。处理器71通过运行存储在存储器72中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的短文本实体相关性识别方法。
存储器72可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外,存储器72可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器72可选包括相对于处理器71远程设置的存储器,这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置73可接收输入的数字或字符信息,以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置74可包括显示屏等显示设备。
一个或者多个模块存储在存储器72中,当被一个或者多个处理器 71执行时,执行如图1-2所示的方法。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指示相关的硬件来完成,被执行的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述短文本实体相关性识别方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD) 等;存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种短文本实体相关性识别方法,其特征在于,包括:
获取短文本训练集,所述短文本训练集包括多个训练文本和每一个训练文本所对应的命名实体;
获取实体预编码矩阵,所述实体预编码矩阵包括所有实体对应的预编码向量,其中,实体预编码是根据实体预先编码的语境信息得到的;
分别将每一个训练文本中的每一个单词转换为词向量,将每一个单词在训练文本中的位置转换为位置向量;
根据每一个训练文本中的每一个单词和实体预编码矩阵得到每一个单词所对应的预编码向量,其中,每一个训练文本中命名实体所对应的单词的预编码向量为实体预编码向量,每一个训练文本中非命名实体所对应的单词的预编码向量为零向量;
根据每一个训练文本中的每一个单词所对应的词向量、位置向量和预编码向量得到每一个训练文本中的每一个单词所对应的融合词向量;
分别将每一个训练文本的融合词向量输入到TD_LSTM网络中得到每一个训练文本所对应的向前向量编码和向后向量编码;
分别将每一个训练文本所对应的向前向量编码和向后向量编码进行拼接,得到每一个训练文本对应的实体拼接向量;
将每一个训练文本对应的实体拼接向量经过前馈神经网络,得到每一个训练文本所对应的分类编码向量;
将分类编码向量进行归一化,得到归一化的分类编码向量;
根据归一化的分类编码向量得到模型编码的分类向量与实际实体分类向量之间的损失函数;
根据损失函数进行迭代优化训练,得到最优模型,所述最优模型用于识别短文本与短文本中实体的相关强度;
获取待识别短文本;
将所述待识别短文本输入至最优模型,得到待识别文本的识别结果。
2.根据权利要求1所述的短文本实体相关性识别方法,其特征在于,
融合词向量的计算公式如下:
w_a=w_ta+w_pa+w_da
其中,w_a为单词a所对应的融合词向量;w_ta为单词a所对应的词向量;w_pa为单词a所对应的位置向量,w_da为单词a所对应的预编码向量。
3.根据权利要求1所述的短文本实体相关性识别方法,其特征在于,分别将每一个训练文本的融合词向量输入到TD_LSTM网络中得到每一个训练文本所对应的向前向量编码和向后向量编码的步骤之后,还包括:
分别将每一个训练文本的融合词向量输入到TD_LSTM网络中每一个训练文本中实体词所对应的实体词编码向量、实体词左侧第一预设个数单词的编码向量、实体词右侧第二预设个数单词的编码向量;
对实体词编码向量、实体词左侧第一预设个数单词的编码向量和实体词右侧第二预设个数单词的编码向量进行加权平均,得到实体词所对应的新的编码向量;
将实体词所对应的新的编码向量与实体预编码矩阵中所述实体词所对应的预编码向量进行相似度比较,得到相似度计算值;
判断相似度计算值是否大于预设相似度阈值;
若相似度计算值大于预设相似度阈值,则对实体预编码矩阵不进行更新;
若相似度计算值小于或者等于预设相似度阈值,则将实体词所对应的新的编码向量和实体预编码矩阵中实体词对应的预编码向量进行加权平均,得到更新后的预编码向量,并将更新后的预编码向量更新至实体预编码矩阵。
4.根据权利要求3所述的短文本实体相关性识别方法,其特征在于,
相似度计算值的计算公式如下:
Threshold=cosine(w_new,w_d)
其中,Threshold为相似度计算值,w_new为实体词所对应的新的编码向量,w_d为实体词所对应的预编码向量;
实体词所对应的新的编码向量的计算公式如下:
Figure FDA0003034475560000031
其中,s为实体词左侧第一预设个数,v为实体词右侧第二预设个数;w_t为训练文本中实体词所对应的实体词编码向量,w_tl-1为训练文本中实体词左侧第一个单词的编码向量,w_tl-2为训练文本中实体词左侧第二个单词的编码向量,w_tl-s为训练文本中实体词左侧第s个单词的编码向量,w_tr+1为训练文本中实体词右侧第一个单词的编码向量,w_tr+2为训练文本中实体词右侧第二个单词的编码向量,w_tr+v为训练文本中实体词右侧第v个单词的编码向量。
5.根据权利要求3所述的短文本实体相关性识别方法,其特征在于,
更新后的预编码向量的计算公式如下:
Figure FDA0003034475560000041
其中,w_z为实体词更新后的预编码向量;w_new为实体词所对应的新的编码向量,w_d为实体词所对应的预编码向量。
6.根据权利要求1所述的短文本实体相关性识别方法,其特征在于,将所述待识别短文本输入至最优模型的步骤之前,还包括:
将待识别短文本输入至TextRCNN模型进行文本二分类,得到分类结果;
若所述待识别短文本的分类结果为噪音文本,则将所述待识别文本去除;
若所述待识别短文本的分类结果为非噪音文本,则将所述待识别文本保留。
7.根据权利要求1-6中任一所述的短文本实体相关性识别方法,其特征在于,
损失函数的计算公式如下:
Figure FDA0003034475560000042
其中,n是训练样本的个数,yi是第i个训练样本的实际分类向量,ai是第i个训练样本经过模型编码的分类向量。
8.一种短文本实体相关性识别***,其特征在于,包括:
第一获取模块,用于获取短文本训练集,所述短文本训练集包括多个训练文本和每一个训练文本所对应的命名实体;
第二获取模块,用于获取实体预编码矩阵,所述实体预编码矩阵包括所有实体对应的预编码向量,其中,实体预编码是根据实体预先编码的语境信息得到的;
第一处理模块,用于分别将每一个训练文本中的每一个单词转换为词向量,将每一个单词在训练文本中的位置转换为位置向量;
第二处理模块,用于根据每一个训练文本中的每一个单词和实体预编码矩阵得到每一个单词所对应的预编码向量,其中,每一个训练文本中命名实体所对应的单词的预编码向量为实体预编码向量,每一个训练文本中非命名实体所对应的单词的预编码向量为零向量;
第三处理模块,用于根据每一个训练文本中的每一个单词所对应的词向量、位置向量和预编码向量得到每一个训练文本中的每一个单词所对应的融合词向量;
第四处理模块,用于分别将每一个训练文本的融合词向量输入到TD_LSTM网络中得到每一个训练文本所对应的向前向量编码和向后向量编码;
第五处理模块,用于分别将每一个训练文本所对应的向前向量编码和向后向量编码进行拼接,得到每一个训练文本对应的实体拼接向量;
第六处理模块,用于将每一个训练文本对应的实体拼接向量经过前馈神经网络,得到每一个训练文本所对应的分类编码向量;
第七处理模块,用于将分类编码向量进行归一化,得到归一化的分类编码向量;
第八处理模块,用于根据归一化的分类编码向量得到模型编码的分类向量与实际实体分类向量之间的损失函数;
第九处理模块,用于根据损失函数进行迭代优化训练,得到最优模型,所述最优模型用于识别短文本与短文本中实体的相关强度;
第三获取模块,用于获取待识别短文本;
第十处理模块,用于将所述待识别短文本输入至最优模型,得到待识别文本的识别结果。
9.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-7任意一项所述的短文本实体相关性识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-7任意一项所述的短文本实体相关性识别方法。
CN202110439445.XA 2021-04-23 2021-04-23 短文本实体相关性识别方法、***、电子设备及存储介质 Pending CN114444496A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110439445.XA CN114444496A (zh) 2021-04-23 2021-04-23 短文本实体相关性识别方法、***、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110439445.XA CN114444496A (zh) 2021-04-23 2021-04-23 短文本实体相关性识别方法、***、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114444496A true CN114444496A (zh) 2022-05-06

Family

ID=81362322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110439445.XA Pending CN114444496A (zh) 2021-04-23 2021-04-23 短文本实体相关性识别方法、***、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114444496A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116384515A (zh) * 2023-06-06 2023-07-04 之江实验室 一种模型训练的方法、装置、存储介质及电子设备
CN117874611A (zh) * 2023-12-29 2024-04-12 汉王科技股份有限公司 文本分类方法、装置、电子设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116384515A (zh) * 2023-06-06 2023-07-04 之江实验室 一种模型训练的方法、装置、存储介质及电子设备
CN116384515B (zh) * 2023-06-06 2023-09-01 之江实验室 一种模型训练的方法、装置、存储介质及电子设备
CN117874611A (zh) * 2023-12-29 2024-04-12 汉王科技股份有限公司 文本分类方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN112560912B (zh) 分类模型的训练方法、装置、电子设备和存储介质
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
WO2021056710A1 (zh) 多轮问答识别方法、装置、计算机设备及存储介质
CN111125317A (zh) 对话型文本分类的模型训练、分类、***、设备和介质
KR102456535B1 (ko) 의료 사실 검증 방법, 장치, 전자 기기, 저장 매체 및 프로그램
CN111539209B (zh) 用于实体分类的方法和装置
CN114444496A (zh) 短文本实体相关性识别方法、***、电子设备及存储介质
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN113177412A (zh) 基于bert的命名实体识别方法、***、电子设备及存储介质
US20200364216A1 (en) Method, apparatus and storage medium for updating model parameter
CN111382248A (zh) 一种问题回复方法、装置、存储介质及终端设备
CN114841164A (zh) 一种实体链接方法、装置、设备及存储介质
CN113569559B (zh) 短文本实体情感分析方法、***、电子设备及存储介质
CN113626608B (zh) 增强语义的关系抽取方法、装置、计算机设备及存储介质
CN114202443A (zh) 政策分类方法、装置、设备及存储介质
CN112989829B (zh) 一种命名实体识别方法、装置、设备及存储介质
CN117407507A (zh) 基于大语言模型的事件处理方法、装置、设备及介质
CN116432705A (zh) 文本生成模型构建、文本生成方法和装置、设备及介质
US10296585B2 (en) Assisted free form decision definition using rules vocabulary
WO2023040153A1 (zh) 意图识别模型更新方法、装置、设备及可读介质
CN112541557B (zh) 生成式对抗网络的训练方法、装置及电子设备
CN114491030A (zh) 技能标签的抽取、候选短语分类模型的训练方法及装置
CN110309285B (zh) 自动问答方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination