CN109543009B - 文本相似度评估***及文本相似度评估方法 - Google Patents

文本相似度评估***及文本相似度评估方法 Download PDF

Info

Publication number
CN109543009B
CN109543009B CN201811210881.4A CN201811210881A CN109543009B CN 109543009 B CN109543009 B CN 109543009B CN 201811210881 A CN201811210881 A CN 201811210881A CN 109543009 B CN109543009 B CN 109543009B
Authority
CN
China
Prior art keywords
text
doc1
module
word
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811210881.4A
Other languages
English (en)
Other versions
CN109543009A (zh
Inventor
郑权
徐泓洋
张峰
聂颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Original Assignee
Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd filed Critical Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority to CN201811210881.4A priority Critical patent/CN109543009B/zh
Publication of CN109543009A publication Critical patent/CN109543009A/zh
Application granted granted Critical
Publication of CN109543009B publication Critical patent/CN109543009B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种文本相似度评估***及文本相似度的评估方法,所述评估***包括语料获取模块、分词模块、词向量训练模块、孪生biLSTM网络模块、注意力模块及相似概率计算模块。本发明提出了一种基于注意力机制的孪生网络结构,能够寻找决定两个文本相似程度的重要信息,相较于现有的技术,本发明提出的网络结构更加注重局部信息,排除全局信息的干扰,提升在不同场景中文本相似度计算的准确度。

Description

文本相似度评估***及文本相似度评估方法
技术领域
本发明涉及电子信息及数据处理技术领域,具体涉及一种文本相似度评估***及文本相似度评估方法。
背景技术
文本相似度计算是自然语言处理领域的一个重要的研究课题,根据计算方法的不同可分为基于字符的方法和基于语料库的方法。基于字符的方法主要从两个文本中相同的字符部分考虑相似度,它不考虑文本的语义信息,对无序的字符列表的判断是有效的,但是对文本的语言无效。基于语料库的方法则通过文本的上下文信息挖掘字符的语义信息来判断两个文本的相似度,这类研究主要的代表性工作有word embdding等直接计算向量相似度的方法和siamesenetwork等构建模型去判断的方法。基于语料库的方法是当前研究的主流方向。
基于语料库的方法近些年来发展很快,但是仍然面临着信息挖掘不充分的问题。在很多应用场景中会出现决定两个文本相似程度的关键信息只占文本成分的很小部分,现有的工作更多的是在挖掘全局的语义信息,通过全局的语义信息去判断文本的相似程度,显然并不精确。
发明内容
本发明的第一目的是提供一种文本相似度评估***,旨在在孪生biLSTM网络模块的基础上加入注意力机制,寻找决定两个文本相似程度的重要信息,提升在不同场景中文本相似度计算的准确度。本发明的第一目的由以下技术方案实现:
一种文本相似度评估***,其特征在于,包括:
语料获取模块,用于输入包含doc1_a和doc1_b两个文本的语料;
分词模块,用于将所述文本doc1_a和所述文本doc1_b分别分割成X个词的词序列;
词向量训练模块,用于对所述文本doc1_a和所述文本doc1_b分割的词序列进行向量化;
孪生biLSTM网络模块,包括biLSTMa网络模块和biLSTMb网络模块,分别用于输入所述文本doc1_a和所述文本doc1_b的每一个词的词向量,对每一个词的词向量进行词级编码,输出所述文本doc1_a和所述文本doc1_b的每个词的编码信息Hai和Hbi,i取值1至X;
注意力模块,分别为所述编码信息Hai和Hbi提供正则化的权重ai和正则化的权重bi,其中∑ai=1,∑bi=1,并通过公式sa=∑ai*Hai计算得到所述文本doc1_a的注意力向量sa,通过公式sb=∑bi*Hbi计算得到所述文本doc1_b的注意力向量sb;
相似概率计算模块,通过所述注意力向量sa和所述注意力向量sb计算所述文本doc1_a和所述文本doc1_b的相似概率p。
作为具体的技术方案,所述语料的形式为:doc1_a,doc1_b,sim;其中sim为标签,sim=1表示所述文本doc1_a和文本doc1_b相似,sim=0表示所述文本doc1_a和所述文本doc1_b不相似。
作为具体的技术方案,所述注意力模块包括:Tanh函数感知单元,通过公式uai=Tanh(W*Hai+b)对所述编码信息Hai进行计算并输出一个权值uai,通过公式ubi=Tanh(W*Hbi+b)对所述编码信息Hbi进行计算并输出一个权值ubi;softmax函数处理单元,通过公式ai=softmax(uai*uw)计算得到所述文本doc1_a当前词的所述正则化的权重ai,通过公式bi=softmax(ubi*uw)计算得到所述文本doc1_b当前词的所述正则化的权重bi;及加权求和单元,用于完成所述公式sa=∑ai*Hai的计算及所述公式sb=∑bi*Hbi的计算;其中W、uw、b为设定参数或经训练获得的参数。
作为具体的技术方案,所述参数W、uw、b为经训练获得的参数;所述文本相似度评估***还包括参数训练模块,所述参数训练模块通过设置损失函数并不断进行优化,直到所述损失函数收敛,从而确定所述参数W、uw、b。
作为具体的技术方案,所述损失函数采用如下的logloss函数或采用均方误差函数,logloss函数如下:
其中,N是测试样本总数,M是类的总数,yl,j是二值变量,取值0或1,表示第l个样本是否属于第j类的标签,pl,j为模型预测第l个样本属于第j类的标签为1的概率。
作为具体的技术方案,所述相似概率p的计算方法为:
p=g(sa,sb)=exp(-||sa-sb||1),0=<p<=1
或者p=cosine(sa,sb)。
一种文本相似度评估***,其特征在于,包括:
语料获取模块,用于输入包含doc1_a和doc1_b两个文本的语料,所述文本doc1_a和所述文本doc1_b分别包含Y个句子;
分词模块,用于将所述文本doc1_a和所述文本doc1_b中各自第k个句子分别分割成X个词的词序列,k取值1至Y;
词向量训练模块,用于对所述文本doc1_a和所述文本doc1_b中各自第k个句子分割的词序列进行向量化;
第一孪生biLSTM网络模块,包括biLSTMa1网络模块和biLSTMb1网络模块,分别用于输入所述文本doc1_a和所述文本doc1_b中各自第k个句子的每一个词的词向量,对每一个词的词向量进行词级编码,输出所述文本doc1_a和所述文本doc1_b各自第k个句子的每个词的编码信息Hai和Hbi,i取值1至X;
第一注意力模块,分别为所述编码信息Hai和Hbi提供正则化的权重ai和正则化的权重bi,其中∑ai=1,∑bi=1,通过公式sak=∑ai*Hai计算得到所述文本doc1_a中第k个句子的注意力向量sak,通过公式sbk=∑bi*Hbi计算得到所述文本doc1_b的中第k个句子的注意力向量sbk;
第二孪生biLSTM网络模块,包括biLSTMa2网络模块和biLSTMb2网络模块,分别用于输入所述注意力向量sak和所述注意力向量sak,对所述注意力向量sak和所述注意力向量sbk进行句子级编码,输出对应的编码信息HAk和HBk;第二注意力模块,分别为所述编码信息HAk和HBk提供正则化的权重Ak和正则化的权重Bk,其中∑Ak=1,∑Bk=1,通过公式Va=∑Ak*HAk计算得到所述文本doc1_a的注意力向量Va,通过公式Vb=∑Bk*HBk计算得到所述文本doc1_b的注意力向量Vb;
相似概率计算模块,通过所述注意力向量Va和所述注意力向量Vb计算所述文本doc1_a和所述文本doc1_b的相似概率p。
本发明还提供一种存储器,其特征在于,所述存储器存储上述的文本相似度评估***的程序。
本发明的第二目的是提供一种文本相似度评估方法,基于上文所述的文本相似度评估***,对输入的两个待预测的文本进行相似度评估。本发明的第二目的由以下技术方案实现:
一种文本相似度评估方法,其特征在于:将两个待预测文本输入上文所述的文本相似度评估***,输出所述两个待预测文本的相似概率p。
本发明还提供一种计算机,包括存储器以及处理器,其特征在于,所述存储器存储支持处理器执行上述文本相似度评估方法的程序,所述处理器被配置为用于执行所述存储器中存储的所述程序。
本发明的有益效果在于:提出了一种基于注意力机制的孪生网络结构,能够寻找决定两个文本相似程度的重要信息,相较于现有的技术,本发明提出的网络结构更加注重局部信息,排除全局信息的干扰,提升在不同场景中文本相似度计算的准确度。本发明在计算句子相似度方面有着更好的效果。
附图说明
图1为本发明提供的文本相似度评估***的原理图。
图2为本发明提供的文本相似度评估***的数据处理过程的网络结构图。
图3为在图2基础上增加句子级的孪生biLSTM网络模块及句子级的注意力模块后的文本相似度评估***的数据处理过程的网络结构图。
具体实施方式
实施例一
结合图1所示,本实施例提供的文本相似度评估***包括:语料获取模块、分词模块、词向量训练模块、孪生biLSTM网络(Bi-directional Long Short TermMemory,双向长短期记忆网络,简写为biLSTM)模块、注意力模块、相似概率计算模块及参数训练模块。下面详细说明:
语料获取模块用于输入包含doc1_a和doc1_b两个文本的语料。本实施例中,语料形式为:doc1_a,doc1_b,sim;其中doc1_a和doc1_b为两个相似或者不相似的文本,sim为标签,sim=1表示相似,sim=0表示不相似。
分词模块用于将文本doc1_a和文本doc1_b分别分割成词序列,结合图2所示,将文本doc1_a分割为Wa1、Wa2、Wa3、Wa4四个词的词序列,将文本doc1_b分割为Wb1、Wb2、Wb3、Wb4四个词的词序列。结巴分词工具是一种常见的分词工具,效果如下:
“中科院计算所的学生和老师们”——>[中科院,计算所,的,学生,和,老师,们]。
词向量训练模块,用于对文本doc1_a和文本doc1_b分割的词序列进行向量化。word2vec(即word to vector,也叫word embeddings,中文名“词向量”)是由谷歌开发并开源的一个词向量生成工具,是一种使用神经网络模型挖掘词语间潜在语义关联信息的方法,其核心思想是通过上下文出现的词来预测当前的词,通过共现词来挖掘词的潜在特征,产出的形式是将每个词表示成一个低维的稠密向量。结合图2所示,文本doc1_a分割形成的Wa1、Wa2、Wa3、Wa4四个词,其词向量分别表示为Va1、Va2、Va3、Va4;文本doc1_b分割形成的Wb1、Wb2、Wb3、Wb4四个词,其词向量分别表示为Vb1、Vb2、Vb3、Vb4。
实际中可根据具体的条件设置词向量的维度,一般设置为300维,即300*1的向量。例如:
“中科院”—>[0.03,0.3,0.423,0.43,0.7623,1.32,2.34,0.1323,……]300*1向量中各个维度的值由语料训练得到。
我们知道,LSTM网络(Long Short Term Memory,长短期记忆网络,简写为LSTM)是一种循环神经网络(Recurrent Neural Network,简写为RNN)的改进模型,其通过遗忘门决定哪些信息需要被滤掉,输入门决定当前输入信息和当前的状态,输出门决定输出。通过门的方法学习文本的上下文信息。biLSTM是一种双向的结构,他认为文本正序和倒序都能捕捉到有用的信息,通常在训练中将双向的信息进行拼接,一起进入下一层的运算。
结合图1所示,孪生biLSTM网络模块包括biLSTMa网络模块和biLSTMb网络模块,分别用于输入文本doc1_a和文本doc1_b的每一个词的词向量(上文所述的Va1、Va2、Va3、Va4;Vb1、Vb2、Vb3、Vb4),对每一个词的词向量进行词级编码(Encoding),输出文本doc1_a和文本doc1_b的每个词的编码信息Hai和Hbi,i是文本doc1_a和文本doc1_b分词的个数,本实施例中i取1至4,如图2中的Ha1至Ha4及Hb1至Hb4。其中Hai和Hbi由biLSTM网络模块隐藏层状态向量拼接得到,例如,Hai=[ha+i,ha-i],ha+i、ha-i分别为biLSTMa两个不同隐藏层生成的隐层状态向量。
注意力模块包括Tanh函数感知单元、softmax函数处理单元和加权求和单元,结合图1所示,具体说明如下:
Tanh函数感知单元,通过公式uai=Tanh(W*Hai+b)对编码信息Hai进行计算并输出一个权值uai,通过公式ubi=Tanh(W*Hbi+b)对编码信息Hbi进行计算并输出一个权值ubi;
softmax函数处理单元,通过公式ai=softmax(uai*uw)计算得到文本doc1_a当前词的正则化的权重ai,通过公式bi=softmax(ubi*uw)计算得到文本doc1_b当前词的正则化的权重bi,其中∑ai=1,∑bi=1;
加权求和单元,用于通过公式sa=∑ai*Hai计算得到文本doc1_a的注意力向量sa,通过公式sb=∑bi*Hbi计算得到文本doc1_b的注意力向量sb。
相似概率计算模块通过注意力向量sa和注意力向量sb计算文本doc1_a和文本doc1_b的相似概率p。具体地,相似概率p可以通过曼哈顿距离计算方法或求余弦值的方法来计算,相应的计算公式分别如下:
p=g(sa,sb)=exp(-||sa-sb||1),0=<p<=1
或者p=cosine(sa,sb)。
上述公式中的参数W、uw、b为设定或经训练获得的参数;本实施例中的参数训练模块通过设置损失函数并不断进行优化,直到损失函数收敛,从而确定所述参数W、uw、b。本实施例中,损失函数logloss具体如下:
该公式中,N是测试样本总数,M是类的总数,yl,j是二值变量,取值0或1,表示第l个样本是否属于第j类的标签,pl,j为模型预测第l个样本属于第j类的标签为1的概率。
优化的方法是梯度下降优化方法,输入数据,开始训练,直到收敛。损失函数也可以根据实际情况选择均方误差(mse)等函数。通过损失函数对模型进行训练并确定合适参数的方法属于神经网络训练过程的现有技术,本文不再赘述。
实施例二
本发明可以处理的文本并没有限制文本的具体长度,如果是句子,实施例一提供的基于词级(word level)的孪生biLSTM网络及注意力模块的***结构就可以得到表示句子的注意力向量,如果是段落或者文章这样的长文本的话,则还需在得到多个句子向量(即多个实施例一中得到的sa和sb)后再加一层句子级(sentence level)的孪生biLSTM网络模块和句子级的注意力模块,最终得到可以表示长文本的注意力向量,其他环节不变。
本实施例二提供一种文本相似度评估***,可以处理分别包括多个句子的两个长文本,该评估***包括语料获取模块、分词模块、词向量训练模块、第一孪生biLSTM网络模块、第一注意力模块、第二孪生biLSTM网络模块、第二注意力模块及相似概率计算模块,具体说明如下:
语料获取模块,用于输入包含doc1_a和doc1_b两个文本的语料,文本doc1_a和所述文本doc1_b分别包含Y个句子(例如各自包含4个句子);
分词模块,用于将文本doc1_a和文本doc1_b中各自第k个句子(图3中只给出文本doc1_a和文本doc1_b中某一个句子作为示例)分别分割成X个词(例如4个词,参见图3中的Wa1、Wa2、Wa3、Wa4和Wb1、Wb2、Wb3、Wb4)的词序列,k取1至Y;
词向量训练模块,用于对所述文本doc1_a和所述文本doc1_b中各自第k个句子分割的词序列进行向量化;例如,文本doc1_a分割形成的Wa1、Wa2、Wa3、Wa4四个词,其词向量分别表示为Va1、Va2、Va3、Va4;文本doc1_b分割形成的Wb1、Wb2、Wb3、Wb4四个词,其词向量分别表示为Vb1、Vb2、Vb3、Vb4。
第一孪生biLSTM网络模块,包括biLSTMa1网络模块和biLSTMb1网络模块,分别用于输入所述文本doc1_a和所述文本doc1_b中各自第k个句子的每一个词的词向量,对每一个词的词向量进行词级编码,输出文本doc1_a和文本doc1_b各自第k个句子的每个词的编码信息Hai和Hbi,i取1至X;参见图3中的Ha1至Ha4及Hb1至Hb4。
第一注意力模块,分别为所述编码信息Hai和Hbi提供正则化的权重ai和正则化的权重bi,其中∑ai=1,∑bi=1,通过公式sak=∑ai*Hai计算得到所述文本doc1_a中第k个句子的注意力向量sak(例如图3中的sa3),通过公式sbk=∑bi*Hbi计算得到所述文本doc1_b的中第k个句子的注意力向量sbk(例如图3中的sb3)。
第二孪生biLSTM网络模块,包括biLSTMa2网络模块和biLSTMb2网络模块,分别用于输入所述注意力向量sak和所述注意力向量sak,对所述注意力向量sak和所述注意力向量sbk进行句子级编码,输出对应的编码信息HAk和HBk;参见图3中的HA1至HA4及HB1至HB4。
第二注意力模块,分别为所述编码信息HAk和HBk提供正则化的权重Ak和正则化的权重Bk(参见图3中的A1-A4及B1-B4),其中∑Ak=1,∑Bk=1,通过公式Va=∑Ak*HAk计算得到所述文本doc1_a的注意力向量Va,通过公式Vb=∑Bk*HBk计算得到所述文本doc1_b的注意力向量Vb。
相似概率计算模块通过所述注意力向量Va和所述注意力向量Vb计算所述文本doc1_a和所述文本doc1_b的相似概率p。
实施例二中的第一孪生biLSTM网络模块、第二孪生biLSTM网络模块的功能与实施例一中所述的孪生biLSTM网络模块的功能相同,本实施例中通过“第一”、“第二”的限定仅用于区分词级的处理环节和句子级的处理环节。此外,实施例二中的第一注意力模块、第二注意力模块的功能亦与实施例一中所述的注意力模块的功能相同,本实施例中通过“第一”、“第二”的限定仅用于区分词级的处理环节和句子级的处理环节。再者,实施例二中的相似概率计算模块与实施例一中所述的相似概率计算模块的功能相同。还有,本实施例二提供文本相似度评估***也包括与实施例一中所述的参数训练模块功能相同的参数训练模块。
本实施例还提供一种存储器,该存储器存储上述的文本相似度评估***的程序。
本实施例还提供一种文本相似度评估方法,训练好的文本相似度评估***即可处理待预测的文本,将要判断的两个文本输入模型,输出两个文本的相似概率p,即为两个文本的相似度。
本实施例还提供一种计算机,包括存储器以及处理器,所述存储器存储支持处理器执行上述文本相似度评估方法的程序,所述处理器被配置为用于执行所述存储器中存储的所述程序。
以上实施例仅为充分公开而非限制本发明,凡基于本发明的创作主旨、无需经过创造性劳动即可等到的等效技术特征的替换,应当视为本申请揭露的范围。

Claims (4)

1.一种文本相似度评估***,其特征在于,包括:
语料获取模块,用于输入包含doc1_a和doc1_b两个文本的语料,所述文本doc1_a和所述文本doc1_b分别包含Y个句子;
分词模块,用于将所述文本doc1_a和所述文本doc1_b中各自第k个句子分别分割成X个词的词序列,k取值1至Y;
词向量训练模块,用于对所述文本doc1_a和所述文本doc1_b中各自第k个句子分割的词序列进行向量化;
第一孪生biLSTM网络模块,包括biLSTMa1网络模块和biLSTMb1网络模块,分别用于输入所述文本doc1_a和所述文本doc1_b中各自第k个句子的每一个词的词向量,对每一个词的词向量进行词级编码,输出所述文本doc1_a和所述文本doc1_b各自第k个句子的每个词的编码信息Hai和Hbi,i取值1至X;
第一注意力模块,分别为所述编码信息Hai和Hbi提供正则化的权重ai和正则化的权重bi,其中∑ai=1,∑bi=1,通过公式sak=∑ai*Hai计算得到所述文本doc1_a中第k个句子的注意力向量sak,通过公式sbk=∑bi*Hbi计算得到所述文本doc1_b的中第k个句子的注意力向量sbk;
第二孪生biLSTM网络模块,包括biLSTMa2网络模块和biLSTMb2网络模块,分别用于输入所述注意力向量sak和所述注意力向量sak,对所述注意力向量sak和所述注意力向量sbk进行句子级编码,输出对应的编码信息HAk和HBk;第二注意力模块,分别为所述编码信息HAk和HBk提供正则化的权重Ak和正则化的权重Bk,其中∑Ak=1,∑Bk=1,通过公式Va=∑Ak*HAk计算得到所述文本doc1_a的注意力向量Va,通过公式Vb=∑Bk*HBk计算得到所述文本doc1_b的注意力向量Vb;
相似概率计算模块,通过所述注意力向量Va和所述注意力向量Vb计算所述文本doc1_a和所述文本doc1_b的相似概率p。
2.一种存储器,其特征在于,所述存储器存储权利要求1所述的文本相似度评估***的程序。
3.一种文本相似度评估方法,其特征在于:将两个待预测文本输入权利要求1所述的文本相似度评估***,输出所述两个待预测文本的相似概率p。
4.一种计算机,包括存储器以及处理器,其特征在于,所述存储器存储支持处理器执行权利要求3所述文本相似度评估方法的程序,所述处理器被配置为用于执行所述存储器中存储的所述程序。
CN201811210881.4A 2018-10-17 2018-10-17 文本相似度评估***及文本相似度评估方法 Active CN109543009B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811210881.4A CN109543009B (zh) 2018-10-17 2018-10-17 文本相似度评估***及文本相似度评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811210881.4A CN109543009B (zh) 2018-10-17 2018-10-17 文本相似度评估***及文本相似度评估方法

Publications (2)

Publication Number Publication Date
CN109543009A CN109543009A (zh) 2019-03-29
CN109543009B true CN109543009B (zh) 2019-10-25

Family

ID=65843947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811210881.4A Active CN109543009B (zh) 2018-10-17 2018-10-17 文本相似度评估***及文本相似度评估方法

Country Status (1)

Country Link
CN (1) CN109543009B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046240B (zh) * 2019-04-16 2020-12-08 浙江爱闻格环保科技有限公司 结合关键词检索与孪生神经网络的目标领域问答推送方法
CN110211594B (zh) * 2019-06-06 2021-05-04 杭州电子科技大学 一种基于孪生网络模型和knn算法的说话人识别方法
CN110413988B (zh) * 2019-06-17 2023-01-31 平安科技(深圳)有限公司 文本信息匹配度量的方法、装置、服务器及存储介质
CN110362681B (zh) * 2019-06-19 2023-09-22 平安科技(深圳)有限公司 问答***重复问题识别方法、装置及存储介质
CN110717332B (zh) * 2019-07-26 2020-09-08 昆明理工大学 基于非对称孪生网络的新闻与案件相似度计算方法
CN110610003B (zh) * 2019-08-15 2023-09-15 创新先进技术有限公司 用于辅助文本标注的方法和***
CN110941951B (zh) * 2019-10-15 2022-02-15 平安科技(深圳)有限公司 文本相似度计算方法、装置、介质及电子设备
CN110738059B (zh) * 2019-10-21 2023-07-14 支付宝(杭州)信息技术有限公司 一种文本相似度计算方法及***
CN111198939B (zh) * 2019-12-27 2021-11-23 北京健康之家科技有限公司 语句相似度的分析方法、装置及计算机设备
CN111209395B (zh) * 2019-12-27 2022-11-11 铜陵中科汇联科技有限公司 一种短文本相似度计算***及其训练方法
CN111627566A (zh) * 2020-05-22 2020-09-04 泰康保险集团股份有限公司 适应症信息处理方法与装置、存储介质、电子设备
CN111783419B (zh) * 2020-06-12 2024-02-27 上海东普信息科技有限公司 地址相似度计算方法、装置、设备和存储介质
CN111737954B (zh) * 2020-06-12 2023-07-28 百度在线网络技术(北京)有限公司 文本相似度确定方法、装置、设备和介质
CN111785287B (zh) 2020-07-06 2022-06-07 北京世纪好未来教育科技有限公司 说话人识别方法、装置、电子设备及存储介质
CN111859988A (zh) * 2020-07-28 2020-10-30 阳光保险集团股份有限公司 一种语义相似度评价方法、装置和计算机可读存储介质
CN113743077B (zh) * 2020-08-14 2023-09-29 北京京东振世信息技术有限公司 一种确定文本相似度的方法和装置
CN112784587B (zh) * 2021-01-07 2023-05-16 国网福建省电力有限公司泉州供电公司 一种基于多模型融合的文本相似性度量方法及装置
CN112800196B (zh) * 2021-01-18 2024-03-01 南京明略科技有限公司 一种基于孪生网络的faq问答库匹配方法与***
CN113901823A (zh) * 2021-10-22 2022-01-07 平安科技(深圳)有限公司 命名实体识别方法、装置、存储介质及终端设备
CN114595687B (zh) * 2021-12-20 2024-04-19 昆明理工大学 基于BiLSTM的老挝语文本正则化方法
CN116776854B (zh) * 2023-08-25 2023-11-03 湖南汇智兴创科技有限公司 在线多版本文献内容关联方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291699A (zh) * 2017-07-04 2017-10-24 湖南星汉数智科技有限公司 一种句子语义相似度计算方法
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN108132931A (zh) * 2018-01-12 2018-06-08 北京神州泰岳软件股份有限公司 一种文本语义匹配的方法及装置
CN108415977A (zh) * 2018-02-09 2018-08-17 华南理工大学 一个基于深度神经网络及强化学习的生成式机器阅读理解方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168954B (zh) * 2017-05-18 2021-03-26 北京奇艺世纪科技有限公司 文本关键词生成方法及装置和电子设备及可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291699A (zh) * 2017-07-04 2017-10-24 湖南星汉数智科技有限公司 一种句子语义相似度计算方法
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN108132931A (zh) * 2018-01-12 2018-06-08 北京神州泰岳软件股份有限公司 一种文本语义匹配的方法及装置
CN108415977A (zh) * 2018-02-09 2018-08-17 华南理工大学 一个基于深度神经网络及强化学习的生成式机器阅读理解方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"A Semantic Similarity Computing Model based on Siamese Network for Duplicate Questions Identification;Zongkui Zhu等;《Proceedings of the Evaluation Tasks at the China Conference on Knowledge Graph and Semantic Computing》;20180817;引言及第1-3节 *

Also Published As

Publication number Publication date
CN109543009A (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
CN109543009B (zh) 文本相似度评估***及文本相似度评估方法
CN110309514A (zh) 一种语义识别方法及装置
CN109284506A (zh) 一种基于注意力卷积神经网络的用户评论情感分析***及方法
CN108628823A (zh) 结合注意力机制和多任务协同训练的命名实体识别方法
CN111859978A (zh) 一种基于深度学习的情感文本生成方法
CN112883714B (zh) 基于依赖图卷积和迁移学习的absc任务句法约束方法
CN110162789A (zh) 一种基于汉语拼音的词表征方法及装置
CN113268974A (zh) 多音字发音标注方法、装置、设备及存储介质
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN113723083A (zh) 基于bert模型的带权消极监督文本情感分析方法
CN113705238A (zh) 基于bert和方面特征定位模型的方面级情感分析方法及模型
CN116579347A (zh) 一种基于动态语义特征融合的评论文本情感分析方法、***、设备及介质
Zheng et al. Named entity recognition in electric power metering domain based on attention mechanism
Perera et al. Personality Classification of text through Machine learning and Deep learning: A Review (2023)
CN111309849B (zh) 一种基于联合学习模型的细粒度数值信息抽取方法
CN117312562A (zh) 内容审核模型的训练方法、装置、设备及存储介质
Chavali et al. A study on named entity recognition with different word embeddings on gmb dataset using deep learning pipelines
Gupta A review of generative AI from historical perspectives
CN115936003A (zh) 基于神经网络的软件功能点查重方法、装置、设备及介质
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN112434133B (zh) 一种意图分类方法、装置、智能终端及存储介质
CN114330350A (zh) 一种命名实体识别方法、装置、电子设备及存储介质
CN114757183A (zh) 一种基于对比对齐网络的跨领域情感分类方法
Li et al. Research on accurate location algorithm of optimized multi-source data fusion based on improved GRU network
Eswaraiah et al. A Hybrid Deep Learning GRU based Approach for Text Classification using Word Embedding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 519031 office 1316, No. 1, lianao Road, Hengqin new area, Zhuhai, Guangdong

Patentee after: LONGMA ZHIXIN (ZHUHAI HENGQIN) TECHNOLOGY Co.,Ltd.

Address before: 519031 room 417, building 20, creative Valley, Hengqin New District, Zhuhai City, Guangdong Province

Patentee before: LONGMA ZHIXIN (ZHUHAI HENGQIN) TECHNOLOGY Co.,Ltd.