CN106484664B - 一种短文本间相似度计算方法 - Google Patents

一种短文本间相似度计算方法 Download PDF

Info

Publication number
CN106484664B
CN106484664B CN201610920608.5A CN201610920608A CN106484664B CN 106484664 B CN106484664 B CN 106484664B CN 201610920608 A CN201610920608 A CN 201610920608A CN 106484664 B CN106484664 B CN 106484664B
Authority
CN
China
Prior art keywords
text
similarity
sentence
user
candidate question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610920608.5A
Other languages
English (en)
Other versions
CN106484664A (zh
Inventor
简仁贤
陈秀龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intelligent Technology (shanghai) Co Ltd
Original Assignee
Intelligent Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intelligent Technology (shanghai) Co Ltd filed Critical Intelligent Technology (shanghai) Co Ltd
Priority to CN201610920608.5A priority Critical patent/CN106484664B/zh
Publication of CN106484664A publication Critical patent/CN106484664A/zh
Application granted granted Critical
Publication of CN106484664B publication Critical patent/CN106484664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种短文本间相似度计算方法,获取语料数据,对语料数据进行预处理,得到训练语料;根据训练语料,得到关键词提取模型,利用分词工具对训练语料分词,并用word2vec训练获得词向量集;获得用户输入文本和候选问答对的问题,分别得到分词结果和关键词提取结果;根据分词结果和关键词提取结果,通过词向量集计算出候选问答对的问题和用户输入文本的词向量,通过词向量获得句向量,计算两个句向量间的相似度;通过用户输入的文本和候选问答对的问题中包含的信息进行相似度的修正,得到修正后的相似度。本发明通过对用户输入和候选问答对的问题句向量间的余弦相似度计算,并通过句子的句型、命名实体和代词修正相似度。

Description

一种短文本间相似度计算方法
技术领域
本发明涉及互联网技术领域,尤其涉及智能人机对话领域。
背景技术
随着人类社会信息化的不断演进以及人工服务成本的不断上升,人们越来越希望通过自然语言与计算机进行交流,人机智能聊天***成为这样的历史背景下诞生的产物。
在现有的人机对话***主要有两种实现方法,一种是检索模型,另一种是生成模型。检索模型把一轮人机对话当成是一次信息检索的过程,通过事先准备好一定数据量问答对,并将问答对(它由一个问题和若干个答案组成)中的问题建立好索引。当用户输入一句或若干句话时,就把它当成一次检索,在所有候选问答对中找到与它语义最相近的问题,然后将该问题的答案返回给该用户,完成一轮人机对话。因此要想获得较合适的答案关键就在于如何找到与用户的输入语义最相似的问题。由于在人机对话***中用户输入和候选问答对中的问题通常是由一句或若干短句组成的短文本,所以就将问题落在了短文本间相似度计算上。
现有技术中,计算短文本间相似度的方法就是将用户输入和候选问答对的问题各自转换相同维数的句子向量,向量的每个维度值是该用户输入或者候选问答对的问题中各自的词语(或称为分词)的TF*IDF值,然后通过如计算余弦相似度来衡量两者之间的相似性来对所有候选问答对排序,该方法是搜索引擎中常见的方法。但使用向量的TF*IDF计算余弦相似度来找最相似的问题的方法只考虑了句子之间的文本相似度,即字面上有多少重复的分词来判断句子间相似度,这显然是不够的,比如“我很困”与“我想睡觉”语义是一样的但字面上几乎没有太多重复的词,该方法就无法应对这种情况。另外,由于人机对话***通常使用的是短句,因此TF基本上为1,无太大作用,这也会影响该方法的效果。
因此现有技术中的缺陷是,通过分词的TF*IDF值计算用户输入与候选问答对的问题的词向量的余弦相似度,只考虑了句子之间的文本相似度,即只可以通过字面上有多少重复的分词来判断句子的相似度,这样会使相似度的判断十分不准确,直接导致人机对话***中回复用户的信息是不准确的。
发明内容
本发明要解决的技术问题是提供一种短文本间相似度计算方法,采用了对用户输入或者候选问答对的问题进行分词和关键词提取,获得对应的词向量,根据词向量,计算获得对应的句向量,然后计算得到两个句向量间的相似度,最后通过句子的句型、命名实体和代词对相似度进行修正,使相似度变得更准确,进而提高了人机对话***中回复用户的准确性。
为解决上述技术问题,本发明提供的技术方案是:
本发明提供一种短文本间相似度计算方法,包括:
步骤S1,获取语料数据,对所述语料数据进行预处理,得到训练语料;
步骤S2,根据所述训练语料,得到关键词提取模型,利用分词工具对所述训练语料分词,并用word2vec训练获得词向量集;
步骤S3,获得用户输入文本和候选问答对的问题,对所述候选问答对的问题和所述用户输入文本通过所述分词工具分别进行分词,对所述候选问答对的问题和所述用户输入文本分别通过所述关键词提取模型进行关键词提取,得到所述候选问答对的问题的分词结果和关键词提取结果,及所述用户输入文本的分词结果和关键词提取结果;
步骤S4,根据所述候选问答对的问题的分词结果和关键词提取结果,通过所述词向量集获得所述候选问答对的问题的词向量,根据所述用户输入文本的分词结果和关键词提取结果,通过所述词向量集获得所述用户输入文本的词向量;
步骤S5,根据所述候选问答对的问题的词向量,计算获得所述候选问答对的问题的句向量,根据所述用户输入文本的词向量,计算获得所述用户输入文本的句向量;
步骤S6,根据所述候选问答对的问题的句向量和所述用户输入文本的句向量,计算两个句向量间的相似度;
步骤S7,根据所述句向量间的相似度,通过所述用户输入的文本和所述候选问答对的问题中包含的信息进行相似度的修正,得到修正后的相似度。
本发明是一种短文本间相似度计算方法的技术方案为先获取语料数据,对所述语料数据进行预处理,得到训练语料,根据所述训练语料,得到关键词提取模型,利用分词工具对所述训练语料分词,并用word2vec训练获得词向量集;获得用户输入文本和候选问答对的问题,对所述候选问答对的问题和所述用户输入文本通过所述分词工具分别进行分词,对所述候选问答对的问题和所述用户输入文本分别通过所述关键词提取模型进行关键词提取,得到所述候选问答对的问题的分词结果和关键词提取结果,及所述用户输入文本的分词结果和关键词提取结果;接着根据所述候选问答对的问题的分词结果和关键词提取结果,通过所述词向量集获得所述候选问答对的问题的词向量,根据所述用户输入文本的分词结果和关键词提取结果,通过所述词向量集获得所述用户输入文本的词向量;根据所述候选问答对的问题的词向量,计算获得所述候选问答对的问题的句向量,根据所述用户输入文本的词向量,计算获得所述用户输入文本的句向量;根据两个句向量,计算两个句向量间的相似度;最后根据所述句向量间的相似度,通过所述用户输入的文本和所述候选问答对的问题中包含的信息进行相似度的修正,得到修正后的相似度。
本发明是一种短文本间相似度计算方法采用了对用户输入文本和候选问答对的问题进行分词和提取关键词的处理,然后根据分词和关键词计算用户输入文本和候选问答对的问题的词向量,然后分别计算这两个词向量,得到用户输入文本和候选问答对的问题的句向量,最后通过计算得到两个句向量间的余弦相似度,进一步通过用户输入的文本和候选问答对的问题中包含的信息对相似度进行修正,得到更加准确的相似度,使人机对话***中,回复用户的回答更准确。
进一步地,所述用户输入的文本和所述候选问答对的问题中包含的信息为文本句型、命名实体和人称代词,所述命名实体包括地名和机构名称。
根据用户输入的文本和候选问答对的问题的句向量,计算两个句向量间的相似度,这种方法获得的相似度在多数情况下是准确的,但在需要考虑句型、命名实体及人称代词等情况下只根据两个句向量间的相似度作为判断文本的语义是否相似的依据仍不够准确,因此要对相似度进行修正,本发明还分析用户输入的文本和候选问答对的问题的信息,就是对文本中的句型,命名实体和人称代词进行分析,进一步修正相似度,进而提高人就对话***回复用户问题的准确性。
进一步地,所述步骤S2中,获得所述关键词提取模型包括:
步骤S21,获得关键词训练语料,根据所述关键词训练语料,进行分词,得到分词结果;
步骤S22,根据所述分词结果,通过人工标注的方式标注所述分词结果中的关键词,得到人工标注后的关键词训练语料;
步骤S23,根据所述人工标注后的关键词训练语料,通过最大熵训练得到关键词提取模型。
通过关键词提取模型可以提取分词中的关键词,即分词包含关键词,因为关键词更能代表文本的语义,所以提取分词中的关键词,结合关键词会比只使用分词计算的相似度更加精确。为了训练关键词提取模型,先获得关键词训练语料,这些关键词语料可以和词向量的训练语料不同,然后通过人工标注的方法在分词中标注出关键词,通过最大熵的方法建立训练模型,任何新的未标注的文本输入到这个模型中,该模型会自动输出哪些是关键词哪些不是关键词,以此获得关键词集,以帮助提高句向量间的相似度。
进一步地,所述关键词提取模型为一个2分类的分类器。上述提取关键词的模型是一个2分类的分类器,通过这个分类器可以预测句子中哪些词为关键词,提高提取关键词的准确性。
进一步地,所述词向量集通过word2vec模型训练得到。word2vec训练工具是一种神经网络模型,这种模型训练方法获得的词向量的语义是通过和它经常一起出现就越相似,就是说这种模型训练方法获得的词向量的语义信息是根据词的共现来捕获。通过word2vec模型训练得到词向量,再结合关键词的信息可以计算得到更准确的句向量,使相似度更精确。
进一步地,所述候选问答对的问题的词向量和所述用户输入文本的词向量维数相同。词向量的维数要相同,这样才方便下面计算分词向量的平均值,关键词词向量的平均值,然后再经计算得到相应的候选问答对问题的句向量和用户输入文本的句向量,最后计算出这两个句向量间的相似度,因此,得到的词向量的维数要相同,得到词向量的维数要相同。
进一步地,所述命名实体和人称代词通过字典方法获得。对相似度进行修正可以通过命名实体和人称代词,命名实体中本发明主要考虑地名或机构名。命名实体的修正是为了解决如地名的不同直接导致两句话语义不相似,如“北京有什么好吃的”与“天津有什么好吃的”,这两句话除了地名不同,语义是相似的,因此需要通过命名实体对相似度的修正,可以根据句子中出现的地名或机构名是否一致直接判断出两句话的相似度,提高了对句子间相似度的判断。因此本发明使用字典方法,字典文件包含中国主要地级市,且每个地名间相互独立无包含关系。
进一步地,所述语料数据通过网络爬虫技术获得。通过爬虫技术获得大量语料,爬虫技术是一种自动获取网页内容的程序,通过爬虫获得一些贴吧、问答社区、论坛、微博、百科、新闻等特别是内容较长语义信息丰富同时又比较口语化的帖子及回复等作为训练语料,使得语料信息全面丰富,语料的选择会影响到训练模型的好坏,最终影响相似度。
进一步地,所述句向量间的相似度通过余弦相似度的方法计算。根据两个句向量间的余弦计算方法计算两个句向量间的余弦值,余弦值越接近1,就表明夹角越接近0度,也就是两个句向量越相似。余弦计算方法快速简单,可提高***性能。
进一步地,所述分词工具为汉语言处理工具包hanlp。通过分词工具对训练语料进行分词,本发明选用的分词工具是hanlp(Han Language Processing),hanlp是开源自由的汉语言处理包,是由一系列模型与算法组成的Java工具包,可以实现中文分词,关键词提取,索引分词等一系列功能,还具有提供词法分析、句法分析、语义理解等完备的功能。hanlp具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。因此本发明选用hanlp作为分词工具。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。
图1示出了本发明第一实施例所提供的一种短文本间相似度计算方法的流程图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
实施例一
图1示出了本发明第一实施例所提供的一种短文本间相似度计算方法的流程图。如图1所示,根据本发明第一实施例的短文本间相似度计算方法包括:
步骤S1,获取语料数据,对语料数据进行预处理,得到训练语料;
步骤S2,根据训练语料,得到关键词提取模型,利用分词工具对训练语料分词,并用word2vec训练获得词向量集;
步骤S3,获得用户输入文本和候选问答对的问题,对候选问答对的问题和用户输入文本通过分词工具分别进行分词,对候选问答对的问题和用户输入文本分别通过关键词提取模型进行关键词提取,得到候选问答对的问题的分词结果和关键词提取结果,及用户输入文本的分词结果和关键词提取结果;
步骤S4,根据候选问答对的问题的分词结果和关键词提取结果,通过词向量集计算出候选问答对的问题的词向量,根据用户输入文本的分词结果和关键词提取结果,通过词向量集计算出用户输入文本的词向量;
步骤S5,根据候选问答对的问题的词向量,计算获得候选问答对的问题的句向量,根据用户输入文本的词向量,计算获得用户输入文本的句向量;
步骤S6,根据候选问答对的问题的句向量和用户输入文本的句向量,计算两个句向量间的相似度;
步骤S7,根据句向量间的相似度,通过用户输入的文本和候选问答对的问题中包含的信息进行相似度的修正,得到修正后的相似度。
本发明是一种短文本间相似度计算方法的技术方案,先获取语料数据,对语料数据进行预处理,得到训练语料,根据训练语料,得到关键词提取模型,利用分词工具对训练语料分词,并用word2vec训练获得词向量集;获得用户输入文本和候选问答对的问题,对候选问答对的问题和用户输入文本通过分词工具分别进行分词,对候选问答对的问题和用户输入文本分别通过关键词提取模型进行关键词提取,得到候选问答对的问题的分词结果和关键词提取结果,及用户输入文本的分词结果和关键词提取结果;接着根据候选问答对的问题的词向量,计算获得候选问答对的问题的句向量,根据用户输入文本的词向量,计算获得用户输入文本的句向量;根据候选问答对的问题的句向量和用户输入文本的句向量,计算两个句向量间的相似度;根据句向量间的相似度,通过用户输入的文本和候选问答对的问题中包含的信息进行相似度的修正,得到修正后的相似度。
本发明是一种短文本间相似度计算方法,采用了对用户输入文本和候选问答对的问题进行分词和提取关键词的处理,然后根据分词和关键词及词向量集获得用户输入文本和候选问答对的问题的词向量,然后分别计算这两者的词向量,得到用户输入文本和候选问答对的问题的句向量,最后通过计算得到两个句向量间的余弦相似度,进一步通过用户输入的文本和候选问答对的问题中包含的信息对相似度进行修正,得到更加准确的相似度,使人机对话***中,回复用户的回答更准确。
具体地,语料数据通过网络爬虫技术获得。通过爬虫技术获得大量语料,爬虫技术是一种自动获取网页内容的程序,通过爬虫获得一些贴吧、问答社区、论坛、微博、百科、新闻等特别是内容较长语义信息丰富同时又比较口语化的帖子及回复等作为训练语料,使得语料信息全面丰富,语料的选择会影响到训练模型的好坏,也就直接影响分词和关键词提取及词向量集,最终影响相似度。
还要对爬到的语料数据进行预处理,得到训练语料,主要是对非中文内容、黄色信息和广告等做了一定的过滤。之后将同一内容的多段文字拼接成一行,繁体字转成简体字,再做分词,将标点符号去掉并用空格代替。
语料数据预处理后,具体地,通过word2vec模型训练得到每个词的词向量。word2vec训练工具是一种神经网络模型,这种模型训练方法获得的词向量的语义信息是根据词的贡献来捕获的。通过word2vec模型训练得到词向量集,再结合关键词的信息可以计算得到更准确的句向量,使相似度更精确。
通过训练语料获得关键词提取模型。要先对训练语料进行分词,然后再由人工去标注句子中的关键词(未被标注的即为非关键词),然后用最大熵训练一个2分类的分类器。用户输入文本与候选问答对的问题在分词后输入关键词抽取模型,模型会对每个分词做一个2分类,预测是否为关键词,以此便可获得各自的关键词集。为了进一步提升***性能,所有问答对中的问题的分词和关键词提取可以提前做好。通过分词工具和关键词提取模型得到用户输入文本和问答对中的问题对应的分词和关键词。进而通过word2vec的词向量集得到用户输入文本和问答对中的问题中每个词对应的词向量。
计算用户输入文本和问答对中的问题对应的句向量,计算方法都是0.8*(所有分词的词向量的平均值)+0.2*(关键词词向量的平均值)。向量的平均值就是把各个向量的对应维度值相加然后除以向量个数。另外分词包含了关键词,所以这种计算方法是对关键词进行加权,因为关键词更能代表文本的语义。0.8与0.2的权重是通过多次试验得出的结论。由于词向量都是300维,所以用户输入与候选问答对中的问题的句向量也都为300维。
具体地,分词工具为汉语言处理工具包hanlp。通过分词工具对训练语料进行分词,本发明选用的分词工具是hanlp(Han Language Processing),hanlp是开源自由的汉语言处理包,是由一系列模型与算法组成的Java工具包,可以实现中文分词,关键词提取,索引分词等一系列功能,还具有提供词法分析、句法分析、语义理解等完备的功能。hanlp具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。因此本发明选用hanlp作为分词工具。
得到用户输入文本和问答对中的问题对应的句向量后,要计算句向量间的相似度,通过余弦相似度的方法计算,它的值域是[0,1]。根据两个向量间的余弦计算方法计算两个向量间的余弦值,余弦值越接近1,就表明夹角越接近0度,也就是两个句向量越相似。余弦计算方法快速简单,可提高***性能。
本发明最主要的是通过用户输入文本和候选问答对的问题中包含的信息对相似度进行修正,此信息主要包括文本句型、命名实体和人称代词,命名实体本发明主要考虑地名和机构名称等。这些信息在所述中的句向量相似度中并未考虑,因此需要利用此信息进行修正。
根据日常对话经验及实验结果来看,结合以下三种情况对相似度进行修正:
第一种情况,根据文本句型对相似度进行修正。
当用户输入的文本信息是“是非问句”时,例如:“你昨天去过天坛吗?”,或者“正反问句”,例如:“你有没有去过天坛?”,通常和“陈述句”类型的问答对的问题语义上相差大,即如果用户输入的短文本是“是非问句”或“正反问句”的句型,而候选问答对中的问题为“陈述句”时,所得相似度需进一步减小,同理若用户输入为“陈述句”而候选问答对的问题为“是非问句”或“正反问句”时,所得相似度需减小(具体减小比例需根据***使用的问答对这个语料及通过实验来决定,本发明根据现有语料和实验,建议相似度减小30%左右)。
类似还有“肯定句”与“否定句”。***实现上使用语言学规则用句型模板来判断句型。
第二种情况,根据命名实体对相似度进行修正。
如果用户输入文本和候选问答对中的问题各自包含一个同类型的命名实体(如都有一个地名,或都有一个机构名),但两者包含地名不同且地名间无包含关系(如北京与海淀区就属于包含关系)时,所得相似度需减小(具体减小比例需要根据***使用语料及通过实验来决定,本发明根据现有语料和实验,建议相似度减小50%左右)。实现上,为了控制解决的问题的边界和***运行效率,本发明使用字典方法,字典文件包含中国主要地级市,每个地名间相互独立无包含关系。这样就避免了因为在训练语料中地名相关导致计算出的语义相似度过高(如“北京有什么好吃的?”与“上海有什么好吃的?”,“北京”与“上海”经常在训练语料中一起出现,它们的词向量很相关,但这两个句子语义相差大)。机构名也类似处理。
第三种情况,根据人称代词对相似度进行修正。
如果用户输入文本和候选问答对中的问题各自包含一个代词,如用户输入文本为“我今天去天坛玩了”与候选问答对中的问题为“他今天去天坛玩了”,此时,两句话中的人称代词存在差异,所得相似度需进一步减小(具体减小比例需要根据***使用语料及通过实验来决定,本发明根据现有语料和实验,建议相似度减小50%左右)。实现上也使用字典方法,字典文件包含常用代词。
需要说明的是,本发明中通过以上三种方式修正相似度,还可以通过其他方式判断文本的语义,进一步修正相似度。
本发明通过以上方法可以较准确地计算人机对话***中的这种短文本间的语义相似度的准确性,更好地充分利用有限的问答对资料,提高人机对话***的用户体验。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (9)

1.一种短文本间相似度计算方法,其特征在于,包括:
步骤S1,获取语料数据,对所述语料数据进行预处理,得到训练语料;
步骤S2,根据所述训练语料,得到关键词提取模型,利用分词工具对所述训练语料分词,并用word2vec训练获得词向量集;
步骤S3,获得用户输入文本和候选问答对的问题,对所述候选问答对的问题和所述用户输入文本通过所述分词工具分别进行分词,对所述候选问答对的问题和所述用户输入文本分别通过所述关键词提取模型进行关键词提取,得到所述候选问答对的问题的分词结果和关键词提取结果,及所述用户输入文本的分词结果和关键词提取结果;
步骤S4,根据所述候选问答对的问题的分词结果和关键词提取结果,通过所述词向量集获得所述候选问答对的问题的词向量,根据所述用户输入文本的分词结果和关键词提取结果,通过所述词向量集获得所述用户输入文本的词向量;
步骤S5,根据所述候选问答对的问题的词向量,计算获得所述候选问答对的问题的句向量,根据所述用户输入文本的词向量,计算获得所述用户输入文本的句向量;
步骤S6,根据所述候选问答对的问题的句向量和所述用户输入文本的句向量,计算两个句向量间的相似度;
步骤S7,根据所述句向量间的相似度,通过所述用户输入文本和所述候选问答对的问题中包含的信息进行相似度的修正,得到修正后的相似度。
2.根据权利要求1所述短文本间相似度计算方法,其特征在于,
所述用户输入的文本和所述候选问答对的问题中包含的信息为文本句型、命名实体和人称代词,所述命名实体包括地名和机构名称。
3.根据权利要求1所述短文本间相似度计算方法,其特征在于,
所述步骤S2中,获得所述关键词提取模型包括:
步骤S21,获得关键词训练语料,根据所述关键词训练语料,进行分词,得到分词结果;
步骤S22,根据所述分词结果,通过人工标注的方式标注所述分词结果中的关键词,得到人工标注后的关键词训练语料;
步骤S23,根据所述人工标注后的关键词训练语料,通过最大熵训练得到关键词提取模型。
4.根据权利要求1所述短文本间相似度计算方法,其特征在于,
所述关键词提取模型为一个2分类的分类器。
5.根据权利要求1所述短文本间相似度计算方法,其特征在于,
所述候选问答对的问题的词向量和所述用户输入文本的词向量维数相同。
6.根据权利要求2所述短文本间相似度计算方法,其特征在于,
所述命名实体和人称代词通过字典方法获得。
7.根据权利要求1所述短文本间相似度计算方法,其特征在于,
所述语料数据通过网络爬虫技术获得。
8.根据权利要求1所述短文本间相似度计算方法,其特征在于,
所述句向量间的相似度通过余弦相似度的方法计算。
9.根据权利要求1所述短文本间相似度计算方法,其特征在于,
所述分词工具为汉语言处理工具包hanlp。
CN201610920608.5A 2016-10-21 2016-10-21 一种短文本间相似度计算方法 Active CN106484664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610920608.5A CN106484664B (zh) 2016-10-21 2016-10-21 一种短文本间相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610920608.5A CN106484664B (zh) 2016-10-21 2016-10-21 一种短文本间相似度计算方法

Publications (2)

Publication Number Publication Date
CN106484664A CN106484664A (zh) 2017-03-08
CN106484664B true CN106484664B (zh) 2019-03-01

Family

ID=58271016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610920608.5A Active CN106484664B (zh) 2016-10-21 2016-10-21 一种短文本间相似度计算方法

Country Status (1)

Country Link
CN (1) CN106484664B (zh)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776559B (zh) * 2016-12-14 2020-08-11 东软集团股份有限公司 文本语义相似度计算的方法及装置
CN107066621B (zh) * 2017-05-11 2022-11-08 腾讯科技(深圳)有限公司 一种相似视频的检索方法、装置和存储介质
CN107329949B (zh) * 2017-05-24 2021-01-01 北京捷通华声科技股份有限公司 一种语义匹配方法和***
CN107229753A (zh) * 2017-06-29 2017-10-03 济南浪潮高新科技投资发展有限公司 一种基于word2vec模型的文章地域分类方法
CN107391614A (zh) * 2017-07-04 2017-11-24 重庆智慧思特大数据有限公司 一种基于wmd的中文问答匹配方法
CN107577658B (zh) * 2017-07-18 2021-01-29 创新先进技术有限公司 词向量处理方法、装置以及电子设备
CN107688604A (zh) * 2017-07-26 2018-02-13 阿里巴巴集团控股有限公司 数据应答处理方法、装置及服务器
CN107577708A (zh) * 2017-07-31 2018-01-12 北京北信源软件股份有限公司 基于SparkMLlib文档分类的类库构建方法及***
WO2019084867A1 (zh) * 2017-11-02 2019-05-09 深圳前海达闼云端智能科技有限公司 自动回答方法、装置、存储介质及电子设备
CN107729322B (zh) * 2017-11-06 2021-01-12 广州杰赛科技股份有限公司 分词方法及装置、建立句子向量生成模型方法及装置
CN108305057B (zh) * 2018-01-22 2021-01-15 平安科技(深圳)有限公司 电子红包的发放装置、方法及计算机可读存储介质
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及***
CN108388559B (zh) * 2018-02-26 2021-11-19 中译语通科技股份有限公司 地理空间应用下的命名实体识别方法及***、计算机程序
CN108427735A (zh) * 2018-02-28 2018-08-21 东华大学 基于电子病历的临床知识图谱构建方法
CN108664465B (zh) * 2018-03-07 2023-06-27 珍岛信息技术(上海)股份有限公司 一种自动生成文本方法以及相关装置
CN108549637A (zh) 2018-04-19 2018-09-18 京东方科技集团股份有限公司 基于拼音的语义识别方法、装置以及人机对话***
CN110597966A (zh) * 2018-05-23 2019-12-20 北京国双科技有限公司 自动问答方法及装置
CN108932066B (zh) * 2018-06-13 2023-04-25 北京百度网讯科技有限公司 输入法获取表情包的方法、装置、设备和计算机存储介质
CN109086303B (zh) * 2018-06-21 2021-09-28 深圳壹账通智能科技有限公司 基于机器阅读理解的智能对话方法、装置、终端
CN108920604B (zh) 2018-06-27 2019-08-13 百度在线网络技术(北京)有限公司 语音交互方法及设备
CN109062977A (zh) * 2018-06-29 2018-12-21 厦门快商通信息技术有限公司 一种基于语义相似度的自动问答文本匹配方法、自动问答方法和***
CN110727769B (zh) * 2018-06-29 2024-04-19 阿里巴巴(中国)有限公司 语料库生成方法及装置、人机交互处理方法及装置
CN110020189A (zh) * 2018-06-29 2019-07-16 武汉掌游科技有限公司 一种基于中文相似性计算的文章推荐方法
CN110889285B (zh) * 2018-08-16 2023-06-16 阿里巴巴集团控股有限公司 确定核心词的方法、装置、设备和介质
CN109241240A (zh) * 2018-08-17 2019-01-18 国家电网有限公司客户服务中心 电力故障报修信息自动转发方法
CN111046147A (zh) * 2018-10-11 2020-04-21 马上消费金融股份有限公司 一种问答方法、装置及终端设备
CN109522394A (zh) * 2018-10-12 2019-03-26 北京奔影网络科技有限公司 知识库问答装置及建立方法
CN111191465B (zh) * 2018-10-25 2023-05-09 ***通信有限公司研究院 一种问答匹配方法、装置、设备及存储介质
CN109739956B (zh) * 2018-11-08 2020-04-10 第四范式(北京)技术有限公司 语料清洗方法、装置、设备及介质
CN109871437B (zh) * 2018-11-30 2023-04-21 阿里巴巴集团控股有限公司 用于用户问题语句处理的方法及装置
CN109582966A (zh) * 2018-12-03 2019-04-05 北京容联易通信息技术有限公司 一种信息匹配方法及装置
CN109815996B (zh) * 2019-01-07 2021-05-04 北京首钢自动化信息技术有限公司 一种基于循环神经网络的场景自适配方法及装置
CN111428486B (zh) * 2019-01-08 2023-06-23 北京沃东天骏信息技术有限公司 物品信息数据处理方法、装置、介质及电子设备
CN109902159A (zh) * 2019-01-29 2019-06-18 华融融通(北京)科技有限公司 一种基于自然语言处理的智能运维语句相似度匹配方法
CN110245219A (zh) * 2019-04-25 2019-09-17 义语智能科技(广州)有限公司 一种基于自动扩展问答数据库的问答方法及设备
CN110275946A (zh) * 2019-05-14 2019-09-24 闽江学院 一种faq自动问答方法和装置
CN110287295A (zh) * 2019-05-14 2019-09-27 闽江学院 基于小程序的问答机器人构建方法和***
CN110135551B (zh) * 2019-05-15 2020-07-21 西南交通大学 一种基于词向量和循环神经网络的机器人聊天方法
CN110309278B (zh) * 2019-05-23 2021-11-16 泰康保险集团股份有限公司 关键词检索方法、装置、介质及电子设备
CN110543636B (zh) * 2019-09-06 2023-05-23 出门问问创新科技有限公司 一种对话***的训练数据选择方法
CN110674273A (zh) * 2019-09-17 2020-01-10 安徽信息工程学院 一种分词的智能问答机器人训练方法
CN110866095A (zh) * 2019-10-10 2020-03-06 重庆金融资产交易所有限责任公司 一种文本相似度的确定方法及相关设备
CN111144112B (zh) * 2019-12-30 2023-07-14 广州广电运通信息科技有限公司 文本相似度分析方法、装置和存储介质
CN111209373A (zh) * 2020-01-07 2020-05-29 北京启明星辰信息安全技术有限公司 基于自然语义的敏感文本识别方法和装置
CN111241239B (zh) * 2020-01-07 2022-12-02 科大讯飞股份有限公司 重题检测方法、相关设备及可读存储介质
CN111401042B (zh) * 2020-03-26 2023-04-14 支付宝(杭州)信息技术有限公司 一种训练文本关键内容提取模型的方法和***
CN111460783B (zh) * 2020-03-30 2021-07-27 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN111460081B (zh) * 2020-03-30 2023-04-07 招商局金融科技有限公司 基于深度学习的答案生成方法、电子装置及可读存储介质
CN112257410A (zh) * 2020-10-15 2021-01-22 江苏卓易信息科技股份有限公司 一种非平衡文本的相似度计算方法
CN112182193B (zh) * 2020-10-19 2023-01-13 山东旗帜信息有限公司 一种交通行业中日志获取方法、设备及介质
CN112559658B (zh) * 2020-12-08 2022-12-30 中国科学技术大学 一种地址匹配方法及装置
CN112507097B (zh) * 2020-12-17 2022-11-18 神思电子技术股份有限公司 一种提高问答***泛化能力的方法
CN112836062B (zh) * 2021-01-13 2022-05-13 哈尔滨工程大学 一种文本语料库的关系抽取方法
CN112988970A (zh) * 2021-03-11 2021-06-18 浙江康旭科技有限公司 一种服务于智能问答***的文本匹配算法
CN112883165B (zh) * 2021-03-16 2022-12-02 山东亿云信息技术有限公司 一种基于语义理解的智能全文检索方法及***
CN113240485A (zh) * 2021-05-10 2021-08-10 北京沃东天骏信息技术有限公司 文本生成模型的训练方法、文本生成方法和装置
CN113343708A (zh) * 2021-06-11 2021-09-03 北京声智科技有限公司 一种基于语义实现语句泛化的方法和装置
CN116932726B (zh) * 2023-08-04 2024-05-10 重庆邮电大学 一种基于可控多空间特征解耦的开放域对话生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2833271A1 (en) * 2012-05-14 2015-02-04 Huawei Technologies Co., Ltd Multimedia question and answer system and method
CN105095444A (zh) * 2015-07-24 2015-11-25 百度在线网络技术(北京)有限公司 信息获取方法和装置
CN105426354A (zh) * 2015-10-29 2016-03-23 杭州九言科技股份有限公司 一种句向量的融合方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218356B (zh) * 2012-01-18 2017-12-08 深圳市世纪光速信息技术有限公司 一种面向开放平台的提问质量判定方法和***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2833271A1 (en) * 2012-05-14 2015-02-04 Huawei Technologies Co., Ltd Multimedia question and answer system and method
CN105095444A (zh) * 2015-07-24 2015-11-25 百度在线网络技术(北京)有限公司 信息获取方法和装置
CN105426354A (zh) * 2015-10-29 2016-03-23 杭州九言科技股份有限公司 一种句向量的融合方法和装置

Also Published As

Publication number Publication date
CN106484664A (zh) 2017-03-08

Similar Documents

Publication Publication Date Title
CN106484664B (zh) 一种短文本间相似度计算方法
CN108874878B (zh) 一种知识图谱的构建***及方法
CN105528437B (zh) 一种基于结构化文本知识提取的问答***构建方法
CN110377715A (zh) 基于法律知识图谱的推理式精准智能问答方法
CN106855853A (zh) 基于深度神经网络的实体关系抽取***
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN107305539A (zh) 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法
CN107704556B (zh) 一种汽车行业细分领域的情感分析方法及***
CN105843897A (zh) 一种面向垂直领域的智能问答***
CN108268668B (zh) 一种基于话题多样性的文本数据观点摘要挖掘方法
CN107862087A (zh) 基于大数据和深度学习的情感分析方法、装置和存储介质
CN111143672B (zh) 基于知识图谱的专业特长学者推荐方法
CN110390006A (zh) 问答语料生成方法、装置和计算机可读存储介质
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN104484411A (zh) 一种基于词典的语义知识库的构建方法
CN108073571B (zh) 一种多语言文本质量评估方法及***、智能文本处理***
CN106446147A (zh) 一种基于结构化特征的情感分析方法
CN106649250A (zh) 一种情感新词的识别方法及装置
CN110399603A (zh) 一种基于意群划分的文本处理技术方法和***
CN108804595A (zh) 一种基于word2vec的短文本表示方法
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN107818081A (zh) 基于深度语义模型与语义角色标注的句子相似度评估方法
CN114997288A (zh) 一种设计资源关联方法
CN106250365A (zh) 基于文本分析的消费者评论中商品属性特征词的提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant