CN110287284B - 语义匹配方法、装置及设备 - Google Patents

语义匹配方法、装置及设备 Download PDF

Info

Publication number
CN110287284B
CN110287284B CN201910434800.7A CN201910434800A CN110287284B CN 110287284 B CN110287284 B CN 110287284B CN 201910434800 A CN201910434800 A CN 201910434800A CN 110287284 B CN110287284 B CN 110287284B
Authority
CN
China
Prior art keywords
semantic information
entity
entities
text
nth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910434800.7A
Other languages
English (en)
Other versions
CN110287284A (zh
Inventor
冯欣伟
余淼
戴松泰
周环宇
宋勋超
袁鹏程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910434800.7A priority Critical patent/CN110287284B/zh
Publication of CN110287284A publication Critical patent/CN110287284A/zh
Application granted granted Critical
Publication of CN110287284B publication Critical patent/CN110287284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供的语义匹配方法、装置及设备,获取输入文本中的M个实体,以及各实体的特征向量;根据各实体的特征向量,获取输入文本对应的语义信息,语义信息包括第一语义信息至第N语义信息,其中,第n语义信息用于指示对M个实体进行组合得到的
Figure DDA0002070190910000011
个片段中每个片段的语义,每个片段对应的实体个数为n;将输入文本对应的语义信息与数据库中存储的各反馈文本对应的语义信息进行匹配,确定出与输入文本的语义的关联度高的T个反馈文本;能够提高检索结果的准确性。

Description

语义匹配方法、装置及设备
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种语义匹配方法、装置及设备。
背景技术
在搜索引擎、问答***等应用中,需要针对用户输入的问题进行检索,并输出该问题对应的回答段落。在对问题进行检索过程中,通常包括两个过程。第一是粗召,第二是精排。粗召的目的是确定出与该问题匹配的前T个回答段落,精排的目的是从上述T个回答段落中确定出匹配度最高的回答段落。
在进行粗召时,常见的方法是用“问题”去检索数据库中的文章的“标题”。示例性的,分别计算“问题”与数据库中各文章的“标题”之间的匹配度,将匹配度较高的前T个文章作为该问题的检索结果。
然而,上述方法得到的检索结果中通常存在大量的标题党,即标题和问题很匹配,但是文章内容与问题的匹配度并不高,使得检索结果并不理想。
发明内容
本发明实施例提供一种语义匹配方法、装置及设备,用以提高语义匹配结果的准确性。
第一方面,本发明实施例提供的语义匹配方法,包括:获取输入文本中的M个实体,以及各所述实体的特征向量;
根据各所述实体的特征向量,获取所述输入文本对应的语义信息,所述语义信息包括第一语义信息至第N语义信息,其中,第n语义信息用于指示对所述M个实体进行组合得到的
Figure BDA0002070190890000011
个片段中每个片段的语义,每个片段对应的实体个数为n,N为大于1且小于等于M的自然数,n为大于等于1且小于等于N的自然数;
将所述输入文本对应的语义信息与数据库中存储的各反馈文本对应的语义信息进行匹配,确定出与所述输入文本的语义的关联度高的T个反馈文本。
可选的,所述根据各所述实体的特征向量,获取所述输入文本对应的语义信息,包括:
针对1<=n<=N的每个n,每次从各所述实体中获取n个实体,根据所述n个实体的特征向量,获取所述n个实体对应的n-gram特征,所述n-gram特征指示的是所述n个实体对应的片段的语义;
将各次获取的所述n-gram特征作为所述第n语义信息。
可选的,所述将所述输入文本对应的语义信息与数据库中存储的各反馈文本对应的语义信息进行匹配,确定出与所述输入文本的语义的关联度高的T个反馈文本,包括:
遍历所述数据库中的每个反馈文本,针对1<=n<=N的每个n,获取所述输入文本对应的第n语义信息与各所述反馈文本对应的第n语义信息之间匹配度,将所述匹配度作为第n匹配度;
根据所述第一匹配度至所述第N匹配度,确定所述输入文本对应的语义信息与所述反馈文本对应的语义信息之间的关联度;
根据所述输入文本对应的语义信息与各所述反馈文本对应的语义信息之间的关联度,确定出与所述输入文本的语义的关联度高的T个反馈文本。
可选的,所述获取所述输入文本对应的第n语义信息与各所述反馈文本对应的第n语义信息之间匹配度,将所述匹配度作为第n匹配度,包括:
针对所述输入文本对应的第n语义信息中的每个n-gram特征,分别获取所述n-gram特征与所述反馈文本对应的第n语义信息中的每个n-gram特征之间的距离,将所述距离的最小值作为所述第n匹配度。
可选的,所述根据所述第一匹配度至所述第N匹配度,确定所述输入文本对应的语义信息与所述反馈文本对应的语义信息之间的关联度,包括:
将所述第一匹配度至所述第N匹配度进行加权平均的结果,作为所述输入文本对应的语义信息与所述反馈文本对应的语义信息之间的关联度。
可选的,所述根据所述n个实体的特征向量,获取所述n个实体对应的n-gram特征,包括:
将所述n个实体的特征向量的平均值,作为所述n个实体对应的n-gram特征。
可选的,所述特征向量的维度为M维,所述获取各所述实体对应的特征向量,包括:
根据已建立好的实体空间,获取各所述实体对应的特征向量,其中,所述实体空间为M维空间,所述实体空间中包括至少一个训练实体,每个训练实体在所述实体空间的位置用于指示所述训练实体对应的特征向量。
可选的,在所述根据已训练好的实体空间,获取各所述实体对应的特征向量之前,还包括:
根据待训练的文本预料,获取所述文本预料中的所述训练实体;
根据所述文本预料中各所述训练实体之间的关联关系,建立所述实体空间。
第二方面,本发明实施例提供一种语义匹配装置,包括:
第一获取模块,用于获取输入文本中的M个实体,以及各所述实体的特征向量;
第二获取模块,用于根据各所述实体的特征向量,获取所述输入文本对应的语义信息,所述语义信息包括第一语义信息至第N语义信息,其中,第n语义信息用于指示对所述M个实体进行组合得到的
Figure BDA0002070190890000031
个片段中每个片段的语义,每个片段对应的实体个数为n,N为大于1且小于等于M的自然数,n为大于等于1且小于等于N的自然数;
匹配模块,用于将所述输入文本对应的语义信息与数据库中存储的各反馈文本对应的语义信息进行匹配,确定出与所述输入文本的语义的关联度高的T个反馈文本。
可选的,所述第二获取模块具体用于:
针对1<=n<=N的每个n,每次从各所述实体中获取n个实体,根据所述n个实体的特征向量,获取所述n个实体对应的n-gram特征,所述n-gram特征指示的是所述n个实体对应的片段的语义;
将各次获取的所述n-gram特征作为所述第n语义信息。
可选的,所述匹配模块具体用于:
遍历所述数据库中的每个反馈文本,针对1<=n<=N的每个n,获取所述输入文本对应的第n语义信息与各所述反馈文本对应的第n语义信息之间匹配度,将所述匹配度作为第n匹配度;
根据所述第一匹配度至所述第N匹配度,确定所述输入文本对应的语义信息与所述反馈文本对应的语义信息之间的关联度;
根据所述输入文本对应的语义信息与各所述反馈文本对应的语义信息之间的关联度,确定出与所述输入文本的语义的关联度高的T个反馈文本。
可选的,所述匹配模块具体用于:
针对所述输入文本对应的第n语义信息中的每个n-gram特征,分别获取所述n-gram特征与所述反馈文本对应的第n语义信息中的每个n-gram特征之间的距离,将所述距离的最小值作为所述第n匹配度。
可选的,所述匹配模块具体用于:
将所述第一匹配度至所述第N匹配度进行加权平均的结果,作为所述输入文本对应的语义信息与所述反馈文本对应的语义信息之间的关联度。
可选的,所述第二获取模块具体用于:
将所述n个实体的特征向量的平均值,作为所述n个实体对应的n-gram特征。
可选的,所述特征向量的维度为M维,所述第一获取模块具体用于:
根据已建立好的实体空间,获取各所述实体对应的特征向量,其中,所述实体空间为M维空间,所述实体空间中包括至少一个训练实体,每个训练实体在所述实体空间的位置用于指示所述训练实体对应的特征向量。
可选的,所述装置还包括:
构建模块,用于根据待训练的文本预料,获取所述文本预料中的所述训练实体;
根据所述文本预料中各所述训练实体之间的关联关系,建立所述实体空间。
第三方面,本发明实施例提供一种语义匹配设备,包括:存储器、处理器以及计算机程序,所述计算机程序存储在所述存储器中,所述处理器运行所述计算机程序执行如第一方面任一项所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的方法。
本发明实施例提供的语义匹配方法、装置及设备,获取输入文本中的M个实体,以及各所述实体的特征向量;根据各所述实体的特征向量,获取所述输入文本对应的语义信息,所述语义信息包括第一语义信息至第N语义信息,其中,第n语义信息用于指示对所述M个实体进行组合得到的
Figure BDA0002070190890000052
个片段中每个片段的语义,每个片段对应的实体个数为n;将所述输入文本对应的语义信息与数据库中存储的各反馈文本对应的语义信息进行匹配,确定出与所述输入文本的语义的关联度高的T个反馈文本。通过将输入文本对应的语义信息与数据库中存储的各反馈文本对应的语义信息进行匹配,而非像现有技术中那样仅与反馈文本的标题进行匹配,从而提高检索结果的准确性。进一步的,本实施例中的语义信息包括第一语义信息至第N语义信息,其中,第n语义信息用于指示对所述M个实体进行组合得到的
Figure BDA0002070190890000051
个片段中每个片段的语义,每个片段对应的实体个数为n,使得获取的语义信息更加准确,进一步提高了检索结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例适用的应用场景示意图;
图2为本发明一实施例提供的语义匹配方法的流程示意图;
图3为本发明另一实施例提供的语义匹配方法的流程示意图;
图4为本发明实施例提供的语义匹配过程的示意图;
图5为本发明一实施例提供的语义匹配装置的结构示意图;
图6为本发明另一实施例提供的语义匹配装置的结构示意图;
图7为本发明实施例提供的语义匹配设备的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1为本发明实施例适用的应用场景示意图。如图1所示,将输入文本输入至语义匹配设备中,语义匹配设备输出T个反馈文本,其中,该T个反馈文本是与输入文本的语义的关联度高的文本。下面结合两个具体的场景进行描述。
一种可能的场景中,语义匹配设备为用于实现搜索功能的设备。示例性的,语义匹配设备中设置有搜索引擎,用户通过搜索引擎输入待搜索文本。语义匹配设备根据待搜索文本进行检索,向用户输出与待搜索文本的语义的关联度高的T个搜索结果文本。
另一种可能的场景中,语义匹配设备为用于实现问答***的设备。示例性的,语义匹配设备中设置有问答***,用户向问答***输入问题文本。语义匹配设备根据问题文本进行检索,向用户输出与该问题文本的语义的关联度高的T个回答文本。
上述两种场景中,语义匹配设备根据输入文本进行检索的过程,可以是对文本数据库中的文本进行检索。其中,数据库可以是设置在语义匹配设备中,还可以是与语义匹配设备独立存在。本实施例对此不作具体限定。
其中,该语义匹配设备可以为终端设备,还可以为与终端设备连接的服务器设备,当然,还可以为云端服务器。
基于语义匹配的检索通常包括两个过程,第一是粗召,第二是精排。以问答***为例,针对用户输入的问题,粗召的目的是确定出与该问题匹配的前T个回答段落,精排的目的是从上述T个回答段落中确定出匹配度最高的回答段落。
在进行粗召时,常见的方法是用问题去检索数据库中的文章的标题。示例性的,分别计算“问题”与数据库中各文章的“标题”之间的匹配度,将匹配度较高的前T个文章作为该问题的检索结果。
然而,上述方法得到的检索结果中通常存在大量的标题党,即标题和问题很匹配,但是文章内容与问题的匹配度并不高,使得检索结果并不理想。
为了解决上述问题,本发明实施例提供一种语义匹配方法,将输入文本对应的语义信息与数据库中存储的各反馈文本对应的语义信息进行匹配,而非像现有技术中那样仅与反馈文本的标题进行匹配,从而提高检索结果的准确性。进一步的,本实施例中的语义信息包括第一语义信息至第N语义信息,其中,第n语义信息用于指示对所述M个实体进行组合得到的
Figure BDA0002070190890000071
个片段中每个片段的语义,每个片段对应的实体个数为n,使得获取的语义信息更加准确,进一步提高了检索结果的准确性。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2为本发明一实施例提供的语义匹配方法的流程示意图。本实施例的方法可以由图1中的语义匹配设备执行,该语义匹配设备可以具体为终端设备,还可以为服务器设备。
如图2所示,本实施例的方法,包括:
S201:获取输入文本中的M个实体,以及各所述实体的特征向量。
其中,该输入文本为用户通过终端设备输入的文本。用户可以是以语音形式输入的,还可以是以文本形式输入的。当用户以语音形式输入时,可以首先采用语音识别技术将用户输入的语音转换为文本。该输入文本可以为疑问句式的文本,还可以为非疑问句式的文本。该输入文本可以为一个句子,还可以为一个段落。
具体的,输入文本中包括至少一个实体。实体是指文本中的具有实际意义的词语或者文字。示例性的,假设输入文本为“北京博物馆在哪里”,则该输入文本中的实体为“北京”和“博物馆”。
本实施例中,获取输入文本中的实体时,可以采用实体识别工具和/或词法分析工具进行获取,这部分属于现有技术,本实施例对此不作详述。
假设输入文本中包括M个实体,分别获取各个实体的特征向量。其中,本实施例中的特征向量用于指示该实体的语义信息。可以理解的,每个实体的特征向量表示的是该实体的语义,若两个实体的特征向量越接近,则说明两个实体的语义越接近。
可以理解的,对于实体的特征向量的获取方式,可以有多种实施方式,本实施例不作具体限定。下面仅以其中几种可能的实施方式为例进行描述。
一种可能的实施方式中,可以通过词向量模型生成每个实体的特征向量。
另一种可能的实施方式中,可以通过对大量的待训练的文本预料进行实体识别,获取文本预料中的训练实体,并根据文本预料中的各训练实体之间的关联关系,建立实体空间。将每个训练实体在该实体空间中的位置用于指示该训练实体的特征向量。当需要获取某个实体的特征向量时,只需要获取该实体在实体空间中的位置即可。
上述的待训练的文本预料,可以为从网络中的百科数据库或者其他知识数据库中获取的,这些数据库中的文本内容的质量较高,使得构建得到的实体空间,以及各实体的特征向量更加准确,进而能够提高语义匹配结果的准确性。
又一种可能的实施方式中,可以根据知识图谱建立所述实体空间。知识图谱中包括至少一个已知实体以及各已知实体之间的关联关系。每个已知实体在所述实体空间的位置用于指示所述已知实体对应的特征向量。当需要获取某个实体的特征向量时,只需要获取该实体在实体空间中的位置即可。
可以理解的,本实施例对于实体空间的维度不作具体限定。示例性的,假设实体空间的维度为M维,则该实体空间中的每个实体对应的特征向量的维度为M维。M可以为任意自然数。
S202:根据各所述实体的特征向量,获取所述输入文本对应的语义信息,所述语义信息包括第一语义信息至第N语义信息,其中,第n语义信息用于指示对所述M个实体进行组合得到的
Figure BDA0002070190890000091
个片段中每个片段的语义,每个片段对应的实体个数为n,N为大于1的自然数,n为大于等于1且小于等于N的自然数。
本实施例中,根据各实体的特征向量,获取输入文本对应的语义信息。其中,语义信息中包括第一语义信息至第N语义信息。假设输入文本中包括M=4个实体,分别为:实体A、实体B、实体C和实体D。下面以N=3为例对第一语义信息至第三语义信息进行解释。
第一语义信息指示的是:上述4个实体中每个实体对应的语义。即,第一语义信息分别指示了
Figure BDA0002070190890000092
个实体的语义。也就是说,第一语义信息指示如表1所示的4个片段的语义,每个片段中仅有一个实体。
表1
片段 包括的实体
片段1 实体A
片段2 实体B
片段3 实体C
片段4 实体D
第二语义信息指示的是:对上述4个实体中的每两个实体进行组合,得到的每个组合对应的片段的语义。即,第二语义信息分别指示了
Figure BDA0002070190890000093
个片段的语义。也就是说,第二语义信息指示的是如表2所示的6个片段的语义,每个片段中包括2个实体。
表2
片段 包括的实体
片段1 实体A、实体B
片段2 实体A、实体C
片段3 实体A、实体D
片段4 实体B、实体C
片段5 实体B、实体D
片段6 实体C、实体D
第三语义信息指示的是:对上述4个实体中的每三个实体进行组合,得到的每个组合对应的片段的语义。即,第二语义信息分别指示了
Figure BDA0002070190890000101
个片段的语义。也就是说,第三语义信息指示的是如表3所示的4个片段的语义,每个片段中包括3个实体。
表3
片段 包括的实体
片段1 实体A、实体B、实体C
片段2 实体A、实体B、实体D
片段3 实体A、实体C、实体D
片段4 实体B、实体C、实体D
可以理解的,本实施例对于N的取值不做具体限定,N可以为1<N<=M的任意自然数。
由此可见,本实施例中,输入文本的语义信息是由不同数量的实体进行不同组合得到的语义的集合,一方面实现了对输入文本的语义的低维度表示,另一方面使得确定的输入文本的语义信息更加准确。
S203:将所述输入文本对应的语义信息与数据库中存储的各反馈文本对应的语义信息进行匹配,确定出与所述输入文本的语义的关联度高的T个反馈文本。
本实施例中,数据库中存储了各反馈文本对应的语义信息。也就是说,事先针对数据库中的每个反馈文本,按照S202的方式,获取每个反馈文本对应的语义信息,并存储到数据库中。
将输入文本对应的语义信息与各反馈文本对应的语义信息进行匹配,从而确定出与输入文本的语义的关联度高的T个反馈文本。其中,T的取值可以根据需求设置。
由于所述T个反馈文本是与输入文本的语义的关联度高的反馈文本,该T个反馈文本中能够保证包含了最终的反馈文本。在后续的精排过程中,通过对T个反馈文本进行排序,从而确定出最终的反馈文本。关于精排的处理过程,本实施例不作赘述。
本实施例提供的语义匹配方法,包括:获取输入文本中的M个实体,以及各所述实体的特征向量;根据各所述实体的特征向量,获取所述输入文本对应的语义信息,所述语义信息包括第一语义信息至第N语义信息,其中,第n语义信息用于指示对所述M个实体进行组合得到的
Figure BDA0002070190890000111
个片段中每个片段的语义,每个片段对应的实体个数为n;将所述输入文本对应的语义信息与数据库中存储的各反馈文本对应的语义信息进行匹配,确定出与所述输入文本的语义的关联度高的T个反馈文本。通过将输入文本对应的语义信息与数据库中存储的各反馈文本对应的语义信息进行匹配,而非像现有技术中那样仅与反馈文本的标题进行匹配,从而提高检索结果的准确性。进一步的,本实施例中的语义信息包括第一语义信息至第N语义信息,其中,第n语义信息用于指示对所述M个实体进行组合得到的
Figure BDA0002070190890000112
个片段中每个片段的语义,每个片段对应的实体个数为n,使得获取的语义信息更加准确,进一步提高了检索结果的准确性。
图3为本发明另一实施例提供的语义匹配方法的流程示意图。如图3所示,本实施例的方法,包括:
S301:获取输入文本中的M个实体,以及各所述实体的特征向量。
S302:针对1<=n<=N的每个n,每次从各所述实体中获取n个实体,根据所述n个实体的特征向量,获取所述n个实体对应的n-gram特征,所述n-gram特征指示的是所述n个实体对应的片段的语义;将各次获取的所述n-gram特征作为所述第n语义信息。
可选的,可以将所述n个实体的特征向量的平均值,作为所述n个实体对应的n-gram特征。
为了描述方便,下面结合举例进行说明。需要说明的是,反馈文本和输入文本的语义信息的获取方式是类似的。实际应用中,可以事先对数据库中各反馈文本先获取语义信息,然后将语义信息保存至数据库中,从而,在后续检索过程中,只需要获取输入文本的语义信息,然后将输入文本的语义信息与各反馈文本的语义信息进行匹配,从而提高检索效率。
图4为本发明实施例提供的语义匹配过程的示意图。下面结合图4进行举例说明。假设输入文本为“刘明星的老婆是谁”,数据库中的其中一个反馈文本为“刘明星与朱明星在美国结婚”。
如图4所示,对于反馈文本,其获取到的实体分别为:刘明星、朱明星、美国、结婚。进而,还可以获取四个实体对应的特征向量(图4未示出)。以N=3为例,下面具体说明第一语义信息、第二语义信息和第三语义信息的获取过程。本实施例中,采用1-gram特征作为第一语义信息,采用2-gram特征作为第二语义信息,采用3-gram特征作为第三语义信息。
针对第一语义信息,即n=1,每次从四个实体中获取1个实体,将该实体的特征向量作为该实体的1-gram特征。可以理解的,由于反馈文本中有四个实体,因此,能够得到四个1-gram特征,分别为:“刘明星”、“朱明星”、“美国”、“结婚”对应的特征向量。
针对第二语义信息,即n=2,每次从四个实体中获取2个实体,根据2个实体的特征向量获取这2个实体对应的2-gram特征。可以理解的,由于反馈文本中有四个实体,因此,每2个实体进行组合能够得到
Figure BDA0002070190890000121
种组合,分别为:“刘明星|朱明星”、“刘明星|美国”、“刘明星|结婚”、“朱明星|美国”、“朱明星|结婚”、“美国|结婚”。示例性的,将每种组合中的两个实体的特征向量的平均值作为该组合对应的2-gram特征,即,共得到6个2-gram特征。
针对第三语义信息,即n=3,每次从四个实体中获取3个实体,根据3个实体的特征向量获取这3个实体对应的3-gram特征。可以理解的,由于反馈文本中有四个实体,因此,每3个实体进行组合能够得到
Figure BDA0002070190890000122
种组合,分别为:“刘明星|朱明星|美国”、“刘明星|朱明星|结婚”、“刘明星|美国|结婚”、“朱明星|美国|结婚”。示例性的,将每种组合中的3个实体的特征向量的平均值作为该组合对应的3-gram特征,即,共得到4个3-gram特征。
如图4所示,输入文本中包括两个实体,分别为:刘明星、老婆。对输入文本获取1-gram特征、2-gram特征和3-gram特征的过程与反馈文本类似,此处不再赘述。由于输入文本中只有2个实体,共得到2个1-gram特征,1个2-gram特征,0个3-gram特征。一种可能的实施方式中,为了提高匹配精度,如图4所示,可以将2-gram特征作为3-gram特征,以便后续的匹配过程。
S303:遍历所述数据库中的每个反馈文本,针对1<=n<=N的每个n,获取所述输入文本对应的第n语义信息与各所述反馈文本对应的第n语义信息之间匹配度,将所述匹配度作为第n匹配度。
可选的,针对所述输入文本对应的第n语义信息中的每个n-gram特征,分别获取所述n-gram特征与所述反馈文本对应的第n语义信息中的每个n-gram特征之间的距离,将所述距离的最小值作为所述第n匹配度。
下面继续结合举例进行说明。如图4所示,对于第一语义信息,分别计算输入文本中的1-gram特征“刘明星”与反馈文本中的1-gram特征“刘明星”、“朱明星”、“美国”、“结婚”之间的距离,确定出最小值。然后,再分别计算输入文本中的1-gram特征“老婆”与反馈文本中的1-gram特征“刘明星”、“朱明星”、“美国”、“结婚”之间的距离,确定出最小值。将两个最小值作为第一匹配度。
针对第二语义信息,分别计算输入文本中的2-gram特征“刘明星|老婆”与反馈文本中的2-gram特征“刘明星|朱明星”、“刘明星|美国”、“刘明星|结婚”、“朱明星|美国”、“朱明星|结婚”、“美国|结婚”之间的距离,确定出最小值,将该最小值作为第二匹配度。
针对第三语义信息,分别计算输入文本中的3-gram特征“刘明星|老婆”与反馈文本中的3-gram特征“刘明星|朱明星|美国”、“刘明星|朱明星|结婚”、“刘明星|美国|结婚”、“朱明星|美国|结婚”之间的距离,确定出最小值,将该最小值作为第三匹配度。
可以理解的,由于本实施例中的特征向量指示的是实体的语义,两个实体的特征向量之间的距离与该两个实体的语义的匹配度反相关。因此,根据n-gram特征之间的距离确定匹配度,能够克服同义词、语法多变问题,提高语义匹配的准确性。
S304:根据所述第一匹配度至所述第N匹配度,确定所述输入文本对应的语义信息与所述反馈文本对应的语义信息之间的关联度。
可选的,将所述第一匹配度至所述第N匹配度进行加权平均的结果,作为所述输入文本对应的语义信息与所述反馈文本对应的语义信息之间的关联度。
具体实施过程中,针对不同的匹配度可以采用不同的权重,示例性的,3-gram特征的权重大于2-gram特征的权重大于1-gram特征的权重。
S305:根据所述输入文本对应的语义信息与各所述反馈文本对应的语义信息之间的关联度,确定出与所述输入文本的语义的关联度高的T个反馈文本。
按照上述过程,分别获取输入文本与数据库中每个反馈文本之间的关联度,确定出关联度最高的T个反馈文本,作为输入文本的检索结果。
本实施例中,由于数据库中的各反馈文本的语义信息是预先计算的,所以对输入文本进行检索时,可以利用向量检索算法,如annoy算法,提高检索效率和性能。通过识别输入文本和反馈文本中的核心实体,以N-gram特征实现多维度下的语义匹配过程,提高输入文本和反馈文本的匹配结果的准确性。本实施例的语义匹配方法,能够应用到需要进行语义匹配的任意场景中。即使是问题和标题的匹配也可以进行应用。
图5为本发明一实施例提供的语义匹配装置的结构示意图。本实施例的语义匹配装置可应用于如图1所示的语义匹配设备,该装置可以为软件和/或硬件的形式。如图5所示,本实施例提供的语义匹配装置500,包括:
第一获取模块501,用于获取输入文本中的M个实体,以及各所述实体的特征向量;
第二获取模块502,用于根据各所述实体的特征向量,获取所述输入文本对应的语义信息,所述语义信息包括第一语义信息至第N语义信息,其中,第n语义信息用于指示对所述M个实体进行组合得到的
Figure BDA0002070190890000141
个片段中每个片段的语义,每个片段对应的实体个数为n,N为大于1且小于等于M的自然数,n为大于等于1且小于等于N的自然数;
匹配模块503,用于将所述输入文本对应的语义信息与数据库中存储的各反馈文本对应的语义信息进行匹配,确定出与所述输入文本的语义的关联度高的T个反馈文本。
本实施例的语义匹配装置,可用于执行如图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图6为本发明另一实施例提供的语义匹配装置的结构示意图。在图5所示实施例的基础上,本实施例的语义匹配装置500,还包括:构建模块504。
可选的,所述第二获取模块502具体用于:
针对1<=n<=N的每个n,每次从各所述实体中获取n个实体,根据所述n个实体的特征向量,获取所述n个实体对应的n-gram特征,所述n-gram特征指示的是所述n个实体对应的片段的语义;
将各次获取的所述n-gram特征作为所述第n语义信息。
可选的,所述匹配模块503具体用于:
遍历所述数据库中的每个反馈文本,针对1<=n<=N的每个n,获取所述输入文本对应的第n语义信息与各所述反馈文本对应的第n语义信息之间匹配度,将所述匹配度作为第n匹配度;
根据所述第一匹配度至所述第N匹配度,确定所述输入文本对应的语义信息与所述反馈文本对应的语义信息之间的关联度;
根据所述输入文本对应的语义信息与各所述反馈文本对应的语义信息之间的关联度,确定出与所述输入文本的语义的关联度高的T个反馈文本。
可选的,所述匹配模块503具体用于:
针对所述输入文本对应的第n语义信息中的每个n-gram特征,分别获取所述n-gram特征与所述反馈文本对应的第n语义信息中的每个n-gram特征之间的距离,将所述距离的最小值作为所述第n匹配度。
可选的,所述匹配模块503具体用于:
将所述第一匹配度至所述第N匹配度进行加权平均的结果,作为所述输入文本对应的语义信息与所述反馈文本对应的语义信息之间的关联度。
可选的,所述第二获取模块502具体用于:
将所述n个实体的特征向量的平均值,作为所述n个实体对应的n-gram特征。
可选的,所述特征向量的维度为M维,所述第一获取模块具体用于:
根据已建立好的实体空间,获取各所述实体对应的特征向量,其中,所述实体空间为M维空间,所述实体空间中包括至少一个训练实体,每个训练实体在所述实体空间的位置用于指示所述训练实体对应的特征向量。
可选的,所述构建模块504,用于根据待训练的文本预料,获取所述文本预料中的所述训练实体;
根据所述文本预料中各所述训练实体之间的关联关系,建立所述实体空间。
本实施例的语义匹配装置,可用于执行上述任一方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图7为本发明实施例提供的语义匹配设备的硬件结构示意图。如图7所示,本实施例提供的语义匹配设备700,包括:处理器701以及存储器702;其中,存储器702,用于存储计算机程序;处理器701,用于执行存储器存储的计算机程序,以实现上述实施例中的语义匹配方法。具体可以参见前述方法实施例中的相关描述。
可选地,存储器702既可以是独立的,也可以跟处理器701集成在一起。
当所述存储器702是独立于处理器701之外的器件时,所述语义匹配设备700还可以包括:总线704,用于连接所述存储器702和处理器701。
可选的,可语义匹配设备为服务器时,语义匹配设备700还可以包括通信部件703,用于从终端设备接收输入文本,并向终端设备输出反馈文本。
本实施例提供的语义匹配设备,可用于执行上述任一方法实施例中的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序,所述计算机程序用于实现如上任一方法实施例中的技术方案。
本发明实施例还提供一种芯片,包括:存储器、处理器以及计算机程序,所述计算机程序存储在所述存储器中,所述处理器运行所述计算机程序执行上述任一方法实施例中的技术方案。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本发明附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (18)

1.一种语义匹配方法,其特征在于,包括:
获取输入文本中的M个实体,以及各所述实体的特征向量;
根据各所述实体的特征向量,获取所述输入文本对应的语义信息,所述语义信息包括第一语义信息至第N语义信息,其中,第n语义信息用于指示对所述M个实体进行组合得到的
Figure FDA0003059052870000011
个片段中每个片段的语义,每个片段对应的实体个数为n,N为大于1且小于等于M的自然数,n为大于等于1且小于等于N的自然数;
针对1<=n<=N的每个n,将所述输入文本对应的第n语义信息与数据库中存储的各反馈文本对应的第n语义信息进行匹配,确定出与所述输入文本的语义的关联度高的T个反馈文本。
2.根据权利要求1所述的方法,其特征在于,所述根据各所述实体的特征向量,获取所述输入文本对应的语义信息,包括:
针对1<=n<=N的每个n,每次从各所述实体中获取n个实体,根据所述n个实体的特征向量,获取所述n个实体对应的n-gram特征,所述n-gram特征指示的是所述n个实体对应的片段的语义;
将各次获取的所述n-gram特征作为所述第n语义信息。
3.根据权利要求2所述的方法,其特征在于,所述针对1<=n<=N的每个n,将所述输入文本对应的第n语义信息与数据库中存储的各反馈文本对应的第n语义信息进行匹配,确定出与所述输入文本的语义的关联度高的T个反馈文本,包括:
遍历所述数据库中的每个反馈文本,针对1<=n<=N的每个n,获取所述输入文本对应的第n语义信息与各所述反馈文本对应的第n语义信息之间匹配度,将所述匹配度作为第n匹配度;
根据所述第一匹配度至所述第N匹配度,确定所述输入文本对应的语义信息与所述反馈文本对应的语义信息之间的关联度;
根据所述输入文本对应的语义信息与各所述反馈文本对应的语义信息之间的关联度,确定出与所述输入文本的语义的关联度高的T个反馈文本。
4.根据权利要求3所述的方法,其特征在于,所述获取所述输入文本对应的第n语义信息与各所述反馈文本对应的第n语义信息之间匹配度,将所述匹配度作为第n匹配度,包括:
针对所述输入文本对应的第n语义信息中的每个n-gram特征,分别获取所述n-gram特征与所述反馈文本对应的第n语义信息中的每个n-gram特征之间的距离,将所述距离的最小值作为所述第n匹配度。
5.根据权利要求3所述的方法,其特征在于,所述根据所述第一匹配度至所述第N匹配度,确定所述输入文本对应的语义信息与所述反馈文本对应的语义信息之间的关联度,包括:
将所述第一匹配度至所述第N匹配度进行加权平均的结果,作为所述输入文本对应的语义信息与所述反馈文本对应的语义信息之间的关联度。
6.根据权利要求2所述的方法,其特征在于,所述根据所述n个实体的特征向量,获取所述n个实体对应的n-gram特征,包括:
将所述n个实体的特征向量的平均值,作为所述n个实体对应的n-gram特征。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述特征向量的维度为M维,所述获取各所述实体对应的特征向量,包括:
根据已建立好的实体空间,获取各所述实体对应的特征向量,其中,所述实体空间为M维空间,所述实体空间中包括至少一个训练实体,每个训练实体在所述实体空间的位置用于指示所述训练实体对应的特征向量,所述实体空间是根据各所述训练实体之间的关联关系构建的。
8.根据权利要求7所述的方法,其特征在于,在所述根据已训练好的实体空间,获取各所述实体对应的特征向量之前,还包括:
根据待训练的文本语料,获取所述文本预料中的所述训练实体;
根据所述文本预料中各所述训练实体之间的关联关系,建立所述实体空间。
9.一种语义匹配装置,其特征在于,包括:
第一获取模块,用于获取输入文本中的M个实体,以及各所述实体的特征向量;
第二获取模块,用于根据各所述实体的特征向量,获取所述输入文本对应的语义信息,所述语义信息包括第一语义信息至第N语义信息,其中,第n语义信息用于指示对所述M个实体进行组合得到的
Figure FDA0003059052870000021
个片段中每个片段的语义,每个片段对应的实体个数为n,N为大于1且小于等于M的自然数,n为大于等于1且小于等于N的自然数;
匹配模块,用于针对1<=n<=N的每个n,将所述输入文本对应的第n语义信息与数据库中存储的各反馈文本对应的第n语义信息进行匹配,确定出与所述输入文本的语义的关联度高的T个反馈文本。
10.根据权利要求9所述的装置,其特征在于,所述第二获取模块具体用于:
针对1<=n<=N的每个n,每次从各所述实体中获取n个实体,根据所述n个实体的特征向量,获取所述n个实体对应的n-gram特征,所述n-gram特征指示的是所述n个实体对应的片段的语义;
将各次获取的所述n-gram特征作为所述第n语义信息。
11.根据权利要求10所述的装置,其特征在于,所述匹配模块具体用于:
遍历所述数据库中的每个反馈文本,针对1<=n<=N的每个n,获取所述输入文本对应的第n语义信息与各所述反馈文本对应的第n语义信息之间匹配度,将所述匹配度作为第n匹配度;
根据所述第一匹配度至所述第N匹配度,确定所述输入文本对应的语义信息与所述反馈文本对应的语义信息之间的关联度;
根据所述输入文本对应的语义信息与各所述反馈文本对应的语义信息之间的关联度,确定出与所述输入文本的语义的关联度高的T个反馈文本。
12.根据权利要求11所述的装置,其特征在于,所述匹配模块具体用于:
针对所述输入文本对应的第n语义信息中的每个n-gram特征,分别获取所述n-gram特征与所述反馈文本对应的第n语义信息中的每个n-gram特征之间的距离,将所述距离的最小值作为所述第n匹配度。
13.根据权利要求11所述的装置,其特征在于,所述匹配模块具体用于:
将所述第一匹配度至所述第N匹配度进行加权平均的结果,作为所述输入文本对应的语义信息与所述反馈文本对应的语义信息之间的关联度。
14.根据权利要求10所述的装置,其特征在于,所述第二获取模块具体用于:
将所述n个实体的特征向量的平均值,作为所述n个实体对应的n-gram特征。
15.根据权利要求9至14任一项所述的装置,其特征在于,所述特征向量的维度为M维,所述第一获取模块具体用于:
根据已建立好的实体空间,获取各所述实体对应的特征向量,其中,所述实体空间为M维空间,所述实体空间中包括至少一个训练实体,每个训练实体在所述实体空间的位置用于指示所述训练实体对应的特征向量,所述实体空间是根据各所述训练实体之间的关联关系构建的。
16.根据权利要求15所述的装置,其特征在于,所述装置还包括:
构建模块,用于根据待训练的文本语料,获取所述文本预料中的所述训练实体;
根据所述文本预料中各所述训练实体之间的关联关系,建立所述实体空间。
17.一种语义匹配设备,其特征在于,包括:存储器、处理器以及计算机程序,所述计算机程序存储在所述存储器中,所述处理器运行所述计算机程序执行如权利要求1至8任一项所述的方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。
CN201910434800.7A 2019-05-23 2019-05-23 语义匹配方法、装置及设备 Active CN110287284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910434800.7A CN110287284B (zh) 2019-05-23 2019-05-23 语义匹配方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910434800.7A CN110287284B (zh) 2019-05-23 2019-05-23 语义匹配方法、装置及设备

Publications (2)

Publication Number Publication Date
CN110287284A CN110287284A (zh) 2019-09-27
CN110287284B true CN110287284B (zh) 2021-07-06

Family

ID=68002451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910434800.7A Active CN110287284B (zh) 2019-05-23 2019-05-23 语义匹配方法、装置及设备

Country Status (1)

Country Link
CN (1) CN110287284B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110928992B (zh) * 2019-11-21 2022-06-10 邝俊伟 文本搜索方法、装置、服务器及存储介质
CN113555018B (zh) * 2021-07-20 2024-05-28 海信视像科技股份有限公司 语音交互方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398814A (zh) * 2007-09-26 2009-04-01 北京大学 一种同时抽取文档摘要和关键词的方法及***
CN103164454A (zh) * 2011-12-15 2013-06-19 百度在线网络技术(北京)有限公司 关键词分组方法及***
CN103336847A (zh) * 2013-07-22 2013-10-02 厦门市美亚柏科信息股份有限公司 一种新闻热点标签的生成方法及***
CN103377226A (zh) * 2012-04-25 2013-10-30 ***通信集团公司 一种智能检索方法及其***
CN106610972A (zh) * 2015-10-21 2017-05-03 阿里巴巴集团控股有限公司 查询改写方法及装置
CN108197098A (zh) * 2017-11-22 2018-06-22 阿里巴巴集团控股有限公司 一种关键词组合策略的生成及关键词扩展方法、装置和设备
CN108959247A (zh) * 2018-06-19 2018-12-07 深圳市元征科技股份有限公司 一种数据处理方法、服务器及计算机可读介质
CN109189882A (zh) * 2018-08-08 2019-01-11 北京百度网讯科技有限公司 序列内容的回答类型识别方法、装置、服务器和存储介质
CN109325108A (zh) * 2018-08-13 2019-02-12 北京百度网讯科技有限公司 查询处理方法、装置、服务器及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2571373C2 (ru) * 2014-03-31 2015-12-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Метод анализа тональности текстовых данных
US9971763B2 (en) * 2014-04-08 2018-05-15 Microsoft Technology Licensing, Llc Named entity recognition

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398814A (zh) * 2007-09-26 2009-04-01 北京大学 一种同时抽取文档摘要和关键词的方法及***
CN103164454A (zh) * 2011-12-15 2013-06-19 百度在线网络技术(北京)有限公司 关键词分组方法及***
CN103377226A (zh) * 2012-04-25 2013-10-30 ***通信集团公司 一种智能检索方法及其***
CN103336847A (zh) * 2013-07-22 2013-10-02 厦门市美亚柏科信息股份有限公司 一种新闻热点标签的生成方法及***
CN106610972A (zh) * 2015-10-21 2017-05-03 阿里巴巴集团控股有限公司 查询改写方法及装置
CN108197098A (zh) * 2017-11-22 2018-06-22 阿里巴巴集团控股有限公司 一种关键词组合策略的生成及关键词扩展方法、装置和设备
CN108959247A (zh) * 2018-06-19 2018-12-07 深圳市元征科技股份有限公司 一种数据处理方法、服务器及计算机可读介质
CN109189882A (zh) * 2018-08-08 2019-01-11 北京百度网讯科技有限公司 序列内容的回答类型识别方法、装置、服务器和存储介质
CN109325108A (zh) * 2018-08-13 2019-02-12 北京百度网讯科技有限公司 查询处理方法、装置、服务器及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱龙霞.面向中文问答***问题分析与答案抽取方法研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2019, *

Also Published As

Publication number Publication date
CN110287284A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN108304437B (zh) 一种自动问答方法、装置及存储介质
WO2020192401A1 (en) System and method for generating answer based on clustering and sentence similarity
CN110298028B (zh) 一种文本段落的关键句提取方法和装置
US10346494B2 (en) Search engine system communicating with a full text search engine to retrieve most similar documents
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
WO2021189951A1 (zh) 文本搜索方法、装置、计算机设备和存储介质
CN111898643B (zh) 一种语义匹配方法及装置
CN110472043B (zh) 一种针对评论文本的聚类方法及装置
CN113326420B (zh) 问题检索方法、装置、电子设备和介质
CN110874528B (zh) 文本相似度的获取方法及装置
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN114880447A (zh) 信息检索方法、装置、设备及存储介质
CN110263127A (zh) 基于用户查询词进行文本搜索方法及装置
CN110287284B (zh) 语义匹配方法、装置及设备
CN114186061A (zh) 语句意图预测方法、装置、存储介质及计算机设备
CN113505196B (zh) 基于词性的文本检索方法、装置、电子设备及存储介质
CN113743090A (zh) 一种关键词提取方法及装置
CN113806510A (zh) 一种法律条文检索方法、终端设备及计算机存储介质
CN110427626B (zh) 关键词的提取方法及装置
CN109918661B (zh) 同义词获取方法及装置
CN116484829A (zh) 用于信息处理的方法和设备
CN108763258B (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
CN112597287B (zh) 一种语句处理方法、语句处理装置及智能设备
CN112800314B (zh) 搜索引擎询问自动补全的方法、***、存储介质及设备
CN114610796A (zh) 文本相似度确定方法、装置、存储介质以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant