CN110413730B - 文本信息匹配度检测方法、装置、计算机设备和存储介质 - Google Patents

文本信息匹配度检测方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110413730B
CN110413730B CN201910569471.7A CN201910569471A CN110413730B CN 110413730 B CN110413730 B CN 110413730B CN 201910569471 A CN201910569471 A CN 201910569471A CN 110413730 B CN110413730 B CN 110413730B
Authority
CN
China
Prior art keywords
text information
vector
preset
similarity
implicit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910569471.7A
Other languages
English (en)
Other versions
CN110413730A (zh
Inventor
金戈
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910569471.7A priority Critical patent/CN110413730B/zh
Priority to PCT/CN2019/103650 priority patent/WO2020258506A1/zh
Publication of CN110413730A publication Critical patent/CN110413730A/zh
Application granted granted Critical
Publication of CN110413730B publication Critical patent/CN110413730B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种文本信息匹配度检测方法,该方法包括:获取对象文本信息及其对应的参考文本信息;将所述对象文本信息转换为第一隐含特征向量,以及将所述参考文本信息转换为第二隐含特征向量;计算所述第一隐含特征向量与所述第二隐含特征向量之间的向量相似度;根据所述对象文本信息以及预设的关键词获取逻辑回归模型,将所述向量相似度输入所述逻辑回归模型,得到所述对象文本信息与所述参考文本信息之间对象文本信息的匹配度。匹配度检测更加准确。

Description

文本信息匹配度检测方法、装置、计算机设备和存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种文本信息匹配度检测方法、装置、计算机设备和存储介质。
背景技术
文本匹配度是指不同文本之间的语义关联度,文本匹配度的确定是文本挖掘和文本检索的核心工作之一,因此,如何更好的进行文本匹配度检测一直是本领域技术人员极为关注的问题。
现有技术进行文本匹配度检测的主要方式为:将文本映射成单词空间中的一个向量,计算向量之间欧式距离或者余弦距离。现有的文本匹配度检测方式只是在单词空间进行文本相似度的确定,并没有考虑文本特征之间的关联和语义信息,因此匹配度检测不够准确。
发明内容
本发明的目的在于提供一种文本信息匹配度检测方法、装置、计算机设备和可读存储介质,使得文本信息匹配度检测更加准确。
本发明的目的通过如下技术方案实现:
一种文本信息匹配度检测方法,所述方法包括:
获取对象文本信息及其对应的参考文本信息;
根据预设自编码结构将所述对象文本信息转换为第一隐含特征向量,以及将所述参考文本信息转换为第二隐含特征向量;其中,所述第一隐含特征向量用于代表所述对象文本信息的特征信息;所述第二隐含特征向量用于代表所述参考文本信息的特征信息;
计算所述第一隐含特征向量与所述第二隐含特征向量之间的向量相似度;
根据所述对象文本信息以及预设的关键词获取逻辑回归模型,将所述向量相似度输入所述逻辑回归模型,得到所述对象文本信息与所述参考文本信息之间对象文本信息的匹配度。
在一个实施例中,所述根据预设自编码结构将所述对象文本信息转换为第一隐含特征向量,包括:
将所述对象文本信息输入预设学习算法,得到对象输入向量;
将所述对象输入向量输入所述预设自编码结构,提取所述预设自编码结构中与所述对象输入向量对应的所述第一隐含特征向量。
在一个实施例中,所述参考文本信息包括与所述对象文本信息对应的问题文本信息和标准文本信息;所述第二隐含特征向量包括问题隐含特征向量和标准隐含特征向量;所述将所述参考文本信息转换为第二隐含特征向量,包括:
将所述问题文本信息输入预设学习算法,得到问题输入向量;
将所述问题输入向量输入预设自编码结构,提取所述预设自编码结构中与所述问题输入向量对应的所述问题隐含特征向量;
将所述标准文本信息输入预设学习算法,得到标准输入向量;
将所述标准输入向量输入所述预设自编码结构,提取所述预设自编码结构中与所述标准输入向量对应的所述标准隐含特征向量。
在一个实施例中,所述获取对象文本信息及其对应的参考文本信息的步骤之后,还包括:
获取与所述对象文本信息相关联的训练特征向量;
根据所述训练特征向量,对预存的多个自编码结构进行训练,得到多个训练自编码结构;
计算各所述训练自编码结构的信息损失量,选取信息损失量最小的训练自编码结构,作为预设自编码结构。
在一个实施例中,所述向量相似度包括问题相似度和标准相似度;所述计算所述第一隐含特征向量与所述第二隐含特征向量之间的向量相似度,包括:
计算所述第一隐含特征向量和所述问题隐含特征向量之间的夹角余弦值,得到所述问题相似度;
计算所述第一隐含特征向量和所述标准隐含特征向量之间的夹角余弦值,得到所述标准相似度。
在一个实施例中,所述根据所述对象文本信息以及预设的关键词获取逻辑回归模型,包括:
获取预设关键词和所述对象文本信息之间的关键词相似度;
将所述关键词相似度和所述向量相似度设为预设的初始回归模型的参数,得到与所述对象文本信息对应的所述逻辑回归模型。
在一个实施例中,所述获取预设关键词和所述对象文本信息之间的关键词相似度,包括:
计算预设关键词库中各关键词的信息价值,选取信息价值大于预设阈值的关键词设为所述预设关键词;
将所述对象文本信息拆分得到多个对象词语,计算所述预设关键词和所述对象词语的相似度;
选取所述相似度中的最大值设为所述关键词相似度。
一种文本信息匹配度检测装置,所述装置包括:
文本信息获取模块,用于获取对象文本信息及其对应的参考文本信息;
文本信息转换模块,用于根据预设自编码结构将所述对象文本信息转换为第一隐含特征向量,以及将所述参考文本信息转换为第二隐含特征向量;其中,所述第一隐含特征向量用于代表所述对象文本信息的特征信息;所述第二隐含特征向量用于代表所述参考文本信息的特征信息;
向量相似度获取模块,用于计算所述第一隐含特征向量与所述第二隐含特征向量之间的向量相似度;
匹配度检测模块,用于根据所述对象文本信息以及预设的关键词获取逻辑回归模型,将所述向量相似度输入所述逻辑回归模型,得到所述对象文本信息与所述参考文本信息之间对象文本信息的匹配度。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
获取对象文本信息及其对应的参考文本信息;
根据预设自编码结构将所述对象文本信息转换为第一隐含特征向量,以及将所述参考文本信息转换为第二隐含特征向量;其中,所述第一隐含特征向量用于代表所述对象文本信息的特征信息;所述第二隐含特征向量用于代表所述参考文本信息的特征信息;
计算所述第一隐含特征向量与所述第二隐含特征向量之间的向量相似度;
根据所述对象文本信息以及预设的关键词获取逻辑回归模型,将所述向量相似度输入所述逻辑回归模型,得到所述对象文本信息与所述参考文本信息之间对象文本信息的匹配度。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
获取对象文本信息及其对应的参考文本信息;
根据预设自编码结构将所述对象文本信息转换为第一隐含特征向量,以及将所述参考文本信息转换为第二隐含特征向量;其中,所述第一隐含特征向量用于代表所述对象文本信息的特征信息;所述第二隐含特征向量用于代表所述参考文本信息的特征信息;
计算所述第一隐含特征向量与所述第二隐含特征向量之间的向量相似度;
根据所述对象文本信息以及预设的关键词获取逻辑回归模型,将所述向量相似度输入所述逻辑回归模型,得到所述对象文本信息与所述参考文本信息之间对象文本信息的匹配度。
本发明提供的文本信息匹配度检测方法,其获取对象文本信息及其对应的参考文本信息;将所述对象文本信息转换为第一隐含特征向量,以及将所述参考文本信息转换为第二隐含特征向量;计算所述第一隐含特征向量与所述第二隐含特征向量之间的向量相似度,可以有效提取对象文本信息和参考文本信息之间的隐含语义特征并进行匹配;根据所述对象文本信息以及预设的关键词获取逻辑回归模型,将所述向量相似度输入所述逻辑回归模型,得到所述对象文本信息与所述参考文本信息之间对象文本信息的匹配度,通过将对象文本信息和参考文本信息之间的隐含语义特征之间的向量相似度输入与对象文本信息对应的逻辑回归模型,可以有效提高文本信息匹配度检测的准确度。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为一个实施例中文本信息匹配度检测方法的应用环境图;
图2为一个实施例中文本信息匹配度检测方法的流程示意图;
图3为另一个实施例中文本信息匹配度检测方法的流程示意图;
图4为一个实施例中文本信息匹配度检测装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本申请提供的文本信息匹配度检测方法,可以应用于如图1所示的应用环境中,图中的服务器可以采用计算机设备来实现,该计算机设备包括通过装置总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的数据库用于存储文本信息匹配度检测涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。具体的,服务器获取对象文本信息及其对应的参考文本信息;服务器将所述对象文本信息转换为第一隐含特征向量,以及将所述参考文本信息转换为第二隐含特征向量;服务器计算所述第一隐含特征向量与所述第二隐含特征向量之间的向量相似度;服务器根据所述对象文本信息以及预设的关键词获取逻辑回归模型,将所述向量相似度输入所述逻辑回归模型,得到所述对象文本信息与所述参考文本信息之间对象文本信息的匹配度。本技术领域技术人员可以理解,这里所使用的“服务器”可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种文本信息匹配度检测方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S201,获取对象文本信息及其对应的参考文本信息。
本步骤中,对象文本信息可以是待检测匹配度的答案文本;参考文本信息可以是和答案文本对应的问题文本和标准文本。
以文本评阅为例,用户针对问题作出的答案为对象文本信息,参考文本信息为问题和与问题对应的标准答案;检测对象文本信息和参考文本信息之间的匹配度,即判断答案与问题和标准答案之间的语义关联程度的过程。
在一个实施例中,所述步骤S201所述获取对象文本信息及其对应的参考文本信息的步骤之后,还包括:
A1,获取与所述对象文本信息相关联的训练特征向量。
A2,根据所述训练特征向量,对预存的多个自编码结构进行训练,得到多个训练自编码结构;
在本步骤中,可以通过自编码结构将文本信息转化成隐含特征向量;其中,自编码结构是一种神经网络,将输入自编码结构的特征进行编码,然后进行解码,使得输入与输出差异最小化。
A3,计算各所述训练自编码结构的信息损失量,选取信息损失量最小的训练自编码结构,作为预设自编码结构。
在具体实施过程中,自编码结构的训练过程是使输入和输出差异最小化的过程,将训练特征向量分别输入多个不同的自编码结构,不同的自编码结构的区别在于隐层数量和隐层单元数量的不同,分别调整多个自编码结构的参数,使各自编码结构输出和训练特征向量差异最小化,根据各训练自编码结构的输入和输出的差异值,从多个训练自编码结构中选取目标自编码结构。
步骤S202,将所述对象文本信息转换为第一隐含特征向量,以及将所述参考文本信息转换为第二隐含特征向量。
在本步骤中,隐含特征向量是将输入自编码结构的特征进行编码得到的特征向量,保留了原始输入自编码结构的输入向量的大量信息,用于代表输入自编码结构的对象文本信息和参考文本信息的特征信息;自编码结构再将隐含特征向量进行解码还原,得到输出特征编码。
在一个实施例中,对于步骤S202将所述对象文本信息转换为第一隐含特征向量,可以包括:
B1,将所述对象文本信息输入预设学习算法,得到对象输入向量。
B2,将所述对象输入向量输入预设自编码结构,提取所述预设自编码结构中与所述对象输入向量对应的所述第一隐含特征向量。
在本实施例中,预设学习算法是用于将文本转化成对应的向量的算法,例如,通过Python中的sklearn库,将对象文本信息转化为词袋模型特征形式的对象输入向量;其中,Python是一种计算机程序设计语言;sklearn,也称为scikit-learn,是基于python的机器学习库,可以方便进行机器学习算法的实施,包括:分类、回归、聚类、降维、模型选择和预处理等数据挖掘的相关算法。
例如,现有文本一:“我喜欢吃苹果,苹果营养丰富”,以及文本二:“我喜欢吃梨”,则首先通过Python中的jieba库进行分词以将话语中的词语分隔开来,随后通过sklearn库建立词袋模型特征(特征将包括“我”、“喜欢”、“吃”、“苹果”、“营养”、“丰富”、“梨”),并根据词语出现频次确定各个样本的特征数值,可以得到,文本一的特征向量(1,1,1,2,1,1,0),文本二的特征向量为(1,1,1,0,0,0,1))。其中,jieba库是一种Python中文分词库。
进一步的,参考文本信息包括与所述对象文本信息对应的问题文本信息和标准文本信息;所述第二隐含特征向量包括问题隐含特征向量和标准隐含特征向量;对于步骤S202中将所述参考文本信息转换为第二隐含特征向量,包括:
B3,将所述问题文本信息输入预设学习算法,得到问题输入向量;将所述问题输入向量输入预设自编码结构,提取所述预设自编码结构中与所述问题输入向量对应的所述问题隐含特征向量;
B4,将所述标准文本信息输入预设学习算法,得到标准输入向量;将所述标准输入向量输入所述预设自编码结构,提取所述预设自编码结构中与所述标准输入向量对应的所述标准隐含特征向量。
在本实施例中,通过预设学习算法将对象文本信息、参考文本信息分别转化为对象输入向量和参考输入向量;然后分别将对象输入向量和参考输入向量输入到预设自编码结构,提取自编码结构中和对象输入向量对应的第一隐含特征向量,以及与参考输入向量对应的第二隐含特征向量,可以有效提取对象文本信息和参考文本信息之间的隐含语义特征。
步骤S203,计算所述第一隐含特征向量与所述第二隐含特征向量之间的向量相似度。
在本步骤中,向量关于相似度的计算,通常是计算两个向量之间的距离,距离越近,相似度越大,可以采用余弦相似度计算方法,计算第一隐含特征向量与所述第二隐含特征向量之间的向量相似度。
在一个实施例中,所述向量相似度包括问题相似度和标准相似度;步骤S203所述计算所述第一隐含特征向量与所述第二隐含特征向量之间的向量相似度,包括:
C1,计算所述第一隐含特征向量和所述问题隐含特征向量之间的夹角余弦值,得到所述问题相似度;
C2,计算所述第一隐含特征向量和所述标准隐含特征向量之间的夹角余弦值,得到所述标准相似度。
其中,余弦相似度计算方法又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度;0度角的余弦值是1,而其他任何角度的余弦值都不大于1,并且其最小值是-1,从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1;余弦相似度通常用于正空间,因此给出的值为0到1之间。
步骤S204,根据所述对象文本信息以及预设的关键词获取逻辑回归模型,将所述向量相似度输入所述逻辑回归模型,得到所述对象文本信息与所述参考文本信息之间对象文本信息的匹配度。
在本步骤中,通过对象文本信息和预设关键词计算得到逻辑回归模型的参数,再将向量相似度输入逻辑回归模型,输出一个匹配度数值。
以文本评分为例,根据用户作答的答案文本和预设关键词计算得到一系列参数,根据得到的参数建立对应的逻辑回归模型,再将答案文本与参考文本之间的相似度输入到逻辑回归模型,就可以得到一个匹配分值。
下面,将结合图3和具体实施例来阐述本发明中逻辑回归模型的获取过程。在一个实施例中,步骤S204所述根据所述对象文本信息以及预设的关键词获取逻辑回归模型,包括:
S410,获取预设关键词和所述对象文本信息之间的关键词相似度;
S420,将所述关键词相似度和所述向量相似度设为预设的初始回归模型的参数,得到与所述对象文本信息对应的所述逻辑回归模型。
在一个实施例中,步骤S410获取预设关键词和所述对象文本信息之间的关键词相似度,包括:
D1,计算预设关键词库中各关键词的信息价值,选取信息价值大于预设阈值的关键词设为所述预设关键词;
D2,将所述对象文本信息拆分得到多个对象词语,计算所述预设关键词和所述对象词语的相似度;
D3,选取所述相似度中的最大值设为所述关键词相似度。
在选取关键词的过程中,信息价值越大的关键词,说明该关键词越能评判对象文本信息的语义的关联度,例如,计算预设词库中信息价值最高的十个关键词,将这十个关键词分别和多个对象词语计算相似度,然后选取对象文本中和关键词相似度最高的那个对象词语,就可以得到最终的十个相似度值,将十个相似度值和向量相似度一起作为逻辑回归模型的参数。
上述文本信息匹配度检测方法,通过获取对象文本信息及其对应的参考文本信息;将所述对象文本信息转换为第一隐含特征向量,以及将所述参考文本信息转换为第二隐含特征向量;计算所述第一隐含特征向量与所述第二隐含特征向量之间的向量相似度,可以有效提取对象文本信息和参考文本信息之间的隐含语义特征并进行匹配;根据所述对象文本信息以及预设的关键词获取逻辑回归模型,将所述向量相似度输入所述逻辑回归模型,得到所述对象文本信息与所述参考文本信息之间对象文本信息的匹配度,通过将对象文本信息和参考文本信息之间的隐含语义特征之间的向量相似度输入与对象文本信息对应的逻辑回归模型,可以有效提高文本信息匹配度检测的准确度。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在其中一个实施例中,如图4所示,提供了一种文本信息匹配度检测装置,装置包括:
文本信息获取模块401,用于获取对象文本信息及其对应的参考文本信息;
文本信息转换模块402,用于将所述对象文本信息转换为第一隐含特征向量,以及将所述参考文本信息转换为第二隐含特征向量;
向量相似度获取模块403,用于计算所述第一隐含特征向量与所述第二隐含特征向量之间的向量相似度;
匹配度检测模块404,用于根据所述对象文本信息以及预设的关键词获取逻辑回归模型,将所述向量相似度输入所述逻辑回归模型,得到所述对象文本信息与所述参考文本信息之间对象文本信息的匹配度。
关于文本信息匹配度检测装置的具体限定可以参见上文中对于文本信息匹配度检测方法的限定,在此不再赘述。上述文本信息匹配度检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种服务器,该服务器可以采用计算机设备来实现,其内部结构图可以如图5所示。该计算机设备包括通过装置总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作装置、计算机程序和数据库。该内存储器为非易失性存储介质中的操作装置和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本信息匹配度检测涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本信息匹配度检测方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取对象文本信息及其对应的参考文本信息;将所述对象文本信息转换为第一隐含特征向量,以及将所述参考文本信息转换为第二隐含特征向量;计算所述第一隐含特征向量与所述第二隐含特征向量之间的向量相似度;根据所述对象文本信息以及预设的关键词获取逻辑回归模型,将所述向量相似度输入所述逻辑回归模型,得到所述对象文本信息与所述参考文本信息之间对象文本信息的匹配度。
在其中一个实施例中,处理器执行计算机程序时所述获取目标自编码结构,包括:将所述对象文本信息输入预设学习算法,得到对象输入向量;将所述对象输入向量输入预设自编码结构,提取所述预设自编码结构中与所述对象输入向量对应的所述第一隐含特征向量。
在其中一个实施例中,处理器执行计算机程序时所述参考文本信息包括与所述对象文本信息对应的问题文本信息和标准文本信息;所述第二隐含特征向量包括问题隐含特征向量和标准隐含特征向量;所述将所述参考文本信息转换为第二隐含特征向量,包括:将所述问题文本信息输入预设学习算法,得到问题输入向量;将所述问题输入向量输入预设自编码结构,提取所述预设自编码结构中与所述问题输入向量对应的所述问题隐含特征向量;将所述标准文本信息输入预设学习算法,得到标准输入向量;将所述标准输入向量输入所述预设自编码结构,提取所述预设自编码结构中与所述标准输入向量对应的所述标准隐含特征向量。
在其中一个实施例中,处理器执行计算机程序时所述获取对象文本信息及其对应的参考文本信息的步骤之后,还包括:获取与所述对象文本信息相关联的训练特征向量;根据所述训练特征向量,对预存的多个自编码结构进行训练,得到多个训练自编码结构;计算各所述训练自编码结构的信息损失量,选取信息损失量最小的训练自编码结构,作为预设自编码结构。
在其中一个实施例中,处理器执行计算机程序时所述向量相似度包括问题相似度和标准相似度;所述计算所述第一隐含特征向量与所述第二隐含特征向量之间的向量相似度,包括:计算所述第一隐含特征向量和所述问题隐含特征向量之间的夹角余弦值,得到所述问题相似度;计算所述第一隐含特征向量和所述标准隐含特征向量之间的夹角余弦值,得到所述标准相似度。
在其中一个实施例中,处理器执行计算机程序时所述根据所述对象文本信息以及预设的关键词获取逻辑回归模型,包括:获取预设关键词和所述对象文本信息之间的关键词相似度;将所述关键词相似度和所述向量相似度设为预设的初始回归模型的参数,得到与所述对象文本信息对应的所述逻辑回归模型。
在其中一个实施例中,处理器执行计算机程序时所述获取预设关键词和所述对象文本信息之间的关键词相似度,包括:计算预设关键词库中各关键词的信息价值,选取信息价值大于预设阈值的关键词设为所述预设关键词;将所述对象文本信息拆分得到多个对象词语,计算所述预设关键词和所述对象词语的相似度;选取所述相似度中的最大值设为所述关键词相似度。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取对象文本信息及其对应的参考文本信息;将所述对象文本信息转换为第一隐含特征向量,以及将所述参考文本信息转换为第二隐含特征向量;计算所述第一隐含特征向量与所述第二隐含特征向量之间的向量相似度;根据所述对象文本信息以及预设的关键词获取逻辑回归模型,将所述向量相似度输入所述逻辑回归模型,得到所述对象文本信息与所述参考文本信息之间对象文本信息的匹配度。
在其中一个实施例中,计算机程序被处理器执行时所述获取目标自编码结构,包括:将所述对象文本信息输入预设学习算法,得到对象输入向量;将所述对象输入向量输入预设自编码结构,提取所述预设自编码结构中与所述对象输入向量对应的所述第一隐含特征向量。
在其中一个实施例中,计算机程序被处理器执行时所述参考文本信息包括与所述对象文本信息对应的问题文本信息和标准文本信息;所述第二隐含特征向量包括问题隐含特征向量和标准隐含特征向量;所述将所述参考文本信息转换为第二隐含特征向量,包括:将所述问题文本信息输入预设学习算法,得到问题输入向量;将所述问题输入向量输入预设自编码结构,提取所述预设自编码结构中与所述问题输入向量对应的所述问题隐含特征向量;将所述标准文本信息输入预设学习算法,得到标准输入向量;将所述标准输入向量输入所述预设自编码结构,提取所述预设自编码结构中与所述标准输入向量对应的所述标准隐含特征向量。
在其中一个实施例中,计算机程序被处理器执行时所述获取对象文本信息及其对应的参考文本信息的步骤之后,还包括:获取与所述对象文本信息相关联的训练特征向量;根据所述训练特征向量,对预存的多个自编码结构进行训练,得到多个训练自编码结构;计算各所述训练自编码结构的信息损失量,选取信息损失量最小的训练自编码结构,作为预设自编码结构。
在其中一个实施例中,计算机程序被处理器执行时所述向量相似度包括问题相似度和标准相似度;所述计算所述第一隐含特征向量与所述第二隐含特征向量之间的向量相似度,包括:计算所述第一隐含特征向量和所述问题隐含特征向量之间的夹角余弦值,得到所述问题相似度;计算所述第一隐含特征向量和所述标准隐含特征向量之间的夹角余弦值,得到所述标准相似度。
在其中一个实施例中,计算机程序被处理器执行时所述根据所述对象文本信息以及预设的关键词获取逻辑回归模型,包括:获取预设关键词和所述对象文本信息之间的关键词相似度;将所述关键词相似度和所述向量相似度设为预设的初始回归模型的参数,得到与所述对象文本信息对应的所述逻辑回归模型。
在其中一个实施例中,计算机程序被处理器执行时所述获取预设关键词和所述对象文本信息之间的关键词相似度,包括:计算预设关键词库中各关键词的信息价值,选取信息价值大于预设阈值的关键词设为所述预设关键词;将所述对象文本信息拆分得到多个对象词语,计算所述预设关键词和所述对象词语的相似度;选取所述相似度中的最大值设为所述关键词相似度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种文本信息匹配度检测方法,其特征在于,所述方法包括:
获取对象文本信息及其对应的参考文本信息,所述对象文本信息为待检测匹配度的答案文本,所述参考文本信息为所述答案文本对应的问题文本和标准文本;
根据预设自编码结构将所述对象文本信息转换为第一隐含特征向量,以及将所述参考文本信息转换为第二隐含特征向量;其中,所述第一隐含特征向量用于代表所述对象文本信息的特征信息;所述第二隐含特征向量用于代表所述参考文本信息的特征信息;
计算所述第一隐含特征向量与所述第二隐含特征向量之间的向量相似度;
根据所述对象文本信息以及预设的关键词获取逻辑回归模型,将所述向量相似度输入所述逻辑回归模型,得到所述对象文本信息与所述参考文本信息之间对象文本信息的匹配度;
所述根据所述对象文本信息以及预设的关键词获取逻辑回归模型,包括:
获取预设关键词和所述对象文本信息之间的关键词相似度;
将所述关键词相似度和所述向量相似度设为预设的初始回归模型的参数,得到与所述对象文本信息对应的所述逻辑回归模型;
所述根据预设自编码结构将所述对象文本信息转换为第一隐含特征向量,包括:
将所述对象文本信息输入预设学习算法,得到对象输入向量;
将所述对象输入向量输入所述预设自编码结构,提取所述预设自编码结构中与所述对象输入向量对应的所述第一隐含特征向量;
所述参考文本信息包括与所述对象文本信息对应的问题文本信息和标准文本信息;所述第二隐含特征向量包括问题隐含特征向量和标准隐含特征向量;所述将所述参考文本信息转换为第二隐含特征向量,包括:
将所述问题文本信息输入预设学习算法,得到问题输入向量;
将所述问题输入向量输入预设自编码结构,提取所述预设自编码结构中与所述问题输入向量对应的所述问题隐含特征向量;
将所述标准文本信息输入预设学习算法,得到标准输入向量;
将所述标准输入向量输入所述预设自编码结构,提取所述预设自编码结构中与所述标准输入向量对应的所述标准隐含特征向量。
2.根据权利要求1所述的方法,其特征在于,所述获取对象文本信息及其对应的参考文本信息的步骤之后,还包括:
获取与所述对象文本信息相关联的训练特征向量;
根据所述训练特征向量,对预存的多个自编码结构进行训练,得到多个训练自编码结构;
计算各所述训练自编码结构的信息损失量,选取信息损失量最小的训练自编码结构,作为预设自编码结构。
3.根据权利要求1所述的方法,其特征在于,所述向量相似度包括问题相似度和标准相似度;所述计算所述第一隐含特征向量与所述第二隐含特征向量之间的向量相似度,包括:
计算所述第一隐含特征向量和所述问题隐含特征向量之间的夹角余弦值,得到所述问题相似度;
计算所述第一隐含特征向量和所述标准隐含特征向量之间的夹角余弦值,得到所述标准相似度。
4.根据权利要求3所述的方法,其特征在于,所述获取预设关键词和所述对象文本信息之间的关键词相似度,包括:
计算预设关键词库中各关键词的信息价值,选取信息价值大于预设阈值的关键词设为所述预设关键词;
将所述对象文本信息拆分得到多个对象词语,计算所述预设关键词和所述对象词语的相似度;
选取所述相似度中的最大值设为所述关键词相似度。
5.一种文本信息匹配度检测装置,其特征在于,所述装置包括:
文本信息获取模块,用于获取对象文本信息及其对应的参考文本信息,所述对象文本信息为待检测匹配度的答案文本,所述参考文本信息为所述答案文本对应的问题文本和标准文本;
文本信息转换模块,用于根据预设自编码结构将所述对象文本信息转换为第一隐含特征向量,以及将所述参考文本信息转换为第二隐含特征向量;其中,所述第一隐含特征向量用于代表所述对象文本信息的特征信息;所述第二隐含特征向量用于代表所述参考文本信息的特征信息;
向量相似度获取模块,用于计算所述第一隐含特征向量与所述第二隐含特征向量之间的向量相似度;
匹配度检测模块,用于根据所述对象文本信息以及预设的关键词获取逻辑回归模型,将所述向量相似度输入所述逻辑回归模型,得到所述对象文本信息与所述参考文本信息之间对象文本信息的匹配度;
所述根据所述对象文本信息以及预设的关键词获取逻辑回归模型,包括:
获取预设关键词和所述对象文本信息之间的关键词相似度;
将所述关键词相似度和所述向量相似度设为预设的初始回归模型的参数,得到与所述对象文本信息对应的所述逻辑回归模型;
所述根据预设自编码结构将所述对象文本信息转换为第一隐含特征向量,包括:
将所述对象文本信息输入预设学习算法,得到对象输入向量;
将所述对象输入向量输入所述预设自编码结构,提取所述预设自编码结构中与所述对象输入向量对应的所述第一隐含特征向量;
所述参考文本信息包括与所述对象文本信息对应的问题文本信息和标准文本信息;所述第二隐含特征向量包括问题隐含特征向量和标准隐含特征向量;所述将所述参考文本信息转换为第二隐含特征向量,包括:
将所述问题文本信息输入预设学习算法,得到问题输入向量;
将所述问题输入向量输入预设自编码结构,提取所述预设自编码结构中与所述问题输入向量对应的所述问题隐含特征向量;
将所述标准文本信息输入预设学习算法,得到标准输入向量;
将所述标准输入向量输入所述预设自编码结构,提取所述预设自编码结构中与所述标准输入向量对应的所述标准隐含特征向量。
6.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
CN201910569471.7A 2019-06-27 2019-06-27 文本信息匹配度检测方法、装置、计算机设备和存储介质 Active CN110413730B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910569471.7A CN110413730B (zh) 2019-06-27 2019-06-27 文本信息匹配度检测方法、装置、计算机设备和存储介质
PCT/CN2019/103650 WO2020258506A1 (zh) 2019-06-27 2019-08-30 文本信息匹配度检测方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910569471.7A CN110413730B (zh) 2019-06-27 2019-06-27 文本信息匹配度检测方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN110413730A CN110413730A (zh) 2019-11-05
CN110413730B true CN110413730B (zh) 2024-06-07

Family

ID=68359982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910569471.7A Active CN110413730B (zh) 2019-06-27 2019-06-27 文本信息匹配度检测方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN110413730B (zh)
WO (1) WO2020258506A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111180086B (zh) * 2019-12-12 2023-04-25 平安医疗健康管理股份有限公司 数据匹配方法、装置、计算机设备和存储介质
CN111191457B (zh) * 2019-12-16 2023-09-15 浙江大搜车软件技术有限公司 自然语言语义识别方法、装置、计算机设备和存储介质
CN111401076B (zh) * 2020-04-09 2023-04-25 支付宝(杭州)信息技术有限公司 一种文本的相似度确定方法、装置和电子设备
CN113672694A (zh) * 2020-05-13 2021-11-19 武汉Tcl集团工业研究院有限公司 一种文本处理方法、终端以及存储介质
CN111737975A (zh) * 2020-05-14 2020-10-02 平安科技(深圳)有限公司 文本内涵质量的评估方法、装置、设备及存储介质
CN111639161A (zh) * 2020-05-29 2020-09-08 中国工商银行股份有限公司 制度信息处理方法、装置、计算机***和介质
CN112749252B (zh) * 2020-07-14 2023-11-03 腾讯科技(深圳)有限公司 一种基于人工智能的文本匹配方法和相关装置
CN112597281A (zh) * 2020-12-28 2021-04-02 中国农业银行股份有限公司 一种信息获取方法及装置
CN113836942B (zh) * 2021-02-08 2022-09-20 宏龙科技(杭州)有限公司 一种基于隐关键词的文本匹配方法
CN112989784A (zh) * 2021-03-04 2021-06-18 广州汇才创智科技有限公司 基于孪生神经网络的文本自动评分方法、装置及电子设备
CN113157871B (zh) * 2021-05-27 2021-12-21 宿迁硅基智能科技有限公司 应用人工智能的新闻舆情文本处理方法、服务器及介质
CN113343987B (zh) * 2021-06-30 2023-08-22 北京奇艺世纪科技有限公司 文本检测处理方法、装置、电子设备及存储介质
CN114003305B (zh) * 2021-10-22 2024-03-15 济南浪潮数据技术有限公司 设备相似度计算方法、计算机设备和存储介质
CN113989859B (zh) * 2021-12-28 2022-05-06 江苏苏宁银行股份有限公司 一种防刷机设备指纹相似度识别方法和装置
CN116188091A (zh) * 2023-05-04 2023-05-30 品茗科技股份有限公司 造价清单自动匹配单价引用的方法、装置、设备及介质
CN117195860B (zh) * 2023-11-07 2024-03-26 品茗科技股份有限公司 智能巡检方法、***、电子设备和计算机可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017092623A1 (zh) * 2015-11-30 2017-06-08 北京国双科技有限公司 文本向量表示方法及装置
WO2018001169A1 (zh) * 2016-06-28 2018-01-04 中兴通讯股份有限公司 自动问答方法及***
CN108920654A (zh) * 2018-06-29 2018-11-30 泰康保险集团股份有限公司 一种问答文本语义匹配的方法和装置
CN109189931A (zh) * 2018-09-05 2019-01-11 腾讯科技(深圳)有限公司 一种目标语句的筛选方法及装置
WO2019076191A1 (zh) * 2017-10-20 2019-04-25 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置
CN109766428A (zh) * 2019-02-02 2019-05-17 中国银行股份有限公司 数据查询方法和设备、数据处理方法
CN109766424A (zh) * 2018-12-29 2019-05-17 安徽省泰岳祥升软件有限公司 一种阅读理解模型训练数据的过滤方法及装置
CN109829299A (zh) * 2018-11-29 2019-05-31 电子科技大学 一种基于深度自编码器的未知攻击识别方法
CN109871531A (zh) * 2019-01-04 2019-06-11 平安科技(深圳)有限公司 隐含特征提取方法、装置、计算机设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918663B (zh) * 2019-03-04 2021-01-08 腾讯科技(深圳)有限公司 一种语义匹配方法、装置及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017092623A1 (zh) * 2015-11-30 2017-06-08 北京国双科技有限公司 文本向量表示方法及装置
WO2018001169A1 (zh) * 2016-06-28 2018-01-04 中兴通讯股份有限公司 自动问答方法及***
WO2019076191A1 (zh) * 2017-10-20 2019-04-25 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置
CN108920654A (zh) * 2018-06-29 2018-11-30 泰康保险集团股份有限公司 一种问答文本语义匹配的方法和装置
CN109189931A (zh) * 2018-09-05 2019-01-11 腾讯科技(深圳)有限公司 一种目标语句的筛选方法及装置
CN109829299A (zh) * 2018-11-29 2019-05-31 电子科技大学 一种基于深度自编码器的未知攻击识别方法
CN109766424A (zh) * 2018-12-29 2019-05-17 安徽省泰岳祥升软件有限公司 一种阅读理解模型训练数据的过滤方法及装置
CN109871531A (zh) * 2019-01-04 2019-06-11 平安科技(深圳)有限公司 隐含特征提取方法、装置、计算机设备及存储介质
CN109766428A (zh) * 2019-02-02 2019-05-17 中国银行股份有限公司 数据查询方法和设备、数据处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种针对机器阅读理解中答案获取的序列生成模型;霍欢;邹依婷;金轩城;黄君扬;薛瑶环;;计算机应用研究(第03期);第100-104页 *

Also Published As

Publication number Publication date
WO2020258506A1 (zh) 2020-12-30
CN110413730A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN110413730B (zh) 文本信息匹配度检测方法、装置、计算机设备和存储介质
CN110765763B (zh) 语音识别文本的纠错方法、装置、计算机设备和存储介质
CN107590192B (zh) 文本问题的数学化处理方法、装置、设备和存储介质
CN111062215B (zh) 基于半监督学习训练的命名实体识别方法和装置
CN110598206A (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN110569500A (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN112651238A (zh) 训练语料扩充方法及装置、意图识别模型训练方法及装置
CN112766319B (zh) 对话意图识别模型训练方法、装置、计算机设备及介质
CN111444349B (zh) 信息抽取方法、装置、计算机设备和存储介质
CN113627207B (zh) 条码识别方法、装置、计算机设备和存储介质
WO2021000412A1 (zh) 文本匹配度检测方法、装置、计算机设备和可读存储介质
CN110377733B (zh) 一种基于文本的情绪识别方法、终端设备及介质
CN114492429B (zh) 文本主题的生成方法、装置、设备及存储介质
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN111382572A (zh) 一种命名实体识别方法、装置、设备以及介质
CN112052329A (zh) 文本摘要生成方法、装置、计算机设备及可读存储介质
CN114332500A (zh) 图像处理模型训练方法、装置、计算机设备和存储介质
CN112732884A (zh) 目标回答语句生成方法、装置、计算机设备和存储介质
CN113723070A (zh) 文本相似度模型训练方法、文本相似度检测方法及装置
CN112733539A (zh) 面试实体识别模型训练、面试信息实体提取方法及装置
CN115146068A (zh) 关系三元组的抽取方法、装置、设备及存储介质
CN110532456B (zh) 案件查询方法、装置、计算机设备和存储介质
CN112749539B (zh) 文本匹配方法、装置、计算机可读存储介质和计算机设备
CN116226681B (zh) 一种文本相似性判定方法、装置、计算机设备和存储介质
CN115909381A (zh) 一种文本图像识别方法、***及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant