CN113934834A - 一种问句匹配的方法、装置、设备和存储介质 - Google Patents

一种问句匹配的方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN113934834A
CN113934834A CN202111283109.7A CN202111283109A CN113934834A CN 113934834 A CN113934834 A CN 113934834A CN 202111283109 A CN202111283109 A CN 202111283109A CN 113934834 A CN113934834 A CN 113934834A
Authority
CN
China
Prior art keywords
question
candidate
text
matched
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111283109.7A
Other languages
English (en)
Inventor
张晗
杜新凯
吕超
谷姗姗
李文灏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sunshine Insurance Group Co Ltd
Original Assignee
Sunshine Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sunshine Insurance Group Co Ltd filed Critical Sunshine Insurance Group Co Ltd
Priority to CN202111283109.7A priority Critical patent/CN113934834A/zh
Publication of CN113934834A publication Critical patent/CN113934834A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种问句匹配的方法、装置、设备和存储介质,该方法包括:按照预设格式的模板文本将待匹配问句与候选问句集合中的每一个候选问句进行组合,得到候选问句集合中N个候选问句对应的N个组合文本,N为大于或等于2的正整数;将N个组合文本输入到预先训练好的文本匹配模型中,得到N个组合文本中每个组合文本对应的待匹配问句和候选问句的相似度,其中,文本匹配模型是通过预设格式样本训练得到的;根据N个组合文本对应的N个相似度,从N个候选问句中确定与待匹配问句匹配的目标问句。该方法在匹配的过程当中不需要引入大量的参数,所以在问句匹配的过程当中大大的提高了匹配效率。

Description

一种问句匹配的方法、装置、设备和存储介质
技术领域
本申请涉及文本匹配领域,具体而言,涉及一种问句匹配的方法、装置、设备和存储介质。
背景技术
预训练语言模型是自然语言处理的基础研究工作,其在文本分类、语义相似性、实体识别等各种任务场景得到广泛应用。目前应用于各种自然语言任务的模型是通过预训练和微调的方法形成的,即先在大量无标注语料上预训练一个语言模型,然后将模型增加一些模块如全连接层,放到任务上的标注数据进行微调。
可以看到,这种方式导致预训练阶段模型和下游任务微调阶段模型存在差距,对于下游任务模型,通常会引入额外的参数,在模型训练的过程中会带来很***烦。因此,在利用这类模型进行相似问句匹配的过程中会浪费大量的时间,导致我们在相似问句匹配过程中效率更低。
因此,问句匹配的效率低的问题亟待需要改进。
发明内容
本申请实施例的目的在于提供一种问句匹配的方法、装置、设备和存储介质,实现在问句匹配的过程中提升问句匹配的效率。
第一方面,本申请实施例提供了一种问句匹配的方法,包括:按照预设格式的模板文本将待匹配问句与候选问句集合中的每一个候选问句进行组合,得到所述候选问句集合中N个候选问句对应的N个组合文本,N为大于或等于2的正整数;将所述N个组合文本输入到预先训练好的文本匹配模型中,得到所述N个组合文本中每个组合文本对应的待匹配问句和候选问句的相似度,其中,所述文本匹配模型是通过预设格式的样本训练得到的;根据所述N个组合文本对应的N个相似度,从所述N个候选问句中确定与所述待匹配问句匹配的目标问句。
在上述过程中,通过将每条候选问句和待匹配问句的结合,得到了N个组合文本,将文本放入提前训练好的文本匹配模型当中,根据文本中两个问句相似概率的大小确定每个文本中两个问句的相似度,由此可根据相似度大小可以确定和待匹配问句相似度最大的候选问句。从而使问句匹配的结果更加精确。
可选的,所述在所述按照预设格式的模板文本将待匹配问句与候选问句集合中的每一个候选问句进行组合之前还包括:将知识库中与所述待匹配问句的相似问句利用服务器中的文本相似度算法进行筛选得到所述候选问句集合。
在上述过程中,利用服务器中的文本相似度算法可以直接将知识库中的所述相似问句获取,所述相似问句可以直接当作是候选问句。此处候选问句的筛选主要是把知识库中文本数据的部分的相似问句筛选出来,只有筛选出来的相似问句才可以通过本方案与待匹配问句进行比较。通过文本相似都算法进行筛选可以更省时间,匹配的更精确。
可替代地,将知识库中与所述待匹配问句的相似问句利用服务器中的文本相似度算法进行筛选得到所述候选问句集合,包括:所述将知识库中与所述待匹配问句的相似问句利用服务器中的文本相似度算法进行筛选得到初始候选问句集合;对所述初始候选问句集合中的问句进行预处理,得到所述候选问句集合。
在上述过程中,从知识库中获取的相似问句就可以是当作初始的候选问句,初始候选问句经过一定处理得到候选问句,同理,也只有是选出来的候选问句才可以与本方案的待匹配问句进行比较。经过预处理的候选问句可以使匹配的过程中更加精准,不需要考虑符号,空格、乱码和文本过长等相关因素。使问句匹配的更精确。
可选的,初始候选问句集合中的问句进行以下处理中的至少一种,得到所述候选问句集合:除噪、清洗和截断。
在上述过程中,通过预处理可以删除符号、空格和乱码等,将超过文本固定长度的问句进行截断,可以使不必要因素不影响问句的匹配,使问句匹配更加精准。
可选的,根据所述N个组合文本对应的N个相似度,从所述N个候选问句中确定与所述待匹配问句匹配的目标问句,包括:根据所述N个组合文本中每对问句相似的概率确定所述N个组合文本中所述每对问句的相似度;将所述N个组合文本中所述每对问句的相似度最大的文本确定为目标文本;将所述目标文本对应的候选问句确定为所述目标问句。
在上述过程中,通过两问句相似概率的大小确定出了问句文本数据当中与待匹配问句相似度最大的问句。这种方法更能找到与待匹配问句所对应答案最接近的答案,匹配度更高。
可选的,按照预设格式的模板文本将待匹配问句与候选问句集合中的每一个候选问句进行组合之前,还包括:获取***日志里的问句文本;将所述问句文本进行人工标注相似问句;将所述人工标注相似问句中每两个所述相似问句利用提前准备好的模板进行拼接,构成多条样本;利用所述多条样本和训练模型的优化算法对现有模型进行训练,得到所述文本匹配模型。
在上述过程中,利用显示模板的方法对模型进行了训练,没有用到大量参数,只需要将样本放入模板,利用相关训练算法和方法即可进行模型的训练,该方法大大提高了模型训练的效果,进而提高了问句匹配的效果。
可选的,在所述从所述N个候选问句中确定与所述待匹配问句匹配的目标问句之后,还包括:将所述N个候选问句中确定与所述待匹配问句匹配的所述目标问句所对应的答案返回给客户端。
在上述过程中,找到目标问句之后,主要的目的是要搜索待匹配问句所对应的答案,此处的目标问句就是与待匹配问句相似度最大的问句,目标问句所对应的答案也是待匹配问句所对应答案最相似的答案。该方法可以获得用户所需最接近的答案,更能满足需求。
可选的,在在所述按照预设格式的模板文本将待匹配问句与候选问句集合中的每一个候选问句进行组合之前,还包括:对获取的初始问句进行预处理,得到所述待匹配问句。
在上述过程中,可以删除符号、空格和乱码等,将超过文本固定长度的问句进行截断,可以使不必要不影响问句的匹配,使问句匹配更加精准。
第二方面,本申请提供了一种问句匹配方法的虚拟装置,所述装置包括:
文本生成模块,用于按照预设格式的模板文本将待匹配问句与候选问句集合中的每一个候选问句进行组合,得到所述候选问句集合中N个候选问句对应的N个组合文本,N为大于或等于2的正整数。
匹配模块,用于将所述N个组合文本输入到预先训练好的文本匹配模型中,得到所述N个组合文本中每个组合文本对应的待匹配问句和候选问句的相似度,其中,所述文本匹配模型是通过预设格式的样本训练得到的。
确定模块,用于根据所述N个组合文本对应的N个相似度,从所述N个候选问句中确定与所述待匹配问句匹配的目标问句。
可选的,所述文本生成模块,还用于:
将知识库中与所述待匹配问句的相似问句利用服务器中的文本相似度算法进行筛选得到所述候选问句集合。
可替代的,所述文本生成模块,具体用于:
将知识库中与所述待匹配问句的相似问句利用服务器中的文本相似度算法进行筛选得到初始候选问句集合;对所述初始候选问句集合中的问句进行预处理,得到所述候选问句集合。
可选的,所述文本生成模块,具体用于:
对所述初始候选问句集合中的问句进行以下处理中的至少一种,得到所述候选问句集合:除噪、清洗和截断。
可选的,所述匹配模块,还用于:
获取***日志里的问句文本;将所述问句文本进行人工标注相似问句;将所述人工标注相似问句中每两个所述相似问句利用提前准备好的模板进行拼接,构成多条样本;利用所述多条样本和训练模型的优化算法对现有模型进行训练,得到所述文本匹配模型。
可选的,所述确定模块,具体用于:
根据所述N个组合文本中每对问句相似的概率确定所述N个组合文本中所述每对问句的相似度;将所述N个组合文本中所述每对问句的相似度最大的文本确定为目标文本;将所述目标文本对应的候选问句确定为所述目标问句。
可选的,所述确定模块,还用于:
将所述N个候选问句中确定与所述待匹配问句匹配的所述目标问句所对应的答案返回给客户端。
可选的,所述文本生成模块,还用于:
对获取的初始问句进行预处理,得到所述待匹配问句。
第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种终端和服务器交互的示意图;
图2为本申请实施例提供的一种问句匹配方法的流程图;
图3为本申请实施例中提供的一种问句匹配的装置300的示意框图;
图4为本申请实施例中提供的一种问句匹配的装置的示意框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
本申请用于对相似问句匹配的场景,在于找出获取到的待匹配问句相似度最大的相似问句,并将所述相似问句所对应的答案呈现给用户。
请参照图1,图1为本申请实施例提供的一种终端和服务器交互的示意图,如图1所示的方法包括:
终端设备110和服务器120,具体的:
终端设备将待查询问句发送给服务器,服务器将待查询问句相似度最大的目标问句所对应的答案返回给终端设备。
但是,目前在问句匹配的过程当中,也面临着很大的问题。通常在匹配之前,需要建立相关文本匹配的模型,目前的模型建立过程中,利用了预训练和微调的方式,即是在大量无标注语料上预训练一个语言模型,然后将模型增加一些模块如全连接层,放到任务上的标注数据进行微调,这会需要引入大量的参数,以BERT-Base为例,将会额外引入768*2=1536个参数,模型结构上的改变会加大训练难度,在训练效率下降的同时难以得到较高的精度。那么,在问句匹配用到这个模型的时候,也就会进一步浪费匹配时间、降低匹配效率。
为此,本申请后续微调的方式改成了对应的显示(Prompt)方法,即将预训练后微调的方法改成通过前后参数或者文本的提示来判断两条文本是否相似,并判断相似度大小。这使后续的显示方法和前边预训练方法的任务形式达成了一致,不需要引入大量参数,这也使得问句匹配的过程中匹配时间减少,匹配的更高效。
下面结合图2对本申请实施例的问句匹配方法进行详细描述。
请参看图2,图2为本申请实施例提供的一种问句匹配方法的流程图,如图2所示的问句匹配方法包括:
210:按照预设格式的模板文本将待匹配问句与候选问句集合中的每一个候选问句进行组合,得到所述候选问句集合中N个候选问句对应的N个组合文本。
组合之后方便后续直接将所述组合文本直接放入模型当中,步骤简单,使匹配过程更高效。
其中待匹配问句可以是文本形式中的任何一种,并不限于相似问句匹配,其它相关文本凡是能用到本方案的匹配方法的,都属于本方案所涉及到的领域,例如:感叹句匹配、陈述句匹配等等。候选问句,可以是知识库中筛选出来的文本,也可以是通过其它路径获取的文本。预设格式的模板文本可以是显示模板,它相当于将问句匹配任务转换成填充文本文字字符串空白的完形填空任务,模板的输入形式可以是“<Q1>?问题[MASK]相似,<Q2>”,其中“<Q1>”和“<Q2>”分别是两个问句文本,“?”、“相似”等均为固定Token,“[MASK]”是模型需要预测填充的空白Token,预测结果是“是/否”中的其中一个Token。可以理解的是,将两个文本分别填入Q1和Q2的位置,[MASK]是需要预测是相似还是不相似判断添加“是”还是否”。
应理解,本申请例中的待匹配问句可以是直接从数据库直接获取的,也可以是获取的待匹配问句是通过对数据库中初始的相似问句进行预处理后得的。
可选的,当待匹配问句是直接从数据库直接获取的情况下,作为一个实施例,在210之前,本申请实施例的方法还可以包括:将知识库中与所述待匹配问句的相似问句利用服务器中的文本相似度算法进行筛选得到所述候选问句集合。
利用服务器中的文本相似度算法可以直接将知识库中的所述相似问句获取,所述相似问句可以直接当作是候选问句。此处候选问句的筛选主要是把知识库中文本数据的部分的相似问句筛选出来,只有筛选出来的相似问句才可以通过本方案与待匹配问句进行比较。通过文本相似都算法进行筛选可以更省时间,匹配的更精确。
利用服务器中的文本相似度算法可以直接将知识库中的所述相似问句获取,所述相似问句可以直接当作是候选问句。此处候选问句的筛选主要是把相似的部分的相似问句筛选出来,只有筛选出来的相似问句才可以通过本方案与待匹配问句进行比较。服务器可以是elasticseach搜多引擎,文本相似度算法可以是BM25算法。
可替代地,当获取的待匹配问句是通过对数据库中初始的相似问句进行预处理后得的情况下,所述将知识库中与所述待匹配问句的相似问句利用服务器中的文本相似度算法进行筛选得到所述候选问句集合,包括:所述将知识库中与所述待匹配问句的相似问句利用服务器中的文本相似度算法进行筛选得到初始候选问句集合;
对所述初始候选问句集合中的问句进行预处理,得到所述候选问句集合。
从知识库中获取的相似问句就可以是当作初始的候选问句,初始候选问句经过一定处理得到候选问句,同理,也只有候选问句才可以与本方案的待匹配问句进行比较。经过预处理的候选问句可以使匹配的过程中更加精准,不需要考虑符号,空格、乱码和文本过长等相关因素。使问句匹配的更精确。
可选的,作为一个实施例,对所述初始候选问句集合中的问句进行以下处理中的至少一种,得到所述候选问句集合:除噪、清洗和截断。
通过预处理可以删除符号、空格和乱码等,将超过文本固定长度的问句进行截断,可以使不必要不影响问句的匹配,使问句匹配更加精准。
可选的,作为一个实施例,在210之前,本申请实施例的方法还可以包括:对获取的初始问句进行预处理,得到所述待匹配问句。
通过对所述初始问句的除噪、清洗和截断,可以得到较短的无字符、无空格和无其它特殊字符的待匹配问句。使问句匹配的结果更精确。
220:将所述N个组合文本输入到预先训练好的文本匹配模型中,得到所述N个组合文本中每个组合文本对应的待匹配问句和候选问句的相似度,其中,所述文本匹配模型是通过预设格式的样本训练得到的。
通过预先训练好的模型可以直接将样本放入模型得到所需问句,该方法容易操作,步骤简单。
为了便于文本匹配过程中匹配的准确性,还需要预先训练好一个文本匹配模型,将步骤210中所述组合文本输入到这个预先训练好的文本匹配模型当中,其中,预设格式的样本可以是特定模板中的格式,例如:prompt模板,文本匹配模型和模板可以以计算机能识别的语言存入服务器当中,当用户有需求的时候可以直接进行加载,其中计算机能识别的语言可以是任何能存入服务器的计算机语言形式,例如:json格式文件,此处不做进一步限定。
应理解,本申请实施例中的模型可以是预先训练的,也可以是从第三方获取的,也可以是服务器训练得到的。
可选的,作为另一实施例,在该模型是由服务器自身训练的情况下,在按照预设格式的模板文本将待匹配问句与候选问句集合中的每一个候选问句进行组合之前,图2所示的方法还可以包括:
获取***日志里的问句文本;
将所述问句文本进行人工标注相似问句;
将所述人工标注相似问句中每两个所述相似问句利用提前准备好的模板进行拼接,构成多条样本;
利用所述多条样本和训练模型的优化算法对现有模型进行训练,得到所述文本匹配模型。
此处利用显示模板的方法对模型进行了训练,没有用到大量参数,只需要将样本放入模板,利用相关训练算法和方法即可进行模型的训练,该方法大大提高了模型训练的效果,进而提高了问句匹配的效果。
该方案主要是在进行问句匹配之前文本模型的训练,通过***日志里收集的文本,并人工标注出相似的问句,对标注出的问句进行数据的处理,例如:无意义的字符、空格和乱码等都可以去除,对固定长度外的问句要进行截断,之后通过随机取样或者是相关相似度算法抽取相似样本,相似度算法可以是:Jaccard、BM25等,通过相似的问句进行两两的组合,每一对问句会通过所述显示模板进行拼接,拼接后构成一条样本。然后利用相关脚本对所有样本进行合适比例的划分,脚本可以利用python脚本,一部分利用训练集对模型进行训练,另一部分则是利用验证集对训练好的模型进行验证模型效果,训练的过程中采用的是交叉熵损失方法、梯度反向传播和梯度下降Adamw优化算法。最后通过计算机能识别的格式文件,将所述显示模板和模型参数保存到服务器,方便后续相似文本匹配的时候直接加载到内存使用即可。
230:根据所述N个组合文本对应的N个相似度,从所述N个候选问句中确定与所述待匹配问句匹配的目标问句。
应理解,在230中可以采用多种方式从N个候选问句确定出目标问题,例如,可以采用确定两个问句相似的概率的方式来确定出与待匹配问句相似度最大的目标问句。
例如,作为另一实施例,针对采用相似概率的方式确定目标问句是通过对比,将两个问句文本中的参数进行逐一对比,判断出“是相似”和“否相似”的概率,并且“是相似”和“否相似”的概率相加等于1,“是相似”的概率越大,则两个问句文本的相似度越大。
在230中,可以根据所述N个组合文本中每对问句相似的概率确定所述N个组合文本中所述每对问句的相似度;
将所述N个组合文本中所述每对问句的相似度最大的文本确定为目标文本;
将所述目标文本对应的候选问句确定为所述目标问句。
此处通过相似度的大小确定出了问句文本数据当中与待匹配问句相似度最大的问句,即目标问句。
可选的,在230之后,即在获取到目标问句之后,图2所示的方法还可以包括:
将所述N个候选问句中确定与所述待匹配问句匹配的所述目标问句所对应的答案返回给客户端。
找到目标问句之后,主要的目的是要搜索待匹配问句所对应的答案,此处的目标问句就是与待匹配问句相似度最大的问句,目标问句所对应的答案也是待匹配问句所对应答案最相似的答案。该方法可以获得用户所需最接近的答案,更能满足需求。
前文通过图2描述了问句匹配的方法,下面结合图3-图4描述问句匹配的装置。
请参照图3,为本申请实施例中提供的一种问句匹配的装置300的示意框图,该装置300可以是电子设备上的模块、程序段或代码。该装置300与上述图2方法实施例对应,能够执行图2方法实施例涉及的各个步骤,该装置300具体的功能可以参见下文中的描述,为避免重复,此处适当省略详细描述。
可选的,所述装置300包括:
文本生成模块310,用于按照预设格式的模板文本将待匹配问句与候选问句集合中的每一个候选问句进行组合,得到所述候选问句集合中N个候选问句对应的N个组合文本,N为大于或等于2的正整数。
匹配模块320,用于将所述N个组合文本输入到预先训练好的文本匹配模型中,得到所述N个组合文本中每个组合文本对应的待匹配问句和候选问句的相似度,其中,所述文本匹配模型是通过预设格式的样本训练得到的。
确定模块330,用于根据所述N个组合文本对应的N个相似度,从所述N个候选问句中确定与所述待匹配问句匹配的目标问句。
可选的,所述文本生成模块310,还用于:
将知识库中与所述待匹配问句的相似问句利用服务器中的文本相似度算法进行筛选得到所述候选问句集合。
可替代的,所述文本生成模块310,具体用于:
将知识库中与所述待匹配问句的相似问句利用服务器中的文本相似度算法进行筛选得到初始候选问句集合;
可选的,所述文本生成模块310,还用于:
对所述初始候选问句集合中的问句进行预处理,得到所述候选问句集合。
可选的,所述文本生成模块310,还用于:
对获取的初始问句进行预处理,得到所述待匹配问句。
可选的,所述文本生成模块310,还用于:
对初始候选问句集合中的问句进行以下处理中的至少一种,得到所述候选问句集合:除噪、清洗和截断。
可选的,所述匹配模块320,还用于:
获取***日志里的问句文本;
将所述问句文本进行人工标注相似问句;
将所述人工标注相似问句中每两个所述相似问句利用提前准备好的模板进行拼接,构成多条样本;
利用所述多条样本和训练模型的优化算法对现有模型进行训练,得到所述文本匹配模型。
可选的,所述确定模块330,具体用于:
根据所述N个组合文本中每对问句相似的概率确定所述N个组合文本中所述每对问句的相似度;
将所述N个组合文本中所述每对问句的相似度最大的文本确定为目标文本;
将所述目标文本对应的候选问句确定为所述目标问句。
可选的,所述确定模块330,还用于:
将所述N个候选问句中确定与所述待匹配问句匹配的所述目标问句所对应的答案返回给客户端。
可选的,本申请实施例提供了一种可读存储介质,所述计算机程序被处理器执行时,执行如图2所示方法实施例中电子设备所执行的方法过程。
请参照图4为本申请实施例中提供的一种问句匹配的装置400的示意框图,该装置可以包括处理器410和存储器420。可选的,该装置还可以包括:通信接口430和通信总线440。该装置与上述图2方法实施例对应,能够执行图2方法实施例涉及的各个步骤,该装置具体的功能可以参见下文中的描述。
具体的,处理器410,用于处理计算机可读指令,能够执行图2方法实施例1至3各个步骤。
存储器420,用于存储计算机可读指令。
通信接口430,用于与其他节点设备进行信令或数据的通信。
通信总线440,用于实现上述组件直接的连接通信。
其中,本申请实施例中设备的通信接口430用于与其他节点设备进行信令或数据的通信。存储器420可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器420可选的还可以是至少一个位于远离前述处理器的存储装置。存储器420中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器410执行时,电子设备执行上述图2所示方法过程。处理器410可以用于装置300上,并且用于执行本申请中的功能。示例性地,上述的处理器410可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,本申请实施例并不局限于此。
综上所述,本申请实施例提供一种问句匹配的方法、装置、电子设备及可读存储介质,该方法通过先将预先按照显示模板的格式对模型进行训练得到的文本匹配模型和显示模板加载到内存,获取待匹配问句,对待匹配问句进行预处理,通过相关算法找到知识库中与待匹配问句的相似问句即构成候选问句集合,将候选问句集合中每一条候选问句都和待匹配问句组成一条文本输入文本匹配模型,通过文本中两条问句相似概率确定相似度大小,通过相似度找到与待匹配问句相似度最大的目标问句,并把目标问句所对应的答案返回给客户端。通过这种特定模板形式对模型的训练以有效提高问句匹配的准确性,获得较好的匹配效果,使问句匹配更加高效。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种问句匹配方法,其特征在于,包括:
按照预设格式的模板文本将待匹配问句与候选问句集合中的每一个候选问句进行组合,得到所述候选问句集合中N个候选问句对应的N个组合文本,N为大于或等于2的正整数;
将所述N个组合文本输入到预先训练好的文本匹配模型中,得到所述N个组合文本中每个组合文本对应的待匹配问句和候选问句的相似度,其中,所述文本匹配模型是通过预设格式的样本训练得到的;
根据所述N个组合文本对应的N个相似度,从所述N个候选问句中确定与所述待匹配问句匹配的目标问句。
2.根据权利要求1所述的问句匹配方法,其特征在于,在所述按照预设格式的模板文本将待匹配问句与候选问句集合中的每一个候选问句进行组合之前,所述方法还包括:
将知识库中与所述待匹配问句的相似问句利用服务器中的文本相似度算法进行筛选得到所述候选问句集合。
3.根据权利要求2所述的问句匹配方法,其特征在于,所述将知识库中与所述待匹配问句的相似问句利用服务器中的文本相似度算法进行筛选得到所述候选问句集合,包括:
所述将知识库中与所述待匹配问句的相似问句利用服务器中的文本相似度算法进行筛选得到初始候选问句集合;
对所述初始候选问句集合中的问句进行预处理,得到所述候选问句集合。
4.根据权利要求3所述的问句匹配方法,其特征在于,所述对所述初始候选问句集合中的问句进行预处理,得到所述候选问句集合,包括:
对所述初始候选问句集合中的问句进行以下处理中的至少一种,得到所述候选问句集合:
除噪、清洗和截断。
5.根据权利要求1至4中任一项所述的问句匹配方法,其特征在于,所述根据所述N个组合文本对应的N个相似度,从所述N个候选问句中确定与所述待匹配问句匹配的目标问句,包括:
根据所述N个组合文本中每对问句相似的概率确定所述N个组合文本中所述每对问句的相似度;
将所述N个组合文本中所述每对问句的相似度最大的文本确定为目标文本;
将所述目标文本对应的候选问句确定为所述目标问句。
6.根据权利要求1至4中任一项所述的问句匹配方法,其特征在于,在按照预设格式的模板文本将待匹配问句与候选问句集合中的每一个候选问句进行组合之前,所述方法还包括:
获取***日志里的问句文本;
将所述问句文本进行人工标注相似问句;
将所述人工标注相似问句中每两个所述相似问句利用提前准备好的模板进行拼接,构成多条样本;
利用所述多条样本和训练模型的优化算法对现有模型进行训练,得到所述文本匹配模型。
7.根据权利要求1至4中任一项所述的问句匹配方法,其特征在于,在所述从所述N个候选问句中确定与所述待匹配问句匹配的目标问句之后,所述方法还包括:
将所述N个候选问句中确定与所述待匹配问句匹配的所述目标问句所对应的答案返回给客户端。
8.一种问句匹配的装置,其特征在于,包括:
文本生成模块,用于按照预设格式的模板文本将待匹配问句与候选问句集合中的每一个候选问句进行组合,得到所述候选问句集合中N个候选问句对应的N个组合文本,N为大于或等于2的正整数;
匹配模块,用于将所述N个组合文本输入到预先训练好的文本匹配模型中,得到所述N个组合文本中每个组合文本对应的待匹配问句和候选问句的相似度,其中,所述文本匹配模型是通过预设格式的样本训练得到的;
确定模块,用于根据所述N个组合文本对应的N个相似度,从所述N个候选问句中确定与所述待匹配问句匹配的目标问句。
9.一种问句匹配的设备,其特征在于,包括:
存储器和处理器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1至7任一项所述方法中的步骤。
10.一种计算机可读存储介质,其特征在于,包括计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至7中任一项所述的方法。
CN202111283109.7A 2021-11-01 2021-11-01 一种问句匹配的方法、装置、设备和存储介质 Pending CN113934834A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111283109.7A CN113934834A (zh) 2021-11-01 2021-11-01 一种问句匹配的方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111283109.7A CN113934834A (zh) 2021-11-01 2021-11-01 一种问句匹配的方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN113934834A true CN113934834A (zh) 2022-01-14

Family

ID=79285140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111283109.7A Pending CN113934834A (zh) 2021-11-01 2021-11-01 一种问句匹配的方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113934834A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114444470A (zh) * 2022-01-24 2022-05-06 开普云信息科技股份有限公司 专利文本中的领域命名实体识别方法、装置、介质及设备
CN116089589A (zh) * 2023-02-10 2023-05-09 阿里巴巴达摩院(杭州)科技有限公司 问句生成方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114444470A (zh) * 2022-01-24 2022-05-06 开普云信息科技股份有限公司 专利文本中的领域命名实体识别方法、装置、介质及设备
CN116089589A (zh) * 2023-02-10 2023-05-09 阿里巴巴达摩院(杭州)科技有限公司 问句生成方法及装置
CN116089589B (zh) * 2023-02-10 2023-08-29 阿里巴巴达摩院(杭州)科技有限公司 问句生成方法及装置

Similar Documents

Publication Publication Date Title
US11403680B2 (en) Method, apparatus for evaluating review, device and storage medium
CN108287858B (zh) 自然语言的语义提取方法及装置
CN111859960B (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN113821605B (zh) 一种事件抽取方法
CN114036300A (zh) 一种语言模型的训练方法、装置、电子设备及存储介质
CN113934834A (zh) 一种问句匹配的方法、装置、设备和存储介质
CN111930792A (zh) 数据资源的标注方法、装置、存储介质及电子设备
CN109508448A (zh) 基于长篇文章生成短资讯方法、介质、装置和计算设备
US11797594B2 (en) Systems and methods for generating labeled short text sequences
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN110738056A (zh) 用于生成信息的方法和装置
JP2018163660A (ja) 英語の音節計算法に基づいた可読性評価方法及びシステム
CN113868419B (zh) 基于人工智能的文本分类方法、装置、设备及介质
CN117077679B (zh) 命名实体识别方法和装置
CN110727764A (zh) 一种话术生成方法、装置及话术生成设备
JP6942759B2 (ja) 情報処理装置、プログラム及び情報処理方法
CN116680387A (zh) 基于检索增强的对话答复方法、装置、设备及存储介质
CN114528851B (zh) 回复语句确定方法、装置、电子设备和存储介质
CN115964997A (zh) 选择题的混淆选项生成方法及装置、电子设备、存储介质
CN115577109A (zh) 文本分类方法、装置、电子设备及存储介质
CN115408997A (zh) 一种文本生成方法、文本生成装置和可读存储介质
CN114842982A (zh) 一种面向医疗信息***的知识表达方法、装置及***
CN115017906A (zh) 一种针对文本中实体的识别方法、装置及存储介质
CN113901793A (zh) 结合rpa和ai的事件抽取方法及装置
Maulidia et al. Feature Expansion with Word2Vec for Topic Classification with Gradient Boosted Decision Tree on Twitter

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination