CN111931477B - 文本匹配方法、装置、电子设备以及存储介质 - Google Patents

文本匹配方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN111931477B
CN111931477B CN202011045975.8A CN202011045975A CN111931477B CN 111931477 B CN111931477 B CN 111931477B CN 202011045975 A CN202011045975 A CN 202011045975A CN 111931477 B CN111931477 B CN 111931477B
Authority
CN
China
Prior art keywords
word
text
candidate
matching
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011045975.8A
Other languages
English (en)
Other versions
CN111931477A (zh
Inventor
陈曦
向玥佳
刘博�
林镇溪
文瑞
管冲
孙继超
高文龙
张子恒
许祈馨
徐超
杨奕凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011045975.8A priority Critical patent/CN111931477B/zh
Publication of CN111931477A publication Critical patent/CN111931477A/zh
Application granted granted Critical
Publication of CN111931477B publication Critical patent/CN111931477B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种文本匹配方法、装置、电子设备以及存储介质,包括:获取包含多个文本单字的待匹配文本以及所述待匹配文本对应的参考词典,所述参考词典为所述待匹配文本的内容所属领域的词典,其中,所述参考词典包括至少一个参考词;对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词;根据所述候选词与至少一个参考词在目标匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度;融合各匹配类型下所述候选词与目标参考词之间的匹配度;根据融合结果从预设参考文本库中选择与所述待匹配文本匹配的参考文本,并输出所述参考文本,该方案可以提高文本匹配的准确性。

Description

文本匹配方法、装置、电子设备以及存储介质
技术领域
本申请涉及计算机技术领域,具体涉及一种文本匹配方法、装置、电子设备以及存储介质。
背景技术
自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答以及知识图谱等技术。
其中,文本匹配作为文本处理中的一个应用方向,在现实生活中起到重要的作用,比如,论文查重或医疗场景的在线疾病查询等任务。目前的文本匹配算法通常是基于编辑距离的匹配算法来确定两个文本之间是否匹配,现有的编辑距离算法,要么使用字为最小单元,要么使用词为最小单元。以字为最小单元的编辑距离算法可以避免分词误差,而且能更好地处理非规范表达和错别字问题,但自然语言的最小单元是词,这种方法难以利用上大量以词为基础的先验知识。以词为最小单元的编辑距离算法可以利用上大量先验知识,但效果往往受到分词误差的影响,因此,目前的文本匹配方法准确性低。
发明内容
本申请提供一种文本匹配方法、装置、电子设备以及存储介质,可以提高文本匹配的准确性。
本申请提供了一种文本匹配方法,包括:
获取包含多个文本单字的待匹配文本以及所述待匹配文本对应的参考词典,所述参考词典为所述待匹配文本的内容所属领域的词典,其中,所述参考词典包括至少一个参考词;
对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词;
根据所述候选词与参考词在至少一个匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度;
融合各匹配类型下所述候选词与目标参考词之间的匹配度;
根据融合结果从预设参考文本库中选择与所述待匹配文本匹配的参考文本,并输出所述参考文本。
相应的,本申请还提供了一种文本匹配装置,包括:
获取模块,用于获取包含多个文本单字的待匹配文本以及所述待匹配文本对应的参考词典,所述参考词典为所述待匹配文本的内容所属领域的词典,其中,所述参考词典包括至少一个参考词;
组合模块,用于对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词;
生成模块,用于根据所述候选词与参考词在至少一个匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度;
融合模块,用于融合各匹配类型下所述候选词与目标参考词之间的匹配度;
输出模块,用于根据融合结果从预设参考文本库中选择与所述待匹配文本匹配的参考文本,并输出所述参考文本。
可选的,在本申请的一些实施例中,所述生成模块包括:
确定子模块,用于根据所述候选词与参考词之间的语义关联关系,确定每个参考词对应的目标匹配类型;
计算子模块,用于基于确定的目标匹配类型,计算所述候选词与至少一个参考词在确定的目标匹配类型的编辑距离,并将编辑距离最小的参考词确定为目标参考词;
生成子模块,用于根据所述候选词与目标参考词在至少一个匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度。
可选的,在本申请的一些实施例中,所述计算子模块包括:
第一计算单元,用于计算所述候选词与至少一个参考词在同义词匹配类型下的第一编辑距离,并将第一编辑距离最小的参考词确定为第一目标参考词;
第二计算单元,用于计算所述候选词与至少一个参考词在上位词匹配类型下的第二编辑距离,并将第二编辑距离最小的参考词确定为第二目标参考词;
第三计算单元,用于计算所述候选词与至少一个参考词在权重词匹配类型下的第三编辑距离,并将第三编辑距离最小的参考词确定为第三目标参考词。
可选的,在本申请的一些实施例中,所述第一计算单元具体用于:
在所述参考词典中选择同义词簇集合,所述同义词簇集合包括多个同义词簇,每个同义词簇中包含至少两个词义相同的参考词;
确定与所述候选词的语义相同的同义词簇,得到目标同义词簇;
计算所述候选词与目标同义词簇中每个参考词之间的第一编辑距离,并将第一编辑距离最小的参考词确定第一目标参考词;
所述生成子模块具体用于:根据所述候选词与第一目标参考词之间的第一编辑距离,生成所述候选词与第一目标参考词之间的第一匹配度。
可选的,在本申请的一些实施例中,所述第二计算单元具体用于:
根据所述候选词的语义以及每个参考词的语义,确定所述候选词与至少一个参考词之间的上下位关系;
基于确定的上下位关系,计算所述候选词与对应的上位参考词之间的第二编辑距离,并将第二编辑距离最小的参考词确定为第二目标参考词;
所述生成子模块具体用于:根据所述候选词与第二目标参考词之间的第二编辑距离,生成所述候选词与第二目标参考词之间的第二匹配度。
可选的,在本申请的一些实施例中,所述第三计算单元包括:
采集子单元,用于采集每个参考词预先建立的权重值;
计算子单元,用于计算所述候选词与每个参考词之间的相似度,并将相似度大于预设值的参考词确定为待选词;
确定子单元,用于根据确定的待选词的权重,计算所述候选词与确定的待选词的第三编辑距离,并将第三编辑距离最小的待选词确定为第三目标参考词;
所述生成子模块具体用于:根据所述候选词与第三目标参考词之间的第三编辑距离,生成所述候选词与第三目标参考词之间的第三匹配度。
可选的,在本申请的一些实施例中,所述确定子单元具体用于:
计算所述候选词与权重小于预设权重的待选词的第三编辑距离,并将第三编辑距离最小的待选词确定为第三目标参考词。
可选的,在本申请的一些实施例中,所述融合模块具体用于:
获取各匹配类型对应的预设权重系数;
计算获取的权重系数与对应匹配类型下所述候选词与目标参考词之间的匹配度的乘积,得到各匹配类型对应的赋权后匹配度;
融合各匹配类型对应的赋权后匹配度。
可选的,在本申请的一些实施例中,所述组合模块具体用于:
识别每个文本单字的词性;
去除词性为助词的文本单字,并对保留的文本单字进行排列组合,得到与至少一个参考词语义关联的候选词。
本申请首先获取包含多个文本单字的待匹配文本以及所述待匹配文本对应的参考词典,所述参考词典为所述待匹配文本的内容所属领域的词典,其中,所述参考词典包括至少一个参考词,然后,对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词,接着,根据所述候选词与目标参考词在至少一个匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度,再然后,融合各匹配类型下所述候选词与目标参考词之间的匹配度,最后,根据融合结果从预设参考文本库中选择与所述待匹配文本匹配的参考文本,并输出所述参考文本,因此,本方案可以提高文本匹配的准确性。
附图说明
为了更清楚地说明本申请中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请提供的文本匹配方法的场景示意图;
图1b是本申请提供的文本匹配方法的流程示意图;
图2a是本申请提供的文本匹配方法的另一流程示意图;
图2b是本申请提供的文本匹配方法的另一场景示意图;
图3是本申请提供的文本匹配装置的结构示意图;
图4是本申请提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供一种文本匹配方法、装置、电子设备和存储介质。
其中,该文本匹配装置具体可以集成在服务器中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
例如,请参阅图1a,本申请提供一种文本匹配装置,以下简称匹配装置,该匹配装置集成在服务器中,比如,用户通过终端查询“发烧的症状是什么”,当服务器接收到终端发送的文本匹配请求时,服务器获取包含多个文本单字的待匹配文本以及待匹配文本对应的参考词典,参考词典为待匹配文本的内容所属领域的词典,其中,参考词典包括至少一个参考词,然后,服务器对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词,接着,服务器根据候选词与目标参考词在至少一个匹配类型下的编辑距离,生成候选词与目标参考词之间的匹配度,再然后,服务器融合各匹配类型下候选词与目标参考词之间的匹配度,最后,服务器根据融合结果从预设参考文本库中选择与待匹配文本匹配的参考文本,并输出参考文本。
本申请提供的文本匹配方法,在根据候选词与目标参考词在至少一个匹配类型下的编辑距离,生成候选词与目标参考词之间的匹配度后,融合各匹配类型下候选词与目标参考词之间的匹配度,可以利用大量以词为基础的先验知识,使得获取的参考词更多,有利于提高后续文本匹配的准确性,并且,在以字为单位可以避免对待匹配文本进行分词时出现误差的情况,因此,提高了文本匹配的准确性。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优先顺序的限定。
首先对申请出现的名词进行解释:
词典:又称词库,词库是词语资料的集合,存贮于数据库中以编检索调用。
编辑距离:计算一个字符串转换成另一个字符串所需要的最小编辑操作数,量化两个字符串的差异程度。转换操作包括添加一个字符、删除一个字符以及替换一个字符。
上下位关系:当两个词具有包含以及被包含的关系,我们可以称其具有上下位关系。其中表示上位概念的词为上位词,表示下位概念的词为下位词。词的上下位关系具有层次性以及可传递性。
一种文本匹配方法,包括:获取包含多个文本单字的待匹配文本以及待匹配文本对应的参考词典,对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词,根据候选词与目标参考词在至少一个匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度,融合各匹配类型下候选词与目标参考词之间的匹配度,根据融合结果从预设参考文本库中选择与待匹配文本匹配的参考文本,并输出参考文本。
请参阅图1b,图1b为本申请提供的文本匹配方法的流程示意图。该文本匹配方法的具体流程可以如下:
101、获取包含多个文本单字的待匹配文本以及待匹配文本对应的参考词典。
其中,参考词典为待匹配文本的内容所属领域的词典,参考词典包括至少一个参考词,比如,待匹配文本的内容所属领域为医学领域,那么其对应的参考词典则为医学词典,具体的,待匹配文本以及待匹配文本对应的参考词典可以是保存在本地数据库的,也可以是通过访问网络接口拉取得到的,具体根据实际情况而定。
102、对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词。
可以理解的是,字和词属于不同维度的文本信息,本申请在以字为最小单元的文本匹配算法的基础上,融合词典获取与待匹配文本匹配的文本,因此,需要对文本单字进行组合,其中,可以基于文本单字的音素对多个文本单字进行组合,需要说明的是,文字的音素是构成音节的最小单位或最小的语音片段,所述音素具体指的是汉语拼音中的每个拼音,如a、o、e、b、p、m等,其中包含23个声母、24个韵母,所有韵母还包括5个音调,分别为1声、2声、3声、4声、轻声,这样就可以收集到23+24*5=143个不同音素的发音。
然而,基于文字的音素进行组合会出现这样的情况:比如,“简易”和“检疫”,其中,“简”与“检”同音,“易”与“疫”同音,在组合时,可能会出现“简疫”和“检易”这样的无意义的词组,导致后续的文本匹配效果不佳,因此,本申请则基于不同文本单字的词性,对多个文本单字进行组合,即,可选的,步骤“对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词”,具体可以包括:
(11)识别每个文本单字的词性;
(12)去除词性为助词的文本单字,并对保留的文本单字进行排列组合,得到与至少一个参考词语义关联的候选词。
其中,助词,又称为语助词。文法术语,指的是一种词类,属于虚词,附着在其他词汇、词组,或是句子上,作为辅助之用。通常用于句子前、中、后,表示各种语气;或是用于语句中间,表示结构上的关系,比如,对于“在简易楼的楼房中对进入区域内的人员进行检疫”,该文本中,“的”就是一个助词,在本申请的方案中,则去除词性为助词的文本单字,并且,去除助词并不影响文本中的其余词汇的语义,同时可以减小文本单字组合的任务量,进而提高后续文本匹配的效率。
比如,“在简易楼的楼房中对进入区域内的人员进行检疫”的文本中,去除助词后的文本单字包括“在”、“简”、“易”、“楼”、“楼”、“房”、“中”、“对”、“进”、“入”、“区”、“域”、“内”、“人”、“员”、“进”、“行”、“检”以及“疫”,那么对保留的文本单字进行排列组合,可以得到“楼内”这一候选词,当然还有其它候选词,需要说明的是候选词与待匹配文本中原有的词可以相同,也可以不同,比如,组合后可以得到候选词“检疫”,在此不再赘述。
需要说明的是,在本申请中,组合得到的候选词是与至少一个参考词在语义上相关联的词,如上位词、同义词或者相同词等等。
103、根据候选词与至少一个参考词在目标匹配类型下的编辑距离,生成候选词与目标参考词之间的匹配度。
在本申请中,匹配类型指的是候选词与目标参考词的词匹配方式,比如,在同义词匹配类型下,对候选词与目标参考词进行同义词匹配,即,判断候选词与目标参考词是否为同义词,具体可以根据候选词与参考词之间的语义关联关系,确定每个参考词对应的目标匹配类型,然后,再根据确定的目标匹配类型,生成候选词与目标参考词之间的匹配度,即,可选的,在一些实施例中,步骤“根据候选词与至少一个参考词在目标匹配类型下的编辑距离,生成候选词与目标参考词之间的匹配度”,具体可以包括:
(21)根据候选词与参考词之间的语义关联关系,确定每个参考词对应的目标匹配类型;
(22)基于确定的目标匹配类型,计算候选词与至少一个参考词在确定的目标匹配类型的编辑距离,并将编辑距离最小的参考词确定为目标参考词;
(23)根据候选词与目标参考词在至少一个匹配类型下的编辑距离,生成候选词与目标参考词之间的匹配度。
比如,候选词“玫瑰花”是参考词“鲜花”的下位词,那么候选词与参考词在语义上的关联关系是上下位关联关系,则确定参考词“鲜花”对应的目标匹配类型为上位词匹配类型,然后,计算参考词“鲜花”在上位词匹配类型的编辑距离,假设与候选词“玫瑰花”具有上下位关系的参考词仅有参考词“鲜花”,那么,则根据候选词“玫瑰花”与参考词“鲜花”在上位词匹配类型的编辑距离,生成候选词“玫瑰花”与参考词“鲜花”之间的匹配度,可以理解的是,在上位词匹配类型中候选词分别与多个参考词具有上下位关系,计算候选词与多个参考词在上位词匹配类型的编辑距离,并将编辑距离最小的参考词确定为目标参考词。
又比如,候选词“盐”是参考词“氯化钠”的同义词,那么候选词与参考词在语义上的关联关系是同义关联关系,则确定参考词“氯化钠”对应的目标匹配类型为同义词匹配类型,然后,计算参考词“氯化钠”在同义词匹配类型的编辑距离,假设与候选词“盐”具有同义关联关系的参考词仅有参考词“氯化钠”,那么,则根据候选词“盐”与参考词“氯化钠”在同义词匹配类型的编辑距离,生成候选词“盐”与参考词“氯化钠”之间的匹配度,同样的,在同义词匹配类型中候选词分别与多个参考词具有上下位关系,计算候选词与至多个参考词在同义词匹配类型的编辑距离,并将编辑距离最小的参考词确定为目标参考词。
再比如,可以预先赋予参考词相应的权重,比如,赋予“厉害”的权重为0.5,“好像”的权重为0.1,其中,在权重词匹配类型中,可以根据实际情况设置权重与编辑距离之间的关系,比如,可以设置权重“0.5”对应的编辑距离为0.1,权重“0.1”对应的编辑距离为0.7,也可以设置权重“0.5”对应的编辑距离为0.7,权重“0.5”对应的编辑距离为0.1,具体根据实际情况进行选择,在此不再赘述,需要说明的是,候选词必须与任一个参考词相同才具有对应的权重。
可选的,在一些实施例中,可以结合上述三种匹配类型,以便后续获取待匹配文本匹配的参考文本,即,可选的,步骤“基于确定的目标匹配类型,计算候选词与至少一个参考词在确定的目标匹配类型的编辑距离,并将编辑距离最小的参考词确定为目标参考词”,具体可以包括:
(a)计算候选词与至少一个参考词在同义词匹配类型下的第一编辑距离,并将第一编辑距离最小的参考词确定为第一目标参考词;
(b)计算候选词与至少一个参考词在上位词匹配类型下的第二编辑距离,并将第二编辑距离最小的参考词确定为第二目标参考词;
(c)计算候选词与至少一个参考词在权重词匹配类型下的第三编辑距离,并将第三编辑距离最小的参考词确定为第三目标参考词。
在本申请中,步骤(a)、(b)以及(c)的执行顺序不做限制。
针对步骤(a),即,在同义词匹配类型下,首先,可以获取与候选词语义相同的同义词簇,然后,计算候选词与目标同义词簇中每个参考词之间的第一编辑距离,并将第一编辑距离最小的参考词确定第一目标参考词,最后,根据候选词与第一目标参考词之间的第一编辑距离,生成候选词与第一目标参考词之间的第一匹配度,也即,可选的,在一些实施例中,步骤“计算候选词与至少一个参考词在同义词匹配类型下的第一编辑距离,并将第一编辑距离最小的参考词确定为第一目标参考词”,具体可以包括:
(31)在参考词典中选择同义词簇集合;
(32)确定与候选词的语义相同的同义词簇,得到目标同义词簇;
(33)计算候选词与目标同义词簇中每个参考词之间的第一编辑距离,并将第一编辑距离最小的参考词确定第一目标参考词。
其中,同义词簇集合包括多个同义词簇,每个同义词簇中包含至少两个词义相同的参考词,在构建同义词词典时,可以预先对语义相同的参考词进行聚类,从而形成包含多个同义词簇的同义词簇集合,在具体使用时,只需要根据候选词的语义,即可在同义词词典中获取到与候选词的语义相同的参考词,不需要遍历同义词词典中的所有参考词,减小了计算量,提高了计算效率,进而提高了后续文本匹配的效率。
针对步骤(b),即,在上位词匹配类型下,首先,需要根据候选词的语义以及每个参考词的语义,确定候选词与参考词的上下位关系,然后,基于确定的上下位关系,计算候选词与对应的上位参考词之间的第二编辑距离,并将第二编辑距离最小的参考词确定为第二目标参考词,最后,根据候选词与第二目标参考词之间的第二编辑距离,生成候选词与第二目标参考词之间的第二匹配度,即,可选的,在一些实施例中,步骤“计算候选词与至少一个参考词在上位词匹配类型下的第二编辑距离,并将第二编辑距离最小的参考词确定为第二目标参考词”,具体可以包括:
(41)根据候选词的语义以及每个参考词的语义,确定候选词与至少一个参考词之间的上下位关系;
(42)基于确定的上下位关系,计算候选词与对应的上位参考词之间的第二编辑距离,并将第二编辑距离最小的参考词确定为第二目标参考词。
需要说明的是,候选词可能是某些参考词的上位词,也可能是某些参考词的下位词,与同义词不同,上下位词是有序的,在文本匹配的过程中,利用上位词替代下位词是合理的,而用下位词替代上位词是不合理的,比如,候选词为“鲜花”,参考词为“玫瑰花”,若采用该参考词替代候选词,则可能会使得后续的文本匹配出错,比如,对于待匹配文本“这朵鲜花属于单子叶植物纲”,采用参考词“玫瑰花“替代候选词“鲜花”,最终的结果为:“这朵玫瑰华属于单子叶植物纲”,而玫瑰花属于双子叶植物纲,很显然与原文本的含义是不同的,因此,在本申请中,则去除下位关系的参考词,即,根据候选词的语义以及每个参考词的语义,确定候选词与至少一个参考词之间的上位关系,然后,基于确定的上位关系,计算候选词与对应的上位参考词之间的第二编辑距离,并将第二编辑距离最小的参考词确定为第二目标参考词。
针对步骤(c),即,在权重词匹配类型下,可以采集每个参考词的权重值,然后,计算候选词与每个参考词之间的相似度,并将相似度大于预设值的参考词确定为待选词,接着,根据确定的待选词的权重,计算候选词与确定的待选词的第三编辑距离,并将第三编辑距离最小的待选词确定为第三目标参考词,最后,根据候选词与第三目标参考词之间的第三编辑距离,生成候选词与第三目标参考词之间的第三匹配度,其中,针对不同的任务,预设值可以根据实际情况进行调整,为了提高后续文本匹配的准确性,可以将预设值设定为100%,当然,预设值也可以为别的数值,比如,在论文查重的场景下,预设值可以设置为80%,即,可选的,在一些实施例中,步骤“计算候选词与至少一个参考词在权重词匹配类型下的第三编辑距离,并将第三编辑距离最小的参考词确定为第三目标参考词”,具体可以包括:
(51)采集每个参考词预先建立的权重值;
(52)计算候选词与每个参考词之间的相似度,并将相似度大于预设值的参考词确定为待选词;
(53)根据确定的待选词的权重,计算候选词与确定的待选词的第三编辑距离,并将第三编辑距离最小的待选词确定为第三目标参考词。
可选的,在一些实施例中,在做动态规划算法的时候,若候选词对应的参考词的权重较高,则对该候选词操作的代价较大,即,编辑距离较大,而候选词对应的参考词的权重较低,则对该候选词操作的代价较小,即,编辑距离较大,也即,步骤“根据确定的待选词的权重,计算候选词与确定的待选词的第三编辑距离,并将第三编辑距离最小的待选词确定为第三目标参考词”,具体可以包括:计算候选词与权重小于预设权重的待选词的第三编辑距离,并将第三编辑距离最小的待选词确定为第三目标参考词。
104、融合各匹配类型下候选词与目标参考词之间的匹配度。
在实际的应用场景中,同义词、上下位词以及权重值较高的词往往并非单独出现,因此,为了提高文本匹配的准确性,本申请融合各匹配类型下候选词与目标参考词之间的匹配度,其中,对于不同的应用场景,不同类型的参考词所占的比重不同,具体可以根据实际情况进行选择,即,可选的,在一些实施例中,步骤“融合各匹配类型下候选词与目标参考词之间的匹配度”,具体可以包括:
(61)获取各匹配类型对应的预设权重系数;
(62)计算获取的权重系数与对应匹配类型下候选词与目标参考词之间的匹配度的乘积,得到各匹配类型对应的赋权后匹配度;
(63)融合各匹配类型对应的赋权后匹配度。
其中,权重系数是根据不同任务预先构建的,在实际应用时,根据确定的权重系数对各匹配类型下候选词与目标参考词之间的匹配度进行加权处理,最终得到融合结果,随后执行步骤105。
105、根据融合结果从预设参考文本库中选择与待匹配文本匹配的参考文本,并输出参考文本。
其中,参考文本库中包括多个参考文本,参考文本可以是一个短语、一句话或者是一段话,具体的,可以根据融合结果在预设参考文本库中确定与待匹配文本匹配的参考文本,并输出确定的参考文本。
本申请在获取包含多个文本单字的待匹配文本以及所述待匹配文本对应的参考词典后,对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词,然后,根据候选词与目标参考词在至少一个匹配类型下的编辑距离,生成候选词与目标参考词之间的匹配度,接着,融合各匹配类型下候选词与目标参考词之间的匹配度,最后,根据融合结果从预设参考文本库中选择与待匹配文本匹配的参考文本,并输出参考文本,本申请提供的文本匹配方法,在根据候选词与目标参考词在至少一个匹配类型下的编辑距离,生成候选词与目标参考词之间的匹配度后,融合各匹配类型下候选词与目标参考词之间的匹配度,可以利用大量以词为基础的先验知识,使得获取的参考词更多,有利于提高后续文本匹配的准确性,并且,在以字为单位可以避免对待匹配文本进行分词时出现误差的情况,因此,提高了文本匹配的准确性。
根据实施例所述的方法,以下将举例进一步详细说明。
在本实施例中将以该文本匹配装置具体集成在终端中为例进行说明。
请参阅图2a,一种文本匹配方法,具体流程可以如下:
201、终端获取包含多个文本单字的待匹配文本以及待匹配文本对应的参考词典。
其中,参考词典为待匹配文本的内容所属领域的词典,参考词典包括至少一个参考词,比如,待匹配文本的内容所属领域为医学领域,那么其对应的参考词典则为医学词典,具体的,待匹配文本以及待匹配文本对应的参考词典可以是保存在本地数据库的,也可以是终端通过访问网络接口拉取得到的,具体根据实际情况而定。
202、终端对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词。
例如,具体的,终端可以识别每个文本单字的词性,然后,终端去除词性为助词的文本单字,并对保留的文本单字进行排列组合,得到与至少一个参考词语义关联的候选词。
203、终端根据候选词与第一目标参考词之间的第一编辑距离,生成候选词与第一目标参考词之间的第一匹配度。
例如,具体的,在同义词匹配类型下,首先,终端可以获取与候选词语义相同的同义词簇,然后,终端计算候选词与目标同义词簇中每个参考词之间的第一编辑距离,并将第一编辑距离最小的参考词确定第一目标参考词,最后,终端根据候选词与第一目标参考词之间的第一编辑距离,生成候选词与第一目标参考词之间的第一匹配度。
204、终端根据候选词与第二目标参考词之间的第二编辑距离,生成候选词与第二目标参考词之间的第二匹配度。
例如,具体的,在上位词匹配类型下,首先,终端需要根据候选词的语义以及每个参考词的语义,确定候选词与参考词的上下位关系,然后,终端基于确定的上下位关系,计算候选词与对应的上位参考词之间的第二编辑距离,并将第二编辑距离最小的参考词确定为第二目标参考词,最后,终端根据候选词与第二目标参考词之间的第二编辑距离,生成候选词与第二目标参考词之间的第二匹配度。
205、终端根据候选词与第三目标参考词之间的第三编辑距离,生成候选词与第三目标参考词之间的第三匹配度。
例如,具体的,在权重词匹配类型下,终端可以采集每个参考词的权重值,然后,终端计算候选词与每个参考词之间的相似度,并将相似度大于预设值的参考词确定为待选词,接着,终端根据确定的待选词的权重,计算候选词与确定的待选词的第三编辑距离,并将第三编辑距离最小的待选词确定为第三目标参考词,最后,终端根据候选词与第三目标参考词之间的第三编辑距离,生成候选词与第三目标参考词之间的第三匹配度。
需要说明的是,在本申请中,对步骤203、204以及205的先后顺序不作限制。
206、终端融合同义词匹配类型、上位词匹配类型以及权重词匹配类型下候选词与目标参考词之间的匹配度。
例如,具体的,终端可以获取同义词匹配类型、上位词匹配类型以及权重词匹配对应的预设权重系数,然后,终端计算获取的权重系数与对应匹配类型下候选词与目标参考词之间的匹配度的乘积,得到各匹配类型对应的赋权后匹配度,最后,终端融合各匹配类型对应的赋权后匹配度。
207、终端根据融合结果从预设参考文本库中选择与待匹配文本匹配的参考文本,并输出参考文本。
例如,具体的,终端可以根据融合结果在预设参考文本库中确定与待匹配文本匹配的参考文本,并输出确定的参考文本。
本申请的终端在获取包含多个文本单字的待匹配文本以及所述待匹配文本对应的参考词典后,终端对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词,然后,终端根据候选词与第一目标参考词之间的第一编辑距离,生成候选词与第一目标参考词之间的第一匹配度、终端根据候选词与第二目标参考词之间的第二编辑距离,生成候选词与第二目标参考词之间的第二匹配度,以及终端根据候选词与第三目标参考词之间的第三编辑距离,生成候选词与第三目标参考词之间的第三匹配度,接着,终端融合同义词匹配类型、上位词匹配类型以及权重词匹配下候选词与目标参考词之间的匹配度,最后,终端根据融合结果从预设参考文本库中选择与待匹配文本匹配的参考文本,并输出参考文本,本申请提供的文本匹配方法,根据候选词在同义词匹配类型、上位词匹配类型以及权重词匹配类型下与相应的目标参考词之间的匹配度,并融合各匹配类型下候选词与目标参考词之间的匹配度,可以利用大量以词为基础的先验知识,使得获取的参考词更多,有利于提高后续文本匹配的准确性,并且,在以字为单位可以避免对待匹配文本进行分词时出现误差的情况,因此,提高了文本匹配的准确性。
为了便于进一步理解本申请的文本匹配方案,以下以在线看诊的场景为例进行说明,一种疾病往往有多种表达方式,且医生在病历里记录时往往用词较随意,所以在对医疗数据、医保数据、病例数据进行统计分析前需要先将这些同一个疾病的多种表达进行统一,这就是疾病标准化任务。例如,如图2b所示,对于病历中的描述“声带边有异物”,对应的标准化结果为“编码:T17.900,标准表达:呼吸道内异物”。
以医保ICD10标准为例,该标准中一共有三万多个疾病的标准表达。对于一条不标准的疾病输入文本(待匹配文本),需要从这三万多个标准表达(参考文本)中选择出其中其对应的参考文本。具体的做法是,将输入的文本与这3万多个标准表达一一比较,选择出其中最接近的一个作为模型输出的结果。
在每一次对比中,需要处理两个文本。其中一个是输入的不标准的文本(待匹配文本),另外一个是标准表达(参考文本),输出是一个数值,表示这两个文本之间的相关程度。
首先,将用户输入的非标准的文本定义为A=(c1c2...cn),标准表达定义为B=(c1’c2’...cn’),其中,c表示字,即,A和B都是由字构成的有序序列,为了便于表达,将字构成的有序序列成为词w=(c1c2...cn),词长len(w)=n。
然后,对待匹配文本中的多个文本单字进行组合,得到与至少一个参考词语义关联的候选词,在本申请中,基于三个维度的编辑距离对待匹配文本进行文本匹配,分别包括同义词的编辑距离、上位词的编辑距离以及权重词的编辑距离。
针对同义词的编辑距离,首先,可以获取同义词词典
Figure 902553DEST_PATH_IMAGE001
,将一组同 义词词定义为一个同义词簇
Figure 236582DEST_PATH_IMAGE002
,例如“尿路,泌尿道,尿道”这三个词互为同义 词,构成一个同义词簇。例如“尿路,泌尿道,尿道”这三个词互为同义词,构成一个同义词 簇,同时,计算出同义词词典中最小的词长和最大的词长,其中,最小的词长为
Figure 578702DEST_PATH_IMAGE003
,最大的词长为
Figure 601278DEST_PATH_IMAGE004
,即w是同义词词典中任取的 一个词,基于此,融合同义词词典的编辑距离计算公式如下:
Figure 319835DEST_PATH_IMAGE005
Figure 508371DEST_PATH_IMAGE006
Figure 286971DEST_PATH_IMAGE007
其中,
Figure 560958DEST_PATH_IMAGE008
表示待匹配文本与参考词在同义词词典S下最小的编辑距离,i=0 表示为同义词关系矩阵初始化第一行,j=0表示为同义词关系矩阵初始化第一列,
Figure 83206DEST_PATH_IMAGE009
为同义词关系矩阵转移方程,w为待匹配文本中的单词,w’为同义词词典S中的单 词,
Figure 890363DEST_PATH_IMAGE010
表示若为待匹配文本中的单词w与参考文本的单词w’为同义词,那么待匹 配文本中的单词w与参考文本的单词w’之间的编辑距离为a,否则,则计算单词w转换为单词 w’所需的最少编辑操作次数,a代表同义词的权重,a的取值一般为0.1。在做动态规划算法 的时候,判断以当前位置的字为结尾的词是否可由构成同义词。如果能构成同义词就会使 用一个较小的替换代价。例如:输入的非标准文本为:“***”,当前候选的标准表达是 “泌尿道感染”。如果使用的是现在主流的算法,计算出来的距离是2,如果使用本申请的算 法,计算出来的距离是0.1。这个距离越小,表示两者越匹配,本申请的算法的效果更好。
针对上位词的编辑距离,例如“小结节”是“占位性”的下位词,“占位性”是“小结 节”的上位词。与同义词不同,上下位词是有序的,因此,使用有序词
Figure 574285DEST_PATH_IMAGE011
Figure 335568DEST_PATH_IMAGE012
定 义上下位词的关系,上下位词典位多个具有上下位关系的词的集合
Figure 395927DEST_PATH_IMAGE013
, 需要说明的是,在疾病标准化过程中,用上位词替代下位词是合理的,而用下位词替代上位 词是不合理的。与同义词中的做法类似统计出词典中最小和最大的词长分别为
Figure 559056DEST_PATH_IMAGE014
Figure 413879DEST_PATH_IMAGE015
,融合上下位词词典的编辑距离计算公式如下:
Figure 163923DEST_PATH_IMAGE016
Figure 762394DEST_PATH_IMAGE017
Figure 780029DEST_PATH_IMAGE018
其中,
Figure 336912DEST_PATH_IMAGE019
表示待匹配文本与参考词在上下位词词典H下最小的编辑距离,i=0 表示为上下位词关系矩阵初始化第一行,j=0表示为上下位词关系矩阵初始化第一列,
Figure 807208DEST_PATH_IMAGE020
为上下位关系矩阵转移方程,w为待匹配文本中的单词,w’为上下位词词典H中的 单词,
Figure 943791DEST_PATH_IMAGE021
表示若为待匹配文本中的单词w与参考文本的单字w’为上下位词,那么 待匹配文本中的单词w与参考文本的单词w’之间的编辑距离为b,否则,则计算单词w转换为 单词w’所需的最少编辑操作次数,b代表上位词的权重,b的取值一般为0.13,具体的,可以 判断当前位置的字为结尾的词之间是否可以构成上位词关系。如果能构成上位词关系,就 会使用一个较小的替换代价。例如:输入的非标准文本为:“小结节”,当前候选的标准表达 是“占位性”。“占位性”是“小结节”的一个上位词。如果使用的是现在主流的算法,计算出来 的距离是3,使用本申请的算法,计算出来的距离是0.13。这个距离越小,表示两者越匹配。
同样的,针对权重词的编辑距离,在算法层面,权重高的词和权重低的词的处理逻 辑是相同的,两者的差异仅仅是权重的不同,在本申请中,可以利用函数K构建参考词的权 重,其中,词w的权重位P,即,权重词库的中词记为
Figure 81511DEST_PATH_IMAGE022
,融合权重词典的编辑距离计 算公式如下:
Figure 42252DEST_PATH_IMAGE023
Figure 999843DEST_PATH_IMAGE024
Figure 205697DEST_PATH_IMAGE025
其中,
Figure 197924DEST_PATH_IMAGE026
表示待匹配文本与参考词在权重词典I下最小的编辑距离,i=0表 示为权重词关系矩阵初始化第一行,j=0表示为权重词关系矩阵初始化第一列,
Figure 565451DEST_PATH_IMAGE027
为权重关系矩阵转移方程,w为待匹配文本中的单词,w’为权重词词典I中的单词,
Figure 275918DEST_PATH_IMAGE028
表示若为待匹配文本中的单词w与参考文本的单词w’为上下位词,那么待匹配文 本中的单词w与参考文本的单词w’之间的编辑距离为K(w),否则,则计算单词w转换为单词 w’所需的最少编辑操作次数,在做动态规划算法的时候,判断以当前位置的字为结尾的词 是否属于一个重要词或者不重要词。如果是一个权重较高的词,对该词操作的代价较大,如 果是一个权重较低词,对该词操作的代价较小。如果不属于权重词,则按照默认的操作代 价,也就是词的长度,即,计算编辑距离。
例如:输入的非标准文本为:“细菌性肺炎”,当前候选的标准表达是“细菌病”。如果使用的是现在主流的算法,计算出来的距离是3。然而“病”是医疗语料库中常出现的词,而“细菌性肺炎”和“细菌病”是不一样的疾病。假设得到“肺炎”的权重是4,而“病”的权重是0.5。在本申请中,在计算出来的距离是4.5。这个距离越大,能够凸显两者的差异,防止误判。
最后,融合三种方式的匹配度,并根据融合结果从预设参考文本库中选择与所述待匹配文本匹配的参考文本,并输出参考文本,其中,可以采用下面的公式进行融合计算:
Figure 521348DEST_PATH_IMAGE029
需要说明的是,针对具体的医保icd10/ICD9-CM3数据集调优后均达96%,通用版本准确率分别为91.1%/92.56,具有随着业务数据的积累持续提升性能的能力。而人工标注的准确率为95%。在通用领域接近人工标注的准确率,在针对性调优后已超过人工标注的效果,即,利用大量以词为基础的先验知识,使得获取的参考词更多,有利于提高后续文本匹配的准确性,并且,在以字为单位可以避免对待匹配文本进行分词时出现误差的情况,因此,提高了文本匹配的准确性。
又比如,在机器人在线问答的场景下,用户输入的文本为:“xx型号的空调怎么拆洗”,在本申请的方案中,首先可以获取该文本对应的参考词典,比如家居领域的词典,然后,对输入的文本中的多个文本单字进行组合,得到与参考词典中的参考词语义关联的候选词,然后,根据候选词与参考词在目标匹配类型下的编辑距离,生成候选词与目标参考词之间的匹配度,紧接着,融合各匹配类型下候选词与目标参考词之间的匹配度,其中,编辑距离的计算方法请参阅前面实施例,在此不再赘述,再然后,根据融合结果从预设参考文本库中选择与该文本匹配的参考文本,即,该参考文本为“xx型号的空调怎么拆洗”在机器人在线问答的场景下的一个标准问句,比如,该参考文本可以为“xx型号的空调怎么拆卸和清洗”,最后,输出该参考文本所对应的的回答。
为便于更好的实施本申请的文本匹配方法,本申请还提供一种基于上述文本匹配装置(简称匹配装置)。其中名词的含义与上述文本匹配方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图3,图3为本申请提供的文本匹配装置的结构示意图,其中该分发装置可以包括获取模块301、组合模块302、生成模块303、融合模块304以及输出模块305,具体可以如下:
获取模块301,用于获取包含多个文本单字的待匹配文本以及待匹配文本对应的参考词典。
其中,参考词典为待匹配文本的内容所属领域的词典,参考词典包括至少一个参考词,比如,待匹配文本的内容所属领域为医学领域,那么其对应的参考词典则为医学词典,具体的,待匹配文本以及待匹配文本对应的参考词典可以是保存在本地数据库的,也可以是获取模块301通过访问网络接口拉取得到的,具体根据实际情况而定。
组合模块302,用于对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词。
可选的,在一些实施例中,组合模块302具体可以用于:识别每个文本单字的词性,去除词性为助词的文本单字,并对保留的文本单字进行排列组合,得到与至少一个参考词语义关联的候选词。
生成模块303,用于根据候选词与参考词在至少一个匹配类型下的编辑距离,生成候选词与目标参考词之间的匹配度。
例如,具体的,可以根据候选词与参考词之间的语义关联关系,确定每个参考词对应的目标匹配类型,然后,再根据确定的目标匹配类型,生成候选词与目标参考词之间的匹配度,即,可选的,在一些实施例中,生成模块303具体可以包括:
确定子模块,用于根据候选词与参考词之间的语义关联关系,确定每个参考词对应的目标匹配类型;
计算子模块,用于基于确定的目标匹配类型,计算候选词与至少一个参考词在确定的目标匹配类型的编辑距离,并将编辑距离最小的参考词确定为目标参考词;
生成子模块,用于根据候选词与目标参考词在至少一个匹配类型下的编辑距离,生成候选词与目标参考词之间的匹配度。
可选的,在一些实施例中,计算子模块具体可以包括:
第一计算单元,用于计算候选词与至少一个参考词在同义词匹配类型下的第一编辑距离,并将第一编辑距离最小的参考词确定为第一目标参考词;
第二计算单元,用于计算候选词与至少一个参考词在上位词匹配类型下的第二编辑距离,并将第二编辑距离最小的参考词确定为第二目标参考词;
第三计算单元,用于计算候选词与至少一个参考词在权重词匹配类型下的第三编辑距离,并将第三编辑距离最小的参考词确定为第三目标参考词。
可选的,在一些实施例中,第一计算单元具体可以用于:在参考词典中选择同义词簇集合,同义词簇集合包括多个同义词簇,每个同义词簇中包含至少两个词义相同的参考词;确定与候选词的语义相同的同义词簇,得到目标同义词簇;计算候选词与目标同义词簇中每个参考词之间的第一编辑距离,并将第一编辑距离最小的参考词确定第一目标参考词;生成子模块具体用于:根据候选词与第一目标参考词之间的第一编辑距离,生成候选词与第一目标参考词之间的第一匹配度。
可选的,在一些实施例中,第二计算单元具体可以用于:根据候选词的语义以及每个参考词的语义,确定候选词与至少一个参考词之间的上下位关系;基于确定的上下位关系,计算候选词与对应的上位参考词之间的第二编辑距离,并将第二编辑距离最小的参考词确定为第二目标参考词;生成子模块具体可以用于:根据候选词与第二目标参考词之间的第二编辑距离,生成候选词与第二目标参考词之间的第二匹配度。
可选的,在一些实施例中,第三计算单元具体可以包括:
采集子单元,用于采集每个参考词预先建立的权重值;
计算子单元,用于计算候选词与每个参考词之间的相似度,并将相似度大于预设值的参考词确定为待选词;
确定子单元,用于根据确定的待选词的权重,计算候选词与确定的待选词的第三编辑距离,并将第三编辑距离最小的待选词确定为第三目标参考词;
生成子模块具体用于:根据候选词与第三目标参考词之间的第三编辑距离,生成候选词与第三目标参考词之间的第三匹配度。
可选的,在一些实施例中,确定子单元具体可以用于:计算候选词与权重小于预设权重的待选词的第三编辑距离,并将第三编辑距离最小的待选词确定为第三目标参考词。
融合模块304,用于融合各匹配类型下候选词与目标参考词之间的匹配度。
可选的,在一些实施例中,融合模块304具体可以用于:获取各匹配类型对应的预设权重系数,计算获取的权重系数与对应匹配类型下候选词与目标参考词之间的匹配度的乘积,得到各匹配类型对应的赋权后匹配度,融合各匹配类型对应的赋权后匹配度。
输出模块305,用于根据融合结果从预设参考文本库中选择与待匹配文本匹配的参考文本,并输出参考文本。
例如,具体的,输出模块305可以根据融合结果在预设参考文本库中确定与待匹配文本匹配的参考文本,并输出确定的参考文本。
本申请的获取模块301在获取包含多个文本单字的待匹配文本以及所述待匹配文本对应的参考词典后,组合模块302对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词,然后,生成模块303根据候选词与目标参考词在至少一个匹配类型下的编辑距离,生成候选词与目标参考词之间的匹配度,接着,融合模块304融合各匹配类型下候选词与目标参考词之间的匹配度,最后,输出模块305根据融合结果从预设参考文本库中选择与待匹配文本匹配的参考文本,并输出参考文本,本申请提供的文本匹配装置,在根据候选词与目标参考词在至少一个匹配类型下的编辑距离,生成候选词与目标参考词之间的匹配度后,融合各匹配类型下候选词与目标参考词之间的匹配度,可以利用大量以词为基础的先验知识,使得获取的参考词更多,有利于提高后续文本匹配的准确性,并且,在以字为单位可以避免对待匹配文本进行分词时出现误差的情况,因此,提高了文本匹配的准确性。
此外,本申请还提供一种电子设备,如图4所示,其示出了本申请所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理***与处理器401逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取包含多个文本单字的待匹配文本以及所述待匹配文本对应的参考词典,对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词,根据候选词与目标参考词在至少一个匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度,融合各匹配类型下所述候选词与目标参考词之间的匹配度,根据融合结果从预设参考文本库中选择与所述待匹配文本匹配的参考文本,并输出所述参考文本。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本申请在获取包含多个文本单字的待匹配文本以及所述待匹配文本对应的参考词典后,对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词,然后,根据候选词与目标参考词在至少一个匹配类型下的编辑距离,生成候选词与目标参考词之间的匹配度,接着,融合各匹配类型下候选词与目标参考词之间的匹配度,最后,根据融合结果从预设参考文本库中选择与待匹配文本匹配的参考文本,并输出参考文本,本申请提供的文本匹配方法,在根据候选词与目标参考词在至少一个匹配类型下的编辑距离,生成候选词与目标参考词之间的匹配度后,融合各匹配类型下候选词与目标参考词之间的匹配度,可以利用大量以词为基础的先验知识,使得获取的参考词更多,有利于提高后续文本匹配的准确性,并且,在以字为单位可以避免对待匹配文本进行分词时出现误差的情况,因此,提高了文本匹配的准确性。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请所提供的任一种文本匹配方法中的步骤。例如,该指令可以执行如下步骤:
获取包含多个文本单字的待匹配文本以及所述待匹配文本对应的参考词典,对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词,根据候选词与目标参考词在至少一个匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度,融合各匹配类型下所述候选词与目标参考词之间的匹配度,根据融合结果从预设参考文本库中选择与所述待匹配文本匹配的参考文本,并输出所述参考文本。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请所提供的任一种文本匹配方法中的步骤,因此,可以实现本申请所提供的任一种文本匹配方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
以上对本申请所提供的一种文本匹配方法、装置、电子设备以及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (12)

1.一种文本匹配方法,其特征在于,包括:
获取包含多个文本单字的待匹配文本以及所述待匹配文本对应的参考词典,所述参考词典为所述待匹配文本的内容所属领域的词典,其中,所述参考词典包括至少一个参考词;
对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词;
根据所述候选词与至少一个参考词在目标匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度;
融合各匹配类型下所述候选词与目标参考词之间的匹配度;
根据融合结果从预设参考文本库中选择与所述待匹配文本匹配的参考文本,并输出所述参考文本。
2.根据权利要求1所述的方法,其特征在于,所述根据所述候选词与至少一个参考词在目标匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度,包括:
根据所述候选词与参考词之间的语义关联关系,确定每个参考词对应的目标匹配类型;
基于确定的目标匹配类型,计算所述候选词与至少一个参考词在确定的目标匹配类型的编辑距离,并将编辑距离最小的参考词确定为目标参考词;
根据所述候选词与目标参考词在至少一个匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度。
3.根据权利要求2所述的方法,其特征在于,所述基于确定的目标匹配类型,计算所述候选词与至少一个参考词在确定的目标匹配类型的编辑距离,并将编辑距离最小的参考词确定为目标参考词,包括:
计算所述候选词与至少一个参考词在同义词匹配类型下的第一编辑距离,并将第一编辑距离最小的参考词确定为第一目标参考词;
计算所述候选词与至少一个参考词在上位词匹配类型下的第二编辑距离,并将第二编辑距离最小的参考词确定为第二目标参考词;
计算所述候选词与至少一个参考词在权重词匹配类型下的第三编辑距离,并将第三编辑距离最小的参考词确定为第三目标参考词。
4.根据权利要求3所述的方法,其特征在于,所述计算所述候选词与至少一个参考词在同义词匹配类型下的第一编辑距离,并将第一编辑距离最小的参考词确定为第一目标参考词,包括:
在所述参考词典中选择同义词簇集合,所述同义词簇集合包括多个同义词簇,每个同义词簇中包含至少两个词义相同的参考词;
确定与所述候选词的语义相同的同义词簇,得到目标同义词簇;
计算所述候选词与目标同义词簇中每个参考词之间的第一编辑距离,并将第一编辑距离最小的参考词确定第一目标参考词;
所述根据所述候选词与目标参考词在至少一个匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度,包括:根据所述候选词与第一目标参考词之间的第一编辑距离,生成所述候选词与第一目标参考词之间的第一匹配度。
5.根据权利要求3所述的方法,其特征在于,所述计算所述候选词与至少一个参考词在上位词匹配类型下的第二编辑距离,并将第二编辑距离最小的参考词确定为第二目标参考词,包括:
根据所述候选词的语义以及每个参考词的语义,确定所述候选词与至少一个参考词之间的上下位关系;
基于确定的上下位关系,计算所述候选词与对应的上位参考词之间的第二编辑距离,并将第二编辑距离最小的参考词确定为第二目标参考词;
所述根据所述候选词与目标参考词在至少一个匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度,包括:根据所述候选词与第二目标参考词之间的第二编辑距离,生成所述候选词与第二目标参考词之间的第二匹配度。
6.根据权利要求3所述的方法,其特征在于,所述计算所述候选词与至少一个参考词在权重词匹配类型下的第三编辑距离,并将第三编辑距离最小的参考词确定为第三目标参考词,包括:
采集每个参考词预先建立的权重值;
计算所述候选词与每个参考词之间的相似度,并将相似度大于预设值的参考词确定为待选词;
根据确定的待选词的权重,计算所述候选词与确定的待选词的第三编辑距离,并将第三编辑距离最小的待选词确定为第三目标参考词;
所述根据所述候选词与目标参考词在至少一个匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度,包括:根据所述候选词与第三目标参考词之间的第三编辑距离,生成所述候选词与第三目标参考词之间的第三匹配度。
7.根据权利要求6所述的方法,其特征在于,所述根据确定的待选词的权重,计算所述候选词与确定的待选词的第三编辑距离,并将第三编辑距离最小的待选词确定为第三目标参考词,包括:
计算所述候选词与权重小于预设权重的待选词的第三编辑距离,并将第三编辑距离最小的待选词确定为第三目标参考词。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述融合各匹配类型下所述候选词与目标参考词之间的匹配度,包括:
获取各匹配类型对应的预设权重系数;
计算获取的权重系数与对应匹配类型下所述候选词与目标参考词之间的匹配度的乘积,得到各匹配类型对应的赋权后匹配度;
融合各匹配类型对应的赋权后匹配度。
9.根据权利要求1至7任一项所述的方法,其特征在于,所述对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词,包括:
识别每个文本单字的词性;
去除词性为助词的文本单字,并对保留的文本单字进行排列组合,得到与至少一个参考词语义关联的候选词。
10.一种文本匹配装置,其特征在于,包括:
获取模块,用于获取包含多个文本单字的待匹配文本以及所述待匹配文本对应的参考词典,所述参考词典为所述待匹配文本的内容所属领域的词典,其中,所述参考词典包括至少一个参考词;
组合模块,用于对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词;
生成模块,用于根据所述候选词与参考词在至少一个匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度;
融合模块,用于融合各匹配类型下所述候选词与目标参考词之间的匹配度;
输出模块,用于根据融合结果从预设参考文本库中选择与所述待匹配文本匹配的参考文本,并输出所述参考文本。
11.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1-9任一项所述文本匹配方法的步骤。
12.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-9任一项所述文本匹配方法的步骤。
CN202011045975.8A 2020-09-29 2020-09-29 文本匹配方法、装置、电子设备以及存储介质 Active CN111931477B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011045975.8A CN111931477B (zh) 2020-09-29 2020-09-29 文本匹配方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011045975.8A CN111931477B (zh) 2020-09-29 2020-09-29 文本匹配方法、装置、电子设备以及存储介质

Publications (2)

Publication Number Publication Date
CN111931477A CN111931477A (zh) 2020-11-13
CN111931477B true CN111931477B (zh) 2021-01-05

Family

ID=73334752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011045975.8A Active CN111931477B (zh) 2020-09-29 2020-09-29 文本匹配方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN111931477B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528670B (zh) * 2020-12-01 2022-08-30 清华大学 字词词义处理方法、装置、电子设备及存储介质
CN112507709B (zh) * 2020-12-28 2024-05-24 科大讯飞华南人工智能研究院(广州)有限公司 文档匹配方法以及电子设备、存储装置
CN112733492B (zh) * 2020-12-31 2022-05-03 平安医疗健康管理股份有限公司 基于知识库的辅助设计方法、装置、终端和存储介质
CN112837771B (zh) * 2021-01-25 2022-09-13 山东浪潮智慧医疗科技有限公司 一种融合文本分类与词法分析的体检异常项归一化方法
CN113254658B (zh) * 2021-07-07 2021-12-21 明品云(北京)数据科技有限公司 文本信息处理方法、***、介质和设备
CN114783419B (zh) * 2022-06-21 2022-09-27 深圳市友杰智新科技有限公司 结合先验知识的文本识别方法、装置、计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9996603B2 (en) * 2014-10-14 2018-06-12 Adobe Systems Inc. Detecting homologies in encrypted and unencrypted documents using fuzzy hashing
CN108536708A (zh) * 2017-03-03 2018-09-14 腾讯科技(深圳)有限公司 一种自动问答处理方法及自动问答***
CN109101493A (zh) * 2018-08-01 2018-12-28 东北大学 一种基于对话机器人的智能购房助手
CN110991168A (zh) * 2019-12-05 2020-04-10 京东方科技集团股份有限公司 同义词挖掘方法、同义词挖掘装置及存储介质
US10664526B2 (en) * 2014-12-05 2020-05-26 Facebook, Inc. Suggested keywords for searching content on online social networks

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2469421A1 (en) * 2010-12-23 2012-06-27 British Telecommunications Public Limited Company Method and apparatus for processing electronic data
CN108073565A (zh) * 2016-11-10 2018-05-25 株式会社Ntt都科摩 词语规范化的方法和设备及机器翻译方法和设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9996603B2 (en) * 2014-10-14 2018-06-12 Adobe Systems Inc. Detecting homologies in encrypted and unencrypted documents using fuzzy hashing
US10664526B2 (en) * 2014-12-05 2020-05-26 Facebook, Inc. Suggested keywords for searching content on online social networks
CN108536708A (zh) * 2017-03-03 2018-09-14 腾讯科技(深圳)有限公司 一种自动问答处理方法及自动问答***
CN109101493A (zh) * 2018-08-01 2018-12-28 东北大学 一种基于对话机器人的智能购房助手
CN110991168A (zh) * 2019-12-05 2020-04-10 京东方科技集团股份有限公司 同义词挖掘方法、同义词挖掘装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于群组平台知识圈的精准信息推荐;王峰等;《现代情报》;20180731;第38卷(第7期);第74-80页 *

Also Published As

Publication number Publication date
CN111931477A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN111931477B (zh) 文本匹配方法、装置、电子设备以及存储介质
CN112131366B (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
US11556713B2 (en) System and method for performing a meaning search using a natural language understanding (NLU) framework
JP6583686B2 (ja) 意味情報生成方法、意味情報生成装置、およびプログラム
JP5936698B2 (ja) 単語意味関係抽出装置
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN109657053B (zh) 多文本摘要生成方法、装置、服务器及存储介质
US20200342052A1 (en) Syntactic graph traversal for recognition of inferred clauses within natural language inputs
JP7335300B2 (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
CN113095080B (zh) 基于主题的语义识别方法、装置、电子设备和存储介质
Wang et al. Learning distributed word representations for bidirectional lstm recurrent neural network
US20220245353A1 (en) System and method for entity labeling in a natural language understanding (nlu) framework
JP7308910B2 (ja) 単語スロットの認識方法、装置及び電子機器
CN112151015A (zh) 关键词检测方法、装置、电子设备以及存储介质
CN112052318A (zh) 一种语义识别方法、装置、计算机设备和存储介质
US20220245361A1 (en) System and method for managing and optimizing lookup source templates in a natural language understanding (nlu) framework
CN110888970B (zh) 文本生成方法、装置、终端和存储介质
CN115878750A (zh) 信息处理方法、装置、设备及计算机可读存储介质
US20220237383A1 (en) Concept system for a natural language understanding (nlu) framework
El Janati et al. Adaptive e-learning AI-powered chatbot based on multimedia indexing
CN112287656A (zh) 文本比对方法、装置、设备和存储介质
US20220229994A1 (en) Operational modeling and optimization system for a natural language understanding (nlu) framework
US9286289B2 (en) Ordering a lexicon network for automatic disambiguation
CN114818724A (zh) 一种社交媒体灾害有效信息检测模型的构建方法
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant