CN114490999A - 文本匹配方法、装置、终端及存储介质 - Google Patents

文本匹配方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN114490999A
CN114490999A CN202210094425.8A CN202210094425A CN114490999A CN 114490999 A CN114490999 A CN 114490999A CN 202210094425 A CN202210094425 A CN 202210094425A CN 114490999 A CN114490999 A CN 114490999A
Authority
CN
China
Prior art keywords
text
short text
matched
target
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210094425.8A
Other languages
English (en)
Inventor
邹倩霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen One Ledger Science And Technology Service Co ltd
Original Assignee
Shenzhen One Ledger Science And Technology Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen One Ledger Science And Technology Service Co ltd filed Critical Shenzhen One Ledger Science And Technology Service Co ltd
Priority to CN202210094425.8A priority Critical patent/CN114490999A/zh
Publication of CN114490999A publication Critical patent/CN114490999A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种文本匹配方法、装置、终端及存储介质,所述方法包括:获取待匹配短文本;对所述待匹配短文本进行过滤处理,以得到过滤后的待匹配短文本;根据特征提取模型对所述过滤后的待匹配短文本进行特征提取,以得到向量特征;将所述向量特征输入至文本匹配模型中进行匹配,以得到与所述待匹配短文本对应的目标文本;展示所述目标文本,能够提升短文本匹配时的准确性。

Description

文本匹配方法、装置、终端及存储介质
技术领域
本申请涉及文本处理技术领域,具体涉及一种文本匹配方法、装置、终端及存储介质。
背景技术
短文本相似度,即求解两个短文本之间的相似程度;它是文本匹配任务或文本蕴含任务的一种特殊形式,返回文本之间相似程度的具体数值。在工业界中,短文本相似度计算占有举足轻重的地位。例如:在对话机器人里,文本长度基本是以短文本为主。目前,短文本相似度算法可以分为三大类:(1)无监督相似度计算;(2)有监督相似度计算;(3)有监督+无监督相似度计算。
我们在利用上述方法测试细粒度短文本的相似度时发现。如果极相似的两句文本,但含义不同,目前的算法在区分的时候效果不大好,文本匹配时的准确性亟待提升。
发明内容
本申请实施例提供一种文本匹配方法、装置、终端及存储介质,能够提升短文本匹配时的准确性。
本申请实施例的第一方面提供了一种文本匹配方法,所述方法包括:
获取待匹配短文本;
对所述待匹配短文本进行过滤处理,以得到过滤后的待匹配短文本;
根据特征提取模型对所述过滤后的待匹配短文本进行特征提取,以得到向量特征;
将所述向量特征输入至文本匹配模型中进行匹配,以得到与所述待匹配短文本对应的目标文本;
展示所述目标文本。
本申请实施例的第二方面提供了一种文本匹配装置,所述装置包括:
获取单元,用于获取待匹配短文本;
过滤单元,用于对所述待匹配短文本进行过滤处理,以得到过滤后的待匹配短文本;
提取单元,用于根据特征提取模型对所述过滤后的待匹配短文本进行特征提取,以得到向量特征;
匹配单元,用于将所述向量特征输入至文本匹配模型中进行匹配,以得到与所述待匹配短文本对应的目标文本;
展示单元,用于展示所述目标文本。
本申请实施例的第三方面提供一种终端,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如本申请实施例第一方面中的步骤指令。
本申请实施例的第四方面提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
本申请实施例的第五方面提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
实施本申请实施例,至少具有如下有益效果:
获取待匹配短文本,对所述待匹配短文本进行过滤处理,以得到过滤后的待匹配短文本,根据特征提取模型对所述过滤后的待匹配短文本进行特征提取,以得到向量特征,将所述向量特征输入至文本匹配模型中进行匹配,以得到与所述待匹配短文本对应的目标文本,展示所述目标文本,因此,可以根据特征提取模型提取到的向量特征,并基于该向量特征在文本匹配模型中进行匹配以得到目标文本,从而提升了文本匹配时的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供了一种文本匹配方法的流程示意图;
图2为本申请实施例提供了另一种文本匹配方法的流程示意图;
图3为本申请实施例提供的一种终端的结构示意图;
图4为本申请实施例提供了一种文本匹配装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
为了更好的理解本申请实施例提供的一种方法,下面首先对应用进行简要介绍。
请参阅图1,图1为本申请实施例提供了一种文本匹配方法的流程示意图。如图1所以,所述方法包括:
101、获取待匹配短文本。
其中,带匹配短文本为需要进行匹配的短文本,通过匹配得到与其对应的文本。短文本可以包括有短句、短语等。
可以通过用户输入的方式获取到待匹配短文本,也可以从互联网、服务器、电子设备等获取到待匹配短文本。
102、对所述待匹配短文本进行过滤处理,以得到过滤后的待匹配短文本。
其中,对待匹配短文本进行过滤处理的方法可以是:对待匹配短文本进行去感叹词处理、去标点处理等。
103、根据特征提取模型对所述过滤后的待匹配短文本进行特征提取,以得到向量特征。
其中,特征提取模型可以是TextCNN模型,通过该模型可以提取到文本的特征向量。
104、将所述向量特征输入至文本匹配模型中进行匹配,以得到与所述待匹配短文本对应的目标文本。
其中,文本匹配模型可以是ernie模型,该模型用于对文本进行匹配。上述特征提取模型和文本匹配模型在进行训练时为统一训练得到,也可以将上述两种模型进行拼接,从而得到一个新的模型,直接通过该新的模型进行文本匹配。
105、展示所述目标文本。
可以通过显示屏等展示目标文本,当然也可以将目标文本发送至电子设备,通过电子设备展示目标文本。
本示例中,通过获取待匹配短文本,对所述待匹配短文本进行过滤处理,以得到过滤后的待匹配短文本,根据特征提取模型对所述过滤后的待匹配短文本进行特征提取,以得到向量特征,将所述向量特征输入至文本匹配模型中进行匹配,以得到与所述待匹配短文本对应的目标文本,展示所述目标文本,因此,可以根据特征提取模型提取到的向量特征,并基于该向量特征在文本匹配模型中进行匹配以得到目标文本,从而提升了文本匹配时的准确性。
在一个可能的实现方式中,特征提取模型包括有嵌入层、卷积池化层和全连接层,一种可能的根据特征提取模型对所述过滤后的待匹配短文本进行特征提取,以得到向量特征的方法,包括:
A1、将所述过滤后的待匹配短文本输入至所述特征提取模型的嵌入层进行运算,得到第一运算结果;
A2、将所述第一运算结果输入至所述特征提取模型的卷积池化层进行运算,以得到第二运算结果;
A3、将所述第二运算结果输入至所述特征提取模型的全连接层进行运算,以得到第三运算结果,以及将所述第三运算结果确定为所述向量特征。
其中,第一运算结果、第二运算结果均为特征提取模型进行特征提取的中间量,该中间量可以直接输入到下一层中进行运算,也可以进行存储后再输入到下一层中进行运算等。
在一个可能的实现方式中,由于可能出现未进行训练的文本,则其得到的匹配文本的准确性可能交底,因此,在展示所述目标文本之前,还可以对匹配得到的目标文本进行调整,该调整方法具体包括:
B1、获取所述待匹配短文本与所述目标文本之间的目标相似度;
B2、若所述目标相似度低于第一预设相似度阈值,则对所述待匹配短文本和所述目标文本进行分词处理,以得到所述待匹配短文本的第一词集合和所述目标文本的第二词集合;
B3、获取所述第一词集合与所述第二词集合中对应的词语之间的相似度,以得到相似度集合;
B4、获取所述相似度集合中高于第二预设相似度阈值的相似度对应于所述第一词集合中的词语,得到参考词语,所述第二预设相似度阈值高于所述第一预设相似度阈值;
B5、获取包括所述参考词语的短文本,以得到至少一个参考短文本;
B6、根据所述至少一个参考短文本和所述第二词集合中,确定出与所述待匹配短文本对应的短文本;
B7、将与所述待匹配短文本对应的短文本确定为目标文本。
可以通过文本匹配模型获取到该目标相似度,也可以是通过其他相似度匹配方法,获取到该目标相似度。第一预设相似度阈值通过经验值或历史数据设定。
对待匹配短文本和目标文本进行分词处理时,可以通过最大切词法等获取到第一词集合和第二词集合。第一词集合和第二词集合中包括有多个词语。
第一词集合和第二词集合中对应的词语可以理解为,待匹配短文本中的词语与目标文本中的词语在相同位置处的词语为对应的词语。第二相似度阈值通过经验值或历史数据设定。
可以从数据库中获取到包括参考词语的短文本,以得到至少一个参考短文本,该参考短文本可以近似的理解与目标文本相近的文本。
可以根据参考短文本的语义来确定出与待匹配短文本对应的短文本,从而提升待匹配短文本对应的短文本确定的准确性。
通过获取第一词集合中的词语对应的相似度高与第二预设相似度阈值的词语,则可以得到待匹配短文本中与目标文本匹配的词语。从而可以根据包括由上述词语的短文本来得到与待匹配短文本对应的短文本,则可以提升准确性。
在一个可能的实现方式中,一种可能的根据所述至少一个参考短文本,确定出与所述待匹配短文本对应的短文本的方法包括:
C1、获取所述至少一个参考短文本的语义信息,以得到与所述至少一个参考短文本对应的参考语义信息;
C2、获取所述待匹配短文本的目标语义信息;
C3、根据所述目标语义信息和所述至少一个参考短文本对应的参考语义信息,从所述至少一个参考短文本中确定出与所述待匹配短文本对应的短文本。
其中,可以通过通用语义识别算法获取到参考短文本的语义信息,从而得到参考语义信息。以及还可以获取到待匹配短文本的目标语义信息。
获取目标语义信息于参考语义信息之间的相似度,将于目标语义信息之间的相似度最高的参考语义信息对应的参考短文本确定为与所述待匹配短文本对应的短文本。
本示例中,通过获取参考短文本的语义信息得到参考语义信息,并根据参考语义信息和目标语义信息确定出与所述待匹配短文本对应的短文本,从而可从语义的角度出发来确定出与所述待匹配短文本对应的短文本,提升了确定与所述待匹配短文本对应的短文本的准确性。
在一个可能的实现方式中年,另一种可能的根据所述至少一个参考短文本,确定出与所述待匹配短文本对应的短文本的方法包括:
D1、获取所述至少一个参考短文本的语义信息,以得到与所述至少一个参考短文本对应的参考语义信息;
D2、对所述至少一个参考短文本对应的参考语义信息进行融合处理,以得到目标语义信息;
D3、根据所述目标语义信息对所述目标文本进行调整,以得到调整后的目标文本;
D4、将所述调整后的目标文本,确定为与所述待匹配短文本对应的短文本。
其中,获取参考语义信息的方法可以参照前述实施例中步骤C1的方法,此处不再赘述。
对参考语义信息进行融合的方法可以是:获取参考语义信息中的不同信息,将该不同信息进行语义融合,从而得到融合后的目标语义信息。具体例如:第一参考语义信息和第二参考语义信息中存在第一子语义信息、第二子语义信息不同,第一子语义信息与第二子语义信息相对应,则将该子语义信息进行语义融合,具体融合可以为:获取第一子语义信息与第二子语义信息的中间信息,将该中间信息确定为融合后的信息,中间信息可以理解为第一子语义信息与第二子语义信息中语义偏中的信息,例如,第一子语义信息为“极大”,第二子语义信息为“很大”,则中间语义可以为“非常大”。此处仅为距离说明,不做具体限定。
可以根据目标语义信息对目标文本中对应的部分进行调整,从而得到调整后的目标文本,调整后的目标文本的语义信息为该目标语义信息。
本示例中,通过将参考语义信息进行融合处理,得到目标语义信息,并根据目标语义信息对目标文本进行调整,将调整后的目标文本,确定为待匹配短文本对应的短文本,从而提升了待匹配短文本对应的短文本确定的准确性。
在一个可能的实现方式中,本申请实施例还可以对目标文本进行校验,具体如下:
E1、对所述待匹配短文本进行去感叹词处理,以得到第一处理文本;
E2、对所述第一处理文本进行语义结构分析,以得到所述第一处理文本的语义结构;
E3、根据所述语义结构对所述目标文本进行校验,以得到校验结果;
E4、展示所述校验结果。
其中,对待匹配短文本进行去感叹词处理的方法可以为:识别待匹配短文本中的感叹词,然后将该感叹词进行删除,从而得到第一处理文本。
对感叹词进行识别的方法可以采用通用的文本识别方法,当然也可以是其他方法。
对第一处理文本进行语义结构分析的方法可以为:获取第一处理文本的语义结构关键信息,根据该语义结构关键信息,得到语义结构。例如:第一处理文本为:我想买XX手机,则其语义结构关键信息为:我,买,手机,根据该语义结构关键信息则可以确定出语义结构为:我买手机。
又例如,比如“我要买AA手机”,其语义结构关键信息为:我+买+手机,则其语义结构为我+买+名词,是一个非常明显的购物意图的句式。
根据语义结构对目标文本进行校验的方法可以为:获取目标文本的语义结构,根据该语义结构和目标文本的语义结构之间的相似度来进行校验。若相似度高于固定阈值,则校验结果为成功,若低于该固定阈值,则校验结果为失败。固定阈值通过经验值或历史数据设定。
本示例中,通过对所述待匹配短文本进行去感叹词处理,以得到第一处理文本,对所述第一处理文本进行语义结构分析,以得到所述第一处理文本的语义结构,根据所述语义结构对所述目标文本进行校验,以得到校验结果,并展示校验结果,从而可以对目标文本进行校验,提升准确性。
请参阅图2,图2为本申请实施例提供了另一种文本匹配方法的流程示意图。如图2所以,所述方法包括:
201、获取待匹配短文本;
202、对所述待匹配短文本进行过滤处理,以得到过滤后的待匹配短文本;
203、根据特征提取模型对所述过滤后的待匹配短文本进行特征提取,以得到向量特征;
204、将所述向量特征输入至文本匹配模型中进行匹配,以得到与所述待匹配短文本对应的目标文本;
205、获取所述待匹配短文本与所述目标文本之间的目标相似度;
206、若所述目标相似度低于第一预设相似度阈值,则对所述待匹配短文本和所述目标文本进行分词处理,以得到所述待匹配短文本的第一词集合和所述目标文本的第二词集合;
207、获取所述第一词集合与所述第二词集合中对应的词语之间的相似度,以得到相似度集合;
208、获取所述相似度集合中高于第二预设相似度阈值的相似度对应于所述第一词集合中的词语,得到参考词语,所述第二预设相似度阈值高于所述第一预设相似度阈值;
209、获取包括所述参考词语的短文本,以得到至少一个参考短文本;
210、根据所述至少一个参考短文本和所述第二词集合中,确定出与所述待匹配短文本对应的短文本;
211、将与所述待匹配短文本对应的短文本确定为目标文本;
212、展示所述目标文本。
本示例中,通过获取第一词集合中的词语对应的相似度高与第二预设相似度阈值的词语,则可以得到待匹配短文本中与目标文本匹配的词语。从而可以根据包括由上述词语的短文本来得到与待匹配短文本对应的短文本,则可以提升准确性。
与上述实施例一致的,请参阅图3,图3为本申请实施例提供的一种终端的结构示意图,如图所示,包括处理器、输入设备、输出设备和存储器,处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,上述程序包括用于执行以下步骤的指令;
获取待匹配短文本;
对所述待匹配短文本进行过滤处理,以得到过滤后的待匹配短文本;
根据特征提取模型对所述过滤后的待匹配短文本进行特征提取,以得到向量特征;
将所述向量特征输入至文本匹配模型中进行匹配,以得到与所述待匹配短文本对应的目标文本;
展示所述目标文本。
在一个可能的实现方式中,所述根据特征提取模型对所述过滤后的待匹配短文本进行特征提取,以得到向量特征,包括:
将所述过滤后的待匹配短文本输入至所述特征提取模型的嵌入层进行运算,得到第一运算结果;
将所述第一运算结果输入至所述特征提取模型的卷积池化层进行运算,以得到第二运算结果;
将所述第二运算结果输入至所述特征提取模型的全连接层进行运算,以得到第三运算结果,以及将所述第三运算结果确定为所述向量特征。
在一个可能的实现方式中,在展示所述目标文本之前,所述方法还包括:
获取所述待匹配短文本与所述目标文本之间的目标相似度;
若所述目标相似度低于第一预设相似度阈值,则对所述待匹配短文本和所述目标文本进行分词处理,以得到所述待匹配短文本的第一词集合和所述目标文本的第二词集合;
获取所述第一词集合与所述第二词集合中对应的词语之间的相似度,以得到相似度集合;
获取所述相似度集合中高于第二预设相似度阈值的相似度对应于所述第一词集合中的词语,得到参考词语,所述第二预设相似度阈值高于所述第一预设相似度阈值;
获取包括所述参考词语的短文本,以得到至少一个参考短文本;
根据所述至少一个参考短文本和所述第二词集合中,确定出与所述待匹配短文本对应的短文本;
将与所述待匹配短文本对应的短文本确定为目标文本。
在一个可能的实现方式中,所述根据所述至少一个参考短文本,确定出与所述待匹配短文本对应的短文本,包括:
获取所述至少一个参考短文本的语义信息,以得到与所述至少一个参考短文本对应的参考语义信息;
获取所述待匹配短文本的目标语义信息;
根据所述目标语义信息和所述至少一个参考短文本对应的参考语义信息,从所述至少一个参考短文本中确定出与所述待匹配短文本对应的短文本。
在一个可能的实现方式中,所述根据所述至少一个参考短文本,确定出与所述待匹配短文本对应的短文本,包括:
获取所述至少一个参考短文本的语义信息,以得到与所述至少一个参考短文本对应的参考语义信息;
对所述至少一个参考短文本对应的参考语义信息进行融合处理,以得到目标语义信息;
根据所述目标语义信息对所述目标文本进行调整,以得到调整后的目标文本;
将所述调整后的目标文本,确定为与所述待匹配短文本对应的短文本。
在一个可能的实现方式中,所述方法还包括:
对所述待匹配短文本进行去感叹词处理,以得到第一处理文本;
对所述第一处理文本进行语义结构分析,以得到所述第一处理文本的语义结构;
根据所述语义结构对所述目标文本进行校验,以得到校验结果;
展示所述校验结果。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,终端为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对终端进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
与上述一致的,请参阅图4,图4为本申请实施例提供了一种文本匹配装置的结构示意图。如图4所示,,所述装置包括:
获取单元401,用于获取待匹配短文本;
过滤单元402,用于对所述待匹配短文本进行过滤处理,以得到过滤后的待匹配短文本;
提取单元403,用于根据特征提取模型对所述过滤后的待匹配短文本进行特征提取,以得到向量特征;
匹配单元404,用于将所述向量特征输入至文本匹配模型中进行匹配,以得到与所述待匹配短文本对应的目标文本;
展示单元405,用于展示所述目标文本。
在一个可能的实现方式中,所述提取单元403用于:
将所述过滤后的待匹配短文本输入至所述特征提取模型的嵌入层进行运算,得到第一运算结果;
将所述第一运算结果输入至所述特征提取模型的卷积池化层进行运算,以得到第二运算结果;
将所述第二运算结果输入至所述特征提取模型的全连接层进行运算,以得到第三运算结果,以及将所述第三运算结果确定为所述向量特征。
在一个可能的实现方式中,在展示所述目标文本之前,所述装置还用于:
获取所述待匹配短文本与所述目标文本之间的目标相似度;
若所述目标相似度低于第一预设相似度阈值,则对所述待匹配短文本和所述目标文本进行分词处理,以得到所述待匹配短文本的第一词集合和所述目标文本的第二词集合;
获取所述第一词集合与所述第二词集合中对应的词语之间的相似度,以得到相似度集合;
获取所述相似度集合中高于第二预设相似度阈值的相似度对应于所述第一词集合中的词语,得到参考词语,所述第二预设相似度阈值高于所述第一预设相似度阈值;
获取包括所述参考词语的短文本,以得到至少一个参考短文本;
根据所述至少一个参考短文本和所述第二词集合中,确定出与所述待匹配短文本对应的短文本;
将与所述待匹配短文本对应的短文本确定为目标文本。
在一个可能的实现方式中,在所述根据所述至少一个参考短文本,确定出与所述待匹配短文本对应的短文本方面,所示装置用于:
获取所述至少一个参考短文本的语义信息,以得到与所述至少一个参考短文本对应的参考语义信息;
获取所述待匹配短文本的目标语义信息;
根据所述目标语义信息和所述至少一个参考短文本对应的参考语义信息,从所述至少一个参考短文本中确定出与所述待匹配短文本对应的短文本。
在一个可能的实现方式中,在所述根据所述至少一个参考短文本,确定出与所述待匹配短文本对应的短文本方面,所示装置用于:
获取所述至少一个参考短文本的语义信息,以得到与所述至少一个参考短文本对应的参考语义信息;
对所述至少一个参考短文本对应的参考语义信息进行融合处理,以得到目标语义信息;
根据所述目标语义信息对所述目标文本进行调整,以得到调整后的目标文本;
将所述调整后的目标文本,确定为与所述待匹配短文本对应的短文本。
在一个可能的实现方式中,所述装置还用于:
对所述待匹配短文本进行去感叹词处理,以得到第一处理文本;
对所述第一处理文本进行语义结构分析,以得到所述第一处理文本的语义结构;
根据所述语义结构对所述目标文本进行校验,以得到校验结果;
展示所述校验结果。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种文本匹配方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种文本匹配方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在申请明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器、随机存取器、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种文本匹配方法,其特征在于,所述方法包括:
获取待匹配短文本;
对所述待匹配短文本进行过滤处理,以得到过滤后的待匹配短文本;
根据特征提取模型对所述过滤后的待匹配短文本进行特征提取,以得到向量特征;
将所述向量特征输入至文本匹配模型中进行匹配,以得到与所述待匹配短文本对应的目标文本;
展示所述目标文本。
2.根据权利要求1所述的方法,其特征在于,所述根据特征提取模型对所述过滤后的待匹配短文本进行特征提取,以得到向量特征,包括:
将所述过滤后的待匹配短文本输入至所述特征提取模型的嵌入层进行运算,得到第一运算结果;
将所述第一运算结果输入至所述特征提取模型的卷积池化层进行运算,以得到第二运算结果;
将所述第二运算结果输入至所述特征提取模型的全连接层进行运算,以得到第三运算结果,以及将所述第三运算结果确定为所述向量特征。
3.根据权利要求1或2所述的方法,其特征在于,在展示所述目标文本之前,所述方法还包括:
获取所述待匹配短文本与所述目标文本之间的目标相似度;
若所述目标相似度低于第一预设相似度阈值,则对所述待匹配短文本和所述目标文本进行分词处理,以得到所述待匹配短文本的第一词集合和所述目标文本的第二词集合;
获取所述第一词集合与所述第二词集合中对应的词语之间的相似度,以得到相似度集合;
获取所述相似度集合中高于第二预设相似度阈值的相似度对应于所述第一词集合中的词语,得到参考词语,所述第二预设相似度阈值高于所述第一预设相似度阈值;
获取包括所述参考词语的短文本,以得到至少一个参考短文本;
根据所述至少一个参考短文本和所述第二词集合中,确定出与所述待匹配短文本对应的短文本;
将与所述待匹配短文本对应的短文本确定为目标文本。
4.根据权利要求3所述的方法,其特征在于,所述根据所述至少一个参考短文本,确定出与所述待匹配短文本对应的短文本,包括:
获取所述至少一个参考短文本的语义信息,以得到与所述至少一个参考短文本对应的参考语义信息;
获取所述待匹配短文本的目标语义信息;
根据所述目标语义信息和所述至少一个参考短文本对应的参考语义信息,从所述至少一个参考短文本中确定出与所述待匹配短文本对应的短文本。
5.根据权利要求3所述的方法,其特征在于,所述根据所述至少一个参考短文本,确定出与所述待匹配短文本对应的短文本,包括:
获取所述至少一个参考短文本的语义信息,以得到与所述至少一个参考短文本对应的参考语义信息;
对所述至少一个参考短文本对应的参考语义信息进行融合处理,以得到目标语义信息;
根据所述目标语义信息对所述目标文本进行调整,以得到调整后的目标文本;
将所述调整后的目标文本,确定为与所述待匹配短文本对应的短文本。
6.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
对所述待匹配短文本进行去感叹词处理,以得到第一处理文本;
对所述第一处理文本进行语义结构分析,以得到所述第一处理文本的语义结构;
根据所述语义结构对所述目标文本进行校验,以得到校验结果;
展示所述校验结果。
7.一种文本匹配装置,其特征在于,所述装置包括:
获取单元,用于获取待匹配短文本;
过滤单元,用于对所述待匹配短文本进行过滤处理,以得到过滤后的待匹配短文本;
提取单元,用于根据特征提取模型对所述过滤后的待匹配短文本进行特征提取,以得到向量特征;
匹配单元,用于将所述向量特征输入至文本匹配模型中进行匹配,以得到与所述待匹配短文本对应的目标文本;
展示单元,用于展示所述目标文本。
8.根据权利要求7所述的装置,其特征在于,所述提取单元用于:
将所述过滤后的待匹配短文本输入至所述特征提取模型的嵌入层进行运算,得到第一运算结果;
将所述第一运算结果输入至所述特征提取模型的卷积池化层进行运算,以得到第二运算结果;
将所述第二运算结果输入至所述特征提取模型的全连接层进行运算,以得到第三运算结果,以及将所述第三运算结果确定为所述向量特征。
9.一种终端,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的方法。
CN202210094425.8A 2022-01-26 2022-01-26 文本匹配方法、装置、终端及存储介质 Pending CN114490999A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210094425.8A CN114490999A (zh) 2022-01-26 2022-01-26 文本匹配方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210094425.8A CN114490999A (zh) 2022-01-26 2022-01-26 文本匹配方法、装置、终端及存储介质

Publications (1)

Publication Number Publication Date
CN114490999A true CN114490999A (zh) 2022-05-13

Family

ID=81475729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210094425.8A Pending CN114490999A (zh) 2022-01-26 2022-01-26 文本匹配方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN114490999A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165291A (zh) * 2018-06-29 2019-01-08 厦门快商通信息技术有限公司 一种文本匹配方法及电子设备
CN109657232A (zh) * 2018-11-16 2019-04-19 北京九狐时代智能科技有限公司 一种意图识别方法
CN111767398A (zh) * 2020-06-30 2020-10-13 国网新疆电力有限公司电力科学研究院 基于卷积神经网络的二次设备故障短文本数据分类方法
CN111767737A (zh) * 2019-05-30 2020-10-13 北京京东尚科信息技术有限公司 文本意图相似度确定方法、装置、电子设备和存储介质
CN113420139A (zh) * 2021-08-24 2021-09-21 北京明略软件***有限公司 一种文本匹配方法、装置、电子设备及存储介质
CN113886544A (zh) * 2021-09-29 2022-01-04 唯品会(广州)软件有限公司 文本匹配方法、装置、存储介质及计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165291A (zh) * 2018-06-29 2019-01-08 厦门快商通信息技术有限公司 一种文本匹配方法及电子设备
CN109657232A (zh) * 2018-11-16 2019-04-19 北京九狐时代智能科技有限公司 一种意图识别方法
CN111767737A (zh) * 2019-05-30 2020-10-13 北京京东尚科信息技术有限公司 文本意图相似度确定方法、装置、电子设备和存储介质
CN111767398A (zh) * 2020-06-30 2020-10-13 国网新疆电力有限公司电力科学研究院 基于卷积神经网络的二次设备故障短文本数据分类方法
CN113420139A (zh) * 2021-08-24 2021-09-21 北京明略软件***有限公司 一种文本匹配方法、装置、电子设备及存储介质
CN113886544A (zh) * 2021-09-29 2022-01-04 唯品会(广州)软件有限公司 文本匹配方法、装置、存储介质及计算机设备

Similar Documents

Publication Publication Date Title
CN113051371B (zh) 中文机器阅读理解方法、装置、电子设备及存储介质
CN106445915B (zh) 一种新词发现方法及装置
WO2022116487A1 (zh) 基于生成对抗网络的语音处理方法、装置、设备及介质
CN112328793B (zh) 评论文本数据的处理方法、装置及存储介质
EP4191544A1 (en) Method and apparatus for recognizing token, electronic device and storage medium
CN111274412A (zh) 信息提取方法、信息提取模型训练方法、装置及存储介质
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN111581388A (zh) 一种用户意图识别方法、装置及电子设备
CN112307175B (zh) 一种文本处理方法、装置、服务器及计算机可读存储介质
CN113505595A (zh) 文本短语抽取方法、装置、计算机设备及存储介质
CN112148837A (zh) 维修方案的获取方法、装置、设备及存储介质
CN114490999A (zh) 文本匹配方法、装置、终端及存储介质
CN115906797A (zh) 文本实体对齐方法、装置、设备及介质
CN112784046B (zh) 文本聚簇的方法、装置、设备及存储介质
CN115496734A (zh) 视频内容的质量评价方法、网络训练方法和装置
CN115438718A (zh) 情感识别方法、装置、计算机可读存储介质及终端设备
CN112071331B (zh) 语音文件修复方法、装置、计算机设备及存储介质
CN112528646B (zh) 词向量生成方法、终端设备及计算机可读存储介质
CN114357164A (zh) 情感-原因对抽取方法、装置、设备及可读存储介质
CN116758601A (zh) 人脸识别模型的训练方法、装置、电子设备及存储介质
CN107665443A (zh) 获取目标用户的方法及装置
CN113724738A (zh) 语音处理方法、决策树模型训练方法、装置、设备及存储介质
CN113254595B (zh) 闲聊识别方法、装置、电子设备及存储介质
CN114373448B (zh) 话题检测方法、装置、电子设备及存储介质
CN115205969A (zh) 视频多模态分类方法、装置、存储介质以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination