CN112765960B - 一种文本匹配方法、装置及计算机设备 - Google Patents

一种文本匹配方法、装置及计算机设备 Download PDF

Info

Publication number
CN112765960B
CN112765960B CN202110169702.2A CN202110169702A CN112765960B CN 112765960 B CN112765960 B CN 112765960B CN 202110169702 A CN202110169702 A CN 202110169702A CN 112765960 B CN112765960 B CN 112765960B
Authority
CN
China
Prior art keywords
word
words
title
query
index value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110169702.2A
Other languages
English (en)
Other versions
CN112765960A (zh
Inventor
姚小妮
廉锦莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Xinchao Media Group Co Ltd
Original Assignee
Chengdu Baixin Zhilian Technology Co ltd
Chengdu Xinchao Media Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Baixin Zhilian Technology Co ltd, Chengdu Xinchao Media Group Co Ltd filed Critical Chengdu Baixin Zhilian Technology Co ltd
Priority to CN202110169702.2A priority Critical patent/CN112765960B/zh
Publication of CN112765960A publication Critical patent/CN112765960A/zh
Application granted granted Critical
Publication of CN112765960B publication Critical patent/CN112765960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及信息检索技术领域,公开了一种文本匹配方法、装置及计算机设备。在所述方法中,提供了一种准确快速的文本匹配方案,即在应用到海量规范文档检索场景中时,可从词频‑逆文档频率维度、编辑距离维度和杰卡德相似系数维度等三个不同维度上对用户查询文本和已知文档标题进行相似性/差异性比对,并计算得到用户查询文本和已知文档标题在各个维度上的指标值,然后通过算法综合三个指标值得到聚合指标值,最后基于最大聚合指标值锁定匹配目标,由于该方法不需要进行模型训练,并具有较高的准确度和较低的算法复杂度,因此可以快速准确地得到检索结果,特别适用于在线环境下的文档检索。

Description

一种文本匹配方法、装置及计算机设备
技术领域
本发明属于信息检索技术领域,具体地涉及一种文本匹配方法、装置及计算机设备。
背景技术
短文本匹配是自然语言处理(Natural Language Processing,NLP)中一个非常基础的问题,它在信息检索、智能问答和机器翻译等领域有着广泛的应用。如网页搜索可以抽象为寻找与用户查询文本相匹配网页的相似性问题,智能回复可抽象为根据问题匹配答案的文本相似性问题等等。由于企业内部文档一般比较规范,文档标题和文档内容关联性非常强,所以仅用文档标题做匹配就可以得到比较高的准确率,而不用全文档检索,否则必然非常耗时,因此用户查询文本和已知文档标题的相似性比对可以抽象一个短文本匹配问题,使得可将短文本匹配技术应用在企业内部文档检索场景中。
目前,传统的短文本匹配方法有基于词移距离(Word Mover’s Distance,WMD)的方法和基于概率检索模型的BM25方法,其中,WMD方法使用Word2Vec编码词向量,可以实现语义匹配,但它的最大缺陷在于时间复杂度较高,不适合用于海量规范文档检索场景,例如对于大公司而言,企业内部文档可能是海量的,因此若使用WMD方法对企业内部文档进行检索,将非常耗时;而BM25方法是将用户查询文本切分为单词,然后基于单词和文档标题之间的相似性、单词和查询文本之间的相似性和每个单词的权重这三个指标对查询文本和文档标题之间的相似性进行量化,但是该方法在计算单词权重时没有考虑单词之间的相关性,因此存在文档检索准确率较低的问题。
发明内容
为了解决现有短文本匹配方法在应用到海量规范文档检索场景中所存在的检索耗时和文档检索准确率较低的问题,本发明目的在于提供一种新型的文本匹配方法、装置、计算机设备及计算机可读存储介质,可以在应用到海量规范文档检索场景中时,从词频-逆文档频率维度、编辑距离维度和杰卡德相似系数维度等三个不同维度上对用户查询文本和已知文档标题进行相似性/差异性比对,并计算得到用户查询文本和已知文档标题在各个维度上的指标值,然后通过算法综合三个指标值得到聚合指标值,最后基于最大聚合指标值锁定匹配目标,由于该方法不需要进行模型训练,并具有较高的准确度和较低的算法复杂度,因此可以快速准确地得到检索结果,特别适用于在线环境下的文档检索。
第一方面,本发明提供了一种文本匹配方法,包括:
获取查询单词集合和多个标题单词集合,其中,所述查询单词集合与用户查询文本对应,所述多个标题单词集合与多个已知文档标题一一对应;
针对所述多个标题单词集合中的各个标题单词集合,计算得到所述查询单词集合与该标题单词集合的第一指标值、第二指标值和第三指标值,其中,所述第一指标值用于表征基于词频-逆文档频率TF-IDF计算得到的且所述查询单词集合与该标题单词集合的相似程度,所述第二指标值用于表征基于编辑距离MED计算得到的且所述查询单词集合与该标题单词集合的差异程度,所述第三指标值用于表征基于杰卡德相似系数计算得到的且所述查询单词集合与该标题单词集合的相似程度;
针对所述各个标题单词集合,计算得到对应该标题单词集合的所述第一指标值与所述第三指标值的积以及所述第二指标值与所述第三指标值的积,并从两积中取最大值,得到对应的聚合指标值;
将与最大聚合指标值对应的已知文档标题作为所述用户查询文本的匹配目标,其中,所述最大聚合指标值为多个聚合指标值中的最大值,所述多个聚合指标值与所述多个已知文档标题一一对应。
基于上述发明内容,提供了一种准确快速的文本匹配方案,即在应用到海量规范文档检索场景中时,可从词频-逆文档频率维度、编辑距离维度和杰卡德相似系数维度等三个不同维度上对用户查询文本和已知文档标题进行相似性/差异性比对,并计算得到用户查询文本和已知文档标题在各个维度上的指标值,然后通过算法综合三个指标值得到聚合指标值,最后基于最大聚合指标值锁定匹配目标,由于该方法不需要进行模型训练,并具有较高的准确度和较低的算法复杂度,因此可以快速准确地得到检索结果,特别适用于在线环境下的文档检索。
在一个可能的设计中,获取查询单词集合和多个标题单词集合,包括:
获取所述用户查询文本和所述多个已知文档标题;
对所述用户查询文本进行分词处理,得到至少一个第一单词,以及对所述多个已知文档标题中的各个已知文档标题分别进行分词处理,得到多组单词,其中,所述多组单词与所述多个已知文档标题一一对应,所述多组单词中的每组单词包含有至少一个第二单词;
将所述至少一个第一单词作为所述查询单词集合,以及针对所述多组单词中的每组单词,将所述至少一个第二单词作为对应已知文档标题的所述标题单词集合。
基于前述可能设计,可以通过对用户查询文本及多个已知文档标题进行分词操作,得到对应的单词集合,利于整个文本匹配方案的实现。
在一个可能的设计中,将所述至少一个第一单词作为所述查询单词集合,以及针对所述多组单词中的每组单词,将所述至少一个第二单词作为对应已知文档标题的所述标题单词集合,包括:
对所有的所述第一单词做统一的小写转换,得到转换处理后的第一单词,以及对所有的所述第二单词做统一的小写转换,得到转换处理后的第二单词;
将转换处理后的至少一个第一单词作为所述查询单词集合,以及针对所述多组单词中的每组单词,将转换处理后的至少一个第二单词作为对应已知文档标题的所述标题单词集合。
基于前述可能设计,可以通过对所有单词进行统一的小写转换,防止用户查询的随意性,减少后续匹配步骤所需的计算量。
在一个可能的设计中,计算得到所述查询单词集合与该标题单词集合的第一指标值,包括:
按照如下公式得到对应所述查询单词集合的查询向量VQ和对应该标题单词集合的标题向量VP
Figure BDA0002938609070000031
式中,Q表示所述查询单词集合,P表示该标题单词集合,wk表示在所述查询单词集合与该标题单词集合的且无重复单词的并集中的第k个单词,k表示介于1~K之间的自然数,K表示所述并集中的单词个数,
Figure BDA0002938609070000032
表示单词wk的词频,
Figure BDA0002938609070000033
表示单词wk的逆文档频率,
Figure BDA0002938609070000034
表示所述查询向量VQ在第k个维度上的数值,
Figure BDA0002938609070000035
表示所述标题向量VP在第k个维度上的数值;
按照如下公式计算得到所述查询单词集合与该标题单词集合的所述第一指标值:
Figure BDA0002938609070000036
式中,Stf-idf表示所述第一指标值。
基于前述可能设计,可以仅从相同单词维度出发,来统计所述查询单词集合中的所有相同单词对于该标题单词集合的重要程度,进而保障所述第一指标值能够精准衡量两集合的相似程度,并利于整个文本匹配方案的实现。
在一个可能的设计中,计算得到所述查询单词集合与该标题单词集合的第二指标值,包括:
按照如下公式计算得到所述查询单词集合与该标题单词集合的所述第二指标值:
Figure BDA0002938609070000037
式中,Slevenshtein表示所述第二指标值,qi表示所述查询单词集合中的第i个单词,i表示介于1~n之间的自然数,n表示所述查询单词集合中的单词个数,
Figure BDA0002938609070000038
表示在该标题单词集合中的且与单词qi具有最短的编辑距离的单词,pj表示该标题单词集合中的第j个单词,j表示介于1~m之间的自然数,m表示该标题单词集合中的单词个数,f(·)表示单词间的编辑距离函数。
基于前述可能设计,可以基于现有编辑距离算法,快速得到表征将所述查询单词集合变更为该标题单词集合所需处理次数的编辑距离值,进而保障所述第二指标值能够精准衡量两集合的差异程度,并利于整个文本匹配方案的实现。
在一个可能的设计中,计算得到所述查询单词集合与该标题单词集合的第三指标值,包括:
按照如下公式计算得到所述查询单词集合与该标题单词集合的所述第三指标值:
Figure BDA0002938609070000041
式中,Sjaccard表示所述第三指标值,Q表示所述查询单词集合,P表示该标题单词集合,∪表示并集运算符,∩表示交集运算符,||表示获取集合的单词个数。
基于前述可能设计,可以通过在传统杰卡德相似系数算法中引入从标题单词中召回的单词个数占查询单词个数的比例,进一步降低所述第三指标值对于文本长短的敏感度,利于指标聚合和整个文本匹配方案的实现。
第二方面,本发明提供了一种文本匹配装置,包括有依次通信连接的集合获取模块、指标计算模块、指标聚合模块和目标确定模块;
所述集合获取模块,用于获取查询单词集合和多个标题单词集合,其中,所述查询单词集合与用户查询文本对应,所述多个标题单词集合与多个已知文档标题一一对应;
所述指标计算模块,用于针对所述多个标题单词集合中的各个标题单词集合,计算得到所述查询单词集合与该标题单词集合的第一指标值、第二指标值和第三指标值,其中,所述第一指标值用于表征基于词频-逆文档频率TF-IDF计算得到的且所述查询单词集合与该标题单词集合的相似程度,所述第二指标值用于表征基于编辑距离MED计算得到的且所述查询单词集合与该标题单词集合的差异程度,所述第三指标值用于表征基于杰卡德相似系数计算得到的且所述查询单词集合与该标题单词集合的相似程度;
所述指标聚合模块,用于针对所述各个标题单词集合,计算得到对应该标题单词集合的所述第一指标值与所述第三指标值的积以及所述第二指标值与所述第三指标值的积,并从两积中取最大值,得到对应的聚合指标值;
所述目标确定模块,用于在所述多个已知文档标题中,将与最大聚合指标值对应的已知文档标题作为所述用户查询文本的匹配目标,其中,所述最大聚合指标值为多个聚合指标值中的最大值,所述多个聚合指标值与所述多个已知文档标题一一对应。
在一种可能设计中,所述集合获取模块包括有依次通信连接的文本获取子模块、分词处理子模块和集合确定子模块;
所述文本获取子模块,用于获取所述用户查询文本和所述多个已知文档标题;
所述分词处理子模块,用于对所述用户查询文本进行分词处理,得到至少一个第一单词,以及对所述多个已知文档标题中的各个已知文档标题分别进行分词处理,得到多组单词,其中,所述多组单词与所述多个已知文档标题一一对应,所述多组单词中的每组单词包含有至少一个第二单词;
所述集合确定子模块,用于将所述至少一个第一单词作为所述查询单词集合,以及针对所述多组单词中的每组单词,将所述至少一个第二单词作为对应已知文档标题的所述标题单词集合。
在一个可能的设计中,所述集合确定子模块包括有通信相连的小写转换孙模块和集合确定孙模块;
所述小写转换孙模块,用于对所有的所述第一单词做统一的小写转换,得到转换处理后的第一单词,以及对所有的所述第二单词做统一的小写转换,得到转换处理后的第二单词;
所述集合确定孙模块,用于将转换处理后的至少一个第一单词作为所述查询单词集合,以及针对所述多组单词中的每组单词,将转换处理后的至少一个第二单词作为对应已知文档标题的所述标题单词集合。
在一个可能的设计中,所述指标计算模块包括有通信相连的向量获取子模块和第一指标计算子模块;
所述向量获取子模块,用于按照如下公式得到对应所述查询单词集合的查询向量VQ和对应该标题单词集合的标题向量VP
Figure BDA0002938609070000051
式中,Q表示所述查询单词集合,P表示该标题单词集合,wk表示在所述查询单词集合与该标题单词集合的且无重复单词的并集中的第k个单词,k表示介于1~K之间的自然数,K表示所述并集中的单词个数,
Figure BDA0002938609070000052
表示单词wk的词频,
Figure BDA0002938609070000053
表示单词wk的逆文档频率,
Figure BDA0002938609070000054
表示所述查询向量VQ在第k个维度上的数值,
Figure BDA0002938609070000055
表示所述标题向量VP在第k个维度上的数值;
所述第一指标计算子模块,用于按照如下公式计算得到所述查询单词集合与该标题单词集合的所述第一指标值:
Figure BDA0002938609070000056
式中,Stf-idf表示所述第一指标值。
在一个可能的设计中,所述指标计算模块包括有第二指标计算子模块;
所述第二指标计算子模块,用于按照如下公式计算得到所述查询单词集合与该标题单词集合的所述第二指标值:
Figure BDA0002938609070000061
式中,Slevenshtein表示所述第二指标值,qi表示所述查询单词集合中的第i个单词,i表示介于1~n之间的自然数,n表示所述查询单词集合中的单词个数,
Figure BDA0002938609070000062
表示在该标题单词集合中的且与单词qi具有最短的编辑距离的单词,pj表示该标题单词集合中的第j个单词,j表示介于1~m之间的自然数,m表示该标题单词集合中的单词个数,f(·)表示单词间的编辑距离函数。
在一个可能的设计中,所述指标计算模块包括有第三指标计算子模块;
所述第三指标计算子模块,用于按照如下公式计算得到所述查询单词集合与该标题单词集合的所述第三指标值:
Figure BDA0002938609070000063
式中,Sjaccard表示所述第三指标值,Q表示所述查询单词集合,P表示该标题单词集合,∪表示并集运算符,∩表示交集运算符,| |表示获取集合的单词个数。
第三方面,本发明提供了一种计算机设备,包括通信相连的存储器和处理器,其中,所述存储器用于存储计算机程序,所述处理器用于读取所述计算机程序,执行如第一方面或第一方面中任意一种可能设计所述的文本匹配方法。
第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如上第一方面或第一方面中任意一种可能设计的所述文本匹配方法。
第五方面,本发明提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如上第一方面或第一方面中任意一种可能设计的所述文本匹配方法。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的文本匹配方法的流程示意图。
图2是本发明提供的三种指标在不同单词量情况下的召回率对比示例图。
图3是本发明提供的文本匹配装置的结构示意图。
图4是本发明提供的计算机设备的结构示意图。
具体实施方式
下面结合附图及具体实施例来对本发明作进一步阐述。在此需要说明的是,对于这些实施例方式的说明虽然是用于帮助理解本发明,但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明示例的实施例。然而,可用很多备选的形式来体现本发明,并且不应当理解为本发明限制在本文阐述的实施例中。
应当理解,尽管本文可能使用术语第一、第二等等来描述各种单元,但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元,同时不脱离本发明示例的实施例的范围。
应当理解,对于本文中可能出现的术语“和/或”,其仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B三种情况;对于本文中可能出现的术语“/和”,其是描述另一种关联对象关系,表示可以存在两种关系,例如,A/和B,可以表示:单独存在A,单独存在A和B两种情况;另外,对于本文中可能出现的字符“/”,一般表示前后关联对象是一种“或”关系。
应当理解,在本文中若将单元称作与另一个单元“连接”、“相连”或“耦合”时,它可以与另一个单元直相连接或耦合,或中间单元可以存在。相対地,在本文中若将单元称作与另一个单元“直接相连”或“直接耦合”时,表示不存在中间单元。另外,应当以类似方式来解释用于描述单元之间的关系的其他单词(例如,“在……之间”对“直接在……之间”,“相邻”对“直接相邻”等等)。
应当理解,本文使用的术语仅用于描述特定实施例,并不意在限制本发明示例的实施例。若本文所使用的,单数形式“一”、“一个”以及“该”意在包括复数形式,除非上下文明确指示相反意思。还应当理解,若术语“包括”、“包括了”、“包含”和/或“包含了”在本文中被使用时,指定所声明的特征、数量、步骤、操作、单元和/或组件的存在性,并且不排除一个或多个其他特征、数量、步骤、操作、单元、组件和/或他们的组合存在性或增加。
应当理解,还应当注意到在一些备选可能设计中,所出现的功能/动作可能与附图出现的顺序不同。例如,取决于所涉及的功能/动作,实际上可以实质上并发地执行,或者有时可以以相反的顺序来执行连续示出的两个图。
应当理解,在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出***,以避免用不必要的细节来使得示例不清楚。在其他实例中,可以不以非必要的细节来示出众所周知的过程、结构和技术,以避免使得示例实施例不清楚。
如图1~2所示,本实施例第一方面提供的所述文本匹配方法,可以但不限于适用于在文档检索响应服务器上执行,以便快速锁定匹配目标,精确输出文档检索结果,特别适用于诸如企业内部文档检索等海量规范文档检索场景中。所述文本匹配方法,可以但不限于包括有如下步骤S101~S104。
S101.获取查询单词集合和多个标题单词集合,其中,所述查询单词集合与用户查询文本对应,所述多个标题单词集合与多个已知文档标题一一对应。
在所述步骤S101中,所述用户查询文本为用户输入的且用于查询目标文档的文本信息,所述已知文档标题为在文档库中标记待检索文档的文本信息,它们均是由若干个单词构成,因此通过对所述用户查询文本和所述已知文档标题进行分词和过滤等操作,可以得到对应的单词集合,以便后续在单词层面上对所述用户查询文本与所述已知文档标题进行匹配。
S102.针对所述多个标题单词集合中的各个标题单词集合,计算得到所述查询单词集合与该标题单词集合的第一指标值、第二指标值和第三指标值,其中,所述第一指标值用于表征基于词频-逆文档频率(Term Frequency–Inverse Document Frequency,TF-IDF,其为一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度)计算得到的且所述查询单词集合与该标题单词集合的相似程度,所述第二指标值用于表征基于编辑距离(Minimum Edit Distance,MED,其是针对二个字符串的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串)计算得到的且所述查询单词集合与该标题单词集合的差异程度,所述第三指标值用于表征基于杰卡德相似系数(Jaccard Similarity Coefficient,其用于度量两个集合之间的相似性,它被定义为两个集合交集的元素个数除以并集的元素个数)计算得到的且所述查询单词集合与该标题单词集合的相似程度。
在所述步骤S102中,所述第一指标值和所述第三指标值分别表征了一种互不相同的两集合相似程度,所述第二指标值表征了一种两集合差异程度,其中,所述第一指标值可以但不限于参照词频-逆文档频率TF-IDF的定义(即统计评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度),将基于词频-逆文档频率统计得到的且所述查询单词集合中的所有单词对于该标题单词集合的重要程度作为所述第一指标值;所述第二指标值可以但不限于参照编辑距离MED的定义(即量测至少需要多少次的处理才能将一个字符串变成另一个字符串),将基于编辑距离量测得到的且将所述查询单词集合变更为该标题单词集合所需处理次数的多寡程度作为所述第二指标值;所述第三指标值可以但不限于参照杰卡德相似系数的定义(即统计两个集合交集的元素个数除以并集的元素个数的结果),将所述查询单词集合和该标题单词集合的交集单词个数除以并集的单词个数的计算结果作为所述第三指标值。
S103.针对所述各个标题单词集合,计算得到对应该标题单词集合的所述第一指标值与所述第三指标值的积以及所述第二指标值与所述第三指标值的积,并从两积中取最大值,得到对应的聚合指标值。
在所述步骤S103中,虽然所述第一指标值在词频-逆文档频率维度上会是一个余弦值,所述第二指标值在编辑距离维度上和所述第三指标值在杰卡德相似系数维度上会分别因做归一化,使得它们取值都在[0,1],但是需要注意的是在每个维度上给出的值却描述了不同程度的相似性/差异性,即使每个维度上给出相同的值,它们的相似/差异程度也是不同的,如何在不同的情况下对这三种指标值进行聚合是一个重要的问题。考虑所述第一指标值的表征含义,其值会受到词频的影响,即当用户查询文本或已知文档标题较短时,可能使每个单词的词频都为1,此时并不能很好地区分每个单词的重要程度,因此所述第一指标值会不利于计算太短的文本之间(即用户查询文本与已知文档标题之间)的相似性。而所述第二指标值与所述第一指标值相比会恰好相反,它比较适合评估较短的文本之间的差异性,因为较短的文本切出的词语有限,只需要较少步骤的计算就可以在标题单词集合中找到查询单词的映射。而所述第三指标值会是一个对文本长度无感的指标,即无论文本的长短,它总是以交集大小来确定集合差异性。因此通过采用公式max(第一指标值*第三指标值,第二指标值*第三指标值)来计算最终的聚合指标值(其中的max()表示取最大值函数),可以在文本较短时突出采用所述第二指标值与所述第三指标的积(此时一般所述第二指标值大于所述第一指标值)来综合衡量所述查询单词集合与该标题单词集合的相似性/差异性,而在文本较长时突出采用所述第一指标值与所述第三指标值的积(此时一般所述第一指标值大于所述第二指标值)来综合衡量所述查询单词集合与该标题单词集合的相似性/差异性,即无论文本长短,都可以保证指标聚合的准确性。
S104.在所述多个已知文档标题中,将与最大聚合指标值对应的已知文档标题作为所述用户查询文本的匹配目标,其中,所述最大聚合指标值为多个聚合指标值中的最大值,所述多个聚合指标值与所述多个已知文档标题一一对应。
在所述步骤S104中,由于聚合指标值最大,表明对应的已知文档标题与所述用户查询文本最接近,因此可作为匹配目标,以便将对应的文档作为检索目标文档。
由此基于前述步骤S101~S104所描述的方法,提供了一种准确快速的文本匹配方案,即在应用到海量规范文档检索场景中时,可从词频-逆文档频率维度、编辑距离维度和杰卡德相似系数维度等三个不同维度上对用户查询文本和已知文档标题进行相似性/差异性比对,并计算得到用户查询文本和已知文档标题在各个维度上的指标值,然后通过算法综合三个指标值得到聚合指标值,最后基于最大聚合指标值锁定匹配目标,由于该方法不需要进行模型训练,并具有较高的准确度和较低的算法复杂度,因此可以快速准确地得到检索结果,特别适用于在线环境下的文档检索。
本实施例在前述第一方面的技术方案基础上,还具体提供了一种分词获取单词集合的可能设计一,即获取查询单词集合和多个标题单词集合,包括但不限于有如下步骤S1011~S1013。
S1011.获取所述用户查询文本和所述多个已知文档标题。
在所述步骤S1011中,所述多个已知文档标题中的各个已知文档标题,可通过访问存有海量文档的文档库获取得到。
S1012.对所述用户查询文本进行分词处理,得到至少一个第一单词,以及对所述多个已知文档标题中的各个已知文档标题分别进行分词处理,得到多组单词,其中,所述多组单词与所述多个已知文档标题一一对应,所述多组单词中的每组单词包含有至少一个第二单词。
在所述步骤S1012中,所采用的分词处理工具可以但不限于采用结巴jieba分词工具。
S1013.将所述至少一个第一单词作为所述查询单词集合,以及针对所述多组单词中的每组单词,将所述至少一个第二单词作为对应已知文档标题的所述标题单词集合。
在所述步骤S1013中,考虑停用词(即标点符号或者无具体含义的词语,例如,“哎吆”、“什么”、“的”和“!”等等都属于停用词的范畴)对匹配不起作用,因此还需对单词集合进行停用词过滤处理,即针对所述查询单词集合中的各个所述第一单词或所述标题单词集合中的各个所述第二单词,若与至少一个预设停用词中的某个停用词相同,则在对应单词集合中剔除该单词,得到剔除后的查询单词集合或标题单词集合。所述至少一个预设停用词具体为一个可以随时维护的停用词列表,只要单词集合中出现了这些词语或标点符号,即需进行剔除处理,减少后续匹配步骤所需的计算量。此外,为了防止用户查询的随意性,将所述至少一个第一单词作为所述查询单词集合,以及针对所述多组单词中的每组单词,将所述至少一个第二单词作为对应已知文档标题的所述标题单词集合,包括但不限于有如下步骤:对所有的所述第一单词做统一的小写转换,得到转换处理后的第一单词,以及对所有的所述第二单词做统一的小写转换,得到转换处理后的第二单词;将转换处理后的至少一个第一单词作为所述查询单词集合,以及针对所述多组单词中的每组单词,将转换处理后的至少一个第二单词作为对应已知文档标题的所述标题单词集合。
由此基于前述步骤S1011~S1013所详细描述的可能设计一,可以通过对用户查询文本及多个已知文档标题进行分词操作,得到对应的单词集合,利于整个文本匹配方案的实现。此外,通过对所有单词进行统一的小写转换,可以防止用户查询的随意性,减少后续匹配步骤所需的计算量。
本实施例在前述第一方面或可能设计一的技术方案基础上,还具体提供了一种在词频-逆文档频率维度上计算第一指标值的可能设计二,即计算得到所述查询单词集合与该标题单词集合的第一指标值,包括但不显有如下步骤S1021~S1022。
S1021.按照如下公式得到对应所述查询单词集合的查询向量VQ和对应该标题单词集合的标题向量VP
Figure BDA0002938609070000111
式中,Q表示所述查询单词集合,P表示该标题单词集合,wk表示在所述查询单词集合与该标题单词集合的且无重复单词的并集中的第k个单词,k表示介于1~K之间的自然数,K表示所述并集中的单词个数,
Figure BDA0002938609070000112
表示单词wk的词频,
Figure BDA0002938609070000113
表示单词wk的逆文档频率,
Figure BDA0002938609070000114
表示所述查询向量VQ在第k个维度上的数值,
Figure BDA0002938609070000115
表示所述标题向量VP在第k个维度上的数值。
在所述步骤S1021中,所述并集中第k个单词wk的词频
Figure BDA0002938609070000116
可按照如下公式进行统计:
Figure BDA0002938609070000117
式中,
Figure BDA0002938609070000118
表示单词wk在所述查询单词集合和该标题单词集合中出现的次数,K′表示所述查询单词集合和该标题单词集合中的单词个数,由于是通过切词处理得到所述查询单词集合和该标题单词集合,因此在前述两单词集合中是允许存在重复单词的。以及针对单词wk,可按照如下公式计算对应的逆文档频率
Figure BDA0002938609070000119
Figure BDA00029386090700001110
式中,D表示所述多个已知文档标题的所有标题单词集合,
Figure BDA00029386090700001111
表示包含有单词wk的标题单词集合的个数,r表示所述多个已知文档标题的总数,C表示一个常数,例如为1,以便防止分母为零。此外,可将所述词频
Figure BDA00029386090700001112
与所述逆文档频率
Figure BDA00029386090700001113
之积作为单词wk的TF-IDF值。
在所述步骤S1021中,举例的,若所述查询单词集合Q包含有单词A、单词B、单词C和单词D,而该标题单词集合P包含有单词B、单词D、单词E、单词F和单词G,则所述并集将会包含有单词A、单词B、单词C、单词D、单词E、单词F和单词G,并可通过常规算法计算得到单词A~G的词频和逆文档频率,由此所述查询向量VQ和所述标题向量VP将分别为一个7维向量,其中,由于所述并集中有4个单词属于所述查询单词集合Q,因此所述查询向量VQ会在第1~4维度上有对应的非零数值,而在第5~7维度上有对应的零值;以及由于所述并集中有5个单词属于所述标题单词集合P,因此所述标题向量VP会在第1维度和第3维度上有对应的零值,而在第2、4~7维度上有对应的非零数值。
S1022.按照如下公式计算得到所述查询单词集合与该标题单词集合的所述第一指标值:
Figure BDA0002938609070000121
式中,Stf-idf表示所述第一指标值。
由此基于前述步骤S1021~S1022所详细描述的可能设计二,可以仅从相同单词维度出发,来统计所述查询单词集合中的所有相同单词对于该标题单词集合的重要程度,进而保障所述第一指标值能够精准衡量两集合的相似程度,并利于整个文本匹配方案的实现。
本实施例在前述第一方面及可能设计一至二中任意一种的技术方案基础上,还具体提供了一种在编辑距离维度上计算第二指标值的可能设计三,即计算得到所述查询单词集合与该标题单词集合的第二指标值,包括但不限于有:按照如下公式计算得到所述查询单词集合与该标题单词集合的所述第二指标值:
Figure BDA0002938609070000122
式中,Slevenshtein表示所述第二指标值,qi表示所述查询单词集合中的第i个单词,i表示介于1~n之间的自然数,n表示所述查询单词集合中的单词个数,
Figure BDA0002938609070000123
表示在该标题单词集合中的且与单词qi具有最短的编辑距离的单词(即变更为单词qi所需处理次数最少的单词),pj表示该标题单词集合中的第j个单词,j表示介于1~m之间的自然数,m表示该标题单词集合中的单词个数,f(·)表示单词间的编辑距离函数。
在上述计算步骤中,f(·)为一个用于计算两个字符串编辑距离的现有函数。另外,针对单词qi,可按照如下方式找到它对应的最优映射单词
Figure BDA0002938609070000124
(也即变更为单词qi所需处理次数最少的单词):
Figure BDA0002938609070000125
由于f(Q×P)记录了任意两个查询单词与标题单词之间的编辑距离,那么最优映射单词
Figure BDA0002938609070000131
满足
Figure BDA0002938609070000132
且J≠z,z∈{1,2,3,…,m}。举例的,若所述查询单词集合Q包含有单词A、单词B、单词C和单词D,而该标题单词集合P包含有单词B、单词D、单词E和单词F,则在该标题单词集合P中,通过现有编辑距离算法和距离比较结果可以找到变更为单词A所需处理次数最少的单词为单词F(假设单词F与单词A构成最优映射关系),变更为单词B所需处理次数最少的单词为单词B(即编辑距离为零),通过现有编辑距离算法和距离比较结果可以找到变更为单词C所需处理次数最少的单词为单词E(假设单词E与单词C构成最优映射关系),变更为单词D所需处理次数最少的单词为单词D(即编辑距离为零),如此可以进一步根据现有编辑距离算法和前述计算公式得到所述第二指标值。
由此基于前述所详细描述的可能设计三,可以基于现有编辑距离算法,快速得到表征将所述查询单词集合变更为该标题单词集合所需处理次数的编辑距离值,进而保障所述第二指标值能够精准衡量两集合的差异程度,并利于整个文本匹配方案的实现。
本实施例在前述第一方面及可能设计一至三中任意一种的技术方案基础上,还具体提供了一种在杰卡德相似系数维度上计算第三指标值的可能设计四,即计算得到所述查询单词集合与该标题单词集合的第三指标值,包括但不限于有:按照如下公式计算得到所述查询单词集合与该标题单词集合的所述第三指标值:
Figure BDA0002938609070000133
式中,Sjaccard表示所述第三指标值,Q表示所述查询单词集合,P表示该标题单词集合,∪表示并集运算符,∩表示交集运算符,| |表示获取集合的单词个数。
在上述计算步骤中,
Figure BDA0002938609070000134
表示经典的杰卡德相似系数,
Figure BDA0002938609070000135
表示本实施例提供的提升版杰卡德相似系数,即能够从标题单词中召回的单词个数占查询单词个数的比例。举例的,若所述查询单词集合Q包含有单词A、单词B、单词C和单词D,而该标题单词集合P包含有单词B、单词D、单词E和单词F,则所述第三指标值的计算结果可为5/12。
由此基于前述所详细描述的可能设计四,可以通过在传统杰卡德相似系数算法中引入从标题单词中召回的单词个数占查询单词个数的比例,进一步降低所述第三指标值对于文本长短的敏感度,利于指标聚合和整个文本匹配方案的实现。
基于前述可能设计二~四的技术方案,通过在公司内部文档集上进行匹配实验:挑选了1000条与公司内部文档相关的查询文本,并将它们分为5组,每组200条;每组查询文本切出的单词个数依次为:第一组1-3,第二组4-6,第三组7-9,第四组10-12,第五组大于13,可得到如图2所示的三种指标在不同单词量情况下的召回率(指实际为正的样本中被预测为正样本的概率)对比示例图。从图2可以看出,所述第一指标值的确对于长文本的召回率较高,所述第二指标值对短文本的召回率较高,而所述第三指标值则对文本长度不敏感。进一步验证了在文本较短时,适合采用所述第二指标值与所述第三指标的积来综合衡量所述查询单词集合与该标题单词集合的相似性/差异性;而在文本较长时,适合采用所述第一指标值与所述第三指标值的积来综合衡量所述查询单词集合与该标题单词集合的相似性/差异性。至于在文本长度处于既不长且又不短的临界状态(例如图2中切词个数在3~4范围内)时,由于基于所述第三指标值进行文本匹配时的召回率均分别高于基于所述第一指标值和所述第二指标值进行文本匹配时的召回率,因此通过在第一指标值*第三指标值与第二指标值*第三指标值之间取最大值来作为衡量文本匹配的聚合指标值,可以使本实施例在文本匹配应用实现召回率的平滑过渡,进而可以保障聚合算法适合任意长度的文本匹配。如图2所示,基于聚合指标值进行文本匹配后的召回率明显高于基于其它指标值时的召回率,可以确保匹配准确性。此外,该方法的准确性还可采用精确率(指所有预测为正的样本中实际为正样本的概率)和F1值(指精确率与召回率的权衡指标值,有现有定义公式)等指标进行评价和验证。
如图3所示,本实施例第二方面提供了一种实现第一方面或第一方面中任意一种可能设计的所述文本匹配方法的虚拟装置,包括有依次通信连接的集合获取模块、指标计算模块、指标聚合模块和目标确定模块;
所述集合获取模块,用于获取查询单词集合和多个标题单词集合,其中,所述查询单词集合与用户查询文本对应,所述多个标题单词集合与多个已知文档标题一一对应;
所述指标计算模块,用于针对所述多个标题单词集合中的各个标题单词集合,计算得到所述查询单词集合与该标题单词集合的第一指标值、第二指标值和第三指标值,其中,所述第一指标值用于表征基于词频-逆文档频率TF-IDF计算得到的且所述查询单词集合与该标题单词集合的相似程度,所述第二指标值用于表征基于编辑距离MED计算得到的且所述查询单词集合与该标题单词集合的差异程度,所述第三指标值用于表征基于杰卡德相似系数计算得到的且所述查询单词集合与该标题单词集合的相似程度;
所述指标聚合模块,用于针对所述各个标题单词集合,计算得到对应该标题单词集合的所述第一指标值与所述第三指标值的积以及所述第二指标值与所述第三指标值的积,并从两积中取最大值,得到对应的聚合指标值;
所述目标确定模块,用于在所述多个已知文档标题中,将与最大聚合指标值对应的已知文档标题作为所述用户查询文本的匹配目标,其中,所述最大聚合指标值为多个聚合指标值中的最大值,所述多个聚合指标值与所述多个已知文档标题一一对应。
在一种可能设计中,所述集合获取模块包括有依次通信连接的文本获取子模块、分词处理子模块和集合确定子模块;
所述文本获取子模块,用于获取所述用户查询文本和所述多个已知文档标题;
所述分词处理子模块,用于对所述用户查询文本进行分词处理,得到至少一个第一单词,以及对所述多个已知文档标题中的各个已知文档标题分别进行分词处理,得到多组单词,其中,所述多组单词与所述多个已知文档标题一一对应,所述多组单词中的每组单词包含有至少一个第二单词;
所述集合确定子模块,用于将所述至少一个第一单词作为所述查询单词集合,以及针对所述多组单词中的每组单词,将所述至少一个第二单词作为对应已知文档标题的所述标题单词集合。
在一个可能的设计中,所述集合确定子模块包括有通信相连的小写转换孙模块和集合确定孙模块;
所述小写转换孙模块,用于对所有的所述第一单词做统一的小写转换,得到转换处理后的第一单词,以及对所有的所述第二单词做统一的小写转换,得到转换处理后的第二单词;
所述集合确定孙模块,用于将转换处理后的至少一个第一单词作为所述查询单词集合,以及针对所述多组单词中的每组单词,将转换处理后的至少一个第二单词作为对应已知文档标题的所述标题单词集合。
在一个可能的设计中,所述指标计算模块包括有通信相连的向量获取子模块和第一指标计算子模块;
所述向量获取子模块,用于按照如下公式得到对应所述查询单词集合的查询向量VQ和对应该标题单词集合的标题向量VP
Figure BDA0002938609070000151
式中,Q表示所述查询单词集合,P表示该标题单词集合,wk表示在所述查询单词集合与该标题单词集合的且无重复单词的并集中的第k个单词,k表示介于1~K之间的自然数,K表示所述并集中的单词个数,
Figure BDA0002938609070000152
表示单词wk的词频,
Figure BDA0002938609070000153
表示单词wk的逆文档频率,
Figure BDA0002938609070000154
表示所述查询向量VQ在第k个维度上的数值,
Figure BDA0002938609070000155
表示所述标题向量VP在第k个维度上的数值;
所述第一指标计算子模块,用于按照如下公式计算得到所述查询单词集合与该标题单词集合的所述第一指标值:
Figure BDA0002938609070000156
式中,Stf-idf表示所述第一指标值。
在一个可能的设计中,所述指标计算模块包括有第二指标计算子模块;
所述第二指标计算子模块,用于按照如下公式计算得到所述查询单词集合与该标题单词集合的所述第二指标值:
Figure BDA0002938609070000157
式中,Slevenshtein表示所述第二指标值,qi表示所述查询单词集合中的第i个单词,i表示介于1~n之间的自然数,n表示所述查询单词集合中的单词个数,
Figure BDA0002938609070000161
表示在该标题单词集合中的且与单词qi具有最短的编辑距离的单词,pj表示该标题单词集合中的第j个单词,j表示介于1~m之间的自然数,m表示该标题单词集合中的单词个数,f(·)表示单词间的编辑距离函数。
在一个可能的设计中,所述指标计算模块包括有第三指标计算子模块;
所述第三指标计算子模块,用于按照如下公式计算得到所述查询单词集合与该标题单词集合的所述第三指标值:
Figure BDA0002938609070000162
式中,Sjaccard表示所述第三指标值,Q表示所述查询单词集合,P表示该标题单词集合,∪表示并集运算符,∩表示交集运算符,| |表示获取集合的单词个数。
本实施例第二方面提供的前述装置的工作过程、工作细节和技术效果,可以参见第一方面或第一方面中任意一种可能设计所述的文本匹配方法,于此不再赘述。
如图4所示,本实施例第三方面提供了一种执行第一方面或第一方面中任意一种可能设计的所述文本匹配方法的计算机设备,包括通信相连的存储器和处理器,其中,所述存储器用于存储计算机程序,所述处理器用于读取所述计算机程序,执行如第一方面或第一方面中任意一种可能设计所述的文本匹配方法。具体举例的,所述存储器可以但不限于包括随机存取存储器(Random-Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、闪存(Flash Memory)、先进先出存储器(First Input First Output,FIFO)和/或先进后出存储器(First Input Last Output,FILO)等等;所述处理器可以不限于采用型号为STM32F105系列的微处理器。此外,所述计算机设备还可以但不限于包括有电源模块、显示屏和其它必要的部件。
本实施例第三方面提供的前述计算机设备的工作过程、工作细节和技术效果,可以参见第一方面或第一方面中任意一种可能设计所述的文本匹配方法,于此不再赘述。
本实施例第四方面提供了一种存储包含第一方面或第一方面中任意一种可能设计的所述短文本匹配方法的指令的计算机可读存储介质,即所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面或第一方面中任意一种可能设计所述的文本匹配方法。其中,所述计算机可读存储介质是指存储数据的载体,可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等,所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。
本实施例第四方面提供的前述计算机可读存储介质的工作过程、工作细节和技术效果,可以参见第一方面或第一方面中任意一种可能设计所述的文本匹配方法,于此不再赘述。
本实施例第五方面提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如第一方面或第一方面中任意一种可能设计所述的文本匹配方法。其中,所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。
以上所描述的实施例仅仅是示意性的,若涉及到作为分离部件说明的单元,其可以是或者也可以不是物理上分开的;若涉及到作为单元显示的部件,其可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。
最后应说明的是,本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。

Claims (10)

1.一种文本匹配方法,其特征在于,包括:
获取查询单词集合和多个标题单词集合,其中,所述查询单词集合与用户查询文本对应,所述多个标题单词集合与多个已知文档标题一一对应;
针对所述多个标题单词集合中的各个标题单词集合,计算得到所述查询单词集合与该标题单词集合的第一指标值、第二指标值和第三指标值,其中,所述第一指标值用于表征基于词频-逆文档频率TF-IDF计算得到的且所述查询单词集合与该标题单词集合的相似程度,所述第二指标值用于表征基于编辑距离MED计算得到的且所述查询单词集合与该标题单词集合的差异程度,所述第三指标值用于表征基于杰卡德相似系数计算得到的且所述查询单词集合与该标题单词集合的相似程度;
针对所述各个标题单词集合,计算得到对应该标题单词集合的所述第一指标值与所述第三指标值的积以及所述第二指标值与所述第三指标值的积,并从两积中取最大值,得到对应的聚合指标值;
将与最大聚合指标值对应的已知文档标题作为所述用户查询文本的匹配目标,其中,所述最大聚合指标值为多个聚合指标值中的最大值,所述多个聚合指标值与所述多个已知文档标题一一对应。
2.如权利要求1所述的方法,其特征在于,获取查询单词集合和多个标题单词集合,包括:
获取所述用户查询文本和所述多个已知文档标题;
对所述用户查询文本进行分词处理,得到至少一个第一单词,以及对所述多个已知文档标题中的各个已知文档标题分别进行分词处理,得到多组单词,其中,所述多组单词与所述多个已知文档标题一一对应,所述多组单词中的每组单词包含有至少一个第二单词;
将所述至少一个第一单词作为所述查询单词集合,以及针对所述多组单词中的每组单词,将所述至少一个第二单词作为对应已知文档标题的所述标题单词集合。
3.如权利要求2所述的方法,其特征在于,将所述至少一个第一单词作为所述查询单词集合,以及针对所述多组单词中的每组单词,将所述至少一个第二单词作为对应已知文档标题的所述标题单词集合,包括:
对所有的所述第一单词做统一的小写转换,得到转换处理后的第一单词,以及对所有的所述第二单词做统一的小写转换,得到转换处理后的第二单词;
将转换处理后的至少一个第一单词作为所述查询单词集合,以及针对所述多组单词中的每组单词,将转换处理后的至少一个第二单词作为对应已知文档标题的所述标题单词集合。
4.如权利要求1所述的方法,其特征在于,计算得到所述查询单词集合与该标题单词集合的第一指标值,包括:
按照如下公式得到对应所述查询单词集合的查询向量VQ和对应该标题单词集合的标题向量VP
Figure FDA0002938609060000021
式中,Q表示所述查询单词集合,P表示该标题单词集合,wk表示在所述查询单词集合与该标题单词集合的且无重复单词的并集中的第k个单词,k表示介于1~K之间的自然数,K表示所述并集中的单词个数,
Figure FDA0002938609060000022
表示单词wk的词频,
Figure FDA0002938609060000023
表示单词wk的逆文档频率,
Figure FDA0002938609060000024
表示所述查询向量VQ在第k个维度上的数值,
Figure FDA0002938609060000025
表示所述标题向量VP在第k个维度上的数值;
按照如下公式计算得到所述查询单词集合与该标题单词集合的所述第一指标值:
Figure FDA0002938609060000026
式中,Stf-idf表示所述第一指标值。
5.如权利要求1所述的方法,其特征在于,计算得到所述查询单词集合与该标题单词集合的第二指标值,包括:
按照如下公式计算得到所述查询单词集合与该标题单词集合的所述第二指标值:
Figure FDA0002938609060000027
式中,Slevenshtein表示所述第二指标值,qi表示所述查询单词集合中的第i个单词,i表示介于1~n之间的自然数,n表示所述查询单词集合中的单词个数,
Figure FDA0002938609060000028
表示在该标题单词集合中的且与单词qi具有最短的编辑距离的单词,pj表示该标题单词集合中的第j个单词,j表示介于1~m之间的自然数,m表示该标题单词集合中的单词个数,f(·)表示单词间的编辑距离函数。
6.如权利要求1所述的方法,其特征在于,计算得到所述查询单词集合与该标题单词集合的第三指标值,包括:
按照如下公式计算得到所述查询单词集合与该标题单词集合的所述第三指标值:
Figure FDA0002938609060000029
式中,Sjaccard表示所述第三指标值,Q表示所述查询单词集合,P表示该标题单词集合,∪表示并集运算符,∩表示交集运算符,||表示获取集合的单词个数。
7.一种文本匹配装置,其特征在于,包括有依次通信连接的集合获取模块、指标计算模块、指标聚合模块和目标确定模块;
所述集合获取模块,用于获取查询单词集合和多个标题单词集合,其中,所述查询单词集合与用户查询文本对应,所述多个标题单词集合与多个已知文档标题一一对应;
所述指标计算模块,用于针对所述多个标题单词集合中的各个标题单词集合,计算得到所述查询单词集合与该标题单词集合的第一指标值、第二指标值和第三指标值,其中,所述第一指标值用于表征基于词频-逆文档频率TF-IDF计算得到的且所述查询单词集合与该标题单词集合的相似程度,所述第二指标值用于表征基于编辑距离MED计算得到的且所述查询单词集合与该标题单词集合的差异程度,所述第三指标值用于表征基于杰卡德相似系数计算得到的且所述查询单词集合与该标题单词集合的相似程度;
所述指标聚合模块,用于针对所述各个标题单词集合,计算得到对应该标题单词集合的所述第一指标值与所述第三指标值的积以及所述第二指标值与所述第三指标值的积,并从两积中取最大值,得到对应的聚合指标值;
所述目标确定模块,用于在所述多个已知文档标题中,将与最大聚合指标值对应的已知文档标题作为所述用户查询文本的匹配目标,其中,所述最大聚合指标值为多个聚合指标值中的最大值,所述多个聚合指标值与所述多个已知文档标题一一对应。
8.如权利要求7所述的装置,其特征在于,所述集合获取模块包括有依次通信连接的文本获取子模块、分词处理子模块和集合确定子模块;
所述文本获取子模块,用于获取所述用户查询文本和所述多个已知文档标题;
所述分词处理子模块,用于对所述用户查询文本进行分词处理,得到至少一个第一单词,以及对所述多个已知文档标题中的各个已知文档标题分别进行分词处理,得到多组单词,其中,所述多组单词与所述多个已知文档标题一一对应,所述多组单词中的每组单词包含有至少一个第二单词;
所述集合确定子模块,用于将所述至少一个第一单词作为所述查询单词集合,以及针对所述多组单词中的每组单词,将所述至少一个第二单词作为对应已知文档标题的所述标题单词集合。
9.一种计算机设备,其特征在于,包括通信相连的存储器和处理器,其中,所述存储器用于存储计算机程序,所述处理器用于读取所述计算机程序,执行如权利要求1~6中任意一项所述的文本匹配方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如权利要求1~6中任意一项所述的文本匹配方法。
CN202110169702.2A 2021-02-07 2021-02-07 一种文本匹配方法、装置及计算机设备 Active CN112765960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110169702.2A CN112765960B (zh) 2021-02-07 2021-02-07 一种文本匹配方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110169702.2A CN112765960B (zh) 2021-02-07 2021-02-07 一种文本匹配方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN112765960A CN112765960A (zh) 2021-05-07
CN112765960B true CN112765960B (zh) 2022-11-25

Family

ID=75705351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110169702.2A Active CN112765960B (zh) 2021-02-07 2021-02-07 一种文本匹配方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN112765960B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116600053B (zh) * 2023-07-17 2023-10-27 北京人众互联信息技术有限公司 一种基于ai大语言模型的客服***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503175A (zh) * 2016-11-01 2017-03-15 上海智臻智能网络科技股份有限公司 相似文本的查询、问题扩展方法、装置及机器人
CN108170739A (zh) * 2017-12-18 2018-06-15 深圳前海微众银行股份有限公司 问题匹配方法、终端和计算机可读存储介质
CN111797214A (zh) * 2020-06-24 2020-10-20 深圳壹账通智能科技有限公司 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN111930895A (zh) * 2020-08-14 2020-11-13 工银科技有限公司 基于mrc的文档数据检索方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695349A (zh) * 2019-02-28 2020-09-22 北京京东尚科信息技术有限公司 文本匹配方法和文本匹配***
CN109947919B (zh) * 2019-03-12 2020-05-15 北京字节跳动网络技术有限公司 用于生成文本匹配模型的方法和装置
CN112232053A (zh) * 2020-09-16 2021-01-15 西北大学 一种基于多关键词对匹配的文本相似度计算***、方法、及存储介质
CN112052326A (zh) * 2020-09-30 2020-12-08 民生科技有限责任公司 一种基于长短文本匹配的智能问答方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503175A (zh) * 2016-11-01 2017-03-15 上海智臻智能网络科技股份有限公司 相似文本的查询、问题扩展方法、装置及机器人
CN108170739A (zh) * 2017-12-18 2018-06-15 深圳前海微众银行股份有限公司 问题匹配方法、终端和计算机可读存储介质
CN111797214A (zh) * 2020-06-24 2020-10-20 深圳壹账通智能科技有限公司 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN111930895A (zh) * 2020-08-14 2020-11-13 工银科技有限公司 基于mrc的文档数据检索方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112765960A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
US11036808B2 (en) System and method for indexing electronic discovery data
US8682924B2 (en) Hybrid and iterative keyword and category search technique
WO2021139262A1 (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN105706078B (zh) 实体集合的自动定义
US8533203B2 (en) Identifying synonyms of entities using a document collection
US8051073B2 (en) System and method for measuring the quality of document sets
JP5338238B2 (ja) ワードの類似性を用いたオントロジーの自動生成
CN106503223B (zh) 一种结合位置和关键词信息的在线房源搜索方法及装置
CN107844493B (zh) 一种文件关联方法及***
US11775541B2 (en) System and method for subset searching and associated search operators
US20150100605A1 (en) Determining collection membership in a data graph
Chaudhuri et al. Heavy-tailed distributions and multi-keyword queries
CN112765960B (zh) 一种文本匹配方法、装置及计算机设备
CN110874366B (zh) 数据处理、查询方法和装置
Pohl et al. Efficient extended boolean retrieval
US20220188322A1 (en) Method and system of database analysis and compression
Zhao et al. MapReduce-based clustering for near-duplicate image identification
CN112613320A (zh) 一种获取相似语句的方法、装置、存储介质及电子设备
CN112818221B (zh) 实体的热度确定方法、装置、电子设备及存储介质
Toke et al. Enhancing text mining using side information
Wang et al. An Improved Clustering Algorithm based on Single-pass
CN117112877A (zh) 应用于询证医学的医疗文献处理方法及装置
Kolla et al. Region-Based Semantic Image Clustering Using Positive and Negative Examples
CN114996314A (zh) 一种数字探查方法及***、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230418

Address after: 610000 High-tech Zone, Chengdu City, Sichuan Province, No. 99, No. 1, No. 2, No. 15, No. 1, No. 1505, No. 1, No. 1, No. 1, No. 1, No. 1, No. 1, No. 1, No. 1, No. 1, No

Patentee after: CHENGDU XINCHAO MEDIA GROUP Co.,Ltd.

Address before: 610000 High-tech Zone, Chengdu City, Sichuan Province, No. 99, No. 1, No. 2, No. 15, No. 1, No. 1505, No. 1, No. 1, No. 1, No. 1, No. 1, No. 1, No. 1, No. 1, No. 1, No

Patentee before: CHENGDU XINCHAO MEDIA GROUP Co.,Ltd.

Patentee before: Chengdu Baixin Zhilian Technology Co.,Ltd.