CN115392235A - 字符匹配方法、装置、电子设备及可读存储介质 - Google Patents
字符匹配方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN115392235A CN115392235A CN202210976998.3A CN202210976998A CN115392235A CN 115392235 A CN115392235 A CN 115392235A CN 202210976998 A CN202210976998 A CN 202210976998A CN 115392235 A CN115392235 A CN 115392235A
- Authority
- CN
- China
- Prior art keywords
- character string
- word
- similarity
- character
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Character Discrimination (AREA)
Abstract
本申请实施例提供了一种字符匹配方法、装置、电子设备及可读存储介质,涉及计算机技术领域。该方法包括:获取待比较的两个字符串,针对每个字符串进行分词处理,将分词后单词数量少的字符串作为第一字符串,将单词数量多的字符串作为第二字符串。分别计算第一字符串中的每个第一单词与第二字符串中每个第二单词的相似度,并根据计算得到的每个第一单词与各个第二单词的相似度,获取第一字符串和第二字符串之间的目标相似度。本申请所提供的字符匹配方法通过计算每个第一单词与各个第二单词的相似度,并对计算得到的相似度进行合并,获取第一字符串和第二字符串之间的目标相似度,实现了在忽略字符串顺序的情况下较为准确地计算出两个字符串之间的目标相似度,可以解决目前相似度计算方法不支持在忽略单词顺序的情况下进行计算的缺陷。
Description
技术领域
本申请涉及计算机技术领域,具体而言,本申请涉及一种字符匹配方法、装置、电子设备及可读存储介质。
背景技术
随着计算机技术的发展,越来越多的业务可以在线上处理,业务面变得更加广泛、全面。在将业务处理流程线上数据化之后,有不少业务都存在需要比较字符串之间相似度的需求。尤其针对国际业务,各个国家的企业或者组织之间进行业务往来的文件所使用的语言、姓名排序都可能不同,此时如何较为准确地评估字符串之间的相似度成为一个亟待解决的问题。
目前,用于比较字符串相似度的算法在处理涉及到国际业务的名称时,往往在计算查询字符串与命中字符串的相似度时需要忽略单词的顺序,而忽略单词顺序可能使计算出的相似度不够准确,难以合理地表征字符串之间的相似程度,进而导致业务处理时出现问题,增加业务及资金的风险。
发明内容
本申请实施例的目的旨在能解决字符串之间相似度难以准确计算的问题。
本申请实施例提供了一种字符匹配方法,该方法包括:
获取待处理的两个字符串,针对每一字符串,进行分词处理得到对应的单词;
分别确定两个字符串的单词数量,若两个字符串的单词数量不相等,将单词数量少的字符串作为第一字符串,将单词数量多的字符串作为第二字符串;
若两个字符串的单词数量相等,则在两个字符串中任选一个字符串作为第一字符串,另一个字符串作为第二字符串;
针对第一字符串的每个第一单词,分别计算第一单词与第二字符串的各个第二单词的相似度;
基于每个第一单词与各个第二单词的相似度,获取第一字符串和第二字符串之间的目标相似度。
在第一方面的可选实施例中,基于每个第一单词与各个第二单词的相似度,获取第一字符串和第二字符串之间的目标相似度,包括:
针对每个第一单词,从第一单词与各个第二单词的相似度中确定出第一单词对应的最大相似度;
基于每个第一单词对应的最大相似度获取第一字符串针对第二字符串的综合相似度;
从第一字符串和第二字符串中确定出字符数较少的目标字符串;基于综合相似度和目标字符串的字符数,获取第一字符串和第二字符串之间的目标相似度。
在第一方面的可选实施例中,基于每个第一单词对应的最大相似度获取第一字符串针对第二字符串的综合相似度,包括:
获取每个第一单词对应的权重;
基于每个第一单词对应的权重对每个第一单词对应的最大相似度进行加权求和,得到第一字符串针对第二字符串的综合相似度。
在第一方面的可选实施例中,获取每个第一单词对应的权重,包括:
针对每个第一单词,计算第一单词的长度占第一字符串的总长度的比重,将比重作为第一单词对应的权重。
在第一方面的可选实施例中,基于综合相似度和第二字符串的字符数,获取第一字符串和第二字符串之间的目标相似度,包括:
用综合相似度除以目标字符串的字符数,得到第一字符串和第二字符串之间的目标相似度。
在第一方面的可选实施例中,针对每一字符串,进行分词处理得到对应的单词,包括:
针对每一字符串,每次匹配时取字符串中预设个数的字符作为匹配字段;
根据预设的分词词典,将匹配字段与分词词典中的词条逐一匹配,若分词词典中包含匹配字段,则匹配成功,将匹配字段作为一个切分后的单词;
若匹配失败,则删去匹配字段中的一个字符,再次进行匹配,直到字符串中的所有字符都匹配成功为止。
第二方面,提供了一种字符匹配装置,该装置包括:
字符串分词模块,用于获取待处理的两个字符串,针对每一字符串,进行分词处理得到对应的单词;
单词数比较模块,用于分别确定两个字符串的单词数量,将单词数量少的字符串作为第一字符串,将单词数量多的字符串作为第二字符串;
相似度计算模块,用于针对第一字符串的每个第一单词,分别计算第一单词与第二字符串的各个第二单词的相似度;
相似度处理模块,用于基于每个第一单词与各个第二单词的相似度,获取第一字符串和第二字符串之间的目标相似度。
第三方面,提供了一种电子设备,该电子设备包括:
存储器、处理器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现上述任一实施例的字符匹配方法。
第四方面,提供了一种可读存储介质,可读存储介质上存储有程序,该程序被处理器执行时实现上述任一实施例的字符匹配方法。
上述的字符匹配方法,包括:获取待比较的两个字符串,针对每个字符串进行分词处理,将分词后单词数量少的字符串作为第一字符串,将单词数量多的字符串作为第二字符串。分别计算第一字符串中的每个第一单词与第二字符串中每个第二单词的相似度,并根据计算得到的每个第一单词与各个第二单词的相似度,获取第一字符串和第二字符串之间的目标相似度。本申请所提供的字符匹配方法通过计算每个第一单词与各个第二单词的相似度,并对计算得到的相似度进行合并,获取第一字符串和第二字符串之间的目标相似度,实现了在忽略字符串顺序的情况下较为准确地计算出两个字符串之间的目标相似度,可以解决目前相似度计算方法不支持在忽略单词顺序的情况下进行计算的缺陷。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种字符匹配方法的流程示意图;
图2为本申请实施例提供的一种字符匹配方法的流程示意图;
图3为本申请实施例提供的一种字符匹配方法的流程示意图;
图4为本申请实施例提供的一种字符匹配装置的结构示意图;
图5为本申请实施例提供的一种用于字符匹配的电子设备的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“A和/或B”可以实现为“A”,或者实现为“B”,或者实现为“A和B”。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
针对国际业务,由于各个国家的企业或者组织之间进行业务往来文件所使用的语言、姓名排序都可能不同,如何较为准确地评估字符串之间的相似度成为一个极待解决的问题。
目前,用于比较字符串相似度的算法在处理涉及到国际业务的名称时,往往在计算查询字符串与命中字符串的相似度时需要忽略单词的顺序,而忽略单词顺序可能使计算出的相似度不够准确,难以合理地表征字符串之间的相似程度,进而导致业务处理时出现问题,增加业务及资金的风险。
本申请提供的字符串相似度方法、装置、电子设备及可读存储介质,旨在解决现有技术的如上技术问题。
下面通过对几个示例性实施方式的描述,对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
本申请实施例中提供了一种字符匹配方法,如图1所示,该方法包括:
步骤S101,获取待处理的两个字符串,针对每一字符串,进行分词处理得到对应的单词。
在本申请实施例中,待处理的两个字符串可以为任意有对比需求的两个字符串,不限制具体的内容或者含义。字符串中可以包括但不限于中文文字、英文字母、常用字符等。
针对每一字符串,对字符串进行分词处理,得到各个字符串分别对应的单词。
可以通过预设的分词算法对每一字符串,进行分词处理,具体的,可以使用的分词算法包括但不限于以下两大类:
(1)基于字符串匹配的方法:基于字符串匹配的方法又称为机械分词方法或字典匹配方法,它主要依据词典的信息,而不使用规则知识和统计信息,按照一定的策略将待切分的汉字串与词典中的词条逐一匹配,若在词典中找到该词条,则匹配成功,否则做其它相应的处理。机械分词法依据待切分文本扫描的方向不同,分为正向匹配、逆向匹配以及双向匹配;依据分词过程是否与词性标注过程相结合,又可分为单纯分词方法和分词与标注相结合的一体化方法;依据每次匹配优先考虑长词还是短词,分为最大匹配和最小匹配。常用的基于字符串匹配的分词方法通常是将上述几种单一方法组合起来使用,例如:基于字符串的正向最大匹配、逆向最大匹配、双向最大匹配以及最少切分等。
(2)基于统计的方法:词是固定的字的组合,在文本中相邻的字同时出现的次数越多越有可能是一个词,因此计算上下文中相邻的字联合出现概率,可以判断字成词的概率。通过对语料中相邻共现的各个字的组合频度进行统计,计算它们的互现信息。互现信息体现了汉字之间结合关系的紧密程度,当紧密程度高于某一个阈值时,可判定该字组构成一个词。这种方法的优点是不受待处理文本领域的限制,不需要专门的词典。统计分词以概率论为理论基础,将汉字上下文中汉字组合串的出现抽象成随机过程,随机过程的参数可以通过大规模语料库训练得到。基于统计的分词采用的原理有互信息、N元统计模型以及其它的统计模型如隐马尔科夫模型、条件随机场模型、神经网络模型及最大熵模型等。
以基于字符串匹配的方法为例,本申请所提供的字符匹配方法中,针对每一字符串,进行分词处理得到对应的单词,可以包括如下步骤:
(1)针对每一字符串,每次匹配时取字符串中预设个数的字符作为匹配字段。具体的,预设个数可以为分词词典中最长词条所含的字符个数。
(2)根据预设的分词词典,将匹配字段与分词词典中的词条逐一匹配,若分词词典中包含匹配字段,则匹配成功,将匹配字段作为一个切分后的单词;
若匹配失败,则删去匹配字段中的一个字符,再次进行匹配,直到字符串中的所有字符都匹配成功为止。
其中,删去匹配字段中的一个字符的方式本申请不做限制,当匹配字段从字符串的首部开始选取时,可以删去匹配字段中的最后一个字符;当匹配字段是从字符串的末尾开始处理时,可以删去匹配字段中的前面的一个字符。
随着计算机技术的发展,针对字符串或者文本的分词算法蓬勃发展,本申请不限制具体应用本申请所提出的字符匹配方法时所使用的分词算法。
步骤S102,分别确定两个字符串的单词数量,若两个字符串的单词数量不相等,将单词数量少的字符串作为第一字符串,将单词数量多的字符串作为第二字符串。
具体的,在对两个字符串进行分词处理之后,每个字符串都有分词后的多个单词,可以分别确定两个字符串的单词数量,将单词数量少的字符串作为第一字符串,将单词数量多的字符串作为第二字符串。
在本申请实施例中,若两个字符串的单词数量相等,则在两个字符串中任选一个字符串作为第一字符串,另一个字符串作为第二字符串。
可以理解的是,本申请中第一字符串和第二字符串中的“第一”和“第二”的前缀是为了便于说明后续步骤,并非对字符串的命名有所限制。
步骤S103,针对第一字符串的每个第一单词,分别计算第一单词与第二字符串的各个第二单词的相似度。
在本申请实施例中,在确定出两个字符串哪个为第一字符串、哪个为第二字符串之后,可以针对第一字符串的每个第一单词,分别计算第一单词与第二字符串的各个第二单词的相似度。
例如,假设第一字符串进行分词后得到的单词为“单词1”、“单词2”和“单词3”,而第二字符串进行分词后得到的单词为“单词a”、“单词b”、“单词c”和“单词d”。
可以分别计算“单词1”与“单词a”、“单词b”、“单词c”和“单词d”之间的相似度;分别计算“单词2”与“单词a”、“单词b”、“单词c”和“单词d”之间的相似度;分别计算“单词3”与“单词a”、“单词b”、“单词c”和“单词d”之间的相似度。“单词1”、“单词2”和“单词3”各计算得到4个相似度。
其中,计算两个单词相似度的方法可以为编辑距离算法,也可以是余弦相似度算法、矩阵相似度算法,本申请不做限制。
步骤S104,基于每个第一单词与各个第二单词的相似度,获取第一字符串和第二字符串之间的目标相似度。
在本申请实施例中,基于每个第一单词与各个第二单词的相似度,获取第一字符串和第二字符串之间的目标相似度,可以包括如下步骤:
(1)针对每个第一单词,从第一单词与各个第二单词的相似度中确定出第一单词对应的最大相似度。
例如,假设“单词1”与“单词a”、“单词b”、“单词c”和“单词d”之间的相似度中,“单词1”与“单词a”之间的相似度最大,则可以把“单词1”与“单词a”之间的相似度作为“单词1”对应的最大相似度。
(2)基于每个第一单词对应的最大相似度获取第一字符串针对第二字符串的综合相似度。
具体的,可以将每个第一单词对应的最大相似度进行合并,得到第一字符串对第二字符串的综合相似度。合并方案将在后文具体说明。
(3)从第一字符串和第二字符串中确定出字符数较少的目标字符串;基于综合相似度和目标字符串的字符数,获取第一字符串和第二字符串之间的目标相似度。
从第一字符串和第二字符串中确定出字符数较少的目标字符串;基于综合相似度和目标字符串的字符数(即两个字符串之中较少的字符数),获取第一字符串和第二字符串之间的目标相似度。
目标相似度可以作为最终评估两个字符串之间相似度的依据。
在本申请实施例中,基于综合相似度和第二字符串的字符数,获取第一字符串和第二字符串之间的目标相似度,可以包括:用综合相似度除以目标字符串的字符数,得到第一字符串和第二字符串之间的目标相似度。
上述的字符匹配方法,包括:获取待比较的两个字符串,针对每个字符串进行分词处理,将分词后单词数量少的字符串作为第一字符串,将单词数量多的字符串作为第二字符串。分别计算第一字符串中的每个第一单词与第二字符串中每个第二单词的相似度,并根据计算得到的每个第一单词与各个第二单词的相似度,获取第一字符串和第二字符串之间的目标相似度。本申请所提供的字符匹配方法通过计算每个第一单词与各个第二单词的相似度,并对计算得到的相似度进行合并,获取第一字符串和第二字符串之间的目标相似度,实现了在忽略字符串顺序的情况下较为准确地计算出两个字符串之间的目标相似度,可以解决目前相似度计算方法不支持在忽略单词顺序的情况下进行计算的缺陷。
本申请实施例中提供了一种可能的实现方式,基于每个第一单词对应的最大相似度获取第一字符串针对第二字符串的综合相似度,可以包括如下步骤:
(1)获取每个第一单词对应的权重。其中,每个第一单词对应的权重可以用于表征每个第一单词在第一字符串中的重要性。每个第一单词对应的权重可以根据每个第一单词在第一字符串中的长度占比确定,也可以根据其他方法设置,例如,预先设置字符串中一些重点词汇的权重,突出重点词汇的重要性。
(2)基于每个第一单词对应的权重对每个第一单词对应的最大相似度进行加权求和,得到第一字符串针对第二字符串的综合相似度。
例如,第一字符串有两个单词,“单词1”和“单词2”,“单词1”这个单词的最大相似度是90%,“单词2”的最大相似度是100%。而“单词1”的权重为25%,“单词2”的权重为75%。这时整个字符串的综合相似度的计算过程为“90%*25%+100%*75%=22.5%+75%=97.5%”。
本申请实施例中提供了一种可能的实现方式,获取每个第一单词对应的权重,包括:
针对每个第一单词,计算第一单词的长度占第一字符串的总长度的比重,将比重作为第一单词对应的权重。
在本申请实施例中,字符串的长度可以包含以下两种定义,本申请不作限制:
(1)字符串的长度通常可以指字符串中包含字符的数目;
(2)也可以指字符串所占字节的数目,例如,在一些***中英文文字是半个字符,中文是1个字符。
在一个示例中,例如,第一字符串有两个单词,“单词1”和“单词2”,“单词1”这个单词的最大相似度是90%,“单词2”的最大相似度是100%。
“单词1”占整个字符串总长度为25%,“单词2”占整个字符串总长度的75%,则“单词1”的权重为25%,“单词2”的权重为75%。这时整个字符串的综合相似度的计算过程为“90%*25%+100%*75%=22.5%+75%=97.5%”。
在一个示例中,本申请所提供的字符匹配方法如图2所示,可以包括如下步骤:
步骤S201,获取待处理的两个字符串,针对每一字符串,进行分词处理得到对应的单词;
步骤S202,分别确定两个字符串的单词数量,将单词数量少的字符串作为第一字符串,将单词数量多的字符串作为第二字符串;
步骤S203,针对每个第一单词,从第一单词与各个第二单词的相似度中确定出第一单词对应的最大相似度;
步骤S204,获取每个第一单词对应的权重;其中,针对每个第一单词,计算第一单词的长度占第一字符串的总长度的比重,将比重作为第一单词对应的权重;
步骤S205,基于每个第一单词对应的权重对每个第一单词对应的最大相似度进行加权求和,得到第一字符串针对第二字符串的综合相似度;
步骤S206,从第一字符串和第二字符串中确定出字符数较少的目标字符串;基于综合相似度和目标字符串的字符数;具体的,用综合相似度除以目标字符串的字符数,得到第一字符串和第二字符串之间的目标相似度。
在实际应用场景中,本申请所提供的字符串相似度计算方法可以应用于名单管理监测平台,用于计算名单中的字符串之间的相似度,以更准确地评估字符串之间的相似程度。
具体的,本申请所提供的字符串相似度计算方法可以如图3所示,包括如下步骤:
第一步,获取待处理的第一字符串和第二字符串。其中,第一字符串可以是源字符串,第二字符串可以是目标字符串;
第二步,分别对源字符串和目标字符串进行分词处理,得到源字符串和目标字符串分词后分别对应的至少一个单词;
第三步,在分词处理后,比较源字符串和目标字符串的单词数量,可以单词数量少的字符串为基准,计算该字符串中的每一个单词与另一个字符串的每一个单词之间的相似度。
具体的,若源字符串分词后得到的单词数量少于目标字符串的单词数量,则可以以源字符串作为基准,分别计算源字符串分词后的每个单词与目标字符串分词后的每一个单词之间的相似度。对于源字符串中的每个单词,将计算得到该单词对应的相似度之中数值最大的相似度作为该单词的最大相似度。可以用上述方法确定出源字符串中的每个单词分别对应的最大相似度。
同理,若目标字符串分词后得到的单词数量少于源字符串的单词数量,则可以以目标字符串作为基准,分别计算目标字符串分词后的每个单词与源字符串分词后的每一个单词之间的相似度。对于目标字符串中的每个单词,将计算得到该单词对应的相似度之中数值最大的相似度作为该单词的最大相似度。可以用上述方法确定出目标字符串中的每个单词分别对应的最大相似度。
其中,可以通过预设算法计算相似度的方法,预设算法可以为编辑距离算法。
第四步,进行相似度的合并,得到字符串之间的综合相似度。其中,可以获取作为基准的字符串的每个单词对应的权重,并基于每个单词的权重对各个单词对应的最大相似度进行加权求和,得到字符串之间的综合相似度。
具体的,若源字符串作为基准,则获取源字符串中每个单词对应的权重,并基于源字符串中每个单词的权重对各个单词对应的最大相似度进行加权求和,得到字符串之间的综合相似度。
若目标字符串作为基准,则获取目标字符串中每个单词对应的权重,并基于目标字符串中每个单词的权重对各个单词对应的最大相似度进行加权求和,得到字符串之间的综合相似度。
其中,计算权重的方法包括但不限于:针对每个单词,计算该单词的长度占所属的字符串的总长度的比重,将计算得到的比重作为该单词的权重。
第五步,获取源字符串和目标字符串中字符数较少的字符串的目标字符数,用两个字符串之间的综合相似度除以目标字符数,得到两个字符串之间的目标相似度。
本申请实施例提供了一种字符匹配装置,如图4所示,该字符匹配装置40可以包括:字符串分词模块401、单词数比较模块402、相似度计算403以及相似度处理404,其中,
字符串分词模块401,用于获取待处理的两个字符串,针对每一字符串,进行分词处理得到对应的单词;
单词数比较模块402,用于分别确定两个字符串的单词数量,若两个字符串的单词数量不相等,将单词数量少的字符串作为第一字符串,将单词数量多的字符串作为第二字符串;若两个字符串的单词数量相等,则在两个字符串中任选一个字符串作为第一字符串,另一个字符串作为第二字符串;
相似度计算模块403,用于针对第一字符串的每个第一单词,分别计算第一单词与第二字符串的各个第二单词的相似度;
相似度处理模块404,用于基于每个第一单词与各个第二单词的相似度,获取第一字符串和第二字符串之间的目标相似度。
上述的字符匹配装置,包括:获取待比较的两个字符串,针对每个字符串进行分词处理,将分词后单词数量少的字符串作为第一字符串,将单词数量多的字符串作为第二字符串。分别计算第一字符串中的每个第一单词与第二字符串中每个第二单词的相似度,并根据计算得到的每个第一单词与各个第二单词的相似度,获取第一字符串和第二字符串之间的目标相似度。本申请所提供的字符匹配方法通过计算每个第一单词与各个第二单词的相似度,并对计算得到的相似度进行合并,获取第一字符串和第二字符串之间的目标相似度,实现了在忽略字符串顺序的情况下较为准确地计算出两个字符串之间的目标相似度,可以解决目前相似度计算方法不支持在忽略单词顺序的情况下进行计算的缺陷。
在本申请实施例中,相似度处理模块404在基于每个第一单词与各个第二单词的相似度,获取第一字符串和第二字符串之间的目标相似度时,具体用于:
针对每个第一单词,从第一单词与各个第二单词的相似度中确定出第一单词对应的最大相似度;
基于每个第一单词对应的最大相似度获取第一字符串针对第二字符串的综合相似度;
从第一字符串和第二字符串中确定出字符数较少的目标字符串;基于综合相似度和目标字符串的字符数,获取第一字符串和第二字符串之间的目标相似度。
在本申请实施例中,相似度处理模块404在基于每个第一单词对应的最大相似度获取第一字符串针对第二字符串的综合相似度时,具体用于:
获取每个第一单词对应的权重;
基于每个第一单词对应的权重对每个第一单词对应的最大相似度进行加权求和,得到第一字符串针对第二字符串的综合相似度。
在本申请实施例中,相似度处理模块403获取每个第一单词对应的权重,包括:
针对每个第一单词,计算第一单词的长度占第一字符串的总长度的比重,将比重作为第一单词对应的权重。
在本申请实施例中,相似度处理模块404在基于综合相似度和第二字符串的字符数,获取第一字符串和第二字符串之间的目标相似度,具体用于:
用综合相似度除以第二字符串的字符数,得到第一字符串和第二字符串之间的目标相似度。
在本申请实施例中,字符串分词模块在针对每一字符串,进行分词处理得到对应的单词时,具体用于:
针对每一字符串,每次匹配时取字符串中预设个数的字符作为匹配字段;
根据预设的分词词典,将匹配字段与分词词典中的词条逐一匹配,若分词词典中包含匹配字段,则匹配成功,将匹配字段作为一个切分后的单词;
若匹配失败,则删去匹配字段中的一个字符,再次进行匹配,直到字符串中的所有字符都匹配成功为止。
本申请实施例的装置可执行本申请实施例所提供的方法,其实现原理相类似,本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
本申请实施例中提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现字符匹配方法的步骤,与相关技术相比可实现:在忽略字符串顺序的情况下较为准确地计算出两个字符串之间的目标相似度,可以解决目前相似度计算方法不支持在忽略单词顺序的情况下进行计算的缺陷。
在一个可选实施例中提供了一种电子设备,如图5所示,图5所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
存储器4003用于存储执行本申请实施例的计算机程序,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述方法实施例所示的步骤。
其中,电子设备包括但不限于:移动电话、笔记本电脑、PAD等等移动终端以及诸如数字TV、台式计算机等等固定终端。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。
Claims (9)
1.一种字符匹配方法,其特征在于,包括:
获取待处理的两个字符串,针对每一字符串,进行分词处理得到对应的单词;
分别确定两个字符串的单词数量,若所述两个字符串的单词数量不相等,将单词数量少的字符串作为第一字符串,将单词数量多的字符串作为第二字符串;
若所述两个字符串的单词数量相等,则在所述两个字符串中任选一个字符串作为第一字符串,另一个字符串作为第二字符串;
针对所述第一字符串的每个第一单词,分别计算所述第一单词与所述第二字符串的各个第二单词的相似度;
基于每个第一单词与各个第二单词的相似度,获取所述第一字符串和所述第二字符串之间的目标相似度。
2.根据权利要求1所述的字符匹配方法,其特征在于,所述基于每个第一单词与各个第二单词的相似度,获取所述第一字符串和所述第二字符串之间的目标相似度,包括:
针对每个第一单词,从所述第一单词与各个第二单词的相似度中确定出所述第一单词对应的最大相似度;
基于每个第一单词对应的最大相似度获取所述第一字符串针对所述第二字符串的综合相似度;
从所述第一字符串和所述第二字符串中确定出字符数较少的目标字符串;基于所述综合相似度和所述目标字符串的字符数,获取所述第一字符串和所述第二字符串之间的目标相似度。
3.根据权利要求2所述的字符匹配方法,其特征在于,所述基于每个第一单词对应的最大相似度获取所述第一字符串针对所述第二字符串的综合相似度,包括:
获取每个第一单词对应的权重;
基于每个第一单词对应的权重对每个第一单词对应的最大相似度进行加权求和,得到所述第一字符串针对所述第二字符串的综合相似度。
4.根据权利要求3所述的字符匹配方法,其特征在于,所述获取每个第一单词对应的权重,包括:
针对每个第一单词,计算所述第一单词的长度占所述第一字符串的总长度的比重,将所述比重作为所述第一单词对应的权重。
5.根据权利要求2-4任一项所述的字符匹配方法,其特征在于,所述基于所述综合相似度和所述第二字符串的字符数,获取所述第一字符串和所述第二字符串之间的目标相似度,包括:
用所述综合相似度除以所述目标字符串的字符数,得到所述第一字符串和所述第二字符串之间的目标相似度。
6.根据权利要求1所述的字符匹配方法,其特征在于,所述针对每一字符串,进行分词处理得到对应的单词,包括:
针对每一字符串,每次匹配时取所述字符串中预设个数的字符作为匹配字段;
根据预设的分词词典,将所述匹配字段与所述分词词典中的词条逐一匹配,若所述分词词典中包含所述匹配字段,则匹配成功,将所述匹配字段作为一个切分后的单词;
若匹配失败,则删去所述匹配字段中的一个字符,再次进行匹配,直到字符串中的所有字符都匹配成功为止。
7.一种字符匹配装置,其特征在于,包括:
字符串分词模块,用于获取待处理的两个字符串,针对每一字符串,进行分词处理得到对应的单词;
单词数比较模块,用于分别确定两个字符串的单词数量,若所述两个字符串的单词数量不相等,将单词数量少的字符串作为第一字符串,将单词数量多的字符串作为第二字符串;若所述两个字符串的单词数量相等,则在所述两个字符串中任选一个字符串作为第一字符串,另一个字符串作为第二字符串;
相似度计算模块,用于针对所述第一字符串的每个第一单词,分别计算所述第一单词与所述第二字符串的各个第二单词的相似度;
相似度处理模块,用于基于每个第一单词与各个第二单词的相似度,获取所述第一字符串和所述第二字符串之间的目标相似度。
8.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-6任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的字符匹配方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210976998.3A CN115392235A (zh) | 2022-08-15 | 2022-08-15 | 字符匹配方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210976998.3A CN115392235A (zh) | 2022-08-15 | 2022-08-15 | 字符匹配方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115392235A true CN115392235A (zh) | 2022-11-25 |
Family
ID=84117852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210976998.3A Pending CN115392235A (zh) | 2022-08-15 | 2022-08-15 | 字符匹配方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115392235A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116757189A (zh) * | 2023-08-11 | 2023-09-15 | 四川互慧软件有限公司 | 一种基于汉字特征的患者姓名消歧方法 |
CN117573943A (zh) * | 2024-01-11 | 2024-02-20 | 云筑信息科技(成都)有限公司 | 一种基于序列化相似度计算的数据对比方法 |
-
2022
- 2022-08-15 CN CN202210976998.3A patent/CN115392235A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116757189A (zh) * | 2023-08-11 | 2023-09-15 | 四川互慧软件有限公司 | 一种基于汉字特征的患者姓名消歧方法 |
CN116757189B (zh) * | 2023-08-11 | 2023-10-31 | 四川互慧软件有限公司 | 一种基于汉字特征的患者姓名消歧方法 |
CN117573943A (zh) * | 2024-01-11 | 2024-02-20 | 云筑信息科技(成都)有限公司 | 一种基于序列化相似度计算的数据对比方法 |
CN117573943B (zh) * | 2024-01-11 | 2024-05-28 | 云筑信息科技(成都)有限公司 | 一种基于序列化相似度计算的数据对比方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11521603B2 (en) | Automatically generating conference minutes | |
CN111368043A (zh) | 基于人工智能的事件问答方法、装置、设备及存储介质 | |
CN110941951B (zh) | 文本相似度计算方法、装置、介质及电子设备 | |
CN111797210A (zh) | 基于用户画像的信息推荐方法、装置、设备及存储介质 | |
CN110427487B (zh) | 一种数据标注方法、装置及存储介质 | |
CN115392235A (zh) | 字符匹配方法、装置、电子设备及可读存储介质 | |
CN110334209B (zh) | 文本分类方法、装置、介质及电子设备 | |
CN111930792A (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
CN110362798B (zh) | 裁决信息检索分析方法、装置、计算机设备和存储介质 | |
CN113486178B (zh) | 文本识别模型训练方法、文本识别方法、装置以及介质 | |
CN111459977A (zh) | 自然语言查询的转换 | |
CN111143556A (zh) | 软件功能点自动计数方法、装置、介质及电子设备 | |
CN111259262A (zh) | 一种信息检索方法、装置、设备及介质 | |
CN114116973A (zh) | 多文档的文本查重方法、电子设备及存储介质 | |
CN110704608A (zh) | 文本主题生成方法、装置和计算机设备 | |
CN112989235A (zh) | 基于知识库的内链构建方法、装置、设备和存储介质 | |
CN111062208B (zh) | 一种文件审核的方法、装置、设备及存储介质 | |
CN113934848B (zh) | 一种数据分类方法、装置和电子设备 | |
CN110929499B (zh) | 文本相似度获取方法、装置、介质及电子设备 | |
CN111143515B (zh) | 文本匹配方法及装置 | |
CN112417875A (zh) | 配置信息的更新方法、装置、计算机设备及介质 | |
CN111949765B (zh) | 基于语义的相似文本搜索方法、***、设备和存储介质 | |
CN110909538B (zh) | 问答内容的识别方法、装置、终端设备及介质 | |
CN110276001B (zh) | 盘点页识别方法、装置、计算设备和介质 | |
CN112926297A (zh) | 处理信息的方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |