CN108256587A - 一种字符串相似度的确定方法、装置、计算机及存储介质 - Google Patents

一种字符串相似度的确定方法、装置、计算机及存储介质 Download PDF

Info

Publication number
CN108256587A
CN108256587A CN201810113573.3A CN201810113573A CN108256587A CN 108256587 A CN108256587 A CN 108256587A CN 201810113573 A CN201810113573 A CN 201810113573A CN 108256587 A CN108256587 A CN 108256587A
Authority
CN
China
Prior art keywords
character string
character
sequence
similarity
editing distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810113573.3A
Other languages
English (en)
Inventor
代坤鹏
张文明
陈少杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201810113573.3A priority Critical patent/CN108256587A/zh
Publication of CN108256587A publication Critical patent/CN108256587A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种字符串相似度的确定方法、装置、计算机和存储介质。其中方法包括:获取第一字符串和第二字符串;将所述第一字符串和所述第二字符串转换为预设编码格式;根据编码后的字节序分别对所述第一字符串和所述第二字符串中的字符进行排序;确定排序后的第一字符串和第二字符串的相似度。本发明实施例避免了短字符串中字符顺序导致的相似度降低的问题,提高了两个字符串的相似度的准确度。

Description

一种字符串相似度的确定方法、装置、计算机及存储介质
技术领域
本发明实施例涉及通信技术,尤其涉及一种字符串相似度的确定方法、装置、计算机及存储介质。
背景技术
随着直播技术被越来越多的用户应用和观看,且越来越多的用户在观看直播时对主播人员设置标签,直播平台在大量的标签中筛选有新意和有代表性的标签作为该主播人员的标签。
但是由于用户的表述方式不同,易导致筛选出表述不同但含义相同的标签,导致筛选效率差,增加人工筛选工作量。
发明内容
本发明实施例提供一种字符串相似度的确定方法、装置、计算机及存储介质,以实现提高字符串相似度筛选精度和效率。
第一方面,本发明实施例提供了一种字符串相似度的确定,该方法包括:
获取第一字符串和第二字符串;
将所述第一字符串和所述第二字符串转换为预设编码格式;
根据编码后的字节序分别对所述第一字符串和所述第二字符串中的字符进行排序;
确定排序后的第一字符串和第二字符串的相似度。
可选的,将所述第一字符串和所述第二字符串转换为预设编码格式,包括:
将所述第一字符串和所述第二字符串中的字符转换为UTF-8编码格式。
可选的,确定排序后的第一字符串和第二字符串的相似度,包括:
确定排序后的第一字符串与第二字符串的编辑距离;
根据所述编辑距离确定所述第一字符串与所述第二字符串的相似度。
可选的,确定排序后的第一字符串与第二字符串的编辑距离,包括:
获取排序后的第一字符串中前i-1个字符与排序后的第二字符串中的前j个字符的第一编辑距离d[i-1,j]、排序后的第一字符串中前i-1个字符与排序后的第二字符串中的前j-1个字符的第二编辑距离d[i-1,j-1]以及排序后的第一字符串中前i个字符与排序后的第二字符串中的前j-1个字符的第三编辑距离d[i,j-1];
根据所述第一编辑距离、所述第二编辑距离、所述第三编辑距离、排序后的第一字符串中第i个字符以及排序后的第二字符串中的第j个字符,确定排序后的第一字符串与各排序后的第二字符串的编辑距离d[i,j],其中,i、j均为大于或等于1的正整数。
可选的,根据所述第一编辑距离、所述第二编辑距离、所述第三编辑距离、排序后的第一字符串中第i个字符以及排序后的第二字符串中的第j个字符,确定排序后的第一字符串与各排序后的第二字符串的编辑距离d[i,j],包括:
若排序后的第一字符串中第i个字符,与排序后的第二字符串中的第j个字符相同,则将所述第二编辑距离确定为第一字符串中前i个字符与排序后的第二字符串中的前j个字符的编辑距离d[i,j];
若排序后的第一字符串中第i个字符,与排序后的第二字符串中的第j个字符不相同,则将所述第一编辑距离、第二编辑距离和第三编辑距离中的最小值加1确定为第一字符串中前i个字符与排序后的第二字符串中的前j个字符的编辑距离d[i,j]。
可选的,根据所述编辑距离确定所述第一字符串和所述第二字符串的相似度,包括:
获取所述第一字符串和所述第二字符串的字符长度和;
获取所述第一字符串和各所述第二字符串的编辑距离与所述字符长度和的比值;
将所述比值与1的差值绝对值确定为所述第一字符串和各所述第二字符串的相似度。
可选的,所述第一字符串为用户针对目标主播输入的待审核标签,所述第二字符串为所述目标主播的已确定标签,所述已确定标签为至少一个,相应的,在确定所述待审核标签和各所述已确定标签的相似度之后,还包括:
若存在至少一个相似度大于或等于预设值,则确定所述待审核标签未通关审核,并丢弃所述待审核标签;
若各所述相似度均小于所述预设值,则确定所述待审核标签通过审核,并将所述通过审核的待审核标签更新为所述目标主播的已确定标签。
第二方面,本发明实施例还提供了字符串相似度的确定装置,该装置包括:
字符串获取模块,用于获取第一字符串和第二字符串;
编码模块,用于将所述第一字符串和所述第二字符串转换为预设编码格式;
排序模块,用于根据编码后的字节序分别对所述第一字符串和所述第二字符串中的字符进行排序;
相似度确定模块,用于确定排序后的第一字符串和第二字符串的相似度。
可选的,所述编码模块具体用于:
将所述第一字符串和所述第二字符串中的字符转换为UTF-8编码格式。
可选的,所述相似度确定模块包括:
编辑距离确定单元,用于确定排序后的第一字符串与第二字符串的编辑距离;
相似度确定单元,用于根据所述编辑距离确定所述第一字符串与所述第二字符串的相似度。
可选的,所述编辑距离确定单元包括:
信息获取子单元,用于获取排序后的第一字符串中前i-1个字符与排序后的第二字符串中的前j个字符的第一编辑距离d[i-1,j]、排序后的第一字符串中前i-1个字符与排序后的第二字符串中的前j-1个字符的第二编辑距离d[i-1,j-1]以及排序后的第一字符串中前i个字符与排序后的第二字符串中的前j-1个字符的第三编辑距离d[i,j-1];
编辑距离确定子单元,用于根据所述第一编辑距离、所述第二编辑距离、所述第三编辑距离、排序后的第一字符串中第i个字符以及排序后的第二字符串中的第j个字符,确定排序后的第一字符串与各排序后的第二字符串的编辑距离d[i,j],其中,i、j均为大于或等于1的正整数。
可选的,所述编辑距离确定子单元具体用于:
若排序后的第一字符串中第i个字符,与排序后的第二字符串中的第j个字符相同,则将所述第二编辑距离确定为第一字符串中前i个字符与排序后的第二字符串中的前j个字符的编辑距离d[i,j];
若排序后的第一字符串中第i个字符,与排序后的第二字符串中的第j个字符不相同,则将所述第一编辑距离、第二编辑距离和第三编辑距离中的最小值加1确定为第一字符串中前i个字符与排序后的第二字符串中的前j个字符的编辑距离d[i,j]。
可选的,所述相似度确定单元具体用于:
获取所述第一字符串和所述第二字符串的字符长度和;
获取所述第一字符串和各所述第二字符串的编辑距离与所述字符长度和的比值;
将所述比值与1的差值绝对值确定为所述第一字符串和各所述第二字符串的相似度。
可选的,所述第一字符串为用户针对目标主播输入的待审核标签,所述第二字符串为所述目标主播的已确定标签,所述已确定标签为至少一个,相应的,所述装置还包括标签审核模块,用于若存在至少一个相似度大于或等于预设值,则确定所述待审核标签未通关审核,并丢弃所述待审核标签;
标签审核模块还用于若各所述相似度均小于所述预设值,则确定所述待审核标签通过审核,并将所述通过审核的待审核标签更新为所述目标主播的已确定标签。
第三方面,本发明实施例还提供了一种计算机设备,该计算机设备包括:一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例提供的字符串相似度的确定方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例提供的字符串相似度的确定方法。
本发明实施例通过将第一字符串和第二字符串转换为预设编码格式后,根据字节序进行排序,将排序后的第一字符串和第二字符串的相似度确定为第一字符串和第二字符串的相似度,避免了短字符串中字符顺序导致的相似度降低的问题,提高了两个字符串的相似度的准确度。
附图说明
图1是本发明实施例一提供的一种字符串相似度的确定方法的流程图;
图2是本发明实施例二提供的一种字符串相似度的确定方法的流程图;
图3是本发明实施例三提供的一种字符串相似度的确定装置的结构示意图;
图4是本发明实施例四提供的一种计算机备的结果示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在软件开发过程中,常遇到比较短字符串相似度的情况,一般存在如下两种相似度的确定方式,其一是通过两个字符串的最长公共子串的方式,其二时通过获取字符串之间的编辑距离确定相似度的方式,但上述两种相似度确定方法无法识别字符串的语义,尤其是在字符串为短字符串时,计算准确度低,效果差。
实施例一
图1为本发明实施例一提供的一种字符串相似度的确定方法的流程图,本实施例可适用于确定任意两个字符串之间的相似度的情况,尤其适用于确定两个短字符串的相似度的情况,该方法可以由本发明实施例提供的字符串相似度的确定装置来执行,该装置可采用软件和/或软件的形式实现,该方法具体包括:
S110、获取第一字符串和第二字符串。
其中,第一字符串和第二字符串可以是由汉字、英文字符和数字中的至少一种组成,示例性的,第一字符串可以是“改进字符串相似度”,第二字符串可以是“字符串相似度的改进”。
S120、将第一字符串和第二字符串转换为预设编码格式。
本实施例中,将第一字符串和第二字符串中的各字符转换为统一的编码格式,有利于在同一格式下对两个字符串进行相似度计算,其中,预设编码格式可以是但不限于ASCII编码格式和UTF-8编码格式。优选的,预设编码格式为UTF-8编码格式,即步骤S120包括:将第一字符串和第二字符串中的字符转换为UTF-8编码格式。
其中,UTF-8编码是一种用于将宽字符值转换为字节流的Unicode的标准机制,可以将汉字字符和英文字符转为相同字节长度的编码格式。相对于其他不固定字符长度的编码方式,具有更高的编码统一性,有利于后续对字符串中各字符的排序。
S130、根据编码后的字节序分别对第一字符串和第二字符串中的字符进行排序。
在本实施例中,将第一字符串和第二字符串分别转换为UTF-8编码格式之后,每一个字符对应唯一一个字节序,根据字节序分别对第一字符串和第二字符串中的字符进行排序。示例性的,第一字符串为“改进字符串相似度”时,排序后的第一字符串为“串似字度改相符进”,第二字符串为“字符串相似度的改进”时,排序后的第二字符串为“串似字度改的相符进”。本实施例中,当第一字符串和第二字符串段为短字符串时,可选的,将具有相同字符的两个字符串的理论相似度为100%。示例性的,字符串“霸气威武”和字符串“威武霸气”的理论相似度为100%。
本实施例中,通过基于字节序对第一字符串和第二字符串进行排序,以调节第一字符串和第二字符串中各字符的顺序,以便提高第一字符串和第二字符串的相似度。
S140、确定排序后的第一字符串和第二字符串的相似度。
本实施例中,将排序后的第一字符串和第二字符串的相似度确定与排序前的第一字符串和第二字符串的相似度相同。
可选的,步骤S140包括:确定排序后的第一字符串与第二字符串的编辑距离;根据编辑距离确定第一字符串与第二字符串的相似度。
其中,编辑距离指的是第一字符串通过***、删除或替换的方式达到与第二字符串相同状态所需要的最小次数。示例性的,当第一字符串为“AB”,第二字符串为“ABC”时,第一字符串可通过***一个字符“C”变成第二字符串,则第一字符串和第二字符串的编辑距离为1。
可选的,确定排序后的第一字符串与第二字符串的编辑距离,包括:
获取排序后的第一字符串中前i-1个字符与排序后的第二字符串中的前j个字符的第一编辑距离d[i-1,j]、排序后的第一字符串中前i-1个字符与排序后的第二字符串中的前j-1个字符的第二编辑距离d[i-1,j-1]以及排序后的第一字符串中前i个字符与排序后的第二字符串中的前j-1个字符的第三编辑距离d[i,j-1];
根据第一编辑距离、第二编辑距离、第三编辑距离、排序后的第一字符串中第i个字符以及排序后的第二字符串中的第j个字符,确定排序后的第一字符串与各排序后的第二字符串的编辑距离d[i,j],其中,i、j均为大于或等于1的正整数。
本实施例中,通过确定第一字符串和第二字符串中不同字符长度组成的子串之间的编辑距离,并根据字符长度较小的子串之间的编辑距离确定字符长度较大的子串之间的编辑距离,其中,d[0,0]=0,d[0,1]=1,d[1,0]=1。
本实施例中,子串之间编辑距离与两个子串的最后一个字符相关。可选的,根据第一编辑距离、第二编辑距离、第三编辑距离、排序后的第一字符串中第i个字符以及排序后的第二字符串中的第j个字符,确定排序后的第一字符串与各排序后的第二字符串的编辑距离d[i,j],包括:
若排序后的第一字符串中第i个字符,与排序后的第二字符串中的第j个字符相同,则将第二编辑距离确定为第一字符串中前i个字符与排序后的第二字符串中的前j个字符的编辑距离d[i,j];
若排序后的第一字符串中第i个字符,与排序后的第二字符串中的第j个字符不相同,则将第一编辑距离、第二编辑距离和第三编辑距离中的最小值加1确定为第一字符串中前i个字符与排序后的第二字符串中的前j个字符的编辑距离d[i,j]。示例性的,若第一字符串的字符长度为a,第二字符串的字符长度为b,其中,ai为第一字符串中第i个字符,bj为第二字符串中第j个字符,则排序后的第一字符串与字符串的编剧距离如下公式:
本实施例中,若d[i,j]=d[i-1,j-1]+1,则表明排序后的第一字符串中前i个字符可通过替换第i个字符的方式达到与排序后的第二字符串中的前j个字符相同,若d[i,j]=d[i-1,j]+1或者d[i,j]=d[i,j-1]+1,则表明,示例性的,排序后的第一字符串中前i个字符可通过***或者删除第i个字符的方式达到与排序后的第二字符串中的前j个字符相同。
参见表1和表2,其中,表1是未根据字节序排序的第一字符串和第二字符串的编辑距离的示例,表2是根据字节序排序后的第一字符串和第二字符串的编辑距离的示例。
表1
表2
0 1 2 3 4 5 6 7 8
1 0 1 2 3 4 5 6 7
2 1 0 1 2 3 4 5 6
3 2 1 0 1 2 3 4 5
4 3 2 1 0 1 2 3 4
5 4 3 2 1 0 1 2 3
6 5 4 3 2 1 1 2 3
7 6 5 4 3 2 1 2 3
8 7 6 5 4 3 2 1 2
9 8 7 6 5 4 3 2 1
参见表1,未排序的第一字符串和第二字符串的编剧距离为5,参见表2,根据字节序排序后的第一字符串与第二字符串的编辑距离为1,可知将字符串根据字节序进行排序可减小字符串之间的编辑距离。
可选的,根据编辑距离确定第一字符串和第二字符串的相似度,包括:
获取第一字符串和第二字符串的字符长度和;获取第一字符串和第二字符串的编辑距离与字符长度和的比值;将比值与1的差值绝对值确定为第一字符串和第二字符串的相似度。
其中,第一字符串和第二字符串的相似度可通过如下公式确定:
其中,第一字符串的字符长度为a,第二字符串的字符长度为b,d[a,b]为第一字符串和第二字符串的编辑距离,Sa,b为第一字符串和第二字符串的相似度。
示例性的,当第一字符串是“改进字符串相似度”,第二字符串是“字符串相似度的改进”时,第一字符串和第二字符串的字符长度和为17。未排序的第一字符串和第二字符串的相似度为70.5%,根据字节序排序后的第一字符串与第二字符串的相似度为94.1%。可知,将字符串根据字节序进行排序可提高字符串间相似度的准确性。
本实施例的技术方案,通过将第一字符串和第二字符串转换为预设编码格式后,根据字节序进行排序,将排序后的第一字符串和第二字符串的相似度确定为第一字符串和第二字符串的相似度,避免了短字符串中字符顺序导致的相似度降低的问题,提高了两个字符串的相似度的准确度。
实施例二
图2是本发明实施例二提供的一种字符串相似度的确定方法的流程图,在上述实施例的基础上,提供了第一字符串为用户针对目标主播输入的待审核标签,第二字符串为目标主播的已确定标签的情况,具体的,该方法具体包括:S210、获取待审核标签和已确定标签,其中,已确定标签为至少一个。
本实施例中,在直播过程中,用户可以是通过文字输入的形式给目标主播设置标签,由于用户设置的标签数量大,需进行审核筛选。其中,待审核标签指的是用户给目标主播设置的标签,已确定标签指的是该目标主播已有的标签,其中,目标主播可以是有多个已确定标签。可选的,筛选与已确定标签相似度低的待审核标签。其中,已确定标签相似度低的待审核标签具有新意,重复性低。
S220、将待审核标签和已确定标签转换为预设编码格式,根据编码后的字节序分别对待审核标签和已确定标签中的字符进行排序。
S230、确定排序后的待审核标签和各已确定标签的相似度。
本实施例中,分别计算待审核标签与每一个已确定标签之间的相似度。
S240、若存在至少一个相似度大于或等于预设值,则确定待审核标签未通关审核,并丢弃待审核标签。
S250、若各相似度均小于预设值,则确定待审核标签通过审核,并将通过审核的待审核标签更新为目标主播的已确定标签。
本实施例中,根据待审核标签和各已确定标签的相似度,确定待审核标签是否通过审核。若待审核标签和已确定标签的相似度较大,则表明待审核标签和已确定标签相同或相近,存在较高的重复性;若待审核标签和已确定标签的相似度较小,则表明待审核标签和已确定标签不相同,且存在新意。
本实施例中,获取待审核标签与每一个已确定标签的相似度,判断上述相似度是否达到预设条件,若是,则确定待审核标签通过审核,若否,则确定待审核标签未通过审核。即若存在至少一个相似度大于或等于预设值,则确定待审核标签未通关审核,并丢弃待审核标签;若各相似度均小于预设值,则确定待审核标签通过审核,并将通过审核的待审核标签更新为目标主播的已确定标签。
其中,预设值可以是根据用户需求确实,示例性的,若该目标主播期望标签数量较大,则可以提高预设值;若该目标主播已存在多个已确定标签,期望存在新意的标签,则可以降低预设值。
本实施例中,将待审核标签与每一个已确定标签的相似度与预设值进行比较,若存在一个或多个相似度大于或等于预设值,则表明存在与该待审核标签相同或相似的已确定标签,该待审核标签未通关审核,并丢弃待审核标签。若待审核标签与每一个已确定标签的相似度均小于预设值,则确实不存在与待审核标签相同或相似的已确定标签,该待审核标签通关审核。
可选的,将待审核标签与每一个已确定标签的相似度进行大小排序,获取预设数量的数值较大的相似度,其中,预设数量可以是1、3或者5等。将数值较大的相似度与预设值进行比对,若数值较大的相似度均小于预设值,则表明待审核标签与所有已确定标签的相似度均小于预设值,该待审核标签通过审核,若数值最大的相似度大于或等于预设值,则存在一个已确定标签与待审核标签相同或相似,待审核标签未通过审核。通过筛选数值较大的相似度,减小了与预设值比对的次数,提高标签审核效率。
可选的,在待审核标签通过审核之后,将通过审核的待审核标签更新为目标主播的已确定标签之前,还包括:识别待审核标签的语义,若待审核标签的语义与该目标主播相匹配,则将通过审核的待审核标签更新为目标主播的已确定标签,若待审核标签的语义与该目标主播不匹配,则丢弃该通过审核的待审核标签。
本实施例中,通过获取用户对目标主播的待审核标签,对待审核标签和已确定标签进行编码转换和字节序排序,依次对排序后的待审核标签与已确定标签的相似度,并根据相似度确定待审核标签是否通过审核,在提高待审核标签与已确定标签的相似度准确度的基础上,进一步避免了大量重复标签的存在,提高了标签审核的精度和效率。
实施例三
图3是本发明实施例提供的一种字符串相似度的确定装置的结构示意图,其中该装置具体包括:
字符串获取模块310,用于获取第一字符串和第二字符串;
编码模块320,用于将第一字符串和第二字符串转换为预设编码格式;
排序模块330,用于根据编码后的字节序分别对第一字符串和第二字符中的字符进行排序;
相似度确定模块340,用于确定排序后的第一字符串和第二字符串的相似度。
可选的,编码模块320具体用于:
将第一字符串和第二字符串中的字符转换为UTF-8编码格式。
可选的,相似度确定模块340包括:
编辑距离确定单元,用于确定排序后的第一字符串与第二字符串的编辑距离;
相似度确定单元,用于根据编辑距离确定第一字符串与第二字符串的相似度。
可选的,编辑距离确定单元包括:
信息获取子单元,用于获取排序后的第一字符串中前i-1个字符与排序后的第二字符串中的前j个字符的第一编辑距离d[i-1,j]、排序后的第一字符串中前i-1个字符与排序后的第二字符串中的前j-1个字符的第二编辑距离d[i-1,j-1]以及排序后的第一字符串中前i个字符与排序后的第二字符串中的前j-1个字符的第三编辑距离d[i,j-1];
编辑距离确定子单元,用于根据第一编辑距离、第二编辑距离、第三编辑距离、排序后的第一字符串中第i个字符以及排序后的第二字符串中的第j个字符,确定排序后的第一字符串与各排序后的第二字符串的编辑距离d[i,j],其中,i、j均为大于或等于1的正整数。
可选的,编辑距离确定子单元具体用于:
若排序后的第一字符串中第i个字符,与排序后的第二字符串中的第j个字符相同,则将第二编辑距离确定为第一字符串中前i个字符与排序后的第二字符串中的前j个字符的编辑距离d[i,j];
若排序后的第一字符串中第i个字符,与排序后的第二字符串中的第j个字符不相同,则将第一编辑距离、第二编辑距离和第三编辑距离中的最小值加1确定为第一字符串中前i个字符与排序后的第二字符串中的前j个字符的编辑距离d[i,j]。
可选的,相似度确定单元具体用于:
获取第一字符串和第二字符串的字符长度和;
获取第一字符串和第二字符串的编辑距离与字符长度和的比值;
将比值与1的差值绝对值确定为第一字符串和第二字符串的相似度。
可选的,第一字符串为用户针对目标主播输入的待审核标签,第二字符串为目标主播的已确定标签,已确定标签为至少一个,相应的,装置还包括标签审核模块,用于若存在至少一个相似度大于或等于预设值,则确定待审核标签未通关审核,并丢弃待审核标签;标签审核模块还用于若各相似度均小于预设值,则确定待审核标签通过审核,并将通过审核的待审核标签更新为目标主播的已确定标签。
本发明实施例提供的字符串相似度的确定装置可执行本发明任意实施例所提供的字符串相似度的确定方法,具备执行字符串相似度的确定方法相应的功能模块和有益效果。
实施例四
图4是本发明实施例提供的一种计算机设备的结构示意图,该计算机设备具体包括:
一个或多个处理器410;
存储器420,用于存储一个或多个程序;
当一个或多个程序被一个或多个处理器410执行,使得一个或多个处理器410实现如上述实施例中任意实施例提出的字符串相似度的确定方法。
图4中以一个处理器410为例;计算机设备中的处理器410和存储器420可以通过总线或其他方式连接,图中以通过总线连接为例。
存储器420作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的字符串相似度的确定方法对应的程序指令/模块。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的字符串相似度的确定方法。
存储器420主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本实施例提出的计算机设备与上述实施例提出的字符串相似度的确定方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例具备执行字符串相似度的确定方法相同的有益效果。
实施例五
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的字符串相似度的确定方法。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的字符串相似度的确定方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种字符串相似度的确定方法,其特征在于,包括:
获取第一字符串和第二字符串;
将所述第一字符串和所述第二字符串转换为预设编码格式;
根据编码后的字节序分别对所述第一字符串和所述第二字符串中的字符进行排序;
确定排序后的第一字符串和第二字符串的相似度。
2.根据权利要求1所述的方法,其特征在于,将所述第一字符串和所述第二字符串转换为预设编码格式,包括:
将所述第一字符串和所述第二字符串中的字符转换为UTF-8编码格式。
3.根据权利要求1所述的方法,其特征在于,确定排序后的第一字符串和第二字符串的相似度,包括:
确定排序后的第一字符串与第二字符串的编辑距离;
根据所述编辑距离确定所述第一字符串与所述第二字符串的相似度。
4.根据权利要求3所述的方法,其特征在于,确定排序后的第一字符串与第二字符串的编辑距离,包括:
获取排序后的第一字符串中前i-1个字符与排序后的第二字符串中的前j个字符的第一编辑距离d[i-1,j]、排序后的第一字符串中前i-1个字符与排序后的第二字符串中的前j-1个字符的第二编辑距离d[i-1,j-1]以及排序后的第一字符串中前i个字符与排序后的第二字符串中的前j-1个字符的第三编辑距离d[i,j-1];
根据所述第一编辑距离、所述第二编辑距离、所述第三编辑距离、排序后的第一字符串中第i个字符以及排序后的第二字符串中的第j个字符,确定排序后的第一字符串与各排序后的第二字符串的编辑距离d[i,j],其中,i、j均为大于或等于1的正整数。
5.根据权利要求4所述的方法,其特征在于,根据所述第一编辑距离、所述第二编辑距离、所述第三编辑距离、排序后的第一字符串中第i个字符以及排序后的第二字符串中的第j个字符,确定排序后的第一字符串与各排序后的第二字符串的编辑距离d[i,j],包括:
若排序后的第一字符串中第i个字符,与排序后的第二字符串中的第j个字符相同,则将所述第二编辑距离确定为第一字符串中前i个字符与排序后的第二字符串中的前j个字符的编辑距离d[i,j];
若排序后的第一字符串中第i个字符,与排序后的第二字符串中的第j个字符不相同,则将所述第一编辑距离、第二编辑距离和第三编辑距离中的最小值加1确定为第一字符串中前i个字符与排序后的第二字符串中的前j个字符的编辑距离d[i,j]。
6.根据权利要求3所述的方法,其特征在于,根据所述编辑距离确定所述第一字符串和所述第二字符串的相似度,包括:
获取所述第一字符串和所述第二字符串的字符长度和;
获取所述第一字符串和各所述第二字符串的编辑距离与所述字符长度和的比值;
将所述比值与1的差值绝对值确定为所述第一字符串和各所述第二字符串的相似度。
7.根据权利要求1-6任一所述的方法,其特征在于,所述第一字符串为用户针对目标主播输入的待审核标签,所述第二字符串为所述目标主播的已确定标签,所述已确定标签为至少一个,相应的,在确定所述待审核标签和各所述已确定标签的相似度之后,还包括:
若存在至少一个相似度大于或等于预设值,则确定所述待审核标签未通关审核,并丢弃所述待审核标签;
若各所述相似度均小于所述预设值,则确定所述待审核标签通过审核,并将所述通过审核的待审核标签更新为所述目标主播的已确定标签。
8.一种字符串相似度的确定装置,其特征在于,包括:
字符串获取模块,用于获取第一字符串和第二字符串;
编码模块,用于将所述第一字符串和所述第二字符串转换为预设编码格式;
排序模块,用于根据编码后的字节序分别对所述第一字符串和所述第二字符串中的字符进行排序;
相似度确定模块,用于确定排序后的第一字符串和第二字符串的相似度。
9.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的字符串相似度的确定方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的字符串相似度的确定方法。
CN201810113573.3A 2018-02-05 2018-02-05 一种字符串相似度的确定方法、装置、计算机及存储介质 Pending CN108256587A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810113573.3A CN108256587A (zh) 2018-02-05 2018-02-05 一种字符串相似度的确定方法、装置、计算机及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810113573.3A CN108256587A (zh) 2018-02-05 2018-02-05 一种字符串相似度的确定方法、装置、计算机及存储介质

Publications (1)

Publication Number Publication Date
CN108256587A true CN108256587A (zh) 2018-07-06

Family

ID=62744653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810113573.3A Pending CN108256587A (zh) 2018-02-05 2018-02-05 一种字符串相似度的确定方法、装置、计算机及存储介质

Country Status (1)

Country Link
CN (1) CN108256587A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090982A (zh) * 2018-10-24 2020-05-01 迈普通信技术股份有限公司 文本比较方法、装置、电子设备及计算机可读存储介质
CN111522574A (zh) * 2020-03-04 2020-08-11 平安科技(深圳)有限公司 差分包生成方法及相关设备
CN111669451A (zh) * 2019-03-07 2020-09-15 顺丰科技有限公司 私人邮箱判断方法及判断装置
CN111914771A (zh) * 2020-08-06 2020-11-10 长沙公信诚丰信息技术服务有限公司 一种证照信息自动比对方法、装置、计算机设备及存储介质
CN112199937A (zh) * 2020-11-12 2021-01-08 深圳供电局有限公司 一种短文本相似度分析方法及其***、计算机设备、介质
CN112580342A (zh) * 2019-09-30 2021-03-30 深圳无域科技技术有限公司 公司名称比对的方法、装置、计算机设备和存储介质
CN113268972A (zh) * 2021-05-14 2021-08-17 东莞理工学院城市学院 两英语单词外观相似度的智能计算方法、***、设备和介质
CN113723466A (zh) * 2019-05-21 2021-11-30 创新先进技术有限公司 文本相似度量化方法、设备及***
CN117573943A (zh) * 2024-01-11 2024-02-20 云筑信息科技(成都)有限公司 一种基于序列化相似度计算的数据对比方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751416A (zh) * 2008-11-28 2010-06-23 中国科学院计算技术研究所 一种对字符串排序和查找的方法
CN103399907A (zh) * 2013-07-31 2013-11-20 深圳市华傲数据技术有限公司 一种基于编辑距离计算中文字符串相似度的方法及装置
CN104636319A (zh) * 2013-11-11 2015-05-20 腾讯科技(北京)有限公司 一种文本去重方法和装置
CN104679769A (zh) * 2013-11-29 2015-06-03 国际商业机器公司 对产品的使用场景进行分类的方法及装置
CN105183732A (zh) * 2014-06-04 2015-12-23 广州市动景计算机科技有限公司 网页的处理方法及装置
CN105516940A (zh) * 2014-09-22 2016-04-20 中兴通讯股份有限公司 一种短信处理的方法及装置
CN106095898A (zh) * 2016-06-07 2016-11-09 武汉斗鱼网络科技有限公司 一种视频标题管理方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751416A (zh) * 2008-11-28 2010-06-23 中国科学院计算技术研究所 一种对字符串排序和查找的方法
CN103399907A (zh) * 2013-07-31 2013-11-20 深圳市华傲数据技术有限公司 一种基于编辑距离计算中文字符串相似度的方法及装置
CN104636319A (zh) * 2013-11-11 2015-05-20 腾讯科技(北京)有限公司 一种文本去重方法和装置
CN104679769A (zh) * 2013-11-29 2015-06-03 国际商业机器公司 对产品的使用场景进行分类的方法及装置
CN105183732A (zh) * 2014-06-04 2015-12-23 广州市动景计算机科技有限公司 网页的处理方法及装置
CN105516940A (zh) * 2014-09-22 2016-04-20 中兴通讯股份有限公司 一种短信处理的方法及装置
CN106095898A (zh) * 2016-06-07 2016-11-09 武汉斗鱼网络科技有限公司 一种视频标题管理方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
姜华 等: "基于改进编辑距离的字符串相似度求解算法", 《计算机工程》 *
希望图书创作室编译: "《PHP4.0程序员参考》", 31 August 2000, 北京希望电⼦出版社 *
张子卿: "智慧商圈中个性化推荐***的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
邵清 等: "基于编辑距离和相似度改进的汉字字符串匹配", 《电子科技》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090982A (zh) * 2018-10-24 2020-05-01 迈普通信技术股份有限公司 文本比较方法、装置、电子设备及计算机可读存储介质
CN111669451A (zh) * 2019-03-07 2020-09-15 顺丰科技有限公司 私人邮箱判断方法及判断装置
CN111669451B (zh) * 2019-03-07 2022-10-21 顺丰科技有限公司 私人邮箱判断方法及判断装置
CN113723466B (zh) * 2019-05-21 2024-03-08 创新先进技术有限公司 文本相似度量化方法、设备及***
CN113723466A (zh) * 2019-05-21 2021-11-30 创新先进技术有限公司 文本相似度量化方法、设备及***
CN112580342A (zh) * 2019-09-30 2021-03-30 深圳无域科技技术有限公司 公司名称比对的方法、装置、计算机设备和存储介质
CN111522574A (zh) * 2020-03-04 2020-08-11 平安科技(深圳)有限公司 差分包生成方法及相关设备
CN111522574B (zh) * 2020-03-04 2024-05-03 平安科技(深圳)有限公司 差分包生成方法及相关设备
CN111914771A (zh) * 2020-08-06 2020-11-10 长沙公信诚丰信息技术服务有限公司 一种证照信息自动比对方法、装置、计算机设备及存储介质
CN112199937B (zh) * 2020-11-12 2024-01-23 深圳供电局有限公司 一种短文本相似度分析方法及其***、计算机设备、介质
CN112199937A (zh) * 2020-11-12 2021-01-08 深圳供电局有限公司 一种短文本相似度分析方法及其***、计算机设备、介质
CN113268972A (zh) * 2021-05-14 2021-08-17 东莞理工学院城市学院 两英语单词外观相似度的智能计算方法、***、设备和介质
CN117573943A (zh) * 2024-01-11 2024-02-20 云筑信息科技(成都)有限公司 一种基于序列化相似度计算的数据对比方法
CN117573943B (zh) * 2024-01-11 2024-05-28 云筑信息科技(成都)有限公司 一种基于序列化相似度计算的数据对比方法

Similar Documents

Publication Publication Date Title
CN108256587A (zh) 一种字符串相似度的确定方法、装置、计算机及存储介质
WO2020259533A1 (zh) 网关配置更新方法、装置和电子设备
US10318484B2 (en) Scan optimization using bloom filter synopsis
US7689630B1 (en) Two-level bitmap structure for bit compression and data management
CN111339382B (zh) 字符串数据检索方法、装置、计算机设备及存储介质
CN109697451B (zh) 相似图像聚类方法及装置、存储介质、电子设备
CN104283567A (zh) 一种名称数据的压缩、解压缩方法及设备
US20100253556A1 (en) Method of constructing an approximated dynamic huffman table for use in data compression
US8316041B1 (en) Generation and processing of numerical identifiers
CN109684290B (zh) 日志存储方法、装置、设备及计算机可读存储介质
CN112800008A (zh) 日志消息的压缩、搜索和解压缩
CN106547644A (zh) 增量备份方法和设备
CN115630343B (zh) 一种电子文档信息的处理方法、装置及设备
CN112199344B (zh) 一种日志分类的方法和装置
CN102203734B (zh) 条件处理方法和设备
CN113992625B (zh) 域名源站探测方法、***、计算机及可读存储介质
EP3387647A1 (en) Reduction of audio data and data stored on a block processing storage system
CN107526619B (zh) 版式数据流文件的加载方法
CN110019193B (zh) 相似帐号识别方法、装置、设备、***及可读介质
CN113051894A (zh) 一种文本纠错的方法和装置
CN112287657A (zh) 基于文本相似度的信息匹配***
CN116383819A (zh) 一种Android恶意软件家族分类方法
CN109815475B (zh) 文本匹配方法、装置、计算设备及***
CN114860872A (zh) 数据处理方法、装置、设备以及存储介质
CN104765790B (zh) 一种数据查询的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180706