CN106650803A - 一种计算字符串间相似度的方法及装置 - Google Patents

一种计算字符串间相似度的方法及装置 Download PDF

Info

Publication number
CN106650803A
CN106650803A CN201611130125.1A CN201611130125A CN106650803A CN 106650803 A CN106650803 A CN 106650803A CN 201611130125 A CN201611130125 A CN 201611130125A CN 106650803 A CN106650803 A CN 106650803A
Authority
CN
China
Prior art keywords
weight
character string
vocabulary
sequence
core
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611130125.1A
Other languages
English (en)
Other versions
CN106650803B (zh
Inventor
韦强申
刘鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201611130125.1A priority Critical patent/CN106650803B/zh
Publication of CN106650803A publication Critical patent/CN106650803A/zh
Application granted granted Critical
Publication of CN106650803B publication Critical patent/CN106650803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种计算字符串间相似度的方法及装置。该方法包括:获取至少两个字符串的核心词汇的权重;获取所述至少两个字符串的最大公共序列,并根据所述最大公共序列的长度和词汇确定所述最大公共序列的权重;根据预设常用词汇的权重表获取所述至少两个字符串中的常用词汇的权重;根据所述核心词汇的权重、所述最大公共序列的权重和所述常用词汇的权重获取所述至少两个字符串的相似度。本发明加入了句子结构的分析,还加入了词汇权重信息,作为字符串相似度计算的调和值,由于分词工具的准确率,分词结果会产生一些误差,句子结构分析也会有一定的误差,经过词频权重调和后,计算结果更加准确。

Description

一种计算字符串间相似度的方法及装置
技术领域
本发明实施例涉及计算机的技术领域,尤其涉及一种计算字符串间相似度的方法及装置。
背景技术
对于中文字符串相似度的计算方法,一般采用英文的字符串相似度计算方法,就是计算两个字符串中相同字符的个数。采用的方法有:Levenshtein方法即编辑距离计算方法、Jaccard系数计算方法、余弦相似度计算方法、以及Ngram计算方法。
编辑距离计算方法,是计算两个字符串之间通过将一个字符替换成另一个字符,***一个字符,删除一个字符的编辑操作,所需最小的编辑次数,衡量两个字符串的相似度。编辑距离计算方法的缺点是:不同的语法表示形式,对编辑距离的计算影响较大,计算两个字符串相似度误差较大。
Jaccard系数计算方法,是首先对两个字符串依据一定的规则拆分为多个子串,计算多个子串的交集与并集的比值,衡量两个字符串的相似度。Jaccard系数计算方法的缺点是:因字符串的切分方法不同,计算字符串的相似度误差较大。
余弦相似度计算方法,首先对两个字符串依据一定的规则拆分为多个子串,形成一个子串集合,再依据子串集合将两个句子转化为向量,计算两个向量间的余弦值,衡量两个字符串的相似度。余弦相似度计算方法的缺点是:因字符串的切分方法不同,计算字符串的相似度误差较大。
Ngram计算方法,是将两个字符串拆分为N元组,计算两个字符串中相同的N元组,衡量两个字符串的相似度。Ngram计算方法的缺点是:元组的先后顺序会影响相似度的计算,计算字符串相似度误差较大。
发明内容
本发明实施例的目的在于提出一种计算字符串间相似度的方法及装置,旨在解决如何提高中文字符串相似度计算的准确率。
为达此目的,本发明实施例采用以下技术方案:
第一方面,一种计算字符串间相似度的方法,所述方法包括:
获取至少两个字符串的核心词汇的权重;
获取所述至少两个字符串的最大公共序列,并根据所述最大公共序列的长度和词汇确定所述最大公共序列的权重;
根据预设常用词汇的权重表获取所述至少两个字符串中的常用词汇的权重;
根据所述核心词汇的权重、所述最大公共序列的权重和所述常用词汇的权重获取所述至少两个字符串的相似度。
优选地,所述获取至少两个字符串的核心词汇的权重,包括:
根据分词结果的词性以及词汇间的语义关系,获取至少两个字符串的词汇序列中的核心词汇,所述核心词汇包括主语人名、机构名、名词宾语、动词和地名;
根据预设核心词汇权重表获取所述核心词汇的权重。
优选地,所述获取所述至少两个字符串的最大公共序列,包括:
获取所述至少两个字符串的分词结果序列,去除所述分词结果序列中的标点符号,合并所述分词结果序列中相同的子序列,得到所述至少两个字符串的最大公共序列。
优选地,所述根据预设常用词汇的权重表获取所述至少两个字符串中的常用词汇的权重,包括:
根据常用词汇TF-IDF权重表获取所述至少两个字符串中的常用词汇的权重。
优选地,所述根据所述核心词汇的权重、所述最大公共序列的权重和所述常用词汇的权重获取所述至少两个字符串的相似度,包括:
所述至少两个字符串的相似度为
其中,所述w1为所述核心词汇权重,所述w2为所述最大公共序列的权重,所述w3为常用词汇的权重,所述L为所述至少两个字符串的最大长度。
第二方面,一种计算字符串间相似度的装置,所述装置包括:
第一获取模块,用于获取至少两个字符串的核心词汇的权重;
第二获取模块,用于获取所述至少两个字符串的最大公共序列,并根据所述最大公共序列的长度和词汇确定所述最大公共序列的权重;
第三获取模块,用于根据预设常用词汇的权重表获取所述至少两个字符串中的常用词汇的权重;
第四获取模块,用于根据所述核心词汇的权重、所述最大公共序列的权重和所述常用词汇的权重获取所述至少两个字符串的相似度。
优选地,所述第一获取模块,具体用于:
根据分词结果的词性以及词汇间的语义关系,获取至少两个字符串的词汇序列中的核心词汇,所述核心词汇包括主语人名、机构名、名词宾语、动词和地名;
根据预设核心词汇权重表获取所述核心词汇的权重。
优选地,所述第二获取模块,具体用于:
获取所述至少两个字符串的分词结果序列,去除所述分词结果序列中的标点符号,合并所述分词结果序列中相同的子序列,得到所述至少两个字符串的最大公共序列。
优选地,所述第三获取模块,具体用于:
根据常用词汇TF-IDF权重表获取所述至少两个字符串中的常用词汇的权重。
优选地,所述第四获取模块,具体用于:
所述至少两个字符串的相似度为
其中,所述w1为所述核心词汇权重,所述w2为所述最大公共序列的权重,所述w3为常用词汇的权重,所述L为所述至少两个字符串的最大长度。
本发明实施例提供的一种计算字符串间相似度的方法及装置,获取至少两个字符串的核心词汇的权重;获取所述至少两个字符串的最大公共序列,并根据所述最大公共序列的长度和词汇确定所述最大公共序列的权重;根据预设常用词汇的权重表获取所述至少两个字符串中的常用词汇的权重;根据所述核心词汇的权重、所述最大公共序列的权重和所述常用词汇的权重获取所述至少两个字符串的相似度。本发明加入了句子结构的分析,可以提高字符串相似度计算的准确度;另外,本发明还加入了词汇权重信息,作为字符串相似度计算的调和值,由于分词工具的准确率,分词结果会产生一些误差,句子结构分析也会有一定的误差,经过词频权重调和后,计算结果更加准确。
附图说明
图1是本发明实施例提供的一种计算字符串间相似度的方法的流程示意图;
图2是本发明实施例提供的一种分词结果的示意图;
图3是本发明实施例提供的一种计算字符串间相似度的装置的功能模块示意图。
具体实施方式
下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明实施例的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。
参考图1,图1是本发明实施例提供的一种计算字符串间相似度的方法的流程示意图。
如图1所示,所述计算字符串间相似度的方法包括:
步骤101,获取至少两个字符串的核心词汇的权重;
优选地,所述获取至少两个字符串的核心词汇的权重,包括:
根据分词结果的词性以及词汇间的语义关系,获取至少两个字符串的词汇序列中的核心词汇,所述核心词汇包括主语人名、机构名、名词宾语、动词和地名;
根据预设核心词汇权重表获取所述核心词汇的权重。
具体的,输入中文字符串s1,s2依据分词工具实现字符串分词,词性分词以及依存语法分析。得到如图2所示分词结果。分析分词结果中人名、地名、机构名等信息。依据词汇的词性以及不同词性权重信息表对词汇赋值。
步骤102,获取所述至少两个字符串的最大公共序列,并根据所述最大公共序列的长度和词汇确定所述最大公共序列的权重;
优选地,所述获取所述至少两个字符串的最大公共序列,包括:
获取所述至少两个字符串的分词结果序列,去除所述分词结果序列中的标点符号,合并所述分词结果序列中相同的子序列,得到所述至少两个字符串的最大公共序列。
具体的,两个中文字符串的最大公共子串越长,说明两个字符串越相似。依据分词结果序列,去除结果中的标点符号,词汇拼接得到最大公共子串。
步骤103,根据预设常用词汇的权重表获取所述至少两个字符串中的常用词汇的权重;
优选地,所述根据预设常用词汇的权重表获取所述至少两个字符串中的常用词汇的权重,包括:
根据常用词汇TF-IDF权重表获取所述至少两个字符串中的常用词汇的权重。
具体的,常用词汇TF-IDF(term frequency–inverse document frequency)权重表。不同词汇对字符串相似度有不同的影响,常用的词汇例如,“的”,“年、月、日”,“现在”等。依据词汇TF-IDF权重信息表,可以给不同的词汇赋予不同的权重值。
步骤104,根据所述核心词汇的权重、所述最大公共序列的权重和所述常用词汇的权重获取所述至少两个字符串的相似度。
优选地,所述根据所述核心词汇的权重、所述最大公共序列的权重和所述常用词汇的权重获取所述至少两个字符串的相似度,包括:
所述至少两个字符串的相似度为
其中,所述w1为所述核心词汇权重,所述w2为所述最大公共序列的权重,所述w3为常用词汇的权重,所述L为所述至少两个字符串的最大长度。
本发明实施例提供的一种计算字符串间相似度的方法,获取至少两个字符串的核心词汇的权重;获取所述至少两个字符串的最大公共序列,并根据所述最大公共序列的长度和词汇确定所述最大公共序列的权重;根据预设常用词汇的权重表获取所述至少两个字符串中的常用词汇的权重;根据所述核心词汇的权重、所述最大公共序列的权重和所述常用词汇的权重获取所述至少两个字符串的相似度。本发明加入了句子结构的分析,可以提高字符串相似度计算的准确度;另外,本发明还加入了词汇权重信息,作为字符串相似度计算的调和值,由于分词工具的准确率,分词结果会产生一些误差,句子结构分析也会有一定的误差,经过词频权重调和后,计算结果更加准确。
参考图3,图3是本发明实施例提供的一种计算字符串间相似度的装置的功能模块示意图。
如图3所示,所述装置包括:
第一获取模块301,用于获取至少两个字符串的核心词汇的权重;
优选地,所述第一获取模块301,具体用于:
根据分词结果的词性以及词汇间的语义关系,获取至少两个字符串的词汇序列中的核心词汇,所述核心词汇包括主语人名、机构名、名词宾语、动词和地名;
根据预设核心词汇权重表获取所述核心词汇的权重。
第二获取模块302,用于获取所述至少两个字符串的最大公共序列,并根据所述最大公共序列的长度和词汇确定所述最大公共序列的权重;
优选地,所述第二获取模块302,具体用于:
获取所述至少两个字符串的分词结果序列,去除所述分词结果序列中的标点符号,合并所述分词结果序列中相同的子序列,得到所述至少两个字符串的最大公共序列。
第三获取模块303,用于根据预设常用词汇的权重表获取所述至少两个字符串中的常用词汇的权重;
优选地,所述第三获取模块303,具体用于:
根据常用词汇TF-IDF权重表获取所述至少两个字符串中的常用词汇的权重。
第四获取模块304,用于根据所述核心词汇的权重、所述最大公共序列的权重和所述常用词汇的权重获取所述至少两个字符串的相似度。
优选地,所述第四获取模块304,具体用于:
所述至少两个字符串的相似度为
其中,所述w1为所述核心词汇权重,所述w2为所述最大公共序列的权重,所述w3为常用词汇的权重,所述L为所述至少两个字符串的最大长度。
本发明实施例提供的一种计算字符串间相似度的装置,获取至少两个字符串的核心词汇的权重;获取所述至少两个字符串的最大公共序列,并根据所述最大公共序列的长度和词汇确定所述最大公共序列的权重;根据预设常用词汇的权重表获取所述至少两个字符串中的常用词汇的权重;根据所述核心词汇的权重、所述最大公共序列的权重和所述常用词汇的权重获取所述至少两个字符串的相似度。本发明加入了句子结构的分析,可以提高字符串相似度计算的准确度;另外,本发明还加入了词汇权重信息,作为字符串相似度计算的调和值,由于分词工具的准确率,分词结果会产生一些误差,句子结构分析也会有一定的误差,经过词频权重调和后,计算结果更加准确。
以上结合具体实施例描述了本发明实施例的技术原理。这些描述只是为了解释本发明实施例的原理,而不能以任何方式解释为对本发明实施例保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明实施例的其它具体实施方式,这些方式都将落入本发明实施例的保护范围之内。

Claims (10)

1.一种计算字符串间相似度的方法,其特征在于,所述方法包括:
获取至少两个字符串的核心词汇的权重;
获取所述至少两个字符串的最大公共序列,并根据所述最大公共序列的长度和词汇确定所述最大公共序列的权重;
根据预设常用词汇的权重表获取所述至少两个字符串中的常用词汇的权重;
根据所述核心词汇的权重、所述最大公共序列的权重和所述常用词汇的权重获取所述至少两个字符串的相似度。
2.根据权利要求1所述的方法,其特征在于,所述获取至少两个字符串的核心词汇的权重,包括:
根据分词结果的词性以及词汇间的语义关系,获取至少两个字符串的词汇序列中的核心词汇,所述核心词汇包括主语人名、机构名、名词宾语、动词和地名;
根据预设核心词汇权重表获取所述核心词汇的权重。
3.根据权利要求1所述的方法,其特征在于,所述获取所述至少两个字符串的最大公共序列,包括:
获取所述至少两个字符串的分词结果序列,去除所述分词结果序列中的标点符号,合并所述分词结果序列中相同的子序列,得到所述至少两个字符串的最大公共序列。
4.根据权利要求1所述的方法,其特征在于,所述根据预设常用词汇的权重表获取所述至少两个字符串中的常用词汇的权重,包括:
根据常用词汇TF-IDF权重表获取所述至少两个字符串中的常用词汇的权重。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述根据所述核心词汇的权重、所述最大公共序列的权重和所述常用词汇的权重获取所述至少两个字符串的相似度,包括:
所述至少两个字符串的相似度为
其中,所述w1为所述核心词汇权重,所述w2为所述最大公共序列的权重,所述w3为常用词汇的权重,所述L为所述至少两个字符串的最大长度。
6.一种计算字符串间相似度的装置,其特征在于,所述装置包括:
第一获取模块,用于获取至少两个字符串的核心词汇的权重;
第二获取模块,用于获取所述至少两个字符串的最大公共序列,并根据所述最大公共序列的长度和词汇确定所述最大公共序列的权重;
第三获取模块,用于根据预设常用词汇的权重表获取所述至少两个字符串中的常用词汇的权重;
第四获取模块,用于根据所述核心词汇的权重、所述最大公共序列的权重和所述常用词汇的权重获取所述至少两个字符串的相似度。
7.根据权利要求6所述的装置,其特征在于,所述第一获取模块,具体用于:
根据分词结果的词性以及词汇间的语义关系,获取至少两个字符串的词汇序列中的核心词汇,所述核心词汇包括主语人名、机构名、名词宾语、动词和地名;
根据预设核心词汇权重表获取所述核心词汇的权重。
8.根据权利要求6所述的装置,其特征在于,所述第二获取模块,具体用于:
获取所述至少两个字符串的分词结果序列,去除所述分词结果序列中的标点符号,合并所述分词结果序列中相同的子序列,得到所述至少两个字符串的最大公共序列。
9.根据权利要求6所述的装置,其特征在于,所述第三获取模块,具体用于:
根据常用词汇TF-IDF权重表获取所述至少两个字符串中的常用词汇的权重。
10.根据权利要求6至9任意一项所述的装置,其特征在于,所述第四获取模块,具体用于:
所述至少两个字符串的相似度为
其中,所述w1为所述核心词汇权重,所述w2为所述最大公共序列的权重,所述w3为常用词汇的权重,所述L为所述至少两个字符串的最大长度。
CN201611130125.1A 2016-12-09 2016-12-09 一种计算字符串间相似度的方法及装置 Active CN106650803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611130125.1A CN106650803B (zh) 2016-12-09 2016-12-09 一种计算字符串间相似度的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611130125.1A CN106650803B (zh) 2016-12-09 2016-12-09 一种计算字符串间相似度的方法及装置

Publications (2)

Publication Number Publication Date
CN106650803A true CN106650803A (zh) 2017-05-10
CN106650803B CN106650803B (zh) 2019-06-18

Family

ID=58824810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611130125.1A Active CN106650803B (zh) 2016-12-09 2016-12-09 一种计算字符串间相似度的方法及装置

Country Status (1)

Country Link
CN (1) CN106650803B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273359A (zh) * 2017-06-20 2017-10-20 北京四海心通科技有限公司 一种文本相似度确定方法
CN108681535A (zh) * 2018-04-11 2018-10-19 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN109165326A (zh) * 2018-08-16 2019-01-08 蜜小蜂智慧(北京)科技有限公司 一种字符串匹配方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826099A (zh) * 2010-02-04 2010-09-08 蓝盾信息安全技术股份有限公司 一种相似文档识别、文档扩散度确定的方法及***
CN102955857A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种搜索引擎中基于类中心压缩变换的文本聚类方法
CN102982291A (zh) * 2012-11-05 2013-03-20 北京奇虎科技有限公司 可信文件数字签名的获取方法及装置
CN102184169B (zh) * 2011-04-20 2013-06-19 北京百度网讯科技有限公司 用于确定字符串信息间相似度信息的方法、装置和设备
CN103207905A (zh) * 2013-03-28 2013-07-17 大连理工大学 一种基于目标文本的计算文本相似度的方法
CN104008166A (zh) * 2014-05-30 2014-08-27 华东师范大学 一种基于形态和语义相似度的对话短文本聚类方法
CN104778171A (zh) * 2014-01-10 2015-07-15 携程计算机技术(上海)有限公司 字符串匹配***及方法
CN105512480A (zh) * 2015-12-04 2016-04-20 上海交通大学 基于编辑距离的可穿戴设备数据优化处理方法
CN106033416A (zh) * 2015-03-09 2016-10-19 阿里巴巴集团控股有限公司 一种字符串处理方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826099A (zh) * 2010-02-04 2010-09-08 蓝盾信息安全技术股份有限公司 一种相似文档识别、文档扩散度确定的方法及***
CN102184169B (zh) * 2011-04-20 2013-06-19 北京百度网讯科技有限公司 用于确定字符串信息间相似度信息的方法、装置和设备
CN102982291A (zh) * 2012-11-05 2013-03-20 北京奇虎科技有限公司 可信文件数字签名的获取方法及装置
CN102955857A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种搜索引擎中基于类中心压缩变换的文本聚类方法
CN103207905A (zh) * 2013-03-28 2013-07-17 大连理工大学 一种基于目标文本的计算文本相似度的方法
CN104778171A (zh) * 2014-01-10 2015-07-15 携程计算机技术(上海)有限公司 字符串匹配***及方法
CN104008166A (zh) * 2014-05-30 2014-08-27 华东师范大学 一种基于形态和语义相似度的对话短文本聚类方法
CN106033416A (zh) * 2015-03-09 2016-10-19 阿里巴巴集团控股有限公司 一种字符串处理方法及装置
CN105512480A (zh) * 2015-12-04 2016-04-20 上海交通大学 基于编辑距离的可穿戴设备数据优化处理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273359A (zh) * 2017-06-20 2017-10-20 北京四海心通科技有限公司 一种文本相似度确定方法
CN108681535A (zh) * 2018-04-11 2018-10-19 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN109165326A (zh) * 2018-08-16 2019-01-08 蜜小蜂智慧(北京)科技有限公司 一种字符串匹配方法及装置

Also Published As

Publication number Publication date
CN106650803B (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和***
US9183274B1 (en) System, methods, and data structure for representing object and properties associations
Mori et al. A machine learning approach to recipe text processing
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及***
CN106844331A (zh) 一种句子相似度计算方法和***
Saloot et al. An architecture for Malay Tweet normalization
CN110502642A (zh) 一种基于依存句法分析与规则的实体关系抽取方法
Zhang et al. Rule-based extraction of spatial relations in natural language text
CN108959630A (zh) 一种面向英文无结构文本的人物属性抽取方法
JP2014052863A (ja) 情報処理装置、情報処理システム、情報処理方法
CN109213998A (zh) 中文错字检测方法及***
CN106650803A (zh) 一种计算字符串间相似度的方法及装置
CN102214238A (zh) 一种汉语词语相近性匹配装置及方法
CN111626042A (zh) 指代消解方法及装置
WO2014002774A1 (ja) 同義語抽出システム、方法および記録媒体
Yilahun et al. Entity extraction based on the combination of information entropy and TF-IDF
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
Chen et al. A simple and effective unsupervised word segmentation approach
Sun et al. Syntactic parsing of web queries
Ibrahim et al. Bel-Arabi: advanced Arabic grammar analyzer
Jamro Sindhi language processing: A survey
Khoufi et al. Statistical-based system for morphological annotation of Arabic texts
Hellwig Morphological disambiguation of classical Sanskrit
Abiderexiti et al. Annotation schemes for constructing Uyghur named entity relation corpus
Elsheikh Timeline of the development of Arabic PoS taggers and Morphological analysers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method and device for calculating similarity between strings

Effective date of registration: 20220105

Granted publication date: 20190618

Pledgee: China Co. truction Bank Corp Beijing Zhongguancun branch

Pledgor: RUN TECHNOLOGIES Co.,Ltd. BEIJING

Registration number: Y2022990000005

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20220712

Granted publication date: 20190618

Pledgee: China Co. truction Bank Corp Beijing Zhongguancun branch

Pledgor: RUN TECHNOLOGIES Co.,Ltd. BEIJING

Registration number: Y2022990000005

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method and device for calculating similarity between character strings

Effective date of registration: 20220907

Granted publication date: 20190618

Pledgee: China Co. truction Bank Corp Beijing Zhongguancun branch

Pledgor: RUN TECHNOLOGIES Co.,Ltd. BEIJING

Registration number: Y2022110000206

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20190618

Pledgee: China Co. truction Bank Corp Beijing Zhongguancun branch

Pledgor: RUN TECHNOLOGIES Co.,Ltd. BEIJING

Registration number: Y2022110000206