CN104778171A - 字符串匹配***及方法 - Google Patents

字符串匹配***及方法 Download PDF

Info

Publication number
CN104778171A
CN104778171A CN201410011078.3A CN201410011078A CN104778171A CN 104778171 A CN104778171 A CN 104778171A CN 201410011078 A CN201410011078 A CN 201410011078A CN 104778171 A CN104778171 A CN 104778171A
Authority
CN
China
Prior art keywords
character strings
module
phrase
character
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410011078.3A
Other languages
English (en)
Inventor
叶亚明
王威振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Ctrip Business Co Ltd
Original Assignee
Ctrip Computer Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Computer Technology Shanghai Co Ltd filed Critical Ctrip Computer Technology Shanghai Co Ltd
Priority to CN201410011078.3A priority Critical patent/CN104778171A/zh
Publication of CN104778171A publication Critical patent/CN104778171A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种字符串匹配***及方法,字符串匹配***存储有若干关键维度和若干非关键维度,每一关键维度和非关键维度均对应有权重值,字符串匹配***包括输入模块、分词模块、标注模块、比较模块、计算模块和输出模块;输入模块用于接收两个字符串的输入;分词模块用于将两个字符串分词为词组;标注模块用于标注每一词组对应的关键维度或非关键维度;比较模块用于比较两个字符串中的词组,若任一关键维度上的两个词组不相同则调用输出模块输出一字符串不匹配信息,否则调用计算模块用于通过公式计算两个字符串之间的匹配度,并调用输出模块输出匹配度。本发明能够快速灵活、准确的计算出字符串之间的匹配度。

Description

字符串匹配***及方法
技术领域
本发明涉及一种字符串匹配***及字符串匹配方法。
背景技术
由于自然语言灵活多变的特性和命名风格的不同,对于同一个事物会有不同的描述方式,在计算机看来,就是两个不同的字符串。如何快速的判断出两个字符串描述的是否是同一个事物,也就成为了一个具有现实意义的技术问题。
现有的字符串关联度计算方法要么比较机械的计算字符串之间的联系,要么陷入语义分析的繁杂的计算中,无法快速灵活、准确的计算出字符串之间的相似度。
发明内容
本发明要解决的技术问题是为了克服现有技术中无法快速灵活、准确的计算出字符串之间的相似度的缺陷,提供一种能够快速灵活、准确的计算出字符串之间的相似度的字符串匹配***及方法。
本发明是通过下述技术方案来解决上述技术问题的:
本发明提供一种字符串匹配***,其特点在于,其存储有若干关键维度和若干非关键维度,每一关键维度和非关键维度均对应有权重值,该字符串匹配***包括一输入模块、一分词模块、一标注模块、一比较模块、一计算模块和一输出模块;
该输入模块用于接收两个字符串的输入;
该分词模块用于将该两个字符串分词为词组;
该标注模块用于标注每一词组对应的关键维度或非关键维度;
该比较模块用于比较该两个字符串中的词组,若任一关键维度上的两个词组不相同则调用该输出模块输出一字符串不匹配信息,否则(具体指任一关键维度上的两个词组均相同或所有匹配上的关键维度上的两个词组相同但某一字符串缺少某一或某些关键维度上的词组)调用该计算模块,其中,“两个词组相同”指的是两个词组所表达的意思相同,而并不局限于两个词组所包含的所有字符严格一致;同样地,“两个词组不相同”指的是两个词组所表达的意思不相同;
该计算模块用于通过公式计算该两个字符串之间的匹配度,并调用该输出模块输出该匹配度;其中P表示该两个字符串之间的匹配度,n表示该两个字符串中词组相同的个数,ai为该两个字符串中第i个相同的词组对应的权重值的两倍,B为该两个字符串中每一词组对应的权重值的累加之和。
较佳地,该字符串匹配***还包括一处理模块,该处理模块用于去除该两个字符串中的停止词、纠正该两个字符串中的错别字以及将该两个字符串中的拼音更换为汉字。
较佳地,该字符串匹配***存储一包含多个词语的词库,该分词模块包括一划分模块和一匹配模块;
该划分模块用于对该两个字符串进行划分;
该匹配模块用于将划分出的词语与该词库中的所有词语进行匹配,若匹配成功则将该划分出的词语作为该词组。
较佳地,该些关键维度和非关键维度按照领域自定义设置。
本发明还提供一种字符串匹配方法,其特点在于,其存储有若干关键维度和若干非关键维度,每一关键维度和非关键维度均对应有权重值,该字符串匹配方法包括以下步骤:
S1、接收两个字符串的输入;
S2、将该两个字符串分词为词组;
S3、标注每一词组对应的关键维度或非关键维度;
S4、比较该两个字符串中的词组,若任一关键维度上的两个词组不相同则进入步骤S5,否则进入步骤S6
S5、输出一字符串不匹配信息,结束流程;
S6、通过公式计算该两个字符串之间的匹配度,并输出该匹配度,结束流程;其中n表示该两个字符串中词组相同的个数,ai为该两个字符串中第i个相同的词组对应的权重值的两倍,B为该两个字符串中每一词组对应的权重值的累加和。
较佳地,步骤S1和步骤S2之间包括以下步骤:
去除该两个字符串中的停止词、纠正该两个字符串中的错别字以及将该两个字符串中的拼音更换为汉字。
较佳地,该字符串匹配方法存储一包含多个词语的词库,步骤S2包括以下步骤:
S21、对该两个字符串进行划分;
S22、将划分出的词语与该词库中的所有词语进行匹配,若匹配成功则将该划分出的词语作为该词组。
较佳地,该些关键维度和非关键维度按照领域自定义设置。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:
本发明提供一种字符串匹配***及方法,通过对划分出的每一词组进行标注,通过比较关键维度上的词组,并采用“不同否定”优先方式在任一关键维度上的两个词组不相同时输出字符串不匹配信息,否则具体计算出两个字符串之间的匹配度。本发明能够快速灵活、准确的计算出两个字符串之间的匹配度。
附图说明
图1为本发明较佳实施例的字符串匹配***的结构框图。
图2为本发明较佳实施例的字符串匹配方法的流程图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
如图1所示,本实施例提供一种字符串匹配***,其存储有若干关键维度和若干非关键维度,该些关键维度和非关键维度可按照领域自定义设置,每一关键维度和非关键维度均对应有权重值,该字符串匹配***包括一输入模块1、一处理模块2、一分词模块3、一标注模块4、一比较模块5、一计算模块6和一输出模块7。
上述介绍了该字符串匹配***包括的部件,下面具体介绍每一部件实现的功能:
该输入模块1用于接收两个字符串的输入;
该处理模块2用于去除该两个字符串中的停止词、纠正该两个字符串中的错别字以及将该两个字符串中的拼音更换为汉字;
该分词模块3用于将该两个字符串分词为词组;
该标注模块4用于标注每一词组对应的关键维度或非关键维度;
该比较模块5用于比较该两个字符串中的词组,若任一关键维度上的两个词组不相同则调用该输出模块7输出一字符串不匹配信息,否则调用该计算模块6;
该计算模块6用于通过公式计算该两个字符串之间的匹配度,并调用该输出模块7输出该匹配度;其中P表示两个字符串之间的匹配度,n表示该两个字符串中词组相同的个数,ai为该两个字符串中第i个相同的词组对应的权重值的两倍,B为该两个字符串中每一词组对应的权重值的累加和。
其中,进一步地该分词模块3包括一划分模块31和一匹配模块32,该字符串匹配***存储一包含多个词语的词库,该划分模块31用于对该两个字符串进行划分,该匹配模块32用于将划分出的词语与该词库中的所有词语进行匹配,若匹配成功则将该划分出的词语作为该词组。
如图2所示,本实施例还提供了一种字符串匹配方法,其存储有若干关键维度和若干非关键维度,每一关键维度和非关键维度均对应有权重值,该字符串匹配方法包括以下步骤:
步骤101、接收两个字符串的输入;
步骤102、去除该两个字符串中的停止词、纠正该两个字符串中的错别字以及将该两个字符串中的拼音更换为汉字;
步骤103、将该两个字符串分词为词组,进一步地,该步骤包括下面两个步骤:对该两个字符串进行划分;将划分出的词语与该词库中的所有词语进行匹配,若匹配成功则将该划分出的词语作为该词组;
步骤104、标注每一词组对应的关键维度或非关键维度;
步骤105、比较该两个字符串中的词组,若任一关键维度上的两个词组不相同则进入步骤106,否则进入步骤107;
步骤106、输出一字符串不匹配信息,结束流程;
步骤107、通过公式计算该两个字符串之间的匹配度,并输出该匹配度,结束流程;其中n表示该两个字符串中词组相同的个数,ai为该两个字符串中第i个相同的词组对应的权重值的两倍,B为该两个字符串中每一词组对应的权重值的累加和。
下面举一具体的例子即以输入的两个酒店名称之间的匹配度来进行说明字符串匹配***及方法,以使得本领域技术人员更好地理解本发明,但本发明并不局限于只能应用于计算酒店名称之间的匹配度,本发明可应用于计算各领域中两个字符串之间的匹配度。
不同的领域、不同的应用场景所设定的维度不同,其中抽取的关键维度也不同。在本例中,对于酒店领域来说,其可能有的维度有“城市”、“酒店品牌”、“子品牌”、“酒店名称描述词”、“区域”以及“无意义词”等,其中的关键维度为“城市”、“酒店品牌”、“子品牌”和“区域”,非关键维度为“酒店名称描述词”和“无意义词”。在关键维度中,“城市”对应的权重值为5,“区域”对应的权重值为5,“酒店品牌”对应的权重值为10,“子品牌”对应的权重值为8。在非关键维度中,“酒店名称描述词”对应的权重值为1,“无意义词”对应的权重值为0。
词库包括通用词库和专用词库,通用词库是不区分行业的最广泛、最普通的词库,为业界通用,包含如行政区域词库、自然语言词库等;专用词库是按照特定行业组织的一系列较小但是更加专业的词库,其数据量远不如通用词库,但是在特定领域上比通用词库具有更高的权威性,其采纳概率更高。在本例的酒店领域中,其采用的是专用词库,通过对专用词库的检索,按照标准的分词算法,可以得到一系列具有语义标签的词组成的集合。
该输入模块1接收两个字符串的输入,第一个字符串为“上海徐家汇的ru家快捷酒店”,第二个字符串为“宜必思徐家汇店中国”。该处理模块2进行常规的处理,去除第一个字符串中的“的”,将第一个字符串中的拼音“ru”更换为汉字“如”。
该划分模块31对这两个字符串进行划分,即将第一个字符串划分为“上海”、“徐家汇”、“如家”和“快捷酒店”,将第二个字符串划分为“宜必思”、“徐家汇”和“中国”,该匹配模块32将划分出的词语“上海”、“徐家汇”、“如家”、“快捷酒店”“宜必思”和“中国”与上述专用词库中的所有词语进行匹配,匹配成功后则将该划分出的词语“上海”、“徐家汇”、“如家”、“快捷酒店”“宜必思”和“中国”作为词组。
该标注模块4标注每一个词组对应的关键维度或非关键维度,即标注第一个字符串中的词组对应的关键维度或非关键维度“上海(城市)”、“徐家汇(区域)”、“如家(酒店品牌)”和“快捷酒店(酒店名称描述词)”,第二个字符串中的词组对应的关键维度或非关键维度“宜必思(酒店品牌)”、“徐家汇(区域)”和“中国(无意义词)”。
该比较模块5比较该两个字符串中的词组,关键维度“区域”上的第一个字符串中的词组“徐家汇”与第二个字符串中的词组“徐家汇”相同,关键维度“酒店品牌”上的第一个字符串中的词组“如家”与第二个字符串中的词组“宜必思”相同(这里的“相同”指的是在酒店领域的品牌方面商业品牌相同,即商业品牌“如家”和“宜必思”为同一个商业品牌),第一个字符串中存在关键维度“城市”上的词组而第二个字符串中缺少关键维度“城市”上的词组,则不进行比较关键维度“城市”上的词组,通过上述比较过程,要么是所有匹配上的关键维度上的两个词组相同要么是第二字符串缺少关键维度“城市”上的词组,进而计算模块6计算该两个字符串之间的匹配度。
计算模块6通过公式计算该两个字符串之间的匹配度的具体过程为:
该两个字符串中词组相同的个数为2个,a1为第一个字符串中的词组“徐家汇”对应的权重值5与第二个字符串中的词组“徐家汇”对应的权重值5之和10,a2为第一个字符串中的词组“如家”对应的权重值10与第二个字符串中的词组“宜必思”对应的权重值10之和20;B为该两个字符串中每一词组对应的权重值的累加和,即第一个字符串中的词组“上海”对应的权重值5加上第一个字符串中的词组“徐家汇”对应的权重值5加上第一个字符串中的词组“如家”对应的权重值10加上第一个字符串中的词组“快捷酒店”对应的权重值1加上第二个字符串中的词组“宜必思”对应的权重值10加上第二个字符串中的词组“徐家汇”对应的权重值5加上第二个字符串中的词组“中国”对应的权重值0。
则该两个字符串之间的匹配度P=(10+20)/(5+5+10+1+10+5+0)=83.33%,并调用该输出模块7输出该匹配度83.33%。
该字符串匹配***每次的匹配结果均被记录下来进行人工审核,人工审核该字符串匹配***的匹配结果是否正确,并将审核结果反馈给该字符串匹配***,该字符串匹配***对反馈的审核结果进行匹配错误个数和类型统计,并将统计结果显示出来。大多数情况下是由于词库中没有一些特殊的词组,使得分词出的词组不正确,进而导致匹配结果也不正确。所以,审核人员可以人工地对词库进行补充及完善,进一步增加该字符串匹配***的匹配结果的准确度,而且如果同一种类型的错误量累计到一定的阈值,或者认为输出的匹配度不合理,则审核人员可以人工地调节权重分配,比如对某一关键维度或非关键维度进行权重的调节。
对于本实施例的酒店名称的匹配,通过人工对大量实际用例的验证,可以看到该字符串匹配***在初始情况下的字符串匹配结果的准确率大约有92%,经过一段时间的人工审核与调节之后,该字符串匹配***的字符串匹配结果的准确率提高到97%左右,而利用普通比较算法(如最短编辑距离算法为核心的文本串比较算法)获得的准确率75%左右,从上述可看出,本发明的匹配结果的准确率远远高于普通比较算法的准确率。
同样,将该字符串匹配***应用至房型名称的匹配,虽然房型名称的字符串长度较短,匹配难度较大,但通过人工对大量实际用例的验证,可以看到该字符串匹配***在初始情况下的字符串匹配结果的准确率大约有88.3%,经过一段时间的人工审核与调节之后,该字符串匹配***的字符串匹配结果的准确率提高到94.4%左右,而利用普通比较算法(如最短编辑距离算法为核心的文本串比较算法)获得的准确率70%左右,从上述同样可看出,本发明的匹配结果的准确率远远高于普通比较算法的准确率。
本实施例通过对划分出的每一词组进行标注,通过比较关键维度上的词组,并采用“不同否定”优先方式在任一关键维度上的两个词组不相同时输出字符串不匹配信息,否则具体计算出两个字符串之间的匹配度。本发明能够快速灵活、准确的计算出两个字符串之间的匹配度。
本发明中的各个功能模块均能够在现有的硬件条件下结合现有的软件编程手段加以实现,故在此对其具体实现方法均不做赘述。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (8)

1.一种字符串匹配***,其特征在于,其存储有若干关键维度和若干非关键维度,每一关键维度和非关键维度均对应有权重值,该字符串匹配***包括一输入模块、一分词模块、一标注模块、一比较模块、一计算模块和一输出模块;
该输入模块用于接收两个字符串的输入;
该分词模块用于将该两个字符串分词为词组;
该标注模块用于标注每一词组对应的关键维度或非关键维度;
该比较模块用于比较该两个字符串中的词组,若任一关键维度上的两个词组不相同则调用该输出模块输出一字符串不匹配信息,否则调用该计算模块;
该计算模块用于通过公式计算该两个字符串之间的匹配度,并调用该输出模块输出该匹配度;其中n表示该两个字符串中词组相同的个数,ai为该两个字符串中第i个相同的词组对应的权重值的两倍,B为该两个字符串中每一词组对应的权重值的累加和。
2.如权利要求1所述的字符串匹配***,其特征在于,该字符串匹配***还包括一处理模块,该处理模块用于去除该两个字符串中的停止词、纠正该两个字符串中的错别字以及将该两个字符串中的拼音更换为汉字。
3.如权利要求1所述的字符串匹配***,其特征在于,该字符串匹配***存储一包含多个词语的词库,该分词模块包括一划分模块和一匹配模块;
该划分模块用于对该两个字符串进行划分;
该匹配模块用于将划分出的词语与该词库中的所有词语进行匹配,若匹配成功则将该划分出的词语作为该词组。
4.如权利要求1-3中任意一项所述的字符串匹配***,其特征在于,该些关键维度和非关键维度按照领域自定义设置。
5.一种字符串匹配方法,其特征在于,其存储有若干关键维度和若干非关键维度,每一关键维度和非关键维度均对应有权重值,该字符串匹配方法包括以下步骤:
S1、接收两个字符串的输入;
S2、将该两个字符串分词为词组;
S3、标注每一词组对应的关键维度或非关键维度;
S4、比较该两个字符串中的词组,若任一关键维度上的两个词组不相同则进入步骤S5,否则进入步骤S6
S5、输出一字符串不匹配信息,结束流程;
S6、通过公式计算该两个字符串之间的匹配度,并输出该匹配度,结束流程;其中n表示该两个字符串中词组相同的个数,ai为该两个字符串中第i个相同的词组对应的权重值的两倍,B为该两个字符串中每一词组对应的权重值的累加和。
6.如权利要求5所述的字符串匹配方法,其特征在于,步骤S1和步骤S2之间包括以下步骤:
去除该两个字符串中的停止词、纠正该两个字符串中的错别字以及将该两个字符串中的拼音更换为汉字。
7.如权利要求5所述的字符串匹配方法,其特征在于,该字符串匹配方法存储一包含多个词语的词库,步骤S2包括以下步骤:
S21、对该两个字符串进行划分;
S22、将划分出的词语与该词库中的所有词语进行匹配,若匹配成功则将该划分出的词语作为该词组。
8.如权利要求5-7中任意一项所述的字符串匹配方法,其特征在于,该些关键维度和非关键维度按照领域自定义设置。
CN201410011078.3A 2014-01-10 2014-01-10 字符串匹配***及方法 Pending CN104778171A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410011078.3A CN104778171A (zh) 2014-01-10 2014-01-10 字符串匹配***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410011078.3A CN104778171A (zh) 2014-01-10 2014-01-10 字符串匹配***及方法

Publications (1)

Publication Number Publication Date
CN104778171A true CN104778171A (zh) 2015-07-15

Family

ID=53619642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410011078.3A Pending CN104778171A (zh) 2014-01-10 2014-01-10 字符串匹配***及方法

Country Status (1)

Country Link
CN (1) CN104778171A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650803A (zh) * 2016-12-09 2017-05-10 北京锐安科技有限公司 一种计算字符串间相似度的方法及装置
CN106815197A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 文本相似度的确定方法和装置
CN108733665A (zh) * 2017-04-13 2018-11-02 艺龙网信息技术(北京)有限公司 基于特征和语义的景点信息匹配方法及装置
CN109165326A (zh) * 2018-08-16 2019-01-08 蜜小蜂智慧(北京)科技有限公司 一种字符串匹配方法及装置
CN111340580A (zh) * 2020-02-05 2020-06-26 深圳市道旅旅游科技股份有限公司 房型的确定方法、装置、计算机设备和存储介质
CN111897958A (zh) * 2020-07-16 2020-11-06 邓桦 基于自然语言处理的古诗词分类方法
CN112052424A (zh) * 2020-10-12 2020-12-08 腾讯科技(深圳)有限公司 一种内容审核方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298618A (zh) * 2011-08-03 2011-12-28 百度在线网络技术(北京)有限公司 一种获取匹配度以执行相应操作的方法、装置及设备
CN102609459A (zh) * 2012-01-12 2012-07-25 神州数码网络(北京)有限公司 基于正则表达式的字符串匹配方法和装置
CN102682120A (zh) * 2012-05-15 2012-09-19 合一网络技术(北京)有限公司 一种网络评论精华文章的获取方法、装置和***
CN102693279A (zh) * 2012-04-28 2012-09-26 合一网络技术(北京)有限公司 一种快速计算评论相似度的方法、装置及***
CN103106264A (zh) * 2013-01-29 2013-05-15 河南理工大学 一种地名匹配方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298618A (zh) * 2011-08-03 2011-12-28 百度在线网络技术(北京)有限公司 一种获取匹配度以执行相应操作的方法、装置及设备
CN102609459A (zh) * 2012-01-12 2012-07-25 神州数码网络(北京)有限公司 基于正则表达式的字符串匹配方法和装置
CN102693279A (zh) * 2012-04-28 2012-09-26 合一网络技术(北京)有限公司 一种快速计算评论相似度的方法、装置及***
CN102682120A (zh) * 2012-05-15 2012-09-19 合一网络技术(北京)有限公司 一种网络评论精华文章的获取方法、装置和***
CN103106264A (zh) * 2013-01-29 2013-05-15 河南理工大学 一种地名匹配方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王洪俊 等: "跨语言相似文档检索", 《中文信息学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815197A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 文本相似度的确定方法和装置
CN106815197B (zh) * 2015-11-27 2020-07-31 北京国双科技有限公司 文本相似度的确定方法和装置
CN106650803A (zh) * 2016-12-09 2017-05-10 北京锐安科技有限公司 一种计算字符串间相似度的方法及装置
CN108733665A (zh) * 2017-04-13 2018-11-02 艺龙网信息技术(北京)有限公司 基于特征和语义的景点信息匹配方法及装置
CN109165326A (zh) * 2018-08-16 2019-01-08 蜜小蜂智慧(北京)科技有限公司 一种字符串匹配方法及装置
CN111340580A (zh) * 2020-02-05 2020-06-26 深圳市道旅旅游科技股份有限公司 房型的确定方法、装置、计算机设备和存储介质
CN111897958A (zh) * 2020-07-16 2020-11-06 邓桦 基于自然语言处理的古诗词分类方法
CN111897958B (zh) * 2020-07-16 2024-03-12 邓桦 基于自然语言处理的古诗词分类方法
CN112052424A (zh) * 2020-10-12 2020-12-08 腾讯科技(深圳)有限公司 一种内容审核方法及装置
CN112052424B (zh) * 2020-10-12 2024-05-28 腾讯科技(深圳)有限公司 一种内容审核方法及装置

Similar Documents

Publication Publication Date Title
CN104778171A (zh) 字符串匹配***及方法
CN109388795B (zh) 一种命名实体识别方法、语言识别方法及***
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
Elhamifar et al. Unsupervised procedure learning via joint dynamic summarization
CN106815197A (zh) 文本相似度的确定方法和装置
WO2019228466A1 (zh) 命名实体识别的方法、装置、设备及存储介质
CN105808530B (zh) 一种统计机器翻译中的翻译方法和装置
CN105138507A (zh) 一种基于模式自学习的中文开放式关系抽取方法
US20140032207A1 (en) Information Classification Based on Product Recognition
CN106326303A (zh) 一种口语语义解析***及方法
CN111583905B (zh) 一种语音识别转化方法及***
CN112905736B (zh) 一种基于量子理论的无监督文本情感分析方法
CN109190099B (zh) 句模提取方法及装置
CN106708798A (zh) 一种字符串切分方法及装置
CN106980620A (zh) 一种对中文字串进行匹配的方法及装置
CN108021667A (zh) 一种文本分类方法和装置
CN110929510A (zh) 一种基于字典树的中文未登录词识别方法
CN106610937A (zh) 一种基于信息论的中文自动分词算法
CN112633012A (zh) 一种基于实体类型匹配的未登录词替换方法
CN105488098A (zh) 一种基于领域差异性的新词提取方法
CN109214445A (zh) 一种基于人工智能的多标签分类方法
CN115034218A (zh) 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法
Namysl et al. NAT: Noise-aware training for robust neural sequence labeling
CN106610949A (zh) 一种基于语义分析的文本特征提取方法
CN110110326B (zh) 一种基于主题信息的文本切割方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160302

Address after: 200335 Shanghai city Changning District Admiralty Road No. 968 Building No. 16 10 floor

Applicant after: SHANGHAI XIECHENG BUSINESS CO., LTD.

Address before: 200335 Shanghai City, Changning District Fuquan Road No. 99, Ctrip network technology building

Applicant before: Ctrip computer technology (Shanghai) Co., Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150715

RJ01 Rejection of invention patent application after publication