CN110633463A - 一种应用于垂直领域的专业词汇纠错方法及*** - Google Patents

一种应用于垂直领域的专业词汇纠错方法及*** Download PDF

Info

Publication number
CN110633463A
CN110633463A CN201810651482.5A CN201810651482A CN110633463A CN 110633463 A CN110633463 A CN 110633463A CN 201810651482 A CN201810651482 A CN 201810651482A CN 110633463 A CN110633463 A CN 110633463A
Authority
CN
China
Prior art keywords
confusable
word
professional
words
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810651482.5A
Other languages
English (en)
Inventor
赵鹏
吴雪军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dingfu Data Technology (beijing) Co Ltd
Original Assignee
Dingfu Data Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dingfu Data Technology (beijing) Co Ltd filed Critical Dingfu Data Technology (beijing) Co Ltd
Priority to CN201810651482.5A priority Critical patent/CN110633463A/zh
Publication of CN110633463A publication Critical patent/CN110633463A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种应用于垂直领域的智能对话机器人的专业词汇纠错方法及***,实现过程为:构建混淆集,所述混淆集中包括有拼写正确的专业词汇和与专业词汇对应的易混淆词;对用户拼写输入的句子进行分词处理;加载混淆集,对分词处理后的每个词语进行遍历,识别存在的易混淆词,并替换为正确的专业词汇,完成纠错。本发明中方法和***可实现实时纠错,耗时极少,有效的提升了客服机器人对用户的意图识别,提升了单轮会话和多轮会话的效果。

Description

一种应用于垂直领域的专业词汇纠错方法及***
技术领域
本发明属于信息技术领域,涉及一种纠错方法及***;特别涉及一种应用于垂直领域的智能对话机器人的专业词汇纠错方法及***。
背景技术
在诸多行业中都会用到客服,然而人工客服在很多方面有很多缺陷,相比之下,智能聊天机器人就有很多优势,比如可以24小时全天候在线、反应迅速,无需等待;由于数据的可存储性,对于重复问题,避免了多次重复性答复编辑;效率高成本低。然而在用户与机器人交互的过程中,用户往往会打错字,而且往往是垂直领域的专业词汇,并且机器人对该词汇非常敏感,直接影响到后续的意图识别,最终影响其职能实现。对于专业词汇的纠错可以提升智能对话机器人的效果,如答复针对性。而对于专业词汇的纠错缺乏相应的语料(通用词汇的纠错具有相应的语料),无法像通用纠错那样采用语言模型(如N-Gram)进行纠错。
同时,目前对垂直领域中专业词汇的校准是以词语为单位进行校准,而并非以句子作为单位进行校准,如在汽车领域,智能客服机器人对句子中的车牌车系词汇进行校准,识别词汇“标志”后将其转换为车系词汇“标致”,这种情况由于未考虑词语上下文情景,会导致不必要的转换,如询问语句“这款车的标志是啥样的”中“标志”是不需要转换的。其他垂直领域如“电子数码”、“运动品牌”、“饮食菜谱”等领域,同样会出现由于单纯识别词语而导致的曲解语义的问题。
基于上述问题,亟需开发一种专业词汇纠错方法或***以适用于垂直领域的纠错,以对话中的句子为单位,准确、快速、全面的对其中由于拼写错误导致不能被智能对话机器人识别的专业词汇进行校准,利于智能对话机器人服务性能的提高。
发明内容
为了克服上述问题,本发明人进行了锐意研究,提供了一种应用于垂直领域的智能对话机器人的专业词汇纠错方法及***,通过构建混淆集,优化混淆集,对用户拼写的句子进行分词后加载优化后的混淆集,采用混淆集对分词后的每个词语做遍历,将错误拼写的词语进行替换,获得纠错后的句子。该方法针对垂直领域中句子为单位进行专业词汇纠错,混淆集以专业词汇为基础进行构建,以准确率、召回率和时效性为考量进行优化,再此前提下遍历词语实现纠错,从而完成本发明。
本发明的目的在于提供以下技术方案:
(1)一种应用于垂直领域的专业词汇纠错方法,该方法包括以下步骤:
步骤100),构建混淆集,所述混淆集包括拼写正确的专业词汇和与专业词汇对应的易混淆词;
步骤200),对用户拼写输入的句子进行分词处理;
步骤300),加载混淆集,对分词处理后的每个词语进行混淆集遍历,识别存在的易混淆词,并替换为正确的专业词汇,完成纠错。
(2)一种用于实现上述(1)所述方法的***,所述***包括:
混淆集构建模块:用于构建混淆集,所述混淆集中包括有拼写正确的专业词汇和与专业词汇对应的易混淆词;
分词模块:用于对用户拼写输入的句子进行分词处理;
纠错模块,用于加载混淆集,对分词处理后的每个词语进行混淆集遍历,识别存在的易混淆词,并替换为正确的专业词汇,完成纠错。
根据本发明提供的一种应用于垂直领域的智能对话机器人的专业词汇纠错方法及***,具有以下有益效果:
本发明中,通过构建混淆集,优化混淆集,对用户拼写的句子进行分词后加载优化后的混淆集,采用混淆集对分词后的每个词语做遍历,将错误拼写的词语进行替换,获得纠错后的句子。该方法针对垂直领域中句子为单位进行专业词汇纠错,混淆集以专业词汇为基础进行构建,以准确率、召回率和时效性为考量进行优化,再此前提下遍历词语实现纠错,该方案实现准确率为98%以上,召回率在80%以上,并可实时纠错,耗时极少,有效的提升了客服机器人对用户的意图识别,有效的提升了单轮会话和多轮回话的效果。
附图说明
图1示出根据本发明一种优选实施方式的应用于垂直领域的专业词汇纠错方法的流程图。
具体实施方式
下面通过附图和实施例对本发明示例性详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
如图1所示,本发明的目的在于提供一种应用于垂直领域的智能对话机器人的专业词汇纠错方法;具体地,该方法包括以下步骤:
步骤100),构建混淆集,所述混淆集中包括有拼写正确的专业词汇和与专业词汇对应的易混淆词;
步骤200),对用户拼写输入的句子进行分词处理;
步骤300),加载混淆集,对分词处理后的每个词语进行混淆集遍历,识别存在的易混淆词,并替换为正确的专业词汇,完成纠错。
根据本发明提供的一种应用于垂直领域的智能对话机器人的专业词汇纠错方法,所述垂直领域是指经营范围“专、精、深”的细分产业,专注于某一行业,如化工行业>石油化工>液化气化工,“液化气化工”为经过细分后的垂直领域,类似地,如交友、游戏、找房、旅游、汽车、钢铁、煤炭等领域均为垂直领域。
专业词汇是指垂直领域中特定事物的统一的业内称谓,如在汽车领域,专业词汇包括有车牌、车系等;游戏领域,专业词汇包括有游戏名称、游戏类型等。
步骤100),构建混淆集,所述混淆集包括拼写正确的专业词汇和与专业词汇对应的易混淆词。
本发明中,步骤100)包括以下子步骤:
子步骤110),根据垂直领域中的专业词汇构建专业词汇词典;
子步骤120),构建易混淆字典,其中包括基准汉字、以及与该基准汉字对应的多个易混淆字;
子步骤130),利用易混淆字典中的易混淆字,对专业词汇词典中的专业词汇进行单字替换和双字替换,形成初步混淆集;该初步混淆集中包括拼写正确的专业词汇、以及经易混淆字替换专业词汇中基准汉字后形成的易混淆词。
本发明子步骤110)中,垂直领域中的专业词汇通常是可以细分为不同类别,例如汽车领域中,专业词汇可以分为“性能”类专业词汇(如自动档、油耗等)、“车牌车系”类专业词汇(如大众迈腾、大众宝来等)。专业词汇词典的构建可以是对该垂直领域中所有专业词汇进行整理、汇总得到;优选地,专业词汇词典的构建是针对设定类别的专业词汇进行整理、汇总得到,该设定类别中的专业词汇的人为拼写错误率较高。
以汽车领域的智能客服机器人为例,在该场景下用户出现的拼写错误80%以上为车牌车系的拼写错误,因而,专业词汇词典针对“车牌车系”类专业词汇构建得到的。这种针对设定类别的专业词汇建立专业词汇词典的方式,与该垂直领域中拼写错误的实际情况相结合,在不影响语义识别的前提下提高了纠错的针对性,且通过减少专业词汇词典的词汇量,相应减少了混淆集的大小,进而提高了后续纠错的实时性。
现有技术中一般没有针对特定垂直领域的完备的专业词汇汇总,专业词汇词典需要人工整理。以汽车领域为例,专业词汇词典如下表1所示。
表1专业词汇词典示例
Figure BDA0001704956070000051
Figure BDA0001704956070000061
本发明子步骤120)中,构建易混淆字典,其中包括基准汉字、以及与该基准汉字对应的多个易混淆字。
本发明中,易混淆字典的数据集格式是key-value格式,key为基准汉字,value为该基准汉字可能的错误拼写形式,即多个易混淆字。
在一种优选的实施方式中,该错误拼写形式包括基准汉字的同音同调错误拼写形式、同音异调错误拼写形式、近音同调错误拼写形式、以及近音异调错误拼写形式;其中,同音同调错误拼写形式为与基准汉字相同读音的形式,同音异调错误拼写形式为与基准汉字相同音节不同音调的形式,近音同调错误拼写形式为与基准汉字相似音节相同音调的形式,近音异调错误拼写形式为与基准汉字相似音节不同音调的形式。易混淆字典如下表2所示。
表2易混淆字典示例
Figure BDA0001704956070000062
Figure BDA0001704956070000071
在一种优选的实施方式中,利用台湾易混淆字典(基于台湾SIGHAN Bake-off2013错别字纠错比赛获得),经繁体字转化为简体字,获得满足要求的易混淆字典。该台湾的易混淆字典中的基准汉字包括常用的汉字,且该基准汉字的错误拼写形式包括同音同调、同音异调、近音同调、以及近音异调错误拼写形式四种形式,涵盖范围广,满足易混淆字典、以及后续易混淆词的构建需求。
本发明子步骤130)中,利用易混淆字典中的易混淆字,对专业词汇词典中的专业词汇进行单字替换和双字替换形成易混淆词,专业词汇和相应的易混淆词构成了易混淆词对,形成初步混淆集。优选地,该初步混淆集包括单字初步混淆集和双字初步混淆集,即专业词汇和经单字替换后形成的易混淆词构成易混淆词对包含在单字初步混淆集中,专业词汇和经双字替换后形成的易混淆词构成易混淆词对包含在双字初步混淆集中。
其中,单字替换是指依次对专业词汇中的每一个汉字分别替换为该汉字的易混淆字,形成对应的易混淆词;易混淆词的个数为该专业词汇中各汉字对应的易混淆字的个数之和。如,专业词汇“丰田”的易混淆词包括“枫田”、“锋田”、“峰田”、“蜂田”、“烽田”、“风田”、“丰甜”、“丰畋”、“丰填”、“丰恬”、和“丰阗”等等,如“丰”字在易混淆字典中的易混淆字的个数为40个,“田”字在易混淆字典中的易混淆字的个数为30个,经单字替换得到的易混淆词的个数为70个。
双字替换是指依次对专业词汇中的每两个汉字分别替换为该两个汉字的易混淆字,形成对应的易混淆词;易混淆词的个数与专业词汇中可形成的两字组合的个数、以及每两个汉字对应的易混淆字的个数的乘积相关。如,专业词汇“丰田”可形成的两字组合的个数为1,每两个汉字对应的易混淆字的个数的乘积为1200,专业词汇“丰田”经双字替换得到的易混淆词的个数为1200个;再如,专业词汇“广汽丰田”可形成的两字组合的个数为6,两个汉字“广汽”、“广丰”、“广田”、“汽丰”、“汽田”、“丰田”分别对应的易混淆字的个数的乘积为760、600、570、840、880和1200,专业词汇“丰田”经双字替换得到的易混淆词的个数为上述六组数之和即4850个。
专业词汇中字数往往不少于2个,之所以只进行单字替换和双字替换是基于专业词汇相较于通用词汇往往是具有独特性的,且人们对专业词汇的拼写往往不会导致两字以上错误的研究发现而设定的。
专业词汇中可能存在数字或字母格式,如“东风标致3008”或者“东风mx6”,在进行初步混淆集构建时,不对数字和字母进行处理,只对汉字进行替换形成易混淆词。
初步混淆集的数据集格式是key-value格式,key对应易混淆词,标示“易混淆词组”,value对应与该易混淆词相应的专业词汇,标示“专业词汇组”。初步混淆集示例如下表3所示。
表3初步混淆集示例
Key(易混淆词) Value(专业词汇)
东风标志3008 东风标致3008
丰田勒令 丰田雷凌
丰田直选 丰田致炫
别克硬朗 别克英朗
长安殴伤 长安欧尚
本田思博锐 本田思铂睿
暴君560 宝俊560
大中宝来 大众宝来
大众蔚蓝 大众蔚揽
通过子步骤130)可以看出,初步混淆集几乎涵盖了专业词汇可能存在的任何错误拼写形式,这样可有效对语句中的错误拼写形式进行识别,召回率高;但是同样存在初步混淆集内容庞大导致的时效性差的问题。对该初步混淆集进行优化可以采用两种方法,一种是直接对已形成的初步混淆集中的专业词汇或者易混淆词进行筛选;另一种是通过优化专业词汇词典和易混淆字典后,重新形成优化后的混淆集。由于前一种方法需要人工进行,操作量巨大,很难实现,优选采用后一种方法得到优化后的混淆集。
在本发明一种优选的实施方式中,还包括子步骤140),对专业词汇词典和易混淆字典进行优化,利用优化后的易混淆字典,对优化后的专业词汇词典中的专业词汇进行单字替换和双字替换,产生易混淆词,专业词汇和相应的易混淆词构成了易混淆词对,形成优化后的混淆集。
优选地,与初步混淆集相似地,该优化后的混淆集包括单字替换混淆集和双字替换混淆集,即专业词汇和经单字替换后形成的易混淆词构成易混淆词对包含在单字替换混淆集中,专业词汇和经双字替换后形成的易混淆词构成易混淆词对包含在双字替换混淆集中。混淆集包括单字替换混淆集和双字替换混淆集,便于在后续专业词汇纠错过程中,单字替换混淆集和双字替换混淆集分开先后纠错,可以进一步提高纠错效率和准确率。
本发明中,对专业词汇词典进行优化包括:利用初步混淆集对专业词汇词典进行过滤,得到存在于专业词汇词典中的易混淆词对,并对易混淆词对中拼写错误的专业词汇进行修改。
我们知道,现有技术中一般没有针对特定垂直领域的完备的专业词汇汇总,专业词汇词典是人工整理得到的,这会导致专业词汇词典中可能存在拼写错误。这样,以专业词汇词典为基础建立的初步混淆集的“专业词汇组”中同样可能存在拼写错误的情况,而“专业词汇组”对应的“易混淆词组”中反而可能存在拼写正确的专业词汇。
对专业词汇词典进行优化的具体步骤为,依次以专业词汇词典中的每个专业词汇为基准(忽略数字和英文拼写),采用初步混淆集中的“易混淆词组”和/或“专业词汇组”对专业词汇词典中的其他专业词汇进行遍历;当以一个专业词汇为基准对其他专业词汇进行遍历时,若其他专业词汇没有落入初步混淆集的“易混淆词组”和/或“专业词汇组”中,则该专业词汇为拼写正确的专业词汇;若其他专业词汇中存在落入初步混淆集的“易混淆词组”和/或“专业词汇组”中的词语(将该词语定义为筛后词,筛后词可能为一个或多个),则将此时作为基准的专业词汇,与筛选得到的落入初步混淆集的“易混淆词组”和/或“专业词汇组”中的筛后词进行标记,核对,修改或删除拼写错误的专业词汇,获得优化后的专业词汇词典。
具体地,举例如下:如表1中所示,专业词汇词典中包括有专业词汇“哈佛h1”和“哈弗6”,以“哈佛”为基准,采用初步混淆集的“专业词汇组”对其他专业词汇进行遍历,发现“哈弗”落入初步混淆集的“专业词汇组”中,即“哈佛”和“哈弗”均被当做拼写正确的专业词汇同存于专业词汇词典中,对“哈佛h1”和“哈弗6”进行标记,核对发现“哈佛”为错误拼写,将“哈佛h1”删除或修改为“哈弗h1”;或者
以“哈佛”为基准,采用初步混淆集的“易混淆词组”对其他专业词汇进行遍历,由于“佛”和“弗”为极为相近的近音同调易混淆字,可以发现“哈弗”落入初步混淆集的“易混淆词组”中,对“哈佛h1”和“哈弗6”进行标记,核对发现“哈佛”为错误拼写,将“哈佛h1”删除或修改为“哈弗h1”;或者
以“哈佛”为基准,采用初步混淆集整体对其他专业词汇进行遍历,可以发现“哈弗”落入初步混淆集中,对“哈佛h1”和“哈弗6”进行标记,核对发现“哈佛”为错误拼写,将“哈佛h1”删除或修改为“哈弗h1”。
对于专业词汇词典,利用初步混淆集对专业词汇遍历匹配,获取易混淆词对,人工校验是否具有拼写错误,有效确保了专业词典的准确性。
本发明中,对专业词汇词典进行优化还包括:对(校准前或校准后)的专业词汇字典进行筛选,去掉单字词和超长字词(≥五个字的词)。
单字词需要去掉是因为对于单字词纠错易发生误替换的情况,即原先是正确的,给替换成错误的了;超长字词需要去掉是因为对句子纠错时,需要预先分词处理,超长字词一般会被切分开,不会被检测;此外经单字替换和双字替换后,由排列组合会生成大量的易混淆词,这些保留到混淆集中非常影响纠错效率,此外,大量的易混淆词的出现容易出现与其他专业词汇混淆的情况,大幅增加发生误检的可能性。
以车牌车系纠错为例,“唐”、“宋”、“元”均为比亚迪的车系名称,为单字词,均需去掉;“马自达昂克赛拉”为超长字词,也需要去掉。
对单字词和超长字词的筛除,在保证召回率的前提下,进一步降低了专业词汇词典的容量,进而利于降低混淆集的容量,提高纠错效率。
本发明中,对易混淆字典进行优化包括:根据基准汉字(key)的字频确定其要保留的错误拼写形式汉字(value)的数量;字频越高的基准汉字,其要保留的错误拼写形式汉字的数量越少。这是因为越常用的汉字,拼写错误的概率越低,如高频汉字“一”、“是”拼写错误的概率是极低的。
在一种实施方式中,获取搜狗网络词词频统计表,将词拆为独立字,获得对应于词的独立字的字频,将相同独立字的字频相加得到字频的统计结果。搜狗网络词频统计(http://www.sogou.com/labs/resource/w.php)是搜狗公开的免费数据,是针对互联网数据的词频统计结果。
在一种实施方式中,通过对字频分级,分别确定各级基准字需要保留的错误拼写形式汉字的数量;例如,将字频分为三级,字频高于两亿以上的为高频,字频介于二百万到两亿的为中频,字频介于二百万以下的为低频;高频基准汉字保留5个错误拼写形式的汉字,中频基准汉字保留10个错误拼写形式的汉字,低频基准汉字保留20个错误拼写形式的汉字。
优选地,对易混淆字典中错误拼写形式的汉字进行字频排序,优先保留字频高的错误拼写形式的汉字。例如,基准汉字“冰”属于中频基准汉字,可以保留10个错误拼写形式的汉字,对错误拼写形式的汉字的字频进行排序为兵>丙>病>并>饼>秉>禀>柄>屏>摒>炳>缤>彬>濒>傧>滨>槟>宾>殡>膑>鬓>豳,因而保留下来的错误拼写形式的汉字为“兵、丙、病、并、饼、秉、禀、柄、屏和摒”。
本发明中,对易混淆字典中错误拼写形式的筛选,是为了优化混淆集,在尽可能涵盖出错的情况下减小混淆集大小,采用这种方法会极大的优化混淆集,一方面会大幅提升检错速度,另一方面在对召回率影响较小的情况下大幅提高准确率。
本发明中,对专业词汇词典和易混淆字典进行优化后,利用优化后的易混淆字典,对优化后的专业词汇词典中的专业词汇进行单字替换和双字替换,产生易混淆词,专业词汇和相应的易混淆词构成了易混淆词对,即可形成优化后的混淆集。
优选地,对优化后的混淆集进行进一步优化,包括:根据混淆集中易混淆词的词频,去除词频高于设定阈值的易混淆词。该优化的原因在于,客户输入的语句中除垂直领域的专业词汇外,几乎均为常用词(高频词),而“易混淆词组”中同样存在有较多常用词,如对应于车系“蔚揽”的“蔚蓝”,这种情况会导致将用户输入的较多常用词替换为专业词汇,时效性和准确性较低。将“易混淆词组”中高于设定阈值的易混淆词去除,有效降低了误检率,提升了检测准确性。该设定阈值根据垂直领域的不同而不同,如汽车领域中,该设定阈值为500万选值。
更优选地,对去除的易混淆词进行筛查,确定普遍在客户输入语句中出现并用于表示其他有效含义的易混淆词,将该易混淆词重新加入优化后的混淆集中;如专业词汇“标致”的易混淆词“标志”为高频词汇,理论上应当被去除,但“标志”被用户误用的频率极高,如用于询问语句中“标志这款车如何”,因而,将易混淆词“标志”去掉是不恰当的。在不同的垂直领域,结合实际情况,确定特殊的词频高于设定阈值的易混淆词的保留情况。以车牌车系纠错为例,词频高于设定阈值,且经筛查后重新保留下来的易混淆词为“传奇”、“标志”、“硬朗”、和“哈佛”。
本发明中,对优化后的混淆集进行进一步优化,还包括:增加语序错误的情况,即将优化后的专业词汇中的汉字打乱顺序形成易混淆词对补充到混淆集中。以车牌车系纠错为例,将专业词汇“昂克赛拉”中的字打乱顺序形成易混淆词“昂赛克拉”后,补充到混淆集中。
在一种实施方式中,选择优化后的专业词汇词典中的所有专业词汇,将专业词汇、与专业词汇中的字以所有可能的排布方式形成的易混淆词形成易混淆词对后,补充到混淆集中。
在一种优选的实施方式中,选择优化后的专业词汇词典中字数为3~4个字的专业词汇,将该专业词汇、与专业词汇中的字以所有可能的排布方式组成的易混淆词形成易混淆词对后,补充到混淆集中。
在进一步优选的实施方式中,选择优化后的专业词汇词典中字数为3~4个字的专业词汇,将字数为3个字的专业词汇、与专业词汇中的字以所有可能的排布方式组成的易混淆词形成易混淆词对后,补充到混淆集中;将字数为4个字的专业词汇、与专业词汇中位于中间的两个字交换后组成的易混淆词形成易混淆词对后,补充到混淆集中。
本发明中,对优化后的混淆集进行进一步优化,还包括:对测试语料进行专业词汇纠错(进行步骤100~300),将分词错误导致误检的易混淆词对从混淆集中剔除掉。其中,测试语料为用户与客户或者用户与机器人对话产生的语料。
进行这一步的原因在于,语句中的专业词汇或者专业词汇对应的易混淆词不是独立存在的,其在句子中与前、后汉字相连,经分词后,可能被拆分形成其他词汇(该词汇可能为某专业词汇的易混淆词);或者语句中的常用词(非专业词汇、非易混淆词)经分词后形成的其他词语与易混淆词相同,这两种情况均会导致误检产生。
本发明步骤200)中,对用户拼写输入的句子进行分词处理,其中,分词处理需要结合分词词典。
本发明中,所述分词词典是指包括有常用的或固定的词语的数据库,其是分词的基准,通过比照分词词典以使输入的查询语句转化为具有最大字符长度的独立词语。分词词典中词语与应用领域密切相关,针对应用领域不同,需要对分词词典中词语进行筛选,以降低数据占用空间,提高分词词语查找速度。
现有技术中,分词词典的设置普遍为列表(list)形式,在设定规律下(如字母表的顺序a-z)排列。该方式的优点在于排布简单,可按照排布规律准确查到词语;然而,通常词典中数据量较大,采用列表形式需要占用较大存储空间,且需核查众多词语后才能确定目标词语,效率低。
本发明中,将列表形式分词词典转换为字典树结构,该字典树结构以根节点作为起始,通过子节点进行延伸;根节点不包含字符,除根节点外每一个节点都只包含一个字符;从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串;每个节点的所有子节点包含的字符都不相同。在此,对英文来说,一个字母为一个字符;对中文来说,一个汉字为一个字符;一个数字或一个标点符号均对应一个字符。
以字典树结构作为分词词典表达方式,可利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的,词语查询速度快,尤其在大规模数据上非常明显。
本发明中,所述分词是指将字符串划分为词串的过程。本发明中,分词方法可以为正向最大匹配法、逆向最匹配法、条件随机场模型或隐马尔可夫模型。正向最大匹配法的特点是分词效率高,具有线性时间复杂度,容易实现,不需要指定词语的最大长度;逆向最大匹配法的特点是具有线性时间复杂度,需要指定词语的最大长度maxLen;隐马尔可夫模型的特点是对未登录词的识别效果优于最大匹配法,但整体效果依赖于训练语料;条件随机场模型的特点是不仅考虑了词语出现的频率,还考虑上下文,具备较好的学习能力,因此其对歧义词和未登录词的识别都具有良好的效果。本发明人经过大量实验验证发现,优选采用正向最大匹配法和条件随机场模型两种分词模式;在较为常用的语句和对分词速度要求较高的场景中,推荐使用最大匹配分词算法;在生僻语料或出现较多新词场景中,推荐使用条件随机场模型分词。
汉语语言较为复杂,在语句中存在交集型歧义,该交集型歧义是指语句中存在某字既可与前一(或几)字组成词语,也可与后一(或几)字组成词语,在分词时引起的歧义。本发明采用正向最大匹配法对输入语句进行顺向扫描,在存在交集型歧义时很可能产生分词错误。
面对这种情况,本发明通过增加回溯机制来校正正向最大匹配法的分词结果。所述回溯是指在分词过程中,采用后退的策略以修正当前分词结果的试探方法。举例如下:输入待查询语句为“派辆英朗送客人去火车站”,顺向扫描的结果是“派/辆/英朗/送客/人/去/火车站”,通过查分词词典知道“人”不在词典中,于是进行回溯,将“送客”的尾字“送”取出与后面的“人”组成“客人”,再查词典,看“送”、“客人”是否在词典中,如果在,就将分词结果调整为“派/辆/英朗/送/客人/去/火车站”。通过增加回溯机制能够提高分词准确率,有效改善交集型歧义问题。
在一种优选的实施方式中,将优化后的混淆集中的专业词汇录入分词词典中,以提高分词的准确性。
本发明步骤300)中,加载混淆集,对分词处理后的每个词语进行混淆集遍历,识别存在的易混淆词,并替换为正确的专业词汇,完成纠错。
在一种优选的实施方式中,优化后的混淆集包括单字替换混淆集和双字替换混淆集时,分词处理后的每个词先对单字替换混淆集做遍历,如果找到就替换,未替换则对双字替换混淆集做遍历。实际上,专业词汇发生单字错误的几率远胜于双字错误,因而先对单字替换混淆集做遍历,再对双字替换混淆集做遍历,必然可以进一步提高纠错效率和准确率。
步骤300)的纠错结果可能存在极少数的误检情况,如有些词语为专业词汇的易混淆词,但在句中使用正确并非作为易混淆词使用,此时,极有可能将该使用正确的词汇修正为专业词汇,导致误检。
以车牌车系为例,用户提问:“标志这款车如何”,此处标志应为标致,应该替换;用户提问:“这款车的标志是啥样的”,此处标志为正确,不应替换。针对该种情况,可以通过加入反馈,向用户提问,如向用户返回一个选项“您是不是想要表达—标致这款车如何”,提高辨别准确性。
本发明通过构建混淆集并进行优化,帮助在垂直领域的智能对话机器人完成对用户语句中专业词汇的纠错,该方案实现准确率为98%,召回率在80%以上,并可实时纠错,耗时极少,有效的提升了客服机器人对用户的意图识别,有效的提升了单轮会话和多轮回话的效果。
本发明的另一目的在于,提供一种用于实施上述方法的***,具体的,该***包括:
混淆集构建模块:用于构建混淆集,所述混淆集中包括有拼写正确的专业词汇和与专业词汇对应的易混淆词;
分词模块:用于对用户拼写输入的句子进行分词处理;
纠错模块,用于加载混淆集,对分词处理后的每个词语进行混淆集遍历,识别存在的易混淆词,并替换为正确的专业词汇,完成纠错。
在本发明中,混淆集构建模块包括以下子模块:
专业词汇词典构建子模块,用于根据垂直领域中的专业词汇构建专业词汇词典;
易混淆字典构建子模块,用于构建易混淆字典,其中包括基准汉字、以及与该基准汉字对应的多个易混淆字;
初步混淆集构建子模块,用于利用易混淆字典中的易混淆字,对专业词汇词典中的专业词汇进行单字替换和双字替换,形成初步混淆集;该初步混淆集中包括拼写正确的专业词汇、以及经易混淆字替换专业词汇中基准汉字后形成的易混淆词;
混淆集优化子模块,用于对专业词汇词典和易混淆字典进行优化,利用优化后的易混淆字典,对优化后的专业词汇词典中的专业词汇进行单字替换和双字替换,形成优化后的混淆集。
在本发明中,混淆集优化子模块包括专业词汇词典优化亚子模块、易混淆字典优化亚子模块、和混淆集优化亚子模块:
专业词汇词典优化亚子模块,用于利用初步混淆集对专业词汇词典进行过滤,得到存在于专业词汇词典中的易混淆词对,并对易混淆词对中拼写错误的专业词汇进行修改;对(校准前或校准后)的专业词汇字典进行筛选,去掉单字词和超长字词(≥五个字的词);
易混淆字典优化亚子模块,用于根据基准汉字(key)的字频确定其要保留的错误拼写形式汉字(value)的数量;字频越高的基准汉字,其要保留的错误拼写形式汉字的数量越少;
混淆集优化亚子模块,用于根据混淆集中易混淆词的词频,去除词频高于设定阈值的易混淆词,并对去除的易混淆词进行筛查,确定普遍在客户输入语句中出现并用于表示其他有效含义的易混淆词,将该易混淆词重新加入优化后的混淆集中;
优选地,混淆集优化亚子模块,还用于增加语序错误的情况,即将优化后的专业词汇中的字打乱顺序形成易混淆词对补充到混淆集中。
更优选地,混淆集优化亚子模块,还用于对测试语料进行专业词汇纠错(进行步骤100~300),将分词错误导致误检的易混淆词对从混淆集中剔除掉,其中,测试语料为用户与客户或者用户与机器人对话产生的语料。
实施例
实施例1
以大量测试语料为数据统计样本,确定本发明中纠错方法的效果,纠错时,分词处理后的每个词先对单字替换混淆集做遍历,如果找到就替换,未替换则对双字替换混淆集做遍历。其中,测试语料为2018.05.05~2018.05.09共五天用户与对话机器人的对话日志。
用户对话日志共计16996条,其中出现车牌车系错误的共计388条。其中有用户连续重复输入多次的情况,如
用户:跃动
客服机器人:对不起,我不知道该如何回答,请重新提问,谢谢
用户:跃动
客服机器人:对不起,我不知道该如何回答,请重新提问,谢谢
用户:悦动
客服机器人:亲,悦动售价7~12万,是现代旗下的一款合资轿车。其主要优点是:性价比较高(比同类车高出12%),驾驶平顺,动力比较足(比同类车高出18%),日常使用足够了。
用户:悦动
客服机器人:亲,悦动售价7~12万,是现代旗下的一款合资轿车。其主要优点是:性价比较高(比同类车高出12%),驾驶平顺,动力比较足(比同类车高出18%),日常使用足够了。
用户:跃动
客服机器人:对不起,我不知道该如何回答,请重新提问,谢谢
用户:跃动
客服机器人:对不起,我不知道该如何回答,请重新提问,谢谢
去除上述类似情况调整后的数据为:总错误数为359条,出错率约为2%。***检出错误286条,占80%,即召回率为80%。误检12条,准确率96%左右。
误检的情况中超长句有6条,占50%,均为广告,例如:
用户:哈喽,我们在这茫茫人海中遇见可以说是一种缘分想要做新媒体巨头,粉丝数量质量是关键。我公司(杭州云粉吧)专业给公众号增加粉丝,保证100%活粉。同时可按性别、时间、城市、酒店、机场、车站、学校、医院等不同场景通过微信连WIFI方式增加真实的粉丝,留存率可达80%,如果您这边有增粉需求,可直接电话联系:1508870XXXX(杭州云粉吧客户经理黄某)微信hzy**520。
这种情况对业务无任何影响,去掉这一部分,准确率98%。
剩下6个,有3个是开省—>凯胜,3个是标志—>标致,均为高频。业务上只需要识别出类“标志4008”这种情况。这两种情况均已处理,综上准确率接近100%。
召回率相关情况:
未检出的情况占20%,综合如下:
汉浪达(汉兰达)、迈凯轮(迈凯伦)、娄兰(楼兰)、五菱红光(五菱宏光)等等,基本都是近音同音混淆出错。
高频(非连续)出现的有:凌克(领克)7次,雪弗兰(雪佛兰)2次,斯科达(斯柯达)3次等。
针对上述出错状况,进行针对性调整,考虑到高频的普遍性,召回率在84%。
综上测试准确率96%,召回率80%。针对测试进行总结优化后,准确率约100%,召回率约84%。
以上结合了优选的实施方式对本发明进行了说明,不过这些实施方式仅是范例性的,仅起到说明性的作用。在此基础上,可以对本发明进行多种替换和改进,这些均落入本发明的保护范围内。

Claims (10)

1.一种应用于垂直领域的专业词汇纠错方法,其特征在于,该方法包括以下步骤:
步骤100),构建混淆集,所述混淆集中包括有拼写正确的专业词汇和与专业词汇对应的易混淆词;
步骤200),对用户拼写输入的句子进行分词处理;
步骤300),加载混淆集,对分词处理后的每个词语进行混淆集遍历,识别存在的易混淆词,并替换为正确的专业词汇,完成纠错。
2.根据权利要求1所述的方法,其特征在于,步骤100)包括以下子步骤:
子步骤110),根据垂直领域中的专业词汇构建专业词汇词典;
子步骤120),构建易混淆字典,其中包括基准汉字、以及与该基准汉字对应的多个易混淆字;
子步骤130),利用易混淆字典中的易混淆字,对专业词汇词典中的专业词汇进行单字替换和双字替换,形成初步混淆集;该初步混淆集中包括拼写正确的专业词汇、以及经易混淆字替换专业词汇中基准汉字后形成的易混淆词。
3.根据权利要求2所述的方法,其特征在于,在子步骤110)中,专业词汇词典的构建可以是对该垂直领域中所有专业词汇进行整理、汇总得到;
优选地,专业词汇词典的构建是针对设定类别的专业词汇进行整理、汇总得到,该设定类别中的专业词汇的人为拼写错误率较高。
4.根据权利要求2所述的方法,其特征在于,在子步骤120)中,易混淆字典的数据集格式是key-value格式,key为基准汉字,value为该基准汉字可能的错误拼写形式,即多个易混淆字;
该错误拼写形式包括基准汉字的同音同调错误拼写形式、同音异调错误拼写形式、近音同调错误拼写形式、以及近音异调错误拼写形式。
5.根据权利要求1所述的方法,其特征在于,在步骤100)中还包括子步骤140),对专业词汇词典和易混淆字典进行优化,利用优化后的易混淆字典,对优化后的专业词汇词典中的专业词汇进行单字替换和双字替换,形成优化后的混淆集;
优选地,该优化后的混淆集包括单字替换混淆集和双字替换混淆集,即专业词汇和经单字替换后形成的易混淆词构成易混淆词对包含在单字替换混淆集中,专业词汇和经双字替换后形成的易混淆词构成易混淆词对包含在双字替换混淆集中。
6.根据权利要求5所述的方法,其特征在于,在子步骤140)中,对专业词汇词典进行优化包括:利用初步混淆集对专业词汇词典进行过滤,得到存在于专业词汇词典中的易混淆词对,并对易混淆词对中拼写错误的专业词汇进行修改;和/或
对易混淆字典进行优化包括:根据基准汉字的字频确定其要保留的错误拼写形式汉字即易混淆字的数量;字频越高的基准汉字,其要保留的错误拼写形式汉字即易混淆字的数量越少;
优选地,对易混淆字典中错误拼写形式的汉字进行字频排序,优先保留字频高的错误拼写形式的汉字。
7.根据权利要求5所述的方法,其特征在于,在子步骤140)中,对优化后的混淆集进行进一步优化,包括:根据混淆集中易混淆词的词频,去除词频高于设定阈值的易混淆词;
进一步地,对去除的易混淆词进行筛查,确定普遍在用户输入语句中出现并用于表示其他有效含义的易混淆词,将该易混淆词重新加入优化后的混淆集中。
8.根据权利要求5所述的方法,其特征在于,在子步骤140)中,对优化后的混淆集进行进一步优化,还包括:增加语序错误的情况,即将优化后的专业词汇中的汉字打乱顺序形成易混淆词对补充到混淆集中;
优选地,选择优化后的专业词汇词典中字数为3~4个字的专业词汇,将字数为3个字的专业词汇、与专业词汇中的字以所有可能的排布方式组成的易混淆词形成易混淆词对后,补充到混淆集中;将字数为4个字的专业词汇、与专业词汇中位于中间的两个字交换后组成的易混淆词形成易混淆词对后,补充到混淆集中。
9.根据权利要求2所述的方法,其特征在于,在步骤200)中,结合分词词典进行分词处理,其中,
将优化后的混淆集中的专业词汇录入分词词典中。
10.一种用于实施上述权利要求1至9之一所述方法的***,该***包括:
混淆集构建模块:用于构建混淆集,所述混淆集中包括有拼写正确的专业词汇和与专业词汇对应的易混淆词;
分词模块:用于对用户拼写输入的句子进行分词处理;
纠错模块,用于加载混淆集,对分词处理后的每个词语进行混淆集遍历,识别存在的易混淆词,并替换为正确的专业词汇,完成纠错。
CN201810651482.5A 2018-06-22 2018-06-22 一种应用于垂直领域的专业词汇纠错方法及*** Pending CN110633463A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810651482.5A CN110633463A (zh) 2018-06-22 2018-06-22 一种应用于垂直领域的专业词汇纠错方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810651482.5A CN110633463A (zh) 2018-06-22 2018-06-22 一种应用于垂直领域的专业词汇纠错方法及***

Publications (1)

Publication Number Publication Date
CN110633463A true CN110633463A (zh) 2019-12-31

Family

ID=68967866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810651482.5A Pending CN110633463A (zh) 2018-06-22 2018-06-22 一种应用于垂直领域的专业词汇纠错方法及***

Country Status (1)

Country Link
CN (1) CN110633463A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560450A (zh) * 2020-12-11 2021-03-26 科大讯飞股份有限公司 一种文本纠错方法及装置
CN112735428A (zh) * 2020-12-27 2021-04-30 科大讯飞(上海)科技有限公司 一种热词获取方法、语音识别方法及相关设备
CN112926306A (zh) * 2021-03-08 2021-06-08 北京百度网讯科技有限公司 文本纠错方法、装置、设备以及存储介质
CN113361266A (zh) * 2021-06-25 2021-09-07 达闼机器人有限公司 文本纠错方法、电子设备及存储介质
CN113536776A (zh) * 2021-06-22 2021-10-22 深圳价值在线信息科技股份有限公司 混淆语句的生成方法、终端设备及计算机可读存储介质
CN114239553A (zh) * 2021-12-23 2022-03-25 佳源科技股份有限公司 基于人工智能的日志审核方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133222A1 (en) * 2006-11-30 2008-06-05 Yehuda Kogan Spell checker for input of reduced keypad devices
CN105550171A (zh) * 2015-12-31 2016-05-04 北京奇艺世纪科技有限公司 一种垂直搜索引擎的查询信息纠错方法和***
CN105573979A (zh) * 2015-12-10 2016-05-11 江苏科技大学 一种基于汉字混淆集的错字词知识生成方法
CN106527757A (zh) * 2016-10-28 2017-03-22 上海智臻智能网络科技股份有限公司 一种输入纠错方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133222A1 (en) * 2006-11-30 2008-06-05 Yehuda Kogan Spell checker for input of reduced keypad devices
CN105573979A (zh) * 2015-12-10 2016-05-11 江苏科技大学 一种基于汉字混淆集的错字词知识生成方法
CN105550171A (zh) * 2015-12-31 2016-05-04 北京奇艺世纪科技有限公司 一种垂直搜索引擎的查询信息纠错方法和***
CN106527757A (zh) * 2016-10-28 2017-03-22 上海智臻智能网络科技股份有限公司 一种输入纠错方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560450A (zh) * 2020-12-11 2021-03-26 科大讯飞股份有限公司 一种文本纠错方法及装置
CN112560450B (zh) * 2020-12-11 2024-02-13 科大讯飞股份有限公司 一种文本纠错方法及装置
CN112735428A (zh) * 2020-12-27 2021-04-30 科大讯飞(上海)科技有限公司 一种热词获取方法、语音识别方法及相关设备
CN112926306A (zh) * 2021-03-08 2021-06-08 北京百度网讯科技有限公司 文本纠错方法、装置、设备以及存储介质
CN112926306B (zh) * 2021-03-08 2024-01-23 北京百度网讯科技有限公司 文本纠错方法、装置、设备以及存储介质
CN113536776A (zh) * 2021-06-22 2021-10-22 深圳价值在线信息科技股份有限公司 混淆语句的生成方法、终端设备及计算机可读存储介质
CN113361266A (zh) * 2021-06-25 2021-09-07 达闼机器人有限公司 文本纠错方法、电子设备及存储介质
CN113361266B (zh) * 2021-06-25 2022-12-06 达闼机器人股份有限公司 文本纠错方法、电子设备及存储介质
CN114239553A (zh) * 2021-12-23 2022-03-25 佳源科技股份有限公司 基于人工智能的日志审核方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN110633463A (zh) 一种应用于垂直领域的专业词汇纠错方法及***
CN114444479B (zh) 一种端到端中文语音文本纠错方法、装置和存储介质
CN109815336B (zh) 一种文本聚合方法及***
CN101464898B (zh) 一种提取文本主题词的方法
CN109918673A (zh) 语义仲裁方法、装置、电子设备和计算机可读存储介质
CN106708893A (zh) 搜索查询词纠错方法和装置
CN111125334A (zh) 一种基于预训练的搜索问答***
CN102867040A (zh) 一种面向中文搜索引擎混杂语言的查询纠错方法及***
CN108536667B (zh) 中文文本识别方法及装置
CN111259151A (zh) 一种混合文本敏感词变体识别方法和装置
CN110705298B (zh) 一种改进的前缀树与循环神经网络结合的领域分类方法
CN112541095B (zh) 视频标题生成方法、装置、电子设备及存储介质
CN105912521A (zh) 一种解析语音内容的方法及装置
CN114036930A (zh) 文本纠错方法、装置、设备及计算机可读介质
CN116502628A (zh) 基于知识图谱的政务领域多阶段融合的文本纠错方法
CN111460147B (zh) 一种基于语义增强的标题短文本分类方法
CN109543036A (zh) 基于语义相似度的文本聚类方法
CN113420766B (zh) 一种融合语言信息的低资源语种ocr方法
JP5426292B2 (ja) 意見分類装置およびプログラム
CN114818663B (zh) 一种分级的智能拼音与文字匹配方法
CN113361270B (zh) 一种面向服务数据聚类的短文本优化主题模型方法
CN112417088A (zh) 一种社群内文本价值的评估方法及装置
CN112735412B (zh) 一种根据语音指令搜索信息的方法和***
CN115293142A (zh) 一种基于词典增强预训练模型的常识问答方法
CN112395394B (zh) 短文本语义理解模板检验方法、模板生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191231