CN112580324A - 文本纠错方法、装置、电子设备以及存储介质 - Google Patents

文本纠错方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN112580324A
CN112580324A CN202011548334.4A CN202011548334A CN112580324A CN 112580324 A CN112580324 A CN 112580324A CN 202011548334 A CN202011548334 A CN 202011548334A CN 112580324 A CN112580324 A CN 112580324A
Authority
CN
China
Prior art keywords
word
error
text
words
error correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011548334.4A
Other languages
English (en)
Other versions
CN112580324B (zh
Inventor
徐梦笛
赖佳伟
邓卓彬
付志宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011548334.4A priority Critical patent/CN112580324B/zh
Publication of CN112580324A publication Critical patent/CN112580324A/zh
Application granted granted Critical
Publication of CN112580324B publication Critical patent/CN112580324B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本公开公开了文本纠错方法、装置、电子设备以及存储介质,涉及计算机技术领域,尤其涉及深度学习、自然语言处理等人工智能技术领域。具体实现方案为:获取待处理的文本,以及所述文本所属的目标场景;获取所述目标场景下的词语替换表,并结合所述目标场景下的词语替换表,获取所述文本中的各个错误词语,以及每个错误词语对应的候选词语列表;从所述各个错误词语对应的候选词语列表中,选择所述各个错误词语对应的待替换词语;结合所述各个错误词语对应的待替换词语,对所述文本进行纠错处理,得到纠错后文本。由此,实现了基于目标场景下的词语替换表,对目标场景下的文本进行纠错,提高了目标场景下的文本纠错准确率。

Description

文本纠错方法、装置、电子设备以及存储介质
技术领域
本公开涉及计算机技术领域,特别涉及深度学习、自然语言处理等人工智能技术领域,尤其涉及文本纠错方法、装置、电子设备以及存储介质。
背景技术
文本纠错是自然语言处理领域中的一个重要研究方向,通过对文本进行纠错,可以纠正文本中人为因素产生的错误,比如,谐音字词错误,形似字错误,词语误用等。
相关技术中,通常采用通用的纠错模型,进行特定场景下文本的纠错,由于通用的纠错模型是采用大量的多个业务场景下的正确文本以及对应的错误文本进行训练得到的,因此在特定场景下的纠错准确率低。
发明内容
本公开提供了一种文本纠错方法、装置、电子设备、存储介质以及计算机程序产品。
根据本公开的一方面,提供了一种文本纠错方法,包括:获取待处理的文本,以及所述文本所属的目标场景;获取所述目标场景下的词语替换表,并结合所述目标场景下的词语替换表,获取所述文本中的各个错误词语,以及每个错误词语对应的候选词语列表;从所述各个错误词语对应的候选词语列表中,选择所述各个错误词语对应的待替换词语;结合所述各个错误词语对应的待替换词语,对所述文本进行纠错处理,得到纠错后文本。
根据本公开的另一方面,提供了一种文本纠错装置,包括:第一获取模块,用于获取待处理的文本,以及所述文本所属的目标场景;第二获取模块,用于获取所述目标场景下的词语替换表,并结合所述目标场景下的词语替换表,获取所述文本中的各个错误词语,以及每个错误词语对应的候选词语列表;选择模块,用于从所述各个错误词语对应的候选词语列表中,选择所述各个错误词语对应的待替换词语;第一处理模块,用于结合所述各个错误词语对应的待替换词语,对所述文本进行纠错处理,得到纠错后文本。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的文本纠错方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的文本纠错方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据如上所述的文本纠错方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的文本纠错方法的流程示意图;
图2是根据本公开第二实施例的文本纠错方法的流程示意图;
图3是根据本公开第三实施例的文本纠错方法的流程示意图;
图4是根据本公开第四实施例的文本纠错方法的流程示意图;
图5是根据本公开实施例提供的纠错模型的结构框图;
图6是根据本公开第五实施例的文本纠错装置的结构示意图;
图7是根据本公开第六实施例的文本纠错装置的结构示意图;
图8是用来实现本公开实施例的文本纠错方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
可以理解的是,通用的纠错模型,通常包括候选召回模块和纠错模块。其中,候选召回模块,用于获取输入文本中的错误词语,以及错误词语对应的候选词语序列;纠错模块,用于针对错误词语,从候选词语序列中选择对应的待替换词语,进而基于待替换词语对输入文本中的错误词语进行替换,得到纠错后文本。相关技术中,通常采用通用的纠错模型,进行特定场景下文本的纠错,由于通用的纠错模型是采用大量的多个业务场景下的正确文本以及对应的错误文本进行训练得到的,因此在特定场景下的纠错准确率低。
本公开为了提高特定场景下的文本纠错准确率,提出一种文本纠错方法,该文本纠错方法,在获取待处理的文本,以及文本所属的目标场景后,获取目标场景下的词语替换表,并结合目标场景下的词语替换表,获取文本中的各个错误词语,以及每个错误词语对应的候选词语列表,再从各个错误词语对应的候选词语列表中,选择各个错误词语对应的待替换词语,进而结合各个错误词语对应的待替换词语,对文本进行纠错处理,得到纠错后文本,由此,实现了基于目标场景下的词语替换表,对目标场景下的文本进行纠错,提高了目标场景下的文本纠错准确率。
下面参考附图描述本公开实施例的文本纠错方法、装置、电子设备、非瞬时计算机可读存储介质以及计算机程序产品。
首先结合图1,对本公开提供的文本纠错方法进行详细描述。
图1是根据本公开第一实施例的文本纠错方法的流程示意图。其中,需要说明的是,本实施例提供的文本纠错方法,执行主体为文本纠错装置,该文本纠错装置可以为电子设备,也可以被配置在电子设备中,以提高目标场景下的文本纠错准确率。
其中,电子设备,可以是任意能够进行数据处理的静止或者移动计算设备,例如笔记本电脑、智能手机、可穿戴设备等移动计算设备,或者台式计算机等静止的计算设备,或者服务器,或者其它类型的计算设备等,本公开对此不作限制。
如图1所示,文本纠错方法,可以包括以下步骤:
步骤101,获取待处理的文本,以及文本所属的目标场景。
其中,待处理的文本,为待纠错的文本,其可以是用户直接输入的文本形式的文本,也可以是文本纠错装置对用户输入的语音进行文本识别后生成的文本,本公开对此不作限制。
文本所属的目标场景,例如可以是新闻场景、聊天场景、金融合同场景等。比如,待处理的文本为用户在聊天过程中出现的文本时,则文本所属的目标场景为聊天场景,待处理的文本为新闻中出现的文本时,则文本所属的目标场景为新闻场景,待处理的文本为金融合同中出现的文本时,则文本所属的目标场景为金融合同场景。
步骤102,获取目标场景下的词语替换表,并结合目标场景下的词语替换表,获取文本中的各个错误词语,以及每个错误词语对应的候选词语列表。
步骤103,从各个错误词语对应的候选词语列表中,选择各个错误词语对应的待替换词语。
在示例性实施例中,可以预先构建初始的纠错模型,初始的纠错模型包括目标场景候选召回模块以及经过预训练的纠错模块,其中,目标场景候选召回模块,用于生成错误词语以及对应的候选词语列表,纠错模块,用于选择错误词语对应的待替换词语。之后利用目标场景下的训练数据,对初始的纠错模型进行训练,并且,在对初始的纠错模型进行训练的过程中,可以上传目标场景下的词语替换表到目标场景候选召回模块,从而得到训练好的纠错模型。进而在对待处理的文本进行纠错时,可以利用训练好的纠错模型中的目标场景候选召回模块,获取文本中的各个错误词语以及每个错误词语对应的候选词语列表,利用训练好的纠错模型中的纠错模块,从各个错误词语对应的候选词语列表中,选择各个错误词语对应的待替换词语。
其中,初始的纠错模型中的目标场景候选召回模块,可以为采用多业务场景下的训练数据,训练得到的通用的纠错模型中的候选召回模块,经过预训练的纠错模块,可以为采用多业务场景下的训练数据,训练得到的通用的纠错模型中的纠错模块。
在示例性实施例中,可以采用目标场景下的训练数据,利用深度学习的方式,对初始的纠错模型进行训练,得到训练好的纠错模型,相比于其它机器学习方法,深度学习在大数据集上的表现更好。通过深度学习的方式训练初始的纠错模型时,目标场景下的训练数据可以包括目标场景下的多个纠错前文本以及对应的纠错后文本,将训练数据中目标场景下的纠错前文本作为输入,将训练数据中纠错后文本作为输出结果,通过不断地调整初始的纠错模型的模型参数对初始的纠错模型进行迭代训练,直至模型输出结果的准确率满足预先设定的阈值,训练结束,得到训练好的纠错模型。
具体的,训练好的纠错模型中的目标场景候选召回模块,可以在获取待处理的文本以及文本所属的目标场景后,先对待处理的文本进行检错,获取待处理的文本中的各个错误词语,进而结合目标场景下的词语替换表,获取每个错误词语对应的候选词语列表。其中,对待处理的文本进行检错,获取待处理的文本中的各个错误词语的过程,可以参考相关技术中的文本检错技术,本公开实施例对此不作赘述。
可以理解的是,目标场景下的词语替换表中,包括目标场景下的错误词语以及对应的正确词语,在示例性实施例中,训练好的纠错模型中的目标场景候选召回模块,可以针对每个错误词语,在目标场景下的词语替换表中查询错误词语对应的正确词语,进而根据正确词语生成错误词语对应的候选词语列表。
进而,训练好的纠错模型中的纠错模块,可以针对每个错误词语,从对应的候选词语列表中选择候选词语,作为该错误词语对应的待替换词语,从而得到各个错误词语对应的待替换词语。
步骤104,结合各个错误词语对应的待替换词语,对文本进行纠错处理,得到纠错后文本。
在示例性实施例中,获取各个错误词语对应的待替换词语后,文本纠错装置即可针对每个错误词语,利用错误词语对应的待替换词语,对文本中的错误词语进行替换,从而得到纠错后文本。
本公开实施例提供的文本纠错方法,在获取待处理的文本,以及文本所属的目标场景后,获取目标场景下的词语替换表,并结合目标场景下的词语替换表,获取文本中的各个错误词语,以及每个错误词语对应的候选词语列表,再从各个错误词语对应的候选词语列表中,选择各个错误词语对应的待替换词语,进而结合各个错误词语对应的待替换词语,对文本进行纠错处理,得到纠错后文本,由此,实现了基于目标场景下的词语替换表,对目标场景下的文本进行纠错,提高了目标场景下的文本纠错准确率。
通过上述分析可知,本公开实施例中,可以结合目标场景下的词语替换表,获取待处理的文本中的各个错误词语,以及每个错误词语对应的候选词语列表,进而利用各个错误词语对应的候选词语列表对待处理的文本进行纠错,下面结合图2,对本公开提供的文本纠错方法中,结合目标场景下的词语替换表,获取待处理的文本中的各个错误词语,以及每个错误词语对应的候选词语列表的过程进一步说明。
图2是根据本公开第二实施例的文本纠错方法的流程示意图。如图2所示,文本纠错方法,可以包括以下步骤:
步骤201,获取待处理的文本,以及文本所属的目标场景。
步骤202,获取目标场景下的词语替换表。
在示例性实施例中,词语替换表可以包括以下表中的至少一个:目标场景下的错误替换表、目标场景下的音近字替换表、目标场景下的形近字替换表。
其中,目标场景下的错误替换表,为目标场景下的常见错误替换表,其可以通过挖掘目标场景下的语料得到。其中,目标场景下的错误替换表中,包括目标场景下的错误词语以及对应的正确词语。
目标场景下的音近字替换表,可以基于目标场景下的各个字的拼音得到。其中,目标场景下的音近字替换表中,包括目标场景下的具有相近拼音的各个词语的对应关系。
目标场景下的形近字替换表,可以基于五笔或仓颉编码,或字形OCR(OpticalCharacter Recognition,光学字符识别)得到。其中,目标场景下的形近字替换表中,包括目标场景下的具有相近字形的各个词语的对应关系。
以目标场景下的词语替换表包括错误替换表、音近字替换表以及形近字替换表为例,可以通过以下步骤203-207所示的方式,结合目标场景下的词语替换表,获取文本中的各个错误词语,以及每个错误词语对应的候选词语列表。
步骤203,确定文本中的各个错误词语。
步骤204,针对每个错误词语,根据错误词语查询错误替换表、音近字替换表和形近字替换表,获取错误词语对应的候选词语。
在示例性实施例中,训练好的纠错模型中的目标场景候选召回模块,可以对待处理的文本进行检错,确定待处理的文本中的各个错误词语,进而针对每个错误词语,根据错误词语查询错误替换表、音近字替换表和形近字替换表,将错误替换表中错误词语对应的正确词语、音近字替换表中与错误词语拼音相近的词语,以及形近字替换表中与错误词语字形相近的词语,确定为错误词语对应的候选词语。
步骤205,针对每个错误词语,获取文本与错误词语对应的候选词语之间的匹配度。
步骤206,根据对应的匹配度,从错误词语对应的候选词语中选择多个目标候选词语。
在示例性实施例中,训练好的纠错模型中的目标场景候选召回模块,在获取各错误词语分别对应的候选词语后,可以针对每个错误词语,获取文本与错误词语对应的候选词语之间的匹配度,并且,可以预先设置第一匹配度阈值,从而针对每个错误词语,可以将错误词语对应的候选词语中,匹配度大于预设第一匹配度阈值的候选词语,确定为目标候选词语。
需要说明的是,针对每个错误词语,获取文本与错误词语对应的候选词语之间的匹配度的方法,可以参考相关技术中的置信度确定方法,此处不再赘述。
步骤207,根据多个目标候选词语,生成错误词语对应的候选词语列表。
具体的,确定了每个错误词语对应的多个目标候选词语后,即可针对每个错误词语,根据错误词语对应的多个目标候选词语,生成错误词语对应的候选词语列表。
步骤208,从各个错误词语对应的候选词语列表中,选择各个错误词语对应的待替换词语。
步骤209,结合各个错误词语对应的待替换词语,对文本进行纠错处理,得到纠错后文本。
其中,步骤208-209的具体实现过程及原理,可以参考上述实施例的描述,此处不再赘述。
本公开实施例中,在目标场景下的词语替换表包括目标场景下的错误替换表、音近字替换表以及形近字替换表时,结合目标场景下的错误替换表、音近字替换表以及形近字替换表,获取文本中的各个错误词语,以及每个错误词语对应的候选词语列表,由此,通过结合目标场景下的多种词语替换表,获取文本中的各个错误词语以及每个错误词语对应的候选词语列表,使得各个错误词语对应的候选词语列表中的候选词语更丰富,进一步提高了利用各个错误词语对应的候选词语列表对目标场景下的文本进行纠错的纠错准确性。
需要说明的是,在目标场景下的词语替换表中包括目标场景下的错误替换表、目标场景下的音近字替换表、目标场景下的形近字替换表中的任意一个或两个时,结合目标场景下的词语替换表,获取文本中的各个错误词语,以及每个错误词语对应的候选词语列表的方法,与上述方法类似,本公开实施例对此不再赘述。
本公开实施例提供的文本纠错方法,在获取待处理的文本,以及文本所属的目标场景后,获取目标场景下的词语替换表,确定文本中的各个错误词语,针对每个错误词语,根据错误词语查询错误替换表、音近字替换表和形近字替换表,获取错误词语对应的候选词语,针对每个错误词语,获取文本与错误词语对应的候选词语之间的匹配度,根据对应的匹配度,从错误词语对应的候选词语中选择多个目标候选词语,根据多个目标候选词语,生成错误词语对应的候选词语列表,从各个错误词语对应的候选词语列表中,选择各个错误词语对应的待替换词语,进而结合各个错误词语对应的待替换词语,对文本进行纠错处理,得到纠错后文本。由此,实现了基于目标场景下的词语替换表,对目标场景下的文本进行纠错,提高了目标场景下的文本纠错准确率。
通过上述分析可知,本公开实施例中,可以结合目标场景下的词语替换表,获取待处理的文本中的各个错误词语,以及每个错误词语对应的候选词语列表,进而从各个错误词语对应的候选词语列表中,选择各个错误词语对应的待替换词语,结合各个错误词语对应的待替换词语,对文本进行纠错处理,得到纠错后文本。在一种可能的实现形式中,待处理的文本中可能会包含专业词语,或者纠错模型可能会错判为错误词语的非错误词语,或者错判为非错误词语的错误词语等,下面针对上述情况,结合图3,对本公开提供的文本纠错方法进行进一步说明。
图3是根据本公开第三实施例的文本纠错方法的流程示意图。如图3所示,文本纠错方法,可以包括以下步骤:
步骤301,获取待处理的文本,以及文本所属的目标场景。
步骤302,获取目标场景下的专业词语列表。
步骤303,获取文本中的各个词语。
步骤304,根据各个词语查询专业词语列表,获取文本中的专业词语。
步骤305,去除文本中的专业词语。
在示例性实施例中,预先构建的初始的纠错模型中,除生成错误词语以及对应的候选词语列表的目标场景候选召回模块、用于选择待替换词语的经过预训练的纠错模块外,还可以包括专业词语豁免模块,用于去除待处理的文本中的专业词语。另外,在采用目标场景下的训练数据,对初始的纠错模型进行训练的过程中,除了上传目标场景下的词语替换表到目标场景候选召回模块之外,还可以上传目标场景下的专业词语列表到专业词语豁免模块,从而得到训练好的纠错模型。进而在对待处理的文本进行纠错时,可以利用训练好的纠错模型中的专业词语豁免模块,获取待处理的文本中的各个词语,并根据各个词语查询专业词语列表,获取文本中的专业词语,再去除待处理的文本中的各个词语中的专业词语,从而仅基于待处理的文本中除专业词语之外的词语,对待处理的文本进行纠错处理。
其中,目标场景下的专业词语列表中,包括目标场景下的各专业词语,其可以通过对目标场景下的语料进行挖掘得到。
具体的,训练好的纠错模型中的专业词语豁免模块,可以在获取待处理的文本中的各个词语后,针对每个词语,在专业词语列表中查询,在专业词语列表中能查询到该词语时,将该词语确定为专业词语,从而获取待处理的文本中的各专业词语。
通过结合目标场景下的专业词语列表,将待处理的文本中的专业词语去除,以在后续进行纠错处理时,仅基于待处理的文本中除专业词语之外的词语进行纠错,可以避免后续对待处理的文本进行纠错时,出现将专业词语纠正为错误词语的情况,从而进一步提高了目标场景下的文本纠错准确率。
步骤306,获取目标场景下的词语替换表,并结合目标场景下的词语替换表,获取文本中的各个错误词语,以及每个错误词语对应的候选词语列表。
步骤307,从各个错误词语对应的候选词语列表中,选择各个错误词语对应的待替换词语。
其中,步骤306-307的具体实现过程及原理,可以参考上述实施例的描述,此处不再赘述。
步骤308,根据各个错误词语以及对应的待替换词语,查询目标场景下的黑名单,获取存在于黑名单中的第一错误词语以及对应的第一待替换词语。
步骤309,删除第一错误词语以及对应的第一待替换词语。
在示例性实施例中,预先构建的初始的纠错模型中,还可以包括名单处理模块。另外,在采用目标场景下的训练数据,对初始的纠错模型进行训练的过程中,还可以上传目标场景下的名单到名单处理模块,从而得到训练好的纠错模型。进而在对待处理的文本进行纠错时,可以利用训练好的纠错模型中的名单处理模块,根据目标场景下的名单,对纠错模块获取的各错误词语以及对应的待替换词语进行调整,以避免纠错模型将待处理的文本中的非错误词语错判为错误词语后,对非错误词语进行纠错,或者将待处理的文本中的错误词语错判为非错误词语而未对错误词语进行纠错的情况。
其中,目标场景下的名单,可以包括目标场景下的黑名单,目标场景下的黑名单中,包括目标场景下的不需要纠正的错误词语以及对应的正确词语。
在示例性实施例中,训练好的纠错模型中的名单处理模块,可以根据各个错误词语以及对应的待替换词语,查询目标场景下的黑名单,获取存在于黑名单中的第一错误词语以及对应的第一待替换词语,其中,第一错误词语以及对应的第一待替换词语,即为目标场景下的不需要纠正的错误词语以及对应的正确词语,进而可以将纠错模块获取的各个错误词语以及对应的待替换词语中,第一错误词语以及对应的第一待替换词语删除。
举例来说,“蓝瘦香菇”为网络聊天场景中频繁出现的词语,即在网络聊天场景中,不需要对“蓝瘦香菇”进行纠错,由于纠错模型的训练数据中,可能未包括该词语,纠错模型在对待处理的文本进行纠错的过程中,可能会将“蓝瘦香菇”确定为错误词语,并确定“蓝瘦香菇”对应的正确词语“难受想哭”,进而对“蓝瘦香菇”进行纠错处理。
本公开实施例中,通过在构建的纠错模型中包括名单处理模块,并上传网络聊天场景下的包括错误词语“蓝瘦香菇”以及对应的正确词语“难受想哭”的黑名单到名单处理模块,可以在纠错模型中的纠错模块获取各个错误词语以及对应的待替换词语后,通过名单处理模块查询目标场景下的黑名单,获取存在于黑名单中的第一错误词语“蓝瘦香菇”以及对应的第一待替换词语“难受想哭”,并删除各错误词语以及对应的待替换词语中的“蓝瘦香菇”以及对应的“难受想哭”,从而避免对网络聊天场景下不需要纠正的“蓝瘦香菇”进行纠错处理。
由此,可以避免纠错模型对目标场景下的黑名单中的不需要纠正的错误词语进行纠错处理,进一步提高目标场景下的文本的纠错准确率。
步骤310,获取文本中的非错误词语。
步骤311,根据非错误词语查询目标场景下的白名单,获取存在于白名单中的第一非错误词语。
步骤312,将第一非错误词语作为错误词语,将白名单中第一非错误词语对应的词语,作为错误词语对应的待替换词语。
步骤313,结合各个错误词语对应的待替换词语,对文本进行纠错处理,得到纠错后文本。
在示例性实施例中,目标场景下的名单,还可以包括目标场景下的白名单,目标场景下的白名单中,包括目标场景下的需要纠正的错误词语以及对应的正确词语。
在示例性实施例中,训练好的纠错模型中的名单处理模块,可以获取文本中的非错误词语,再根据各个非错误词语,查询目标场景下的白名单,获取存在于白名单中的第一非错误词语,将第一非错误词语作为错误词语,将白名单中第一非错误词语对应的词语,作为错误词语对应的待替换词语。
举例来说,纠错模型在对待处理的文本进行纠错的过程中,可能会将待处理的文本中的“大腹偏偏”确定为非错误词语而不对“大腹偏偏”进行纠错处理。
本公开实施例中,通过在构建的纠错模型中包括名单处理模块,并上传包括错误词语“大腹偏偏”以及对应的正确词语“大腹便便”的白名单到名单处理模块,可以在纠错模型中的纠错模块获取各个非错误词语后,通过名单处理模块查询目标场景下的白名单,获取存在于白名单中的第一非错误词语“大腹偏偏”,将“大腹偏偏”作为错误词语,将白名单中“大腹偏偏”对应的词语“大腹便便”,作为错误词语“大腹偏偏”对应的待替换词语,从而直接将待处理的文本中的“大腹偏偏”替换为“大腹便便”。
由此,可以避免纠错模型将待处理的文本中的错误词语误判为非错误词语而未对错误词语进行纠错处理的情况,进一步提高目标场景下的文本的纠错准确率。
通过上述分析可知,本公开实施例中构建的纠错模型,可以包括去除专业词语的专业词语豁免模块、生成错误词语以及对应的候选词语列表的目标场景候选召回模块、用于选择待替换词语的经过预训练的纠错模块以及名单处理模块,相应的,在步骤306之前,还可以包括:
构建初始的纠错模型,其中,纠错模型包括:去除专业词语的专业词语豁免模块、生成错误词语以及对应的候选词语列表的目标场景候选召回模块、用于选择待替换词语的经过预训练的纠错模块以及名单处理模块;
获取目标场景下的训练数据;
采用训练数据,对初始的纠错模型进行训练,得到训练好的纠错模型。
其中,初始的纠错模型中的目标场景候选召回模块,可以为采用多业务场景下的训练数据,训练得到的通用的纠错模型中的候选召回模块,经过预训练的纠错模块,可以为采用多业务场景下的训练数据,训练得到的通用的纠错模型中的纠错模块。
在示例性实施例中,可以获取目标场景下的训练数据,利用深度学习的方式,对初始的纠错模型进行训练,得到训练好的纠错模型。通过深度学习的方式训练初始的纠错模型时,目标场景下的训练数据可以包括目标场景下的多个纠错前文本以及对应的纠错后文本,将训练数据中目标场景下的纠错前文本作为输入,将训练数据中纠错后文本作为输出结果,通过不断地调整初始的纠错模型的模型参数对初始的纠错模型进行迭代训练,直至模型输出结果的准确率满足预先设定的阈值,训练结束,得到训练好的纠错模型。
由此,可以预先采用目标场景下的训练数据训练生成纠错模型,进而利用训练好的纠错模型,对目标场景下的文本进行纠错处理,可以提高文本的纠错准确率。
需要说明的是,预先构建的初始的纠错模型,也可以仅包括生成错误词语以及对应的候选词语列表的目标场景候选召回模块和用于选择待替换词语的经过预训练的纠错模块,或者包括去除专业词语的专业词语豁免模块、生成错误词语以及对应的候选词语列表的目标场景候选召回模块以及用于选择待替换词语的经过预训练的纠错模块,或者包括生成错误词语以及对应的候选词语列表的目标场景候选召回模块、用于选择待替换词语的经过预训练的纠错模块以及名单处理模块,本申请对此不作限制。
通过上述分析可知,本公开实施例中,可以利用采用目标场景下的训练数据得到的纠错模型,对待处理的文本进行纠错处理。在一种可能的实现形式中,纠错模型中还可以包括采用多业务场景下的训练数据进行训练得到的通用的纠错模型中的候选召回模块以及纠错模块,从而可以结合目标场景下的词语替换表以及多业务场景下的混合词语替换表,对待处理的文本进行纠错处理。下面结合图4,对本公开提供的文本纠错方法进行进一步说明。
图4是根据本公开第四实施例的文本纠错方法的流程示意图。如图4所示,文本纠错方法,可以包括以下步骤:
步骤401,获取待处理的文本,以及文本所属的目标场景。
步骤402,获取目标场景下的词语替换表,并结合目标场景下的词语替换表,获取文本中的各个错误词语,以及每个错误词语对应的候选词语列表。
步骤403,从各个错误词语对应的候选词语列表中,选择各个错误词语对应的待替换词语。
其中,上述步骤401-403的具体实现过程及原理,可以参考上述实施例的描述,此处不再赘述。
步骤404,获取多业务场景下的混合词语替换表,并结合混合词语替换表以及经过预训练的纠错模块,获取文本中的各个第二错误词语以及对应的待替换词语。
其中,多业务场景下的混合词语替换表,可以包括多业务场景下的错误词语以及对应的正确词语。在示例性实施例中,混合词语替换表可以包括以下表中的至少一个:多业务场景下的错误替换表、多业务场景下的音近字替换表、多业务场景下的形近字替换表。
在示例性实施例中,纠错模型中还可以包括采用多业务场景下的训练数据训练得到的通用的纠错模型中的候选召回模块以及纠错模块(即本公开实施例中的经过预训练的纠错模块)。候选召回模块,可以获取待处理的文本中的各个第二错误词语,并且,针对每个第二错误词语,可以根据第二错误词语,查询多业务场景下的混合词语替换表,获取第二错误词语对应的候选词语,之后,针对每个第二错误词语,可以获取文本与第二错误词语对应的候选词语之间的匹配度,进而根据对应的匹配度,从第二错误词语对应的候选词语中选择匹配度大于预设第二匹配度阈值的多个第二目标候选词语,进而根据多个第二目标候选词语,生成第二错误词语对应的候选词语列表。
进一步的,经过预训练的纠错模块,可以针对每个第二错误词语,从第二错误词语对应的候选词语列表中,选择候选词语作为该第二错误词语对应的待替换词语,从而得到各第二错误词语对应的待替换词语。
需要说明的是,针对每个错误词语,根据文本与错误词语对应的候选词语之间的匹配度,从错误词语对应的候选词语中选择多个目标候选词语时所利用的第一匹配度阈值,与针对每个第二错误词语,根据文本与第二错误词语对应的候选词语之间的匹配度,从第二错误词语对应的候选词语中选择多个第二目标候选词语时所利用的第二匹配度阈值可以不同。在示例性实施例中,可以设置第一匹配度阈值小于第二匹配度阈值,从而可以从错误词语对应的候选词语中选择更多的目标候选词语,提高目标场景下的文本的纠错准确率。
步骤405,结合各个错误词语对应的待替换词语,以及各个第二错误词语以及对应的待替换词语,对文本进行纠错处理,得到纠错后文本。
具体的,在获取待处理的文本中的各个错误词语以及对应的待替换词语,以及各个第二错误词语以及对应的待替换词语后,即可结合各个错误词语对应的待替换词语,以及各个第二错误词语以及对应的待替换词语,对文本进行纠错处理,得到纠错后文本。
通过利用目标场景下的词语替换表,以及采用目标场景下的训练数据训练得到的目标场景候选召回模块以及纠错模块,获取各个错误词语对应的待替换词语,利用多业务场景下的混合词语替换表,以及采用多业务场景下的训练数据训练得到的候选召回模块以及纠错模块,获取各个第二错误词语以及对应的待替换词语,进而结合各个错误词语对应的待替换词语,以及各个第二错误词语以及对应的待替换词语,对文本进行纠错处理,得到纠错后文本,可以进一步提高目标场景下的文本的纠错准确率。
在示例性实施例中,可以采用如下方式,结合各个错误词语对应的待替换词语,以及各个第二错误词语以及对应的待替换词语,对文本进行纠错处理,得到纠错后文本:
结合各个错误词语对应的待替换词语,对文本进行纠错处理,得到第一文本;
获取各个第二错误词语中的第三错误词语,其中,第三错误词语未存在于各个错误词语中;
结合第三错误词语,对第一文本进行纠错处理,得到纠错后文本。
具体的,可以先针对待处理的文本中的每个错误词语,利用错误词语对应的待替换词语,对文本中的错误词语进行替换,得到第一文本,再获取各第二错误词语中,未存在于各个错误词语中的第三错误词语,利用第三错误词语对应的待替换词语,对第一文本中的第三错误词语进行替换,得到纠错后文本。
由此,通过先结合基于目标场景下的词语替换表获取的各个错误词语对应的待替换词语,对文本进行纠错处理,得到第一文本,再结合基于多业务场景下的混合词语替换表获取的各个第二错误词语以及对应的待替换词语,对文本进行进一步纠错处理,可以进一步提高对目标场景下的文本的纠错准确率。
需要说明的是,在示例性实施例中,采用目标场景下的训练数据训练得到的纠错模型中,包括去除专业词语的专业词语豁免模块、生成错误词语以及对应的候选词语列表的目标场景候选召回模块、用于选择待替换词语的纠错模块以及名单处理模块时,纠错模型中也可以包括采用多业务场景下的训练数据训练得到的通用的纠错模型中的候选召回模块以及纠错模块(即本公开实施例中的经过预训练的纠错模块)。
参考图5,本公开实施例中的纠错模型中,可以包括两个分支,其中一个分支包括候选召回模块501以及经过预训练的纠错模块502,另一分支包括专业词语豁免模块503、目标场景候选召回模块504、纠错模块505以及名单处理模块506。
具体的,可以预先构建初始的纠错模型的第一分支,初始的纠错模型第一分支中包括初始的候选召回模块以及初始的纠错模块,通过采用多业务场景下的训练数据,对初始的纠错模型的第一分支进行训练,得到训练后的候选召回模块501以及经过预训练的纠错模块502。
进一步的,可以构建初始的纠错模型的第二分支,其中,初始的纠错模型的第二分支,包括候选召回模块501、经过预训练的纠错模块502以及初始的专业词语豁免模块、初始的名单处理模块,通过采用目标场景下的训练数据,对初始的纠错模型的第二分支进行训练,得到训练后的专业词语豁免模块503、目标场景候选召回模块504、纠错模块505以及名单处理模块506。
进而在获取待处理的文本后,可以通过第一分支的候选召回模块501、经过预训练的纠错模块502,利用多业务场景下的混合词语替换表,获取文本中的各个第二错误词语以及对应的待替换词语,通过第二分支的专业词语豁免模块503、目标场景候选召回模块504、纠错模块505以及名单处理模块506,利用目标场景下的词语替换表、目标场景下的专业词语列表、目标场景下的黑名单和白名单,获取各个错误词语对应的待替换词语,进而结合各个错误词语对应的待替换词语,以及各个第二错误词语以及对应的待替换词语,对文本进行纠错处理,得到纠错后文本。
本公开实施例提供的文本纠错方法,获取待处理的文本,以及文本所属的目标场景后,可以获取目标场景下的词语替换表,并结合目标场景下的词语替换表,获取文本中的各个错误词语,以及每个错误词语对应的候选词语列表,并从各个错误词语对应的候选词语列表中,选择各个错误词语对应的待替换词语,获取多业务场景下的混合词语替换表,并结合混合词语替换表以及经过预训练的纠错模块,获取文本中的各个第二错误词语以及对应的待替换词语,进而结合各个错误词语对应的待替换词语,以及各个第二错误词语以及对应的待替换词语,对文本进行纠错处理,得到纠错后文本,由此,实现了基于目标场景下的词语替换表以及多业务场景下的混合词语替换表,对目标场景下的文本进行纠错,提高了目标场景下的文本纠错准确率。
下面结合图6,对本公开提供的文本纠错装置进行说明。
图6是根据本公开第五实施例的文本纠错装置的结构示意图。
如图6所示,本公开提供的文本纠错装置600,包括:第一获取模块601、第二获取模块602、选择模块603以及第一处理模块604。
其中,第一获取模块601,用于获取待处理的文本,以及文本所属的目标场景;
第二获取模块602,用于获取目标场景下的词语替换表,并结合目标场景下的词语替换表,获取文本中的各个错误词语,以及每个错误词语对应的候选词语列表;
选择模块603,用于从各个错误词语对应的候选词语列表中,选择各个错误词语对应的待替换词语;
第一处理模块604,用于结合各个错误词语对应的待替换词语,对文本进行纠错处理,得到纠错后文本。
需要说明的是,本实施例提供的文本纠错装置,可以执行前述实施例所述的文本纠错方法。其中,文本纠错装置可以为电子设备,也可以被配置在电子设备中,以提高目标场景下的文本纠错准确率。
其中,电子设备,可以是任意能够进行数据处理的静止或者移动计算设备,例如笔记本电脑、智能手机、可穿戴设备等移动计算设备,或者台式计算机等静止的计算设备,或者服务器,或者其它类型的计算设备等,本公开对此不作限制。
需要说明的是,前述对于文本纠错方法的实施例的说明,也适用于本公开提供的文本纠错装置,此处不再赘述。
本公开实施例提供的文本纠错装置,在获取待处理的文本,以及文本所属的目标场景后,获取目标场景下的词语替换表,并结合目标场景下的词语替换表,获取文本中的各个错误词语,以及每个错误词语对应的候选词语列表,再从各个错误词语对应的候选词语列表中,选择各个错误词语对应的待替换词语,进而结合各个错误词语对应的待替换词语,对文本进行纠错处理,得到纠错后文本,由此,实现了基于目标场景下的词语替换表,对目标场景下的文本进行纠错,提高了目标场景下的文本纠错准确率。
下面结合图7,对本公开提供的文本纠错装置进行说明。
图7是根据本公开第六实施例的文本纠错装置的结构示意图。
如图7所示,文本纠错装置700,具体可以包括:第一获取模块701、第二获取模块702、选择模块703以及第一处理模块704,其中,图7中第一获取模块701、第二获取模块702、选择模块703以及第一处理模块704与图6中第一获取模块601、第二获取模块602、选择模块603以及第一处理模块604具有相同功能和结构。
在示例性实施例中,上述装置700还包括:
第三获取模块705,用于获取目标场景下的专业词语列表;
第四获取模块706,用于获取文本中的各个词语;
第五获取模块707,用于根据各个词语查询专业词语列表,获取文本中的专业词语;
第二处理模块708,用于去除文本中的专业词语。
在示例性实施例中,词语替换表包括以下表中的至少一个:目标场景下的错误替换表、目标场景下的音近字替换表、目标场景下的形近字替换表;
在词语替换表包括错误替换表、音近字替换表以及形近字替换表时,第二获取模块,包括:
确定单元,用于确定文本中的各个错误词语;
第一获取单元,用于针对每个错误词语,根据错误词语查询错误替换表、音近字替换表和形近字替换表,获取错误词语对应的候选词语;
第二获取单元,用于针对每个错误词语,获取文本与错误词语对应的候选词语之间的匹配度;
选择单元,用于根据对应的匹配度,从错误词语对应的候选词语中选择多个目标候选词语;
生成单元,用于根据多个目标候选词语,生成错误词语对应的候选词语列表。
在示例性实施例中,上述装置700还包括:
第六获取模块709,用于根据各个错误词语以及对应的待替换词语,查询目标场景下的黑名单,获取存在于黑名单中的第一错误词语以及对应的第一待替换词语;
第三处理模块710,用于删除第一错误词语以及对应的第一待替换词语。
在示例性实施例中,上述装置700还包括:
第七获取模块711,用于获取文本中的非错误词语;
第八获取模块712,用于根据非错误词语查询目标场景下的白名单,获取存在于白名单中的第一非错误词语;
确定模块713,用于将第一非错误词语作为错误词语,将白名单中第一非错误词语对应的词语,作为错误词语对应的待替换词语。
在示例性实施例中,上述第一处理模块704,包括:
第三获取单元,用于获取多业务场景下的混合词语替换表,并结合混合词语替换表以及经过预训练的纠错模块,获取文本中的各个第二错误词语以及对应的待替换词语;
纠错单元,用于结合各个错误词语对应的待替换词语,以及各个第二错误词语以及对应的待替换词语,对文本进行纠错处理,得到纠错后文本。
在示例性实施例中,纠错单元,包括:
第一纠错子单元,用于结合各个错误词语对应的待替换词语,对文本进行纠错处理,得到第一文本;
获取子单元,用于获取各个第二错误词语中的第三错误词语,其中,第三错误词语未存在于各个错误词语中;
第二纠错子单元,用于结合第三错误词语,对第一文本进行纠错处理,得到纠错后文本。
在示例性实施例中,上述装置700还包括:
构建模块,用于构建初始的纠错模型,其中,纠错模型包括:去除专业词语的专业词语豁免模块、生成错误词语以及对应的候选词语列表的目标场景候选召回模块、用于选择待替换词语的经过预训练的纠错模块以及名单处理模块;
第九获取模块,用于获取目标场景下的训练数据;
训练模块,用于采用训练数据,对初始的纠错模型进行训练,得到训练好的纠错模型。
需要说明的是,前述对于文本纠错方法的实施例的说明,也适用于本公开提供的文本纠错装置,此处不再赘述。
本公开实施例提供的文本纠错装置,在获取待处理的文本,以及文本所属的目标场景后,获取目标场景下的词语替换表,并结合目标场景下的词语替换表,获取文本中的各个错误词语,以及每个错误词语对应的候选词语列表,再从各个错误词语对应的候选词语列表中,选择各个错误词语对应的待替换词语,进而结合各个错误词语对应的待替换词语,对文本进行纠错处理,得到纠错后文本,由此,实现了基于目标场景下的词语替换表,对目标场景下的文本进行纠错,提高了目标场景下的文本纠错准确率。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如文本纠错方法。例如,在一些实施例中,文本纠错方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的文本纠错方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本纠错方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式***的服务器,或者是结合了区块链的服务器。
本公开涉及计算机技术领域,特别涉及深度学习、自然语言处理等人工智能技术领域。
需要说明的是,人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
根据本公开实施例的技术方案,在获取待处理的文本,以及文本所属的目标场景后,获取目标场景下的词语替换表,并结合目标场景下的词语替换表,获取文本中的各个错误词语,以及每个错误词语对应的候选词语列表,再从各个错误词语对应的候选词语列表中,选择各个错误词语对应的待替换词语,进而结合各个错误词语对应的待替换词语,对文本进行纠错处理,得到纠错后文本,由此,实现了基于目标场景下的词语替换表,对目标场景下的文本进行纠错,提高了目标场景下的文本纠错准确率。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (19)

1.一种文本纠错方法,包括:
获取待处理的文本,以及所述文本所属的目标场景;
获取所述目标场景下的词语替换表,并结合所述目标场景下的词语替换表,获取所述文本中的各个错误词语,以及每个错误词语对应的候选词语列表;
从所述各个错误词语对应的候选词语列表中,选择所述各个错误词语对应的待替换词语;
结合所述各个错误词语对应的待替换词语,对所述文本进行纠错处理,得到纠错后文本。
2.根据权利要求1所述的方法,其中,在结合所述目标场景下的词语替换表,获取所述文本中的各个错误词语,以及每个错误词语对应的候选词语列表之前,还包括:
获取所述目标场景下的专业词语列表;
获取所述文本中的各个词语;
根据所述各个词语查询所述专业词语列表,获取所述文本中的专业词语;
去除所述文本中的所述专业词语。
3.根据权利要求1所述的方法,其中,所述词语替换表包括以下表中的至少一个:所述目标场景下的错误替换表、所述目标场景下的音近字替换表、所述目标场景下的形近字替换表;
在所述词语替换表包括所述错误替换表、所述音近字替换表以及所述形近字替换表时,所述结合所述目标场景下的词语替换表,获取所述文本中的各个错误词语,以及每个错误词语对应的候选词语列表,包括:
确定所述文本中的各个错误词语;
针对每个错误词语,根据所述错误词语查询所述错误替换表、所述音近字替换表和所述形近字替换表,获取所述错误词语对应的候选词语;
针对每个错误词语,获取所述文本与所述错误词语对应的候选词语之间的匹配度;
根据对应的匹配度,从所述错误词语对应的候选词语中选择多个目标候选词语;
根据所述多个目标候选词语,生成所述错误词语对应的候选词语列表。
4.根据权利要求1或2所述的方法,其中,在结合所述各个错误词语对应的待替换词语,对所述文本进行纠错处理,得到纠错后文本之前,还包括:
根据所述各个错误词语以及对应的待替换词语,查询所述目标场景下的黑名单,获取存在于所述黑名单中的第一错误词语以及对应的第一待替换词语;
删除所述第一错误词语以及对应的第一待替换词语。
5.根据权利要求4所述的方法,其中,在结合所述各个错误词语对应的待替换词语,对所述文本进行纠错处理,得到纠错后文本之前,还包括:
获取所述文本中的非错误词语;
根据所述非错误词语查询所述目标场景下的白名单,获取存在于所述白名单中的第一非错误词语;
将所述第一非错误词语作为错误词语,将所述白名单中所述第一非错误词语对应的词语,作为所述错误词语对应的待替换词语。
6.根据权利要求1所述的方法,其中,所述结合所述各个错误词语对应的待替换词语,对所述文本进行纠错处理,得到纠错后文本,包括:
获取多业务场景下的混合词语替换表,并结合所述混合词语替换表以及经过预训练的纠错模块,获取所述文本中的各个第二错误词语以及对应的待替换词语;
结合所述各个错误词语对应的待替换词语,以及所述各个第二错误词语以及对应的待替换词语,对所述文本进行纠错处理,得到纠错后文本。
7.根据权利要求6所述的方法,其中,所述结合所述各个错误词语对应的待替换词语,以及所述各个第二错误词语以及对应的待替换词语,对所述文本进行纠错处理,得到纠错后文本,包括:
结合所述各个错误词语对应的待替换词语,对所述文本进行纠错处理,得到第一文本;
获取所述各个第二错误词语中的第三错误词语,其中,所述第三错误词语未存在于所述各个错误词语中;
结合所述第三错误词语,对所述第一文本进行纠错处理,得到所述纠错后文本。
8.根据权利要求5所述的方法,其中,在获取所述目标场景下的词语替换表,并结合所述目标场景下的词语替换表,获取所述文本中的各个错误词语,以及每个错误词语对应的候选词语列表之前,还包括:
构建初始的纠错模型,其中,所述纠错模型包括:去除专业词语的专业词语豁免模块、生成错误词语以及对应的候选词语列表的目标场景候选召回模块、用于选择待替换词语的经过预训练的纠错模块以及名单处理模块;
获取所述目标场景下的训练数据;
采用所述训练数据,对所述初始的纠错模型进行训练,得到训练好的纠错模型。
9.一种文本纠错装置,包括:
第一获取模块,用于获取待处理的文本,以及所述文本所属的目标场景;
第二获取模块,用于获取所述目标场景下的词语替换表,并结合所述目标场景下的词语替换表,获取所述文本中的各个错误词语,以及每个错误词语对应的候选词语列表;
选择模块,用于从所述各个错误词语对应的候选词语列表中,选择所述各个错误词语对应的待替换词语;
第一处理模块,用于结合所述各个错误词语对应的待替换词语,对所述文本进行纠错处理,得到纠错后文本。
10.根据权利要求9所述的装置,其中,所述装置还包括:
第三获取模块,用于获取所述目标场景下的专业词语列表;
第四获取模块,用于获取所述文本中的各个词语;
第五获取模块,用于根据所述各个词语查询所述专业词语列表,获取所述文本中的专业词语;
第二处理模块,用于去除所述文本中的所述专业词语。
11.根据权利要求9所述的装置,其中,所述词语替换表包括以下表中的至少一个:所述目标场景下的错误替换表、所述目标场景下的音近字替换表、所述目标场景下的形近字替换表;
在所述词语替换表包括所述错误替换表、所述音近字替换表以及所述形近字替换表时,所述第二获取模块,包括:
确定单元,用于确定所述文本中的各个错误词语;
第一获取单元,用于针对每个错误词语,根据所述错误词语查询所述错误替换表、所述音近字替换表和所述形近字替换表,获取所述错误词语对应的候选词语;
第二获取单元,用于针对每个错误词语,获取所述文本与所述错误词语对应的候选词语之间的匹配度;
选择单元,用于根据对应的匹配度,从所述错误词语对应的候选词语中选择多个目标候选词语;
生成单元,用于根据所述多个目标候选词语,生成所述错误词语对应的候选词语列表。
12.根据权利要求9或10所述的装置,其中,所述装置还包括:
第六获取模块,用于根据所述各个错误词语以及对应的待替换词语,查询所述目标场景下的黑名单,获取存在于所述黑名单中的第一错误词语以及对应的第一待替换词语;
第三处理模块,用于删除所述第一错误词语以及对应的第一待替换词语。
13.根据权利要求12所述的装置,其中,所述装置还包括:
第七获取模块,用于获取所述文本中的非错误词语;
第八获取模块,用于根据所述非错误词语查询所述目标场景下的白名单,获取存在于所述白名单中的第一非错误词语;
确定模块,用于将所述第一非错误词语作为错误词语,将所述白名单中所述第一非错误词语对应的词语,作为所述错误词语对应的待替换词语。
14.根据权利要求9所述的装置,其中,所述第一处理模块,包括:
第三获取单元,用于获取多业务场景下的混合词语替换表,并结合所述混合词语替换表以及经过预训练的纠错模块,获取所述文本中的各个第二错误词语以及对应的待替换词语;
纠错单元,用于结合所述各个错误词语对应的待替换词语,以及所述各个第二错误词语以及对应的待替换词语,对所述文本进行纠错处理,得到纠错后文本。
15.根据权利要求14所述的装置,其中,所述纠错单元,包括:
第一纠错子单元,用于结合所述各个错误词语对应的待替换词语,对所述文本进行纠错处理,得到第一文本;
获取子单元,用于获取所述各个第二错误词语中的第三错误词语,其中,所述第三错误词语未存在于所述各个错误词语中;
第二纠错子单元,用于结合所述第三错误词语,对所述第一文本进行纠错处理,得到所述纠错后文本。
16.根据权利要求13所述的装置,其中,所述装置还包括:
构建模块,用于构建初始的纠错模型,其中,所述纠错模型包括:去除专业词语的专业词语豁免模块、生成错误词语以及对应的候选词语列表的目标场景候选召回模块、用于选择待替换词语的经过预训练的纠错模块以及名单处理模块;
第九获取模块,用于获取所述目标场景下的训练数据;
训练模块,用于采用所述训练数据,对所述初始的纠错模型进行训练,得到训练好的纠错模型。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。
CN202011548334.4A 2020-12-24 2020-12-24 文本纠错方法、装置、电子设备以及存储介质 Active CN112580324B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011548334.4A CN112580324B (zh) 2020-12-24 2020-12-24 文本纠错方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011548334.4A CN112580324B (zh) 2020-12-24 2020-12-24 文本纠错方法、装置、电子设备以及存储介质

Publications (2)

Publication Number Publication Date
CN112580324A true CN112580324A (zh) 2021-03-30
CN112580324B CN112580324B (zh) 2023-07-25

Family

ID=75139372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011548334.4A Active CN112580324B (zh) 2020-12-24 2020-12-24 文本纠错方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN112580324B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160822A (zh) * 2021-04-30 2021-07-23 北京百度网讯科技有限公司 语音识别处理方法、装置、电子设备以及存储介质
CN113553833A (zh) * 2021-06-30 2021-10-26 北京百度网讯科技有限公司 文本纠错的方法、装置及电子设备
CN115630645A (zh) * 2022-12-06 2023-01-20 北京匠数科技有限公司 一种文本纠错方法、装置、电子设备及介质
WO2023045868A1 (zh) * 2021-09-24 2023-03-30 北京字跳网络技术有限公司 一种文本纠错方法及其相关设备
CN117787266A (zh) * 2023-12-26 2024-03-29 人民网股份有限公司 基于预训练知识嵌入的大语言模型文本纠错方法及装置
CN117807990A (zh) * 2023-12-27 2024-04-02 北京海泰方圆科技股份有限公司 一种文本处理方法、装置、设备及介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140104175A1 (en) * 2012-10-16 2014-04-17 Google Inc. Feature-based autocorrection
CN106710592A (zh) * 2016-12-29 2017-05-24 北京奇虎科技有限公司 一种智能硬件设备中的语音识别纠错方法和装置
CN108091328A (zh) * 2017-11-20 2018-05-29 北京百度网讯科技有限公司 基于人工智能的语音识别纠错方法、装置及可读介质
CN108108349A (zh) * 2017-11-20 2018-06-01 北京百度网讯科技有限公司 基于人工智能的长文本纠错方法、装置及计算机可读介质
US20190102373A1 (en) * 2013-01-29 2019-04-04 Tencent Technology (Shenzhen) Company Limited Model-based automatic correction of typographical errors
CN110232129A (zh) * 2019-06-11 2019-09-13 北京百度网讯科技有限公司 场景纠错方法、装置、设备和存储介质
CN110765763A (zh) * 2019-09-24 2020-02-07 金蝶软件(中国)有限公司 语音识别文本的纠错方法、装置、计算机设备和存储介质
CN110852087A (zh) * 2019-09-23 2020-02-28 腾讯科技(深圳)有限公司 中文纠错方法和装置、存储介质及电子装置
CN110909535A (zh) * 2019-12-06 2020-03-24 北京百分点信息科技有限公司 命名实体校对方法、装置、可读存储介质及电子设备
CN111079412A (zh) * 2018-10-18 2020-04-28 北京嘀嘀无限科技发展有限公司 文本纠错方法及装置
CN111160013A (zh) * 2019-12-30 2020-05-15 北京百度网讯科技有限公司 文本纠错方法及装置
CN111369996A (zh) * 2020-02-24 2020-07-03 网经科技(苏州)有限公司 一种特定领域的语音识别文本纠错方法
CN111368506A (zh) * 2018-12-24 2020-07-03 阿里巴巴集团控股有限公司 文本处理方法及装置
WO2020167980A1 (en) * 2019-02-12 2020-08-20 Apple Inc. Frame-based equipment mode of operation for new radio-unlicensed systems and networks
WO2020186778A1 (zh) * 2019-03-15 2020-09-24 平安科技(深圳)有限公司 错词纠正方法、装置、计算机装置及存储介质
CN111753531A (zh) * 2020-06-28 2020-10-09 平安科技(深圳)有限公司 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140104175A1 (en) * 2012-10-16 2014-04-17 Google Inc. Feature-based autocorrection
US20190102373A1 (en) * 2013-01-29 2019-04-04 Tencent Technology (Shenzhen) Company Limited Model-based automatic correction of typographical errors
CN106710592A (zh) * 2016-12-29 2017-05-24 北京奇虎科技有限公司 一种智能硬件设备中的语音识别纠错方法和装置
CN108091328A (zh) * 2017-11-20 2018-05-29 北京百度网讯科技有限公司 基于人工智能的语音识别纠错方法、装置及可读介质
CN108108349A (zh) * 2017-11-20 2018-06-01 北京百度网讯科技有限公司 基于人工智能的长文本纠错方法、装置及计算机可读介质
CN111079412A (zh) * 2018-10-18 2020-04-28 北京嘀嘀无限科技发展有限公司 文本纠错方法及装置
CN111368506A (zh) * 2018-12-24 2020-07-03 阿里巴巴集团控股有限公司 文本处理方法及装置
WO2020167980A1 (en) * 2019-02-12 2020-08-20 Apple Inc. Frame-based equipment mode of operation for new radio-unlicensed systems and networks
WO2020186778A1 (zh) * 2019-03-15 2020-09-24 平安科技(深圳)有限公司 错词纠正方法、装置、计算机装置及存储介质
CN110232129A (zh) * 2019-06-11 2019-09-13 北京百度网讯科技有限公司 场景纠错方法、装置、设备和存储介质
CN110852087A (zh) * 2019-09-23 2020-02-28 腾讯科技(深圳)有限公司 中文纠错方法和装置、存储介质及电子装置
CN110765763A (zh) * 2019-09-24 2020-02-07 金蝶软件(中国)有限公司 语音识别文本的纠错方法、装置、计算机设备和存储介质
CN110909535A (zh) * 2019-12-06 2020-03-24 北京百分点信息科技有限公司 命名实体校对方法、装置、可读存储介质及电子设备
CN111160013A (zh) * 2019-12-30 2020-05-15 北京百度网讯科技有限公司 文本纠错方法及装置
CN111369996A (zh) * 2020-02-24 2020-07-03 网经科技(苏州)有限公司 一种特定领域的语音识别文本纠错方法
CN111753531A (zh) * 2020-06-28 2020-10-09 平安科技(深圳)有限公司 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
龚永罡;汪昕宇;付俊英;王蕴琪;: "面向新媒体领域的错别字自动校对", 信息技术与信息化, no. 10 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160822A (zh) * 2021-04-30 2021-07-23 北京百度网讯科技有限公司 语音识别处理方法、装置、电子设备以及存储介质
CN113553833A (zh) * 2021-06-30 2021-10-26 北京百度网讯科技有限公司 文本纠错的方法、装置及电子设备
CN113553833B (zh) * 2021-06-30 2024-01-19 北京百度网讯科技有限公司 文本纠错的方法、装置及电子设备
WO2023045868A1 (zh) * 2021-09-24 2023-03-30 北京字跳网络技术有限公司 一种文本纠错方法及其相关设备
CN115630645A (zh) * 2022-12-06 2023-01-20 北京匠数科技有限公司 一种文本纠错方法、装置、电子设备及介质
CN117787266A (zh) * 2023-12-26 2024-03-29 人民网股份有限公司 基于预训练知识嵌入的大语言模型文本纠错方法及装置
CN117807990A (zh) * 2023-12-27 2024-04-02 北京海泰方圆科技股份有限公司 一种文本处理方法、装置、设备及介质

Also Published As

Publication number Publication date
CN112580324B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN112580324B (zh) 文本纠错方法、装置、电子设备以及存储介质
CN112597754B (zh) 文本纠错方法、装置、电子设备和可读存储介质
CN112926306B (zh) 文本纠错方法、装置、设备以及存储介质
CN112487173B (zh) 人机对话方法、设备和存储介质
CN112507706B (zh) 知识预训练模型的训练方法、装置和电子设备
CN111310440A (zh) 文本的纠错方法、装置和***
CN111859997A (zh) 机器翻译中的模型训练方法、装置、电子设备及存储介质
CN112506359B (zh) 输入法中候选长句的提供方法、装置及电子设备
CN112560846B (zh) 纠错语料的生成方法、装置及电子设备
CN113053367A (zh) 语音识别方法、语音识别的模型训练方法以及装置
CN116204672A (zh) 图像识别、模型训练方法、装置、设备及存储介质
CN113641829B (zh) 图神经网络的训练与知识图谱的补全方法、装置
CN115248890B (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
CN111339314B (zh) 一种三元组数据的生成方法、装置和电子设备
CN115292467B (zh) 信息处理与模型训练方法、装置、设备、介质及程序产品
CN110688837B (zh) 数据处理的方法及装置
CN114239559B (zh) 文本纠错和文本纠错模型的生成方法、装置、设备和介质
CN114758649B (zh) 一种语音识别方法、装置、设备和介质
CN112687271B (zh) 语音翻译方法、装置、电子设备和存储介质
CN114549695A (zh) 图像生成方法、装置、电子设备及可读存储介质
CN113129894A (zh) 语音识别方法、装置、电子设备以及存储介质
CN116244432B (zh) 语言模型的预训练方法、装置及电子设备
CN112466278B (zh) 语音识别方法、装置和电子设备
CN116127948B (zh) 待标注文本数据的推荐方法、装置及电子设备
CN113657126B (zh) 翻译的方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant