CN115577712B - 一种文本纠错方法及装置 - Google Patents

一种文本纠错方法及装置 Download PDF

Info

Publication number
CN115577712B
CN115577712B CN202211558755.4A CN202211558755A CN115577712B CN 115577712 B CN115577712 B CN 115577712B CN 202211558755 A CN202211558755 A CN 202211558755A CN 115577712 B CN115577712 B CN 115577712B
Authority
CN
China
Prior art keywords
word
text
hot
independent
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211558755.4A
Other languages
English (en)
Other versions
CN115577712A (zh
Inventor
闫玉松
魏海巍
刘凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gongdao Network Technology Co ltd
Original Assignee
Gongdao Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gongdao Network Technology Co ltd filed Critical Gongdao Network Technology Co ltd
Priority to CN202211558755.4A priority Critical patent/CN115577712B/zh
Publication of CN115577712A publication Critical patent/CN115577712A/zh
Application granted granted Critical
Publication of CN115577712B publication Critical patent/CN115577712B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了提供一种文本纠错方法及装置。该方法包括:针对文本纠错任务从待纠错文本中提取多个候选词,其中,所述文本纠错任务配置有独立热词库,所述独立热词库包含多个热词;计算所述候选词对应于所述独立热词库中所含热词的相似度;对所述相似度进行排序,在最大相似度高于预设阈值的情况下,将所述最大相似度对应的所述独立热词库中的热词确定为正确词,将所述候选词替换为所述正确词;在所述最大相似度低于所述预设阈值的情况下,将所述候选词确定为正确词。根据本申请的文本纠错方法及装置,将文本纠错任务与独立热词库绑定,提高文本纠错的实用性,同时能够增加热词匹配的准确率,提高文本纠错的效率。

Description

一种文本纠错方法及装置
技术领域
本申请一个或多个实施例涉及自然语言处理领域,尤其涉及专有名词的识别,具体涉及一种文本纠错的方法及装置。
背景技术
文本在创立、传播的过程中不可避免会出现错漏,对于一些专有词汇,例如人名、地名、机构名等等,其出现频次高,在输入法没有记录为自造词的情况下,很容易出错;另外随着人工智能技术和自然语音处理技术的发展,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言并转变为文本,在此过程中,由于口音、口语习惯等主观或客观因素影响,语音识别生成的文本同样往往存在许多错误。因此,对文本进行纠错处理,尤其是对文本中存在的专有词汇出现的错误进行修正,以得到更为准确的文本是至关重要的,因此需要提供更为准确的文本纠错方案。
目前,文本纠错方法通常会采用分词算法对所述文本内容进行分词处理,建立公有的热词库,根据需要添加热词,以公有热词库中的热词替换待纠错文本。由于分词算法本身可能将较长专有名词切分成多个,造成分词后生成的候选词与热词库中的热词不匹配;同时文本分词后得到全部的分词结果,在分类算法时与全部的热词进行对比,会增大误匹配的误差,不具有针对性;另外,热词库内因为是公用的,可能会出现热词间的冲突,导致匹配错误。
发明内容
本申请提供一种用于文本纠错方法及装置,以解决相关技术中的不足。
根据本申请一个或多个实施例的第一方面,提供一种文本纠错方法,该方法包括:
针对文本纠错任务从待纠错文本中提取多个候选词,其中,所述文本纠错任务配置有独立热词库,所述独立热词库包含多个热词;
计算所述候选词对应于所述独立热词库中所含热词的相似度;
对所述相似度进行排序,在最大相似度高于预设阈值的情况下,将所述最大相似度对应的所述独立热词库中的热词确定为正确词,将所述候选词替换为所述正确词;在所述最大相似度低于所述预设阈值的情况下,将所述候选词确定为正确词。
可选地,所述候选词与所述独立热词库中的热词均具有相应的标签;
所述方法还包括:
确定所述候选词的标签;
计算所述候选词对应于所述独立热词库中与所述候选词具有相同标签的热词的相似度。
可选地,所述独立热词库中的热词通过下述方式得到:
接收用户输入的热词;和/或,
采用命名实体识别模型从所述文本纠错任务的相关文件中提取多个热词,其中,所述文本纠错任务的相关文件由正确词组成。
可选地,所述针对文本纠错任务从待纠错文本中提取多个候选词,包括:
采用所述命名实体识别模型从所述待纠错文本中提取多个候选词。
可选地,所述计算所述候选词对应于所述独立热词库中所含热词的相似度,包括:
生成所述候选词与所述独立热词库中所含热词的拼音字符串,计算所述候选词与所述独立热词库中所含热词的拼音字符串的编辑距离;
根据所述拼音字符串的编辑距离与所述候选词与所述热词库中所含热词的拼音字符串长度之和的比值计算所述相似度。
可选地,所述计算所述候选词对应于所述独立热词库中所含热词的相似度,包括:
分别生成所述候选词与所述独立热词库中所含热词的拼音字母字符串或拼音字母与声调的混合字符串,计算所述候选词与所述独立热词库中所含热词的拼音字符串的编辑距离,或计算所述候选词与所述独立热词库中所含热词的混合字符串的编辑距离;
根据所述拼音字符串的编辑距离与用于计算该编辑距离的拼音字符串长度之和的比值计算所述相似度,或根据所述混合字符串的编辑距离与用于计算该编辑距离的混合字符串长度之和的比值计算所述相似度。
可选地,针对所述候选词与所述独立热词库中所含热词中的任一词,通过下述方式生成所述任一词的拼音字符串或混合字符串:
将所述任一词中每个字的全拼拼音字母进行拼接,得到全拼拼音字母字符串以作为所述任一词的第一拼音字母字符串,或将所述任一词中每个字的全拼拼音字母与表征声调的字符进行拼接,得到拼音字母与音调的混合字符串以作为所述任一词的第一混合字符串;其中,所述第一拼音字母字符串或第一混合字符串在参与计算所述编辑距离时,参与计算的每个字符单元为所述第一拼音字母字符串中的每个拼音字母或所述第一混合字符串中的每个拼音字母和表征声调的字符;或者
将所述任一词中每个字的全拼拼音字母转换为首个音节和其他音节的组合,并将各个字的首个音节与其他音节进行拼接,得到拼音结构字符串以作为所述任一词的第二拼音字母字符串,或将各个字的首个音节、其他音节与表征声调的字符进行拼接,得到音节与声调的混合字符串以作为所述任一词的第二混合字符串;其中,所述第二拼音字母字符串或第二混合字符串在参与计算所述编辑距离时,参与计算的每个字符单元为所述第二拼音字母字符串中的每个音节或所述第二混合字符串中的每个音节和表征声调的字符。
可选地,所述方法还包括:
在确认完成所述文本纠错任务的情况下,释放所述文本纠错任务配置的所述独立热词库。
根据本申请一个或多个实施例的第二方面,提供一种文本纠错装置,该装置包括:
提取单元,用于针对文本纠错任务从待纠错文本中提取多个候选词,其中,所述文本纠错任务均配置独立热词库,所述独立热词库包含多个热词;
计算单元,用于计算所述候选词对应于所述独立热词库中任一热词的相似度;
替换单元,用于对所述相似度进行排序,在最大相似度高于预设阈值的情况下,将所述最大相似度对应的所述独立热词库中的热词确定为正确词,将所述候选词替换为所述正确词;在所述最大相似度低于所述预设阈值的情况下,将所述候选词确定为正确词。
根据本申请一个或多个实施例的第三方面,提供一种电子设备,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;所述存储器中存储机器可读指令,所述处理器通过调用所述机器可读指令,执行所述指令时实现一种可选的所述的文本纠错方法。
根据本申请一个或多个实施例的第四方面,提供一种机器可读存储介质,所述机器可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,实现一种可选的所述的文本纠错的方法。
应用本申请提供的实施例,通过独立热词库实现对文本纠错任务的针对性纠错,与现有技术相比,应用本申请的技术方案能够解决热词被分词切分为多个词的问题,提高了热词匹配的准确率,减少误匹配;根据文本纠错任务需要设置独立热词库中的热词,由此也大大提高了文本纠错的实用性,使得文本纠错能够得到更广泛的应用;同时,还能够通过在文本纠错任务完成后释放独立热词库,独立热词库的生命周期与文本纠错任务绑定,大大减少热词库之间的冲突。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本申请一示例性实施例示出的一种文本纠错方法的流程图;
图2是本申请一具体实施例示出的一种文本纠错方法的流程图;
图3是本申请一示例性实施例示出的一种文本纠错装置的结构示意图;
图4是本申请一示例性实施例示出的一种文本纠错装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在说明本申请的文本纠错方法以及文本纠错装置之前,对于本申请中出现的一些技术用语进行简单说明。
(1)自然语言处理
自然语言处理(NLP,Natural Language Processing)是一种专业分析人类语言的人工智能。(下文皆简称为“NLP”)。自然语言是通过人类的自然使用演变而来的,接收和转译自然语言,通过基于概率的算法分析自然语言并输出结果,以解决人与计算机交互的语言问题。
(2)命名实体识别模型
命名实体识别(Named Entity Recognition,NER)是NLP领域中一项基础的信息抽取任务,也是热点的研究方向之一,NER往往是关系抽取、知识图谱、问答***等其他诸多NLP任务的基础。
命名实体识别任务是指从给定的一个非结构化的文本中识别出其中的命名实体,并对实体进行分类,比如时间、人名、地名、机构名等类型的实体。
命名实体识别任务常常转化为序列标注问题,利用BIO、BIOES和BMES等常用的标注规则对经过分词的文本进行token标注。基于序列标注的命名实体识别可以通过以BERT作为底层的文本特征编码器,利用CRF进行实体标签预测。BERT(Bidirectional EncoderRepresentation from Transformers)是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(MLM),以致能生成深度的双向语言表征。BERT表现出了强大的文本表示和理解能力,能够很好地运用在文本纠错任务之中。
(3)编辑距离
编辑距离是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符,***一个字符,删除一个字符。拼音编辑距离是指两个词汇之间,由一个词汇的拼音字串符转成另一个所需的最少编辑操作次数。
下面将对本申请的文本纠错方法以及文本纠错装置进行说明。
文本出现错误的可能性很多,常见的文本错误包括以下类型:
①谐音字词,如阳光事务所-杨光事务所;
②语法错误,如坚强抵制-坚决抵制;
③混淆音字词,如;郎峰事务所;梁丰实物所;
④字词顺序颠倒,如事务所阳光-阳光事务所;
⑤字词补全,如杨事务所-杨光事务所;
⑥形似字错误,如梁干事务所-梁丰事务所;
⑦拼音全拼或缩写,如shiwusuo-事务所;
针对某一具体的文本纠错任务,尤其是在庭审笔录、合同文书、说明书等业务场景中,由于这些文本围绕着某些固定的主题展开,具有确定的人名、地名、机构名等命名实体词汇。这些词汇在文本中的出现频率越高,其出现错误的概率也越大。目前通常会对文本内容采用分词算法进行分词处理,建立公有的热词库,根据需要添加热词,以公有热词库中的热词替换待纠错文本。由于分词算法本身可能将较长专有名词切分成多个,例如,对于一个和“梁丰律师事务所”有关的文本,当待纠错文本中出现“杨峰律师事务所律师到庭参加诉讼”这一段文本的情况,采用分词算法处理后将变成“杨峰/律师/事务所律师/到庭/参加/诉讼”,此时,如果热词库中采用公有热词库,“杨峰”一词的错误将无法识别出来,而即便公有热词库中包含“梁丰”,也不排除还包含“杨分”、“张峰”等词汇,此时多个热词间容易产生冲突,降低文本纠错的准确率。
在一个具体实施例中,对于一场庭审语音识别生成的文本,可以通过其卷宗获取所述独立热词库中的热词,包含某些确定的人物名称、位置地名、机构名称等。并将庭审语音识别文本作为待纠错文本,在待纠错文本中这些人物名称、位置地名、机构名称等词汇可能会出现错漏。因此,本申请提供一种文本纠错的方法,解决当前文本纠错针对性低和准确率不高的问题,能够提高文本纠错任务的效率和准确率。
图1是根据本申请一示例性实施例示出的一种文本纠错方法的流程图。本实施例所示的文本纠错的方法可以应用于多种业务场景下的文本纠错任务之中,其待纠错文本可以是庭审笔录,也可以是小说、报告等文本,所述独立热词库中的热词可以由对文本纠错任务的相关文件包括名称、简介、摘要、卷宗等由正确词组成的内容根据人工审核、分析后输入得到,也可以是根据这些内容采用命名实体识别模型提取得到。之后将以庭审作为业务场景进行示例性说明。
说明书实施例所提供的文本纠错方法的执行主体可以为提供文本纠错功能的计算设备,也可以为提供语音识别功能的计算设备,例如实时会议设备、语音问答设备、个人计算机等,执行主体还可以为后台服务器,由后台服务器提供文本纠错功能。本申请实施例所提供的文本纠错方法可以被设置于执行主体中的软件、硬件电路、逻辑电路中的至少一种执行实现。
如图1所示,所述文本纠错方法主要包括如下步骤:
步骤S101:针对文本纠错任务从待纠错文本中提取多个候选词,其中,所述文本纠错任务配置有独立热词库,所述独立热词库包含多个热词。
所述独立热词库是进行文本纠错的基础。独立热词库包含多个热词,热词即热门词汇,可以理解为在改文本纠错任务中出现频次较高的词汇。
在一个具体的实施例中,所述候选词与所述独立热词库中的热词均具有相应的标签。其中,标签与热词的形式可以是:【标签1:热词1、热词2】、【标签2:热词3、热词4】、【标签3:热词5、热词6、热词7】。假设标签1为人名,标签2为地名,标签3为组织机构名,具体可示例如下:
【人名:郭新星、于华军】
【地名:什刹海街道、大栅栏街道】
【组织机构名:中联财保安阳公司、梁丰律师事务所、北京市朝阳区人民法院】
可以理解的是,上述示例对本申请的标签数量和名字并不构成限制,每一个标签下的热词数量将根据实际情况进行调整。同时,当所述独立热词库中的热词数量较少时,也无需具有标签来以示区别,从而简化操作。
所述独立热词库中的热词可以通过接收用户输入来得到。在这种情况下,用户可以根据所需向独立热词库中输入热词,并可根据需要自行设置是否具有标签。
所述独立热词库中的热词也可以通过采用命名实体识别模型从所述文本纠错任务的相关文件中提取多个热词,其中,所述文本纠错任务的相关文件由正确词组成。所述相关文件是热词的来源基础,相关文件的文件内容由正确词组成,可以理解为所述相关文件不包含错误信息。
在一个具体的实施例中,可以采用所述命名实体识别模型从所述待纠错文本中提取多个候选词。
从待纠错文本提取候选词与从相关文件的文本内容中提取热词采用相同的模型方法,例如命名实体识别模型,可以使得热词与候选词具有相同的来源,保证了热词与候选词的格式与性质的一致性,避免了因为提取方法不同对纠错任务造成的影响。例如,上述提到的和“梁丰律师事务所”有关的文本,当文本纠错任务的相关文本出现“梁丰律师事务所律师到庭参加诉讼”等内容,而待纠错文本中出现“杨峰律师事务所律师到庭参加诉讼”等内容的情况下,如果采用以分词算法为例的提取方法提取热词,处理后将变成“梁丰/律师/事务所律师/到庭/参加/诉讼”,此时,所述独立热词库中的热词将分别包含上述6个词汇;当在待纠错文本中采用命名实体识别模型提取候选词时,将识别出【组织机构名:杨峰律师事务所】。不同的模型方法将会识别和提取出不同的词汇内容,进而对词汇匹配和替换产生影响,在上述的例子中,候选词中“杨峰律师事务所”很难与独立热词库中的热词“梁丰”匹配上,文本纠错准确率会因此下降。
步骤S102:计算所述候选词对应于所述独立热词库中所含热词的相似度。
针对某具体的文本纠错任务,在提取了多个候选词后,对于一个确定的候选词,分别确定其与所述独立热词库中所含的热词的相似度。例如,对于候选词“杨峰律师事务所”,假设改文本纠错任务配置的独立热词库中包含“郭新星”、“于华军”“什刹海街道”、“大栅栏街道”、“中联财保安阳公司”、“梁丰律师事务所”、“北京市朝阳区人民法院”这6个热词,则将分别计算这6个热词与所述候选词“杨峰律师事务所”的相似度,即将得到6个相似度数据。
在一具体实施例中,可以计算所述候选词对应于所述独立热词库中与所述候选词具有相同标签的热词的相似度。在该例子那个,候选词“杨峰律师事务所”具有标签“组织机构名”,根据这一方法将在所述独立热词库中选取同样标签为“组织机构名”的热词,即【组织机构名:中联财保安阳公司、梁丰律师事务所、北京市朝阳区人民法院】这3个热词,分别计算这3个热词与所述候选词“杨峰律师事务所”的相似度,即将得到3个相似度数据。
所述计算所述候选词对应于所述独立热词库中所含热词的相似度,包括:分别生成所述候选词与所述独立热词库中所含热词的拼音字母字符串或拼音字母与声调的混合字符串,计算所述候选词与所述独立热词库中所含热词的拼音字符串的编辑距离,或计算所述候选词与所述独立热词库中所含热词的混合字符串的编辑距离;根据所述拼音字符串的编辑距离与用于计算该编辑距离的拼音字符串长度之和的比值计算所述相似度,或根据所述混合字符串的编辑距离与用于计算该编辑距离的混合字符串长度之和的比值计算所述相似度。
在一具体实施例中,针对所述候选词与所述独立热词库中所含热词中的任一词,通过下述方式生成所述任一词的拼音字符串:将所述任一词中每个字的全拼拼音字母进行拼接,得到全拼拼音字母字符串以作为所述任一词的第一拼音字母字符串;其中,所述第一拼音字母字符串在参与计算所述编辑距离时,参与计算的每个字符单元为所述第一拼音字母字符串中的每个拼音字母。以上文中具有标签的候选词“杨峰律师事务所”为例,该候选词的全拼拼音字符串为“yangfenglvshishiwusuo”,而具有同样标签的【组织机构名:中联财保安阳公司、梁丰律师事务所、北京市朝阳区人民法院】的3个热词的全拼拼音字符串分别为“zhongliancaibaoanyanggongsi”、“liangfenglvshishiwusuo”、“beijingshichaoyangqurenminfayuan”,一个拼音字母作为一个字符,拼音编辑距离是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括增加、删除、替换一个字符。在一具体的实施例中,将增加、删除、替换一个字符均看做一次编辑,这里的拼音编辑距离指从某一候选词的第一拼音字母字符串转换到某一热词的第一拼音字母字符串需要经过的最少编辑操作次数。计算得到这3个热词对应于候选词“杨峰律师事务所”的拼音编辑距离分别为23、2、27。这3个热词与该候选词的第一拼音字母字符串的长度分别为27、22、32、21。所述相似度公式可以为:
为所述候选词A与当前计算的热词B之间的相似度,无单位;分别为在本次编辑距离计算中增加、删除、替换的操作次数,一个操作次数记为一个单位距离;为所述候选词A的字符串的长度,为当前计算的热词B的字符串的长度。
根据计算得到这3个热词对应于候选词“杨峰律师事务所”的相似度分别为0.52、0.95、0.49。
在另一具体实施例中,在一具体实施例中,针对所述候选词与所述独立热词库中所含热词中的任一词,通过下述方式生成所述任一词的混合字符串:将所述任一词中每个字的全拼拼音字母转换为首个音节和其他音节的组合,并将各个字的首个音节、其他音节与表征声调的字符进行拼接,得到音节与声调的混合字符串以作为所述任一词的第二混合字符串;其中,所述第二混合字符串在参与计算所述编辑距离时,参与计算的每个字符单元为所述第二拼音字母字符串中的每个音节或所述第二混合字符串中的每个音节和表征声调的字符。同样以上文中具有标签的候选词“杨峰律师事务所”为例,可以引用第三方库获取每个单字的拼音的首个音节,剩下的音节作为其他音节,与声调一起组成包含3个字符的第二混合字符串,该候选词的第二混合字符串为“y-ang-2-f-eng-1-l-v-4-sh-i-1-sh-i-4-w-u-4-s-uo-3”,而具有同样标签的【组织机构名:中联财保安阳公司、梁丰律师事务所、北京市朝阳区人民法院】的3个热词的第二混合字符串分别为“zh-ong-1-l-ian-2-c-ai-2-b-ao-3-an-1-y-ang-2-g-ong-1-s-i-1”、“l-iang-2-f-eng-1-l-v-4-sh-i-1-sh-i-4-w-u-4-s-uo-3”、“b-ei-3-j-ing-1-sh-i-4-ch-ao-2-y-ang-2-q-u-1-r-en-2-m-in-2-f-a-3-y-uan-4”,其中“-”是为了将字符与字符区分开,“1、2、3、4”分别代表第一、二、三、四声调,同时也可以用“5”代表轻声。拼音编辑距离是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括增加、删除、替换一个字符。在一具体的实施例中,将增加、删除、替换一个字符均看做一次编辑,这里的拼音编辑距离指从某一候选词的第二混合字符串转换到某一热词的第二混合字符串需要经过的最少编辑操作次数。计算得到这3个热词对应于候选词“杨峰律师事务所”的拼音编辑距离分别为14、1、19。这3个热词与该候选词的第二混合字符串的长度分别为23、21、30、21。根据相似度公式可以计算得到这3个热词对应于候选词“杨峰律师事务所”的相似度分别为0.68、0.98、0.62。
本申请中示例的拼字字母字符串和混合字符串均能够计算热词与候选词的相似度,但因为不同音节的拼音长度是不一样的,例如“i”和“ing”均为一个音节,在全拼拼音中,“ing”占三个字符长度,将其操作到“i”需要经历2次删除,对相似度计算公式中的因子影响较大,进而造成相似度计算结果的差别。
在另一具体实施例中,可以将全拼拼音与音调共同组成混合字符串进行编辑距离计算,以提高相似度计算的准确率。
步骤S103:对所述相似度进行排序,在最大相似度高于预设阈值的情况下,将所述最大相似度对应的所述独立热词库中的热词确定为正确词,将所述候选词替换为所述正确词;在所述最大相似度低于所述预设阈值的情况下,将所述候选词确定为正确词。
在一实施例中,当预设阈值为0.9时,当计算得到某热词与候选词的相似度低于0.9,则可以认为该热词与候选词之间不相似,二者之间不匹配,不能够将该热词作为正确词。对某个候选词而言,当任一热词与其对应的相似度均低于预设阈值的时候,说明所述独立库中没有热词能够与其匹配上,可以认为该候选词本身即是正确词,不需要纠错;当有超过一个热词与其对应的相似度高于预设阈值的时候,说明有多个热词能够与其匹配,可以认为该候选词是错误词,需要纠错,而其最有可能的正确词便是与其相似度最高的热词,因此优选相似度最高的热词作为正确词替换该候选词。以上文中具有标签的候选词“杨峰律师事务所”为例,可以发现,无论是采用拼音字母字符串计算编辑距离,还是采用混合字符串计算编辑距离,与候选词“杨峰律师事务所”相似度最高的热词均为“梁丰律师事务所”,且其相似度分别为0.95和0.98,均超过预设阈值,可以认为热词“梁丰律师事务所”是所述候选词“杨峰律师事务所”的正确词,将在待纠错文本中将所述候选词替换为所述正确词。
图2是本申请一具体实施例示出的一种文本纠错方法的流程图;本实施方式在前述实施例的基础上,描述了如何在完成所述文本纠错任务后,释放所述独立热词库,具体包括如下步骤:
步骤S201:针对文本纠错任务从待纠错文本中提取多个候选词,其中,所述文本纠错任务配置有独立热词库,所述独立热词库包含多个热词。
步骤S202:计算所述候选词对应于所述独立热词库中所含热词的相似度。
步骤S203:对所述相似度进行排序,在最大相似度高于预设阈值的情况下,将所述最大相似度对应的所述独立热词库中的热词确定为正确词,将所述候选词替换为所述正确词;在所述最大相似度低于所述预设阈值的情况下,将所述候选词确定为正确词。
步骤S204:在确认完成所述文本纠错任务的情况下,释放所述文本纠错任务配置的所述独立热词库。
针对文本纠错任务,在将所述待纠错文本中提取得到的所有候选词均确定为正确词后,生成已纠错文本,所述文本纠错任务即确认完成。所述文本纠错任务配置有独立热词库,所述独立热词库与所述文本纠错任务已进行绑定,具有相同的生命周期,在确认文本纠错任务完成的情况下,所述独立热词库即可释放。以庭审作为业务场景进行示例性说明,在一具体实施例中,在建立跟该场庭审ID绑定的独立热词库,所述热词库中的热词根据庭审卷宗即相关文件得到,所述独立热词库在开庭时生效,庭审以语音识别技术生成庭审笔录文本,即待纠错文本,并提取候选词与所述独立热词库中的热词进行相似度计算,进而确定成正确词,庭审结束后释放该独立热词库,以减少缓存。
在一具体实施例中,可以采用公有热词库对独立热词库进行补充,公有热词库包含常见热词,例如“律师事务所”、“法院”等词汇,在出现冲突时,独立热词库中的热词具有更高优先级,在相似度相同时可以优先被确定为正确词。公有热词库不与文本纠错任务绑定,在任务完成后也不会释放。
与前述方法的实施例相对应,本申请实施例还提供了一种文本纠错装置,用于支持上述任意一个实施例或其组合所提供的文本纠错方法。
图3是一示例性实施例示出的一种文本纠错估装置的结构示意图,装置包括:提取单元31、计算单元32、替换单元33。
提取单元31,用于针对文本纠错任务从待纠错文本中提取多个候选词,其中,所述文本纠错任务均配置独立热词库,所述独立热词库包含多个热词;
计算单元32,用于计算所述候选词对应于所述独立热词库中任一热词的相似度;
替换单元33,用于对所述相似度进行排序,在最大相似度高于预设阈值的情况下,将所述最大相似度对应的所述独立热词库中的热词确定为正确词,将所述候选词替换为所述正确词;在所述最大相似度低于所述预设阈值的情况下,将所述候选词确定为正确词。
在一示例性实施例中,提取单元31还用于通过下述方式得到所述独立热词库中的热词:接收用户输入的热词;和/或,采用命名实体识别模型从所述文本纠错任务的相关文件中提取多个热词,其中,所述文本纠错任务的相关文件由正确词组成。
在另一示例性实施例中,提取单元31还用于采用所述命名实体识别模型从所述待纠错文本中提取多个候选词。
计算单元32还用于确定所述候选词的标签;计算所述候选词对应于所述独立热词库中与所述候选词具有相同标签的热词的相似度。在一具体实施例中,计算单元32还用于分别生成所述候选词与所述独立热词库中所含热词的拼音字母字符串或拼音字母与声调的混合字符串,计算所述候选词与所述独立热词库中所含热词的拼音字符串的编辑距离,或计算所述候选词与所述独立热词库中所含热词的混合字符串的编辑距离;根据所述拼音字符串的编辑距离与用于计算该编辑距离的拼音字符串长度之和的比值计算所述相似度,或根据所述混合字符串的编辑距离与用于计算该编辑距离的混合字符串长度之和的比值计算所述相似度。
在另一示例性实施例中,计算单元32还用于针对所述候选词与所述独立热词库中所含热词中的任一词,通过下述方式生成所述任一词的拼音字符串或混合字符串:将所述任一词中每个字的全拼拼音字母进行拼接,得到全拼拼音字母字符串以作为所述任一词的第一拼音字母字符串,或将所述任一词中每个字的全拼拼音字母与表征声调的字符进行拼接,得到拼音字母与音调的混合字符串以作为所述任一词的第一混合字符串;其中,所述第一拼音字母字符串或第一混合字符串在参与计算所述编辑距离时,参与计算的每个字符单元为所述第一拼音字母字符串中的每个拼音字母或所述第一混合字符串中的每个拼音字母和表征声调的字符;或者将所述任一词中每个字的全拼拼音字母转换为首个音节和其他音节的组合,并将各个字的首个音节与其他音节进行拼接,得到拼音结构字符串以作为所述任一词的第二拼音字母字符串,或将各个字的首个音节、其他音节与表征声调的字符进行拼接,得到音节与声调的混合字符串以作为所述任一词的第二混合字符串;其中,所述第二拼音字母字符串或第二混合字符串在参与计算所述编辑距离时,参与计算的每个字符单元为所述第二拼音字母字符串中的每个音节或所述第二混合字符串中的每个音节和表征声调的字符。
另外,本申请实施例的文本纠错装置还包括:释放单元(图3中未示出)。释放单元,用于在确认完成所述文本纠错任务的情况下,释放所述文本纠错任务配置的所述独立热词库。
本申请文本纠错装置的实施例可以应用在计算机设备上,例如服务器或终端设备。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在文本纠错的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本申请实施例文本纠错装置所在计算机设备的一种硬件结构图,除了图4所示的处理器410、内存430、网络接口420、以及非易失性存储器440之外,实施例中装置431所在的服务器或电子设备,通常根据该计算机设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域技术人员在考虑说明书及实践这里申请的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (9)

1.一种文本纠错方法,其特征在于,包括:
针对文本纠错任务从待纠错文本中提取多个候选词,其中,所述文本纠错任务配置有独立热词库,所述独立热词库包含多个热词;
计算所述候选词对应于所述独立热词库中所含热词的相似度;
对所述相似度进行排序,在最大相似度高于预设阈值的情况下,将所述最大相似度对应的所述独立热词库中的热词确定为正确词,将所述候选词替换为所述正确词;在所述最大相似度低于所述预设阈值的情况下,将所述候选词确定为正确词;
在确认完成所述文本纠错任务的情况下,释放所述文本纠错任务配置的所述独立热词库。
2.根据权利要求1所述的文本纠错方法,其特征在于,所述候选词与所述独立热词库中的热词均具有相应的标签;
所述方法还包括:
确定所述候选词的标签;
计算所述候选词对应于所述独立热词库中与所述候选词具有相同标签的热词的相似度。
3.根据权利要求1所述的文本纠错方法,所述独立热词库包含多个热词,其特征在于,所述独立热词库中的热词通过下述方式得到:
接收用户输入的热词;和/或,
采用命名实体模型从所述文本纠错任务的相关文件中提取多个热词,其中,所述文本纠错任务的相关文件由正确词组成。
4.据权利要求3所述的文本纠错方法,其特征在于,所述针对文本纠错任务从待纠错文本中提取多个候选词,包括:
采用所述命名实体识别模型从所述待纠错文本中提取多个候选词。
5.根据权利要求1所述的文本纠错方法,其特征在于,所述计算所述候选词对应于所述独立热词库中所含热词的相似度,包括:
生成所述候选词与所述独立热词库中所含热词的拼音字符串,计算所述候选词与所述独立热词库中所含热词的拼音字符串的编辑距离;
根据所述拼音字符串的编辑距离与所述候选词与所述热词库中所含热词的拼音字符串长度之和的比值计算所述相似度。
6.根据权利要求5所述的文本纠错方法,其特征在于,所述生成所述候选词与所述独立热词库中所含热词的拼音字符串,包括:
所述候选词与所述独立热词库中所含热词的全拼拼音进行拼接,得到全拼拼音字符串以作为所述拼音字符串;或者
将所述全拼拼音字符串拆分成拼音结构字符串作为所述拼音字符串,所述拼音结构包含第一音节、第二音节和声调。
7.一种文本纠错装置,其特征在于,包括:
提取单元,用于针对文本纠错任务从待纠错文本中提取多个候选词,其中,所述文本纠错任务均配置独立热词库,所述独立热词库包含多个热词;
计算单元,用于计算所述候选词对应于所述独立热词库中任一热词的相似度;
替换单元,用于对所述相似度进行排序,在最大相似度高于预设阈值的情况下,将所述最大相似度对应的所述独立热词库中的热词确定为正确词,将所述候选词替换为所述正确词;在所述最大相似度低于所述预设阈值的情况下,将所述候选词确定为正确词;在确认完成所述文本纠错任务的情况下,释放所述文本纠错任务配置的所述独立热词库。
8.一种电子设备,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;
所述存储器中存储机器可读指令,所述处理器通过调用所述机器可读指令,执行权利要求1至6任一项所述的文本纠错方法。
9.一种机器可读存储介质,所述机器可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,实现权利要求1至6任一项所述的文本纠错方法。
CN202211558755.4A 2022-12-06 2022-12-06 一种文本纠错方法及装置 Active CN115577712B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211558755.4A CN115577712B (zh) 2022-12-06 2022-12-06 一种文本纠错方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211558755.4A CN115577712B (zh) 2022-12-06 2022-12-06 一种文本纠错方法及装置

Publications (2)

Publication Number Publication Date
CN115577712A CN115577712A (zh) 2023-01-06
CN115577712B true CN115577712B (zh) 2023-04-21

Family

ID=84590224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211558755.4A Active CN115577712B (zh) 2022-12-06 2022-12-06 一种文本纠错方法及装置

Country Status (1)

Country Link
CN (1) CN115577712B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114254628A (zh) * 2021-10-09 2022-03-29 江苏金陵科技集团有限公司 一种语音转写中结合用户文本的快速热词提取方法、装置、电子设备及存储介质
CN114580382A (zh) * 2022-02-11 2022-06-03 阿里巴巴(中国)有限公司 文本纠错方法以及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106297799A (zh) * 2016-08-09 2017-01-04 乐视控股(北京)有限公司 语音识别处理方法及装置
CN107958039A (zh) * 2017-11-21 2018-04-24 北京百度网讯科技有限公司 一种检索词纠错方法、装置及服务器
CN113436614B (zh) * 2021-07-02 2024-02-13 中国科学技术大学 语音识别方法、装置、设备、***及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114254628A (zh) * 2021-10-09 2022-03-29 江苏金陵科技集团有限公司 一种语音转写中结合用户文本的快速热词提取方法、装置、电子设备及存储介质
CN114580382A (zh) * 2022-02-11 2022-06-03 阿里巴巴(中国)有限公司 文本纠错方法以及装置

Also Published As

Publication number Publication date
CN115577712A (zh) 2023-01-06

Similar Documents

Publication Publication Date Title
US10891928B2 (en) Automatic song generation
Ostendorf et al. Human language technology: Opportunities and challenges
EP3405912A1 (en) Analyzing textual data
CN112883732A (zh) 基于关联记忆网络的中文细粒度命名实体识别方法及装置
US20220012437A1 (en) Translating method using visually represented elements, and device therefor
KR20180062003A (ko) 음성 인식 오류 교정 방법
CN111508497B (zh) 语音识别方法、装置、电子设备及存储介质
CN112151019A (zh) 文本处理方法、装置及计算设备
CN114333838A (zh) 语音识别文本的修正方法及***
Alrumiah et al. Intelligent Quran Recitation Recognition and Verification: Research Trends and Open Issues
Batista et al. Recovering capitalization and punctuation marks on speech transcriptions
Guillaume et al. Plugging a neural phoneme recognizer into a simple language model: a workflow for low-resource settings
Rajendran et al. A robust syllable centric pronunciation model for Tamil text to speech synthesizer
CN115577712B (zh) 一种文本纠错方法及装置
CN114528851B (zh) 回复语句确定方法、装置、电子设备和存储介质
CN113205813B (zh) 语音识别文本的纠错方法
CN111489742B (zh) 声学模型训练方法、语音识别方法、装置及电子设备
CN114444492A (zh) 一种非标准词类判别方法及计算机可读存储介质
Núñez et al. Phonetic normalization for machine translation of user generated content
CN113468309B (zh) 文本中的答案抽取方法以及电子设备
CN112560493B (zh) 命名实体纠错方法、装置、计算机设备和存储介质
CN111090720B (zh) 一种热词的添加方法和装置
Carson-Berndsen Multilingual time maps: portable phonotactic models for speech technology
Boito Models and resources for attention-based unsupervised word segmentation: an application to computational language documentation
Ekpenyong et al. A Template-Based Approach to Intelligent Multilingual Corpora Transcription

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant