CN116052657B - 语音识别的字符纠错方法和装置 - Google Patents
语音识别的字符纠错方法和装置 Download PDFInfo
- Publication number
- CN116052657B CN116052657B CN202210917316.1A CN202210917316A CN116052657B CN 116052657 B CN116052657 B CN 116052657B CN 202210917316 A CN202210917316 A CN 202210917316A CN 116052657 B CN116052657 B CN 116052657B
- Authority
- CN
- China
- Prior art keywords
- characters
- character
- error correction
- degree
- difference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims abstract description 159
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000003780 insertion Methods 0.000 claims description 32
- 230000037431 insertion Effects 0.000 claims description 32
- 101100039010 Caenorhabditis elegans dis-3 gene Proteins 0.000 claims description 10
- 101100030351 Schizosaccharomyces pombe (strain 972 / ATCC 24843) dis2 gene Proteins 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 14
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000013473 artificial intelligence Methods 0.000 abstract 1
- RGCKGOZRHPZPFP-UHFFFAOYSA-N alizarin Chemical compound C1=CC=C2C(=O)C3=C(O)C(O)=CC=C3C(=O)C2=C1 RGCKGOZRHPZPFP-UHFFFAOYSA-N 0.000 description 12
- 238000007726 management method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 210000001331 nose Anatomy 0.000 description 5
- 210000002105 tongue Anatomy 0.000 description 5
- 241001672694 Citrus reticulata Species 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 235000021018 plums Nutrition 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 241000123069 Ocyurus chrysurus Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例涉及计算机技术领域,尤其涉及一种语音识别的字符纠错方法和装置。先根据字符之间的差异度构建纠错模型,包括:发音模型、发音声调模型和模糊模型,在纠错处理时,将待处理字符输入纠错模型,纠错模型可以输出待处理字符的替换字符以及每个替换字符与待处理字符之间的差异度,然后根据替换字符在不同纠错模型中对应的差异度确定每个替换字符对应的综合差异度,最后,将综合差异度最大的替换字符确定为目标字符,所述目标字符用于替换待处理字符。该方法可以应用于文本纠错,如对人工智能自然语言处理得到的文本进行纠错处理时,方法能够有效降低纠错检索的复杂度,并提高纠错结果的精确性。
Description
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种语音识别的字符纠错方法和装置。
背景技术
当前,语音识别的应用范围越来越广泛。例如,终端设备基于语音助手拨打电话是非常高频的一种使用场景,而拨打电话的指令意图需要精准的槽位词(联系人名称)才能从通讯录召回正确的人名,并正确显示在屏幕上,并进行拨打电话的行为。上述操作对语音识别的准确度有较高的要求,如果识别错误,会给用户形成较差的体验。因此,终端设备在识别语音并拨打电话场景中,正确输出联系人名是必要且有价值的。
如今基于自动语音识别技术(Automatic Speech Recognition,ASR)对用户语音识别的场景中,主要错误都是音近字错误,即待纠字符串与正确字符串音都非常相近。一般基于词表的文本纠错,使用含替换错字的待纠词,从词表中模糊匹配出发音最近的正确的词条。基于编辑距离的伯克哈德-凯勒(Burkhard-Keller,BK)树是拼写纠错的一种传统方法,但编辑距离计算时间复杂度高;仅针对发音的基于编辑距离的BK树进行纠错,粒度过粗,召回较多,难以判断精准。
发明内容
本申请实施例提供一种语音识别的字符纠错方法和装置。在BK树的基础上,通过字符之间的差异度取代编辑距离,重新构建纠错模型,并综合多个纠错模型的输出结果确定最终的目标字符,以目标字符替换待处理的字符,降低了检索的复杂度,同时提高了纠错精确度。
第一方面,本申请实施例提供了一种语音识别的字符纠错方法,所述方法包括:
根据字符之间的差异度构建纠错模型,所述纠错模型包括:发音模型、发音声调模型和模糊模型;
将待处理字符输入所述纠错模型,以使所述纠错模型输出所述待处理字符的替换字符以及每个替换字符与所述待处理字符之间的差异度;
根据所述替换字符在不同纠错模型中对应的差异度确定每个替换字符对应的综合差异度;
将综合差异度最小的替换字符确定为目标字符,所述目标字符用于替换所示待处理字符。
本申请实施例,通过差异度构建纠错模型能够降低检索的复杂度,根据发音模型、发音声调模型和模糊模型输出的替换字符确定最终的目标字符,能够使得目标字符更加精确。
一种实现方式中,所述根据字符之间的差异度构建纠错模型之前,所述方法还包括:
获取用于构建所述纠错模型的字符;
确定字符之间的相似度;
确定字符之间的错误识别关联度;
根据所述相似度和所述错误识别关联度确定字符之间的所述差异度。
本申请实施例中,通过字符之间的相似度和错误识别关联度能够得到合理的差异度。
一种实现方式中,所述确定字符之间的相似度,包括:
根据拼写规律预先配置多个相似等级,每个相似等级对应一个相似度;
根据字符之间的拼写区别确定任意两个字符之间的相似等级;
将所述相似等级对应的相似度确定为所述字符之间的相似度。
一种实现方式中,若所述纠错模型为所述发音模型或所述模糊模型,则所述相似等级包括:声母韵母相同、不等长前后鼻音、等长拼音平翘舌、等长声母不同、等长韵母不同、不等长声母不同,不等长韵母不同、多音字、声母韵母不同。
一种实现方式中,若所述纠错模型为所述模糊模型,则所述相似等级还包括:声母韵母相同口音不同。
本申请实施例中的模糊模型可以对不同口音进行纠错,扩大了纠错范围。
一种实现方式中,若所述纠错模型为所述发音声调模型,则所述相似等级包括:声母韵母相同声调相同、声母韵母相同声调不同、不等长前后鼻音声调相同、不等长前后鼻音声调不同、等长拼音平翘舌声调相同、等长拼音平翘舌声调不同、等长声母不同声调相同、等长声母不同声调不同、等长韵母不同声调相同、等长韵母不同声调不同、不等长声母不同声调相同、不等长声母不同声调不同、不等长韵母不同声调相同、不等长韵母不同声调不同、多音字、声母韵母不同。
一种实现方式中,所述确定字符之间的错误识别关联度,包括:
对每个字符进行多次语音识别,若识别出错,则记录相应的错误识别结果;
统计每个错误识别结果的出现次数以及识别出错的总次数;
将所述出现次数与所述总次数的比值确定为对应的错误识别结果与被识别的字符之间的错误识别关联度。
本申请实施例通过实验统计结果确定字符之间的错误识别关联度,能够提高纠错模型的精确度。
一种实现方式中,所述根据所述相似度和所述错误识别关联度确定字符之间的所述差异度,包括:
根据公式dis(a,b)=1-[W1*V1(a,b)+W2*V2(a,b)]确定字符之间的所述差异度,a、b为任意两个字符,dis(a,b)为字符a和字符b之间的差异度,V1(a,b)为字符a和字符b之间的相似度,W1为相似度对应的权重,V2(a,b)为字符a和字符b之间的错误识别关联度,W2为错误识别关联度对应的权重。
一种实现方式中,所述根据字符之间的差异度构建纠错模型,包括:
将任一字符确定为根节点;
遍历其余字符,基于预设***规则,将所述字符作为所述根节点的子节点***所述纠错模型,或者将所述字符作为子节点的子节点***所述纠错模型。
一种实现方式中,所述预设***规则包括:
以所述根节点为***节点;
计算待***字符与所述***节点的第一差异度;
计算所述***节点与对应的每个子节点之间的第二差异度;
若存在第一子节点,使得所述第一子节点对应的第二差异度与所述第一差异度相同,则以所述第一子节点作为***节点,执行所述计算待***字符与所述***节点的第一差异度的过程;若不存在所述第一子节点,则将所述待***字符作为所述***节点的子节点***所述纠错模型。
本申请实施例基于传统BK树结构,以差异度构建纠错模型,能够降低检索的复杂度。
一种实现方式中,所述方法还包括:
预先设置所述纠错模型的差异度阈值,所述纠错模型输出的所述替换字符与所述待处理字符之间的差异度大于所述差异度阈值。
一种实现方式中,所述根据所述替换字符在不同纠错模型中对应的差异度确定每个替换字符对应的综合差异度,包括:
根据公式Sdis(c,d)=w1*dis1(c,d)+w2*dis2(c,d)+w3*dis3(c,d)确定所述综合差异度,c、d分别为所述替换字符和所述待处理字符,Sdis(c,d)为所述替换字符和所述待处理字符之间的综合差异度,dis1(c,d)为所述发音模型输出的差异度,dis2(c,d)为所述发音声调模型输出的差异度,dis3(c,d)为所述模糊模型输出的差异度,w1、w2和w3依次为dis1(c,d)、dis2(c,d)和dis3(c,d)的权重。
本申请实施例基于三个纠错模型的输出确定最终用于替换待处理字符的目标字符,使得纠错结果更加精确。
第二方面,本申请实施例提供了一种语音识别的字符纠错装置,所述装置包括:
构建模块,用于根据字符之间的差异度构建纠错模型,所述纠错模型包括:发音模型、发音声调模型和模糊模型;
输入模块,用于将待处理字符输入所述纠错模型,以使所述纠错模型输出所述待处理字符的替换字符以及每个替换字符与所述待处理字符之间的差异度;
确定模块,用于根据所述替换字符在不同纠错模型中对应的差异度确定每个替换字符对应的综合差异度;
替换模块,用于将综合差异度最大的替换字符确定为目标字符,所述目标字符用于替换所示待处理字符。
第三方面,本申请实施例提供了一种电子设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储程序指令,所述处理器调用所述程序指令能够执行第一方面提供的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,所述程序被处理器执行时实现第一方面提供的方法。
本申请实施例中,根据字符之间的差异度构建纠错模型,包括:发音模型、发音声调模型和模糊模型,在纠错处理时,将待处理字符输入纠错模型,纠错模型可以输出待处理字符的替换字符以及每个替换字符与待处理字符之间的差异度,然后根据替换字符在不同纠错模型中对应的差异度确定每个替换字符对应的综合差异度,最后,将综合差异度最大的替换字符确定为目标字符,所述目标字符用于替换待处理字符。该方法能够有效降低纠错检索的复杂度,提高纠错结果的精确性。
附图说明
图1为本申请实施例提供的一种语音识别的字符纠错方法的流程图;
图2为本申请实施例提供的一种语音识别的字符纠错方法的示意图;
图3A为本申请实施例提供的另一种语音识别的字符纠错方法的示意图;
图3B为本申请实施例提供的另一种语音识别的字符纠错方法的示意图;
图4为本申请实施例提供的另一种语音识别的字符纠错方法的示意图;
图5A为本申请实施例提供的另一种语音识别的字符纠错方法的流程图;
图5B为本申请实施例提供的另一种语音识别的字符纠错方法的示意图;
图6为本申请实施例提供的一种语音识别的字符纠错装置的结构示意图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了更好的理解本说明书的技术方案,下面结合附图对本申请实施例进行详细描述。
应当明确,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本说明书保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
现如今,在语音识别领域,如ASR短语识别,主要错误都是音近字错误,即待纠字符串与正确字符串音都非常相近。基于编辑距离的BK树是字符纠错的一种方法,该方法可以在BK树中检索出正确字符,但通过编辑距离进行检索时间复杂度高,检索量大。本申请实施例提供一种语音识别的字符纠错方法,通过字符之间的差异度取代编辑距离,构建纠错模型,降低了检索时间复杂度。
图1为本申请实施例提供的一种语音识别的字符纠错方法的流程图。该方法可以应用于服务器等处理设备,能够处理语音识别出错的情况,如用户语音输入,服务器通过自然语言处理技术进行识别,在识别过程中确定出了某些识别错误需要纠错处理的字符,通过该方法可以输出和用户语音输入相符合的文本。如图1所示,该方法可以包括:
步骤101,根据字符之间的差异度构建纠错模型,纠错模型包括:发音模型、发音声调模型和模糊模型。
本申请实施例中用于构建纠错模型的字符通常是已经确定好的,在实际场景中,需要进行纠错处理通常是实词,如人名、地名等,因此,可以根据实验结果或经验预先存储出错概率较高的字符。服务器构建纠错模型时,获取预先存储的字符,并根据字符之间的差异度构建纠错模型。字符之间的差异度主要由字符拼写声调的区别决定。纠错模型可以包括发音模型、发音声调模型和模糊模型三种,同样两个字符之间的差异度在不同的纠错模型中可能不相同。本申请实施例的字符可以指单个字符或多个字符组成的字符串,纠错模型通常以拼音形式构建。
步骤102,将待处理字符输入纠错模型,以使纠错模型输出待处理字符的替换字符以及每个替换字符与待处理字符之间的差异度。
本申请实施例中的待处理字符即为语音识别出错的字符,服务器确定需要纠错的待处理字符后,将待处理字符输入纠错模型,纠错模型按检索规则检索部分字符,将符合条件的替换字符输出,同时输出每个替换字符与待处理字符之间的差异度。其中,检索规则与BK树的检索方式相似。
步骤103,根据替换字符在不同纠错模型中对应的差异度确定每个替换字符对应的综合差异度。
本申请实施例中,服务器构建的纠错模型包括:发音模型、发音声调模型和模糊模型。同样两个字符在不同纠错模型中的差异度可能并不相同。因此需基于所有纠错模型的输出结果,加权输出每个替换字符与待处理字符之间的综合差异度。
步骤104,将综合差异度最小的替换字符确定为目标字符,目标字符用于替换待处理字符。
服务器确定目标字符,并用目标字符替换待处理字符,能够得到与原始语音相符合的正确文本。
本申请实施例中,服务器构建了多个纠错模型一同输出替换字符以及对应的差异度,加权确定最终的综合差异度,并将综合差异度最小的替换字符确定为目标字符,将目标字符替换待处理字符,完成高效、精确的纠错处理。
一种可选的实施例中,服务器根据字符之间的差异度构建纠错模型之前,需要先确定字符之间的差异度。服务器获取预先存储的字符后,先确定字符之间的相似度和字符之间的错误识别关联度,然后根据相似度和错误识别关联度确定字符之间的差异度。
一种可选的实施例中,服务器可以根据字符之间的拼写规律预先配置多个相似等级,每个相似等级对应一个相似度。服务器确定任意两个字符之间的相似度时,可以先根据这两个字符之间的拼写区别确定符合的相似等级,将相似等级对应的相似度确定为字符之间的相似度。
一种可选的实施例中,服务器在构建发音模型和模糊模型时,字符之间的相似等级主要由拼写区别决定,不涉及声调。根据拼写区别,相似等级可以包括:声母韵母相同、不等长前后鼻音、等长拼音平翘舌、等长声母不同、等长韵母不同、不等长声母不同,不等长韵母不同、多音字、声母韵母不同。根据上述排列顺序,相似度逐渐减小,声母韵母相同相似度最高,声母韵母不同相似度最低。可以理解,在实际纠错时,如语音识别纠错,前后鼻音和平翘舌比较容易识别出错。例如,字符‘张zhang’和字符‘詹zhan’是前后鼻音的区别,语音识别时,有一定概率将‘张zhang’错误识别为‘詹zhan’,或将‘詹zhan’错误识别为‘张zhang’。‘张倩zhangqian’和‘詹强zhanqiang’为等长拼音平翘舌,语音识别时,有一定概率将‘张倩zhangqian’错误识别为‘詹强zhanqiang’,或将‘詹强zhanqiang’错误识别为‘张倩zhangqian’。相比于前后鼻音和平翘舌,等长声母不同、等长韵母不同、不等长声母不同,不等长韵母不同、多音字、声母韵母不同的相似度逐渐减小。例如,‘茜qian’和‘茜xi’为多音字,由于二者发声规律存在较大差异,语音识别时,大概率不会将‘茜qian’错误识别为‘茜xi’,因此多音字的相似度较小。构建模糊模型时,在上述相似等级基础上还可以添加一个相似等级:声母韵母相同口音不同。服务器在构建发音声调模型时,字符之间的相似等级主要由拼写和声调决定,具体可以包括:声母韵母相同声调相同、声母韵母相同声调不同、不等长前后鼻音声调相同、不等长前后鼻音声调不同、等长拼音平翘舌声调相同、等长拼音平翘舌声调不同、等长声母不同声调相同、等长声母不同声调不同、等长韵母不同声调相同、等长韵母不同声调不同、不等长声母不同声调相同、不等长声母不同声调不同、不等长韵母不同声调相同、不等长韵母不同声调不同、多音字、声母韵母不同。在本申请实施例提出的相似等级基础上,根据实际情况还可以做进一步的区分,本申请实施例不做限定。
一种可选的实施例中,字符之间的错误识别关联度可以根据实验结果得到。首先,通过人工录入的方式进行录音,然后服务器通过ASR对录入的语音进行多次识别,若识别出错,则记录相应的错误识别结果,识别完成后统计每个错误识别结果的出现次数以及语音识别的总次数,将出现次数与总次数的比值确定为对应的错误识别结果与被识别的字符之间的错误识别关联度。错误识别结果的记录可以采用索引key-数值value的方式,key为正确字符,value为错误识别结果。例如,人工录入李(li)的录音,服务器通过ASR对李(li)识别多次,其中,有5次错误识别为丽(li),有3次错误识别为你(ni),有两次错误识别为乐(le),识别出错的总次数为10次。服务器根据识别可以结果确定李(li)与丽(li)的错误识别关联度为0.5,李(li)和你(ni)的错误识别关联度为0.3,李(li)和乐(le)的错误识别关联度为0.2。
一种可选的实施例中,服务器在确定字符之间的相似度和错误识别关联度之后即可根据公式dis(a,b)=1-[W1*V1(a,b)+W2*V2(a,b)]确定字符之间的差异度,a、b为任意两个字符,dis(a,b)为字符a和字符b之间的差异度,V1(a,b)为字符a和字符b之间的相似度,W1为相似度对应的权重,V2(a,b)为字符a和字符b之间的错误识别关联度,W2为错误识别关联度对应的权重。例如,字符a=‘谢珊’(xieshan),字符b=‘解三’(xiesan),服务器分别计算姓和名的差异度,dis(谢,解)=1,dis(珊,三)=0.7,然后将两个结果相加dis(a,b)=1+0.7=1.7。服务器最终确定‘谢珊’(xieshan)和‘解三’(xiesan)的差异度为1.7。其中,字符之间每个相似等级对应的相似度可以根据实验结果或经验灵活设置。
本申请实施例中,通过字符之间的相似度以及错误识别关联度,能够相对合理的确定字符之间的差异度,相比于编辑距离,字符之间的差异度更加细化,使得检索时间复杂度降低。
一种可选的实施例中,服务器完成字符之间的差异度的计算后,即可根据字符之间的差异度构建纠错模型。本申请实施例的纠错模型以BK树的结构为基础,以字符之间的差异度取代BK树的编辑距离,重新构建。具体步骤可以包括:将任一字符确定为根节点,遍历其余字符,基于预设***规则,将字符作为根节点的子节点***纠错模型,或者将字符作为子节点的子节点***纠错模型。本申请实施例的预设***规则包括:步骤1,以根节点为***节点;步骤2,计算待***字符与所述***节点的第一差异度;步骤3,计算***节点与对应的每个子节点之间的第二差异度;步骤4,若存在第一子节点,使得第一子节点对应的第二差异度与第一差异度相同,则以第一子节点作为***节点,返回步骤2;若不存在第一子节点,则将待***字符作为***节点的子节点***纠错模型。以图2为例,‘zhangsan’201为根节点,当有新的字符‘zhangsen’202需***纠错模型时,先以根节点‘zhangsan’201为***节点,计算得到‘zhangsen’202与‘zhangsan’201的第一差异度为1,由于此时***节点‘zhangsan’201不存在其他子节点,因此可直接将‘zhangsen’202作为***节点‘zhangsan’201的子节点***纠错模型。当有新的字符‘zhangshen’203需***纠错模型时,同样先以根节点‘zhangsan’201为***节点,计算得到‘zhangshen’202与‘zhangsan’201的第一差异度为1,由于此时***节点‘zhangsan’201的子节点‘zhangsen’202与***节点‘zhangsan’201的差异度为1,因此,将‘zhangshen’202重新作为***节点。由于***节点‘zhangsen’202不存在子节点,因此可直接将‘zhangshen’203作为***节点‘zhangsen’202的子节点***纠错模型。当有新的字符‘zhengsen’204***纠错模型时,先以根节点‘zhangsan’201为***节点,计算得到‘zhengsen’204与‘zhangsan’201的第一差异度为2,由于***节点zhangsan’201存在第二差异度为2的子节点,因此可直接将‘zhengsen’204作为***节点‘zhangsan’201的子节点***纠错模型。所有字符***完毕后,每个根节点或子节点与其对应的子节点之间的差异度不重复。
一种可选的实施例中,服务器构建纠错模型后,会设置纠错模型的差异度阈值,待处理字符输入纠错模型后,纠错模型输出所有与待处理字符之间差异度小于差异度阈值的字符。
本申请实施例中,服务器以BK树为基础,以根据字符之间差异度取代BK树的编辑距离重新构建纠错模型,由于字符之间差异度比编辑距离粒度更细,因此能够有效缩小检索范围,提升检索效率。
下面以具体实施例对发音模型、发音声调模型和模糊模型之间的区别做进一步说明。以图3A为例,张茜的姓和名都是多音字,张可以读‘zhang’的一声和四声,茜可以读‘qian’和‘xi’。发音模型由于不涉及声调,‘zhangqian’和‘zhangxi’都可以被判定为和张茜完全相同,差异度为0。发音声调模型涉及声调,‘zhang1qian4’和‘zhang4xi1’可以被判定为和张茜完全相同,差异度为0。在模糊模型中,张茜和‘zhangqiang’、‘zhangxu’的差异度都为1,在发音模型中,张茜和‘zhangqiang’、‘zhangxu’的差异度也可能为1,糊模型基础构造与发音模型相似,区别在于模糊模型基于多音字和口音对模型做了修改,能够有效处理多音字和口音对语音识别的影响。以图3B为例,在发音声调模型中,‘zhang1qian4’301和zhang1qian1’302差异度为1,二者拼写相同,唯一区别在于qian的声调,‘zhang1qian4’301和‘zheng4qian4’303的差异度为2,二者拼写和声调都存在差异。在发音模型中,‘zhangqian’304和‘zhengqian’305的差异度为1,由于发音模型不涉及声调,因此二者差异度相较于发音声调模型中更小。可以理解,‘张茜zhangqian’和‘郑倩zhengqian’在发音声调模型中的差异度为2,在发音模型中的差异度为1。‘zhangqian’304和‘zangqiang’306的拼写差异更大,在发音模型中差异度为2。模糊模型中,‘zhangqian’307和‘zhengqian’309的差异度也为1,与二者在发音模型中的差异度相同。而‘zhangqian’307和‘zangqiang’308的差异度为1,与二者在发音模型中的差异度不同。如果按照字符之间差异度的确定公式,‘zhangqian’307和‘zangqiang’308的差异度应该为2,但模糊模型中考虑了用户口音对语音识别的影响,某些地区的用户发声时不区分平翘舌,‘zhang’通常会发声为‘zang’,基于该影响因素,模糊模型中将‘zhangqian’307和‘zangqiang’308的差异度减小。模糊模型还会考虑到多音字的影响,例如,‘解jie’在人名中通常读‘解xie’,如果用户读人名时将正确读音‘解xie’读成‘解jie’,并且语音错误识别为‘贾jia’,将‘贾jia’输入发音模型,由于‘贾jia’和‘解xie’声母韵母都不同,差异度较高,因此很难将‘解xie’作为替换字符输出;而将‘贾jia’输入模糊模型,由于模糊模型考虑了用户读错多音字的情况,‘贾jia’和‘解xie’的差异度较低,模糊模型有可能将‘解xie’作为替换字符输出。可以理解,如果用户普通话水平较高,发声标准,则发音声调模型输出的替换字符更精确;如果用户普通话水平一般,则发音模型输出的替换字符更精确;如果用户普通话水平较低,且口音浓重,或文化水平一般,读错多音字,则模糊模型输出的替换字符更精确。
一种可选的实施例中,纠错模型输出替换字符以及对应的差异度后,服务器可以根据公式Sdis(c,d)=w1*dis1(c,d)+w2*dis2(c,d)+w3*dis3(c,d)确定所述综合差异度,c、d分别为所述替换字符和所述待处理字符,Sdis(c,d)为所述替换字符和所述待处理字符之间的综合差异度,dis1(c,d)为所述发音模型输出的差异度,dis2(c,d)为所述发音声调模型输出的差异度,dis3(c,d)为所述模糊模型输出的差异度,w1、w2和w3依次为dis1(c,d)、dis2(c,d)和dis3(c,d)的权重。通常情况下,考虑到用户普通话的平均水平,将权重设置为w1>w2>w3。
一种可选的实施例中,服务器还可以基于BK树,以汉明距离取代编辑距离重构纠错模型,汉明距离表示两个(相同长度)字符串对应位置的不同字符的数量。如图4所示,‘zhangsan’401和‘zhangsen’402的汉明距离为1,‘zhangsan’401和‘zhengsen’403的汉明距离为2,‘zhangsen’402和‘zhangshen’404的汉明距离为1,‘zhangsen’402和‘zhagshen’405的汉明距离为2,‘zhengsen’403和‘zhengsan’406的汉明距离为1。‘aim’407和‘acm’408的汉明距离为1,‘aim’407和‘gay’409的汉明距离为3。
对于长度相同的字符串,以汉明距离取代BK树的编辑距离可以降低检索复杂度。
图5A为本申请实施例提供的另一种语音识别的字符纠错方法的流程图。如图5A所示,该方法分为在线纠错处理和离线构建纠错模型两方面。在线纠错处理的流程可以包括:
步骤501,获取待处理文本。
此处的文本可以是语音识别得到的文本。
步骤502,识别并确定待处理字段。
服务器可以通过自然语言理解(Natural Language Understanding,NLU)识别输入的文本,确定需纠错处理的字段。
步骤503,拼音工具注音,生成待处理字符。
服务器可以通过拼音工具给需纠错的文本字段注音,生成待处理字符(拼音形式)。若待处理字段为人名,服务器还可以根据通讯录中记录的人名进行辅助注音。
步骤504,纠错模型召回多个替换字符。
每个替换字符都有对应的与待处理字符的差异度。
步骤505,加权确定目标字符。
根据公式Sdis(c,d)=w1*dis1(c,d)+w2*dis2(c,d)+w3*dis3(c,d)确定替换字符的综合差异度,将综合差异度最小的替换字符确定为目标字符。
步骤506,输出目标字符。
服务器将目标字符替换待处理字符,并输出最终的正确文本。
本申请实施例中,离线构建纠错模型的步骤可以包括:
步骤507,获取基础文本。
此处的基础文本中包括构建纠错模型所需要的字符。
步骤508,确定字符之间的相似度。
步骤509,ASR识别。
步骤510,确定字符之间的错误识别关联度。
服务器通过对每个字符多次进行ASR识别,并统计错误识别的结果和次数,确定错误识别关联度。
步骤511,构建纠错模型。
服务器根据已确定的字符之间的相似度和字符之间的错误识别关联度确定字符之间的差异度。根据字符之间的差异度构建纠错模型,包括发音模型、发音声调模型和模糊模型。此外,根据多音词表512和口音词表513在模糊模型中添加或修改相应的节点(如上述提到的‘贾jia’和‘解jie’之间的差异度以及‘张zhang’和‘脏zang’之间的差异度),使得模糊模型能够处理多音字错误识别和口音错误识别的情况。
在实际的使用场景中,该方法还可以应用于智能手机。如图5B所示,用户如果想拨打电话给张倩,可以通过智能手机的语音助手语音输入“拨打电话给张倩”,智能手机对输入的语音进行识别,识别结果为“拨打电话给张茜”。智能手机确定人名字段出现识别错误后,将‘张茜’确定为待处理字符并输入纠错模型进行纠错处理,纠错模型输出‘张倩’,智能手机根据输出结果进行相应的拨打电话操作。
图6为本申请实施例提供的一种语音识别的字符纠错装置的结构示意图。该装置可以部署于服务器,如图6所示,可以包括:构建模块610、输入模块620、确定模块630和替换模块640。
构建模块610,用于根据字符之间的差异度构建纠错模型,纠错模型包括:发音模型、发音声调模型和模糊模型。
输入模块620,用于将待处理字符输入纠错模型,以使纠错模型输出待处理字符的替换字符以及每个替换字符与待处理字符之间的差异度。
确定模块630,用于根据替换字符在不同纠错模型中对应的差异度确定每个替换字符对应的综合差异度。
替换模块640,用于将综合差异度最大的替换字符确定为目标字符,目标字符用于替换所示待处理字符。
本申请实施例中的语音识别的字符纠错装置可以作为语音识别的字符纠错设备实现本申请实施例提供的语音识别的字符纠错方法。
图7为本申请实施例提供的一种电子设备的结构示意图。
若电子设备700部署于智能手机,电子设备700可以包括处理器710,外部存储器接口720,内部存储器721,通用串行总线(universal serial bus,USB)接口730,充电管理模块740,电源管理模块741,电池742,天线,移动通信模块750,音频模块760等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备700的具体限定。在本申请另一些实施例中,电子设备700可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器710可以包括一个或多个处理单元,例如:处理器710可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器710中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器710中的存储器为高速缓冲存储器。该存储器可以保存处理器710刚用过或循环使用的指令或数据。如果处理器710需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器710的等待时间,因而提高了***的效率。
在一些实施例中,处理器710可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。本申请实施例中,处理器710可以通过I2S总线与音频模块760耦合,实现字符语音录入,统计识别出错结果,确定字符之间错误识别关联度。
USB接口730是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口730可以用于连接充电器为电子设备700充电,也可以用于电子设备700与***设备之间传输数据。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备700的结构限定。在本申请另一些实施例中,电子设备700也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块740用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块740可以通过USB接口730接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块740可以通过电子设备700的无线充电线圈接收无线充电输入。充电管理模块740为电池742充电的同时,还可以通过电源管理模块741为电子设备供电。
电源管理模块741用于连接电池742,充电管理模块740与处理器710。电源管理模块741接收电池742和/或充电管理模块740的输入,为处理器710,内部存储器721和移动通信模块750等供电。
移动通信模块750可以提供应用在电子设备700上的包括2G/3G/4G/5G等无线通信的解决方案。
外部存储器接口720可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备700的存储能力。外部存储卡通过外部存储器接口720与处理器710通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器721可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器721可以包括存储程序区和存储数据区。其中,存储程序区可存储操作***,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备700使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器721可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器710通过运行存储在内部存储器721的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备700的各种功能应用以及数据处理。
若电子设备700部署于服务器,则电子设备700可以包括处理器710和内部存储器721。
处理器710可以通过运行存储在内部存储器721中的程序,从而执行各种功能应用以及数据处理,例如实现本申请实施例提供的语音识别的字符纠错方法。
本申请实施例还提供一种非临时性计算机可读存储介质,上述非临时性计算机可读存储介质存储计算机指令,上述计算机指令使上述计算机执行本申请实施例提供的语音识别的字符纠错方法。
上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory;以下简称:ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory;以下简称:EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
Claims (13)
1.一种语音识别的字符纠错方法,其特征在于,所述方法包括:
根据字符之间的差异度构建纠错模型,所述纠错模型包括:发音模型、发音声调模型和模糊模型;
将待处理字符输入所述纠错模型,以使所述纠错模型输出所述待处理字符的替换字符以及每个替换字符与所述待处理字符之间的差异度;
根据所述替换字符在不同纠错模型中对应的差异度确定每个替换字符对应的综合差异度;
将综合差异度最小的替换字符确定为目标字符,所述目标字符用于替换所述待处理字符;
所述根据字符之间的差异度构建纠错模型之前,所述方法还包括:
获取用于构建所述纠错模型的字符;
确定字符之间的相似度;
确定字符之间的错误识别关联度;
根据所述相似度和所述错误识别关联度确定字符之间的所述差异度;
所述确定字符之间的错误识别关联度,包括:
对每个字符进行多次语音识别,若识别出错,则记录相应的错误识别结果;
统计每个错误识别结果的出现次数以及识别出错的总次数;
将所述出现次数与所述总次数的比值确定为对应的错误识别结果与被识别的字符之间的错误识别关联度。
2.根据权利要求1所述的方法,其特征在于,所述确定字符之间的相似度,包括:
根据拼写规律预先配置多个相似等级,每个相似等级对应一个相似度;
根据字符之间的拼写区别确定任意两个字符之间的相似等级;
将所述相似等级对应的相似度确定为所述字符之间的相似度。
3.根据权利要求2所述的方法,其特征在于,若所述纠错模型为所述发音模型或所述模糊模型,则所述相似等级包括:声母韵母相同、不等长前后鼻音、等长拼音平翘舌、等长声母不同、等长韵母不同、不等长声母不同,不等长韵母不同、多音字、声母韵母不同。
4.根据权利要求2所述的方法,其特征在于,若所述纠错模型为所述模糊模型,则所述相似等级还包括:声母韵母相同口音不同。
5.根据权利要求2所述的方法,其特征在于,若所述纠错模型为所述发音声调模型,则所述相似等级包括:声母韵母相同声调相同、声母韵母相同声调不同、不等长前后鼻音声调相同、不等长前后鼻音声调不同、等长拼音平翘舌声调相同、等长拼音平翘舌声调不同、等长声母不同声调相同、等长声母不同声调不同、等长韵母不同声调相同、等长韵母不同声调不同、不等长声母不同声调相同、不等长声母不同声调不同、不等长韵母不同声调相同、不等长韵母不同声调不同、多音字、声母韵母不同。
6.根据权利要求1所述的方法,其特征在于,所述根据所述相似度和所述错误识别关联度确定字符之间的所述差异度,包括:
根据公式dis(a,b)=1-[W1*V1(a,b)+W2*V2(a,b)]确定字符之间的所述差异度,a、b为任意两个字符,dis(a,b)为字符a和字符b之间的差异度,V1(a,b)为字符a和字符b之间的相似度,W1为相似度对应的权重,V2(a,b)为字符a和字符b之间的错误识别关联度,W2为错误识别关联度对应的权重。
7.根据权利要求1所述的方法,其特征在于,所述根据字符之间的差异度构建纠错模型,包括:
将任一字符确定为根节点;
遍历其余字符,基于预设***规则,将所述字符作为所述根节点的子节点***所述纠错模型,或者将所述字符作为子节点的子节点***所述纠错模型。
8.根据权利要求7所述的方法,其特征在于,所述预设***规则包括:
以所述根节点为***节点;
计算待***字符与所述***节点的第一差异度;
计算所述***节点与对应的每个子节点之间的第二差异度;
若存在第一子节点,使得所述第一子节点对应的第二差异度与所述第一差异度相同,则以所述第一子节点作为***节点,执行所述计算待***字符与所述***节点的第一差异度的过程;若不存在所述第一子节点,则将所述待***字符作为所述***节点的子节点***所述纠错模型。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
预先设置所述纠错模型的差异度阈值,所述纠错模型输出的所述替换字符与所述待处理字符之间的差异度小于所述差异度阈值。
10.根据权利要求1所述的方法,其特征在于,所述根据所述替换字符在不同纠错模型中对应的差异度确定每个替换字符对应的综合差异度,包括:
根据公式Sdis(c,d)=w1*dis1(c,d)+w2*dis2(c,d)+w3*dis3(c,d)确定所述综合差异度,c、d分别为所述替换字符和所述待处理字符,Sdis(c,d)为所述替换字符和所述待处理字符之间的综合差异度,dis1(c,d)为所述发音模型输出的差异度,dis2(c,d)为所述发音声调模型输出的差异度,dis3(c,d)为所述模糊模型输出的差异度,w1、w2和w3依次为dis1(c,d)、dis2(c,d)和dis3(c,d)的权重。
11.一种语音识别的字符纠错装置,其特征在于,所述装置包括:
构建模块,用于根据字符之间的差异度构建纠错模型,所述纠错模型包括:发音模型、发音声调模型和模糊模型;
输入模块,用于将待处理字符输入所述纠错模型,以使所述纠错模型输出所述待处理字符的替换字符以及每个替换字符与所述待处理字符之间的差异度;
确定模块,用于根据所述替换字符在不同纠错模型中对应的差异度确定每个替换字符对应的综合差异度;
替换模块,用于将综合差异度最大的替换字符确定为目标字符,所述目标字符用于替换所示待处理字符;
所述构建模块,还用于获取用于构建所述纠错模型的字符;确定字符之间的相似度;确定字符之间的错误识别关联度;根据所述相似度和所述错误识别关联度确定字符之间的所述差异度;
所述确定字符之间的错误识别关联度,包括:
对每个字符进行多次语音识别,若识别出错,则记录相应的错误识别结果;
统计每个错误识别结果的出现次数以及识别出错的总次数;
将所述出现次数与所述总次数的比值确定为对应的错误识别结果与被识别的字符之间的错误识别关联度。
12.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储程序指令,所述处理器调用所述程序指令能够执行如权利要求1至10任一项所述的方法。
13.一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,所述程序被处理器执行时实现如权利要求1至10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210917316.1A CN116052657B (zh) | 2022-08-01 | 2022-08-01 | 语音识别的字符纠错方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210917316.1A CN116052657B (zh) | 2022-08-01 | 2022-08-01 | 语音识别的字符纠错方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116052657A CN116052657A (zh) | 2023-05-02 |
CN116052657B true CN116052657B (zh) | 2023-10-20 |
Family
ID=86127855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210917316.1A Active CN116052657B (zh) | 2022-08-01 | 2022-08-01 | 语音识别的字符纠错方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116052657B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014074732A (ja) * | 2012-10-02 | 2014-04-24 | Nippon Hoso Kyokai <Nhk> | 音声認識装置、誤り修正モデル学習方法、及びプログラム |
CN109036419A (zh) * | 2018-07-23 | 2018-12-18 | 努比亚技术有限公司 | 一种语音识别匹配方法、终端及计算机可读存储介质 |
CN109147762A (zh) * | 2018-10-19 | 2019-01-04 | 广东小天才科技有限公司 | 一种语音识别方法及*** |
CN109145276A (zh) * | 2018-08-14 | 2019-01-04 | 杭州智语网络科技有限公司 | 一种基于拼音的语音转文字后的文本校正方法 |
CN109712616A (zh) * | 2018-11-29 | 2019-05-03 | 平安科技(深圳)有限公司 | 基于数据处理的电话号码纠错方法、装置及计算机设备 |
CN112562668A (zh) * | 2020-11-30 | 2021-03-26 | 广州橙行智动汽车科技有限公司 | 一种语义信息纠偏方法和装置 |
CN113012705A (zh) * | 2021-02-24 | 2021-06-22 | 海信视像科技股份有限公司 | 一种语音文本的纠错方法及装置 |
CN113343671A (zh) * | 2021-06-07 | 2021-09-03 | 佳都科技集团股份有限公司 | 一种语音识别后的语句纠错方法、装置、设备及存储介质 |
-
2022
- 2022-08-01 CN CN202210917316.1A patent/CN116052657B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014074732A (ja) * | 2012-10-02 | 2014-04-24 | Nippon Hoso Kyokai <Nhk> | 音声認識装置、誤り修正モデル学習方法、及びプログラム |
CN109036419A (zh) * | 2018-07-23 | 2018-12-18 | 努比亚技术有限公司 | 一种语音识别匹配方法、终端及计算机可读存储介质 |
CN109145276A (zh) * | 2018-08-14 | 2019-01-04 | 杭州智语网络科技有限公司 | 一种基于拼音的语音转文字后的文本校正方法 |
CN109147762A (zh) * | 2018-10-19 | 2019-01-04 | 广东小天才科技有限公司 | 一种语音识别方法及*** |
CN109712616A (zh) * | 2018-11-29 | 2019-05-03 | 平安科技(深圳)有限公司 | 基于数据处理的电话号码纠错方法、装置及计算机设备 |
CN112562668A (zh) * | 2020-11-30 | 2021-03-26 | 广州橙行智动汽车科技有限公司 | 一种语义信息纠偏方法和装置 |
CN113012705A (zh) * | 2021-02-24 | 2021-06-22 | 海信视像科技股份有限公司 | 一种语音文本的纠错方法及装置 |
CN113343671A (zh) * | 2021-06-07 | 2021-09-03 | 佳都科技集团股份有限公司 | 一种语音识别后的语句纠错方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116052657A (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108847241B (zh) | 将会议语音识别为文本的方法、电子设备及存储介质 | |
CN107220235B (zh) | 基于人工智能的语音识别纠错方法、装置及存储介质 | |
CN107016994B (zh) | 语音识别的方法及装置 | |
CN106570180B (zh) | 基于人工智能的语音搜索方法及装置 | |
CN106649783B (zh) | 一种同义词挖掘方法和装置 | |
CN112287670A (zh) | 文本纠错方法、***、计算机设备及可读存储介质 | |
JP5141687B2 (ja) | 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法 | |
CN111462748B (zh) | 语音识别处理方法、装置、电子设备及存储介质 | |
CN112784581B (zh) | 文本纠错方法、装置、介质及电子设备 | |
KR20200026295A (ko) | 음절 기반 자동 음성 인식 | |
WO2023070803A1 (zh) | 语音识别方法、装置、设备及存储介质 | |
WO2020156342A1 (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN116052657B (zh) | 语音识别的字符纠错方法和装置 | |
CN114970538A (zh) | 文本纠错的方法及装置 | |
CN115831117A (zh) | 实体识别方法、装置、计算机设备和存储介质 | |
CN113536776B (zh) | 混淆语句的生成方法、终端设备及计算机可读存储介质 | |
CN113724698B (zh) | 语音识别模型的训练方法、装置、设备及存储介质 | |
WO2023029220A1 (zh) | 语音识别方法、装置、设备及存储介质 | |
CN116110370A (zh) | 基于人机语音交互的语音合成***及相关设备 | |
CN114595696A (zh) | 实体消歧方法、实体消歧装置、存储介质与电子设备 | |
CN113536786A (zh) | 混淆汉字的生成方法、终端设备及计算机可读存储介质 | |
KR101777141B1 (ko) | 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법 | |
CN112820274B (zh) | 一种语音信息识别校正方法和*** | |
US20220277731A1 (en) | Word weight calculation system | |
CN113284487B (zh) | 基于语音识别结果的匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |