CN108091328B - 基于人工智能的语音识别纠错方法、装置及可读介质 - Google Patents

基于人工智能的语音识别纠错方法、装置及可读介质 Download PDF

Info

Publication number
CN108091328B
CN108091328B CN201711159758.XA CN201711159758A CN108091328B CN 108091328 B CN108091328 B CN 108091328B CN 201711159758 A CN201711159758 A CN 201711159758A CN 108091328 B CN108091328 B CN 108091328B
Authority
CN
China
Prior art keywords
segment
original
candidate
target
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711159758.XA
Other languages
English (en)
Other versions
CN108091328A (zh
Inventor
肖求根
詹金波
郑利群
邓卓彬
何径舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201711159758.XA priority Critical patent/CN108091328B/zh
Publication of CN108091328A publication Critical patent/CN108091328A/zh
Application granted granted Critical
Publication of CN108091328B publication Critical patent/CN108091328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于人工智能的语音识别纠错方法、装置及可读介质。其方法包括:确定语音识别的目标领域;当语音识别原文本在目标领域中存在通顺度不大于预设的通顺度阈值的原始片段时,对需要纠错的原始片段进行ED片段召回,得到原始片段的候选片段集合;利用预先训练的片段打分模型,为各候选片段进行打分;根据各候选片段的打分,通过解码的方式,从候选片段集合中,获取各原始片段在目标领域中对应的目标片段,从而得到目标领域中的语音识别的纠正文本。本发明的技术方案,弥补了现有技术的不足,提供了一种语音识别的纠错方案,能够对语音识别原文本中的错误片段进行纠正,有效地提高语音识别的准确率。

Description

基于人工智能的语音识别纠错方法、装置及可读介质
【技术领域】
本发明涉及计算机应用技术领域,尤其涉及一种基于人工智能的语音识别纠错方法、装置及可读介质。
【背景技术】
人工智能(Artificial Intelligence;AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。
随着智能科技的发展,智能设备可以在各种场景接收用户的语音,并将用户的语音识别为文本。并根据识别的文本获取对应的结果。例如,在一个办公楼的大厅可以设置一个智能设备,接收用户的语音形式的会议室查询或者班车查询,并将用户的语音查询识别为文本,并根据识别的文本在预先设置的语料库中获取相应的查询结果。另外,类似上述的支持语音输入并提供服务的智能设备还可以应用在开发者大会中,提供会议服务;或者还可以应用在某些产品的导购应用中提供导购服务等。
但是现有的上述技术方案中,智能设备并不对识别后的语音识别文本进行纠错,而识别过程中受用户的方言、口音以及识别环境等影响,可能造成识别的语义识别文本有错误,从而导致基于语音识别文本的查询或者对话都是错误的,因此亟需提供一种语音识别纠错方案。
【发明内容】
本发明提供了一种基于人工智能的语音识别纠错方法、装置及可读介质,用于提供一种语音识别纠错方案。
本发明提供一种基于人工智能的语音识别纠错方法,所述方法包括:
确定语音识别的目标领域;
当语音识别原文本在目标领域中存在通顺度不大于预设的通顺度阈值的原始片段,确定需要对所述原始片段纠错时,
根据所述原始片段的读音,利用所述目标领域中的语料库和/或输入法为所述原始片段提供的输入提示信息,在所述目标领域中对所述原始片段进行ED片段召回,得到所述原始片段在所述目标领域中的候选片段集合,所述候选片段集合中包括多个候选片段;
利用预先训练的片段打分模型,分别为所述目标领域中的所述候选片段集合中的各所述候选片段进行打分;
根据各所述候选片段的打分,通过解码的方式,从各所述原始片段在所述目标领域中的所述候选片段集合中,获取各所述原始片段在所述目标领域中对应的目标片段,从而得到所述目标领域中的所述语音识别的纠正文本。
进一步可选地,如上所述的方法中,确定语音识别的目标领域,具体包括:
接收用户选择的所述目标领域的标识;
或者根据所述语音识别原文本和拼音、以及预先训练的领域分类模型,获取所述目标领域。
进一步可选地,如上所述的方法中,根据所述语音识别原文本和拼音、以及预先训练的领域分类模型,获取所述目标领域,具体包括:
根据所述语音识别原文本和拼音、以及所述领域分类模型,获取所述语音识别的预测领域;
判断所述预测领域为有效领域还是无效领域;
若所述预测领域为有效领域,将所述预测领域作为所述目标领域。
进一步可选地,如上所述的方法中,当语音识别原文本在目标领域中存在通顺度不大于预设的通顺度阈值的原始片段,确定需要对所述原始片段纠错之前,所述方法还包括:
获取所述语音识别原文本中的各所述原始片段在所述目标领域对应的语料库中出现的频次以及各所述原始片段和对应的上下文片段的组合在所述语料库中出现的频次;
根据所述语音识别原文本中的各所述原始片段在所述目标领域对应的语料库中出现的频次、各所述原始片段和对应的上下文片段的组合在所述语料库中出现的频次、以及预先训练的语言通顺度打分模型,预测各所述原始片段的通顺度;
判断各所述原始片段的通顺度是否均大于预设的通顺度阈值;
若是,确定所述语音识别原文本在所述目标领域中不存在需要纠错的所述原始片段;否则,确定所述语音识别原文本在所述目标领域中存在需要纠错的所述原始片段。
进一步地,如上所述的方法中,根据所述原始片段的读音,利用所述目标领域中的语料库和/或输入法为所述原始片段提供的输入提示信息,在所述目标领域中对所述原始片段进行ED片段召回之后,所述方法还包括:
根据所述目标领域中预先设置的短语替换表,对各所述原始片段进行PT片段召回,并将召回的候选片段追加至所述候选片段集合中。
进一步可选地,如上所述的方法中,利用预先训练的片段打分模型,分别为所述目标领域中的所述候选片段集合中的各所述候选片段进行打分,具体包括:
获取各所述候选片段与所述原始片段的相对质量特征;
获取各所述候选片段与所述原始片段的语义相似度特征;
根据各所述候选片段与所述原始片段的相对质量特征、各所述候选片段与所述原始片段的语义相似度特征、以及所述片段打分模型,分别获取各所述候选片段的打分。
进一步可选地,如上所述的方法中,获取各所述候选片段与所述原始片段的相对质量特征,具体包括:
根据所述原始片段在所述语料库中出现的频次、所述原始片段与所述上下文片段的组合在所述语料库中一起出现的频次、各所述候选片段在所述语料库中出现的频次以及各所述候选片段与所述上下文片段的组合在所述语料库中出现的频次,获取各所述候选片段与所述原始片段在所述语料库中出现的频次比以及各所述候选片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合在所述语料库中出现的频次比,和/或各所述候选片段与所述原始片段在所述语料库中出现的频次差以及各所述候选片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合在所述语料库中出现的频次差。
进一步可选地,如上所述的方法中,根据各所述候选片段与所述原始片段的相对质量特征、各所述候选片段与所述原始片段的语义相似度特征、以及所述片段打分模型,分别获取各所述候选片段的打分之前,所述方法还包括:
根据预设的专用名词库和各所述候选片段,获取各所述候选片段的专用名词特征;和/或
获取各所述候选片段与所述原始片段的拼音编辑距离特征。
进一步可选地,如上所述的方法中,根据各所述候选片段的打分,通过解码的方式,从所述语音识别原文本的需要纠错的各所述原始片段在所述目标领域中的所述候选片段集合中,获取各所述原始片段在所述目标领域中对应的目标片段,从而得到所述目标领域中的所述语音识别的纠正文本之后,所述方法还包括:
对所述纠正文本中发生纠正的片段进行纠错干预。
进一步可选地,如上所述的方法中,对所述纠正文本中发生纠正的片段进行纠错干预,具体包括如下至少一种:
判断所述纠正文本中发生纠正的所述目标片段和对应的所述原始片段是否命中预设的黑名单中的纠错对;若命中,则将所述目标片段还原为所述原始片段;和
判断所述纠正文本中发生纠正的所述目标片段和对应的所述原始片段是否属于同义词;若属于,则将所述目标片段还原为所述原始片段。
本发明提供一种基于人工智能的语音识别纠错装置,所述装置包括:
确定模块,用于确定语音识别的目标领域;
ED片段召回模块,用于当语音识别原文本在目标领域中存在通顺度不大于预设的通顺度阈值的原始片段,确定需要对所述原始片段纠错时,根据所述原始片段的读音,利用所述目标领域中的语料库和/或输入法为所述原始片段提供的输入提示信息,在所述目标领域中对所述原始片段进行ED片段召回,得到所述原始片段在所述目标领域中的候选片段集合,所述候选片段集合中包括多个候选片段;
打分模块,用于利用预先训练的片段打分模型,分别为所述目标领域中的所述候选片段集合中的各所述候选片段进行打分;
纠错模块,用于根据各所述候选片段的打分,通过解码的方式,从所述语音识别原文本的需要纠错的各所述原始片段在所述目标领域中的所述候选片段集合中,获取各所述原始片段在所述目标领域中对应的目标片段,从而得到所述目标领域中的所述语音识别的纠正文本。
进一步可选地,如上所述的装置中,所述确定模块,具体用于:
接收用户选择的所述目标领域的标识;
或者根据所述语音识别原文本和拼音、以及预先训练的领域分类模型,获取所述目标领域。
进一步可选地,如上所述的装置中,所述确定模块,具体用于:
根据所述语音识别原文本和拼音、以及所述领域分类模型,获取所述语音识别的预测领域;
判断所述预测领域为有效领域还是无效领域;
若所述预测领域为有效领域,将所述预测领域作为所述目标领域。
进一步可选地,如上所述的装置中,所述装置还包括:
频次获取模块,用于获取所述语音识别原文本中的各所述原始片段在所述目标领域对应的语料库中出现的频次以及各所述原始片段和对应的上下文片段的组合在所述语料库中出现的频次;
预测模块,用于根据所述语音识别原文本中的各所述原始片段在所述目标领域对应的语料库中出现的频次、各所述原始片段和对应的上下文片段的组合在所述语料库中出现的频次、以及预先训练的语言通顺度打分模型,预测各所述原始片段的通顺度;
判断模块,用于判断各所述原始片段的通顺度是否均大于预设的通顺度阈值;若是,确定所述语音识别原文本在所述目标领域中不存在需要纠错的所述原始片段;否则,确定所述语音识别原文本在所述目标领域中存在需要纠错的所述原始片段。
进一步可选地,如上所述的装置中,还包括:
PT片段召回模块,用于根据所述目标领域中预先设置的短语替换表,对各所述原始片段进行PT片段召回,并将召回的候选片段追加至所述候选片段集合中。
进一步可选地,如上所述的装置中,所述打分模块,具体包括:
质量特征获取单元,用于获取各所述候选片段与所述原始片段的相对质量特征;
语义相似度特征获取单元,用于获取各所述候选片段与所述原始片段的语义相似度特征;
打分单元,用于根据各所述候选片段与所述原始片段的相对质量特征、各所述候选片段与所述原始片段的语义相似度特征、以及所述片段打分模型,分别获取各所述候选片段的打分。
进一步可选地,如上所述的装置中,所述质量特征获取单元,具体用于:
根据所述原始片段在所述语料库中出现的频次、所述原始片段与所述上下文片段的组合在所述语料库中一起出现的频次、各所述候选片段在所述语料库中出现的频次以及各所述候选片段与所述上下文片段的组合在所述语料库中出现的频次,获取各所述候选片段与所述原始片段在所述语料库中出现的频次比以及各所述候选片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合在所述语料库中出现的频次比,和/或各所述候选片段与所述原始片段在所述语料库中出现的频次差以及各所述候选片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合在所述语料库中出现的频次差。
进一步可选地,如上所述的装置中,所述打分模块还包括:
专用名词特征获取单元,用于根据预设的专用名词库和各所述候选片段,获取各所述候选片段的专用名词特征;和/或
拼音编辑距离特征获取单元,用于获取各所述候选片段与所述原始片段的拼音编辑距离特征。
进一步可选地,如上所述的装置中,还包括:
纠错干预模块,用于对所述纠正文本中发生纠正的片段进行纠错干预。
进一步可选地,如上所述的装置中,所述纠错干预模块,具体用于执行如下至少一种操作:
判断所述纠正文本中发生纠正的所述目标片段和对应的所述原始片段是否命中预设的黑名单中的纠错对;若命中,则将所述目标片段还原为所述原始片段;和
判断所述纠正文本中发生纠正的所述目标片段和对应的所述原始片段是否属于同义词;若属于,则将所述目标片段还原为所述原始片段。
本发明还提供一种计算机设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的基于人工智能的语音识别纠错方法。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的基于人工智能的语音识别纠错方法。
本发明的基于人工智能的语音识别纠错方法、装置及可读介质,通过确定语音识别的目标领域;当语音识别原文本在目标领域中存在通顺度不大于预设的通顺度阈值的原始片段,确定需要对原始片段纠错时,根据原始片段的读音,利用目标领域中的语料库和/或输入法为原始片段提供的输入提示信息,在目标领域中对原始片段进行ED片段召回,得到原始片段在目标领域中的候选片段集合,候选片段集合中包括多个候选片段;利用预先训练的片段打分模型,分别为目标领域中的候选片段集合中的各候选片段进行打分;根据各候选片段的打分,通过解码的方式,从语音识别原文本的需要纠错的各原始片段在目标领域中的候选片段集合中,获取各原始片段在目标领域中对应的目标片段,从而得到目标领域中的语音识别的纠正文本。本发明的技术方案,弥补了现有技术的不足,提供了一种语音识别的纠错方案,能够对语音识别原文本中的错误片段进行纠正,有效地提高语音识别的准确率,保证语音识别文本的准确性,从而保证了后续基于语音识别文本所提供的服务的准确性。本发明的技术方案基于语音识别的纠错场景提出,能够快速有效的产出纠错结果,纠错效率较高,从而能够有效地提高基于语音的服务质量。且进一步地,本实施例的技术方案,还可以继续进行错误片段替换干预,进一步优化纠错结果。
【附图说明】
图1为本发明的基于人工智能的语音识别纠错方法实施例的流程图。
图2为本实施例提供的混淆音的映射表的示例图。
图3为本实施例的基于人工智能的语音识别纠错方法的一种纠错结果示意图。
图4为本发明的基于人工智能的语音识别纠错装置实施例一的结构图。
图5为本发明的基于人工智能的语音识别纠错装置实施例二的结构图。
图6为本发明的计算机设备实施例的结构图。
图7为本发明提供的一种计算机设备的示例图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
图1为本发明的基于人工智能的语音识别纠错方法实施例的流程图。如图1所示,本实施例的基于人工智能的语音识别纠错方法,具体可以包括如下步骤:
100、确定语音识别的目标领域;
本实施例的基于人工智能的语音识别纠错方法的执行主体为基于人工智能的语音识别纠错装置,该基于人工智能的语音识别纠错装置可以设置在一智能设备中,该智能设备支持用于的语音输入,并识别为文本,该基于人工智能的语音识别纠错装置对识别的原文本进行纠错。或者该基于人工智能的语音识别纠错装置也可以为独立的一电子实体,使用中配合智能设备来工作。
本实施例的基于人工智能的语音识别纠错装置中可以预先设置有多个领域的语料库,可以适用于对多个领域的语音识别文本进行纠错。例如使用时,可以在显示屏上显示基于人工智能的语音识别纠错装置所支持的多个领域,然后用户可以通过人机接口模块如鼠标或者键盘或者触摸屏或者直接采用手指从多个领域中选择目标领域的标识,这样便可以确定目标领域。
或者本实施例中,还可以根据语音识别原文本和拼音、以及预先训练的领域分类模型,获取目标领域。
具体地,本实施例中,可以预先训练有领域分类模型,该领域分类模型可以根据语音识别原文本和对应的拼音,识别该语音识别的属于预设的多个领域中的哪个领域。也就是说,该语音识别模型预先设置有多个可以识别的预设领域。
该领域分类模型在训练时,可以采集数千万条的训练数据,每一条训练数据包括语音识别原文本、对应的拼音以及对应的领域。训练之前,预先为该领域分类模型的参数设置初始值,然后训练时,依次将各训练数据输入该领域分类模型中,领域分类模型输出该训练数据的预测类别。然后判断预测类别与已知的类别是否一致,如果不一致,则修改领域分类模型的参数,使得领域分类模型输出的该训练数据的预测类别与已知类别一致。按照上述方式,采用所有的训练数据对该领域分类模型进行训练,直至该领域分类模型输出的预测类别与已知类别一致,则确定该领域分类模型的参数,从而确定领域分类模型,则领域分类模型训练完毕。
例如,本实施例中,该领域分类模型支持预测n个领域的分类,n大于1,对应的领域分类模型输出结果为n维的向量,每个维度对应一个领域,其上的数值为0-1之间的数,表示当前语音识别对应的领域为该位置对应的领域的概率。使用时,可以选取该概率值最大的领域作为预测领域。另外,由于基于人工智能的语音识别纠错装置中仅设置有预设领域的语料库,而未设置其他领域的语料库,从而无法对其他领域的语音识别进行纠错。因此在识别时,领域分类模型所支持的预设领域中增加一个无效领域的分类,将该领域分类模型所不能支持的其他领域都归为无效领域。此时若领域分类模型预测的语音识别为无效领域,此时不对该语音识别进行纠错。
此时根据语音识别原文本和拼音、以及预先训练的领域分类模型,获取目标领域,具体可以包括:根据语音识别原文本和拼音、以及领域分类模型,获取语音识别的预测领域;具体地,可以从领域分类模型输出的n维的向量中获取概率值最大的位置对应的领域作为预测领域。然后判断预测领域为有效领域还是无效领域;若预测领域为有效领域,将预测领域作为目标领域;若预测领域为无效领域,确定语音识别原文本不需要纠错,此时整个流程结束。
上述领域分类模型可以支持多领域的场景中,使用时领域分类模型可以根据语音识别原文本和对应的拼音,获取语音识别的预测领域。并当该预测领域不是无效领域,则将该预测领域确定为目标领域,便可以开始对语音识别原文本进行纠错。
实际应用中,在某些场景下,领域分类模型也可以仅支持一种目标领域的场景。此时对应的上述实施例中的n等于1,使用时领域分类模型可以根据语音识别原文本和对应的拼音,输出一个2维的向量,其中1维表示目标领域的概率,另1维表示无效领域。判断目标领域对应的概率和无效领域的概率哪个大,当目标领域对应的概率大于无效领域的概率时,确定该预测领域即为目标领域。而若目标领域对应的概率小于无效领域的概率时,确定该预测领域为无效领域,,此时不对该语音识别进行纠错。
101、当语音识别原文本在目标领域中存在通顺度不大于预设的通顺度阈值的原始片段,确定需要对原始片段纠错时,根据原始片段的读音,利用目标领域中的语料库和/或输入法为原始片段提供的输入提示信息,在目标领域中对原始片段进行编辑距离(EditDistance;ED)片段召回,得到原始片段在目标领域中的候选片段集合,候选片段集合中包括多个候选片段;
本实施例中,在对语音识别原文本进行纠错时,需要先对语音识别原文本进行分词处理,得到多个分词。其中的分词策略可以参考相关现有技术的分词策略,在此不做限制。然后可以设置一个预设大小的窗口,将该窗口应用在语音识别原文本中,从前往后滑动窗口,可以选取到各个原始片段。本实施例中的预设窗口的大小可以设置为1个分词的大小或者2个分词的大小或者3个分词的大小。因此,本实施例的原始片段可以由各个分词单独构成,或者由连续的分词组合构成。
由于本实施例应用在语音识别场景中,用户输入的为语音,智能设备识别用户输入的语音得到语音识别文本。但是智能设备识别的语音识别原文本的文字可能会存在错误,所以本实施例中还要使用原始片段的读音进行ED召回,扩大召回范围,提高纠错的效率。
本实施例的ED召回为通过从原始片段的注音串即pinyin上,通过混合声母韵母双删除的方法召回候选片段。召回时的候选片段可以来自语料库中,通过根据原始片段的拼音,通过混合声母韵母双删除取高频部分,进行注音,通过拼音进行倒排索引。例如“中华”,注音为“zhonghua”,为了扩大召回,对声母韵母进行部分删除得到索引,对应生成key-value可以为{“zhonghua”,“zhhua”,“onghua”,”zhongua”,“zhongh”}_-->{“中华”}。然后根据“zhonghua”,“zhhua”,“onghua”,”zhongua”,“zhongh”从语料库中召回对应的候选片段。其中“zhonghua”由于拼音完整,非常容易召回对应的候选片段。而“zhhua”,“onghua”,”zhongua”,“zhongh”可以通过补充声母或者韵母的方式召回对应拼音的候选片段。因此,ED召回的候选片段与原始片段的读音相同或者相似。
另外,本实施例的ED召回的候选片段还可以来自拼音输入法的召回结果,具体可以根据拼音输入法为原始片段提供的输入提示信息。根据用户的常用键入习惯,以当前词的声母韵母顺序方式进行召回,“zhonghua”“zhongh”,“zhhua”得到拼音输入法的候选词列表。实际应用中,也可以引入混淆音进行扩大召回结果。例如图2为本实施例提供的混淆音的映射表的示例图。如图2所示,提供部分混淆音。在根据拼音输入法的召回候选片段时,可以参考图2所示的混淆音,扩大找回结果。
当语音识别原文本在目标领域中存在通顺度不大于预设的通顺度阈值的原始片段,确定需要对原始片段纠错时,此时根据上述方式进行ED片段召回,并将召回的多个候选片段存入一个集合中,得到候选片段集合中。
进一步可选地,本实施例的步骤101之前,还可以包括如下步骤:
(a1)获取语音识别原文本中的各原始片段在目标领域对应的语料库中出现的频次以及各原始片段和对应的上下文片段的组合在所述语料库中出现的频次;
(b1)根据语音识别原文本中的各原始片段在目标领域对应的语料库中出现的频次、各原始片段和对应的上下文片段的组合在语料库中出现的频次、以及预先训练的语言通顺度打分模型,预测各原始片段的通顺度;
(c1)判断各原始片段的通顺度是否均大于预设的通顺度阈值;若是,确定原文本在目标领域中不存在需要纠错的原始片段;否则,确定原文本在目标领域中存在需要纠错的原始片段,然后执行步骤101。
本实施例的语言通顺度打分模型用于对语音识别原文本中该原始片段的通顺度进行打分。将原始片段在目标领域对应的语料库中出现的频次、原始片段和在原文本中的上下文片段的组合在语料库中出现的频次,该语言通顺度打分模型可以预测该原始片段的通顺度。例如该通顺度的分值可以为0-1之间,可以限定数值越大越通顺,数值越小越不通顺。或者也可以采用其他数值范围来表示通顺序,如0-100。
本实施例的语言通顺度打分模型也可以经过预先训练得到,例如预先采集数个训练数据,每个训练数据中对应一个训练原文本,包括训练原文本中的训练原始片段在目标领域的语料库中出现的频次、训练原始片段和在训练原文本中的训练上下文片段的组合在语料库中出现的频次,以及该训练原始片段的已知通顺度。采集的各训练数据中可以包括有已知通顺度为1的正例训练数据,还可以包括有已知通顺度为0的负例训练数据。正负例的比例可以大于1,例如,优选为5:1或者4:1。训练之前,为语言通顺度打分模型的参数设置初始值,训练时,依次将各训练数据输入至该语言通顺度打分模型中,该语言通顺度打分模型为该训练数据预测通顺度,然后判断预测的通顺度与已知的通顺度是否一致,若不一致,调整该语言通顺度打分模型的参数,使得预测的通顺度与已知的通顺度趋于一致。采用上述方式,使用数千万条的训练数据对该语言通顺度打分模型继续训练,直至预测的通顺度与已知的通顺度一致,则确定该语言通顺度打分模型的参数,从而确定该语言通顺度打分模型,该语言通顺度打分模型训练完毕。
本实施例中原始片段的上下文片段为原文本中位于原始片段之前或者之后紧相邻的片段。例如当原始片段包括1个分词时,对应的上下文片段可以包括位于该分词前的1个分词或者2个分词、以及位于该分词后的1个分词或者2个分词。而若原始片段包括2个分词时,对应的上下文片段可以包括为语音识别原文本中位于该原始片段前的1个分词以及位于该原始片段后的1个分词。而若原始片段包括3个分词时,对应的上下文片段可以仅包括语音识别原文本中位于该原始片段前的1个分词以及位于该原始片段后的1个分词。或者考虑到包括较多分词的片段在语音识别原文本中出现的概率较小,本实施例中还可以限定:若原始片段已经包括3个或以上分词时,可以不取其上下文片段。也就是说,当需要取原始片段的上下文片段时,对应原始片段与上下文片段的组合会存在原始片段加上文片段、原始片段加下文片段以及上文片段加原始片段再加下文片段共三个组合。本实施例中,在预测各原始片段的通顺度时可以使用各组合在语料库中出现的频次。同理,在训练时,在各训练数据中也需要包括原始片段与上下文片段的上述各类组合的训练数据,从而保证训练的该语言通顺度打分模型的准确性更高。
进一步可选地,在上述步骤101之后,还可以包括如下PT片段召回的步骤,例如根据目标领域中预先设置的短语替换(Phase Table;PT)表,对需要纠错的原始片段进行PT片段召回,并将召回的候选片段追加至候选片段集合中。
本实施例的PT表与现有技术的PT表不相同,现有技术的PT表多为基于用户输入的搜索词、搜索服务器基于搜索词获取的搜索结果以及用户在搜索结果中的点击反馈信息,来统计原始片段到替换片段的改动频次。而本实施例的应用场景为语音输入,没有搜索服务器的搜索和用户的点击反馈,所以无法采用上述相关方案建立PT表。因此,本实施例中,可以由该基于人工智能的语音识别纠错装置的产品设计人员预先采集语音识别时容易发生错误的原始片段和替换片段,并建议原始片段到替换片段的PT表。也就是说,本实施例的PT表中,仅包括多组原始片段和对应的替换片段,而并不包括改动的频次。例如该PT表中可以包括“青华->清华”的改动;“青华大学->清华大学”的改动等。经过上述处理,得到的候选片段集合中既包括ED召回的候选片段又可以包括PT召回的候选片段。由于本实施例的PT表为产品设计人员预先采集的,数据量较少,所以只对一些错误比较明显的原始片段存在对应的替换片段,而对另外一些原始片段可能在该PT表中不存在替换片段,此时这样的原始片段不做PT片段召回。
102、利用预先训练的片段打分模型,分别为目标领域中的候选片段集合中的各候选片段进行打分;
本实施例中,可以预先训练一个片段打分模型,用于对候选片段集合中的每个候选片段进行打分。本实施例中,对于同一原始片段,使用打分高的候选片段来纠错语音识别原文本中的原始片段的概率,高于使用打分低的候选片段来纠错语音识别原文本中的原始片段的概率。但是纠正语音识别原文本时,还需要考虑原始片段与上下文的通顺性等因素,所以最终得到的纠正文本中,未必采用打分最高的候选片段来替换原始片段。本实施例的片段打分模型可以采用GBRank网络模型。
例如,该步骤102具体可以包括如下步骤:
(a2)获取原始片段在目标领域中的质量特征和候选片段集合中的各候选片段在目标领域中的质量特征;
例如,其中获取原始片段在目标领域中的质量特征,具体可以包括:获取原始片段在目标领域的语料库中出现的频次、原始片段与上下文片段的组合在目标领域的语料库中一起出现的频次。
对应地,获取候选片段集合中的各候选片段在目标领域中的质量特征,具体包括:获取候选片段集合中的各候选片段在目标领域的语料库中出现的频次、各候选片段与上下文片段的组合在语料库中出现的频次。
在获取原始片段的质量特征时,需要获取原始片段、原始片段加上文片段的组合、原始片段加下文片段的组合以及上文片段加原始片段再加下文片段的组合各自在语料库中出现的频率。对应地,各候选片段的质量特征获取方式同理,在此不再赘述。
(b2)根据原始片段在目标领域中的质量特征和各候选片段在目标领域中的质量特征,获取各候选片段与原始片段的相对质量特征;
例如,该步骤(b2),具体可以包括:根据原始片段在语料库中出现的频次、原始片段与上下文片段的组合在语料库中一起出现的频次、各候选片段在语料库中出现的频次以及各候选片段与上下文片段的组合在语料库中出现的频次,获取各候选片段与原始片段在语料库中出现的频次比以及各候选片段和上下文片段的组合与原始片段和上下文片段的组合在语料库中出现的频次比,和/或各候选片段与原始片段在语料库中出现的频次差以及各候选片段和上下文片段的组合与原始片段和上下文片段的组合在语料库中出现的频次差。
具体地,通过获取各候选片段与原始片段在语料库中出现的频次比以及各候选片段和上下文片段的组合与原始片段和上下文片段的组合在语料库中出现的频次比,和/或各候选片段与原始片段在语料库中出现的频次差以及各候选片段和上下文片段的组合与原始片段和上下文片段的组合在语料库中出现的频次差,可以体现候选片段与上下文片段的融合性,如果候选片段与原始片段在语料库中出现的频次比较大,而候选片段和上下文片段的组合,与原始片段和上下文片段的组合在语料库中出现的频次比非常小,则说明该候选片段与上下文片段兼容性较差,不适宜替换原始片段。反之亦然。
同理,如果候选片段与原始片段在语料库中出现的频次差较小,即使用概率差不多,但是候选片段和上下文片段的组合,与原始片段和上下文片段的组合在语料库中出现的频次差非常大,说明候选片段和上下文片段的组合,比始片段和上下文片段的组合在预料库中使用更频繁,则可以认为候选片段与上下文片段具有很强的兼容性,可以采用候选片段替换原始片段,反之亦然。
需要说明的是,若原始片段已经包括3个或以上分词时,可以不取其上下文片段,此时可以仅根据在语料库中出现的频次、各候选片段在语料库中出现的频次,获取各候选片段与原始片段在语料库中出现的频次比,和/或各候选片段与原始片段在语料库中出现的频次差,作为各候选片段与原始片段的相对质量特征。与上述需要取上下文片段相比,获取特征内容不够丰富,因此,本实施例中,优选地,需要获取上下文片段。
另外,需要说明的是,当需要取上下文片段。而原始片段为长文本的句首或者句尾,对应的空上下文片段可以设置预设的句首特征或者句尾特征来表示,以保证数据的对齐。
(c2)获取各候选片段与原始片段的语义相似度特征;
本实施例中,可以采用预设的词典,获取各候选片段的词向量以及原始片段的词向量,然后计算各候选片段的词向量和原始片段的词向量之间的余弦距离,作为该候选片段与原始片段的语义相似度。对应地,如果本实施例中原始片段包括的分词数量为3个或以上时,此时将取各候选片段与原始片段的语义相似度,作为各候选片段与原始片段的语义相似度特征。如果本实施例中原始片段包括的分词数量小于3个,还需要取原始片段的上下文片段,此时,还需要获取各候选片段与上下文片段的组合与原始片段和上下文片段的组合的语义相似度。同理,获取各候选片段和上下文片段的组合的词向量以及原始片段和上下文片段的组合的词向量,然后计算词向量之间的余弦距离,作为该候选片段和上下文片段的组合与原始片段和上下文片段的组合的语义相似度特征。对应地,原始片段加上下文片段的组合包括原始片段加上文片段、原始片段加下文片段以及上文片段加原始片段再加下文片段共三个组合。此时对应地,候选片段与原始片段的语义相似度特征包括:各候选片段与原始片段的语义相似度、该候选片段和上文片段的组合与原始片段和上文片段的组合的语义相似度、该候选片段和下文片段的组合与原始片段和下文片段的组合的语义相似度、以及上文片段、该候选片段和下文片段的组合与上文片段、原始片段和下文片段的组合的语义相似度一起拼接构成的候选片段与原始片段的语义相似度特征。
(d2)根据各候选片段与原始片段的相对质量特征、各候选片段与原始片段的语义相似度特征、以及片段打分模型,分别获取各候选片段的打分。
然后将上述步骤得到的各候选片段与原始片段的相对质量特征、各候选片段与原始片段的语义相似度特征,输入至预先训练的片段打分模型中,该片段打分模型可以预测到该候选片段的打分。
例如片段打分模型训练时,可以采集作为正例和负例的训练原始片段和训练替换片段,如果为正确的替换,对应的打分为1,此时训练数据为正例;否则如果为错误的替换,对应的打分为0;此时训练数据为负例。训练数据中正负例的比例大于1,例如可以为5:1或者4:1。训练之前,预先为该片段打分模型的参数设置初始值,然后依次输入训练数据,若片段打分模型预测的打分与已知打分不一致,调整片段打分模型的参数,使得预测结果与已知结果趋于一致。采用上述方式,不断地采用数千万条的训练数据训练片段打分模型,直到片段打分模型预测的结果与已知结果一致,则确定片段训练打分模型的参数,从而确定片段打分模型,则片段打分模型训练完毕。训练时采用的训练数据的数量越多,训练的片段打分模型越准确,后续使用片段打分模型对候选片段所预测的打分越准确。根据上述方式,预测的打分可以为0-1之间。实际应用中,也可以设置片段打分模型位于其他数值范围内,如0-100之间,原理类似,在此不再赘述。
进一步可选地,在为各候选片打分之前,还可以包括如下步骤:根据预设的专用名词库和各候选片段,获取各候选片段的专用名词特征;和/或获取各候选片段与原始片段的拼音编辑距离特征。
具体地,各候选片段的专用名词特征用于标识该候选片段是否属于专用名词。例如根据专用名词库判断某候选片段是否属于专用名词,若属于,则对应的专用名词特征为1,否则对应的专用名词特征为0。对应地,如果候选片段为专用名词,则片段打分模型为该候选片段输出的打分较高;而若不是专用名词,则对应输出的打分较低。另外候选片段与原始片段的读音编辑距离,具体为将候选片段的读音编辑为原始片段的读音需要调整的拼音中字母的长度,对应地,候选片段与原始片段的读音编辑距离越大,说明采用候选片段替换该原始片段的概率越小,此时对应的片段打分模型为该候选片段输出的打分可以较小;而若候选片段与原始片段的读音编辑距离越小,说明采用候选片段替换该原始片段的概率越大,此时对应的片段打分模型为该候选片段输出的打分可以较大。
基于以上原理,对应地,步骤(d2)具体可以包括:根据各候选片段与原始片段的相对质量特征、各候选片段与原始片段的语义相似度特征、以及片段打分模型,并结合各候选片段的专用名词特征和各候选片段与原始片段的拼音编辑距离特征,分别获取各候选片段的打分。此时对应地,训练该片段打分模型的时候,也需要获取训练数据中训练替换片段的专用名词特征以及训练原始片段和训练替换片段的拼音编辑距离特征,结合之前的特征一起对片段打分模型进行训练。
103、根据各候选片段的打分,通过解码的方式,从各原始片段在目标领域中的候选片段集合中,获取各原始片段在目标领域中对应的目标片段,从而得到目标领域中的语音识别的纠正文本。
最后,基于各候选片段的打分,从需要纠错的各原始片段的候选片段集合中获取各原始片段的目标片段,得到语音识别的纠正文本。例如,可以直接获取打分最高的候选片段作为目标片段。或者若打分次高的候选片段与语音识别的原文本中的上下文结合较好,也可以采用打分次高的候选片段作为纠正文本中的目标片段。或者还可以采用其他方式来获取纠正文本。
例如语音识别原文本中的不同原始片段都进行片段召回之后,每个原始片段可以得到多个候选片段结果,这样,不同的原始片段可以对应有多种候选片段组合的可能,形成片段候选网络。例如若某语音识别原文本中包括原始片段A、B和C,原始片段A对应的候选片段有1、2和3;原始片段B对应的候选片段有4、5和6;原始片段C对应的候选片段有7、8和9;此时每一个原始片段的候选片段都可以用于替换原始片段,即候选片段1可以分别与候选片段4、5或者6组合,候选片段2也可以分别与候选片段4、5或者6组合,候选片段3也可以分别与候选片段4、5或者6组合,形成片段候选网络。此时可以采用解码算法从片段候选网络中获取各原始片段对应的最佳的候选片段,得到最佳的纠正文本。例如解码算法可以包括不限于:维特比算法(viterbi),束搜索(beam search),或者贪心搜索(greedy search)等解码算法。
或者,例如该步骤103,具体可以包括如下步骤:对于各所述原始片段,根据候选片段集合中各候选片段的打分,从候选片段集合中获取原始片段对应的至少两个预选片段;通过解码的方式,从语音识别原文本的需要纠错的各原始片段对应的至少两个预选片段中获取各原始片段对应的目标片段,从而得到语音识别原文本的纠正文本。
具体地,若每一个原始片段对应的候选片段数量较多时,可以按照打分高低的顺序取打分较高的至少一个候选片段作为预选片段,然后通过解码的方式,从语音识别原文本的需要纠错的各原始片段对应的至少两个预选片段中获取各原始片段对应的目标片段,从而得到语音识别原文本的纠正文本。
进一步可选地,本实施例的步骤103之后,还可以包括:对纠正文本中发生纠正的片段进行纠错干预,确定最终的纠正文本,结束。
例如,本实施例中对纠正文本中发生纠正的片段进行纠错干预,具体包括如下至少一种:
判断纠正文本中发生纠正的目标片段和对应的原始片段是否命中预设的黑名单中的纠错对;若命中,则将目标片段还原为原始片段;和
判断纠正文本中发生纠正的目标片段和对应的原始片段是否属于同义词;若属于,则将目标片段还原为原始片段。
本实施例中的黑名单中可以根据之前纠正错误的纠错对进行采集。例如对原始片段纠正为某目标片段之后,用户根据纠正的结果,又将目标片段还原为原始片段,则可以确定纠错了。此时可以采集该目标片段和原始片段,形成纠错对。实际应用中,可以采用数个类似的纠错对,形成黑名单。并根据该黑名单地纠错文本中的发送纠正的片段进行干预,例如检测纠正的目标片段和原始片段是否为一对纠错对,若时,则将目标片段还原为原始片段;否则保留纠正文本。
另外,语音识别原文本纠错主要对错误的信息进行纠正,而不用纠正同义词。本实施例中,还可以预先存储有同义词表,存储每一个词语片段及其对应的同义词片段。然后根据同义词表检测发生纠正的目标片段和对应的原始片段是否属于同义词,若属于,则目标片段还原为原始片段;否则保留纠正文本。
图3为本实施例的基于人工智能的语音识别纠错方法的一种纠错结果示意图。例如采用本实施例的基于人工智能的语音识别纠错方法,对语音识别原文本“这师夫干的又快又好”,进行纠错之后,可以得到的纠错文本为“这师父干得又快又好”,可以得知,本实施例的技术方案可以高质量地对语音识别文本进行纠错。
本实施例的基于人工智能的语音识别纠错方法,通过确定语音识别的目标领域;当语音识别原文本在目标领域中存在通顺度不大于预设的通顺度阈值的原始片段,确定需要对原始片段纠错时,根据原始片段的读音,利用目标领域中的语料库和/或输入法为原始片段提供的输入提示信息,在目标领域中对原始片段进行ED片段召回,得到原始片段在目标领域中的候选片段集合,候选片段集合中包括多个候选片段;利用预先训练的片段打分模型,分别为目标领域中的候选片段集合中的各候选片段进行打分;根据各候选片段的打分,通过解码的方式,从语音识别原文本的需要纠错的各原始片段在目标领域中的候选片段集合中,获取各原始片段在目标领域中对应的目标片段,从而得到目标领域中的语音识别的纠正文本。本实施例的技术方案,弥补了现有技术的不足,提供了一种语音识别的纠错方案,能够对语音识别原文本中的错误片段进行纠正,有效地提高语音识别的准确率,保证语音识别文本的准确性,从而保证了后续基于语音识别文本所提供的服务的准确性。本实施例的技术方案基于语音识别的纠错场景提出,能够快速有效的产出纠错结果,纠错效率较高,从而能够有效地提高基于语音的服务质量。且进一步地,本实施例的技术方案,还可以继续进行错误片段替换干预,进一步优化纠错结果。
图4为本发明的基于人工智能的语音识别纠错装置实施例一的结构图。如图4所示,本实施例的基于人工智能的语音识别纠错装置,具体可以包括:
确定模块10用于确定语音识别的目标领域;
ED片段召回模块11用于当语音识别原文本在确定模块10确定的目标领域中存在通顺度不大于预设的通顺度阈值的原始片段,确定需要对原始片段纠错时,根据原始片段的读音,利用确定模块10确定的目标领域中的语料库和/或输入法为原始片段提供的输入提示信息,在目标领域中对原始片段进行ED片段召回,得到原始片段在目标领域中的候选片段集合,候选片段集合中包括多个候选片段;
打分模块12用于利用预先训练的片段打分模型,分别为目标领域中的ED片段召回模块11处理后的候选片段集合中的各候选片段进行打分;
纠错模块13用于根据打分模块12为各候选片段的打分,通过解码的方式,从语音识别原文本的需要纠错的各原始片段在目标领域中的候选片段集合中,获取各原始片段在目标领域中对应的目标片段,从而得到目标领域中的语音识别的纠正文本。
本实施例的基于人工智能的语音识别纠错装置,通过采用上述模块实现基于人工智能的语音识别纠错的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图5为本发明的基于人工智能的语音识别纠错装置实施例二的结构图。如图5所示,本实施例的基于人工智能的语音识别纠错装置,在上述图4所示实施例的技术方案的基础上,进一步更加详细地介绍本发明的技术方案。
本实施例的基于人工智能的语音识别纠错装置中,确定模块10具体用于:
接收用户选择的目标领域的标识;
或者根据语音识别原文本和拼音、以及预先训练的领域分类模型,获取目标领域。
进一步可选地,本实施例的基于人工智能的语音识别纠错装置中,确定模块10具体用于:
根据语音识别原文本和拼音、以及领域分类模型,获取语音识别的预测领域;
判断预测领域为有效领域还是无效领域;
若预测领域为有效领域,将预测领域作为目标领域;
进一步地,确定模块10具体还用于若预测领域为无效领域,确定语音识别原文本不需要纠错。
进一步可选地,如图5所示,本实施例的基于人工智能的语音识别纠错装置中,还包括:PT片段召回模块14用于根据目标领域中预先设置的短语替换表,对各原始片段进行PT片段召回,并将召回的候选片段追加至候选片段集合中。ED片段召回模块11处理之后,触发PT片段召回模块14启动,开始工作。
进一步可选地,如图5所示,本实施例的基于人工智能的语音识别纠错装置中,还包括:
频次获取模块15用于获取语音识别原文本中的各原始片段在目标领域对应的语料库中出现的频次以及各原始片段和对应的上下文片段的组合在语料库中出现的频次;
预测模块16用于根据频次获取模块15获取的语音识别原文本中的各原始片段在目标领域对应的语料库中出现的频次、各原始片段和对应的上下文片段的组合在语料库中出现的频次、以及预先训练的语言通顺度打分模型,预测各原始片段的通顺度;
判断模块17用于判断预测模块16预测的语音识别原文本中的各原始片段的通顺度是否均大于预设的通顺度阈值;若是,确定语音识别原文本在目标领域中不存在需要纠错的原始片段;否则,确定语音识别原文本在目标领域中存在需要纠错的原始片段。
对应地,当判断模块17确定语音识别原文本在目标领域中存在需要纠错的原始片段,此时才触发PT片段召回模块11启动,开始工作。
进一步可选地,如图5所示,本实施例的基于人工智能的语音识别纠错装置中,打分模块12具体包括:
质量特征获取单元121用于获取原始片段在目标领域中的质量特征和PT片段召回模块14处理后的候选片段集合中的各候选片段在目标领域中的质量特征;
质量特征获取单元121还用于根据原始片段在目标领域中的质量特征和各候选片段在目标领域中的质量特征,获取各候选片段与原始片段的相对质量特征;
语义相似度特征获取单元122用于获取PT片段召回模块14处理后的候选片段集合中的各候选片段与原始片段的语义相似度特征;
打分单元123用于根据质量特征获取单元121获取的各候选片段与原始片段的相对质量特征、语义相似度特征获取单元122获取的各候选片段与原始片段的语义相似度特征、以及片段打分模型,分别获取各候选片段的打分。
进一步可选地,本实施例的基于人工智能的语音识别纠错装置中,质量特征获取单元121具体用于:
获取原始片段在语料库中出现的频次、原始片段与上下文片段的组合在语料库中一起出现的频次;
进一步地,质量特征获取单元121具体用于:
获取候选片段集合中的各候选片段在语料库中出现的频次、候选片段与上下文片段的组合在语料库中出现的频次;
进一步地,质量特征获取单元121具体用于:
根据原始片段在语料库中出现的频次、原始片段与上下文片段的组合在语料库中一起出现的频次、各候选片段在语料库中出现的频次以及各候选片段与上下文片段的组合在语料库中出现的频次,获取各候选片段与原始片段在语料库中出现的频次比以及各候选片段和上下文片段的组合与原始片段和上下文片段的组合在语料库中出现的频次比,和/或各候选片段与原始片段在语料库中出现的频次差以及各候选片段和上下文片段的组合与原始片段和上下文片段的组合在语料库中出现的频次差;
进一步地,语义相似度特征获取单元122具体用于:
获取各候选片段与原始片段的语义相似度;和/或
获取各候选片段和上下文片段的组合与原始片段和上下文片段的组合的语义相似度。
进一步可选地,如图5所示,本实施例的基于人工智能的语音识别纠错装置中,打分模块12还包括:
专用名词特征获取单元124用于根据预设的专用名词库和PT片段召回模块14处理后的候选片段集合中的各候选片段,获取各候选片段的专用名词特征;和/或
拼音编辑距离特征获取单元125用于获取PT片段召回模块14处理后的候选片段集合中的各候选片段与原始片段的拼音编辑距离特征;
对应地,打分单元123具体用于:
根据质量特征获取单元121获取的各候选片段与原始片段的相对质量特征、语义相似度特征获取单元122获取的各候选片段与原始片段的语义相似度特征、以及片段打分模型,并结合专用名词特征获取单元124获取的各候选片段的专用名词特征和拼音编辑距离特征获取单元125获取的各候选片段与原始片段的拼音编辑距离特征,分别获取各候选片段的打分。
对应地,纠错模块13用于根据打分单元123为各候选片段的打分,通过解码的方式,从语音识别原文本的需要纠错的各原始片段在目标领域中的候选片段集合中,获取各原始片段在目标领域中对应的目标片段,从而得到目标领域中的语音识别的纠正文本。
进一步可选地,如图5所示,本实施例的基于人工智能的语音识别纠错装置中,还包括:
纠错干预模块18用于对纠正文本中发生纠正的片段进行纠错干预。
进一步可选地,纠错干预模块18具体用于执行如下至少一种操作:
判断纠正文本中发生纠正的目标片段和对应的原始片段是否命中预设的黑名单中的纠错对;若命中,则将目标片段还原为原始片段;和
判断纠正文本中发生纠正的目标片段和对应的原始片段是否属于同义词;若属于,则将目标片段还原为原始片段。
进一步可选地,本实施例的基于人工智能的语音识别纠错装置中,纠错模块14具体用于:
对于各原始片段,根据候选片段集合中各候选片段的打分,从候选片段集合中获取原始片段对应的至少两个预选片段;
通过解码的方式,从语音识别原文本的需要纠错的各原始片段对应的至少两个预选片段中获取各原始片段对应的目标片段,从而得到语音识别原文本的纠正文本。
本实施例的基于人工智能的语音识别纠错装置,通过采用上述模块实现基于人工智能的语音识别纠错的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图6为本发明的计算机设备实施例的结构图。如图6所示,本实施例的计算机设备,包括:一个或多个处理器30,以及存储器40,存储器40用于存储一个或多个程序,当存储器40中存储的一个或多个程序被一个或多个处理器30执行,使得一个或多个处理器30实现如上图1-图3所示实施例的基于人工智能的语音识别纠错方法。图6所示实施例中以包括多个处理器30为例。
例如,图7为本发明提供的一种计算机设备的示例图。图7示出了适于用来实现本发明实施方式的示例性计算机设备12a的框图。图7显示的计算机设备12a仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机设备12a以通用计算设备的形式表现。计算机设备12a的组件可以包括但不限于:一个或者多个处理器16a,***存储器28a,连接不同***组件(包括***存储器28a和处理器16a)的总线18a。
总线18a表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
计算机设备12a典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备12a访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
***存储器28a可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)30a和/或高速缓存存储器32a。计算机设备12a可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34a可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18a相连。***存储器28a可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明上述图1-图5各实施例的功能。
具有一组(至少一个)程序模块42a的程序/实用工具40a,可以存储在例如***存储器28a中,这样的程序模块42a包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42a通常执行本发明所描述的上述图1-图5各实施例中的功能和/或方法。
计算机设备12a也可以与一个或多个外部设备14a(例如键盘、指向设备、显示器24a等)通信,还可与一个或者多个使得用户能与该计算机设备12a交互的设备通信,和/或与使得该计算机设备12a能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22a进行。并且,计算机设备12a还可以通过网络适配器20a与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20a通过总线18a与计算机设备12a的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12a使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理器16a通过运行存储在***存储器28a中的程序,从而执行各种功能应用以及数据处理,例如实现上述实施例所示的基于人工智能的语音识别纠错方法。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例所示的基于人工智能的语音识别纠错方法。
本实施例的计算机可读介质可以包括上述图7所示实施例中的***存储器28a中的RAM30a、和/或高速缓存存储器32a、和/或存储***34a。
随着科技的发展,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载,或者采用其他方式获取。因此,本实施例中的计算机可读介质不仅可以包括有形的介质,还可以包括无形的介质。
本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (22)

1.一种基于人工智能的语音识别纠错方法,其特征在于,所述方法包括:
确定语音识别的目标领域;
当语音识别原文本在目标领域中存在通顺度不大于预设的通顺度阈值的原始片段,确定需要对所述原始片段纠错时,根据所述原始片段的读音,利用所述目标领域中的语料库和/或输入法为所述原始片段提供的输入提示信息,在所述目标领域中对所述原始片段进行ED片段召回,得到所述原始片段在所述目标领域中的候选片段集合,所述候选片段集合中包括多个候选片段;
利用预先训练的片段打分模型,分别为所述目标领域中的所述候选片段集合中的各所述候选片段进行打分;
根据各所述候选片段的打分,通过解码的方式,从各所述原始片段在所述目标领域中的所述候选片段集合中,获取各所述原始片段在所述目标领域中对应的目标片段,从而得到所述目标领域中的所述语音识别的纠正文本。
2.根据权利要求1所述的方法,其特征在于,确定语音识别的目标领域,具体包括:
接收用户选择的所述目标领域的标识;
或者根据所述语音识别原文本和拼音、以及预先训练的领域分类模型,获取所述目标领域。
3.根据权利要求2所述的方法,其特征在于,根据所述语音识别原文本和拼音、以及预先训练的领域分类模型,获取所述目标领域,具体包括:
根据所述语音识别原文本和拼音、以及所述领域分类模型,获取所述语音识别的预测领域;
判断所述预测领域为有效领域还是无效领域;
若所述预测领域为有效领域,将所述预测领域作为所述目标领域。
4.根据权利要求1所述的方法,其特征在于,当语音识别原文本在目标领域中存在通顺度不大于预设的通顺度阈值的原始片段,确定需要对所述原始片段纠错之前,所述方法还包括:
获取所述语音识别原文本中的各所述原始片段在所述目标领域对应的语料库中出现的频次以及各所述原始片段和对应的上下文片段的组合在所述语料库中出现的频次;
根据所述语音识别原文本中的各所述原始片段在所述目标领域对应的语料库中出现的频次、各所述原始片段和对应的上下文片段的组合在所述语料库中出现的频次、以及预先训练的语言通顺度打分模型,预测各所述原始片段的通顺度;
判断各所述原始片段的通顺度是否均大于预设的通顺度阈值;
若是,确定所述语音识别原文本在所述目标领域中不存在需要纠错的所述原始片段;否则,确定所述语音识别原文本在所述目标领域中存在需要纠错的所述原始片段。
5.根据权利要求1所述的方法,其特征在于,根据所述原始片段的读音,利用所述目标领域中的语料库和/或输入法为所述原始片段提供的输入提示信息,在所述目标领域中对所述原始片段进行ED片段召回之后,所述方法还包括:
根据所述目标领域中预先设置的短语替换表,对各所述原始片段进行PT片段召回,并将召回的候选片段追加至所述候选片段集合中。
6.根据权利要求4所述的方法,其特征在于,利用预先训练的片段打分模型,分别为所述目标领域中的所述候选片段集合中的各所述候选片段进行打分,具体包括:
获取各所述候选片段与所述原始片段的相对质量特征;
获取各所述候选片段与所述原始片段的语义相似度特征;
根据各所述候选片段与所述原始片段的相对质量特征、各所述候选片段与所述原始片段的语义相似度特征、以及所述片段打分模型,分别获取各所述候选片段的打分。
7.根据权利要求6所述的方法,其特征在于,获取各所述候选片段与所述原始片段的相对质量特征,具体包括:
根据所述原始片段在所述语料库中出现的频次、所述原始片段与所述上下文片段的组合在所述语料库中一起出现的频次、各所述候选片段在所述语料库中出现的频次以及各所述候选片段与所述上下文片段的组合在所述语料库中出现的频次,获取各所述候选片段与所述原始片段在所述语料库中出现的频次比以及各所述候选片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合在所述语料库中出现的频次比,和/或各所述候选片段与所述原始片段在所述语料库中出现的频次差以及各所述候选片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合在所述语料库中出现的频次差。
8.根据权利要求6所述的方法,其特征在于,根据各所述候选片段与所述原始片段的相对质量特征、各所述候选片段与所述原始片段的语义相似度特征、以及所述片段打分模型,分别获取各所述候选片段的打分之前,所述方法还包括:
根据预设的专用名词库和各所述候选片段,获取各所述候选片段的专用名词特征;和/或
获取各所述候选片段与所述原始片段的拼音编辑距离特征。
9.根据权利要求1所述的方法,其特征在于,根据各所述候选片段的打分,通过解码的方式,从所述语音识别原文本的需要纠错的各所述原始片段在所述目标领域中的所述候选片段集合中,获取各所述原始片段在所述目标领域中对应的目标片段,从而得到所述目标领域中的所述语音识别的纠正文本之后,所述方法还包括:
对所述纠正文本中发生纠正的片段进行纠错干预。
10.根据权利要求9所述的方法,其特征在于,对所述纠正文本中发生纠正的片段进行纠错干预,具体包括如下至少一种:
判断所述纠正文本中发生纠正的所述目标片段和对应的所述原始片段是否命中预设的黑名单中的纠错对;若命中,则将所述目标片段还原为所述原始片段;和
判断所述纠正文本中发生纠正的所述目标片段和对应的所述原始片段是否属于同义词;若属于,则将所述目标片段还原为所述原始片段。
11.一种基于人工智能的语音识别纠错装置,其特征在于,所述装置包括:
确定模块,用于确定语音识别的目标领域;
ED片段召回模块,用于当语音识别原文本在目标领域中存在通顺度不大于预设的通顺度阈值的原始片段,确定需要对所述原始片段纠错时,根据所述原始片段的读音,利用所述目标领域中的语料库和/或输入法为所述原始片段提供的输入提示信息,在所述目标领域中对所述原始片段进行ED片段召回,得到所述原始片段在所述目标领域中的候选片段集合,所述候选片段集合中包括多个候选片段;
打分模块,用于利用预先训练的片段打分模型,分别为所述目标领域中的所述候选片段集合中的各所述候选片段进行打分;
纠错模块,用于根据各所述候选片段的打分,通过解码的方式,从所述语音识别原文本的需要纠错的各所述原始片段在所述目标领域中的所述候选片段集合中,获取各所述原始片段在所述目标领域中对应的目标片段,从而得到所述目标领域中的所述语音识别的纠正文本。
12.根据权利要求11所述的装置,其特征在于,所述确定模块,具体用于:
接收用户选择的所述目标领域的标识;
或者根据所述语音识别原文本和拼音、以及预先训练的领域分类模型,获取所述目标领域。
13.根据权利要求12所述的装置,其特征在于,所述确定模块,具体用于:
根据所述语音识别原文本和拼音、以及所述领域分类模型,获取所述语音识别的预测领域;
判断所述预测领域为有效领域还是无效领域;
若所述预测领域为有效领域,将所述预测领域作为所述目标领域。
14.根据权利要求11所述的装置,其特征在于,所述装置还包括:
频次获取模块,用于获取所述语音识别原文本中的各所述原始片段在所述目标领域对应的语料库中出现的频次以及各所述原始片段和对应的上下文片段的组合在所述语料库中出现的频次;
预测模块,用于根据所述语音识别原文本中的各所述原始片段在所述目标领域对应的语料库中出现的频次、各所述原始片段和对应的上下文片段的组合在所述语料库中出现的频次、以及预先训练的语言通顺度打分模型,预测各所述原始片段的通顺度;
判断模块,用于判断各所述原始片段的通顺度是否均大于预设的通顺度阈值;若是,确定所述语音识别原文本在所述目标领域中不存在需要纠错的所述原始片段;否则,确定所述语音识别原文本在所述目标领域中存在需要纠错的所述原始片段。
15.根据权利要求11所述的装置,其特征在于,所述装置还包括:
PT片段召回模块,用于根据所述目标领域中预先设置的短语替换表,对各所述原始片段进行PT片段召回,并将召回的候选片段追加至所述候选片段集合中。
16.根据权利要求14所述的装置,其特征在于,所述打分模块,具体包括:
质量特征获取单元,用于获取各所述候选片段与所述原始片段的相对质量特征;
语义相似度特征获取单元,用于获取各所述候选片段与所述原始片段的语义相似度特征;
打分单元,用于根据各所述候选片段与所述原始片段的相对质量特征、各所述候选片段与所述原始片段的语义相似度特征、以及所述片段打分模型,分别获取各所述候选片段的打分。
17.根据权利要求16所述的装置,其特征在于,所述质量特征获取单元,具体用于:
根据所述原始片段在所述语料库中出现的频次、所述原始片段与所述上下文片段的组合在所述语料库中一起出现的频次、各所述候选片段在所述语料库中出现的频次以及各所述候选片段与所述上下文片段的组合在所述语料库中出现的频次,获取各所述候选片段与所述原始片段在所述语料库中出现的频次比以及各所述候选片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合在所述语料库中出现的频次比,和/或各所述候选片段与所述原始片段在所述语料库中出现的频次差以及各所述候选片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合在所述语料库中出现的频次差。
18.根据权利要求16所述的装置,其特征在于,所述打分模块还包括:
专用名词特征获取单元,用于根据预设的专用名词库和各所述候选片段,获取各所述候选片段的专用名词特征;和/或
拼音编辑距离特征获取单元,用于获取各所述候选片段与所述原始片段的拼音编辑距离特征。
19.根据权利要求11所述的装置,其特征在于,所述装置还包括:
纠错干预模块,用于对所述纠正文本中发生纠正的片段进行纠错干预。
20.根据权利要求19所述的装置,其特征在于,所述纠错干预模块,具体用于执行如下至少一种操作:
判断所述纠正文本中发生纠正的所述目标片段和对应的所述原始片段是否命中预设的黑名单中的纠错对;若命中,则将所述目标片段还原为所述原始片段;和
判断所述纠正文本中发生纠正的所述目标片段和对应的所述原始片段是否属于同义词;若属于,则将所述目标片段还原为所述原始片段。
21.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一所述的方法。
22.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-10中任一所述的方法。
CN201711159758.XA 2017-11-20 2017-11-20 基于人工智能的语音识别纠错方法、装置及可读介质 Active CN108091328B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711159758.XA CN108091328B (zh) 2017-11-20 2017-11-20 基于人工智能的语音识别纠错方法、装置及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711159758.XA CN108091328B (zh) 2017-11-20 2017-11-20 基于人工智能的语音识别纠错方法、装置及可读介质

Publications (2)

Publication Number Publication Date
CN108091328A CN108091328A (zh) 2018-05-29
CN108091328B true CN108091328B (zh) 2021-04-16

Family

ID=62172706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711159758.XA Active CN108091328B (zh) 2017-11-20 2017-11-20 基于人工智能的语音识别纠错方法、装置及可读介质

Country Status (1)

Country Link
CN (1) CN108091328B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086266B (zh) * 2018-07-02 2021-09-14 昆明理工大学 一种文本形近字的检错与校对方法
CN109215660A (zh) * 2018-07-09 2019-01-15 维沃移动通信有限公司 语音识别后文本纠错方法及移动终端
CN109036424A (zh) * 2018-08-30 2018-12-18 出门问问信息科技有限公司 语音识别方法、装置、电子设备及计算机可读存储介质
CN111599363B (zh) * 2019-02-01 2023-03-31 浙江大学 一种语音识别的方法及其装置
CN110110041B (zh) * 2019-03-15 2022-02-15 平安科技(深圳)有限公司 错词纠正方法、装置、计算机装置及存储介质
CN110046350B (zh) * 2019-04-12 2023-04-07 百度在线网络技术(北京)有限公司 文法错误识别方法、装置、计算机设备及存储介质
CN110097886B (zh) * 2019-04-29 2021-09-10 贵州小爱机器人科技有限公司 意图识别方法及装置、存储介质、终端
CN112002311A (zh) * 2019-05-10 2020-11-27 Tcl集团股份有限公司 文本纠错方法、装置、计算机可读存储介质及终端设备
CN110399607B (zh) * 2019-06-04 2023-04-07 深思考人工智能机器人科技(北京)有限公司 一种基于拼音的对话***文本纠错***及方法
CN110232129B (zh) * 2019-06-11 2020-09-29 北京百度网讯科技有限公司 场景纠错方法、装置、设备和存储介质
CN110223673B (zh) * 2019-06-21 2020-01-17 龙马智芯(珠海横琴)科技有限公司 语音的处理方法及装置、存储介质、电子设备
CN110364183A (zh) * 2019-07-09 2019-10-22 深圳壹账通智能科技有限公司 语音质检的方法、装置、计算机设备和存储介质
CN110442864B (zh) * 2019-07-24 2022-12-23 新华智云科技有限公司 语句通顺度确定方法、装置、电子设备及存储介质
CN110838288B (zh) * 2019-11-26 2022-05-06 杭州博拉哲科技有限公司 一种语音交互方法及其***和对话设备
CN112992127B (zh) * 2019-12-12 2024-05-07 杭州海康威视数字技术股份有限公司 一种语音识别的方法和装置
CN113053359A (zh) * 2019-12-27 2021-06-29 深圳Tcl数字技术有限公司 一种语音识别方法、智能终端及存储介质
CN111160013B (zh) * 2019-12-30 2023-11-24 北京百度网讯科技有限公司 文本纠错方法及装置
CN111192586B (zh) * 2020-01-08 2023-07-04 北京小米松果电子有限公司 语音识别方法及装置、电子设备、存储介质
CN111326144B (zh) * 2020-02-28 2023-03-03 网易(杭州)网络有限公司 语音数据处理方法、装置、介质和计算设备
CN111540356B (zh) 2020-04-20 2022-05-17 思必驰科技股份有限公司 用于语音对话的纠正方法及***
CN113763961B (zh) * 2020-06-02 2024-04-09 阿里巴巴集团控股有限公司 一种文本处理方法及装置
CN111753531B (zh) * 2020-06-28 2024-03-12 平安科技(深圳)有限公司 基于人工智能的文本纠错方法、装置、设备及存储介质
CN112580324B (zh) * 2020-12-24 2023-07-25 北京百度网讯科技有限公司 文本纠错方法、装置、电子设备以及存储介质
CN113241061B (zh) * 2021-05-17 2023-03-10 北京字跳网络技术有限公司 语音识别结果的处理方法、装置、电子设备和存储介质
CN114564942B (zh) * 2021-09-06 2023-07-18 北京数美时代科技有限公司 一种用于监管领域的文本纠错方法、存储介质和装置
CN114328798B (zh) * 2021-11-09 2024-02-23 腾讯科技(深圳)有限公司 搜索文本的处理方法、装置、设备、存储介质和程序产品

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003083858A1 (en) * 2002-03-28 2003-10-09 Koninklijke Philips Electronics N.V. Time domain watermarking of multimedia signals
WO2004072862A1 (en) * 2003-02-11 2004-08-26 Telstra Corporation Limited System for predicting speec recognition accuracy and development for a dialog system
CN101866336A (zh) * 2009-04-14 2010-10-20 华为技术有限公司 获取评价单元、建立句法路径词典的方法、装置及***
CN102135905A (zh) * 2011-03-17 2011-07-27 清华大学 基于用户定制的本体匹配***及方法
CN104102633A (zh) * 2013-04-01 2014-10-15 百度在线网络技术(北京)有限公司 一种挖掘搜索引擎未召回类纠错词的方法及装置
CN104882139A (zh) * 2015-05-28 2015-09-02 百度在线网络技术(北京)有限公司 语音合成的方法和装置
CN106469097A (zh) * 2016-09-02 2017-03-01 北京百度网讯科技有限公司 一种基于人工智能的召回纠错候选的方法和装置
CN106528845A (zh) * 2016-11-22 2017-03-22 北京百度网讯科技有限公司 基于人工智能的检索纠错方法及装置
CN106598939A (zh) * 2016-10-21 2017-04-26 北京三快在线科技有限公司 一种文本纠错方法及装置、服务器、存储介质
CN107045496A (zh) * 2017-04-19 2017-08-15 畅捷通信息技术股份有限公司 语音识别后文本的纠错方法及纠错装置
CN107221328A (zh) * 2017-05-25 2017-09-29 百度在线网络技术(北京)有限公司 修改源的定位方法及装置、计算机设备及可读介质
CN107329961A (zh) * 2017-07-03 2017-11-07 西安市邦尼翻译有限公司 一种云翻译记忆库快速增量式模糊匹配的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3899290B2 (ja) * 2002-06-10 2007-03-28 富士通株式会社 発信者特定方法、プログラム、装置及び記録媒体

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003083858A1 (en) * 2002-03-28 2003-10-09 Koninklijke Philips Electronics N.V. Time domain watermarking of multimedia signals
WO2004072862A1 (en) * 2003-02-11 2004-08-26 Telstra Corporation Limited System for predicting speec recognition accuracy and development for a dialog system
CN101866336A (zh) * 2009-04-14 2010-10-20 华为技术有限公司 获取评价单元、建立句法路径词典的方法、装置及***
CN102135905A (zh) * 2011-03-17 2011-07-27 清华大学 基于用户定制的本体匹配***及方法
CN104102633A (zh) * 2013-04-01 2014-10-15 百度在线网络技术(北京)有限公司 一种挖掘搜索引擎未召回类纠错词的方法及装置
CN104882139A (zh) * 2015-05-28 2015-09-02 百度在线网络技术(北京)有限公司 语音合成的方法和装置
CN106469097A (zh) * 2016-09-02 2017-03-01 北京百度网讯科技有限公司 一种基于人工智能的召回纠错候选的方法和装置
CN106598939A (zh) * 2016-10-21 2017-04-26 北京三快在线科技有限公司 一种文本纠错方法及装置、服务器、存储介质
CN106528845A (zh) * 2016-11-22 2017-03-22 北京百度网讯科技有限公司 基于人工智能的检索纠错方法及装置
CN107045496A (zh) * 2017-04-19 2017-08-15 畅捷通信息技术股份有限公司 语音识别后文本的纠错方法及纠错装置
CN107221328A (zh) * 2017-05-25 2017-09-29 百度在线网络技术(北京)有限公司 修改源的定位方法及装置、计算机设备及可读介质
CN107329961A (zh) * 2017-07-03 2017-11-07 西安市邦尼翻译有限公司 一种云翻译记忆库快速增量式模糊匹配的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Vector representation of non-standard spelling using dynamic time warping and a denoising autoencoder";Mehdi Ben Lazreg;《2017 IEEE Congress on Evolutionary Computation》;20170608;全文 *

Also Published As

Publication number Publication date
CN108091328A (zh) 2018-05-29

Similar Documents

Publication Publication Date Title
CN108091328B (zh) 基于人工智能的语音识别纠错方法、装置及可读介质
CN108052499B (zh) 基于人工智能的文本纠错方法、装置及计算机可读介质
KR102117160B1 (ko) 모호한 엔티티 단어에 기반한 텍스트 처리 방법과 장치
CN109887497B (zh) 语音识别的建模方法、装置及设备
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
CN107291828B (zh) 基于人工智能的口语查询解析方法、装置及存储介质
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
CN107305768B (zh) 语音交互中的易错字校准方法
CN110033760B (zh) 语音识别的建模方法、装置及设备
EP3230896B1 (en) Localization complexity of arbitrary language assets and resources
CN109523989B (zh) 语音合成方法、语音合成装置、存储介质及电子设备
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
Schuster et al. Japanese and korean voice search
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
CN106570180B (zh) 基于人工智能的语音搜索方法及装置
CN103714048B (zh) 用于校正文本的方法和***
CN110415679B (zh) 语音纠错方法、装置、设备和存储介质
CN114580382A (zh) 文本纠错方法以及装置
US11531693B2 (en) Information processing apparatus, method and non-transitory computer readable medium
CN112287680B (zh) 一种问诊信息的实体抽取方法、装置、设备及存储介质
CN111611349A (zh) 语音查询方法、装置、计算机设备及存储介质
CN112347241A (zh) 一种摘要提取方法、装置、设备及存储介质
CN114154487A (zh) 文本自动纠错方法、装置、电子设备及存储介质
TWI752406B (zh) 語音辨識方法、語音辨識裝置、電子設備、電腦可讀存儲介質及電腦程式產品
Alvarez et al. Improving the automatic segmentation of subtitles through conditional random field

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant