CN106297797A - 语音识别结果纠错方法和装置 - Google Patents

语音识别结果纠错方法和装置 Download PDF

Info

Publication number
CN106297797A
CN106297797A CN201610597308.8A CN201610597308A CN106297797A CN 106297797 A CN106297797 A CN 106297797A CN 201610597308 A CN201610597308 A CN 201610597308A CN 106297797 A CN106297797 A CN 106297797A
Authority
CN
China
Prior art keywords
text
voice identification
identification result
best candidate
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610597308.8A
Other languages
English (en)
Other versions
CN106297797B (zh
Inventor
姚树杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610597308.8A priority Critical patent/CN106297797B/zh
Publication of CN106297797A publication Critical patent/CN106297797A/zh
Priority to JP2019524496A priority patent/JP6827110B2/ja
Priority to PCT/CN2017/072642 priority patent/WO2018018867A1/zh
Priority to US16/321,398 priority patent/US11024287B2/en
Application granted granted Critical
Publication of CN106297797B publication Critical patent/CN106297797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本申请提出一种语音识别结果纠错方法和装置,该语音识别结果纠错方法包括:对待纠正的语音识别结果进行注音,得到所述语音识别结果对应的拼音;根据所述拼音获取候选文本,并在候选文本中确定最优候选文本;判断所述最优候选文本是否满足预设条件;如果满足预设条件,将所述最优候选文本确定为所述待纠正的语音识别结果的纠正结果。该方法能够提高纠正结果的准确度。

Description

语音识别结果纠错方法和装置
技术领域
本申请涉及语音识别技术领域,尤其涉及一种语音识别结果纠错方法和装置。
背景技术
语音识别用于将语音识别为文本,语音识别结果纠错是语音理解过程中的一项重要工作。受限于语音识别的准确性,语音识别结果常常会出现错误,这将对语音理解的后续工作造成障碍,增加了语音理解的难度。语音识别结果纠错可以对一些识别错误的结果进行纠正,从而提高语音理解的准确性。
目前并没有主流的语音识别结果纠错的方案,一般是基于词的识别结果概率信息的统计方法,纠正结果的准确度有待提高。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的一个目的在于提出一种语音识别结果纠错方法,该方法可以实现基于拼音输入法的语音识别结果纠错,提高纠正结果的准确度。
本申请的另一个目的在于提出一种语音识别结果纠错装置。
为达到上述目的,本申请第一方面实施例提出的语音识别结果纠错方法,包括:对待纠正的语音识别结果进行注音,得到所述语音识别结果对应的拼音;根据所述拼音获取候选文本,并在候选文本中确定最优候选文本;判断所述最优候选文本是否满足预设条件;如果满足预设条件,将所述最优候选文本确定为所述待纠正的语音识别结果的纠正结果。
本申请第一方面实施例提出的语音识别结果纠错方法,通过对待纠正的语音识别结果进行注音,并根据拼音获取候选文本,以及在最优候选文本满足预设条件时将最优候选文本作为纠正结果,可以实现基于拼音输入法的语音识别结果纠错,提高纠正结果的准确度。
为达到上述目的,本申请第二方面实施例提出的语音识别结果纠错装置,包括:注音模块,用于对待纠正的语音识别结果进行注音,得到所述语音识别结果对应的拼音;获取模块,用于根据所述拼音获取候选文本,并在候选文本中确定最优候选文本;判断模块,用于判断所述最优候选文本是否满足预设条件;确定模块,用于在所述最优候选文本满足预设条件时,将所述最优候选文本确定为所述待纠正的语音识别结果的纠正结果。
本申请第二方面实施例提出的语音识别结果纠错装置,通过对待纠正的语音识别结果进行注音,并根据拼音获取候选文本,以及在最优候选文本满足预设条件时将最优候选文本作为纠正结果,可以实现基于拼音输入法的语音识别结果纠错,提高纠正结果的准确度。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例提出的语音识别结果纠错方法的流程示意图;
图2是本申请另一个实施例提出的语音识别结果纠错方法的流程示意图;
图3是本申请实施例中用于获取候选文本的解码网络的示意图;
图4是本申请一个实施例提出的语音识别结果纠错装置的结构示意图;
图5是本申请另一个实施例提出的语音识别结果纠错装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本申请一个实施例提出的语音识别结果纠错方法的流程示意图。
参见图1,本实施例的方法包括:
S11:对待纠正的语音识别结果进行注音,得到所述语音识别结果对应的拼音。
其中,在语音识别得到语音识别结果后,可以根据已有或将来出现的技术,检测出语音识别结果中可能存在错误的结果,将这些可能存在错误的结果作为待纠正的语音识别结果。
由于待纠正的语音识别结果是文本,因此可以采用对文本的注音方式完成对待纠正的语音识别结果的注音,得到待纠正的语音识别结果对应的拼音。
具体的,待纠正的语音识别结果可以是汉字组成的句子,对应的拼音是指无音调的汉语拼音串。
例如,待纠正的语音识别结果是“窝要去外滩”,对应的拼音是:
wo yao qu wai tan
S12:根据所述拼音获取候选文本,并在候选文本中确定最优候选文本。
其中,可以将拼音作为输入,根据发音词典构建解码网络,再根据语言模型计算解码网络中每条路径的得分,之后选择得分最高的N(可设置)条路径,将选择得到的每条路径对应的文本作为一个候选文本,从而得到N个候选文本。
最优候选文本是指得分最高的一条路径对应的文本。
S13:判断所述最优候选文本是否满足预设条件。
预设条件可以根据需要设置,例如,可以比较最优候选文本与次优候选文本,比较最优候选文本与待纠正的语音识别结果,以及N-gram回退次数等。
具体内容可以参见后续描述。
S14:如果满足预设条件,将所述最优候选文本确定为所述待纠正的语音识别结果的纠正结果。
另一方面,如果最优候选文本不满足预设条件,则保持待纠正的语音识别结果不变,即不进行纠正。
本实施例中,通过对待纠正的语音识别结果进行注音,并根据拼音获取候选文本,以及在最优候选文本满足预设条件时将最优候选文本作为纠正结果,可以实现基于拼音输入法的语音识别结果纠错,提高纠正结果的准确度。
图2是本申请另一个实施例提出的语音识别结果纠错方法的流程示意图。
参见图2,本实施例的流程包括:
S201:对待纠正的语音识别结果进行注音,得到所述语音识别结果对应的拼音。
S202:获取通用语言模型,以及获取所述待纠正的语音识别结果对应的特定语言模型,并根据所述通用语言模型、所述特定语言模型和所述拼音获取候选文本。
其中,通用语言模型是通常采用的语言模型,该语言模型是根据不区分领域的语料训练生成的。
本实施例中,不仅会用到通用语言模型,还用到特定语言模型。特定语言模型的训练方式可以与通用语言模型的训练方式一致,两者区别在于采用的训练语料不同。特定语言模型是根据特定范围的语料训练生成的,特定范围可以是某一特定领域,比如,在地图领域,将收集的地名作为训练语料,从而得到地图领域对应的特定语言模型,类似的,还可以得到新闻领域对应的特定语言模型等。进一步的,特定范围还可以是某一特定领域进一步细分后的范围,同样以地图领域为例,可以对应每个城市生成一个语言模型,此时,特定语言模型例如包括:北京对应的特定语言模型,上海对应的特定语言模型等。
以特定语言模型是城市对应的特定语言模型为例,可以根据用户输入的城市信息或者根据GPS定位得到的城市信息,获取城市对应的特定语言模型。
在注音得到拼音后,可以根据拼音及发音词典组成解码网络。
例如,一种解码网络如图3所示(图中只示出了一条路径,其余路径类似)。该解码网络输入的拼音为:
wo yao qu wai tan
在构建出解码网络后,可以根据语言模型计算每条路径的得分。每条路径包括多个节点,每个节点对应一个词,从而每条路径对应一个候选文本。例如,“我”、“要”、“去”、“外滩”可以组成一条路径,“窝”、“要”、“去”、“外滩”也可以组成一条路径,“我”、“要”、“去”、“外”“谭”也可以组成一条路径。而每条路径的得分是根据语言模型得到的。
在计算每条路径的得分时,可以根据该条路径上包含的n-gram词序列的得分相乘后得到。
本实施例中,每个n-gram词序列的得分是根据通用语言模型确定的概率值与根据特定语言模型确定的概率值进行加权求和后得到的。
以2-gram为例,对应“去”和“外滩”组成的2-gram词序列,该词序列得分score(去,外滩)的计算公式为:
score(去,外滩)=α*pbose(去,外滩)+(1-α)*pcity21(去,外滩)
其中,pbose(去,外滩)是根据通用语言模型得到的概率值,Pcity21(去,外滩)是根据特定语言模型得到的概率值,α是可设置的大于0小于1的加权值。
在计算出每条路径的得分后,可以根据得分从高到低的顺序选择预设个数(可设置)的路径,将选择的路径对应的文本作为候选文本。
S203:在候选文本中确定最优候选文本和次优候选文本。
最优候选文本是指得分最高的路径对应的文本,次优候选文本是指得分次高的路径对应的文本。
例如,假设“我”、“要”、“去”、“外滩”组成的路径的得分最高,则“我要去外滩”就是最优候选文本,假设“我”、“要”、“去”、“外”“谭”组成的路径的得分次高,则“我要去外谭”就是次优候选文本。
S204:计算最优候选文本与次优候选文本的语言模型得分差值,并判断语言模型得分差值是否大于第一预设值,若是,执行S205,否则执行S211。
上述的语言模型得分是指在上一步骤中根据解码网络得到的,根据通用语言模型和特定语言模型进行加权求和后得到的得分。
上述的第一预设值可以选为150。
S205:获取字语言模型,并根据字语言模型分别对最优候选文本和待纠正语音识别结果进行打分,并判断最优候选文本的得分是否大于待纠正语音识别结果的得分,若是,执行S206,否则执行S211。
其中,字语言模型是将字作为训练语料进行训练后生成的,可以预先收集大量的字,再根据语言模型的训练算法训练生成字语言模型。
在得到字语言模型后,可以根据其分别对上述的两个文本(最优候选文本和待纠正的语音识别结果)进行打分,得到上述两个文本分别对应的得分。
S206:用词语言模型对最优候选文本进行打分,并统计每种n-gram回退的次数。
可以理解的是,本申请中如未特殊说明,语言模型是指词语言模型。
进一步的,本步骤中的词语言模型可以是上述的通用语言模型或特定语言模型。
其中,语言模型通常是根据n-gram构建的,在构建时,为了解决数据稀疏性问题,在一些场景下需要使用回退算法,用低阶词的出现概率替换高阶词的出现概率。
例如,计算语言模型分数时,如前一个条件概率是p(w3|w2w1w0)这是一个4-gram,后一个词w4出现时,而语言模型中w1w2w3w4这个4-gram没有出现需要回退。如果用p(w4|w3w2)替代这是一个1元回退。如果w2w3w4也没有。用p(w4|w3)替代那么是一个2元回退。因此,这里的n-gram回退是指相比前一个退了几元。
S207:判断1-gram回退次数与2-gram回退次数的总和是否小于第二预设值。
S208:判断所有回退次数的总和是否小于第三预设值,若是,执行S209,否则执行S211。
其中,回退时不仅可以包括上述的1-gram回退和2-gram回退,还可能存在其他元的回退,因此,这里统计的是所有元的回退总次数。
第二预设值和第三预设值可以相同或不同,例如都可以选为2。
S209:判断最优候选文本中连续单字的个数是否大于第四预设值,若否,执行S210,若是,执行S211。
例如,第四预设值选为3。
S210:将最优候选文本作为纠正结果。
S211:保持待纠正的语音识别结果不变。
本实施例中,通过对待纠正的语音识别结果进行注音,并根据拼音获取候选文本,以及在最优候选文本满足预设条件时将最优候选文本作为纠正结果,可以实现基于拼音输入法的语音识别结果纠错,提高纠正结果的准确度。通过判断最优候选文本是否满足预设条件,可以获取更准确的纠正结果。
图4是本申请一个实施例提出的语音识别结果纠错装置的结构示意图。
参见图4,本实施例的装置40包括:注音模块41、获取模块42、判断模块43和确定模块44。
注音模块41,用于对待纠正的语音识别结果进行注音,得到所述语音识别结果对应的拼音;
获取模块42,用于根据所述拼音获取候选文本,并在候选文本中确定最优候选文本;
判断模块43,用于判断所述最优候选文本是否满足预设条件;
确定模块44,用于在所述最优候选文本满足预设条件时,将所述最优候选文本确定为所述待纠正的语音识别结果的纠正结果。
一些实施例中,所述获取模块具体用于:
获取通用语言模型,以及获取所述待纠正的语音识别结果对应的特定语言模型,并根据所述通用语言模型、所述特定语言模型和所述拼音获取候选文本。
一些实施例中,所述获取模块还用于:
确定候选文本中的次优候选文本。
一些实施例中,所述判断模块具体用于:
计算所述最优候选文本与所述次优候选文本的语言模型得分差值;
如果所述差值大于第一预设值,获取字语言模型,并根据字语言模型对最优候选文本与待纠正语音识别结果进行打分;
如果最优候选文本对应的得分大于所述待纠正语音识别结果对应的得分,采用词语言模型对最优候选文本进行打分,并统计打分过程中的回退次数;
如果回退次数满足次数要求,则判断最优候选文本中连续单字的个数是否小于或等于第四预设值;
如果是,则确定最优候选文本满足预设条件。
一些实施例中,参见图5,该装置还可以包括:
保持模块45,用于如果最优候选文本不满足预设条件,保持所述待纠正的语音识别结果不变。
可以理解的是,本实施例的装置与上述方法实施例对应,具体内容可以参见方法实施例的相关描述,在此不再详细说明。
本实施例中,通过对待纠正的语音识别结果进行注音,并根据拼音获取候选文本,以及在最优候选文本满足预设条件时将最优候选文本作为纠正结果,可以实现基于拼音输入法的语音识别结果纠错,提高纠正结果的准确度。通过判断最优候选文本是否满足预设条件,可以获取更准确的纠正结果。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种语音识别结果纠错方法,其特征在于,包括:
对待纠正的语音识别结果进行注音,得到所述语音识别结果对应的拼音;
根据所述拼音获取候选文本,并在候选文本中确定最优候选文本;
判断所述最优候选文本是否满足预设条件;
如果满足预设条件,将所述最优候选文本确定为所述待纠正的语音识别结果的纠正结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述拼音获取候选文本,包括:
获取通用语言模型,以及获取所述待纠正的语音识别结果对应的特定语言模型,并根据所述通用语言模型、所述特定语言模型和所述拼音获取候选文本。
3.根据权利要求1所述的方法,其特征在于,在根据所述拼音获取候选文本之后,所述方法还包括:
确定候选文本中的次优候选文本。
4.根据权利要求3所述的方法,其特征在于,所述判断所述最优候选文本是否满足预设条件,包括:
计算所述最优候选文本与所述次优候选文本的语言模型得分差值;
如果所述差值大于第一预设值,获取字语言模型,并根据字语言模型对最优候选文本与待纠正语音识别结果进行打分;
如果最优候选文本对应的得分大于所述待纠正语音识别结果对应的得分,采用词语言模型对最优候选文本进行打分,并统计打分过程中的回退次数;
如果回退次数满足次数要求,则判断最优候选文本中连续单字的个数是否小于或等于第四预设值;
如果是,则确定最优候选文本满足预设条件。
5.根据权利要求4所述的方法,其特征在于,还包括:
如果一元回退次数和二元回退次数的之和小于第二预设值,且总的回退次数之和小于第四预设值,则确定回退次数满足次数要求。
6.根据权利要求1所述的方法,其特征在于,还包括:
如果最优候选文本不满足预设条件,保持所述待纠正的语音识别结果不变。
7.一种语音识别结果纠正装置,其特征在于,包括:
注音模块,用于对待纠正的语音识别结果进行注音,得到所述语音识别结果对应的拼音;
获取模块,用于根据所述拼音获取候选文本,并在候选文本中确定最优候选文本;
判断模块,用于判断所述最优候选文本是否满足预设条件;
确定模块,用于在所述最优候选文本满足预设条件时,将所述最优候选文本确定为所述待纠正的语音识别结果的纠正结果。
8.根据权利要求7所述的装置,其特征在于,所述获取模块具体用于:
获取通用语言模型,以及获取所述待纠正的语音识别结果对应的特定语言模型,并根据所述通用语言模型、所述特定语言模型和所述拼音获取候选文本。
9.根据权利要求7所述的装置,其特征在于,所述获取模块还用于:
确定候选文本中的次优候选文本;
所述判断模块具体用于:
计算所述最优候选文本与所述次优候选文本的PPL差值;
如果所述差值大于预设值,获取字语言模型,并根据字语言模型对最优候选文本与待纠正语音识别结果进行打分;
如果最优候选文本对应的得分大于所述待纠正语音识别结果对应的得分,采用通用语言模型对最优候选文本进行打分,并统计打分过程中的回退次数;
如果回退次数满足次数要求,则判断最优候选文本中连续单字的个数是否小于或等于预设值;
如果是,则确定最优候选文本满足预设条件。
10.根据权利要求7所述的装置,其特征在于,还包括:
保持模块,用于如果最优候选文本不满足预设条件,保持所述待纠正的语音识别结果不变。
CN201610597308.8A 2016-07-26 2016-07-26 语音识别结果纠错方法和装置 Active CN106297797B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201610597308.8A CN106297797B (zh) 2016-07-26 2016-07-26 语音识别结果纠错方法和装置
JP2019524496A JP6827110B2 (ja) 2016-07-26 2017-01-25 音声認識結果の修正方法及び装置
PCT/CN2017/072642 WO2018018867A1 (zh) 2016-07-26 2017-01-25 语音识别结果纠错方法和装置
US16/321,398 US11024287B2 (en) 2016-07-26 2017-01-25 Method, device, and storage medium for correcting error in speech recognition result

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610597308.8A CN106297797B (zh) 2016-07-26 2016-07-26 语音识别结果纠错方法和装置

Publications (2)

Publication Number Publication Date
CN106297797A true CN106297797A (zh) 2017-01-04
CN106297797B CN106297797B (zh) 2019-05-31

Family

ID=57652440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610597308.8A Active CN106297797B (zh) 2016-07-26 2016-07-26 语音识别结果纠错方法和装置

Country Status (4)

Country Link
US (1) US11024287B2 (zh)
JP (1) JP6827110B2 (zh)
CN (1) CN106297797B (zh)
WO (1) WO2018018867A1 (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106992001A (zh) * 2017-03-29 2017-07-28 百度在线网络技术(北京)有限公司 语音指令的处理方法、装置和***
CN107221328A (zh) * 2017-05-25 2017-09-29 百度在线网络技术(北京)有限公司 修改源的定位方法及装置、计算机设备及可读介质
WO2018018867A1 (zh) * 2016-07-26 2018-02-01 百度在线网络技术(北京)有限公司 语音识别结果纠错方法和装置
CN107729321A (zh) * 2017-10-23 2018-02-23 上海百芝龙网络科技有限公司 一种语音识别结果纠错方法
CN108573706A (zh) * 2017-03-10 2018-09-25 北京搜狗科技发展有限公司 一种语音识别方法、装置及设备
CN109243461A (zh) * 2018-09-21 2019-01-18 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质
CN109522550A (zh) * 2018-11-08 2019-03-26 和美(深圳)信息技术股份有限公司 文本信息纠错方法、装置、计算机设备和存储介质
CN109684643A (zh) * 2018-12-26 2019-04-26 湖北亿咖通科技有限公司 基于句向量的文本识别方法、电子设备及计算机可读介质
CN109992765A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 文本纠错方法及装置、存储介质和电子设备
CN110705217A (zh) * 2019-09-09 2020-01-17 上海凯京信达科技集团有限公司 一种错别字检测方法、装置及计算机存储介质、电子设备
CN111192586A (zh) * 2020-01-08 2020-05-22 北京松果电子有限公司 语音识别方法及装置、电子设备、存储介质
CN111292728A (zh) * 2018-11-21 2020-06-16 三星电子株式会社 语音识别方法和设备
CN112489655A (zh) * 2020-11-18 2021-03-12 元梦人文智能国际有限公司 一种特定领域的语音识别文本纠错方法、***和存储介质
CN112528980A (zh) * 2020-12-16 2021-03-19 北京华宇信息技术有限公司 Ocr识别结果纠正方法及其终端、***
CN112735396A (zh) * 2021-02-05 2021-04-30 北京小米松果电子有限公司 语音识别纠错方法、装置及存储介质
CN113129894A (zh) * 2021-04-12 2021-07-16 阿波罗智联(北京)科技有限公司 语音识别方法、装置、电子设备以及存储介质
CN113378553A (zh) * 2021-04-21 2021-09-10 广州博冠信息科技有限公司 文本处理方法、装置、电子设备和存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232062A (zh) * 2020-12-11 2021-01-15 北京百度网讯科技有限公司 文本纠错方法、装置、电子设备和存储介质
CN113257227B (zh) * 2021-04-25 2024-03-01 平安科技(深圳)有限公司 语音识别模型性能检测方法、装置、设备及存储介质
CN113642316B (zh) * 2021-07-28 2023-11-28 平安国际智慧城市科技股份有限公司 中文文本纠错方法、装置、电子设备及存储介质
CN114239559B (zh) * 2021-11-15 2023-07-11 北京百度网讯科技有限公司 文本纠错和文本纠错模型的生成方法、装置、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009140503A (ja) * 2007-12-10 2009-06-25 Toshiba Corp 音声翻訳方法及び装置
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
CN103645876A (zh) * 2013-12-06 2014-03-19 百度在线网络技术(北京)有限公司 语音输入方法和装置
CN105206267A (zh) * 2015-09-09 2015-12-30 中国科学院计算技术研究所 一种融合非确定性反馈的语音识别错误修正方法及***
CN105302795A (zh) * 2015-11-11 2016-02-03 河海大学 基于汉语模糊发音和语音识别的中文文本校验***及方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5852801A (en) * 1995-10-04 1998-12-22 Apple Computer, Inc. Method and apparatus for automatically invoking a new word module for unrecognized user input
CN1207664C (zh) * 1999-07-27 2005-06-22 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别***
US7165019B1 (en) * 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
JP4475380B2 (ja) * 2002-05-15 2010-06-09 パイオニア株式会社 音声認識装置及び音声認識プログラム
AU2003253116A1 (en) * 2002-07-31 2004-02-23 Koninklijke Philips Electronics N.V. Determining the reading of a kanji word
US8095364B2 (en) * 2004-06-02 2012-01-10 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
JP5040909B2 (ja) * 2006-02-23 2012-10-03 日本電気株式会社 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US8972268B2 (en) * 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US8457946B2 (en) * 2007-04-26 2013-06-04 Microsoft Corporation Recognition architecture for generating Asian characters
CN101996631B (zh) * 2009-08-28 2014-12-03 国际商业机器公司 用于对齐文本的方法和装置
JP5231484B2 (ja) * 2010-05-19 2013-07-10 ヤフー株式会社 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置
JP5957269B2 (ja) * 2012-04-09 2016-07-27 クラリオン株式会社 音声認識サーバ統合装置および音声認識サーバ統合方法
CN103714048B (zh) * 2012-09-29 2017-07-21 国际商业机器公司 用于校正文本的方法和***
CN103021412B (zh) * 2012-12-28 2014-12-10 安徽科大讯飞信息科技股份有限公司 语音识别方法和***
KR101590724B1 (ko) * 2014-10-06 2016-02-02 포항공과대학교 산학협력단 음성 인식 오류 수정 방법 및 이를 수행하는 장치
CN105632499B (zh) * 2014-10-31 2019-12-10 株式会社东芝 用于优化语音识别结果的方法和装置
JP2016095399A (ja) * 2014-11-14 2016-05-26 日本電信電話株式会社 音声認識結果整形装置、方法及びプログラム
KR102380833B1 (ko) * 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN105244029B (zh) * 2015-08-28 2019-02-26 安徽科大讯飞医疗信息技术有限公司 语音识别后处理方法及***
US20170229124A1 (en) * 2016-02-05 2017-08-10 Google Inc. Re-recognizing speech with external data sources
CN106297797B (zh) * 2016-07-26 2019-05-31 百度在线网络技术(北京)有限公司 语音识别结果纠错方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009140503A (ja) * 2007-12-10 2009-06-25 Toshiba Corp 音声翻訳方法及び装置
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
CN103645876A (zh) * 2013-12-06 2014-03-19 百度在线网络技术(北京)有限公司 语音输入方法和装置
CN105206267A (zh) * 2015-09-09 2015-12-30 中国科学院计算技术研究所 一种融合非确定性反馈的语音识别错误修正方法及***
CN105302795A (zh) * 2015-11-11 2016-02-03 河海大学 基于汉语模糊发音和语音识别的中文文本校验***及方法

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018018867A1 (zh) * 2016-07-26 2018-02-01 百度在线网络技术(北京)有限公司 语音识别结果纠错方法和装置
CN108573706A (zh) * 2017-03-10 2018-09-25 北京搜狗科技发展有限公司 一种语音识别方法、装置及设备
CN108573706B (zh) * 2017-03-10 2021-06-08 北京搜狗科技发展有限公司 一种语音识别方法、装置及设备
CN106992001B (zh) * 2017-03-29 2020-05-22 百度在线网络技术(北京)有限公司 语音指令的处理方法、装置和***
CN106992001A (zh) * 2017-03-29 2017-07-28 百度在线网络技术(北京)有限公司 语音指令的处理方法、装置和***
CN107221328A (zh) * 2017-05-25 2017-09-29 百度在线网络技术(北京)有限公司 修改源的定位方法及装置、计算机设备及可读介质
CN107729321A (zh) * 2017-10-23 2018-02-23 上海百芝龙网络科技有限公司 一种语音识别结果纠错方法
CN109992765A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 文本纠错方法及装置、存储介质和电子设备
CN109243461A (zh) * 2018-09-21 2019-01-18 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质
CN109522550A (zh) * 2018-11-08 2019-03-26 和美(深圳)信息技术股份有限公司 文本信息纠错方法、装置、计算机设备和存储介质
CN111292728A (zh) * 2018-11-21 2020-06-16 三星电子株式会社 语音识别方法和设备
US11935516B2 (en) 2018-11-21 2024-03-19 Samsung Electronics Co., Ltd. Speech recognition method and appratus using weighted scores
CN111292728B (zh) * 2018-11-21 2024-05-28 三星电子株式会社 语音识别方法和设备
CN109684643A (zh) * 2018-12-26 2019-04-26 湖北亿咖通科技有限公司 基于句向量的文本识别方法、电子设备及计算机可读介质
CN109684643B (zh) * 2018-12-26 2021-03-12 湖北亿咖通科技有限公司 基于句向量的文本识别方法、电子设备及计算机可读介质
CN110705217A (zh) * 2019-09-09 2020-01-17 上海凯京信达科技集团有限公司 一种错别字检测方法、装置及计算机存储介质、电子设备
CN111192586A (zh) * 2020-01-08 2020-05-22 北京松果电子有限公司 语音识别方法及装置、电子设备、存储介质
CN112489655A (zh) * 2020-11-18 2021-03-12 元梦人文智能国际有限公司 一种特定领域的语音识别文本纠错方法、***和存储介质
CN112489655B (zh) * 2020-11-18 2024-04-19 上海元梦智能科技有限公司 一种特定领域的语音识别文本纠错方法、***和存储介质
CN112528980A (zh) * 2020-12-16 2021-03-19 北京华宇信息技术有限公司 Ocr识别结果纠正方法及其终端、***
CN112528980B (zh) * 2020-12-16 2022-02-15 北京华宇信息技术有限公司 Ocr识别结果纠正方法及其终端、***
CN112735396A (zh) * 2021-02-05 2021-04-30 北京小米松果电子有限公司 语音识别纠错方法、装置及存储介质
CN113129894A (zh) * 2021-04-12 2021-07-16 阿波罗智联(北京)科技有限公司 语音识别方法、装置、电子设备以及存储介质
CN113378553A (zh) * 2021-04-21 2021-09-10 广州博冠信息科技有限公司 文本处理方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
WO2018018867A1 (zh) 2018-02-01
JP6827110B2 (ja) 2021-02-10
JP2019526080A (ja) 2019-09-12
CN106297797B (zh) 2019-05-31
US20200184953A1 (en) 2020-06-11
US11024287B2 (en) 2021-06-01

Similar Documents

Publication Publication Date Title
CN106297797A (zh) 语音识别结果纠错方法和装置
CN110210029B (zh) 基于垂直领域的语音文本纠错方法、***、设备及介质
CN107301860B (zh) 基于中英文混合词典的语音识别方法及装置
CN107195295B (zh) 基于中英文混合词典的语音识别方法及装置
CN108510976B (zh) 一种多语言混合语音识别方法
JP6204959B2 (ja) 音声認識結果最適化装置、音声認識結果最適化方法、及びプログラム
CN102725790B (zh) 识别词典制作装置及声音识别装置
CN103714048B (zh) 用于校正文本的方法和***
CN111369974B (zh) 一种方言发音标注方法、语言识别方法及相关装置
CN107688803B (zh) 字符识别中识别结果的校验方法和装置
CN111753531A (zh) 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质
WO2020226948A1 (en) Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models
US8204738B2 (en) Removing bias from features containing overlapping embedded grammars in a natural language understanding system
Pennell et al. Toward text message normalization: Modeling abbreviation generation
KR101633556B1 (ko) 문법 오류 수정 장치 및 이를 이용한 문법 오류 수정 방법
CN113779972A (zh) 语音识别纠错方法、***、装置及存储介质
JP2009145856A (ja) 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体
Kübler et al. Part of speech tagging for Arabic
CN112331229A (zh) 语音检测方法、装置、介质和计算设备
US20210158804A1 (en) System and method to improve performance of a speech recognition system by measuring amount of confusion between words
JP5975938B2 (ja) 音声認識装置、音声認識方法及びプログラム
CN110945514B (zh) 用于分割句子的***和方法
CN112559725A (zh) 文本匹配方法、装置、终端和存储介质
CN109710945B (zh) 基于数据生成文本方法、装置、计算机设备和存储介质
JP2018066800A (ja) 日本語音声認識モデル学習装置及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant