CN109785842B - 语音识别纠错方法以及语音识别纠错*** - Google Patents

语音识别纠错方法以及语音识别纠错*** Download PDF

Info

Publication number
CN109785842B
CN109785842B CN201711121071.7A CN201711121071A CN109785842B CN 109785842 B CN109785842 B CN 109785842B CN 201711121071 A CN201711121071 A CN 201711121071A CN 109785842 B CN109785842 B CN 109785842B
Authority
CN
China
Prior art keywords
pinyin
candidate
xuanji
hou
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711121071.7A
Other languages
English (en)
Other versions
CN109785842A (zh
Inventor
葛斯函
马天泽
林锋
段全盛
赵浩天
夏妍
梁微
周际
徐龙生
马英财
尹路通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NIO Holding Co Ltd
Original Assignee
NIO Anhui Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NIO Anhui Holding Co Ltd filed Critical NIO Anhui Holding Co Ltd
Priority to CN201711121071.7A priority Critical patent/CN109785842B/zh
Priority to PCT/CN2018/114792 priority patent/WO2019096068A1/zh
Priority to EP18879061.2A priority patent/EP3779970B1/en
Publication of CN109785842A publication Critical patent/CN109785842A/zh
Application granted granted Critical
Publication of CN109785842B publication Critical patent/CN109785842B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/018Input/output arrangements for oriental characters
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及语音识别纠错方法以及***。该方法包括下述步骤:通过语音识别和语义理解提取地名并将地名转换为地名拼音;拆分所述地名拼音,得到N个拼音列表,将N个拼音列表进行第一笛卡尔乘积生成第一拼音候选集,其中,N为自然数;对所述第一拼音候选集的拼音进行过滤,过滤去除非法拼音;将所述过滤步骤输出的拼音进行第二笛卡尔乘积,得到第二拼音侯选集;基于所述第二拼音侯选集构造查询query;将查询query在倒排索引中进行查询,获得可能性有高到低的候选地名并展示给用户。根据本发明,能够提高语音识别的准确性。

Description

语音识别纠错方法以及语音识别纠错***
技术领域
本发明涉及语音识别技术,具体地涉及一种语音识别纠错方法以及语音识别纠错***。
背景技术
语音识别是将声音识别成文字的过程,中文语音识别是根据说话人的发音将语音转换成中文文字。但是由于个人发音差异,不规范的中文拼音会造成语音识别的正确率打打降低。
当将语音识别应用在车辆导航场景的情况下下,语音对话***会先将语音转换为文字,然后进行语义理解,识别出地名,查询地名的具体信息,并进行导航。然而,由于说话人发音区别很大,地名较多以及同音字等原因,语音识别出来的地名在某些时候会出现错误,从而导致用户无法找到正确的地点。例如在下表1中表示了3种识别错误:
同音字 “导航到嘉亭荟”→“导航到家庭会”
前后鼻音 “导航到星光佳园”→“导航到新光家园”
平卷舌 “导航到紫荆一村”→“导航到只进一村”
表1
发明内容
鉴于所述问题,本发明旨在提供一种能够提高语音识别正确率的语音识别地名纠错***以及语音识别地名纠错方法。
本发明一方面的语音识别纠错方法,其特征在于,包括下述步骤:
拼音转换步骤,通过语音识别和语义理解提取将语音信息转换为拼音;
第一拼音侯选集生成步骤,拆分所述拼音,得到N个拼音列表,将N个拼音列表进行第一笛卡尔乘积生成第一拼音候选集,其中,N为自然数;
过滤步骤,对所述第一拼音候选集的拼音进行过滤,过滤去除非法拼音;
第二拼音侯选集生成步骤,将所述过滤步骤输出的拼音进行第二笛卡尔乘积,得到第二拼音侯选集;
查询query生成步骤,基于所述第二拼音侯选集构造查询query;以及
候选地名生成步骤,将查询query在倒排索引中进行查询,获得可能性有高到低的候选地名并展示给用户。
可选地,在所述第一拼音侯选集生成步骤中,拆分所述拼音为声母和韵母,根据相似字典找到相似的声母列表和韵母列表,将声母列表和韵母列表进行笛卡尔乘积生成拼音的候选集。
可选地,在第一拼音侯选集生成步骤中,声母的相似声母列表为:
韵母相似的韵母列表为:
接着,再将和/>进行第一笛卡尔乘积,生成拼音的相似拼音作为第一拼音候选集,即:/>
可选地,在所述第二拼音侯选集生成步骤中,将每个拼音的候选集进行第二笛卡尔乘积,得到正确拼音候选集:C=PC1×PC2×...×PCn
可选地,在所述过滤步骤中,根据拼音字典对所述第一拼音候选集的拼音进行过滤。
可选地,在所述查询query生成步骤中,基于所述第二拼音侯选集,根据下式构造查询query:
其中,should表示或操作,match_phrase指文档中必须包含查询语句中的字符串,weight是查询子句的权重,权重是根据候选拼音与原始拼音的距离计算得来的。
可选地,所述权重如下式所示计算获得:
其中,pi是原始拼音第i个字的拼音,qi是候选拼音第i个字的拼音,d(pi,qi)是pi与qi的距离。d(pi,qi)的值是pi变为qi所要替换声母和韵母的次数。
本发明的一方面的音识别纠错***,其特征在于,具备:
拼音转换模块,获取语音信息并通过语音识别和语义理解将语音信息转换为拼音;
第一拼音侯选集生成模块,拆分所述拼音,得到N个拼音列表,将N个拼音列表进行第一笛卡尔乘积生成第一拼音候选集,其中,N为自然数;
过滤模块,对所述第一拼音候选集的拼音进行过滤,过滤去除非法拼音;
第二拼音侯选集生成模块,将所述过滤模块输出的拼音进行第二笛卡尔乘积,得到第二拼音侯选集;以及
查询query生成模块,基于所述第二拼音侯选集构造查询query;以及
候选生成模块,将查询query在倒排索引中进行查询,获得可能性有高到低的候选信息并展示给用户。
可选地,所述第一拼音侯选集生成模块,拆分所述拼音为声母和韵母,根据相似字典找到相似的声母列表和韵母列表,将声母列表和韵母列表进行笛卡尔乘积生成拼音的候选集,
其中,声母的相似声母列表为:
韵母相似的韵母列表为:
进一步将和/>进行第一笛卡尔乘积,生成拼音的相似拼音作为第一拼音候选集,即:/>
可选地,所述第二拼音侯选集生成模块将每个拼音的候选集进行第二笛卡尔乘积,得到正确拼音候选集:C=PC1×PC2×...×PCn
可选地,所述查询query生成模块基于所述第二拼音侯选集根据下式构造查询query:
其中,should表示或操作,match_phrase指文档中必须包含查询语句中的字符串,weight是查询子句的权重,权重是根据候选拼音与原始拼音的距离计算得来的,
其中,所述权重如下式所示计算获得:
其中,pi是原始拼音第i个字的拼音,qi是候选拼音第i个字的拼音,d(pi,qi)是pi与qi的距离。d(pi,qi)的值是pi变为qi所要替换声母和韵母的次数。
本发明的计算机可读介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现所述的语音识别地错方法。
本发明的计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述的语音识别纠错方法的步骤。
根据本发明的语音识别纠错方法以及语音识别纠错***,能够对于错误拼音进行过滤,由此能够提高识别的准确性。另一方面,利用第一拼音侯选集生成模块和第二拼音侯选集生成模块能够计算出更多相似拼音,而且利用查询query生成模块和候选地名生成模块够将可能性由高到低的候选地名排列出来,由此,能够方便用户选择并同时通过提高识别的正确性。
附图说明
图1是本发明的一实施方式的语音识别纠错方法的流程图。
图2是表示相似字典的示例。
图3是表示拼音字典的示例。
图4是本发明的一实施方式的语音识别纠错***的构造示意图。
具体实施方式
下面介绍的是本发明的多个实施例中的一些,旨在提供对本发明的基本了解。并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。
在以下的说明中,对于本发明的语音识别纠错方法以及语音识别纠错***,以将它们应用到地名的识别纠错的场景为例进行说明。当然,本发明的语音识别纠错方法以及语音识别纠错***不仅可以适用于地名的语音识别纠错,还可以适用于其他场景,例如网上搜索引导、购物导向等各种各样的场景。
图1是本发明的一实施方式的语音识别纠错方法的流程图。
如图1所示,本发明的一实施方式的语音识别纠错方法包括下述步骤:
拼音转换步骤S100:通过语音识别和语义理解提取地名并将地名转换为地名拼音,具体地,例如,“上海滩”转换为拼音后得到一个拼音串:“shang hai tan”;
第一拼音侯选集生成步骤S200:拆分所述地名拼音,得到N个拼音列表,将N个拼音列表进行第一笛卡尔乘积生成第一拼音候选集,其中,N为自然数,具体地,例如,在拼音转换步骤S100中转换为“shang hai tan”的这个拼音串包含三个字的拼音,这里对这三个拼音的每一个拼音求得候选集,因为sh和s相似,ang和an相似(从相似字典中获取),因此shang对应的候选有sang,shan,san,同样还可以计算出hai没有其他候选,tan的候选有tang,这样就生成了每个拼音的候选列表;
过滤步骤S300:对所述第一拼音候选集的拼音进行过滤,过滤去除非法拼音;第二拼音侯选集生成步骤S400:将所述过滤步骤输出的拼音进行第二笛卡尔乘积,得到第二拼音侯选集,具体地,例如,“shang hai tan”这个拼音串整体的候选:sang hai tan、shanhai tan、san hai tan、shang hai tang、sang hai tang、shan hai tang、san hai tang;
查询query生成步骤S500:基于所述第二拼音侯选集构造查询query(即指“查询语句”);以及
候选地名生成步骤S600:将查询query在倒排索引中进行查询,获得可能性有高到低的候选地名并展示给用户。
接着,对于上述步骤进行具体说明。
在拼音转换步骤S100中,通过语音识别和语义理解提取地名并将地名转换为地名拼音,例如我们构造文档D=(name,pinyin),该文档有两个属性,地名以及地名对应的拼音。文档示例如下表2:
D1:(嘉亭荟,jia ting hui)
D2:(星光佳园,xing guang jia yuan)
D3:(紫荆一村,zi jing yi cun)
表2
根据拼音构造倒排索引,此过程可以借助现有资源的搜索引擎来进行,如:elastic search,将所有的地名以上述方式构造文档,并进行索引。
接着,在第一拼音侯选集生成步骤S200中,从语音对话***的语义理解结果中,提取出地名之后,将地名转换为拼音corg。然后,拆分地名拼音,得到一个拼音的列表:P=[p1,p2,...,pn]。
对于每一个拼音pk,将声母和韵母拆分开,生成声母以及韵母/>根据声母和韵母,在相似字典中找到声母的相似声母列表:
以及
韵母相似的韵母列表:
其中,相似字典例如可以是以文件的形式存储在磁盘或者数据库中,***会读取文件,加载相似字典。字典的每一条记录是一个键值对,键是一个声母(或韵母),值是与其相似的声母(或韵母)。相似字典的示例请参见图2,字典中目前有常见的近似音,比如:z和zh,c和ch等。
接着,再将和/>进行第一笛卡尔乘积,生成拼音的相似拼音,即生成候选集:/>
由于生成的候选集里面的拼音并不是所有的都是合法拼音,因此需要对非法拼音进行过滤。因此,在过滤步骤S300中对生成的候选集的拼音进行过滤,过滤去除非法拼音。此过滤步骤可以通过拼音字典进行。其中,拼音字典可以例如是以文件的形式存储在磁盘或者数据库中,***会读取文件,加载拼音字典。字典中包含了所有合法的汉语拼音,字典的每一条记录就是一个合法的汉语拼音。拼音字典的示例请参见图3。
接着,在第二拼音侯选集生成步骤S400中,将每个拼音的候选集进行第二笛卡尔乘积,得到正确地名拼音候选集:
C=PC1×PC2×...×PCn
最后,在查询query生成步骤S500中,对于上述步骤计算出的地名拼音候选集,根据候选集构造查询query去倒排索引查询对应的文档。构造query的时候,是将每个候选拼音进行或操作,且每个候选拼音的权重也是不一样的。与原始地名拼音距离越近的候选拼音,更有可能是正确的地名拼音,因此权重越高。这里,在本实施方式中构造query示例如下:
其中,should表示或操作,match_phrase指文档中必须包含查询语句中的字符串,在这里指的是文档的拼音字段必须包含查询子句中的拼音字段。weight是查询子句的权重,权重是根据候选拼音与原始地名拼音的距离计算得来的。其中,该距离的计算采用如下公式进行:
其中,pi是原始地名拼音第i个字的拼音,qi是候选地名拼音第i个字的拼音,d(pi,qi)是pi与qi的距离。d(pi,qi)的值是pi变为qi所要替换声母和韵母的次数。
接着,对于用计算机代码实现上述的公式的过程进行举例说明。算法distance(corg,c)的具体代码实现过程如下:
最后,在候选地名生成步骤S600中,将query在倒排索引中进行查询,就可以获取到可能性由高到低的候选地名列表,可以将候选地名列表展示出来之后,用户就可以选择正确的地名,从而进行纠错。
以上对于发明的一实施方式的语音识别地名纠错方法进行了具体说明。接着,对于本发明的一实施方式的语音识别地名纠错***进行说明。
图4是本发明的一实施方式的语音识别地名纠错***的构造示意图。
如图4所示,本发明的一实施方式的语音识别地名纠错***具备:
拼音转换模块100,用于获取语音信息并通过语音识别和语义理解从语音信息中提取地名并将地名转换为地名拼音,具体地,例如,“上海滩”转换为拼音后得到一个拼音串:“shang hai tan”;
第一拼音侯选集生成模块200,用于拆分所述地名拼音并得到N个拼音列表,将N个拼音列表进行第一笛卡尔乘积生成第一拼音候选集,其中,N为自然数,具体地例如,在拼音转换步骤S100中转换为“shang hai tan”的这个拼音串包含三个字的拼音,这里对这三个拼音的每一个拼音求得候选集,因为sh和s相似,ang和an相似(从相似字典中获取),因此shang对应的候选有sang,shan,san,同样还可以计算出hai没有其他候选,tan的候选有tang,这样就生成了每个拼音的候选列表;
过滤模块300,用于对所述第一拼音候选集的拼音进行过滤并去除非法拼音;
第二拼音侯选集生成模块400,用于将所述过滤模块输出的拼音进行第二笛卡尔乘积,得到第二拼音侯选集,具体地,例如,“shang hai tan”这个拼音串整体的候选:sanghai tan、shan hai tan、san hai tan、shang hai tang、sang hai tang、shan hai tang、san hai tang;以及
查询query生成模块500,用于基于所述第二拼音侯选集构造查询query;以及
候选地名生成模块600,用于将查询query在倒排索引中进行查询,获得可能性有高到低的候选地名并展示给用户。
其中,第一拼音侯选集生成模块200拆分地名拼音为声母和韵母,根据相似字典找到相似的声母列表和韵母列表,将声母列表和韵母列表进行笛卡尔乘积生成拼音的候选集,
其中,声母的相似声母列表为:
韵母相似的韵母列表为:
进一步将和/>进行第一笛卡尔乘积,生成拼音的相似拼音作为第一拼音候选集,即:/>
进一步,第二拼音侯选集生成模块400将每个拼音的候选集进行第二笛卡尔乘积,得到正确地名拼音候选集:C=PC1×PC2×...×PCn
再者,查询query生成模块500基于第二拼音侯选集根据下式构造查询query:
其中,should表示或操作,match_phrase指文档中必须包含查询语句中的字符串,weight是查询子句的权重,权重是根据候选拼音与原始地名拼音的距离计算得来的,
其中,所述权重如下式所示计算获得:
其中,pi是原始地名拼音第i个字的拼音,qi是候选地名拼音第i个字的拼音,d(pi,qi)是pi与qi的距离。d(pi,qi)的值是pi变为qi所要替换声母和韵母的次数。
本发明的语音识别地名纠错***利用过滤模块300能够对于错误拼音进行过滤,由此能够提高识别的准确性。另一方面,利用第一拼音侯选集生成模块200和第二拼音侯选集生成模块400能够计算出更多相似拼音,进一步,利用查询query生成模块500和候选地名生成模块600能够将可能性由高到低的候选地名排列出来,由此,能够方便用户选择并同时通过提高识别的正确性。
再者,本发明提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述语音识别地名纠错方法。
再者,本发明提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行上述计算机程序时实现上述语音识别地名纠错方法。
作为计算机可读介质,存在磁性记录装置、光盘、光磁记录介质、半导体存储器等。对于磁性记录装置,存在HDD、FD、磁带等。对于光盘,存在DVD(Digital Versatile Disc,数字通用光盘)、DVD-RAM、CD-ROM、CD-R(Recordable,可记录)/RW(ReWritable,可重写)等。对于光磁记录装置,存在MO(Magneto Optical disk,磁光盘)等。
以上例子主要说明了本发明的语音识别地名纠错***以及语音识别地名纠错方法。尽管只对其中一些本发明的具体实施方式进行了描述,但是本领域普通技术人员应当了解,本发明可以在不偏离其主旨与范围内以许多其他的形式实施。因此,所展示的例子与实施方式被视为示意性的而非限制性的,在不脱离如所附各权利要求所定义的本发明精神及范围的情况下,本发明可能涵盖各种的修改与替换。

Claims (10)

1.一种语音识别纠错方法,其特征在于,包括下述步骤:
拼音转换步骤,将语音信息转换为拼音;
第一拼音侯选集生成步骤,拆分所述拼音,得到N个拼音列表,将N个拼音列表进行第一笛卡尔乘积生成第一拼音候选集,其中,N为自然数;
过滤步骤,对所述第一拼音候选集的拼音进行过滤,以去除非法拼音;
第二拼音侯选集生成步骤,将所述过滤步骤输出的拼音进行第二笛卡尔乘积,得到第二拼音侯选集;
查询query生成步骤,基于所述第二拼音侯选集构造查询query;以及
候选信息生成步骤,将查询query在倒排索引中进行查询,获得可能性由高到低的候选信息并展示给用户,
其中,在所述查询query生成步骤中,基于所述第二拼音侯选集,根据下式构造查询query:
其中,should表示或操作,match_phrase指文档中必须包含查询语句中的字符串,weight是查询子句的权重,权重是根据候选拼音与原始拼音的距离计算得来的,
所述权重如下式所示计算获得:
其中,distance(corg,c)是指原始拼音和候选拼音之间的距离,其中,corg是原始拼音,c是指候选拼音,pi是原始拼音第i个字的拼音,qi是候选拼音第i个字的拼音,d(pi,qi)是pi与qi的距离,这里用d(pi,qi)的值来表示pi变为qi所要替换声母和韵母的次数。
2.如权利要求1所述的语音识别纠错方法,其特征在于,
在所述第一拼音侯选集生成步骤中,拆分所述拼音为声母和韵母,根据相似字典找到相似的声母列表和韵母列表,将声母列表和韵母列表进行笛卡尔乘积生成拼音的候选集。
3.如权利要求2所述的语音识别纠错方法,其特征在于,
在第一拼音侯选集生成步骤中,声母的相似声母列表为:
韵母相似的韵母列表为:
接着,再将和/>进行第一笛卡尔乘积,生成拼音的相似拼音作为第一拼音候选集,即:/>
4.如权利要求3中所述的语音识别纠错方法,其特征在于,
在所述第二拼音侯选集生成步骤中,将每个拼音的候选集进行第二笛卡尔乘积,得到正确拼音候选集:C=PC1×PC2×...×PCn
5.如权利要求3中所述的语音识别纠错方法,其特征在于,
在所述过滤步骤中,根据拼音字典对所述第一拼音候选集的拼音进行过滤。
6.一种语音识别纠错***,其特征在于,具备:
拼音转换模块,获取语音信息并、解将语音信息转换为拼音;
第一拼音侯选集生成模块,拆分所述拼音,得到N个拼音列表,将N个拼音列表进行第一笛卡尔乘积生成第一拼音候选集,其中,N为自然数;
过滤模块,对所述第一拼音候选集的拼音进行过滤,过滤去除非法拼音;
第二拼音侯选集生成模块,将所述过滤模块输出的拼音进行第二笛卡尔乘积,得到第二拼音侯选集;以及
查询query生成模块,基于所述第二拼音侯选集构造查询query;以及
候选信息生成模块,将查询query在倒排索引中进行查询,获得可能性由高到低的候选信息并展示给用户,
其中,所述查询query生成模块基于所述第二拼音侯选集根据下式构造查询query:
其中,should表示或操作,match_phrase指文档中必须包含查询语句中的字符串,weight是查询子句的权重,权重是根据候选拼音与原始拼音的距离计算得来的,
其中,所述权重如下式所示计算获得:
其中,distance(corg,c)是指原始拼音和候选拼音之间的距离,其中,corg是原始拼音,c是指候选拼音,pi是原始拼音第i个字的拼音,qi是候选拼音第i个字的拼音,d(pi,qi)是pi与qi的距离,这里用d(pi,qi)的值来表示pi变为qi所要替换声母和韵母的次数。
7.如权利要求6所述的语音识别纠错***,其特征在于,
所述第一拼音侯选集生成模块,拆分所述拼音为声母和韵母,根据相似字典找到相似的声母列表和韵母列表,将声母列表和韵母列表进行笛卡尔乘积生成拼音的候选集,
其中,声母的相似声母列表为:
韵母相似的韵母列表为:
进一步将和/>进行第一笛卡尔乘积,生成拼音的相似拼音作为第一拼音候选集,即:/>
8.如权利要求7中所述的语音识别纠错***,其特征在于,
所述第二拼音侯选集生成模块将每个拼音的候选集进行第二笛卡尔乘积,得到正确拼音候选集:C=PC1×PC2×...×PCn
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1~5中任意一项所述的语音识别纠错方法。
10.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~5中任意一项所述的语音识别纠错方法的步骤。
CN201711121071.7A 2017-11-14 2017-11-14 语音识别纠错方法以及语音识别纠错*** Active CN109785842B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201711121071.7A CN109785842B (zh) 2017-11-14 2017-11-14 语音识别纠错方法以及语音识别纠错***
PCT/CN2018/114792 WO2019096068A1 (zh) 2017-11-14 2018-11-09 语音识别纠错方法以及语音识别纠错***
EP18879061.2A EP3779970B1 (en) 2017-11-14 2018-11-09 Voice recognition and error correction method and voice recognition and error correction system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711121071.7A CN109785842B (zh) 2017-11-14 2017-11-14 语音识别纠错方法以及语音识别纠错***

Publications (2)

Publication Number Publication Date
CN109785842A CN109785842A (zh) 2019-05-21
CN109785842B true CN109785842B (zh) 2023-09-05

Family

ID=66493449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711121071.7A Active CN109785842B (zh) 2017-11-14 2017-11-14 语音识别纠错方法以及语音识别纠错***

Country Status (3)

Country Link
EP (1) EP3779970B1 (zh)
CN (1) CN109785842B (zh)
WO (1) WO2019096068A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489754B (zh) * 2019-08-20 2023-01-03 杭州数澜科技有限公司 快速生成标准语料的方法和***
CN110534112B (zh) * 2019-08-23 2021-09-10 王晓佳 基于位置与时间的分布式语音识别纠错方法
CN110797049B (zh) * 2019-10-17 2022-06-07 科大讯飞股份有限公司 一种语音评测方法及相关装置
CN113539247B (zh) * 2020-04-14 2024-06-18 京东科技控股股份有限公司 语音数据处理方法、装置、设备及计算机可读存储介质
CN111611792B (zh) * 2020-05-21 2023-05-23 全球能源互联网研究院有限公司 一种语音转录文本的实体纠错方法及***
CN112133295B (zh) * 2020-11-09 2024-02-13 北京小米松果电子有限公司 语音识别方法、装置及存储介质
CN114398888B (zh) * 2022-01-07 2024-06-18 北京明略软件***有限公司 生成声母韵母向量的方法、装置、电子设备及存储介质
CN115019786A (zh) * 2022-05-23 2022-09-06 支付宝(杭州)信息技术有限公司 模型训练方法和装置及语音含义的理解方法和装置
CN115579009B (zh) * 2022-12-06 2023-04-07 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质
CN116227468B (zh) * 2023-01-06 2023-10-31 杭州健海科技有限公司 基于拼音转写翻译的语音识别模型纠错训练方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302795A (zh) * 2015-11-11 2016-02-03 河海大学 基于汉语模糊发音和语音识别的中文文本校验***及方法
CN105975625A (zh) * 2016-05-26 2016-09-28 同方知网数字出版技术股份有限公司 一种面向英文搜索引擎的中式英文查询纠错方法和***
CN106297799A (zh) * 2016-08-09 2017-01-04 乐视控股(北京)有限公司 语音识别处理方法及装置
CN107305768A (zh) * 2016-04-20 2017-10-31 上海交通大学 语音交互中的易错字校准方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067780B (zh) * 2007-06-21 2010-06-02 腾讯科技(深圳)有限公司 智能设备的文字输入***及方法
CN101825953A (zh) * 2010-04-06 2010-09-08 朱建政 一种语音输入和拼音输入相结合的中文输入法产品
CN105096935B (zh) * 2014-05-06 2019-08-09 阿里巴巴集团控股有限公司 一种语音输入方法、装置和***
CN105632499B (zh) * 2014-10-31 2019-12-10 株式会社东芝 用于优化语音识别结果的方法和装置
CN107016994B (zh) * 2016-01-27 2020-05-08 阿里巴巴集团控股有限公司 语音识别的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302795A (zh) * 2015-11-11 2016-02-03 河海大学 基于汉语模糊发音和语音识别的中文文本校验***及方法
CN107305768A (zh) * 2016-04-20 2017-10-31 上海交通大学 语音交互中的易错字校准方法
CN105975625A (zh) * 2016-05-26 2016-09-28 同方知网数字出版技术股份有限公司 一种面向英文搜索引擎的中式英文查询纠错方法和***
CN106297799A (zh) * 2016-08-09 2017-01-04 乐视控股(北京)有限公司 语音识别处理方法及装置

Also Published As

Publication number Publication date
EP3779970A4 (en) 2022-03-09
CN109785842A (zh) 2019-05-21
EP3779970A1 (en) 2021-02-17
WO2019096068A1 (zh) 2019-05-23
EP3779970B1 (en) 2023-01-25

Similar Documents

Publication Publication Date Title
CN109785842B (zh) 语音识别纠错方法以及语音识别纠错***
KR101083540B1 (ko) 통계적인 방법을 이용한 한자에 대한 자국어 발음열 변환 시스템 및 방법
US9582489B2 (en) Orthographic error correction using phonetic transcription
US7979268B2 (en) String matching method and system and computer-readable recording medium storing the string matching method
Xue et al. Normalizing microtext
US8117026B2 (en) String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method
JP2013117978A (ja) タイピング効率向上のためのタイピング候補の生成方法
US20120179694A1 (en) Method and system for enhancing a search request
JP4930379B2 (ja) 類似文検索方法、類似文検索システム及び類似文検索用プログラム
JP2013196358A (ja) 検索支援装置および検索支援方法
JP5642037B2 (ja) 検索装置、検索方法およびプログラム
Ghoshal et al. Web-derived pronunciations
KR20200084945A (ko) 한글 자연어 처리에서 검색의 품질을 향상시키기 위한 정확도 높은 형태소 분석 장치 및 그 동작 방법
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
Murthy et al. Kannada spell checker with sandhi splitter
JP2008059389A (ja) 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム
US11080488B2 (en) Information processing apparatus, output control method, and computer-readable recording medium
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
JP2006235916A (ja) テキスト解析装置およびテキスト解析方法ならびに音声合成装置
JP2009199434A (ja) アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム
Kamimura et al. Pronunciation error detection in voice input for correct word suggestion
JP5436685B2 (ja) パーティクルのセットを変換するための方法、およびパーティクルの出力セットを生成する方法
Angkawattanawit et al. Thai Q-Cor: integrating word approximation and soundex for Thai query correction
Thirion et al. Multilingual pronunciations of proper names in a Southern African corpus
KR100960490B1 (ko) 동의어를 이용한 검색 서비스 제공 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200810

Address after: Susong Road West and Shenzhen Road North, Hefei Economic and Technological Development Zone, Anhui Province

Applicant after: Weilai (Anhui) Holding Co.,Ltd.

Address before: Room 502, Minsheng Bank Building, 12 Cecil Harcourt Road, central, Hongkong, China

Applicant before: NIO NEXTEV Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant