CN112562636A - 一种语音合成纠错的方法和装置 - Google Patents

一种语音合成纠错的方法和装置 Download PDF

Info

Publication number
CN112562636A
CN112562636A CN202011402089.6A CN202011402089A CN112562636A CN 112562636 A CN112562636 A CN 112562636A CN 202011402089 A CN202011402089 A CN 202011402089A CN 112562636 A CN112562636 A CN 112562636A
Authority
CN
China
Prior art keywords
pronunciation
phoneme sequence
phoneme
speech synthesis
target entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011402089.6A
Other languages
English (en)
Other versions
CN112562636B (zh
Inventor
王鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202011402089.6A priority Critical patent/CN112562636B/zh
Publication of CN112562636A publication Critical patent/CN112562636A/zh
Application granted granted Critical
Publication of CN112562636B publication Critical patent/CN112562636B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种语音合成纠错的方法和装置,该方法包括:获取用户录入的需要纠正读音的目标词条的参考读音;预测所述目标词条的至少一个音素序列;根据所述参考读音,计算每个所述至少一个音素序列的声学置信度;根据声学置信度最高的音素序列纠正所述目标词条的读音。本发明中,当需要纠正词条读音时,用户仅需要读出词条的正确读音,即可根据该正确读音自动给出声学置信度最高的音素序列,从而对语音合成***合成的读音进行纠正,大大降低了用户纠正语音合成***多音字读音的成本,解决用户在纠错过程中“会说不会标”的问题。

Description

一种语音合成纠错的方法和装置
技术领域
本发明涉及语音识别领域,具体涉及一种语音合成纠错的方法和装置。
背景技术
当前语音合成***的发音多是根据词典和字表来确定的,当合成语音出现多音字读音错误时,往往需要用户通过更新词典中词条的注音来进行纠正,纠正时需要用户手动标注音标,对用户在语言方面的专业性有一定要求,特别是当纠正的语种为方言时,对专业性要求更高。
发明内容
本发明提供一种语音合成纠错的方法和装置,能够解决提高对于语音合成后出现的发音错误予以正音的便捷性的技术问题。
本发明解决上述技术问题的技术方案如下:
第一方面,本发明提供一种语音合成纠错的方法,包括:
获取用户录入的需要纠正读音的目标词条的参考读音;
预测所述目标词条的至少一个音素序列;
根据所述参考读音,计算每个所述至少一个音素序列的声学置信度;
根据声学置信度最高的音素序列纠正所述目标词条的读音。
本发明的有益效果是:当需要纠正词条读音时,用户仅需要读出词条的正确读音,即可根据该正确读音自动给出声学置信度最高的音素序列,从而对语音合成***合成的读音进行纠正,大大降低了用户纠正语音合成***多音字读音的成本,解决用户在纠错过程中“会说不会标”的问题。
进一步,所述预测所述目标词条的至少一个音素序列,具体包括:
通过内置的字典,获取所述目标词条中每个单字的全部读音;
将每个单字的全部读音排列组合,形成音素序列。
上述进一步方案的有益效果是:通过获取多音字的全部读音进行排列组合,自动形成所有可能的音素序列。
进一步,所述根据所述参考读音,计算每个所述至少一个音素序列的声学置信度,具体包括:
通过声学模型确定每一帧所述参考读音对应的所述音素序列中的音素和后验概率;
根据每一帧参考读音的后验概率,确定所述音素序列中每个音素的后验概率;
根据所述音素序列中每个音素的后验概率,确定所述音素序列的后验概率,作为所述音素序列的声学置信度。
上述进一步方案的有益效果是:通过将参考读音输入声学模型,进一步计算出了每个音素序列的声学置信度。
进一步,所述根据声学置信度最高的音素序列纠正所述目标词条的读音,具体包括:
使用语音合成引擎合成所述声学置信度最高的音素序列的合成读音并播放;
响应于用户确认所述合成读音正确,将所述目标词条和所述合成读音更新到语音合成***的注音词典中。
上述进一步方案的有益效果是:便于用户根据听到的合成读音来确认其是否正确,从而完成读音纠正。
第二方面,本发明提供一种语音合成纠错的装置,包括:
获取模块,用于获取用户录入的需要纠正读音的目标词条的参考读音;
预测模块,用于预测所述目标词条的至少一个音素序列;
计算模块,用于根据所述参考读音,计算每个所述至少一个音素序列的声学置信度;
纠正模块,用于根据声学置信度最高的音素序列纠正所述目标词条的读音。
进一步,所述预测模块,具体包括:
获取单元,用于通过内置的字典,获取所述目标词条中每个单字的全部读音;
形成单元,用于将每个单字的全部读音排列组合,形成音素序列。
进一步,所述计算模块,具体包括:
第一确定单元,用于通过声学模型确定每一帧所述参考读音对应的所述音素序列中的音素和后验概率;
第二确定单元,用于根据每一帧参考读音的后验概率,确定所述音素序列中每个音素的后验概率;
第三确定单元,用于根据所述音素序列中每个音素的后验概率,确定所述音素序列的后验概率,作为所述音素序列的声学置信度。
进一步,所述纠正模块,具体包括:
合成单元,用于使用语音合成引擎合成所述声学置信度最高的音素序列的合成读音并播放;
更新单元,用于响应于用户确认所述合成读音正确,将所述目标词条和所述合成读音更新到语音合成***的注音词典中。
第三方面,本发明提供一种终端设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行上述的方法。
第四方面,本发明提供一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行上述的方法。
附图说明
图1为本发明实施例提供的一种语音合成纠错的方法的流程图;
图2为本发明实施例提供的一种语音合成纠错的方法的业务流程图;
图3为本发明实施例提供的一种语音合成纠错的装置的结构图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明实施例提供的一种语音合成纠错的方法的流程图,如图1所示,该方法包括:
S1、获取用户录入的需要纠正读音的目标词条的参考读音;
具体的,本发明实施例中,如图2所示,用户首先在交互界面输入待合成的文本,语音合成***根据文本合成对应的语音并播放给用户,由于可能存在多音字,尤其是方言等具有地方特色发音等情形,语音合成***合成的语音会存在读音错误的情况,当用户发现文本中的某个词条或短语的语音中存在读音错误时,可在交互界面中选中该词条或短语,然后通过麦克风等语音录入设备录入该词条或短语的正确读音作为参考读音。
S2、预测所述目标词条的至少一个音素序列;
具体的,本发明实施例中,可由语音合成***通过查询内置的字典,获取目标词条中每个单字的读音,然后将每个单字可能的读音排列组合,从而得到至少一个音素序列。
S3、根据所述参考读音,计算每个所述至少一个音素序列的声学置信度;
具体的,如图2所示,该步骤中,采用语音识别引擎根据录入的参考读音,预测出输入的文本序列中每个字(音节)的声学置信度打分。特别的,对于多音字要输出所有可能读音的声学相似度置信度打分。
S4、根据声学置信度最高的音素序列纠正所述目标词条的读音。
具体的,如图2所示,语音合成***输出声学置信度最高的音素序列,合成对应的语音,用户确认发音正确后,即可将词条及其对应的注音更新到语音合成***的注音词典中,并进行动态加载,完成发音的纠正和更新。
本发明实施例提供的一种语音合成纠错的方法,当需要纠正词条读音时,用户仅需要读出词条的正确读音,即可根据该正确读音自动给出声学置信度最高的音素序列,从而对语音合成***合成的读音进行纠正,大大降低了用户纠正语音合成***多音字读音的成本,解决用户在纠错过程中“会说不会标”的问题。
可选地,步骤S2具体包括:
S21、通过内置的字典,获取所述目标词条中每个单字的全部读音;
S22、将每个单字的全部读音排列组合,形成音素序列。
该实施例通过获取多音字的全部读音进行排列组合,自动形成所有可能的音素序列。
可选地,步骤S3具体包括:
S31、通过声学模型确定每一帧所述参考读音对应的所述音素序列中的音素和后验概率;
S32、根据每一帧参考读音的后验概率,确定所述音素序列中每个音素的后验概率;
S33、根据所述音素序列中每个音素的后验概率,确定所述音素序列的后验概率,作为所述音素序列的声学置信度。
具体的,在语音识别引擎中,每一个音素都会对应一个声学模型,这个模型是使用不同语音中发音相同的音素通过统计方法训练得到的。
该实施例中,为了将每一帧语音对应到音素的声学模型上,即得到每一帧语音与对应音素的映射关系,需要首先将语音和每一个音素序列进行强制对齐。具体的,首先通过提取每一帧语音的声学特征,得到声学特征序列,然后通过计算语音的声学特征和音素的声学模型的后验概率来得到当前帧语音对应到哪个音素。
在完成了强制对齐,得到了每一帧语音对应的音素之后,同时也得到了每一帧语音和它对应的音素的后验概率,这样通过音素对应语音帧的后验概率做加权求和,就可以得到每一个音素的后验概率。
根据之前计算的每个音素的后验概率,可以加权求和得到对应音素序列的后验概率。最后取后验概率最高的音素序列作为预测结果输出。
举例说明如下:用户用上海话输入一段的语音,语音长度共60帧,其对应的文本是【一个人】,按照上海话的音系标注音素序列,由于多音字的存在,那么对应的可能音素序列是【iIk55 eek55 n inT23】(简称序列一)或者【iIk55 eek55 z eenT23】(简称序列二)。强制对齐时,分别计算每一帧语音和序列一、序列二之间的音素对应关系。比如,第1~10帧语音对应的是序列一中的音素【iIk55】,其中,第一帧语音对应的后验概率是80%,第二帧语音对应的后延概率是95%,以此类推。在加权求和时,最简单的一种方法是算术平均数,比如,音素【eek55】对应的是第11到第15帧语音,它们的后验概率分别是95%、96%、95%、96%、95.5%,那这个音素对应的语音段的后验概率就是95.5%。通过单个音素的后延概率计算整个序列的后验概率的方法也是同理。假设最后算出来序列一的后验概率是85%,序列二的后验概率是65%,那么,序列一就是置信度更高的音素序列。
本实施例中,通过将参考读音输入声学模型,进一步计算出了每个音素序列的声学置信度。
可选地,步骤S4具体包括:
S41、使用语音合成引擎合成所述声学置信度最高的音素序列的合成读音并播放;
S42、响应于用户确认所述合成读音正确,将所述目标词条和所述合成读音更新到语音合成***的注音词典中。
本实施例中,语音合成***输出声学置信度最高的音素序列,合成对应的语音,用户确认发音正确后,即可将词条及其对应的注音更新到语音合成***的注音词典中,并进行动态加载,完成发音的纠正和更新。
下面通过一个具体实例对本发明实施例的进行具体说明:
1、上海话合成***中输入合成文本为:【一个人去旅行】,其中【一个人】的正确读音为【iIk55 eek55 n-inT23】,而合成***将该文本的发音预测成了【iIk55 eek55 z-eenT23】,即【一个人】出现了发音错误。
2、用户在图形界面中选中【一个人】这个词条。
3、用户将【一个人】这个词条的正确发音读出来,***收集并存储用户的语音。
4、合成***预测出可能的音素序列,分别是【iIk55 eek55 n inT23】和【iIk55eek55 z eenT23】。
5、识别引擎预测出这段语音对于两个音素序列的置信度打分,并挑选置信度高的序列作为预测输出,比如【iIk55 eek55 n inT23】的置信度是95%,【iIk55 eek55 zeenT23】的置信度是65%,那就认为【iIk55 eek55 n inT23】是正确的读音。
6、使用上一步中输出的音素序列为句子重新注音,并合成语音给用户进行确认。
7、用户确认通过后,将该词条及其发音加入到注音词典,并加载到合成***中,这样下一次合成的时候就可以正确播报了。
图3为本发明实施例提供的一种语音合成纠错的装置的结构图,该装置的各个模块的功能原理已在上述方法实施例中进行了对应说明,以下不再赘述。
如图3所示,该装置包括:
获取模块,用于获取用户录入的需要纠正读音的目标词条的参考读音;
预测模块,用于预测所述目标词条的至少一个音素序列;
计算模块,用于根据所述参考读音,计算每个所述至少一个音素序列的声学置信度;
纠正模块,用于根据声学置信度最高的音素序列纠正所述目标词条的读音。
进一步,所述预测模块,具体包括:
获取单元,用于通过内置的字典,获取所述目标词条中每个单字的全部读音;
形成单元,用于将每个单字的全部读音排列组合,形成音素序列。
进一步,所述计算模块,具体包括:
第一确定单元,用于通过声学模型确定每一帧所述参考读音对应的所述音素序列中的音素和后验概率;
第二确定单元,用于根据每一帧参考读音的后验概率,确定所述音素序列中每个音素的后验概率;
第三确定单元,用于根据所述音素序列中每个音素的后验概率,确定所述音素序列的后验概率,作为所述音素序列的声学置信度。
进一步,所述纠正模块,具体包括:
合成单元,用于使用语音合成引擎合成所述声学置信度最高的音素序列的合成读音并播放;
更新单元,用于响应于用户确认所述合成读音正确,将所述目标词条和所述合成读音更新到语音合成***的注音词典中。
本发明实施例还提供一种终端设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行上述的方法。
其中,处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括各种类型的存储单元,例如***内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。***内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。***内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
本发明实施例还提供一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行上述的方法。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种语音合成纠错的方法,其特征在于,包括:
获取用户录入的需要纠正读音的目标词条的参考读音;
预测所述目标词条的至少一个音素序列;
根据所述参考读音,计算每个所述至少一个音素序列的声学置信度;
根据声学置信度最高的音素序列纠正所述目标词条的读音。
2.根据权利要求1所述的语音合成纠错的方法,其特征在于,所述预测所述目标词条的至少一个音素序列,具体包括:
通过内置的字典,获取所述目标词条中每个单字的全部读音;
将每个单字的全部读音排列组合,形成音素序列。
3.根据权利要求1所述的语音合成纠错的方法,其特征在于,所述根据所述参考读音,计算每个所述至少一个音素序列的声学置信度,具体包括:
通过声学模型确定每一帧所述参考读音对应的所述音素序列中的音素和后验概率;
根据每一帧参考读音的后验概率,确定所述音素序列中每个音素的后验概率;
根据所述音素序列中每个音素的后验概率,确定所述音素序列的后验概率,作为所述音素序列的声学置信度。
4.根据权利要求1至3任一项所述的语音合成纠错的方法,其特征在于,所述根据声学置信度最高的音素序列纠正所述目标词条的读音,具体包括:
使用语音合成引擎合成所述声学置信度最高的音素序列的合成读音并播放;
响应于用户确认所述合成读音正确,将所述目标词条和所述合成读音更新到语音合成***的注音词典中。
5.一种语音合成纠错的装置,其特征在于,包括:
获取模块,用于获取用户录入的需要纠正读音的目标词条的参考读音;
预测模块,用于预测所述目标词条的至少一个音素序列;
计算模块,用于根据所述参考读音,计算每个所述至少一个音素序列的声学置信度;
纠正模块,用于根据声学置信度最高的音素序列纠正所述目标词条的读音。
6.根据权利要求5所述的语音合成纠错的装置,其特征在于,所述预测模块,具体包括:
获取单元,用于通过内置的字典,获取所述目标词条中每个单字的全部读音;
形成单元,用于将每个单字的全部读音排列组合,形成音素序列。
7.根据权利要求5所述的语音合成纠错的装置,其特征在于,所述计算模块,具体包括:
第一确定单元,用于通过声学模型确定每一帧所述参考读音对应的所述音素序列中的音素和后验概率;
第二确定单元,用于根据每一帧参考读音的后验概率,确定所述音素序列中每个音素的后验概率;
第三确定单元,用于根据所述音素序列中每个音素的后验概率,确定所述音素序列的后验概率,作为所述音素序列的声学置信度。
8.根据权利要求5至7任一项所述的语音合成纠错的方法,其特征在于,所述纠正模块,具体包括:
合成单元,用于使用语音合成引擎合成所述声学置信度最高的音素序列的合成读音并播放;
更新单元,用于响应于用户确认所述合成读音正确,将所述目标词条和所述合成读音更新到语音合成***的注音词典中。
9.一种终端设备,其特征在于,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1至4中任一项所述的方法。
10.一种非暂时性机器可读存储介质,其上存储有可执行代码,其特征在于,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至4中任一项所述的方法。
CN202011402089.6A 2020-12-03 2020-12-03 一种语音合成纠错的方法和装置 Active CN112562636B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011402089.6A CN112562636B (zh) 2020-12-03 2020-12-03 一种语音合成纠错的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011402089.6A CN112562636B (zh) 2020-12-03 2020-12-03 一种语音合成纠错的方法和装置

Publications (2)

Publication Number Publication Date
CN112562636A true CN112562636A (zh) 2021-03-26
CN112562636B CN112562636B (zh) 2024-07-05

Family

ID=75048342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011402089.6A Active CN112562636B (zh) 2020-12-03 2020-12-03 一种语音合成纠错的方法和装置

Country Status (1)

Country Link
CN (1) CN112562636B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6233553B1 (en) * 1998-09-04 2001-05-15 Matsushita Electric Industrial Co., Ltd. Method and system for automatically determining phonetic transcriptions associated with spelled words
US20070016422A1 (en) * 2005-07-12 2007-01-18 Shinsuke Mori Annotating phonemes and accents for text-to-speech system
JP2007248886A (ja) * 2006-03-16 2007-09-27 Mitsubishi Electric Corp 読み修正装置
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
CN109166569A (zh) * 2018-07-25 2019-01-08 北京海天瑞声科技股份有限公司 音素误标注的检测方法和装置
CN109545244A (zh) * 2019-01-29 2019-03-29 北京猎户星空科技有限公司 语音评测方法、装置、电子设备及存储介质
CN110782921A (zh) * 2019-09-19 2020-02-11 腾讯科技(深圳)有限公司 语音测评方法和装置、存储介质及电子装置
CN111145724A (zh) * 2019-12-31 2020-05-12 出门问问信息科技有限公司 一种多音字标注方法、装置以及计算机可读存储介质
US20200184958A1 (en) * 2018-12-07 2020-06-11 Soundhound, Inc. System and method for detection and correction of incorrectly pronounced words
US20200219413A1 (en) * 2017-09-26 2020-07-09 Nippon Telegraph And Telephone Corporation Pronunciation error detection apparatus, pronunciation error detection method and program
CN111640452A (zh) * 2019-03-01 2020-09-08 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6233553B1 (en) * 1998-09-04 2001-05-15 Matsushita Electric Industrial Co., Ltd. Method and system for automatically determining phonetic transcriptions associated with spelled words
US20070016422A1 (en) * 2005-07-12 2007-01-18 Shinsuke Mori Annotating phonemes and accents for text-to-speech system
JP2007248886A (ja) * 2006-03-16 2007-09-27 Mitsubishi Electric Corp 読み修正装置
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
US20200219413A1 (en) * 2017-09-26 2020-07-09 Nippon Telegraph And Telephone Corporation Pronunciation error detection apparatus, pronunciation error detection method and program
CN109166569A (zh) * 2018-07-25 2019-01-08 北京海天瑞声科技股份有限公司 音素误标注的检测方法和装置
US20200184958A1 (en) * 2018-12-07 2020-06-11 Soundhound, Inc. System and method for detection and correction of incorrectly pronounced words
CN109545244A (zh) * 2019-01-29 2019-03-29 北京猎户星空科技有限公司 语音评测方法、装置、电子设备及存储介质
CN111640452A (zh) * 2019-03-01 2020-09-08 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110782921A (zh) * 2019-09-19 2020-02-11 腾讯科技(深圳)有限公司 语音测评方法和装置、存储介质及电子装置
CN111145724A (zh) * 2019-12-31 2020-05-12 出门问问信息科技有限公司 一种多音字标注方法、装置以及计算机可读存储介质

Also Published As

Publication number Publication date
CN112562636B (zh) 2024-07-05

Similar Documents

Publication Publication Date Title
CN107610717B (zh) 基于语音后验概率的多对一语音转换方法
US8886534B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition robot
US9275631B2 (en) Speech synthesis system, speech synthesis program product, and speech synthesis method
CN105632499B (zh) 用于优化语音识别结果的方法和装置
US6694296B1 (en) Method and apparatus for the recognition of spelled spoken words
US11270687B2 (en) Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models
CN111402862B (zh) 语音识别方法、装置、存储介质及设备
Wester Pronunciation modeling for ASR–knowledge-based and data-derived methods
EP2003572A1 (en) Language understanding device
JP2018536905A (ja) 発話認識方法及び装置
JP2008097003A (ja) 自動音声認識システムに対する適応コンテキスト
Gutkin et al. TTS for low resource languages: A Bangla synthesizer
US9484019B2 (en) System and method for discriminative pronunciation modeling for voice search
JPH10507536A (ja) 言語認識
US6377921B1 (en) Identifying mismatches between assumed and actual pronunciations of words
US20170270923A1 (en) Voice processing device and voice processing method
US20200312352A1 (en) Urgency level estimation apparatus, urgency level estimation method, and program
WO2022046781A1 (en) Reference-fee foreign accent conversion system and method
JP3911178B2 (ja) 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
CN112562636B (zh) 一种语音合成纠错的方法和装置
JP2006084966A (ja) 発話音声の自動評定装置およびコンピュータプログラム
JP2004251998A (ja) 対話理解装置
US11043212B2 (en) Speech signal processing and evaluation
JP6625961B2 (ja) 発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム
CN111696530B (zh) 一种目标声学模型获取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant