CN110895938A - 语音校正***及语音校正方法 - Google Patents

语音校正***及语音校正方法 Download PDF

Info

Publication number
CN110895938A
CN110895938A CN201811140684.XA CN201811140684A CN110895938A CN 110895938 A CN110895938 A CN 110895938A CN 201811140684 A CN201811140684 A CN 201811140684A CN 110895938 A CN110895938 A CN 110895938A
Authority
CN
China
Prior art keywords
vocabulary
voice
candidate
score
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811140684.XA
Other languages
English (en)
Other versions
CN110895938B (zh
Inventor
陈怡玲
宋志伟
简佑丞
陈冠中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quanta Computer Inc
Original Assignee
Quanta Computer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quanta Computer Inc filed Critical Quanta Computer Inc
Publication of CN110895938A publication Critical patent/CN110895938A/zh
Application granted granted Critical
Publication of CN110895938B publication Critical patent/CN110895938B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • G10L2015/0636Threshold criteria for the updating

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供一种语音校正***及语音校正方法,该语音校正***包含:一存储装置、一音频接收器以及一处理装置。处理装置包含一语音辨识引擎以及一判断模块。存储装置存储一数据库。音频接收器接收一指令语音。语音辨识引擎辨识指令语音中的一关键语音,并产生对应关键语音的一候选字汇列表及一音转码。候选字汇列表包含关键语音对应到的一候选字汇及候选字汇对应到的一字汇分数。判断模块判断字汇分数是否大于一分数阈值,若字汇分数大于分数阈值,则将字汇分数所对应的候选字汇存储至数据库,若候选字汇列表中的所有字汇分数皆不大于分数阈值,则将音转码存储至数据库。

Description

语音校正***及语音校正方法
技术领域
本发明涉及一种接收语音的***,特别涉及一种语音校正***及语音校正方法。
背景技术
近年来,随着电子装置的发展,电子装置例如为手机、平板、车用导航***等等电子产品,使用者将信息输入至电子装置的方式越来越多元,例如,使用者以语音方式,将信息输入至电子装置。目前的语音软件(例如Google、微软所开发的语音软件)大部分是在接收语音后,经过云端服务器或语言分析引擎或模型进行运算,以找出媒合此语音的一或多个字汇,并利用使用者接口询问此一或多个字汇是否为使用者所述的内容,藉此让使用者确认是否正确,若使用者确认正确,则直接输出正确的字汇,若使用者确认所有媒合字汇皆错误,则输入正确的字汇于语言分析引擎内,重新训练语音分析机制。
然而,此种语音***的缺点为需要一直询问使用者,才能使***修改语言分析模型并进行校正,造成使用者的不便。
由此可见,上述现有的方式,显然仍存在不便与缺陷,而有待加以进一步改进。
发明内容
为了解决上述的问题,本公开内容的一方面提供了一种语音校正***,包含:一存储装置、一音频接收器以及一处理装置。处理装置包含一语音辨识引擎以及一判断模块。存储装置存储一数据库。音频接收器接收一指令语音。语音辨识引擎辨识指令语音中的一关键语音,并产生对应关键语音的一候选字汇列表及一音转码;其中候选字汇列表包含关键语音对应到的一候选字汇及候选字汇对应到的一字汇分数。判断模块判断字汇分数是否大于一分数阈值,若字汇分数大于分数阈值,则将字汇分数所对应的候选字汇存储至数据库,若候选字汇列表中的所有字汇分数皆不大于分数阈值,则将音转码存储至数据库。
本发明的另一方面是提供一种语音校正方法包含:接收一指令语音,辨识该指令语音中的一关键语音,并产生对应关键语音的一候选字汇列表及一音转码;其中候选字汇列表包含关键语音对应到的一候选字汇及该候选字汇对应到的一字汇分数;以及判断字汇分数是否大于一分数阈值,若字汇分数大于分数阈值,则将字汇分数所对应的候选字汇存储至一数据库,若该候选字汇列表中的所有字汇分数皆不大于分数阈值,则将音转码存储至数据库。
本发明所示的语音校正***及语音校正方法,能在输入语音指令时,随着使用者口音不同或是输入的是新种类的字汇,进行关键语音的辨识,当语音校正***辨识不出来字汇时,可藉由音转码作记录,使得语音校正***的响应能让使用者也听得懂,由于所有字汇都可以存储在使用者自身的电子装置上,即应用程序的本地端,无需将语音上传云端进行比对,因此可以提供不同使用者定制化的语音字汇辨识效果,由于无需将关键语音上传云端进行比对,只需在应用程序的本地端与数据库的内容作比对,故提升了关键语音与字汇比对的效率。
附图说明
图1是依照本发明一实施例绘示语音校正***的方块图。
图2是根据本发明的一实施例绘示一种语音校正方法的示意图。
图3是根据本发明的一实施例绘示一种语音校正方法的示意图。
图4是根据本发明的一实施例绘示一种语音校正方法的示意图。
【符号说明】
100:语音校正***
10:存储装置
20:音频接收器
30:处理装置
31:语音辨识引擎
35:判断模块
37:分析模块
39:比对模块
200、300、400:语音校正方法
SIG1、SIG2、SIG3:指令语音
LST1、LST3:候选字汇列表
LST2、LST4:音转表
LST5:比对结果列表
DB:数据库
OBJ:输出结果
具体实施方式
以下说明为完成发明的较佳实现方式,其目的在于描述本发明的基本精神,但并不用以限定本发明。实际的发明内容必须参考之后的权利要求范围。
必须了解的是,使用于本说明书中的“包含”、“包括”等词,用以表示存在特定的技术特征、数值、方法步骤、作业处理、元件和/或组件,但并不排除可加上更多的技术特征、数值、方法步骤、作业处理、元件、组件,或以上的任意组合。
在权利要求中使用如“第一”、"第二"、"第三"等词用来修饰权利要求中的元件,并非用来表示之间具有优先权顺序,先行关系,或者是一个元件先于另一个元件,或者是执行方法步骤时的时间先后顺序,仅用来区别具有相同名字的元件。
请参照图1~3,图1是依照本发明一实施例绘示语音校正***100的方块图。图2是根据本发明的一实施例绘示一种语音校正方法200的示意图。图3是根据本发明的一实施例绘示一种语音校正方法300的示意图。
如图1所示,语音校正***100包含一存储装置10、一音频接收器20及一处理装置30。其中,处理装置30包含一语音辨识引擎31及一判断模块35。在一实施例中,处理装置30还包含一分析模块37及一比对模块39。
在一实施例中,存储装置10可被实作为只读存储器、快闪存储器、软盘、硬盘、光盘、随身碟、磁带、可由网络存取的数据库或本领域技术人员可轻易思及具有相同功能的存储介质。在一实施例中,存储装置10用以存储数据库DB(如图2所示)。
在一实施例中,音频接收器20用以接收一语音指令。在一实施例中,音频接收器20可以是一麦克风或其他具有收音功能的装置。
在一实施例中,处理装置30可以是任何具有运算功能的电子装置。在一实施例中,语音辨识引擎31、判断模块35、分析模块37及比对模块39可以各别或合并由集成电路如微控制单元(micro controller)、微处理器(microprocessor)、数字信号处理器(digitalsignal processor)、特殊应用集成电路(application specific integrated circuit,ASIC)或一逻辑电路来实施。
在一实施例中,请参图2,音频接收器20用以接收一音频指令,分析模块37用以接收来自音频接收器20的指令语音SIG1。
在此例中,指令语音SIG1为“Put an Apple”,当音频接收器20接收到此指令语音SIG1后,会将此指令语音SIG1传送到分析模块37,接着,分析模块37对指令语音SIG1进行前处理,以取得一关键语音。在一实施例中,指令语音可包含指令以及关键语音。指令是指使用者欲进行的操作,其已先定义于语音校正***100中,例如***开发者将指令定义并存储于存储装置10,例如为“Put”、“Get”、“Open”…等。关键语音则非***所预先定义,关键语音是指使用者想要进行操作的对象,例如为“Apple”、“Orange”、“frige”,换句话说,关键语音可以是指令语音中除指令“Put”以外的字汇。
在一实施例中,当指令语音SIG1为“open frige”,其代表的涵义为致能(enable)一应用程序,此应用程序例如为冰箱管理应用程序。在一实施例中,使用者可以通过对冰箱管理应用程序(例如安装于手机、平板、计算机…等)以输入指令语音SIG1。在一实施例中,指令语音SIG1可以是一连串的语音,例如为“Put an Apple”、“Put an Orange”、“finish”(代表关闭此应用程序),藉此,使用者可以在自身的电子装置上(本地端,例如为手机)记录冰箱中的食物类别、行为(即指令)和/或数量。然而,本发明并不限于应用于冰箱管理***,也可以应用在其他管理***。
在一实施例中,分析模块37对指令语音SIG1进行的前处理是运用去噪声、分析音节、提取断句等已知的技术,以萃取指令和/或关键语音,故此处不赘述。
接着,关键语音被传送至语音辨识引擎31,语音辨识引擎31用以辨识指令语音中的关键语音,并产生对应关键语音的一候选字汇列表LST1及一音转码(例如图2所示的:“Aipo”);其中候选字汇列表LST1包含关键语音对应到的候选字汇(例如图2所示的:“Apple”、“Applet”、“Apply”及“Pineapple”)及候选字汇对应到的字汇分数(例如:“Apple”对应到的字汇分数为0.987、“Applet”对应到的字汇分数为0.941、“Apply”对应到的字汇分数为0.903及“Pineapple”对应到的字汇分数为0.862);字汇分数越高代表字汇与关键语音的符合程度越高。
在另一实施例中,如图3所示,分析模块37由音频接收器20接收一指令语音SIG2,在此例中,指令语音SIG2为“Put Toufu”(使用者可能是想输入中式食材的一种食物“豆腐”,其发音为“Toufu”),分析模块37对指令语音SIG2进行前处理,以取得指令和/或关键语音。接着,关键语音被传送至语音辨识引擎31,语音辨识引擎31用以辨识指令语音中的关键语音,并产生对应关键语音的一候选字汇列表LST3及一音转码(例如图3所示的:“Toufu”);其中候选字汇列表LST3包含关键语音对应到的候选字汇(例如图3所示的:“Tofu”及“Kungfu”)及候选字汇对应到的字汇分数(例如:“Tofu”对应到的字汇分数为0.932、“Kungfu”对应到的字汇分数为0.895)。
在一实施例中,语音辨识引擎31可以选用已知的语音辨识程序(例如为Googlespeech API、微软的Azure)实现,音转码也可以选用已知的语音辨识程序产生。
在一实施例中,语音辨识引擎31包含至少一语音辨识程序。在一实施例中,音转码与候选字汇列表LST1可以由相同或不同的语音辨识程序以产生。
在一实施例中,音转码为一罗马拼音或其他自然语言拼音法,语音辨识引擎31产生对应音转码的一语音代码(例如在图2中,音转码“Apio”的对应语音代码为“0x13c”,又例如在图3中,音转码“Toufu”的对应语音代码为“0x254”),语音代码的产生有利于其他部分的程序撰写。
在一实施例中,图2所示的音转码与对应其的语音代码可以存储于一音转表LST2中。在一实施例中,图3所示的音转码与对应其的语音代码可以存储于音转表LST4中。
在一实施例中,判断模块35用以判断字汇分数是否大于一分数阈值(例如为0.95),若字汇分数大于分数阈值,则将字汇分数所对应的候选字汇存储至数据库DB,若候选字汇列表LST1中的所有字汇分数皆不大于分数阈值,则将音转码存储至数据库DB。
在一例子中,如图2所示,当语音校正***100设定分数阈值为0.95时,判断模块35判断候选字汇列表LST1中每个字汇分数是否大于分数阈值,候选字汇列表LST1中“Apple”对应到的字汇分数为0.987大于分数阈值,因此,判断模块35将“Apple”写入数据库DB中。
在另一例子中,如图3所示,当语音校正***100设定分数阈值为0.95时,判断模块35判断候选字汇列表LST3中每个字汇分数是否大于分数阈值,当判断模块35判断候选字汇列表LST3中所有字汇分数皆不大于分数阈值,则判断模块35将音转码“Toufu”写入数据库DB中。
在一实施例中,字汇候选名单LST1包含关键语音对应到的多个候选字汇,且此些候选字汇各自对应到一字汇分数,判断模块35判断此些字汇分数中是否存在至少一大于分数阈值者,若判断模块35判断此些字汇分数之中存在该至少一大于分数阈值者,则将至少一大于分数阈值者中最大值所对应的候选字汇存储至数据库DB。
举例而言,如图2所示,当语音校正***100设定分数阈值为0.90时,候选字汇列表LST1中“Apple”对应到的字汇分数为0.987、“Applet”对应到的字汇分数为0.941、“Apply”对应到的字汇分数为0.903皆大于分数阈值(0.90),则判断模块35将此些大于分数阈值的字汇分数的最大值者(0.987)所对应的候选字汇“Apple”写入数据库DB中。
在一实施例中,当音频接收器20接收到多次不同的指令语音,可以将最后判断模块35所判断出的候选字汇都存入数据库DB中,例如先执行图2所示的流程得到“Apple”的输出结果,再接着执行图3所示的流程得到“Toufu”的输出结果,最终在数据库DB中会存储“Apple”及“Toufu”两笔数据。
在一实施例中,分数阈值可以依实际***环境调整。
接着,请参阅图4,图4是根据本发明的一实施例绘示一种语音校正方法400的示意图。在图4中,当音频接收器20接收到指令语音SIG3,例如为“Get Toufu”时,音频接收器20将指令语音SIG3传送到分析模块37,以进行前处理,当分析模块37完成前处理后,分析模块37将关键语音传送到比对模块39,比对模块39接收此关键语音,将此关键语音与数据库DB中的候选字汇及音转码,即数据库DB中的所有字汇及音转码,例如图4所示的“Apple”、“Orange”、“Cherry”…“Toufu”)作比对,以产生一比对结果列表LST5,比对结果列表LST5包含候选字汇及音转码各自对应的一比对分数(例如“Apple”对应的比对分数为0.553、“Orange”对应的比对分数为0.436、“Cherry”对应的比对分数为0.287…“Toufu”对应的比对分数为0.989),接着,判断模块35判断各比对分数是否大于一比对阈值(例如为0.95),并输出此些比对分数中大于比对阈值的最大者所对应的候选字汇或音转码。在此例中,“Toufu”对应的比对分数(例如为0.989)大于比对阈值(例如为0.95),故输出结果OBJ为“Toufu”。
在另一实施例中,若数据库DB中有多个字汇的比对分数(例如分别为,0.97、0.98、0.99)大于比对阈值(例如为0.95),则判断模块35选取比对分数的值最大者(即0.99)所对应的字汇作为输出结果。
在一实施例中,比对阈值可以依实际***环境调整。
藉此,当使用者重复讲述到相同的关键语音时,若数据库DB中已存储此关键语音所对应的字汇,则语音校正***100可以快速地对应到正确的输出结果OBJ,若数据库DB中尚未存储此关键语音所对应的字汇,则可应用图2所述的语音校正方法200,将新的关键语音定义至数据库DB中。
在一实施例中,此语音校正方法200、300可应用于手机或其他电子产品的应用程序中,例如,应用于一冰箱管理应用程序时,当使用者对着手机说“Put an Apple”,则数据库DB中可写入已知的水果“Apple”。即便使用者对手机说的是无法被辨识的字汇(例如使用者有特殊口音或是欲输入的字汇较为冷门),数据库DB仍可存入音转码,例如“Toufu”;藉此,无论语音校正***100通过语音辨识引擎31可辨识或不可辨识的字汇,都可以被记录至数据库DB中,且无需使用者多次确认。此外,当使用者重复讲述到相同的关键语音时,若数据库DB中已存储此关键语音所对应的字汇,则语音校正***100可以快速地对应到正确的输出结果。
本发明所示的语音校正***及语音校正方法,能在输入语音指令时,随着使用者口音不同或是输入的是新种类的字汇,进行关键语音的辨识,当语音校正***辨识不出来字汇时,可藉由音转码作记录,使得语音校正***的响应能让使用者也听得懂,由于所有字汇都可以存储在使用者自身的电子装置上,即应用程序的本地端,无需将语音上传云端服务器进行比对,因此可以提供不同使用者定制化的语音字汇辨识效果,此外,由于无需将关键语音上传云端进行比对,只需在应用程序的本地端与数据库的内容作比对,故提升了关键语音与字汇比对的效率。

Claims (10)

1.一种语音校正***,包含:
存储装置,用以存储数据库;以及
音频接收器,用以接收指令语音;
处理装置,包含:
语音辨识引擎,用以辨识该指令语音中的关键语音,并产生对应该关键语音的候选字汇列表及音转码;其中该候选字汇列表包含该关键语音对应到的候选字汇及该候选字汇对应到的字汇分数;以及
判断模块,用以判断该字汇分数是否大于分数阈值,若该字汇分数大于该分数阈值,则将该字汇分数所对应的该候选字汇存储至该数据库,若该候选字汇列表中的所有该字汇分数皆不大于该分数阈值,则将该音转码存储至该数据库。
2.如权利要求1所述的语音校正***,其中该字汇候选名单包含该关键语音对应到的多个候选字汇,且这些候选字汇各自对应到字汇分数,该判断模块判断这些字汇分数中是否存在至少一大于该分数阈值者,若该判断模块判断这些字汇分数之中存在该至少一大于该分数阈值者,则将该至少一大于该分数阈值者中的最大值所对应的该候选字汇存储至该数据库。
3.如权利要求1所述的语音校正***,其中该音转码为罗马拼音或自然语言拼音。
4.如权利要求1所述的语音校正***,其中该处理装置还包含:
比对模块,用以接收另一关键语音,并将该另一关键语音与该数据库中的该候选字汇及该音转码作比对,以产生比对结果列表,该比对结果列表包含该候选字汇及该音转码各自对应的比对分数。
5.如权利要求4所述的语音校正***,其中该判断模块判断各这些比对分数是否大于比对阈值,并输出这些比对分数中大于该比对阈值的最大者所对应的该候选字汇或该音转码。
6.一种语音校正方法,包含:
接收指令语音,辨识该指令语音中的关键语音,并产生对应该关键语音的候选字汇列表及音转码;其中该候选字汇列表包含该关键语音对应到的候选字汇及该候选字汇对应到的字汇分数;以及
判断该字汇分数是否大于分数阈值,若该字汇分数大于该分数阈值,则将该字汇分数所对应的该候选字汇存储至数据库,若该候选字汇列表中的所有该字汇分数皆不大于该分数阈值,则将该音转码存储至该数据库。
7.如权利要求6所述的语音校正方法,其中该字汇候选名单包含该关键语音对应到的多个候选字汇,且这些候选字汇各自对应到字汇分数,该语音校正方法还包含:
判断这些字汇分数中是否存在至少一大于该分数阈值者,若该判断模块判断这些字汇分数之中存在该至少一大于该分数阈值者,则将该至少一大于该分数阈值者中的最大值所对应的该候选字汇存储至该数据库。
8.如权利要求6所述的语音校正方法,其中该音转码为罗马拼音或自然语言拼音。
9.如权利要求6所述的语音校正方法,还包含:
接收另一关键语音,并将该另一关键语音与该数据库中的该候选字汇及该音转码作比对,以产生比对结果列表,该比对结果列表包含该候选字汇及该音转码各自对应的比对分数。
10.如权利要求9所述的语音校正方法,还包含:
判断各这些比对分数是否大于比对阈值,并输出这些比对分数中大于该比对阈值的最大者所对应的该候选字汇或该音转码。
CN201811140684.XA 2018-09-13 2018-09-28 语音校正***及语音校正方法 Active CN110895938B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW107132155A TW202011384A (zh) 2018-09-13 2018-09-13 語音校正系統及語音校正方法
TW107132155 2018-09-13

Publications (2)

Publication Number Publication Date
CN110895938A true CN110895938A (zh) 2020-03-20
CN110895938B CN110895938B (zh) 2022-08-23

Family

ID=69772547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811140684.XA Active CN110895938B (zh) 2018-09-13 2018-09-28 语音校正***及语音校正方法

Country Status (3)

Country Link
US (1) US11069341B2 (zh)
CN (1) CN110895938B (zh)
TW (1) TW202011384A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535913B (zh) * 2021-06-02 2023-12-01 科大讯飞股份有限公司 回答评分方法及装置和电子设备、存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0917129A2 (en) * 1997-11-17 1999-05-19 International Business Machines Corporation Method and apparatus for adapting a speech recognizer to the pronunciation of an non native speaker
EP1170726A1 (en) * 2000-07-05 2002-01-09 International Business Machines Corporation Speech recognition correction for devices having limited or no display
CN1427333A (zh) * 2001-12-18 2003-07-02 林昌三 一种语音输入输出方法以及装置
US20060173685A1 (en) * 2005-01-28 2006-08-03 Liang-Sheng Huang Method and apparatus for constructing new chinese words by voice input
CN101067780A (zh) * 2007-06-21 2007-11-07 腾讯科技(深圳)有限公司 智能设备的文字输入***及方法
JP2007310137A (ja) * 2006-05-18 2007-11-29 Fujitsu Ltd 音声認識装置および音声認識プログラム
CN101383150A (zh) * 2008-08-19 2009-03-11 南京师范大学 语音软开关的控制方法及其在地理信息***中的应用
US20090281789A1 (en) * 2008-04-15 2009-11-12 Mobile Technologies, Llc System and methods for maintaining speech-to-speech translation in the field
CN103578467A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
CN103578471A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 语音辨识方法及其电子装置
CN103903621A (zh) * 2012-12-26 2014-07-02 联想(北京)有限公司 一种语音识别的方法及电子设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0917129A2 (en) * 1997-11-17 1999-05-19 International Business Machines Corporation Method and apparatus for adapting a speech recognizer to the pronunciation of an non native speaker
EP1170726A1 (en) * 2000-07-05 2002-01-09 International Business Machines Corporation Speech recognition correction for devices having limited or no display
CN1427333A (zh) * 2001-12-18 2003-07-02 林昌三 一种语音输入输出方法以及装置
US20060173685A1 (en) * 2005-01-28 2006-08-03 Liang-Sheng Huang Method and apparatus for constructing new chinese words by voice input
JP2007310137A (ja) * 2006-05-18 2007-11-29 Fujitsu Ltd 音声認識装置および音声認識プログラム
CN101067780A (zh) * 2007-06-21 2007-11-07 腾讯科技(深圳)有限公司 智能设备的文字输入***及方法
US20090281789A1 (en) * 2008-04-15 2009-11-12 Mobile Technologies, Llc System and methods for maintaining speech-to-speech translation in the field
CN101383150A (zh) * 2008-08-19 2009-03-11 南京师范大学 语音软开关的控制方法及其在地理信息***中的应用
CN103903621A (zh) * 2012-12-26 2014-07-02 联想(北京)有限公司 一种语音识别的方法及电子设备
CN103578467A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
CN103578471A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 语音辨识方法及其电子装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵玉成等: "传感器在汽车电子控制***中的应用", 《农业网络信息》 *

Also Published As

Publication number Publication date
US20200090639A1 (en) 2020-03-19
TW202011384A (zh) 2020-03-16
US11069341B2 (en) 2021-07-20
CN110895938B (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
US11398217B2 (en) Systems and methods for providing non-lexical cues in synthesized speech
KR102582291B1 (ko) 감정 정보 기반의 음성 합성 방법 및 장치
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
KR102201937B1 (ko) 후속 음성 쿼리 예측
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US10650810B2 (en) Determining phonetic relationships
US7603279B2 (en) Grammar update system and method for speech recognition
US8494853B1 (en) Methods and systems for providing speech recognition systems based on speech recordings logs
CN109686383B (zh) 一种语音分析方法、装置及存储介质
US11151996B2 (en) Vocal recognition using generally available speech-to-text systems and user-defined vocal training
CN110503956B (zh) 语音识别方法、装置、介质及电子设备
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
US20220180864A1 (en) Dialogue system, dialogue processing method, translating apparatus, and method of translation
WO2014033855A1 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
CN110895938B (zh) 语音校正***及语音校正方法
CN112037772A (zh) 基于多模态的响应义务检测方法、***及装置
CN111048098A (zh) 语音校正***及语音校正方法
WO2024054228A1 (en) Using anti-context examples for updating automatic speech recognition systems
KR20210150833A (ko) 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant