CN109754791A - 声控方法及*** - Google Patents
声控方法及*** Download PDFInfo
- Publication number
- CN109754791A CN109754791A CN201711169280.9A CN201711169280A CN109754791A CN 109754791 A CN109754791 A CN 109754791A CN 201711169280 A CN201711169280 A CN 201711169280A CN 109754791 A CN109754791 A CN 109754791A
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- character
- tone
- voice
- compound vowel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 150000001875 compounds Chemical class 0.000 claims abstract description 74
- 238000006243 chemical reaction Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 21
- 230000014509 gene expression Effects 0.000 claims description 14
- 230000005540 biological transmission Effects 0.000 claims description 7
- 210000004218 nerve net Anatomy 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000009738 saturating Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
一种声控方法及***,包含输入语音并辨识该语音以产生初始语句样本;根据该初始语句样本产生至少一命令关键字以及至少一对象关键字;依据至少一对象关键字的声母、韵母以及音调进行编码转换,编码转换后的词汇产生词汇编码集合;利用词汇编码集合以及编码数据库的数据进行拼音评分计算产生拼音评分计算结果,并将拼音评分计算结果与门槛值比较产生至少一目标词汇样本;比对至少一目标词汇样本与目标词汇关系模型,并产生至少一目标对象信息;以及针对至少一目标对象信息进行与至少一命令关键字相应的操作。借此,即可辨识出特殊词汇,达到辨识***可以提供给任何使用者使用,不会因为口音、腔调的不同而导致辨识***判断错误的功效。
Description
技术领域
本案是有关于一种声控方法及***,且特别是有关于一种针对特定词汇进行辨识,再转换成操作指令的方法及***。
背景技术
近年来语音辨识技术的发展已逐渐成熟(例如:***的语音辨识或Siri),使用者在操作移动装置或个人电脑等电子产品时,也越来越常使用语音输入或语音控制的功能,然而,由于中文有同音异字以及同音异义的特性,以及某些特殊词汇例如:人名、地名、公司行号名称或缩写等,使得语音辨识***不一定能准确的辨识出文字,甚至也不能准确辨识出文字中的涵义。
现行的语音辨识方法,会预先建立使用者的声纹信息以及词库,但会造成语音辨识***只能给某个特定使用者使用的情况;再者,如果联络人较多时会有相似读音的联络人产生,经常会导致语音辨识***辨识错误,因此仍然需要使用者对辨识出的文字进行调整,不仅影响语音辨识***的准确度也影响使用者的操作便利性。因此,如何解决语音辨识***在特殊词汇辨识不准确的情况,为本领域待改进的问题之一。
发明内容
本案的一实施态样涉及一种声控方法。根据本案一实施例,该操作方法包括:输入一语音并辨识该语音以产生一初始语句样本;根据该初始语句样本进行一常用语句训练,产生至少一命令关键字以及至少一对象关键字;依据该至少一对象关键字的声母、韵母以及音调进行编码转换,编码转换后的词汇产生一词汇编码集合;利用该词汇编码集合以及一编码数据库的数据进行一拼音评分计算产生一拼音评分计算结果,并将该拼音评分计算结果与一门槛值比较产生至少一目标词汇样本;比对该至少一目标词汇样本与一目标词汇关系模型,并产生至少一目标对象信息;以及针对该至少一目标对象信息进行与该至少一命令关键字相应的一操作。
根据本案一实施例,还包括:依据一既有知识数据库的词汇的声母、韵母以及音调进行编码转换,并根据编码转换后的词汇建立该编码数据库;以及利用一分类器将该编码数据库中的数据进行关系强弱分类,产生该目标词汇关系模型。
根据本案一实施例,该拼音评分计算还包括:比较该词汇编码集合中的一第一词汇与该编码数据库中的一第二词汇的声母与韵母,产生一声母韵母评分结果;根据一音调评分规则比较该词汇编码集合中的该第一词汇与该编码数据库中的该第二词汇的音调,产生一音调评分结果;以及将该声母韵母评分结果与该音调评分结果相加,得到该拼音评分计算结果。
根据本案一实施例,比较该第一词汇与该第二词汇的声母与韵母还包括:如果该第一词汇与该第二词汇的声母的字符长度相同,则比较该第一词汇的声母的字符与该第二词汇的声母的字符是否相同,如果不同则计算一第一分数;如果该第一词汇与该第二词汇的声母的字符长度不相同,则计算一第一字符长度差值,并继续比较该第一词汇的声母的字符与该第二词汇的声母的字符是否相同,如果不同则计算该第一分数;如果该第一词汇与该第二词汇的韵母的字符长度相同,则比较该第一词汇的韵母的字符与该第二词汇的韵母的字符是否相同,如果不同则计算一第二分数;如果该第一词汇与该第二词汇的韵母的字符长度不相同,则计算一第二字符长度差值,并继续比较该第一词汇的韵母的字符与该第二词汇的韵母的字符是否相同,如果不同则计算该第二分数;以及将该第一字符长度差值、该第二字符长度差值、该第一分数以及该第二分数相加总得到该声母韵母评分结果。
根据本案一实施例,该音调评分规则还包括:如果该第一词汇与该第二词汇的音调不同,则计算分数并产生该音调评分结果。
根据本案一实施例,该常用语句训练是利用深度神经网络,产生该至少一命令关键字以及该至少一对象关键字。
本案的另一实施态样涉及一种声控***。根据本案一实施例,该声控***具有一处理单元,该处理单元包括一语句训练模块、一编码模块、一评分模块、一拼音评分计算结果、一词汇样本比对模块、以及一操作执行模块。该语句训练模块,用以根据一初始语句样本进行一常用语句训练,产生至少一命令关键字以及至少一对象关键字;该编码模块与该语句训练模块连接,并用以依据该至少一对象关键字的声母、韵母以及音调进行编码转换,编码转换后的词汇产生一词汇编码集合;该评分模块与该编码模块连接,并用以利用该词汇编码集合以及一编码数据库的数据进行一拼音评分计算产生一拼音评分计算结果,并将该拼音评分计算结果与一门槛值比较产生至少一目标词汇样本;该词汇样本比对模块与该评分模块连接,并用以比对该至少一目标词汇样本与一目标词汇关系模型,并产生至少一目标对象信息;以及该操作执行模块与该词汇样本比对模块连接,并用以针对该至少一目标对象信息进行与该至少一命令关键字相应的一操作。
根据本案一实施例,该处理单元还包括:一语音辨识模块,用以辨识一语音并产生该初始语句样本。
根据本案一实施例,该编码数据库与该编码模块及该评分模块连接,该编码数据库是利用该编码模块对一既有知识数据库的词汇的声母、韵母以及音调进行编码转换,并根据编码转换后的词汇建立。
根据本案一实施例,该目标词汇关系模型与该编码数据库连接及该词汇样本比对模块连接,并利用一分类器将该编码数据库中的数据进行关系强弱分类,以产生该目标词汇关系模型。
根据本案一实施例,该拼音评分计算包括以下步骤:比较该词汇编码集合中的一第一词汇与该编码数据库中的一第二词汇的声母与韵母,产生一声母韵母评分结果;根据一音调评分规则比较该词汇编码集合中的该第一词汇与该编码数据库中的该第二词汇的音调,产生一音调评分结果;以及将该声母韵母评分结果与该音调评分结果相加,得到该拼音评分计算结果。
根据本案一实施例,比较该第一词汇与该第二词汇的声母与韵母,还包括以下步骤:如果该第一词汇与该第二词汇的声母的字符长度相同,则比较该第一词汇的声母的字符与该第二词汇的声母的字符是否相同,如果不同则计算一第一分数;如果该第一词汇与该第二词汇的声母的字符长度不相同,则计算一第一字符长度差值,并继续比较该第一词汇的声母的字符与该第二词汇的声母的字符是否相同,如果不同则计算该第一分数;如果该第一词汇与该第二词汇的韵母的字符长度相同,则比较该第一词汇的韵母的字符与该第二词汇的韵母的字符是否相同,如果不同则计算一第二分数;如果该第一词汇与该第二词汇的韵母的字符长度不相同,则计算一第二字符长度差值,并继续比较该第一词汇的韵母的字符与该第二词汇的韵母的字符是否相同,如果不同则计算该第二分数;以及将该第一字符长度差值、该第二字符长度差值、该第一分数以及该第二分数相加总得到该声母韵母评分结果。
根据本案一实施例,该音调评分规则,还包括以下步骤:如果该第一词汇与该第二词汇的音调不同,则计算分数并产生该音调评分结果。
根据本案一实施例,该常用语句训练是利用深度神经网络,产生该至少一命令关键字以及该至少一对象关键字。
根据本案一实施例,还包括:一语音输入单元,与该处理单元电性连接,并用以输入该语音;一记忆单元,与该处理单元电性连接,并用以储存一既有知识数据库以及该编码数据库;一显示单元,与该处理单元电性连接,并用以显示对应于该操作的画面;以及一语音输出单元,与该处理单元电性连接,并用以输出对应于该操作的语音。
根据本案一实施例,该显示单元还包含一使用者操作界面,该使用者操作界面用以显示对应于该操作的画面。
根据本案一实施例,该语音输入单元为一麦克风。
根据本案一实施例,该语音输出单元为一喇叭。
根据本案一实施例,还包括:一传输单元,与该处理单元电性连接,用以传送一语音至一语音辨识***,并接收该语音辨识***辨识后的该初始语句样本。
根据本案一实施例,还包括:一电源供应单元,与该处理单元电性连接,用以供应电源至该处理单元。
于上述实施方式中,主要是改进语音辨识***在特殊词汇辨识不准确的问题,先利用深度神经网络演算法找出输入语句的关键字词后,再利用关键字词的声母、韵母与音调结合关键字词间的关系强弱分析,不需预先建立词库以及声纹模型,仍可辨识出特殊词汇,达到辨识***可以提供给任何使用者使用,不会因为口音、腔调的不同而导致辨识***判断错误的功效。
附图说明
图1为根据本案一实施例所绘示的声控***的示意图;
图2为根据本案一实施例所绘示的处理单元的示意图;
图3为根据本发明一实施例的声控方法的流程图;
图4为根据本发明一实施例的建立编码数据库及目标词汇关系模型的流程图;
图5为根据本发明一实施例的编码数据库的示意图;
图6为根据本发明一实施例的目标词汇关系模型的示意图;
图7为根据本发明一实施的步骤S340的流程图;
图8为根据本发明一实施例的步骤S341的流程图;
图9A为根据本发明一实施例的音评分计算一实施例的示意图;
图9B为根据本发明一实施例的拼音评分计算另一实施例的示意图;以及
图10为根据本发明一实施例的使用者与声控***互动的示意图。
具体实施方式
以下将以附图及详细叙述清楚说明本揭示内容的精神,任何所属技术领域中具有通常知识者在了解本揭示内容的实施例后,当可由本揭示内容所教示的技术,加以改变及修饰,其并不脱离本揭示内容的精神与范围。
关于本文中所使用的“电性连接”,可指二或多个元件相互直接作实体或电性接触,或是相互间接作实体或电性接触,而“电性连接”还可指二或多个元件相互操作或动作。
关于本文中所使用的“第一”、“第二”、…等,并非特别指称次序或顺位的意思,亦非用以限定本发明,其仅为了区别以相同技术用语描述的元件或操作。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
关于本文中所使用的“及/或”,是包括所述事物的任一或全部组合。
关于本文中所使用的方向用语,例如:上、下、左、右、前或后等,仅是参考附加附图的方向。因此,使用的方向用语是用来说明并非用来限制本案。
关于本文中所使用的用词(terms),除有特别注明外,通常具有每个用词使用在此领域中、在此揭露的内容中与特殊内容中的平常意义。某些用以描述本揭露的用词将于下或在此说明书的别处讨论,以提供本领域技术人员在有关本揭露的描述上额外的引导。
关于本文中所使用的用语“大致”、“约”等,一般是用以指涉与所述数值或范围相近的任何数值或范围,此数值或范围会根据涉及的不同技艺而有所变化,且其解释范围符合本领域具通常知识者对其所为的最广解释范围,以涵盖所有的变形或相似结构。一些实施例中,此类用语所修饰的些微变化或误差的范围为20%,在部分较佳实施例中为10%,在部分更佳实施例中为5%。另外,本文中所述及的数值皆意指近似数值,在未作另外说明的情况下,其隐含“大致”、“约”的词意。
图1为根据本案一实施例所绘示的声控***100的示意图。在本实施例中,声控***100包含处理单元110、语音输入单元120、语音输出单元130、显示单元140、记忆单元150、传输单元160以及电源供应单元170。处理单元110与语音输入单元120、语音输出单元130、显示单元140、记忆单元150、传输单元160以及电源供应单元170电性连接。语音输入单元120用以输入语音,语音输出单元130用以输出对应于操作的语音。显示单元140还包含使用者操作界面141用以显示对应于操作的画面,记忆单元150用以储存既有知识数据库、编码数据库以及拼音规则数据库。传输单元160用以与网际网络连接,使得声控***100可以透过网络传输数据。电源供应单元170用以供应电源至声控***100的各单元。
在一实施例中,前述的处理单元110可以实施为集成电路如微控制单元(microcontroller)、微处理器(microprocessor)、数字信号处理器(digital signalprocessor)、特殊应用集成电路(application specific integrated circuit,ASIC)、逻辑电路或其他类似元件或上述元件的组合。语音输入单元120可以实施为麦克风,语音输出单元130可以实施为喇叭,显示单元140可以实施为液晶显示器,上述的麦克风、喇叭以及液晶显示器皆可以其他能达到类似功能的相似元件来实施。记忆单元150可以实施为记忆体、硬盘、随身盘、记忆卡等。传输单元160可以实施为全球移动通讯(global system formobile communication,GSM)、个人手持式电话***(personal handy-phone system,PHS)、长期演进***(long term evolution,LTE)、全球互通微波存取***(worldwideinteroperability for microwave access,WiMAX)、无线保真***(wireless fidelity,Wi-Fi)或蓝芽传输等。电源供应单元170可以实施为电池或其他用以供应电源的电路或元件。
请继续参阅图2。图2为根据本案一实施例所绘示的处理单元的示意图。处理单元110包含有语音辨识模块111、语句训练模块112、编码模块113、评分模块114、词汇样本比对模块115以及操作执行模块116。语音辨识模块111,用以辨识语音并产生初始语句样本。语句训练模块112与语音辨识模块111连接,用以根据初始语句样本进行常用语句训练,产生至少一命令关键字以及至少一对象关键字。编码模块113与语句训练模块112连接,并用以依据至少一对象关键字的声母、韵母以及音调进行编码转换,编码转换后的词汇产生词汇编码集合。评分模块114与编码模块113连接,并用以利用词汇编码集合以及编码数据库的数据进行拼音评分计算产生拼音评分计算结果,并将拼音评分计算结果与门槛值比较产生至少一目标词汇样本。词汇样本比对模块115与评分模块114连接,并用以比对至少一目标词汇样本与目标词汇关系模型,并产生至少一目标对象信息。操作执行模块116与词汇样本比对模块115连接,并用以针对至少一目标对象信息进行与至少一命令关键字相应的操作。
请继续参阅图3。图3为根据本发明一实施例的声控方法300的流程图。本发明的一实施例的声控方法300是将语音辨识后所分析出的关键字词进行声母、韵母以及音调的相关计算,接着根据计算结果产生目标词汇样本,再依据目标词汇样本产生目标对象信息。于一实施例中,图3所示的声控方法300可以应用于图1及图2所示的声控***100上,处理单元110用以根据下列声控方法300所描述的步骤,对输入语音进行调整。如图3所示,声控方法300包含以下步骤:
步骤S310:输入语音并辨识语音以产生初始语句样本;
步骤S320:根据初始语句样本进行常用语句训练,产生至少一命令关键字以及至少一对象关键字;
步骤S330:依据至少一对象关键字的声母、韵母以及音调进行编码转换,编码转换后的词汇产生词汇编码集合;
步骤S340:利用词汇编码集合以及编码数据库的数据进行拼音评分计算产生拼音评分计算结果,并将拼音评分计算结果与门槛值比较产生至少一目标词汇样本;
步骤S350:比对至少一目标词汇样本与目标词汇关系模型,并产生至少一目标对象信息;以及
步骤S360:针对至少一目标对象信息进行与至少一命令关键字相应的操作。
在操作S1中,一或多处理元件110控制撷取元件140撷取预览影像。在一实施例中,预览影像为相应于真实环境的即时预览影像。
为使本案第一实施例的声控方法300易于理解,请一并参阅图1~图9B。
于步骤S310中,输入语音并辨识语音以产生初始语句样本。于本发明的实施例中输入语音的辨识可以由处理单元110的语音辨识模块111进行,也可以由传输单元160通过网际网络将输入语音传送至云端语音辨识***,经由云端语音辨识***辨识输入语音后,再将辨识结果作为初始语句样本,举例而言,云端语音辨识***可以实施为***的语音辨识***。
于步骤S320中,根据初始语句样本进行常用语句训练,产生至少一命令关键字以及至少一对象关键字。常用语句训练是先将输入语音经过断词处理后,在找出语句中的意图词汇以及关键词汇并产生常用语句训练集合,之后再利用深度神经网络(Deep NeuralNetworks,DNN)运算产生DNN语句模型,经由DNN语句模型可以将输入语音解析为命令关键字以及对象关键字,本案是针对对象关键字进行分析处理。
于步骤S330中,依据至少一对象关键字的声母、韵母以及音调进行编码转换,编码转换后的词汇产生词汇编码集合。编码转换可以使用不同的拼音编码,举例而言,可以使用通用拼音、汉语拼音、罗马拼音等,本发明在此采用的是汉语拼音,但本发明不限于此,任何有声母、韵母的拼音方式皆可适用于本发明。
在执行步骤S340之前,必须先产生编码数据库,编码数据库的产生方式请请参阅图4,图4为根据本发明一实施例的建立编码数据库及目标词汇关系模型的流程图。如图4所示,建立编码数据库及目标词汇关系模型包含以下步骤:
步骤S410:依据既有知识数据库的词汇的声母、韵母以及音调进行编码转换,并根据编码转换后的词汇建立编码数据库;以及
步骤S410:利用分类器将编码数据库中的数据进行关系强弱分类,产生目标词汇关系模型。
于步骤S410中,依据既有知识数据库的词汇的声母、韵母以及音调进行编码转换,并根据编码转换后的词汇建立编码数据库。请参阅图5,图5为根据本发明一实施例的编码数据库的示意图。如图5所示,编码数据库中包含有多个栏位信息,例如:姓名、所属部门、电话、E-mail等,而所有的中文信息皆转换成拼音编码形式储存在编码数据库中,举例而言:陈德诚以拼音编码形式表示即为chen2 de2 cheng2,智通所以拼音编码形式表示即为zhi4tong1 suo3。数字的1、2、3、4则是表示音调,在此处则是表示中文的1~4声,也可以利用数字0表示中文的轻声。而在进行编码转换时则须参考储存在记忆单元150的拼音规则数据库中的拼音规则,因此也可以采用不同的拼音规则数据库,即可进行不同的编码转换。
于步骤S420中,利用分类器将编码数据库中的数据进行关系强弱分类,产生目标词汇关系模型。利用支持向量机(Support Vector Machine,SVM)将编码数据库中的数据进行关系强弱分类。首先将编码数据库中的数据转换成特征向量,以建立支持向量机(Support Vector Machine,SVM),SVM是将特征向量映射至高维特征平面,以建立一个最佳超平面,SVM主要是应用在二分类的问题上,但也可以结合多个SVM解决多重分类的问题,分类结果请参阅图6,图6为根据本发明一实施例的目标词汇关系模型的示意图。如图6所示,经过SVM运算后关系强的数据会聚在一起,产生目标词汇关系模型。步骤S420目标词汇关系模型的产生只需要在根据步骤S410产生的编码数据库在步骤S350执行之前产生即可。
接着请继续参考图7,图7为根据本发明一实施的步骤S340的流程图。如图7所示,步骤S340包含以下步骤:
步骤S341:比较词汇编码集合中的第一词汇与编码数据库中的第二词汇的声母与韵母,产生声母韵母评分结果;
步骤S342:根据音调评分规则比较词汇编码集合中的第一词汇与编码数据库中的第二词汇的音调,产生音调评分结果;以及
步骤S343:将声母韵母评分结果与音调评分结果相加,得到拼音评分计算结果。
于步骤S341中,比较词汇编码集合中的第一词汇与编码数据库中的第二词汇的声母与韵母,产生声母韵母评分结果的计算方式请参考图8。图8为根据本发明一实施例的步骤S341的流程图。如图8所示,步骤S341包含以下步骤:
步骤S3411:判断第一词汇与第二词汇的声母或韵母的字符长度是否相同;
步骤S3412:计算字符长度差值;
步骤S3413:判断第一词汇的声母或韵母的字符与第二词汇的声母或韵母的字符是否相同;
步骤S3414:计算差异分数;以及
步骤S3415:将字符长度差值以及差异分数加总得到声母韵母评分结果。
举例而言,请参考图9A以及图9B。图9A为根据本发明一实施例的音评分计算一实施例的示意图,图9B为根据本发明一实施例的拼音评分计算另一实施例的示意图。如图9A所示,输入词为:chen2 de2 chen2(沉得沉)、数据库词为:chen2 de2 cheng2(陈德诚),首先会先判定输入词与数据库词两者的声母或韵母的字符长度是否一致(步骤S3411),在此实施范例中chen的韵母(en)字符长度就与cheng的韵母(eng)字符长度不一致,因此需要计算字符长度差值并补上特殊字符(*)表示(步骤S3412),而字符长度差值则计算为-1分,代表两者个比较具有1个字符长度的差异。接着继续比较输入词与数据库词两者的声母或韵母的字符是否一致(步骤S3413),在此范例中输入词与数据库词的声母或韵母比较的结果皆一致,因此不计算差异分数,而将字符长度差值与差异分数加总即可得到声母韵母评分结果(步骤S3415),输入词chen2 de2 chen2(沉得沉)与数据库词chen2 de2 cheng2(陈德诚)的声母韵母评分结果即为-1+0=-1分。
请继续参考图9B,如图9B所示,输入词为:chen2 de2 chen2(沉得沉)、数据库词为:zhi4 tong1 suo3(智通所),继续依照上述的方式进行声母韵母评分结果的计算。在此实施范例中,chen的韵母(en)字符长度就与zhi的韵母(i)字符长度不一致,字符长度差值则计算为-1分,tong的韵母(ong)字符长度就与de的韵母(e)字符长度不一致,字符长度差值则计算为-2分,chen的声母(ch)字符长度就与suo的声母(s)字符长度不一致,字符长度差值则计算为-1分,因此在经过字符长度的比较后,字符长度差值累计为-4分。具有字符长度差异的声母或韵母都补上特殊字符(*)表示,代表输入词与数据库值具有4个字符长度的差异。接着进行输入词与数据库词两者的声母或韵母的字符比较,在此范例中chen的声母(ch)的字符就与zhi的声母(zh)的字符有1个字符(字符c与字符z)的差异,因此声母差异分数计算为-1,chen的韵母(en)的字符就与zhi的韵母(i)的字符有1个字符(字符e与字符i)的差异,因此韵母差异分数计算为-1。tong的声母(t)的字符就与de的声母(d)的字符有1个字符(字符t与字符d)的差异,因此声母差异分数计算为-1,tong的韵母(ong)的字符就与de的韵母(e)的字符有1个字符(字符o与字符e)的差异,因此韵母差异分数计算为-1。suo的声母(s)的字符就与chen的声母(ch)的字符有1个字符(字符s与字符c)的差异,因此声母差异分数计算为-1,suo的韵母(uo)的字符就与chen的韵母(en)的字符有2个字符(字符uo与字符en)的差异,因此韵母差异分数计算为-2。因此在经过字符的比较后,差异分数累计为-7分。最后得出输入词chen2 de2 chen2(沉得沉)与数据库词zhi4 tong1 suo3(智通所)的声母韵母评分结果即为-4+-7=-11分。
接着请参考图7中的步骤S342,步骤S342:根据音调评分规则比较词汇编码集合中的第一词汇与编码数据库中的第二词汇的音调,产生音调评分结果。音调评分规则请参考表一:
根据表一的音调评分规则可以将此规则套用至图9A与图9B所示的范例,输入词为:chen2 de2 chen2(沉得沉)、数据库词为:chen2 de2 cheng2(陈德诚),以及输入词为:chen2 de2 chen2(沉得沉)、数据库词为:zhi4 tong1 suo3(智通所)。请参考图9A与图9B,在图9A的范例中,chen2的音调(2)与chen2的音调(2)一致,因此不计分;de2的音调(2)与de2的音调(2)一致,因此不计分;cheng2的音调(2)与chen2的音调(2)一致,因此不计分。因此在经过音调的比较后,输入词chen2 de2 chen2(沉得沉)与数据库词chen2 de2 cheng2(陈德诚)的音调评分结果为0分,意即输入词与数据库词两者的音调相同。在图9B的范例中,zhi4的音调(4)与chen2的音调(2)不一致,查阅表一后须计分-1分;tong1的音调(1)与de2的音调(2)不一致,查阅表一后须计分-1分;suo3的音调(3)与chen2的音调(2)不一致,查阅表一后须计分-1分。因此在经过音调的比较后,输入词chen2 de2 chen2(沉得沉)与数据库词zhi4 tong1 suo3(智通所)的音调评分结果为-3分。
请参考图7中的步骤S343,步骤S343:将声母韵母评分结果与音调评分结果相加,得到拼音评分计算结果。根据上述的范例输入词chen2 de2 chen2(沉得沉)与数据库词chen2 de2 cheng2(陈德诚)的拼音评分计算结果为-1+0=-1分。输入词chen2 de2 chen2(沉得沉)与数据库词zhi4 tong1 suo3(智通所)的拼音评分计算结果为-11+-3=-14分。
在步骤S340中,利用上述拼音评分计算产生的拼音评分计算结果与门槛值比较产生至少一目标词汇样本。门槛值可以依照不同的情况而订定,举例而言如果门槛直设定为多个拼音评分计算结果中数值最大的拼音评分计算结果,即会挑出最符合的数据库值,于上述范例中即会选择输入词chen2 de2 chen2(沉得沉)与数据库词chen2 de2 cheng2(陈德诚)的比较结果,因此可以找出数据库词chen2 de2 cheng2(陈德诚)作为目标词汇样本。然而,门槛值的订定并不限于次,可以采用为多个拼音评分计算结果中数值最大即第二大的拼音评分计算结果、或是直接订定一束值大于该数值的拼音评分计算结果都会作为目标词汇样本,因此,依照门槛值的订定方式可以找出数量不同的目标词汇样本。
接着请参考图3及图6,在步骤S350中,比对至少一目标词汇样本与目标词汇关系模型,并产生至少一目标对象信息。举例而言,利用上述范例中找出的目标词汇样本,数据库词的chen2 de2 cheng2(陈德诚),与预先建立的目标词汇关系模型比较,即可找出与chen2 de2 cheng2(陈德诚)有关联的信息,像是chen2 de2 cheng2(陈德诚)的电话:6607-36xx、email:yichin@iii等信息,即可找出多个目标对象信息。
接着在步骤S360:针对至少一目标对象信息进行与至少一命令关键字相应的操作。结合找出的多个目标对象信息,以及在步骤S320中利用DNN语句模型解析的命令关键字,可以施行一相应的操作。请参考图10,图10为根据本发明一实施例的使用者与声控***互动的示意图。如图10所示,使用者对着声控***100提出命令语句,经由声控***100根据上述的解析后可以根据使用者的命令语句协助使用者进行相应的操作。举例而言,图10中使用者提出请帮我拨打王小明的电话,声控***100分析过后可以找出王小明的电话并协助使用者拨打。
于另一实施例中,如果有两组以上的关键字可供声控***辨识及搜寻,则可以产生更精确地结果,举例而言,使用者提出有管理部门王小明的包裹请问他在吗的问题,而“管理部门”及“王小明”则会被过滤出成为对象关键字,并且经过分析处理后会找出“王小明”及“管理部门”交集的信息,即可找到管理部门的王小明及其相关联的信息,例如:电话、e-mail等,再进行后续的操作。
于另一实施例中,如果仅有单一组关键字可能会找出多笔目标对象信息的情况,举例而言,如果只有“王小明”一组对象关键字,则可能有不同部门的王小明的情况,此时可以再增加新的关键字再重新搜寻,或是声控***100会列出多笔针对“王小明”的目标对象信息供使用者选择,当然也可以根据最常被作为关键字找寻的对象关键字,自动进行后续的操作,例如:如果总管部门的王小明最常被列为对象关键字,就算仅有王小明一组关键字,声控***100仍可以根据常用的名单直接帮忙使用者联络总管部门的王小明。
由上述本案的实施方式可知,本案主要是改进语音辨识***在特殊词汇辨识不准确的问题,先利用深度神经网络演算法找出输入语句的关键字词后,再利用关键字词的声母、韵母与音调结合关键字词间的关系强弱分析,再根据关系的强弱关联出与关键字有关联的信息进行相应的操作,不需预先建立词库以及声纹模型,仍可辨识出特殊词汇,达到辨识***可以提供给任何使用者使用,不会因为口音、腔调的不同而导致辨识***判断错误的功效。
虽然本发明已以实施例揭露如上,然其并非用以限定本发明,任何熟悉此技艺者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰,因此本发明的保护范围当视所附的权利要求书所界定的范围为准。
Claims (20)
1.一种声控方法,其特征在于,包括:
输入一语音并辨识该语音以产生一初始语句样本;
根据该初始语句样本进行一常用语句训练,产生至少一命令关键字以及至少一对象关键字;
依据该至少一对象关键字的声母、韵母以及音调进行编码转换,编码转换后的词汇产生一词汇编码集合;
利用该词汇编码集合以及一编码数据库的数据进行一拼音评分计算产生一拼音评分计算结果,并将该拼音评分计算结果与一门槛值比较产生至少一目标词汇样本;
比对该至少一目标词汇样本与一目标词汇关系模型,并产生至少一目标对象信息;以及
针对该至少一目标对象信息进行与该至少一命令关键字相应的一操作。
2.根据权利要求1所述的声控方法,其特征在于,还包括:
依据一既有知识数据库的词汇的声母、韵母以及音调进行编码转换,并根据编码转换后的词汇建立该编码数据库;以及
利用一分类器将该编码数据库中的数据进行关系强弱分类,产生该目标词汇关系模型。
3.根据权利要求1所述的声控方法,其特征在于,该拼音评分计算还包括:
比较该词汇编码集合中的一第一词汇与该编码数据库中的一第二词汇的声母与韵母,产生一声母韵母评分结果;
根据一音调评分规则比较该词汇编码集合中的该第一词汇与该编码数据库中的该第二词汇的音调,产生一音调评分结果;以及
将该声母韵母评分结果与该音调评分结果相加,得到该拼音评分计算结果。
4.根据权利要求3所述的声控方法,其特征在于,比较该第一词汇与该第二词汇的声母与韵母还包括:
如果该第一词汇与该第二词汇的声母的字符长度相同,则比较该第一词汇的声母的字符与该第二词汇的声母的字符是否相同,如果不同则计算一第一分数;
如果该第一词汇与该第二词汇的声母的字符长度不相同,则计算一第一字符长度差值,并继续比较该第一词汇的声母的字符与该第二词汇的声母的字符是否相同,如果不同则计算该第一分数;
如果该第一词汇与该第二词汇的韵母的字符长度相同,则比较该第一词汇的韵母的字符与该第二词汇的韵母的字符是否相同,如果不同则计算一第二分数;
如果该第一词汇与该第二词汇的韵母的字符长度不相同,则计算一第二字符长度差值,并继续比较该第一词汇的韵母的字符与该第二词汇的韵母的字符是否相同,如果不同则计算该第二分数;以及
将该第一字符长度差值、该第二字符长度差值、该第一分数以及该第二分数相加总得到该声母韵母评分结果。
5.根据权利要求3所述的声控方法,其特征在于,该音调评分规则还包括:
如果该第一词汇与该第二词汇的音调不同,则计算分数并产生该音调评分结果。
6.根据权利要求1所述的声控方法,其特征在于,该常用语句训练是利用深度神经网络,产生该至少一命令关键字以及该至少一对象关键字。
7.一种声控***,其特征在于,具有一处理单元,该处理单元包括:
一语句训练模块,用以根据一初始语句样本进行一常用语句训练,产生至少一命令关键字以及至少一对象关键字;
一编码模块,与该语句训练模块连接,并用以依据该至少一对象关键字的声母、韵母以及音调进行编码转换,编码转换后的词汇产生一词汇编码集合;
一评分模块,与该编码模块连接,并用以利用该词汇编码集合以及一编码数据库的数据进行一拼音评分计算产生一拼音评分计算结果,并将该拼音评分计算结果与一门槛值比较产生至少一目标词汇样本;
一词汇样本比对模块,与该评分模块连接,并用以比对该至少一目标词汇样本与一目标词汇关系模型,并产生至少一目标对象信息;以及
一操作执行模块,与该词汇样本比对模块连接,并用以针对该至少一目标对象信息进行与该至少一命令关键字相应的一操作。
8.根据权利要求7所述的声控***,其特征在于,该处理单元还包括:一语音辨识模块,用以辨识一语音并产生该初始语句样本。
9.根据权利要求7所述的声控***,其特征在于,该编码数据库与该编码模块及该评分模块连接,该编码数据库是利用该编码模块对一既有知识数据库的词汇的声母、韵母以及音调进行编码转换,并根据编码转换后的词汇建立。
10.根据权利要求7所述的声控***,其特征在于,该目标词汇关系模型与该编码数据库连接及该词汇样本比对模块连接,并利用一分类器将该编码数据库中的数据进行关系强弱分类,以产生该目标词汇关系模型。
11.根据权利要求7所述的声控***,其特征在于,该拼音评分计算包括以下步骤:
比较该词汇编码集合中的一第一词汇与该编码数据库中的一第二词汇的声母与韵母,产生一声母韵母评分结果;
根据一音调评分规则比较该词汇编码集合中的该第一词汇与该编码数据库中的该第二词汇的音调,产生一音调评分结果;以及
将该声母韵母评分结果与该音调评分结果相加,得到该拼音评分计算结果。
12.根据权利要求11所述的声控***,其特征在于,比较该第一词汇与该第二词汇的声母与韵母,还包括以下步骤:
如果该第一词汇与该第二词汇的声母的字符长度相同,则比较该第一词汇的声母的字符与该第二词汇的声母的字符是否相同,如果不同则计算一第一分数;
如果该第一词汇与该第二词汇的声母的字符长度不相同,则计算一第一字符长度差值,并继续比较该第一词汇的声母的字符与该第二词汇的声母的字符是否相同,如果不同则计算该第一分数;
如果该第一词汇与该第二词汇的韵母的字符长度相同,则比较该第一词汇的韵母的字符与该第二词汇的韵母的字符是否相同,如果不同则计算一第二分数;
如果该第一词汇与该第二词汇的韵母的字符长度不相同,则计算一第二字符长度差值,并继续比较该第一词汇的韵母的字符与该第二词汇的韵母的字符是否相同,如果不同则计算该第二分数;以及
将该第一字符长度差值、该第二字符长度差值、该第一分数以及该第二分数相加总得到该声母韵母评分结果。
13.根据权利要求11所述的声控***,其特征在于,该音调评分规则,还包括以下步骤:
如果该第一词汇与该第二词汇的音调不同,则计算分数并产生该音调评分结果。
14.根据权利要求7所述的声控***,其特征在于,该常用语句训练是利用深度神经网络,产生该至少一命令关键字以及该至少一对象关键字。
15.根据权利要求7所述的声控***,其特征在于,还包括:
一语音输入单元,与该处理单元电性连接,并用以输入该语音;
一记忆单元,与该处理单元电性连接,并用以储存一既有知识数据库以及该编码数据库;
一显示单元,与该处理单元电性连接,并用以显示对应于该操作的画面;以及
一语音输出单元,与该处理单元电性连接,并用以输出对应于该操作的语音。
16.根据权利要求15所述的声控***,其特征在于,该显示单元还包含一使用者操作界面,该使用者操作界面用以显示对应于该操作的画面。
17.根据权利要求15所述的声控***,其特征在于,该语音输入单元为一麦克风。
18.根据权利要求15所述的声控***,其特征在于,该语音输出单元为一喇叭。
19.根据权利要求7所述的声控***,其特征在于,还包括:
一传输单元,与该处理单元电性连接,用以传送一语音至一语音辨识***,并接收该语音辨识***辨识后的该初始语句样本。
20.根据权利要求7所述的声控***,其特征在于,还包括:
一电源供应单元,与该处理单元电性连接,用以供应电源至该处理单元。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106138180 | 2017-11-03 | ||
TW106138180A TWI660340B (zh) | 2017-11-03 | 2017-11-03 | 聲控方法及系統 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109754791A true CN109754791A (zh) | 2019-05-14 |
Family
ID=66328794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711169280.9A Pending CN109754791A (zh) | 2017-11-03 | 2017-11-14 | 声控方法及*** |
Country Status (3)
Country | Link |
---|---|
US (1) | US20190139544A1 (zh) |
CN (1) | CN109754791A (zh) |
TW (1) | TWI660340B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110473540B (zh) * | 2019-08-29 | 2022-05-31 | 京东方科技集团股份有限公司 | 语音交互方法及***、终端设备、计算机设备及介质 |
CN113066485B (zh) * | 2021-03-25 | 2024-05-17 | 支付宝(杭州)信息技术有限公司 | 一种语音数据处理方法、装置及设备 |
CN113658609B (zh) * | 2021-10-20 | 2022-01-04 | 北京世纪好未来教育科技有限公司 | 关键字匹配信息的确定方法、装置、电子设备和介质 |
KR20240018229A (ko) * | 2022-08-02 | 2024-02-13 | 김민구 | 시내퍼 모델을 이용한 자연어 처리 시스템 및 방법 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060074664A1 (en) * | 2000-01-10 | 2006-04-06 | Lam Kwok L | System and method for utterance verification of chinese long and short keywords |
CN104637482A (zh) * | 2015-01-19 | 2015-05-20 | 孔繁泽 | 一种语音识别方法、装置、***以及语言交换*** |
CN105374248A (zh) * | 2015-11-30 | 2016-03-02 | 广东小天才科技有限公司 | 一种纠正读音的方法、装置和*** |
CN105975455A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 基于双向递归神经网络的信息分析*** |
CN106710592A (zh) * | 2016-12-29 | 2017-05-24 | 北京奇虎科技有限公司 | 一种智能硬件设备中的语音识别纠错方法和装置 |
CN107016994A (zh) * | 2016-01-27 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 语音识别的方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI299854B (en) * | 2006-10-12 | 2008-08-11 | Inventec Besta Co Ltd | Lexicon database implementation method for audio recognition system and search/match method thereof |
TWI319563B (en) * | 2007-05-31 | 2010-01-11 | Cyberon Corp | Method and module for improving personal speech recognition capability |
TW201430831A (zh) * | 2013-01-29 | 2014-08-01 | Chung Han Interlingua Knowledge Co Ltd | 語意辨識之相似度比較方法 |
-
2017
- 2017-11-03 TW TW106138180A patent/TWI660340B/zh active
- 2017-11-14 CN CN201711169280.9A patent/CN109754791A/zh active Pending
- 2017-12-05 US US15/832,724 patent/US20190139544A1/en not_active Abandoned
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060074664A1 (en) * | 2000-01-10 | 2006-04-06 | Lam Kwok L | System and method for utterance verification of chinese long and short keywords |
CN104637482A (zh) * | 2015-01-19 | 2015-05-20 | 孔繁泽 | 一种语音识别方法、装置、***以及语言交换*** |
CN105374248A (zh) * | 2015-11-30 | 2016-03-02 | 广东小天才科技有限公司 | 一种纠正读音的方法、装置和*** |
CN107016994A (zh) * | 2016-01-27 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 语音识别的方法及装置 |
CN105975455A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 基于双向递归神经网络的信息分析*** |
CN106710592A (zh) * | 2016-12-29 | 2017-05-24 | 北京奇虎科技有限公司 | 一种智能硬件设备中的语音识别纠错方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
TW201919040A (zh) | 2019-05-16 |
US20190139544A1 (en) | 2019-05-09 |
TWI660340B (zh) | 2019-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9947317B2 (en) | Pronunciation learning through correction logs | |
US11361751B2 (en) | Speech synthesis method and device | |
CN106598939B (zh) | 一种文本纠错方法及装置、服务器、存储介质 | |
CN112185348B (zh) | 多语种语音识别方法、装置及电子设备 | |
CN105869634B (zh) | 一种基于领域的带反馈语音识别后文本纠错方法及*** | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
CN105404621B (zh) | 一种用于盲人读取汉字的方法及*** | |
TWI666558B (zh) | 語意分析方法、語意分析系統及非暫態電腦可讀取媒體 | |
WO2021000497A1 (zh) | 检索方法、装置、计算机设备和存储介质 | |
CN109754791A (zh) | 声控方法及*** | |
CN111199726B (zh) | 基于语音成分的细粒度映射的语言语音处理 | |
WO2017127296A1 (en) | Analyzing textual data | |
WO2014190732A1 (en) | Method and apparatus for building a language model | |
JP5799733B2 (ja) | 認識装置、認識プログラムおよび認識方法 | |
CN112927679B (zh) | 一种语音识别中添加标点符号的方法及语音识别装置 | |
WO2021244099A1 (zh) | 语音编辑方法、电子设备及计算机可读存储介质 | |
KR20190024148A (ko) | 음성 인식 장치 및 음성 인식 방법 | |
CN103903615B (zh) | 一种信息处理方法及电子设备 | |
CN115104151A (zh) | 一种离线语音识别方法和装置、电子设备和可读存储介质 | |
KR20090063546A (ko) | 음성인식 장치 및 방법 | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN110516125A (zh) | 识别异常字符串的方法、装置、设备及可读存储介质 | |
CN110929749B (zh) | 文本识别方法、装置、介质及电子设备 | |
CN111429886A (zh) | 一种语音识别方法及*** | |
JP6538399B2 (ja) | 音声処理装置、音声処理方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190514 |