CN105609101A - 语音识别***及语音识别方法 - Google Patents
语音识别***及语音识别方法 Download PDFInfo
- Publication number
- CN105609101A CN105609101A CN201510778306.4A CN201510778306A CN105609101A CN 105609101 A CN105609101 A CN 105609101A CN 201510778306 A CN201510778306 A CN 201510778306A CN 105609101 A CN105609101 A CN 105609101A
- Authority
- CN
- China
- Prior art keywords
- characteristic point
- speech
- data
- speech data
- articulation type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 13
- 239000000284 extract Substances 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 4
- NAXKFVIRJICPAO-LHNWDKRHSA-N [(1R,3S,4R,6R,7R,9S,10S,12R,13S,15S,16R,18S,19S,21S,22S,24S,25S,27S,28R,30R,31R,33S,34S,36R,37R,39R,40S,42R,44R,46S,48S,50R,52S,54S,56S)-46,48,50,52,54,56-hexakis(hydroxymethyl)-2,8,14,20,26,32,38,43,45,47,49,51,53,55-tetradecaoxa-5,11,17,23,29,35,41-heptathiapentadecacyclo[37.3.2.23,7.29,13.215,19.221,25.227,31.233,37.04,6.010,12.016,18.022,24.028,30.034,36.040,42]hexapentacontan-44-yl]methanol Chemical class OC[C@H]1O[C@H]2O[C@H]3[C@H](CO)O[C@H](O[C@H]4[C@H](CO)O[C@H](O[C@@H]5[C@@H](CO)O[C@H](O[C@H]6[C@H](CO)O[C@H](O[C@H]7[C@H](CO)O[C@@H](O[C@H]8[C@H](CO)O[C@@H](O[C@@H]1[C@@H]1S[C@@H]21)[C@@H]1S[C@H]81)[C@H]1S[C@@H]71)[C@H]1S[C@H]61)[C@H]1S[C@@H]51)[C@H]1S[C@@H]41)[C@H]1S[C@H]31 NAXKFVIRJICPAO-LHNWDKRHSA-N 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Electrically Operated Instructional Devices (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了语音识别***及语音识别方法。一种语音识别***包括:收集器,用于收集说话者的语音数据;发音方式分类器,用于提取说话者的语音数据的特征点,并且选择对应于特征点的发音方式模型;参数调整器,用于通过使用所选择的发音方式模型来调整参数,该参数是用于识别语音指令的基准;以及语音识别引擎,用于基于调整的参数来识别说话者的语音指令。
Description
相关申请的交叉引用
本申请要求于2014年11月14日提交给韩国知识产权局的韩国专利申请第10-2014-0158774号的优先权权益,其全部内容通过引证结合于此。
技术领域
本公开内容涉及一种语音识别***和语音识别方法。
背景技术
人机接口(HMI)使用户通过视觉、听觉、或触觉与机器进行交流。为了最小化驾驶员的注意力转移并且提高便利性,已尝试使用语音识别作为车辆内的HMI。
根据常规的语音识别***,使用标准语言的各种说话者的声音被存储为语音数据,并且使用该语音数据来执行语音识别。然而,在这种***中,难以保证语音识别性能,这是因为使用语音识别功能的说话者的发音方式(例如,发音语调、发音速度、以及方言)通常不同于对应于语音数据的发音方式。
本背景技术部分中公开的上述信息仅用于增强对本公开背景技术的理解,并且因此本公开可能包括在该国家中未构成为本领域普通技术人员所知的现有技术的信息。
发明内容
本公开致力于提供语音识别***和语音识别方法,该语音识别***和语音识别方法具有以下优点:基于针对每个区域的语音数据生成针对每个区域的发音方式模型;选择对应于提取的特征点的发音方式模型;以及调整参数,该参数是用于识别语音识别指令的基准。
根据本公开示例性实施方式的语音识别***可包括:收集器,收集说话者的语音数据;发音方式分类器,提取说话者的语音数据的特征点,并且选择对应于特征点的发音方式模型;参数调整器,通过使用所选择的发音方式模型来调整参数,该参数是用于识别语音命令的基准;以及语音识别引擎,基于调整的参数来识别说话者的语音指令。
语音识别***可进一步包括:预处理器,将从收集器传输的模拟语音数据转换为数字语音数据;校正语音数据的增益;并且消除语音数据的噪声。
发音方式分类器可包括:语音数据库,存储针对每个区域的语音数据;第一特征点提取器,提取在语音数据库中存储的针对每个区域的语音数据的特征点;特征点数据库,存储由第一特征点提取器提取的针对每个区域的语音数据的特征点;特征点学习器,通过学习在特征点数据库中存储的针对每个区域的语音数据的特征点的分布来生成学习模型,并且通过使用学习模型来生成针对每个区域的发音方式模型;以及模型数据库,存储由特征点学习器生成的学习模型和发音方式模型。
发音方式分类器可进一步包括:第二特征点提取器,提取从预处理器接收的说话者的语音数据的特征点;以及发音方式模型选择器,选择对应于由第二特征点提取器提取的特征点的发音方式模型。
特征点学习器可通过使用学习模型来生成分布分类器,用于分类语音数据的特征点的分布。
根据本公开示例性实施方式的语音识别方法可包括:收集说话者的语音数据;预处理该语音数据;提取该语音数据的特征点;选择对应于提取的特征点的发音方式模型;通过使用所选择的发音方式模型来调整参数,该参数是用于识别语音指令的基准;基于所调整的参数来识别说话者的语音指令。
语音指令的预处理可包括:将模拟语音数据转换为数字语音数据;以及校正该语音数据的增益;消除该语音数据的噪声。
发音方式模型可通过提取在语音数据库中存储的针对每个区域的语音数据的特征点来生成;在特征点数据库中存储所提取的针对每个区域的语音数据的特征点;通过学习在特征点数据库中存储的针对每个区域的语音数据的特征点的分布来生成学习模型;并且通过使用学习模型来生成针对每个区域的发音方式模型。
附图说明
图1是根据本公开示例性实施方式的语音识别***的框图。
图2是根据本公开示例性实施方式的发音方式分类器的框图。
图3是用于说明根据本公开示例性实施方式的生成针对每个区域的学习模型以及发音方式模型的过程的示图。
图4是用于说明根据本公开示例性实施方式的语音识别***的驱动模式的示图。
图5是根据本公开示例性实施方式的语音识别方法的流程图。
具体实施方式
在下文中,将参考附图更全面地描述本公开,在附图中示出了本公开的示例性实施方式。如本领域技术人员应当认识到的,在所有都不偏离本公开的精神或范围的情况下,可用各种不同的方式对所描述的实施方式进行修改。附图和描述本质上被视为是示例性的,而非限制性的,并且贯穿说明书,相同参考标号表示相同元件。此外,将省略对众所周知的现有技术的详细说明。
在说明书中,除非另有明确说明相反,否则词语“包括(comprise)”和诸如“包含(comprises)”或“含有(comprising)”的变体将被理解为暗示包括所述的元件但不排除任何其他的元件。此外,在说明书中描述的术语“…器(-er)”,“…装置(-or)”或者“模块(module)”意指用于处理至少执行一个功能和操作的单元,并且通过硬件组件、或者软件组件、以及其组合能够实现该单元。
在说明书中,“发音方式模型”意指用来表示语音数据的区域特性(例如,发音口音、发音速度、以及方言)的模型。
图1是根据本公开示例性实施方式的语音识别***的框图,并且图2是根据本公开示例性实施方式的发音方式分类器的框图。
如图1所示,根据本公开示例性实施方式的语音识别***可包括:收集器100、预处理器200、发音方式分类器300、参数调整器400、以及语音识别引擎500。
收集器100收集说话者(用户)的模拟语音数据,并且收集器100可包括:麦克风,用以接收声波以根据声波的振动生成电信号。
预处理器200预处理语音数据,并且将预处理过的语音数据传输至发音方式分类器300和语音识别引擎500。预处理器200可包括:模数转换器(ADC)210、增益校正器220、以及噪声消除器230。
ADC210将从收集器100传输的模拟语音数据转换为数字语音数据(在下文中,被称为“语音数据”)。增益校正器220校正语音数据的增益(等级)。噪声消除器230消除语音数据中的噪声。
如图2所示,根据本公开示例性实施方式的发音方式分类器300可包括:语音数据库310、特征点提取器320、特征点数据库330、特征点学习器340、模型数据库350、以及发音方式模型选择器360。
语音数据库310存储针对每个区域的语音数据。例如,语音数据库310可包括:第一区域语音数据库310-1、第二区域语音数据库DB310-2、以及第n区域语音数据库310-n。语音数据库310可以是先前基于在无回音室中的各种说话者的语音数据生成的。可基于从远程服务器(例如,远程信息处理服务器)传输的针对每个区域的语音数据来更新语音数据库310。
此外,可基于从语音识别***的用户或说话者接收的区域信息以及从预处理器200传输的语音数据来更新语音数据库310。
特征点提取器320可包括第一特征点提取器321以及第二特征点提取器322。
第一特征点提取器321提取在语音数据库310中存储的针对每个区域的语音数据的特征点,并且将特征点存储在特征点数据库330中。
第二特征点提取器322提取从预处理器200接收的说话者的语音数据的特征点,并且将特征点传输至发音方式模型选择器360。
由第一特征点提取器321提取的针对每个区域的特征点被存储在特征点数据库330中。例如,特征点数据库331可包括第一区域特征点数据库、第二区域特征点数据库以及第n区域特征点数据库。
特征点学习器340可通过学习在特征点数据库330中存储的针对每个区域的语音数据的特征点来生成学习模型,并且可通过使用学习模型来生成针对每个区域的发音方式模型。
将参考图3描述生成特征点学习器340的学习模型和发音方式模型的过程。
图3是用于说明根据本公开示例性实施方式的生成针对每个区域的学习模型以及发音方式模型的过程的示图。
参考图3,特征点学习器340通过学习在特征点数据库330中存储的针对每个区域的语音数据的特征点的分布来生成学习模型。机器学习算法可用于学习针对每个区域的语音数据的特征点的分布。例如,特征点学习器340可学习存储在第一区域特征点数据库中的与第一区域对应的语音数据的特征点的分布;以及存储在第二区域特征点数据库中的、对应于第二区域的语音数据的特征点的分布。
特征点学习器340可通过使用学习模型来生成分布分类器,该分布分类器用于分类语音数据的特征点的分布。分布分类器可以用以下sigmoid(S形)函数来表示。
f(x)=sigmoid(w·x)本文中,w是学习模型,并且x是语音数据的特征点。
特征点学习器340可使用分布分类器来生成发音方式模型。例如,特征点学习器340可通过使用分布分类器来生成对应于第一区域的发音方式模型以及对应于第二区域的发音方式模型,该分布分类器将对应于第一区域的语音数据的特征点的分布以及对应于第二区域的语音数据的特征点的分布分类。
模型数据库350存储由特征点学习器340生成的学习模型以及发音方式模型。
发音方式模型选择器360使用分布分类器来选择对应于由第二特征点提取器322提取的特征点的发音方式模型,并且将所选择的发音方式模型传输至参数调整器400。例如,如图3所示,当由第二特征点提取器322提取到新的特征点y时,发音方式模型选择器360使用分布分类器来选择对应于特征点y的发音方式模型。
参数调整器400通过使用由发音方式模型选择器360选择的发音方式模型来调整参数,该参数是用于识别语音指令的基准(reference,参考)。
语音识别引擎500基于由参数调整器400调整的参数来识别说话者的语音指令。可基于语音指令(即,语音识别结果)来控制基于语音的设备。例如,可执行对应于所识别的语音指令的功能(例如,呼叫功能或路线指引功能)。
图4是用于说明根据本公开示例性实施方式的语音识别***的驱动模式的示图。
参考图4,当由发音方式模型选择器360选择对应于第二区域的发音方式模型时,参数可被调整至对应于第二区域的值,该参数是用于识别语音指令的基准。换言之,语音识别引擎500的驱动模式从基本模式(参数=默认值)改变为第二区域模式(参数=对应于第二区域的值)。
图5是根据本公开示例性实施方式的语音识别方法的流程图。
如图5所示,在步骤S10中,收集器100收集用户的语音数据。语音数据被传输至预处理器200。
此后,在步骤S20中,预处理器200预处理该语音数据。详细地,预处理器200将从收集器100传输的模拟语音数据转换为数字语音数据,校正语音数据的增益,并且消除语音数据中的噪声。因此,可提高语音数据的语音识别性能。预处理过的语音数据被传输至第二特征点提取器322。
在步骤S30中,第二特征点提取器322提取语音数据的特征点。提取的语音数据的特征点被传输至发音方式模型选择器360。
在步骤S40中,发音方式模型选择器340通过使用分布分类器来选择对应于提取的特征点的发音方式模型。所选择的发音方式模型被传输至参数调整器400。
在步骤S50中,参数调整器400通过使用所选择的发音方式模型来调整参数。
在步骤S60中,语音识别引擎500基于调整的参数来识别说话者的语音指令。
如上所述,根据本公开的示例性实施方式,使用对应于包括在语音数据中的区域特性的发音方式模型来调整参数,由此提高了语音识别性能。
尽管结合目前被视为实用的示例性实施方式描述了本公开内容,但是应理解,本公开内容不限于所公开的实施方式,而是相反,本公开内容旨在覆盖包括在所附权利要求的实质和范围内的各种修改和等同配置。
Claims (8)
1.一种语音识别***,包括:
收集器,用于收集说话者的语音数据;
发音方式分类器,用于提取所述说话者的所述语音数据的特征点,并且选择对应于所述特征点的发音方式模型;
参数调整器,用于通过使用所选择的所述发音方式模型来调整参数,所述参数是用于识别语音指令的基准;以及
语音识别引擎,用于基于调整的所述参数来识别所述说话者的所述语音指令。
2.根据权利要求1所述的语音识别***,进一步包括:预处理器,将从所述收集器传输的模拟语音数据转换为数字语音数据,校正所述语音数据的增益并且消除所述语音数据中的噪声。
3.根据权利要求2所述的语音识别***,其中,所述发音方式分类器包括:
语音数据库,用于存储针对每个区域的语音数据;
第一特征点提取器,用于提取在所述语音数据库中存储的针对每个区域的语音数据的特征点;
特征点数据库,用于存储由所述第一特征点提取器提取的针对每个区域的语音数据的特征点;
特征点学习器,用于通过学习在所述特征点数据库中存储的针对每个区域的语音数据的特征点的分布,来生成学习模型,并且所述特征点学习器用于通过使用所述学习模型来生成针对每个区域的发音方式模型;以及
模型数据库,用于存储由所述特征点学习器生成的所述学习模型以及所述发音方式模型。
4.根据权利要求3所述的语音识别***,其中,所述发音方式分类器进一步包括:
第二特征点提取器,用于提取从所述预处理器接收的所述说话者的所述语音数据的特征点;以及
发音方式模型选择器,用于选择对应于由所述第二特征点提取器提取的特征点的所述发音方式模型。
5.根据权利要求3所述的语音识别***,其中,所述特征点学习器通过使用所述学习模型来生成分布分类器,所述分布分类器用于分类语音数据的特征点的分布。
6.一种语音识别方法,包括以下步骤:
收集说话者的语音数据;
预处理所述语音数据;
提取所述语音数据的特征点;
选择对应于提取的所述特征点的发音方式模型;
通过使用所选择的发音方式模型来调整参数,所述参数是用于识别语音指令的基准;
基于调整的所述参数来识别所述说话者的所述语音指令。
7.根据权利要求6所述的语音识别方法,其中,预处理所述语音数据的步骤包括:
将模拟语音数据转换为数字语音数据;
校正所述语音数据的增益;以及
消除所述语音数据中的噪声。
8.根据权利要求6所述的语音识别方法,其中,所述发音方式模型由以下步骤生成:
提取在所述语音数据库中存储的针对每个区域的语音数据的特征点;
在特征点数据库中存储所提取的针对每个区域的语音数据的特征点;
通过学习在所述特征点数据库中存储的针对每个区域的语音数据的特征点的分布,来生成学习模型;以及
通过使用所述学习模型来生成针对每个区域的发音方式模型。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2014-0158774 | 2014-11-14 | ||
KR1020140158774A KR101619262B1 (ko) | 2014-11-14 | 2014-11-14 | 음성인식 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105609101A true CN105609101A (zh) | 2016-05-25 |
CN105609101B CN105609101B (zh) | 2021-05-25 |
Family
ID=55855198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510778306.4A Active CN105609101B (zh) | 2014-11-14 | 2015-11-12 | 语音识别***及语音识别方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20160140954A1 (zh) |
KR (1) | KR101619262B1 (zh) |
CN (1) | CN105609101B (zh) |
DE (1) | DE102015222034A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105957516A (zh) * | 2016-06-16 | 2016-09-21 | 百度在线网络技术(北京)有限公司 | 多语音识别模型切换方法及装置 |
CN106782521A (zh) * | 2017-03-22 | 2017-05-31 | 海南职业技术学院 | 一种语音识别*** |
CN107016996A (zh) * | 2017-06-06 | 2017-08-04 | 广东小天才科技有限公司 | 一种音频数据的处理方法及装置 |
CN108231063A (zh) * | 2016-12-13 | 2018-06-29 | ***通信有限公司研究院 | 一种语音控制指令的识别方法及装置 |
CN111326141A (zh) * | 2018-12-13 | 2020-06-23 | 南京硅基智能科技有限公司 | 一种处理获取人声数据的方法 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095799A (zh) * | 2016-05-30 | 2016-11-09 | 广州多益网络股份有限公司 | 一种语音的存储、检索方法及装置 |
KR102199825B1 (ko) * | 2018-12-28 | 2021-01-08 | 강원대학교산학협력단 | 음성 인식 장치 및 방법 |
KR102306393B1 (ko) * | 2019-08-12 | 2021-09-29 | 엘지전자 주식회사 | 음성 처리 장치 및 음성 처리 방법 |
KR102632388B1 (ko) * | 2019-11-25 | 2024-02-02 | 삼성전자주식회사 | 전자장치 및 그 제어방법 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1316726A (zh) * | 2000-02-02 | 2001-10-10 | 摩托罗拉公司 | 语音识别的方法和装置 |
CN1659624A (zh) * | 2002-04-05 | 2005-08-24 | 英特尔公司 | 根据用于语音识别的呼叫语境动态地和自适应地选择词汇和声学模型 |
JP2005227369A (ja) * | 2004-02-10 | 2005-08-25 | Matsushita Electric Ind Co Ltd | 音声認識装置および方法と車載ナビゲーション装置 |
CN201075286Y (zh) * | 2007-07-27 | 2008-06-18 | 陈修志 | 语音识别装置 |
CN101320561A (zh) * | 2007-06-05 | 2008-12-10 | 赛微科技股份有限公司 | 提升个人语音识别率的方法及模块 |
CN101599270A (zh) * | 2008-06-02 | 2009-12-09 | 海尔集团公司 | 语音服务器及语音控制的方法 |
JP2010256765A (ja) * | 2009-04-28 | 2010-11-11 | Nippon Telegr & Teleph Corp <Ntt> | ユーザプロファイル抽出方法、ユーザプロファイル抽出装置及びユーザプロファイル抽出プログラム |
US20110110330A1 (en) * | 2009-11-12 | 2011-05-12 | Samsung Electronics Co., Ltd. | Method and apparatus for reducing loss of media data while handover is performed |
KR20110128587A (ko) * | 2010-05-24 | 2011-11-30 | 엔에이치엔(주) | 위치 정보에 기초한 음성 인식 시스템 및 방법 |
CN102543073A (zh) * | 2010-12-10 | 2012-07-04 | 上海上大海润信息***有限公司 | 一种沪语语音识别信息处理方法 |
CN102915731A (zh) * | 2012-10-10 | 2013-02-06 | 百度在线网络技术(北京)有限公司 | 一种个性化的语音识别的方法及装置 |
CN103236260A (zh) * | 2013-03-29 | 2013-08-07 | 京东方科技集团股份有限公司 | 语音识别*** |
CN104036774A (zh) * | 2014-06-20 | 2014-09-10 | 国家计算机网络与信息安全管理中心 | 藏语方言识别方法及*** |
CN104123936A (zh) * | 2013-04-25 | 2014-10-29 | 伊莱比特汽车公司 | 对话***自动训练方法、对话***及用于车辆的控制装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10127559A1 (de) * | 2001-06-06 | 2002-12-12 | Philips Corp Intellectual Pty | Benutzergruppenspezifisches Musterverarbeitungssystem |
US9589564B2 (en) * | 2014-02-05 | 2017-03-07 | Google Inc. | Multiple speech locale-specific hotword classifiers for selection of a speech locale |
-
2014
- 2014-11-14 KR KR1020140158774A patent/KR101619262B1/ko active IP Right Grant
-
2015
- 2015-11-09 US US14/936,125 patent/US20160140954A1/en not_active Abandoned
- 2015-11-10 DE DE102015222034.6A patent/DE102015222034A1/de not_active Withdrawn
- 2015-11-12 CN CN201510778306.4A patent/CN105609101B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1316726A (zh) * | 2000-02-02 | 2001-10-10 | 摩托罗拉公司 | 语音识别的方法和装置 |
CN1659624A (zh) * | 2002-04-05 | 2005-08-24 | 英特尔公司 | 根据用于语音识别的呼叫语境动态地和自适应地选择词汇和声学模型 |
JP2005227369A (ja) * | 2004-02-10 | 2005-08-25 | Matsushita Electric Ind Co Ltd | 音声認識装置および方法と車載ナビゲーション装置 |
CN101320561A (zh) * | 2007-06-05 | 2008-12-10 | 赛微科技股份有限公司 | 提升个人语音识别率的方法及模块 |
CN201075286Y (zh) * | 2007-07-27 | 2008-06-18 | 陈修志 | 语音识别装置 |
CN101599270A (zh) * | 2008-06-02 | 2009-12-09 | 海尔集团公司 | 语音服务器及语音控制的方法 |
JP2010256765A (ja) * | 2009-04-28 | 2010-11-11 | Nippon Telegr & Teleph Corp <Ntt> | ユーザプロファイル抽出方法、ユーザプロファイル抽出装置及びユーザプロファイル抽出プログラム |
US20110110330A1 (en) * | 2009-11-12 | 2011-05-12 | Samsung Electronics Co., Ltd. | Method and apparatus for reducing loss of media data while handover is performed |
KR20110128587A (ko) * | 2010-05-24 | 2011-11-30 | 엔에이치엔(주) | 위치 정보에 기초한 음성 인식 시스템 및 방법 |
CN102543073A (zh) * | 2010-12-10 | 2012-07-04 | 上海上大海润信息***有限公司 | 一种沪语语音识别信息处理方法 |
CN102915731A (zh) * | 2012-10-10 | 2013-02-06 | 百度在线网络技术(北京)有限公司 | 一种个性化的语音识别的方法及装置 |
CN103236260A (zh) * | 2013-03-29 | 2013-08-07 | 京东方科技集团股份有限公司 | 语音识别*** |
CN104123936A (zh) * | 2013-04-25 | 2014-10-29 | 伊莱比特汽车公司 | 对话***自动训练方法、对话***及用于车辆的控制装置 |
CN104036774A (zh) * | 2014-06-20 | 2014-09-10 | 国家计算机网络与信息安全管理中心 | 藏语方言识别方法及*** |
Non-Patent Citations (1)
Title |
---|
SAMEEH ULLAH ET AL: "Speaker accent classification using distance metric learning approach", 《2007 IEEE INTERNATIONAL SYMPOSIUM ON SIGNAL PROCESSING AND INFORMATION TECHNOLOGY》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105957516A (zh) * | 2016-06-16 | 2016-09-21 | 百度在线网络技术(北京)有限公司 | 多语音识别模型切换方法及装置 |
WO2017215122A1 (zh) * | 2016-06-16 | 2017-12-21 | 百度在线网络技术(北京)有限公司 | 多语音识别模型切换方法、装置和存储介质 |
CN105957516B (zh) * | 2016-06-16 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 多语音识别模型切换方法及装置 |
US10847146B2 (en) | 2016-06-16 | 2020-11-24 | Baidu Online Network Technology (Beijing) Co., Ltd. | Multiple voice recognition model switching method and apparatus, and storage medium |
CN108231063A (zh) * | 2016-12-13 | 2018-06-29 | ***通信有限公司研究院 | 一种语音控制指令的识别方法及装置 |
CN106782521A (zh) * | 2017-03-22 | 2017-05-31 | 海南职业技术学院 | 一种语音识别*** |
CN107016996A (zh) * | 2017-06-06 | 2017-08-04 | 广东小天才科技有限公司 | 一种音频数据的处理方法及装置 |
CN111326141A (zh) * | 2018-12-13 | 2020-06-23 | 南京硅基智能科技有限公司 | 一种处理获取人声数据的方法 |
Also Published As
Publication number | Publication date |
---|---|
US20160140954A1 (en) | 2016-05-19 |
CN105609101B (zh) | 2021-05-25 |
KR101619262B1 (ko) | 2016-05-18 |
DE102015222034A1 (de) | 2016-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105609101A (zh) | 语音识别***及语音识别方法 | |
CN108172218B (zh) | 一种语音建模方法及装置 | |
Abushariah et al. | Natural speaker-independent Arabic speech recognition system based on Hidden Markov Models using Sphinx tools | |
CN1655235B (zh) | 基于话音特征自动标识电话呼叫者 | |
US6442519B1 (en) | Speaker model adaptation via network of similar users | |
CN102122506B (zh) | 一种语音识别的方法 | |
US9564120B2 (en) | Speech adaptation in speech synthesis | |
DE102016125812A1 (de) | Erlernen von Aussprachen einer personalisierten Entität | |
US20040204942A1 (en) | System and method for multi-lingual speech recognition | |
KR20170041105A (ko) | 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법 | |
US20110093263A1 (en) | Automated Video Captioning | |
US9911408B2 (en) | Dynamic speech system tuning | |
US9997155B2 (en) | Adapting a speech system to user pronunciation | |
CN101727904A (zh) | 语音翻译方法和装置 | |
CN103151037A (zh) | 校正难以理解的合成语音 | |
CN104969288A (zh) | 基于话音记录日志提供话音识别***的方法和*** | |
US11151996B2 (en) | Vocal recognition using generally available speech-to-text systems and user-defined vocal training | |
CN111916088B (zh) | 一种语音语料的生成方法、设备及计算机可读存储介质 | |
WO2006083020A1 (ja) | 抽出された音声データを用いて応答音声を生成する音声認識システム | |
KR20190024148A (ko) | 음성 인식 장치 및 음성 인식 방법 | |
CN114783424A (zh) | 文本语料筛选方法、装置、设备及存储介质 | |
CN109493846A (zh) | 一种英语口音识别*** | |
US7844459B2 (en) | Method for creating a speech database for a target vocabulary in order to train a speech recognition system | |
US10446136B2 (en) | Accent invariant speech recognition | |
CN113658599A (zh) | 基于语音识别的会议记录生成方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |