CN111326141A - 一种处理获取人声数据的方法 - Google Patents
一种处理获取人声数据的方法 Download PDFInfo
- Publication number
- CN111326141A CN111326141A CN201811523837.9A CN201811523837A CN111326141A CN 111326141 A CN111326141 A CN 111326141A CN 201811523837 A CN201811523837 A CN 201811523837A CN 111326141 A CN111326141 A CN 111326141A
- Authority
- CN
- China
- Prior art keywords
- data
- voice
- acoustic model
- memory
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 17
- 238000006243 chemical reaction Methods 0.000 claims abstract description 8
- 238000005070 sampling Methods 0.000 claims description 21
- 230000003993 interaction Effects 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 10
- 230000005236 sound signal Effects 0.000 claims description 6
- 241001465754 Metazoa Species 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Telephone Function (AREA)
Abstract
本发明公开了一种处理获取人声数据的方法,包括以下步骤,获取移动终端的收集器采集的声音信号;从基于语音的装置收集取样数据的语音数据;将通用声学模型和所述取样数据的个人声学模型存储在第二存储器中,第二储存器连接有音色转换单元,将取样数据的音色转换成其他需要的音色,该音色选取数据库,数据库储存在第二储存器中;当从所述取样数据接收到语音识别请求时,从所述取样数据的语音数据提取特征向量;基于所述取样数据的语音数据的累积量来选择所述通用声学模型和所述取样数据的个人声学模型中的任一个;以及使用所提取的特征向量和所选择的声学模型识别语音命令。本发明设计巧妙,方法合理,可以合理处理人声,适合推广使用。
Description
技术领域
本发明涉及处理获取人声数据的方法技术领域,尤其涉及一种处理获取人声数据的方法。
背景技术
根据传统的语音识别方法,使用已预先存储在语音识别装置中的声学模型来执行语音识别。声学模型被用于表示说话者的语音的属性。例如,音素、双音素、三音素、五音素、音节以及字被用作声学模型的基本单位。如果将音素用作声学模型的基本模型,由于声学模型的数量减少,所以诸如双音素、三音素或五音素的上下文相关的声学模型被广泛使用以便反映相邻音素之间的变化所引起的协同发音(coarticulation)现象。需要大量数据来学习上下文相关的声学模型。
通常,将在消声室被录音的或通过服务器收集的各个说话者的声音存储作为语音数据,并且通过学习语音数据来生成声学模型。然而,在这种方法中,因为实际上使用语音识别功能的说话者的音调常常不同于与所收集的语音数据相对应的音调,故难以收集大量的语音数据并且保证语音识别性能。因此,由于通常通过学习成年男性的语音数据来生成声学模型,故难以识别具有不同的声音音调的成年女性、年长者或孩子的语音命令,而识别后的声音不能被重新利用起来,更不能对识别后的声音进行智能的人机对话,为此,本发明提出一种处理获取人声数据的方法。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种处理获取人声数据的方法。
为了实现上述目的,本发明采用了如下技术方案:
一种处理获取人声数据的方法,包括以下步骤,
S1,获取移动终端的收集器采集的声音信号;声音信号进行预处理器的带通滤波处理,得到预定频率范围内的取样数据;
S2,从基于语音的装置收集取样数据的语音数据;
S3,将所述取样数据的语音数据累积在第一存储器中;
S4,学习所累积的所述取样数据的语音数据;
S5,基于所学习的语音数据生成所述取样数据的个人声学模型;
S6,将通用声学模型和所述取样数据的个人声学模型存储在第二存储器中,第二储存器连接有音色转换单元,将取样数据的音色转换成其他需要的音色,该音色选取数据库,数据库储存在第二储存器中;
S7,当从所述取样数据接收到语音识别请求时,从所述取样数据的语音数据提取特征向量;
S8,基于所述取样数据的语音数据的累积量来选择所述通用声学模型和所述取样数据的个人声学模型中的任一个;以及使用所提取的特征向量和所选择的声学模型识别语音命令。
优选的,所述数据库内储存有影视作品、大自然、动物和名人的音色,并对各种音色做好分类。
优选的,所述收集器,从基于语音的装置收集取样数据的语音数据;第一存储器,累积所述取样数据的语音数据;学习器,学习累积在所述第一存储器中的所述取样数据的语音数据并且所述学习器基于所学习的语音数据生成所述取样数据的个人声学模型;第二存储器,存储通用声学模型和所述取样数据的个人声学模型;特征向量提取器,当从所述取样数据接收到语音识别请求时,所述特征向量提取器从所述取样数据的语音数据提取特征向量;以及语音识别器,基于所述取样数据的语音数据的累积量来选择所述通用声学模型和所述取样数据的个人声学模型中的任一个并且所述语音识别器使用所提取的特征向量和所选择的声学模型识别语音命令。
优选的,所述语音识别器声音进行识别,对输出的语音数据结果确定所述语音数据是否为人机交互语音数据;如果是,则对语音识别结果进行语义理解,根据语义理解结果生成交互结果,交互结果包括响应文本,并将响应文本朗读出来。
优选的,所述收集器采用声音传感器,可以收集附近的声音信息。
与现有技术相比,本发明的有益效果是:将通用声学模型和所述取样数据的个人声学模型存储在第二存储器中,第二储存器连接有音色转换单元,将取样数据的音色转换成其他需要的音色,该音色选取数据库,数据库储存在第二储存器中,语音识别器声音进行识别,对输出的语音数据结果确定所述语音数据是否为人机交互语音数据;如果是,则对语音识别结果进行语义理解,根据语义理解结果生成交互结果,交互结果包括响应文本,并将响应文本朗读出来,可以对识别的人声数据进行语音识别,然后将识别的人声数据可以进行音色转换,应用在不同的场景中,可以伪装其他音色,并且可以实现人机对话,本发明设计巧妙,方法合理,可以合理处理人声,适合推广使用。
附图说明
图1为本发明提出的一种处理获取人声数据的方法的原理框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1,一种处理获取人声数据的方法,包括以下步骤,
S1,获取移动终端的收集器采集的声音信号;声音信号进行预处理器的带通滤波处理,得到预定频率范围内的取样数据;
S2,从基于语音的装置收集取样数据的语音数据;
S3,将所述取样数据的语音数据累积在第一存储器中;
S4,学习所累积的所述取样数据的语音数据;
S5,基于所学习的语音数据生成所述取样数据的个人声学模型;
S6,将通用声学模型和所述取样数据的个人声学模型存储在第二存储器中,第二储存器连接有音色转换单元,将取样数据的音色转换成其他需要的音色,该音色选取数据库,数据库储存在第二储存器中;
S7,当从所述取样数据接收到语音识别请求时,从所述取样数据的语音数据提取特征向量;
S8,基于所述取样数据的语音数据的累积量来选择所述通用声学模型和所述取样数据的个人声学模型中的任一个;以及使用所提取的特征向量和所选择的声学模型识别语音命令。
本发明中,所述数据库内储存有影视作品、大自然、动物和名人的音色,并对各种音色做好分类。
本发明中,所述收集器,从基于语音的装置收集取样数据的语音数据;第一存储器,累积所述取样数据的语音数据;学习器,学习累积在所述第一存储器中的所述取样数据的语音数据并且所述学习器基于所学习的语音数据生成所述取样数据的个人声学模型;第二存储器,存储通用声学模型和所述取样数据的个人声学模型;特征向量提取器,当从所述取样数据接收到语音识别请求时,所述特征向量提取器从所述取样数据的语音数据提取特征向量;以及语音识别器,基于所述取样数据的语音数据的累积量来选择所述通用声学模型和所述取样数据的个人声学模型中的任一个并且所述语音识别器使用所提取的特征向量和所选择的声学模型识别语音命令。
本发明中,所述语音识别器声音进行识别,对输出的语音数据结果确定所述语音数据是否为人机交互语音数据;如果是,则对语音识别结果进行语义理解,根据语义理解结果生成交互结果,交互结果包括响应文本,并将响应文本朗读出来。
本发明中,所述收集器采用声音传感器,可以收集附近的声音信息。
本发明在使用时,将通用声学模型和所述取样数据的个人声学模型存储在第二存储器中,第二储存器连接有音色转换单元,将取样数据的音色转换成其他需要的音色,该音色选取数据库,数据库储存在第二储存器中,语音识别器声音进行识别,对输出的语音数据结果确定所述语音数据是否为人机交互语音数据;如果是,则对语音识别结果进行语义理解,根据语义理解结果生成交互结果,交互结果包括响应文本,并将响应文本朗读出来,可以对识别的人声数据进行语音识别,然后将识别的人声数据可以进行音色转换,应用在不同的场景中,可以伪装其他音色,并且可以实现人机对话,本发明设计巧妙,方法合理,可以合理处理人声,适合推广使用。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (5)
1.一种处理获取人声数据的方法,其特征在于,包括以下步骤,
S1,获取移动终端的收集器采集的声音信号;声音信号进行预处理器的带通滤波处理,得到预定频率范围内的取样数据;
S2,从基于语音的装置收集取样数据的语音数据;
S3,将所述取样数据的语音数据累积在第一存储器中;
S4,学习所累积的所述取样数据的语音数据;
S5,基于所学习的语音数据生成所述取样数据的个人声学模型;
S6,将通用声学模型和所述取样数据的个人声学模型存储在第二存储器中,第二储存器连接有音色转换单元,将取样数据的音色转换成其他需要的音色,该音色选取数据库,数据库储存在第二储存器中;
S7,当从所述取样数据接收到语音识别请求时,从所述取样数据的语音数据提取特征向量;
S8,基于所述取样数据的语音数据的累积量来选择所述通用声学模型和所述取样数据的个人声学模型中的任一个;以及使用所提取的特征向量和所选择的声学模型识别语音命令。
2.根据权利要求1所述的一种处理获取人声数据的方法,其特征在于,所述数据库内储存有影视作品、大自然、动物和名人的音色,并对各种音色做好分类。
3.根据权利要求1所述的一种处理获取人声数据的方法,其特征在于,所述收集器,从基于语音的装置收集取样数据的语音数据;第一存储器,累积所述取样数据的语音数据;学习器,学习累积在所述第一存储器中的所述取样数据的语音数据并且所述学习器基于所学习的语音数据生成所述取样数据的个人声学模型;第二存储器,存储通用声学模型和所述取样数据的个人声学模型;特征向量提取器,当从所述取样数据接收到语音识别请求时,所述特征向量提取器从所述取样数据的语音数据提取特征向量;以及语音识别器,基于所述取样数据的语音数据的累积量来选择所述通用声学模型和所述取样数据的个人声学模型中的任一个并且所述语音识别器使用所提取的特征向量和所选择的声学模型识别语音命令。
4.根据权利要求1所述的一种处理获取人声数据的方法,其特征在于,所述语音识别器声音进行识别,对输出的语音数据结果确定所述语音数据是否为人机交互语音数据;如果是,则对语音识别结果进行语义理解,根据语义理解结果生成交互结果,交互结果包括响应文本,并将响应文本朗读出来。
5.根据权利要求1所述的一种处理获取人声数据的方法,其特征在于,所述收集器采用声音传感器,可以收集附近的声音信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811523837.9A CN111326141A (zh) | 2018-12-13 | 2018-12-13 | 一种处理获取人声数据的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811523837.9A CN111326141A (zh) | 2018-12-13 | 2018-12-13 | 一种处理获取人声数据的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111326141A true CN111326141A (zh) | 2020-06-23 |
Family
ID=71164754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811523837.9A Pending CN111326141A (zh) | 2018-12-13 | 2018-12-13 | 一种处理获取人声数据的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111326141A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111787169A (zh) * | 2020-07-13 | 2020-10-16 | 南京硅基智能科技有限公司 | 一种用于移动式人机协作呼叫机器人的三方通话终端 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105529026A (zh) * | 2014-10-17 | 2016-04-27 | 现代自动车株式会社 | 语音识别装置和语音识别方法 |
CN105609101A (zh) * | 2014-11-14 | 2016-05-25 | 现代自动车株式会社 | 语音识别***及语音识别方法 |
CN107644643A (zh) * | 2017-09-27 | 2018-01-30 | 安徽硕威智能科技有限公司 | 一种语音交互***及方法 |
CN107767879A (zh) * | 2017-10-25 | 2018-03-06 | 北京奇虎科技有限公司 | 基于音色的音频转换方法及装置 |
CN107919126A (zh) * | 2017-11-24 | 2018-04-17 | 合肥博焱智能科技有限公司 | 一种智能语音交互*** |
CN108763190A (zh) * | 2018-04-12 | 2018-11-06 | 平安科技(深圳)有限公司 | 基于语音的口型动画合成装置、方法及可读存储介质 |
-
2018
- 2018-12-13 CN CN201811523837.9A patent/CN111326141A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105529026A (zh) * | 2014-10-17 | 2016-04-27 | 现代自动车株式会社 | 语音识别装置和语音识别方法 |
CN105609101A (zh) * | 2014-11-14 | 2016-05-25 | 现代自动车株式会社 | 语音识别***及语音识别方法 |
CN107644643A (zh) * | 2017-09-27 | 2018-01-30 | 安徽硕威智能科技有限公司 | 一种语音交互***及方法 |
CN107767879A (zh) * | 2017-10-25 | 2018-03-06 | 北京奇虎科技有限公司 | 基于音色的音频转换方法及装置 |
CN107919126A (zh) * | 2017-11-24 | 2018-04-17 | 合肥博焱智能科技有限公司 | 一种智能语音交互*** |
CN108763190A (zh) * | 2018-04-12 | 2018-11-06 | 平安科技(深圳)有限公司 | 基于语音的口型动画合成装置、方法及可读存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111787169A (zh) * | 2020-07-13 | 2020-10-16 | 南京硅基智能科技有限公司 | 一种用于移动式人机协作呼叫机器人的三方通话终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
KR101056511B1 (ko) | 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 | |
JP2020515877A (ja) | ささやき声変換方法、装置、デバイス及び可読記憶媒体 | |
CN108074576A (zh) | 审讯场景下的说话人角色分离方法及*** | |
EP0549265A2 (en) | Neural network-based speech token recognition system and method | |
CN112102850A (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
CN111968645B (zh) | 一种个性化的语音控制*** | |
CN109215634A (zh) | 一种多词语音控制通断装置的方法及其*** | |
CN111145763A (zh) | 一种基于gru的音频中的人声识别方法及*** | |
Gupta et al. | Speech feature extraction and recognition using genetic algorithm | |
CN114420169B (zh) | 情绪识别方法、装置及机器人 | |
KR20110010233A (ko) | 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템 | |
CN111667834A (zh) | 一种助听设备及助听方法 | |
CN111613223B (zh) | 语音识别方法、***、移动终端及存储介质 | |
CN111326141A (zh) | 一种处理获取人声数据的方法 | |
KR20170086233A (ko) | 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법 | |
CN111862991A (zh) | 一种婴儿哭声的识别方法及*** | |
CN112331219B (zh) | 语音处理方法和装置 | |
CN111833869B (zh) | 一种应用于城市大脑的语音交互方法及*** | |
CN114664303A (zh) | 连续语音指令快速识别控制*** | |
CN111326161B (zh) | 一种声纹确定方法及装置 | |
CN210575088U (zh) | 语音识别家电控制装置 | |
Lee et al. | Robust feature extraction for mobile-based speech emotion recognition system | |
CN108682416B (zh) | 本地自适应语音训练方法和*** | |
CN113793610A (zh) | 一种语音控制物业管理的方法、***、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200623 |
|
RJ01 | Rejection of invention patent application after publication |