CN111681638A - 车载智能语音控制方法及*** - Google Patents
车载智能语音控制方法及*** Download PDFInfo
- Publication number
- CN111681638A CN111681638A CN202010310444.0A CN202010310444A CN111681638A CN 111681638 A CN111681638 A CN 111681638A CN 202010310444 A CN202010310444 A CN 202010310444A CN 111681638 A CN111681638 A CN 111681638A
- Authority
- CN
- China
- Prior art keywords
- target object
- audio
- vehicle
- voice control
- mounted intelligent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000011156 evaluation Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种车载智能语音控制方法及***。所述车载智能语音控制方法,其包括以下步骤;获取目标对象音频数据;依据所述目标对象音频数据与预设文本数据库采用文本转语音技术生成目标对象音频库;及依据播放指令播放所述目标对象音频库的音频。
Description
技术领域
本发明涉及一种车载智能语音控制方法及***。
背景技术
现有汽车车载语音***一般具有广播播放与音乐播放功能,这些功能可在一定程度上帮助驾驶员与乘客在塞车时缓解愤怒情绪,但现有车载语音***的智能性与体验性有限,难于满足人们日益增加的用户体验需求。
发明内容
本发明提供一种车载智能语音控制方法及***。
根据本发明的一种实施例,一种车载智能语音控制方法,其包括以下步骤;
获取步骤,获取目标对象音频数据;
生成步骤,依据所述目标对象音频数据与预设文本数据库采用文本转语音技术生成目标对象音频库;及
播放步骤,依据播放指令播放所述目标对象音频库的音频。
根据本发明的一种实施例,所述获取步骤包括:提供预设语音范本;及获取目标对象使用所述预设语音范本录制的所述目标对象音频数据。
根据本发明的一种实施例,所述获取步骤包括:获取目标对象的多个音频范本;将所述多个音频范本提供至音频学习网络进行训练学习以获得目标对象的样本模型与评估数据,依据所述目标对象的样本模型与评估数据识别并获取所述目标对象的音频数据。
根据本发明的一种实施例,所述生成步骤中,所述预设文本数据库包括多类文本数据,所述目标对象音频库也包括多类音频数据。
根据本发明的一种实施例,所述车载智能语音控制方法运行于行车记录仪上。
根据本发明的一种实施例,一种车载智能语音控制***,其包括:
获取单元,用于获取目标对象音频数据;
生成单元,用于依据所述目标对象音频数据与预设文本数据库采用文本转语音技术生成目标对象音频库;及
播放单元,用于依据播放指令播放所述目标对象音频库的音频。
根据本发明的一种实施例,述获取单元用于提供预设语音范本及获取目标对象使用所述预设语音范本录制的所述目标对象音频数据。
根据本发明的一种实施例,所述获取单元用于获取目标对象的多个音频范本;将所述多个音频范本提供至音频学习网络进行训练学习以获得目标对象的样本模型与评估数据;以及依据所述目标对象的样本模型与评估数据识别并获取所述目标对象的音频数据。
根据本发明的一种实施例,所述预设文本数据库包括多类文本数据,所述目标对象音频库也包括多类音频数据。
根据本发明的一种实施例,所述车载智能语音控制***安装于行车记录仪上。
相较于现有车载语音***,本发明车载智能语音控制方法及***中,可以获取目标对象音频数据、依据所述目标对象音频数据与预设文本数据库采用文本转语音技术生成目标对象音频库;及依据播放指令播放所述目标对象音频库的音频,即驾驶员或乘客可以播放自定义的通过文本转语音技术生成的目标对象音频库,提高用户体验性。
根据本发明的一种实施例,通过提供预设语音范本从而获取目标对象使用所述预设语音范本录制的所述目标对象音频数据,使得可以获得所述目标对象的标准及完整的基础语音,从而有助实现利用预设文本数据库对所述目标对象音频数据的较为标准及完整的转换,进而可形成较为完整且效果较好的目标对象音频库。
根据本发明的一种实施例,通过音频范本的训练学习形成样本模型与评估数据,可有助于后续自动识别获取所述目标对象的音频数据。
根据本发明的一种实施例,所述预设文本数据库包括多类文本数据,所述目标对象音频库也包括多类音频数据,使得形成的可播放的目标对象音频类别较多,增加用户体验性。
根据本发明的一种实施例,所述车载智能语音控制方法及***可以运行于行车记录仪上,由于行车记录仪可以外置安装在汽车上,因此可以不改变汽车的基础架构,实用性较高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明一种实施例的车载智能语音控制方法的流程图。
图2是本发明一种实施例的车载智能语音控制***的电路方框示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,图1是本发明一种实施例的车载智能语音控制方法的流程图。所述车载智能语音控制方法可以运行在汽车的中控***中,也可以运行在行车记录仪或车载导航装置中。所述车载智能语音控制方法可以包括以下步骤S11、S12、S13。
获取步骤S11,获取目标对象音频数据。
生成步骤S12,依据所述目标对象音频数据与预设文本数据库采用文本转语音技术生成目标对象音频库。
播放步骤S13,依据播放指令播放所述目标对象音频库的音频。
所述步骤S11中,所述目标对象可以是用户自定的,如驾驶员自己、家人、朋友等。根据本发明的一种实施例,所述获取步骤S11可以包括:提供预设语音范本;及获取目标对象使用所述预设语音范本录制的所述目标对象音频数据。所述预设语音范本可以是特定的一段文字及语音,或者特定的多个文字及其发音,目标对象可以依据指示朗读该段文字及语音、或者多个文字及其发音,从而通过麦克风等收音器件可以收集目标对象音频,经放大、滤波及数字化处理后,可以得到所述目标对象音频数据。
根据本发明的一种实施例,所述获取步骤S11也可以包括:获取目标对象的多个音频范本;将所述多个音频范本提供至音频学习网络进行训练学习以获得目标对象的样本模型与评估数据,依据所述目标对象的样本模型与评估数据识别并获取所述目标对象的音频数据。所述多个音频范本也可以是所述目标对象片段录制的文字或语音,通过麦克风等收音器件可以收集目标对象音频,经放大、滤波及数字化处理后再提供至所述音频学习网络进行训练学习获得所述目标对象的样本模型与评估数据,进而后续可实现目标对象音频数据的自动识别获取。其中,所述音频学习网络可以为循环神经网络。
根据本发明的一种实施例,所述生成步骤中,所述预设文本数据库包括多类文本数据,所述目标对象音频库也包括多类音频数据。所述多类文本数据可以包括故事、歌曲、笑话、体育、财经等,因此所述目标对象音频库也可以包括故事、歌曲、笑话、体育、财经等多类音频数据。
请参阅图2,图2是本发明一种实施例的车载智能语音控制***20的电路方框示意图。所述车载智能语音控制***20可以为一应用软件,运行于行车记录仪、车载中控***或导航装置上等,其可以包括获取单元21、生成单元22及播放单元23。所述获取单元21用于获取目标对象音频数据。所述生成单元22用于依据所述目标对象音频数据与预设文本数据库采用文本转语音技术生成目标对象音频库。所述播放单元23用于依据播放指令播放所述目标对象音频库的音频。可以理解,所述获取单元21、生成单元22及播放单元23可以为部分软件程序指令,由处理器执行,以实现各自的功能。
所述目标对象可以是用户自定的,如驾驶员自己、家人、朋友等。根据本发明的一种实施例,所述获取单元21可以执行以下步骤:提供预设语音范本;及获取目标对象使用所述预设语音范本录制的所述目标对象音频数据。所述预设语音范本可以是特定的一段文字及语音,或者特定的多个文字及其发音,目标对象可以依据指示朗读该段文字及语音、或者多个文字及其发音,从而通过麦克风等收音器件可以收集目标对象音频,经放大、滤波及数字化处理后,可以得到所述目标对象音频数据。
根据本发明的一种实施例,所述获取单元21可以执行以下步骤:获取目标对象的多个音频范本;将所述多个音频范本提供至音频学习网络进行训练学习以获得目标对象的样本模型与评估数据,依据所述目标对象的样本模型与评估数据识别并获取所述目标对象的音频数据。所述多个音频范本也可以是所述目标对象片段录制的文字或语音,通过麦克风等收音器件可以收集目标对象音频,经放大、滤波及数字化处理后再提供至所述音频学习网络进行训练学习获得所述目标对象的样本模型与评估数据,进而后续可实现目标对象音频数据的自动识别获取。其中,所述音频学习网络可以为循环神经网络。
根据本发明的一种实施例,所述预设文本数据库包括多类文本数据,所述目标对象音频库也包括多类音频数据。所述多类文本数据可以包括故事、歌曲、笑话、体育、财经等,因此所述目标对象音频库也可以包括故事、歌曲、笑话、体育、财经等多类音频数据。
相较于现有车载语音***,本发明车载智能语音控制方法及***30中,可以获取目标对象音频数据、依据所述目标对象音频数据与预设文本数据库采用文本转语音技术生成目标对象音频库;及依据播放指令播放所述目标对象音频库的音频,即驾驶员或乘客可以播放自定义的通过文本转语音技术生成的目标对象音频库,提高用户体验性。
根据本发明的一种实施例,通过提供预设语音范本从而获取目标对象使用所述预设语音范本录制的所述目标对象音频数据,使得可以获得所述目标对象的标准及完整的基础语音,从而有助实现利用预设文本数据库对所述目标对象音频数据的较为标准及完整的转换,进而可形成较为完整且效果较好的目标对象音频库。
根据本发明的一种实施例,通过音频范本的训练学习形成样本模型与评估数据,可有助于后续自动识别获取所述目标对象的音频数据。所述预设文本数据库包括多类文本数据,所述目标对象音频库也包括多类音频数据,使得形成的可播放的目标对象音频类别较多,增加用户体验性。所述车载智能语音控制方法及***可以运行于行车记录仪上,由于行车记录仪可以外置安装在汽车上,因此可以不改变汽车的基础架构,实用性较高。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种车载智能语音控制方法,其包括以下步骤;
获取步骤,获取目标对象音频数据;
生成步骤,依据所述目标对象音频数据与预设文本数据库采用文本转语音技术生成目标对象音频库;及
播放步骤,依据播放指令播放所述目标对象音频库的音频。
2.如权利要求1所述的车载智能语音控制方法,其特征在于:所述获取步骤包括:提供预设语音范本;及获取目标对象使用所述预设语音范本录制的所述目标对象音频数据。
3.如权利要求1所述的车载智能语音控制方法,其特征在于:所述获取步骤包括:获取目标对象的多个音频范本;将所述多个音频范本提供至音频学习网络进行训练学习以获得目标对象的样本模型与评估数据,依据所述目标对象的样本模型与评估数据识别并获取所述目标对象的音频数据。
4.如权利要求1所述的车载智能语音控制方法,其特征在于:所述生成步骤中,所述预设文本数据库包括多类文本数据,所述目标对象音频库也包括多类音频数据。
5.如权利要求1所述的车载智能语音控制方法,其特征在于:所述车载智能语音控制方法运行于行车记录仪上。
6.一种车载智能语音控制***,其特征在于:所述车载智能语音控制***包括:
获取单元,用于获取目标对象音频数据;
生成单元,用于依据所述目标对象音频数据与预设文本数据库采用文本转语音技术生成目标对象音频库;及
播放单元,用于依据播放指令播放所述目标对象音频库的音频。
7.如权利要求6所述的车载智能语音控制***,其特征在于:所述获取单元用于提供预设语音范本及获取目标对象使用所述预设语音范本录制的所述目标对象音频数据。
8.权利要求6所述的车载智能语音控制***,其特征在于:所述获取单元用于获取目标对象的多个音频范本;将所述多个音频范本提供至音频学习网络进行训练学习以获得目标对象的样本模型与评估数据;以及依据所述目标对象的样本模型与评估数据识别并获取所述目标对象的音频数据。
9.如权利要求6所述的车载智能语音控制***,其特征在于:所述预设文本数据库包括多类文本数据,所述目标对象音频库也包括多类音频数据。
10.如权利要求6所述的车载智能语音控制***,其特征在于:所述车载智能语音控制***安装于行车记录仪上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010310444.0A CN111681638A (zh) | 2020-04-20 | 2020-04-20 | 车载智能语音控制方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010310444.0A CN111681638A (zh) | 2020-04-20 | 2020-04-20 | 车载智能语音控制方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111681638A true CN111681638A (zh) | 2020-09-18 |
Family
ID=72433354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010310444.0A Pending CN111681638A (zh) | 2020-04-20 | 2020-04-20 | 车载智能语音控制方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111681638A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102568472A (zh) * | 2010-12-15 | 2012-07-11 | 盛乐信息技术(上海)有限公司 | 说话人可选的语音合成***及其实现方法 |
KR20140028336A (ko) * | 2012-08-28 | 2014-03-10 | 삼성전자주식회사 | 음성 변환 장치 및 이의 음성 변환 방법 |
CN104464716A (zh) * | 2014-11-20 | 2015-03-25 | 北京云知声信息技术有限公司 | 一种语音播报***和方法 |
CN106205602A (zh) * | 2015-05-06 | 2016-12-07 | 上海汽车集团股份有限公司 | 语音播放方法和*** |
EP3151239A1 (en) * | 2015-09-29 | 2017-04-05 | Yandex Europe AG | Method and system for text-to-speech synthesis |
CN110415678A (zh) * | 2019-06-13 | 2019-11-05 | 百度时代网络技术(北京)有限公司 | 自定义语音播报客户端、服务器、***及方法 |
CN110415697A (zh) * | 2019-08-29 | 2019-11-05 | 的卢技术有限公司 | 一种基于深度学习的车载语音控制方法及其*** |
CN111009233A (zh) * | 2019-11-20 | 2020-04-14 | 泰康保险集团股份有限公司 | 语音处理方法、装置、电子设备及存储介质 |
-
2020
- 2020-04-20 CN CN202010310444.0A patent/CN111681638A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102568472A (zh) * | 2010-12-15 | 2012-07-11 | 盛乐信息技术(上海)有限公司 | 说话人可选的语音合成***及其实现方法 |
KR20140028336A (ko) * | 2012-08-28 | 2014-03-10 | 삼성전자주식회사 | 음성 변환 장치 및 이의 음성 변환 방법 |
CN104464716A (zh) * | 2014-11-20 | 2015-03-25 | 北京云知声信息技术有限公司 | 一种语音播报***和方法 |
CN106205602A (zh) * | 2015-05-06 | 2016-12-07 | 上海汽车集团股份有限公司 | 语音播放方法和*** |
EP3151239A1 (en) * | 2015-09-29 | 2017-04-05 | Yandex Europe AG | Method and system for text-to-speech synthesis |
CN110415678A (zh) * | 2019-06-13 | 2019-11-05 | 百度时代网络技术(北京)有限公司 | 自定义语音播报客户端、服务器、***及方法 |
CN110415697A (zh) * | 2019-08-29 | 2019-11-05 | 的卢技术有限公司 | 一种基于深度学习的车载语音控制方法及其*** |
CN111009233A (zh) * | 2019-11-20 | 2020-04-14 | 泰康保险集团股份有限公司 | 语音处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107210040B (zh) | 语音功能的操作方法和支持该方法的电子设备 | |
Gerhard | Audio signal classification: History and current techniques | |
JPWO2003015076A1 (ja) | 鳴声の音声的特徴分析に基づく犬の感情判別装置及びその方法 | |
CN102693725A (zh) | 依赖于文本信息语境的语音识别 | |
US9311930B2 (en) | Audio based system and method for in-vehicle context classification | |
DE102012217160A1 (de) | Korrigieren unverständlicher synthetischer Sprache | |
US20220084543A1 (en) | Cognitive Assistant for Real-Time Emotion Detection from Human Speech | |
US20220238118A1 (en) | Apparatus for processing an audio signal for the generation of a multimedia file with speech transcription | |
DE112018007847B4 (de) | Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm | |
Ting Yuan et al. | Frog sound identification system for frog species recognition | |
EP1280137B1 (en) | Method for speaker identification | |
CN110827853A (zh) | 语音特征信息提取方法、终端及可读存储介质 | |
CN110930643A (zh) | 一种防止婴幼儿遗落车内的智能安全***及方法 | |
CN111009261B (zh) | 到站提醒方法、装置、终端及存储介质 | |
CN107767862B (zh) | 语音数据处理方法、***及存储介质 | |
CN110737422B (zh) | 一种声音信号采集方法及装置 | |
CN109271480B (zh) | 一种语音搜题方法及电子设备 | |
CN111681638A (zh) | 车载智能语音控制方法及*** | |
US20070192097A1 (en) | Method and apparatus for detecting affects in speech | |
CN111862946A (zh) | 一种订单处理方法、装置、电子设备及存储介质 | |
Schuller | Speaker, noise, and acoustic space adaptation for emotion recognition in the automotive environment | |
Suhaimy et al. | Classification of ambulance siren sound with MFCC-SVM | |
CN113658599A (zh) | 基于语音识别的会议记录生成方法、装置、设备及介质 | |
CN111717754A (zh) | 基于安全警报语的轿厢式电梯的控制方法 | |
Bansod et al. | Speaker Recognition using Marathi (Varhadi) Language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200918 |