CN111681638A - 车载智能语音控制方法及*** - Google Patents

车载智能语音控制方法及*** Download PDF

Info

Publication number
CN111681638A
CN111681638A CN202010310444.0A CN202010310444A CN111681638A CN 111681638 A CN111681638 A CN 111681638A CN 202010310444 A CN202010310444 A CN 202010310444A CN 111681638 A CN111681638 A CN 111681638A
Authority
CN
China
Prior art keywords
target object
audio
vehicle
voice control
mounted intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010310444.0A
Other languages
English (en)
Inventor
胡章明
徐兵兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Aoni Electronic Co ltd
Original Assignee
Shenzhen Aoni Electronic Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Aoni Electronic Co ltd filed Critical Shenzhen Aoni Electronic Co ltd
Priority to CN202010310444.0A priority Critical patent/CN111681638A/zh
Publication of CN111681638A publication Critical patent/CN111681638A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种车载智能语音控制方法及***。所述车载智能语音控制方法,其包括以下步骤;获取目标对象音频数据;依据所述目标对象音频数据与预设文本数据库采用文本转语音技术生成目标对象音频库;及依据播放指令播放所述目标对象音频库的音频。

Description

车载智能语音控制方法及***
技术领域
本发明涉及一种车载智能语音控制方法及***。
背景技术
现有汽车车载语音***一般具有广播播放与音乐播放功能,这些功能可在一定程度上帮助驾驶员与乘客在塞车时缓解愤怒情绪,但现有车载语音***的智能性与体验性有限,难于满足人们日益增加的用户体验需求。
发明内容
本发明提供一种车载智能语音控制方法及***。
根据本发明的一种实施例,一种车载智能语音控制方法,其包括以下步骤;
获取步骤,获取目标对象音频数据;
生成步骤,依据所述目标对象音频数据与预设文本数据库采用文本转语音技术生成目标对象音频库;及
播放步骤,依据播放指令播放所述目标对象音频库的音频。
根据本发明的一种实施例,所述获取步骤包括:提供预设语音范本;及获取目标对象使用所述预设语音范本录制的所述目标对象音频数据。
根据本发明的一种实施例,所述获取步骤包括:获取目标对象的多个音频范本;将所述多个音频范本提供至音频学习网络进行训练学习以获得目标对象的样本模型与评估数据,依据所述目标对象的样本模型与评估数据识别并获取所述目标对象的音频数据。
根据本发明的一种实施例,所述生成步骤中,所述预设文本数据库包括多类文本数据,所述目标对象音频库也包括多类音频数据。
根据本发明的一种实施例,所述车载智能语音控制方法运行于行车记录仪上。
根据本发明的一种实施例,一种车载智能语音控制***,其包括:
获取单元,用于获取目标对象音频数据;
生成单元,用于依据所述目标对象音频数据与预设文本数据库采用文本转语音技术生成目标对象音频库;及
播放单元,用于依据播放指令播放所述目标对象音频库的音频。
根据本发明的一种实施例,述获取单元用于提供预设语音范本及获取目标对象使用所述预设语音范本录制的所述目标对象音频数据。
根据本发明的一种实施例,所述获取单元用于获取目标对象的多个音频范本;将所述多个音频范本提供至音频学习网络进行训练学习以获得目标对象的样本模型与评估数据;以及依据所述目标对象的样本模型与评估数据识别并获取所述目标对象的音频数据。
根据本发明的一种实施例,所述预设文本数据库包括多类文本数据,所述目标对象音频库也包括多类音频数据。
根据本发明的一种实施例,所述车载智能语音控制***安装于行车记录仪上。
相较于现有车载语音***,本发明车载智能语音控制方法及***中,可以获取目标对象音频数据、依据所述目标对象音频数据与预设文本数据库采用文本转语音技术生成目标对象音频库;及依据播放指令播放所述目标对象音频库的音频,即驾驶员或乘客可以播放自定义的通过文本转语音技术生成的目标对象音频库,提高用户体验性。
根据本发明的一种实施例,通过提供预设语音范本从而获取目标对象使用所述预设语音范本录制的所述目标对象音频数据,使得可以获得所述目标对象的标准及完整的基础语音,从而有助实现利用预设文本数据库对所述目标对象音频数据的较为标准及完整的转换,进而可形成较为完整且效果较好的目标对象音频库。
根据本发明的一种实施例,通过音频范本的训练学习形成样本模型与评估数据,可有助于后续自动识别获取所述目标对象的音频数据。
根据本发明的一种实施例,所述预设文本数据库包括多类文本数据,所述目标对象音频库也包括多类音频数据,使得形成的可播放的目标对象音频类别较多,增加用户体验性。
根据本发明的一种实施例,所述车载智能语音控制方法及***可以运行于行车记录仪上,由于行车记录仪可以外置安装在汽车上,因此可以不改变汽车的基础架构,实用性较高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明一种实施例的车载智能语音控制方法的流程图。
图2是本发明一种实施例的车载智能语音控制***的电路方框示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,图1是本发明一种实施例的车载智能语音控制方法的流程图。所述车载智能语音控制方法可以运行在汽车的中控***中,也可以运行在行车记录仪或车载导航装置中。所述车载智能语音控制方法可以包括以下步骤S11、S12、S13。
获取步骤S11,获取目标对象音频数据。
生成步骤S12,依据所述目标对象音频数据与预设文本数据库采用文本转语音技术生成目标对象音频库。
播放步骤S13,依据播放指令播放所述目标对象音频库的音频。
所述步骤S11中,所述目标对象可以是用户自定的,如驾驶员自己、家人、朋友等。根据本发明的一种实施例,所述获取步骤S11可以包括:提供预设语音范本;及获取目标对象使用所述预设语音范本录制的所述目标对象音频数据。所述预设语音范本可以是特定的一段文字及语音,或者特定的多个文字及其发音,目标对象可以依据指示朗读该段文字及语音、或者多个文字及其发音,从而通过麦克风等收音器件可以收集目标对象音频,经放大、滤波及数字化处理后,可以得到所述目标对象音频数据。
根据本发明的一种实施例,所述获取步骤S11也可以包括:获取目标对象的多个音频范本;将所述多个音频范本提供至音频学习网络进行训练学习以获得目标对象的样本模型与评估数据,依据所述目标对象的样本模型与评估数据识别并获取所述目标对象的音频数据。所述多个音频范本也可以是所述目标对象片段录制的文字或语音,通过麦克风等收音器件可以收集目标对象音频,经放大、滤波及数字化处理后再提供至所述音频学习网络进行训练学习获得所述目标对象的样本模型与评估数据,进而后续可实现目标对象音频数据的自动识别获取。其中,所述音频学习网络可以为循环神经网络。
根据本发明的一种实施例,所述生成步骤中,所述预设文本数据库包括多类文本数据,所述目标对象音频库也包括多类音频数据。所述多类文本数据可以包括故事、歌曲、笑话、体育、财经等,因此所述目标对象音频库也可以包括故事、歌曲、笑话、体育、财经等多类音频数据。
请参阅图2,图2是本发明一种实施例的车载智能语音控制***20的电路方框示意图。所述车载智能语音控制***20可以为一应用软件,运行于行车记录仪、车载中控***或导航装置上等,其可以包括获取单元21、生成单元22及播放单元23。所述获取单元21用于获取目标对象音频数据。所述生成单元22用于依据所述目标对象音频数据与预设文本数据库采用文本转语音技术生成目标对象音频库。所述播放单元23用于依据播放指令播放所述目标对象音频库的音频。可以理解,所述获取单元21、生成单元22及播放单元23可以为部分软件程序指令,由处理器执行,以实现各自的功能。
所述目标对象可以是用户自定的,如驾驶员自己、家人、朋友等。根据本发明的一种实施例,所述获取单元21可以执行以下步骤:提供预设语音范本;及获取目标对象使用所述预设语音范本录制的所述目标对象音频数据。所述预设语音范本可以是特定的一段文字及语音,或者特定的多个文字及其发音,目标对象可以依据指示朗读该段文字及语音、或者多个文字及其发音,从而通过麦克风等收音器件可以收集目标对象音频,经放大、滤波及数字化处理后,可以得到所述目标对象音频数据。
根据本发明的一种实施例,所述获取单元21可以执行以下步骤:获取目标对象的多个音频范本;将所述多个音频范本提供至音频学习网络进行训练学习以获得目标对象的样本模型与评估数据,依据所述目标对象的样本模型与评估数据识别并获取所述目标对象的音频数据。所述多个音频范本也可以是所述目标对象片段录制的文字或语音,通过麦克风等收音器件可以收集目标对象音频,经放大、滤波及数字化处理后再提供至所述音频学习网络进行训练学习获得所述目标对象的样本模型与评估数据,进而后续可实现目标对象音频数据的自动识别获取。其中,所述音频学习网络可以为循环神经网络。
根据本发明的一种实施例,所述预设文本数据库包括多类文本数据,所述目标对象音频库也包括多类音频数据。所述多类文本数据可以包括故事、歌曲、笑话、体育、财经等,因此所述目标对象音频库也可以包括故事、歌曲、笑话、体育、财经等多类音频数据。
相较于现有车载语音***,本发明车载智能语音控制方法及***30中,可以获取目标对象音频数据、依据所述目标对象音频数据与预设文本数据库采用文本转语音技术生成目标对象音频库;及依据播放指令播放所述目标对象音频库的音频,即驾驶员或乘客可以播放自定义的通过文本转语音技术生成的目标对象音频库,提高用户体验性。
根据本发明的一种实施例,通过提供预设语音范本从而获取目标对象使用所述预设语音范本录制的所述目标对象音频数据,使得可以获得所述目标对象的标准及完整的基础语音,从而有助实现利用预设文本数据库对所述目标对象音频数据的较为标准及完整的转换,进而可形成较为完整且效果较好的目标对象音频库。
根据本发明的一种实施例,通过音频范本的训练学习形成样本模型与评估数据,可有助于后续自动识别获取所述目标对象的音频数据。所述预设文本数据库包括多类文本数据,所述目标对象音频库也包括多类音频数据,使得形成的可播放的目标对象音频类别较多,增加用户体验性。所述车载智能语音控制方法及***可以运行于行车记录仪上,由于行车记录仪可以外置安装在汽车上,因此可以不改变汽车的基础架构,实用性较高。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种车载智能语音控制方法,其包括以下步骤;
获取步骤,获取目标对象音频数据;
生成步骤,依据所述目标对象音频数据与预设文本数据库采用文本转语音技术生成目标对象音频库;及
播放步骤,依据播放指令播放所述目标对象音频库的音频。
2.如权利要求1所述的车载智能语音控制方法,其特征在于:所述获取步骤包括:提供预设语音范本;及获取目标对象使用所述预设语音范本录制的所述目标对象音频数据。
3.如权利要求1所述的车载智能语音控制方法,其特征在于:所述获取步骤包括:获取目标对象的多个音频范本;将所述多个音频范本提供至音频学习网络进行训练学习以获得目标对象的样本模型与评估数据,依据所述目标对象的样本模型与评估数据识别并获取所述目标对象的音频数据。
4.如权利要求1所述的车载智能语音控制方法,其特征在于:所述生成步骤中,所述预设文本数据库包括多类文本数据,所述目标对象音频库也包括多类音频数据。
5.如权利要求1所述的车载智能语音控制方法,其特征在于:所述车载智能语音控制方法运行于行车记录仪上。
6.一种车载智能语音控制***,其特征在于:所述车载智能语音控制***包括:
获取单元,用于获取目标对象音频数据;
生成单元,用于依据所述目标对象音频数据与预设文本数据库采用文本转语音技术生成目标对象音频库;及
播放单元,用于依据播放指令播放所述目标对象音频库的音频。
7.如权利要求6所述的车载智能语音控制***,其特征在于:所述获取单元用于提供预设语音范本及获取目标对象使用所述预设语音范本录制的所述目标对象音频数据。
8.权利要求6所述的车载智能语音控制***,其特征在于:所述获取单元用于获取目标对象的多个音频范本;将所述多个音频范本提供至音频学习网络进行训练学习以获得目标对象的样本模型与评估数据;以及依据所述目标对象的样本模型与评估数据识别并获取所述目标对象的音频数据。
9.如权利要求6所述的车载智能语音控制***,其特征在于:所述预设文本数据库包括多类文本数据,所述目标对象音频库也包括多类音频数据。
10.如权利要求6所述的车载智能语音控制***,其特征在于:所述车载智能语音控制***安装于行车记录仪上。
CN202010310444.0A 2020-04-20 2020-04-20 车载智能语音控制方法及*** Pending CN111681638A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010310444.0A CN111681638A (zh) 2020-04-20 2020-04-20 车载智能语音控制方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010310444.0A CN111681638A (zh) 2020-04-20 2020-04-20 车载智能语音控制方法及***

Publications (1)

Publication Number Publication Date
CN111681638A true CN111681638A (zh) 2020-09-18

Family

ID=72433354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010310444.0A Pending CN111681638A (zh) 2020-04-20 2020-04-20 车载智能语音控制方法及***

Country Status (1)

Country Link
CN (1) CN111681638A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102568472A (zh) * 2010-12-15 2012-07-11 盛乐信息技术(上海)有限公司 说话人可选的语音合成***及其实现方法
KR20140028336A (ko) * 2012-08-28 2014-03-10 삼성전자주식회사 음성 변환 장치 및 이의 음성 변환 방법
CN104464716A (zh) * 2014-11-20 2015-03-25 北京云知声信息技术有限公司 一种语音播报***和方法
CN106205602A (zh) * 2015-05-06 2016-12-07 上海汽车集团股份有限公司 语音播放方法和***
EP3151239A1 (en) * 2015-09-29 2017-04-05 Yandex Europe AG Method and system for text-to-speech synthesis
CN110415678A (zh) * 2019-06-13 2019-11-05 百度时代网络技术(北京)有限公司 自定义语音播报客户端、服务器、***及方法
CN110415697A (zh) * 2019-08-29 2019-11-05 的卢技术有限公司 一种基于深度学习的车载语音控制方法及其***
CN111009233A (zh) * 2019-11-20 2020-04-14 泰康保险集团股份有限公司 语音处理方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102568472A (zh) * 2010-12-15 2012-07-11 盛乐信息技术(上海)有限公司 说话人可选的语音合成***及其实现方法
KR20140028336A (ko) * 2012-08-28 2014-03-10 삼성전자주식회사 음성 변환 장치 및 이의 음성 변환 방법
CN104464716A (zh) * 2014-11-20 2015-03-25 北京云知声信息技术有限公司 一种语音播报***和方法
CN106205602A (zh) * 2015-05-06 2016-12-07 上海汽车集团股份有限公司 语音播放方法和***
EP3151239A1 (en) * 2015-09-29 2017-04-05 Yandex Europe AG Method and system for text-to-speech synthesis
CN110415678A (zh) * 2019-06-13 2019-11-05 百度时代网络技术(北京)有限公司 自定义语音播报客户端、服务器、***及方法
CN110415697A (zh) * 2019-08-29 2019-11-05 的卢技术有限公司 一种基于深度学习的车载语音控制方法及其***
CN111009233A (zh) * 2019-11-20 2020-04-14 泰康保险集团股份有限公司 语音处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN107210040B (zh) 语音功能的操作方法和支持该方法的电子设备
Gerhard Audio signal classification: History and current techniques
JPWO2003015076A1 (ja) 鳴声の音声的特徴分析に基づく犬の感情判別装置及びその方法
CN102693725A (zh) 依赖于文本信息语境的语音识别
US9311930B2 (en) Audio based system and method for in-vehicle context classification
DE102012217160A1 (de) Korrigieren unverständlicher synthetischer Sprache
US20220084543A1 (en) Cognitive Assistant for Real-Time Emotion Detection from Human Speech
US20220238118A1 (en) Apparatus for processing an audio signal for the generation of a multimedia file with speech transcription
DE112018007847B4 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm
Ting Yuan et al. Frog sound identification system for frog species recognition
EP1280137B1 (en) Method for speaker identification
CN110827853A (zh) 语音特征信息提取方法、终端及可读存储介质
CN110930643A (zh) 一种防止婴幼儿遗落车内的智能安全***及方法
CN111009261B (zh) 到站提醒方法、装置、终端及存储介质
CN107767862B (zh) 语音数据处理方法、***及存储介质
CN110737422B (zh) 一种声音信号采集方法及装置
CN109271480B (zh) 一种语音搜题方法及电子设备
CN111681638A (zh) 车载智能语音控制方法及***
US20070192097A1 (en) Method and apparatus for detecting affects in speech
CN111862946A (zh) 一种订单处理方法、装置、电子设备及存储介质
Schuller Speaker, noise, and acoustic space adaptation for emotion recognition in the automotive environment
Suhaimy et al. Classification of ambulance siren sound with MFCC-SVM
CN113658599A (zh) 基于语音识别的会议记录生成方法、装置、设备及介质
CN111717754A (zh) 基于安全警报语的轿厢式电梯的控制方法
Bansod et al. Speaker Recognition using Marathi (Varhadi) Language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200918