CN112133279B - 车载信息播报方法、装置及终端设备 - Google Patents

车载信息播报方法、装置及终端设备 Download PDF

Info

Publication number
CN112133279B
CN112133279B CN201910492587.5A CN201910492587A CN112133279B CN 112133279 B CN112133279 B CN 112133279B CN 201910492587 A CN201910492587 A CN 201910492587A CN 112133279 B CN112133279 B CN 112133279B
Authority
CN
China
Prior art keywords
information
text
abstract
voice
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910492587.5A
Other languages
English (en)
Other versions
CN112133279A (zh
Inventor
徐成国
霰心培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TCL Technology Group Co Ltd
Original Assignee
TCL Technology Group Co Ltd
Filing date
Publication date
Application filed by TCL Technology Group Co Ltd filed Critical TCL Technology Group Co Ltd
Priority to CN201910492587.5A priority Critical patent/CN112133279B/zh
Publication of CN112133279A publication Critical patent/CN112133279A/zh
Application granted granted Critical
Publication of CN112133279B publication Critical patent/CN112133279B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明适用于车载***技术领域,提供了车载信息播报方法、装置及终端设备,包括:获取目标信息,其中所述目标信息为目标终端设备接收到的信息;根据所述目标信息及文本处理神经网络,得到所述目标信息对应的文本摘要信息,其中所述文本处理神经网络为基于注意力机制的双向循环神经网络;根据所述文本摘要信息,得到对应的信息摘要语音;播报所述信息摘要语音,或者向播报设备发送所述信息摘要语音。本发明实施例能够在及时传达信息的同时提高驾驶安全。

Description

车载信息播报方法、装置及终端设备
技术领域
本发明属于车载***技术领域,尤其涉及一种车载信息播报方法、装置及终端设备。
背景技术
随着经济与技术的发展,汽车在人们日常生活中越来越普及。在当今的信息时代,驾驶员即使在驾驶时也需要及时获悉手机等终端设备接收到的信息,因此在汽车驾驶时存在着如何在保证驾驶安全的前提下让驾驶员及时地获取终端设备信息的问题。
现有技术中,通常是在汽车中加一个能将终端设备接收的文本信息完全转换为语音播放给驾驶员的装置,以解决该问题。然而,现有技术中语音播放内容常常过长,从而极大地分散驾驶员的注意力,存在驾驶安全威胁。
发明内容
有鉴于此,本发明实施例提供了车载信息播报方法、装置及终端设备,以解决现有技术中如何在及时传达信息的同时提高驾驶安全的问题。
本发明实施例的第一方面提供了一种车载信息播报方法,包括:
获取目标信息,其中所述目标信息为目标终端设备接收到的信息;
根据所述目标信息及文本处理神经网络,得到所述目标信息对应的文本摘要信息,其中所述文本处理神经网络为基于注意力机制的双向循环神经网络;
根据所述文本摘要信息,得到对应的信息摘要语音;
播报所述信息摘要语音,或者向播报设备发送所述信息摘要语音。
本发明实施例的第二方面提供了一种车载信息播报装置,包括:
目标信息获取单元,用于获取目标信息,其中所述目标信息为目标终端设备接收到的信息;
文本摘要信息获取单元,用于根据所述目标信息及文本处理神经网络,得到所述目标信息对应的文本摘要信息,其中所述文本处理神经网络为基于注意力机制的双向循环神经网络;
语音合成单元,用于根据所述文本摘要信息,得到对应的信息摘要语音;
播报单元,用于播报所述信息摘要语音,或者向播报设备发送所述信息摘要语音。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如所述车载信息播报方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如所述车载信息播报方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例中,在接收到目标终端设备的目标信息后,通过基于注意力机制的双向循环神经网络模型对目标信息进行摘要提取,能够准确地获得目标信息对应的文本摘要信息,并将文本摘要信息转换成信息摘要语音进行播放,由于对原本的目标信息进行准确地摘要提取后再播放,即只播放目标信息中的关键内容,因此能够在缩短语音内容的同时及时高效地传达信息,减少对驾驶员注意力的分散,从而提高驾驶安全。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的第一种车载信息播报方法的实现流程示意图;
图2是本发明实施例提供的语音处理神经网络模型数据处理的流程示意图;
图3是本发明实施例提供的通过文本处理神经网络对文本信息进行摘要提取的流程示意图;
图4是本发明实施例提供的通过语音合成神经网络合成信息摘要语音的流程示意图;
图5是本发明实施例提供的第二种车载信息播报方法的实现流程示意图;
图6是本发明实施例提供的一种车载信息播报装置的示意图;
图7是本发明实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例一:
图1示出了本申请实施例提供的第一种车载信息播报方法的流程示意图,详述如下:
在S101中,获取目标信息,其中所述目标信息为目标终端设备接收到的信息。
目标信息为目标终端设备接收到的信息,包括短信、消息推送、语音信息、新闻推送等信息。目标终端设备为能够通过无线网络接收信息的智能终端设备,例如驾驶者携带的手机终端,目标终端设备还可以为笔记本电脑、平板电脑等终端设备,此处不作限定。若检测到目标终端设备发生信息交互,则获取目标终端设备接收到的目标信息。可选地,在所述获取目标终端设备接收到的目标信息之前,还包括:通过有线或者无线的方式与该目标终端设备建立通信连接通道。
在S102中,根据所述目标信息及文本处理神经网络,得到所述目标信息对应的文本摘要信息,其中所述文本处理神经网络为基于注意力机制的双向循环神经网络。
通过文本处理神经网络对目标信息进行摘要提取处理,从而得到目标信息对应的文本摘要信息。其中,文本处理神经网络为基于注意力机制(Attention Mechanism)的双向循环神经网络(Bidirectional Recurrent Neural Network,BRNN)。这里的双向循环神经网络具体为双向循环长短期记忆网络(Bidirectional Long Short-Term Memory,BiLSTM),通过BiLSTM对目标信息进行摘要提取,能够同时分析目标信息的上下文两个方向的信息关联,从而提高摘要提取的准确度。同时,在BiLSTM网络中增加注意力机制,使得在处理数据时对目标信息序列中每一数据具有不同的权重,从而能够在进行摘要提取时侧重权重较高的数据,进一步提高摘要提取的准确度。
具体地,在获取目标信息后,对目标信息的数据类型进行检测,所述数据类型可以为文本数据类型或者语音数据类型。
具体地,若所述目标信息为文本信息,则将所述文本信息输入文本处理神经网络,得到所述目标信息对应的文本摘要信息。
基于注意力机制双向循环神经网络的文本处理神经网络,具体为一种序列到序列的编码解码神经网络模型,通过对输入文本进行编码解码处理而得到输入文本对应的摘要文本。因此,若目标信息为文本数据类型的文本信息,则直接将目标信息输入文本处理神经网络,进行一系列特征提取及运算过程,输出得到目标信息对应的文本摘要信息。
具体地,若所述目标信息为语音信息,则将所述语音信息输入语音处理模块,得到所述语音信息对应的文本信息;
将所述文本信息输入文本处理神经网络,得到所述目标信息对应的文本摘要信息。
若检测到目标信息为语音数据类型的语音信息,则需要先将该语音信息转换为对应的文本数据类型的文本信息,才能输入文本处理神经网络进行文本摘要信息提取。将该语音信息输入语音处理模块,根据该语音信息的特征信息,将该语音信息转换为对应的文本信息。再将转换得到的与原来语音数据类型的目标信息对应的文本数据类型的文本信息输入文本处理神经网络,得到目标信息对应的文本摘要信息。
可选地,所述将语音信息输入语音处理模块,得到所述语音信息对应的文本信息,包括:
对所述语音信息进行预处理,生成语谱图;
将所述语谱图输入语音处理神经网络模型,得到所述语音信息对应的文本信息,其中所述语音处理神经网络模型包括若干卷积层、池化层及一个softmax分类器层。
对语音信息进行预处理包括对语音进行数据清洗、分帧处理、傅里叶变换等处理。将语音信息进行数据清洗,剔除掉语音信息中的噪音、杂音、音频中的空白段等无用的信息,得到基本只包含有效语音的语音数据;将数据清洗后的一整段语音数据进行分帧、加窗等处理,将语音数据分为一帧一帧的短音频,每一帧短音频的时长可以为10ms~30ms;将分帧处理后的短音频逐帧进行傅里叶变换,分别得到每一帧短音频对应的频谱,再按照短音频的时间顺序,将每一帧短音频对应的频谱拼接堆叠,得到具有一整段语音数据的特征信息的语谱图。由于对语音数据进行数据清洗剔除无效数据,因此能够减少干扰信号的影响并提高后续的语音处理效率;同时,由于语音属于准稳态信号,即具有短时平稳性,因此在进行语音信号处理时,为减少较长的一整段语音数据的非稳态、时变的影响,将语音数据进行分帧处理后再进行傅里叶变换,能够更有效地提取语音数据的频谱特征信息。
将经过预处理后得到的包含语音信息的频谱特征信息的语谱图输入语音处理神经网络模型,得到语音信息对应的文本信息。该语音处理神经网络模型为训练好的包含多层卷积结构的端到端的神经网络模型,包括若干卷积层、若干池化层及一个softmax分类器。语音处理神经网络模型的数据处理过程如图2所示,详述如下:
S1:将语谱图对应的语音波谱X输入语音处理神经网络模型,经过两层卷积层,初步提取语音波谱特征,得到第一语音特征信息。
S2:将该第一语音特征信息经过第一池化层进行平均池化处理,得到优化后的第二语音特征信息。
S3:将第二语音特征信息再经过另一个卷积层进行进一步的特征提取,得到第三语音特征信息。
S4:将第三语音特征信息经过第二池化层进行降维处理,得到最终的特征向量;
S5:将该特征向量通过softmax分类器进行进行概率计算,输出文本序列,得到语谱图最终对应的文本信息。
由于语音信息通常比较长,即对应的语谱图通常比较长,因此通过包含多层卷积结构的语音处理神经网络模型对语音信息对应的语谱图进行处理,能够保证网络可以学习到更多的信息内容,从而尽可能全面地提取长语谱中的特征;同时多次卷积、池化操作可以使得语音处理神经网络模型在训练过程中更加稳定,从而使得该语音处理神经网络模型的性能更优。
可选地,所述将所述文本信息输入文本处理神经网络,得到所述目标信息对应的文本摘要信息,包括:
A1:将所述文本信息输入文本处理神经网络,生成原始文本序列,并将所述原始文本序列通过第一注意力层,生成第一注意力权重,其中所述文本处理神经网络为包括第一注意力层及第二注意力层的基于注意力机制的双向循环神经网络;
A2:根据当前所有已生成的摘要词得到当前摘要序列,并将所述当前摘要序列转换为对应的词向量;
A3:将所述第一注意力权重及所述词向量通过第二注意力层,得到第二注意力权重;
A4:根据所述原始文本序列、所述当前摘要序列及所述第二注意力权重,解码得到下一个摘要词;
A5:重复步骤A2~A4,直到原始文本信息对应的摘要词生成完毕,得到所述目标信息对应的文本摘要信息。
文本处理神经网络为基于注意力机制的双向循环神经网络,具体为一种序列到序列的编码解码神经网络模型,包括编码器及解码器,其中编码器包括第一注意力层及第二注意力层。文本处理神经网络对文本信息的处理过程具体如图3所示,详述如下:
在A1中,将文本信息输入文本处理神经网络的编码器中,通过对文本信息进行编码得到原始文本序列,将该原始文本序列输入第一注意力层并经过第一隐藏层及第一权重输出层,得到第一注意力权重W1。该第一注意力权重W1体现原始文本序列之间每个词相互之间的注意力大小。
在A2中,根据解码器层解码得到的所有已生成的摘要词进行组装得到当前摘要序列,并将当前摘要序列通过词嵌入层、第二隐藏层、激活函数层(优选为双正切函数tanh)等运算,得到当前摘要序列对应的词向量。若当前是第一轮处理,由于当前还没生成任何摘要词,即当前摘要序列为空白,因此该词向量为0矩阵。
在A3中,根据得到的第一注意力权重及当前摘要序列对应的词向量,进行加权运算,并输入第三隐藏层,通过第二权重输出层得到第二注意力权重W2。第二注意力权重W2体现当前摘要序列对原始文本序列的中的每一个词的注意力大小。
在A4中,将原始文本序列、当前摘要序列及A3中得到的第二注意力权重输入解码器中,根据分类概率P,确定生成一个新摘要词。
在A5中,重复执行步骤A2至A4,逐一生成每一个摘要词,若检测到当前原始文本信息对应的摘要词生成完毕,则结束步骤循环,并将所有生成的摘要词进行组装,得到完整的摘要句子,即得到目标信息对应的文本摘要信息。
本发明实施例中,在步骤A1中通过第一注意力层计算第一个权重W1,实现原始文本序列每个词的注意力大小关注,即对原始文本序列的关键词权衡;根据步骤A1生成的原始文本序列的权重W1和当前摘要序列对应的词向量,通过第二注意力层加权运算生成第二个权重W2,该权重W2表示在当前已生成的摘要词的前提下,当前摘要序列对原始文本序列中每个词的注意力大小。因此,通过这两个注意力层,能够使得文本处理神经网络在进行文本摘要提取时准确地提取关键词,使得文本摘要信息的生成更加准确。
在S103中,根据所述文本摘要信息,得到对应的信息摘要语音。
将步骤S102中提取得到的文本数据类型的文本摘要信息进行语音合成,得到对应的信息摘要语音,从而使得原本的目标信息转换为只包含简要关键内容的语音格式的信息。
可选地,所述步骤S103具体包括:
将所述文本摘要信息输入语音合成神经网络,得到对应的信息摘要语音,其中所述语音合成神经网络包括卷积网络编码层、第三注意力层、卷积网络解码层、桥接层及声码层。
语音合成神经网络具体为提前训练好的基于编码—解码的端到端神经网络模型,具体包括卷积网络编码层、第三注意力层、卷积网络解码层、桥接层及声码层Vocoder,其数据处理流程如图4所示。
可选地,所述将所述文本摘要信息输入语音合成神经网络,得到对应的信息摘要语音,包括:
将所述文本摘要信息依次通过所述卷积网络编码层、第三注意力层及卷积网络解码层,得到所述文本摘要信息对应的梅尔对数频谱;
将所述梅尔对数频谱通过所述桥接层,得到线性对数声谱;
将所述线性对数声谱通过所述声码层,合成摘要信息语音。
S10301:将所述文本摘要信息依次通过所述卷积网络编码层、第三注意力层及卷积网络解码层,得到所述文本摘要信息对应的梅尔对数频谱。
首先将文本摘要信息通过卷积网络编码层进行文本编码及特征抓取,并获取卷积网络编码层的隐藏层状态输出;将该隐藏层状态输出通过第三注意力层进行加权运算,获得文本摘要信息中对每一个词的注意力大小得到注意力权重W3;将注意力权重W3及卷积网络编码器层的隐藏层状态输出输入卷积网络解码器层,得到该文本摘要信息对应的梅尔对数频谱log-mel。
S10302:将所述梅尔对数频谱通过所述桥接层,得到线性对数声谱。
将卷积网络解码器层解码得到的log-mel声谱输入桥接层,该桥接层具体为一个卷积处理模块,通过桥接层进行学习,整理输入序列的时序,预测得到线性对数声谱log-linear声谱,从而提升语音合成效果。
S10303:将所述线性对数声谱通过所述声码层,合成摘要信息语音。
将log-linear声谱通过声码层Vocoder,生成声谱波形,合成摘要信息语音对应的音频波形信号。
在S104中,播报所述信息摘要语音,或者向播报设备发送所述信息摘要语音。
将合成的信息摘要语音进行播报,以便驾驶者在无需任何手动操作的情况下及时获悉目标信息中的关键内容。具体地,可以通过车载信息播报装置的播报单元播报该信息摘要语音。或者,通过向其它播报设备发送该信息摘要语音,以指示该播报设备进行信息摘要语音播报。可选地,该播报设备可以为目标终端设备,即把从目标终端设备中获取的目标信息进行上述步骤处理后得到的信息摘要语音返回给该目标终端设备,以指示该目标终端设备播报该信息摘要语音。
本发明实施例中,在接收到目标终端设备的目标信息后,通过基于注意力机制的双向循环神经网络模型对目标信息进行摘要提取,能够准确地获得目标信息对应的文本摘要信息,并将文本摘要信息转换成信息摘要语音进行播放,由于对原本的目标信息进行准确地摘要提取后再播放,即只播放目标信息中的关键内容,因此能够在缩短语音内容的同时及时高效地传达信息,减少对驾驶员注意力的分散,从而提高驾驶安全。
实施例二:
图5示出了本申请实施例提供的第二种车载信息播报方法的流程示意图,详述如下:
在S501中,设置目标终端设备的目标应用。
目标终端设备为能够通过无线网络接收信息的智能终端设备,例如驾驶者携带的手机终端,目标终端设备还可以为笔记本电脑、平板电脑等终端设备等。目标终端设备支持各种应用程序,其中包括能够接收信息的应用程序,例如接收短信的短信应用程序、接收新闻推送的新闻应用程序、接收语音消息的聊天应用程序等。接收设置指令,根据设置指令设置目标终端设备的目标应用。设置指令为驾驶者指定目标应用的指令,通过对目标应用的设置,驾驶者可以指定包含需及时获取的重要信息的目标应用,及时获取该目标应用的信息。
在S502中,若检测到所述目标终端设备的目标应用接收到目标信息,则获取所述目标信息。
若检测到目标终端设备的目标应用接收到目标信息,则获取该目标信息,这里的目标信息为指定的目标应用接收到的短信、消息推送、语音信息或者新闻推送等信息。获取该目标信息,触发执行步骤S503至步骤S505的数据处理过程,及时将该目标信息中的关键内容播报给驾驶者。若检测到当前目标终端设备接收到交互信息,但该信息并非通过目标应用接收到的目标信息,则忽略不获取该信息。
在S503中,根据所述目标信息及文本处理神经网络,得到所述目标信息对应的文本摘要信息,其中所述文本处理神经网络为基于注意力机制的双向循环神经网络。
本实施例中S503与上一实施例中的S102相同,具体请参阅上一实施例中S102的相关描述,此处不赘述。
在S504中,根据所述文本摘要信息,得到对应的信息摘要语音。
本实施例中S504与上一实施例中的S103相同,具体请参阅上一实施例中S103的相关描述,此处不赘述。
在S505中,播报所述信息摘要语音,或者向播报设备发送所述信息摘要语音。
本实施例中S505与上一实施例中的S104相同,具体请参阅上一实施例中S104的相关描述,此处不赘述。
本发明实施例中,通过提前设置目标应用,只获取目标应用接收到的目标信息,即只获取驾驶者关注的目标信息,忽略目标信息以外的信息,因此能够高效地只传达驾驶者关注的信息,减少其他不重要信息对驾驶员注意力的分散,从而进一步提高驾驶安全。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例三:
图6示出了本申请实施例提供的一种车载信息播报装置的结构示意图,为了便于说明,仅示出了与本申请实施例相关的部分:
该车载信息播报装置包括:目标信息获取单元61、文本摘要信息获取单元62、语音合成单元63、播报单元64。其中:
目标信息获取单元61,用于获取目标信息,其中所述目标信息为目标终端设备接收到的信息。
目标信息为目标终端设备接收到的信息,包括短信、消息推送、语音信息、新闻推送等信息。目标终端设备为能够通过无线网络接收信息的智能终端设备,例如驾驶者携带的手机终端,目标终端设备还可以为笔记本电脑、平板电脑等终端设备,此处不作限定。若检测到目标终端设备发生信息交互,则获取目标终端设备接收到的目标信息。可选地,在所述获取目标终端设备接收到的目标信息之前,还包括:通过有线或者无线的方式与该目标终端设备建立通信连接通道。
文本摘要信息获取单元62,用于根据所述目标信息及文本处理神经网络,得到所述目标信息对应的文本摘要信息,其中所述文本处理神经网络为基于注意力机制的双向循环神经网络。
通过文本处理神经网络对目标信息进行摘要提取处理,从而得到目标信息对应的文本摘要信息。其中,文本处理神经网络为基于注意力机制(Attention Mechanism)的双向循环神经网络(Bidirectional Recurrent Neural Network,BRNN)。这里的双向循环神经网络具体为双向循环长短期记忆网络(Bidirectional Long Short-Term Memory,BiLSTM),通过BiLSTM对目标信息进行摘要提取,能够同时分析目标信息的上下文两个方向的信息关联,从而提高摘要提取的准确度。同时,在BiLSTM网络中增加注意力机制,使得在处理数据时序列中每一数据具有不同的权重,从而能够在进行摘要提取时侧重权重较高的数据,进一步提高摘要提取的准确度。
可选地,所述文本摘要信息获取单元62包括:
第一文本摘要信息获取模块,用于若所述目标信息为文本信息,则将所述文本信息输入文本处理神经网络,得到所述目标信息对应的文本摘要信息。
可选地,所述文本摘要信息获取单元62包括语音处理单元及第二文本摘要信息获取模块:
语音处理单元,用于若所述目标信息为语音信息,则将所述语音信息输入语音处理模块,得到所述语音信息对应的文本信息;
第二文本摘要信息获取模块,用于将所述文本信息输入文本处理神经网络,得到所述目标信息对应的文本摘要信息。
可选地,所述语音处理单元包括预处理模块及语音处理神经网络模型:
预处理模块,用于对所述语音信息进行预处理,生成语谱图;
语音处理神经网络模型,用于将所述语谱图输入语音处理神经网络模型,得到所述语音信息对应的文本信息,其中所述语音处理神经网络模型包括若干卷积层、池化层及一个softmax分类器层。
可选地,所述文本摘要信息获取单元62包括基于注意力机制的双向循环神经网络模型,用于:A1:将所述文本信息输入文本处理神经网络,生成原始文本序列,并将所述原始文本序列通过第一注意力层,生成第一注意力权重,其中所述文本处理神经网络为包括第一注意力层及第二注意力层的基于注意力机制的双向循环神经网络模型;A2:根据当前所有已生成的摘要词得到当前摘要序列,并将所述当前摘要序列转换为对应的词向量;A3:将所述第一注意力权重及所述词向量通过第二注意力层,得到第二注意力权重;A4:根据所述原始文本序列、所述当前摘要序列及所述第二注意力权重,解码得到下一个摘要词;A5:重复步骤A2~A4,直到原始文本信息对应的摘要词生成完毕,得到所述目标信息对应的文本摘要信息。
语音合成单元63,用于根据所述文本摘要信息,得到对应的信息摘要语音。
将提取得到的文本数据类型的文本摘要信息进行语音合成,得到对应的信息摘要语音,从而使得原本的目标信息转换为只包含简要关键内容的语音格式的信息。
可选地所述语音合成单元63包括:
语音合成神经网络模块,用于将所述文本摘要信息输入语音合成神经网络,得到对应的信息摘要语音,其中所述语音合成神经网络包括卷积网络编码层、第三注意力层、卷积网络解码层、桥接层及声码层。
可选地,所述语音合成神经网络模块具体用于:将所述文本摘要信息依次通过所述卷积网络编码层、第三注意力层及卷积网络解码层,得到所述文本摘要信息对应的梅尔对数频谱;将所述梅尔对数频谱通过所述桥接层,得到线性对数声谱;将所述线性对数声谱通过所述声码层,合成摘要信息语音。
播报单元64,用于播报所述信息摘要语音,或者向播报设备发送所述信息摘要语音。
将合成的信息摘要语音进行播报,以便驾驶者在无需任何手动操作的情况下及时获悉目标信息中的关键内容。具体地,直接播报该信息摘要语音;或者,通过向其它播报设备发送该信息摘要语音,以指示该播报设备进行信息摘要语音播报。可选地,该播报设备可以为目标终端设备,即把从目标终端设备中获取的目标信息进行处理后得到的信息摘要语音返回给该目标终端设备,以指示该目标终端设备播报该信息摘要语音。
可选地,所述车载信息播报装置还包括:
设置单元,用于设置目标终端设备的目标应用;
对应地,所述目标信息获取单元61,用于若检测到所述目标终端设备的目标应用接收到目标信息,则获取所述目标信息。
本发明实施例中,在接收到目标终端设备的目标信息后,通过基于注意力机制的双向循环神经网络模型对目标信息进行摘要提取,能够准确地获得目标信息对应的文本摘要信息,并将文本摘要信息转换成信息摘要语音进行播放,由于对原本的目标信息进行准确地摘要提取后再播放,即只播放目标信息中的关键内容,因此能够在缩短语音内容的同时及时高效地传达信息,减少对驾驶员注意力的分散,从而提高驾驶安全。
实施例四:
图7是本发明一实施例提供的终端设备的示意图。如图7所示,该实施例的终端设备7包括:处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72,例如车载信息播报程序。所述处理器70执行所述计算机程序72时实现上述各个车载信息播报方法实施例中的步骤,例如图1所示的步骤S101至S104。或者,所述处理器70执行所述计算机程序72时实现上述各装置实施例中各模块/单元的功能,例如图6所示模块61至64的功能。
示例性的,所述计算机程序72可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器71中,并由所述处理器70执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序72在所述终端设备7中的执行过程。例如,所述计算机程序72可以被分割成目标信息获取单元、文本摘要信息获取单元、语音合成单元、播报单元,各单元具体功能如下:
目标信息获取单元,用于获取目标信息,其中所述目标信息为目标终端设备接收到的信息。
文本摘要信息获取单元,用于根据所述目标信息及文本处理神经网络,得到所述目标信息对应的文本摘要信息,其中所述文本处理神经网络为基于注意力机制的双向循环神经网络模型。
语音合成单元,用于根据所述文本摘要信息,得到对应的信息摘要语音。
播报单元,用于播报所述信息摘要语音,或者向播报设备发送所述信息摘要语音。
所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是终端设备7的示例,并不构成对终端设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器70可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71可以是所述终端设备7的内部存储单元,例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备,例如所述终端设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (9)

1.一种车载信息播报方法,其特征在于,包括:
获取目标信息,其中所述目标信息为目标终端设备接收到的信息;
根据所述目标信息及文本处理神经网络,得到所述目标信息对应的文本摘要信息,其中所述文本处理神经网络为基于注意力机制的双向循环神经网络;
根据所述文本摘要信息,得到对应的信息摘要语音;
播报所述信息摘要语音,或者向播报设备发送所述信息摘要语音;
所述根据所述目标信息及文本处理神经网络,得到所述目标信息对应的文本摘要信息,具体包括:
A1:将所述文本信息输入文本处理神经网络,生成原始文本序列,并将所述原始文本序列通过第一注意力层,生成第一注意力权重,其中所述文本处理神经网络为包括第一注意力层及第二注意力层的基于注意力机制的双向循环神经网络;
A2:根据当前所有已生成的摘要词得到当前摘要序列,并将所述当前摘要序列转换为对应的词向量;
A3:将所述第一注意力权重及所述词向量通过第二注意力层,得到第二注意力权重;
A4:根据所述原始文本序列、所述当前摘要序列及所述第二注意力权重,解码得到下一个摘要词;
A5:重复步骤A2~A4,直到原始文本信息对应的摘要词生成完毕,得到所述目标信息对应的文本摘要信息。
2.如权利要求1所述的车载信息播报方法,其特征在于,所述根据所述目标信息及文本处理神经网络,得到所述目标信息对应的文本摘要信息,具体包括:
若所述目标信息为文本信息,则将所述文本信息输入文本处理神经网络,得到所述目标信息对应的文本摘要信息。
3.如权利要求1所述的车载信息播报方法,其特征在于,所述根据所述目标信息及文本处理神经网络,得到所述目标信息对应的文本摘要信息,具体包括:
若所述目标信息为语音信息,则将所述语音信息输入语音处理模块,得到所述语音信息对应的文本信息;
将所述文本信息输入文本处理神经网络,得到所述目标信息对应的文本摘要信息。
4.如权利要求3所述的车载信息播报方法,其特征在于,所述将所述语音信息输入语音处理模块,得到所述语音信息对应的文本信息,包括:
对所述语音信息进行预处理,生成语谱图;
将所述语谱图输入语音处理神经网络模型,得到所述语音信息对应的文本信息,其中所述语音处理神经网络模型包括若干卷积层、池化层及一个softmax分类器层。
5.如权利要求1所述的车载信息播报方法,其特征在于,所述根据所述文本摘要信息,得到对应的信息摘要语音,包括:
将所述文本摘要信息输入语音合成神经网络,得到对应的信息摘要语音,其中所述语音合成神经网络包括卷积网络编码层、第三注意力层、卷积网络解码层、桥接层及声码层。
6.如权利要求5所述的车载信息播报方法,其特征在于,所述将所述文本摘要信息输入语音合成神经网络,得到对应的信息摘要语音,包括:
将所述文本摘要信息依次通过所述卷积网络编码层、第三注意力层及卷积网络解码层,得到所述文本摘要信息对应的梅尔对数频谱;
将所述梅尔对数频谱通过所述桥接层,得到线性对数声谱;
将所述线性对数声谱通过所述声码层,合成摘要信息语音。
7.如权利要求1至6任意一项所述的车载信息播报方法,其特征在于,在所述获取目标信息之前,还包括:
设置目标终端设备的目标应用;
对应地,所述获取目标信息,包括:
若检测到所述目标终端设备的目标应用接收到目标信息,则获取所述目标信息。
8.一种车载信息播报装置,其特征在于,包括:
目标信息获取单元,用于获取目标信息,其中所述目标信息为目标终端设备接收到的信息;
文本摘要信息获取单元,用于根据所述目标信息及文本处理神经网络,得到所述目标信息对应的文本摘要信息,其中所述文本处理神经网络为基于注意力机制的双向循环神经网络;
语音合成单元,用于根据所述文本摘要信息,得到对应的信息摘要语音;
播报单元,用于播报所述信息摘要语音,或者向播报设备发送所述信息摘要语音;
所述文本摘要信息获取单元,具体用于:
A1:将所述文本信息输入文本处理神经网络,生成原始文本序列,并将所述原始文本序列通过第一注意力层,生成第一注意力权重,其中所述文本处理神经网络为包括第一注意力层及第二注意力层的基于注意力机制的双向循环神经网络;
A2:根据当前所有已生成的摘要词得到当前摘要序列,并将所述当前摘要序列转换为对应的词向量;
A3:将所述第一注意力权重及所述词向量通过第二注意力层,得到第二注意力权重;
A4:根据所述原始文本序列、所述当前摘要序列及所述第二注意力权重,解码得到下一个摘要词;
A5:重复步骤A2~A4,直到原始文本信息对应的摘要词生成完毕,得到所述目标信息对应的文本摘要信息。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
CN201910492587.5A 2019-06-06 车载信息播报方法、装置及终端设备 Active CN112133279B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910492587.5A CN112133279B (zh) 2019-06-06 车载信息播报方法、装置及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910492587.5A CN112133279B (zh) 2019-06-06 车载信息播报方法、装置及终端设备

Publications (2)

Publication Number Publication Date
CN112133279A CN112133279A (zh) 2020-12-25
CN112133279B true CN112133279B (zh) 2024-06-21

Family

ID=

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943405A (zh) * 2016-10-13 2018-04-20 广州市动景计算机科技有限公司 语音播报装置、方法、浏览器及用户终端
CN108281139A (zh) * 2016-12-30 2018-07-13 深圳光启合众科技有限公司 语音转写方法和装置、机器人
CN109697974A (zh) * 2017-10-19 2019-04-30 百度(美国)有限责任公司 使用卷积序列学习的神经文本转语音的***和方法
CN109726281A (zh) * 2018-12-12 2019-05-07 Tcl集团股份有限公司 一种文本摘要生成方法、智能终端及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943405A (zh) * 2016-10-13 2018-04-20 广州市动景计算机科技有限公司 语音播报装置、方法、浏览器及用户终端
CN108281139A (zh) * 2016-12-30 2018-07-13 深圳光启合众科技有限公司 语音转写方法和装置、机器人
CN109697974A (zh) * 2017-10-19 2019-04-30 百度(美国)有限责任公司 使用卷积序列学习的神经文本转语音的***和方法
CN109726281A (zh) * 2018-12-12 2019-05-07 Tcl集团股份有限公司 一种文本摘要生成方法、智能终端及存储介质

Similar Documents

Publication Publication Date Title
CN110600059B (zh) 声学事件检测方法、装置、电子设备及存储介质
CN112233698B (zh) 人物情绪识别方法、装置、终端设备及存储介质
CN112634858B (zh) 语音合成方法、装置、计算机设备及存储介质
CN111369968B (zh) 语音合成方法、装置、可读介质及电子设备
US20230298611A1 (en) Speech enhancement
CN115602165B (zh) 基于金融***的数字员工智能***
CN112767927A (zh) 一种提取语音特征的方法、装置、终端及存储介质
CN114338623A (zh) 音频的处理方法、装置、设备、介质及计算机程序产品
CN113539232A (zh) 一种基于慕课语音数据集的语音合成方法
CN113555032A (zh) 多说话人场景识别及网络训练方法、装置
CN115132196A (zh) 语音指令识别的方法、装置、电子设备及存储介质
CN112133279B (zh) 车载信息播报方法、装置及终端设备
CN115116458B (zh) 语音数据转换方法、装置、计算机设备及存储介质
CN112133279A (zh) 车载信息播报方法、装置及终端设备
WO2022204612A1 (en) Harmonics based target speech extraction network
CN114049875A (zh) 一种tts播报方法、装置、设备以及存储介质
CN110674268B (zh) 人机对话方法及相关设备
CN117063229A (zh) 交互语音信号处理方法、相关设备及***
CN114242034A (zh) 一种语音合成方法、装置、终端设备及存储介质
CN113870896A (zh) 基于时频图和卷积神经网络的运动声音判假方法、装置
CN113113048A (zh) 语音情绪识别方法、装置、计算机设备及介质
CN111782860A (zh) 一种音频检测方法及装置、存储介质
CN111899738A (zh) 对话生成方法、装置及存储介质
CN109273003A (zh) 用于行车记录仪的语音控制方法及***
CN117316160B (zh) 无声语音识别方法、装置、电子设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: China

Address after: 516006 TCL science and technology building, No. 17, Huifeng Third Road, Zhongkai high tech Zone, Huizhou City, Guangdong Province

Applicant after: TCL Technology Group Co.,Ltd.

Address before: 516006 Guangdong province Huizhou Zhongkai hi tech Development Zone No. nineteen District

Applicant before: TCL Corp.

Country or region before: China

GR01 Patent grant