CN103366732A

CN103366732A - 语音播报方法及装置、车载***

Info

Publication number: CN103366732A
Application number: CN2012101000372A
Authority: CN
Inventors: 刘根华
Original assignee: Shanghai Pateo Electronic Equipment Manufacturing Co Ltd
Current assignee: Shanghai Pateo Electronic Equipment Manufacturing Co Ltd
Priority date: 2012-04-06
Filing date: 2012-04-06
Publication date: 2013-10-23

Abstract

一种语音播报方法及装置、车载***，其中所述语音播报方法包括：确定待播报信息；检查所述待播报信息中包含的预存的录音元素；确认所述待播报信息包含所述录音元素，则结合所述录音元素和语音合成播报所述待播报信息。本技术方案在已有的语音合成播报的基础上，结合预存的人工录音作为录音元素，从而使得语音播报更流畅，效果更佳，以此改善了用户体验。

Description

语音播报方法及装置、车载***

技术领域

本发明涉及语音技术领域，特别涉及语音播报方法及装置、车载***。

背景技术

随着语音技术的发展，其对计算机发展以及社会生活的重要性也日益突出。语音合成技术是语音技术中十分实用的一项重要技术，通过语音合成和语音识别能够实现人机语音通信，使得计算机具有类似于人一样的说话能力。和语音识别相比，语音合成技术相对更成熟些，并且已逐步应用于各类信息产业中。

从文本到语音(Text To Speech，TTS)技术，又称文语转换技术是一种能够将任意文字信息实时转化为标准的语音朗读出来的语音技术，TTS技术涉及声学、语言学、数字信号处理、计算机科学等多个学科技术。现有技术中，从文本到语音的转换过程通常是第一步：先将文字序列转换成音韵序列，第二步：再由TTS***根据音韵序列生成语音波形。其中，第一步涉及语言学处理，例如分词、字音转换等，以及一整套有效的韵律控制规则；第二步需要先进的语音合成技术，能按要求实时合成出高质量的语音流。也就是说，TTS***可以看作是一个人工智能***，为了合成出高质量的语言，除了依赖于各种规则，包括语义学规则、词汇规则、语音学规则外，还必须对文字的内容有很好的理解，这也涉及到自然语言理解的问题。更多关于TTS技术的相关内容可以参考公开号为CN 101785048A，发明名称为“基于HM的双语(普通话-英语)TTS技术”。

但是在实际应用中，通过TTS***播放的语音难免有些生硬、不流畅，当人们收听TTS***播放出来的语音或者与TTS***进行人机对话时，还是感觉是在与机器对话，用户体验不佳。

发明内容

本发明解决的问题是在现有TTS技术的基础上，提供一种更为流畅的语音播报方法，改善用户体验。

为解决上述问题，本发明实施例提供了一种语音播报方法，包括：

确定待播报信息；检查所述待播报信息中包含的预存的录音元素；确认所述待播报信息包含所述录音元素，则结合所述录音元素和语音合成播报所述待播报信息。

可选地，所述确定待播报信息包括：根据输入的语音指令或文本信息确定所述待播报信息。

可选地，所述检查所述待播报信息中包含的预存的录音元素包括：将所述待播报信息拆分成多个语音元素；根据所述语音元素与所述录音元素是否匹配以检查所述待播报信息中包含的预存的录音元素。

可选地，所述结合所述录音元素和语音合成播报所述待播报信息包括：播报与所述待播报信息中的语音元素匹配的录音元素，利用语音合成播报所述待播报信息中的其他语音元素。

可选地，所述录音元素包括单字、单词、短语、单句或者段落中的任一种。

可选地，所述语音元素包括单字、单词、短语、单句或者段落中的任一种。

可选地，所述结合所述录音元素和语音合成播报所述待播报信息包括：播报所述待播报信息包含的所述录音元素，利用语音合成播报所述待播报信息的其他部分。

可选地，所述语音合成包括文语转换。

本发明实施例还提供了一种语音播报装置，包括：确定单元，用于确定待播报信息；检查单元，用于检查所述确定单元确定的所述待播报信息中包含的预存的录音元素；播报单元，用于在所述检查单元确认所述待播报信息包含所述预存的录音元素，则结合所述录音元素和语音合成播报所述待播报信息。

本发明实施例还提供了一种车载***，包括上述语音播报装置。

与现有技术相比，本发明技术方案具有以下有益效果：

在确定待播报信息后，如果所述待播报信息中包含已存储的录音元素，则结合所述录音元素和语音合成播报所述待播报信息，也就是播报所述待播报信息包含的所述录音元素，利用语音合成播报所述待播报信息的其他部分。本技术方案在已有的语音合成播报的基础上，结合预存的人工录音作为录音元素，从而使得语音播报更流畅，效果更佳，以此改善了用户体验。

进一步地，由于对所述待播报信息中包含录音元素的部分是直接播报预存的录音元素，而不需要再通过语音合成进行播报，因此使得语音播报装置的处理速度更快，尤其当待播报信息中包含较多的录音元素时，响应时间更短，从而进一步改善了用户体验。

附图说明

图1是本发明的一种语音播报方法的具体实施方式的流程示意图；

图2是本发明的一种语音播报装置的具体实施例的结构示意图。

具体实施方式

针对上现有技术的问题，发明人经过研究，提供了一种语音播报方法及装置、车载***。本技术方案在已有的语音合成播报的基础上，结合预存的人工录音作为录音元素，从而使得语音播报更流畅，效果更佳，以此改善了用户体验。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在以下描述中阐述了具体细节以便于充分理解本发明。但是本发明能够以多种不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广。因此本发明不受下面公开的具体实施方式的限制。

如图1所示的是本发明的一种语音播报方法的具体实施方式的流程示意图。参考图1，所述语音播报方法包括：

步骤S1：确定待播报信息；

步骤S2：检查所述待播报信息中包含的预存的录音元素；

步骤S3：确认所述待播报信息包含所述录音元素，则结合所述录音元素和语音合成播报所述待播报信息。

具体地，如步骤S1所述，所述待播报信息可以通过多种方式来确定，在本实施例中，主要由以下两种方式来确定：一种是根据文本信息确定所述待播报信息。也就是说，所述待播报信息就是已有的文本信息，所述文本信息将通过语音形式进行播报，这种待播报信息可以称之为静态信息。另一种是根据输入的语音指令来确定所述待播报信息。与前一种不同的是，这种待播报信息首先需要根据输入的语音信息做出合适的应答，然后以所述应答的内容作为所述待播报信息，这种待播报信息可以称之为动态信息，即根据不同的输入语音做出不同的应答，或者针对同一输入语音做出不同的应答。上述过程是利用了语音识别技术和语音合成技术，即让计算机通过对输入语音信息的识别和理解过程把语音信号转变为相应的文本信息，并将文本信息通过语音合成进行播报。其中，所述语音识别技术和语音合成技术是本领域技术人员公知技术，在此不作赘述。

如步骤S2所述，检查所述待播报信息中包含的预存的录音元素。现有技术中，在确定所述待播报信息后就直接以语音合成的方式将所述待播报信息进行播报，也就是TTS技术。但是，在实际应用中，发明人发现，现有直接通过TTS技术的播报效果并不是很理想，用户的听觉体验不好。因此，在本发明实施例中，技术人员将预先通过人工录音录制一些常用的单字、单词、短语、单句或者段落，这里将上述单字、单词、短语、单句或者段落称之为录音元素，这些录音元素预先存储在一个录音数据库中。然后，在确定了所述待播报信息后，将判断所确定的待播报信息中是否包括预存的录音元素。

步骤S2在具体实施时，首先，将所述待播报信息拆分成多个语音元素，其中所述语音元素也包括单字、单词、短语、单句或者段落中任一种。在具体实施例中，在对所述待播报信息进行拆分时，首先需要考虑预存的录音元素的特征。例如，若预存的录音元素主要是以单词或者短语为主，则将所述待播报信息也拆分成多个单词或短语；又例如，若预存的录音元素主要是以单句为主，则将所述待播报信息也拆分成多个单句。这样可以便于后续将拆分成的语音元素与所述预存的录音元素作比对。

如果预存的录音元素中包括各种单字、单词短语、单句以及段落时，则主要依照所述待播报信息的特点进行拆分。例如，可以设定一种拆分方法对所述待播报信息进行拆分，即对于所有的待播报信息都以其中一种语音元素为基准对待播报信息进行拆分，例如将所述待播报信息拆分成多个单词。又例如，也可以针对不同的待播报信息设定不同的拆分方法，例如对于字数较多的待播报信息，可以拆分成多个短语或者多个单句甚至是多个段落；而对于字数较少的待播报信息，可以拆分成多个单词甚至是多个单字。

进一步地，也可以针对不同语言的特点来确定如何对所述待播报信息进行拆分。以汉语和英语为例，在汉语里，通常将一句话拆分成多个词语、短语较佳，不适于将一句话拆分成多个单字，所以对于中文的待播报信息，优选地可以拆分成词语、短语或者单句；而在英语里，通常将一句话拆分成多个单词(相当于汉语里的单字)或者由若干单词构成的短语较佳，所以对于英文的待播报信息，优选地可以拆分成单词(相当于汉语里的单字)或者短语等。针对其他不同语言的特点，可以相应地选择较理想的拆分方式将所述待播报信息拆分成不同的语音元素。

在实际应用中，并不限于上述这些拆分方法，具体可以根据实际需要来确定不同的拆分方法，在此不作赘述。

然后，根据所述语音元素与所述录音元素是否匹配以检查所述待播报信息中包含的预存的录音元素。在本实施例中，所述语音元素和所述录音元素是否匹配的标准是待匹配的语音元素需要与录音元素完全一致。具体来说，可以将预存的录音元素存储于录音数据库中，并根据不同的录音元素的种类进行分类存储，即将同一类的录音元素存储于一张数据表中，在进行匹配过程中，可以根据语音元素的种类在相对应的数据表中搜索是否预存有相匹配的录音元素，这样有利于提高匹配的效率。当然，在实际应用中，本领域技术人员还可以利用其他方式进行匹配，在此不再赘述。

如步骤S3所述，确认所述待播报信息包含所述录音元素，则结合所述录音元素和语音合成播报所述待播报信息。基于上述步骤S2的匹配结果，若所述待播报信息包含所述录音元素，则播报所述待播报信息中包含的所述录音元素，利用语音合成播报所述待播报信息的其他部分，其中所述其他部分是指所述待播报信息中不包含所述录音元素的部分。

在具体实施例中，依照上述步骤S2的方法，将所述待播报信息拆分成了多个语音元素，因此，如果所述待播报信息中的若干语音元素与预存的录音元素相匹配，则播报与所述待播报信息中的语音元素匹配的录音元素，利用语音合成播报所述待播报信息中的其他语音元素。其中所述其他语音元素是指没有相匹配的录音元素的语音元素。

进一步地，还可以将本次通过语音合成播报的语音元素作为新的录音元素添加到录音数据库中，这样如果以后确定的待播报信息中又包含该语音元素时，就可以在所述录音数据库中找到与之相匹配的录音元素，从而直接播报所述录音元素。这样随着所述录音数据库中的录音元素越来越多，在将待播报信息拆分成多个语音元素后，更有利于找到与之相匹配的录音元素，从而使得语音播报更流畅，用户体验更好。当然，在实际应用中，用户可以根据需要自定义设置是否要将语音元素添加至录音数据库作为新的录音元素，在此不再赘述。

本实施例中，所述语音合成主要是利用文语转换(Text To Speech，TTS)技术，但在实际应用中并不限于此，还可以包括其他现有的语音合成技术，这些都是本领域技术人员公知技术，在此不作赘述。

下面列举一个利用本实施例提供的语音播报方法的应用实例：

例如，用户输入的语音指令为“请打电话给王小华”。

首先，根据该语音指令，确定应答信息(即待播报信息)为“你是否要打电话给王小华”。然后，将确定的待播报信息拆分成多个语音元素，假设这里将待播报信息拆分成单字和短语，即拆分成“你”、“是否”、“要”、“打电话”、“给”、“王小华”。

接着，将拆分后的多个语音元素与录音数据库中预存的录音元素进行匹配，如果在所述录音数据库中预存有的录音元素包括：“你”、“是否”、“要”、“打电话”、“给”，也就是说，在所述待播报信息“你是否要打电话给王小华”中包含的录音元素包括：“你”、“是否”、“要”、“打电话”、“给”，其他语音元素就是“王小华”。那么，在播报所述待播报信息时，可以通过直接播报录音元素“你”“是否”“要”“打电话”“给”，利用语音合成播报“王小华”。

因此，最终用户收听到的待播报信息为“你是否要打电话给王小华”，利用语音合成播报的语音元素中每个字间有停顿，而直接播报录音元素的部分则较流畅。

进一步地，在实际应用中，当利用语音合成播报了“王小华”后，还可以将“王小华”作为新的录音元素存储于录音数据库中，这样以后在待播报信息中再次包含“王小华”这一语音元素时，就可以在录音数据库中找到与之匹配的录音元素，从而直接播报该录音元素。

基于上述语音播报方法，本发明实施例还提供了一种语音播报装置。如图2所示的是本发明的一种语音播报装置的具体实施例的结构示意图。参考图2，所述语音播报装置1包括：确定单元11、检查单元12以及播报单元13。其中，所述确定单元11用于确定待播报信息。所述检查单元12用于检查所述确定单元11确定的所述待播报信息中包含的预存的录音元素。所述播报单元13用于在所述检查单元12确认所述待播报信息包含所述预存的录音元素，则结合所述录音元素和语音合成播报所述待播报信息。

具体地，所述确定单元11可以通过多种方式来确定所述待播报信息，在本实施例中，主要由以下两种方式来确定：一种是根据文本信息确定所述待播报信息，若以这种方式来确定，所述确定单元11可以通过读取设备(未示出)读取所述文本信息，并以所述文本信息作为所述待播报信息。另一种是根据输入的语音指令来确定所述待播报信息，若以这种方式来确定，所述确定单元11可以通过接收设备(未示出)接收外部输入的语音指令，并根据所述语音指令确定相适应的待播报信息。

所述检查单元12包括：拆分单元121和处理单元122。其中，所述拆分单元121用于将所述待播报信息拆分成多个语音元素；所述处理单元122用于根据所述拆分单元121拆分成的所述语音元素与所述录音元素是否匹配以判断所述待播报信息是否包含预存的录音元素。在本实施例中，所述语音元素也包括单字、单词、短语、单句或者段落中任一种。所述录音元素也包括单字、单词、短语、单句或者段落中任一种。在实际应用中，所述拆分单元121可以依照不同的方式对所述待播报信息进行拆分，具体可以参考上述方法实施例，在此不作赘述。所述处理单元122将基于所述拆分单元121拆分的语音元素与预存的录音元素进行匹配，从而检查所述待播报信息中包含的预存的录音元素。

所述播报单元13用于播报所述待播报信息包含的所述录音元素，利用语音合成播报所述待播报信息的其他部分，其中所述其他部分是指所述待播报信息中不包含所述录音元素的部分。在具体实施例中，根据所述检查单元12的处理结果，如果所述待播报信息中的若干语音元素与预存的录音元素相匹配，则所述播报单元13播报与所述待播报信息中的语音元素匹配的录音元素，利用语音合成播报所述待播报信息中的其他语音元素，其中所述其他语音元素是指没有相匹配的录音元素的语音元素。本实施例中，所述语音合成包括文语转换(Text To Speech，TTS)技术，但在实际应用中并不限于此，还可以包括其他现有的语音合成技术，在此不作赘述。

本发明实施例还提供了一种车载***，所述车载***包括如图2所示的语音播报装置。所述语音播报装置可以通过车载***的电源为其供电，并通过与所述车载***中其他设备相配合以为用户提供语音播报服务。需要说明的是，本发明实施例提供的语音播报方法和语音播报装置并不限于用在车载***上，本领域技术人员还可以将所述语音播报装置安装在其他设备上，例如订票查询***，点餐***等，利用所述语音播报装置为用户提供相应的服务，在此不再赘述。

综上，本技术方案至少包括以下有益效果：在确定待播报信息后，如果所述待播报信息中包含已存储的录音元素，则结合所述录音元素和语音合成播报所述待播报信息，也就是播报所述待播报信息包含的所述录音元素，利用语音合成播报所述待播报信息的其他部分。本技术方案在已有的语音合成播报的基础上，结合预存的人工录音作为录音元素，从而使得语音播报更流畅，效果更佳，以此改善了用户体验。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

Claims

1.一种语音播报方法，其特征在于，包括：

确定待播报信息；

检查所述待播报信息中包含的预存的录音元素；

确认所述待播报信息包含所述录音元素，则结合所述录音元素和语音合成播报所述待播报信息。

2.根据权利要求1所述的语音播报方法，其特征在于，所述确定待播报信息包括：根据输入的语音指令或文本信息确定所述待播报信息。

3.根据权利要求1所述的语音播报方法，其特征在于，所述检查所述待播报信息中包含的预存的录音元素包括：

将所述待播报信息拆分成多个语音元素；

根据所述语音元素与所述录音元素是否匹配以检查所述待播报信息中包含的预存的录音元素。

4.根据权利要求3所述的语音播报方法，其特征在于，所述结合所述录音元素和语音合成播报所述待播报信息包括：

播报与所述待播报信息中的语音元素匹配的录音元素，利用语音合成播报所述待播报信息中的其他语音元素。

5.根据权利要求1所述的语音播报方法，其特征在于，所述录音元素包括单字、单词、短语、单句或者段落中的任一种。

6.根据权利要求3所述的语音播报方法，其特征在于，所述语音元素包括单字、单词、短语、单句或者段落中的任一种。

7.根据权利要求1所述的语音播报方法，其特征在于，所述结合所述录音元素和语音合成播报所述待播报信息包括：

播报所述待播报信息包含的所述录音元素，利用语音合成播报所述待播报信息的其他部分。

8.根据权利要求1所述的语音播报方法，其特征在于，所述语音合成包括文语转换技术。

9.一种语音播报装置，其特征在于，包括：

确定单元，用于确定待播报信息；

检查单元，用于检查所述确定单元确定的所述待播报信息中包含的预存的录音元素；

播报单元，用于在所述检查单元确认所述待播报信息包含所述预存的录音元素，则结合所述录音元素和语音合成播报所述待播报信息。

10.根据权利要求9所述的语音播报装置，其特征在于，所述确定单元用于根据输入的语音信息指令或本文信息确定所述待播报信息。

11.根据权利要求9所述的语音播报装置，其特征在于，所述检查单元包括：

拆分单元，用于将所述待播报信息拆分成多个语音元素；

处理单元，用于根据所述拆分单元拆分成的所述语音元素与所述录音元素是否匹配以检查所述待播报信息中包含的预存的录音元素。

12.根据权利要求11所述的语音播报装置，其特征在于，所述播报单元用于：播报与所述待播报信息中的语音元素匹配的录音元素，利用语音合成播报所述待播报信息中的其他语音元素。

13.根据权利要求9所述的语音播报装置，其特征在于，所述录音元素包括单字、单词、短语、单句或者段落中的任一种。

14.根据权利要求11所述的语音播报装置，其特征在于，所述语音元素包括单字、单词、短语、单句或者段落中的任一种。

15.根据权利要求9所述的语音播报装置，其特征在于，所述播报单元用于：播报所述待播报信息包含的所述录音元素，利用语音合成播报所述待播报信息的其他部分。

16.根据权利要求9所述的语音播报装置，其特征在于，所述语音合成包括文语转换技术。

17.一种车载***，其特征在于，包括权利要求9至16中任一项所述的语音播报装置。