CN105869626B

CN105869626B - 一种语速自动调节的方法及终端

Info

Publication number: CN105869626B
Application number: CN201610375868.9A
Authority: CN
Inventors: 王晓军
Original assignee: Yulong Computer Telecommunication Scientific Shenzhen Co Ltd
Current assignee: Yulong Computer Telecommunication Scientific Shenzhen Co Ltd
Priority date: 2016-05-31
Filing date: 2016-05-31
Publication date: 2019-02-05
Anticipated expiration: 2036-05-31
Also published as: CN105869626A; WO2017206256A1

Abstract

本发明公开了一种语速自动调节的方法，包括：获取输入的语音信息；提取所述语音信息的语音特征信息；从语音数据库中查询与所述语音特征信息相对应的所述语音信息的播放速度；根据所述播放速度调节所述语音信息播放的速度；可见该方法能够根据实时输入的语音信息的语音特征信息，确定与该语音特征信息相对应的预定的播放速度，根据该播放速度对输入的语音信息的语速进行调节，以适应各种用户的需求；即实现了根据语音信息的内容自适应的调节播放速度，且可以用于通话以及程序播放等场合适应性强。本发明还公开了一种终端，能够实现根据语音信息的内容自适应的调节播放速度。

Description

一种语速自动调节的方法及终端

技术领域

本发明涉及通信技术领域，特别涉及一种语速自动调节的方法及终端。

背景技术

由于人们的听力水平的不同，同样语速的播放内容对一部分人来说会觉得语速很快以至于听不清楚，对另一部分人来说会觉得语速很慢以至于觉得在浪费时间。因此，终端中的播放内容的语速需要根据人们的实际需求进行设定。

现有技术中，在用户手机客户端应用程序增加语速调节控件，使得用户选择调节语速，选定语速等级，手机按照用户设定调节语速等级播放语音内容。但是上述方法也存在一下缺点：首先，语速的调节虽然分为几个等级，但是需要人手动预设，不能动态的调节即不能够自适应的对语速进行调节。其次，语速调节仅限于手机客户端软件播放的内容，不能在通话时实时的调节语速。最后，不能自适应其他种类语言，根据通话双方的语种进行语速调节。因此，如何自适应对语速进行调节，是本领域技术人员需要解决的技术问题。

发明内容

本发明的目的是提供一种语速自动调节的方法及终端，能够根据实时输入的语音信息的语音特征信息，确定与该语音特征信息相对应的预定的播放速度，根据该播放速度对输入的语音信息的语速进行调节，实现了根据语音信息的内容自适应的调节播放速度。

为解决上述技术问题，本发明提供一种语速自动调节的方法，包括：

获取输入的语音信息；

提取所述语音信息的语音特征信息；

从语音数据库中查询与所述语音特征信息相对应的所述语音信息的播放速度；

根据所述播放速度调节所述语音信息播放的速度。

其中，所述提取所述语音信息的语音特征信息，包括：

识别所述语音信息的语种特征信息；和/或，

提取所述语音信息的语速信息，特征词信息及音频信息中至少一种。

其中，所述语音信息为本端用户的语音信息，该方法还包括：

获取所述本端用户的体征信息；

从语音数据库中查询与所述语音特征信息相对应的所述语音信息的播放速度，包括：

从语音数据库中查询与所述语音特征信息及所述体征信息相对应的所述语音信息的播放速度。

其中，将从语音数据库中查询与所述语音特征信息及所述体征信息相对应的所述语音信息的播放速度之后，还包括：

利用所述语音特征信息及所述体征信息，根据机器学习算法对语音数据库中播放速度的对应关系进行更新。

其中，根据所述播放速度调节所述语音信息播放的速度，包括：

通过插值或者抽剪对所述语音信息的数字信号重新采样，调节所述语音信息的时间尺度达到所述播放速度。

本发明还提供一种终端，包括：

语音信息获取模块，用于获取输入的语音信息；

语音特征提取模块，用于提取所述语音信息的语音特征信息；

播放速度确定模块，用于从语音数据库中查询与所述语音特征信息相对应的所述语音信息的播放速度；

播放速度调节模块，用于根据所述播放速度调节所述语音信息播放的速度。

其中，所述语音特征提取模块包括：

第一语音特征提取单元，用于识别所述语音信息的语种特征信息；和/或，

第二语音特征提取单元，用于提取所述语音信息的语速信息，特征词信息及音频信息中至少一种。

其中，所述语音信息为本端用户的语音信息，该终端还包括：

体征信息获取模块，用于获取所述本端用户的体征信息。

其中，所述终端还包括：

机器学习模块，用于利用所述语音特征信息及所述体征信息，根据机器学习算法对语音数据库中播放速度的对应关系进行更新。

其中，所述播放速度调节模块具体为通过插值或者抽剪对所述语音信息的数字信号重新采样，调节所述语音信息的时间尺度达到所述播放速度的模块。

本发明所提供的语速自动调节的方法，包括：获取输入的语音信息；提取所述语音信息的语音特征信息；从语音数据库中查询与所述语音特征信息相对应的所述语音信息的播放速度；根据所述播放速度调节所述语音信息播放的速度；

可见该方法能够根据实时输入的语音信息的语音特征信息，确定与该语音特征信息相对应的预定的播放速度，根据该播放速度对输入的语音信息的语速进行调节，以适应各种用户的需求；即实现了根据语音信息的内容自适应的调节播放速度，且该方法可以用于用户通话以及程序播放等场合，提高了该方法的适应性。本发明还提供了一种终端，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例所提供的语速自动调节的方法的流程图；

图2为本发明实施例所提供的终端的结构框图；

图3为本发明实施例所提供的另一终端的结构框图；

图4为本发明实施例所提供的又一终端的结构框图。

具体实施方式

本发明的核心是提供一种语速自动调节的方法及终端，能够根据实时输入的语音信息的语音特征信息，确定与该语音特征信息相对应的预定的播放速度，根据该播放速度对输入的语音信息的语速进行调节，实现了根据语音信息的内容自适应的调节播放速度。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明实施例所提供的语速自动调节的方法的流程图；本实施例中的执行主体为终端，该终端可以是手机；该方法可以包括：

S100、获取输入的语音信息；

其中，这里语音信息的获取可以是对通话业务及能够实现语音播放功能业务的应用程序的监听来实现；即可以是本端用户打电话或者接电话时的语音信息，也可以是对端用户打电话或者接电话时的语音信息，也可以是具有语音播放功能的应用程序播放的语音信息。

S110、提取所述语音信息的语音特征信息；

其中，这里提取的语音特征信息的种类以及种类的数量都可以根据用户实际需要进行确认，只要可以依据语音信息中具有的该语音特征信息来对应按照预设标准调节获取的语音信息的播放速度即可。即能够通过语音信息中的语音特征信息按照预设标准调节其播放语速实现语速自动调节即可。例如，这里的语音特征信息可以包括情绪、语种、语音特征、语速、语调等特征信息。

S120、从语音数据库中查询与所述语音特征信息相对应的所述语音信息的播放速度；

其中，当确认需要进行提取的语音特征信息后，用户可以预先设置对应每种语音特征信息相应的播放速度，或者几种语音特征信息共同确定对应的一个播放速度；这里可以在语音数据库中以对应列表的形式将上述对应关系进行存储，也可以利用映射表的形式将上述对应关系进行存储。用户还可以根据实际情况的变化对语音数据库中保存的对应关系进行修改、删除、增加等修改，以保证设定的语音特征信息相对应的播放速度为最新的，能够满足用户的实际需求。

这里查询语音数据库，还可以包括将提取的语音特征信息与语音数据库中对应的该类语音特征信息的范围区间进行对比，判断提取的语音特征信息的数值位于哪个范围，进而确认该范围对应的预设播放速度。用户也可以根据实际需求对语音特征信息的范围区间进行修改，也可以对每个范围对应的预设播放速度进行修改，以适应用户的个性化需求，提高用户体验。

S130、根据所述播放速度调节所述语音信息播放的速度。

其中，根据得到的播放速度对语音信息进行调节，以达到该播放速度。这里并不对具体的语音信息调节的方法进行限定，只要可以将获取的语音信息调节到对应的播放速度进行播放即可。下面提供一种具体的语速调节过程：通过插值或者抽剪对所述语音信息的数字信号重新采样，调节所述语音信息的时间尺度达到所述播放速度。即通过插值或者抽剪对数字信号重新采样，从而拉长或缩短语音的时间尺度，达到改变语速的目的。

例如，在人们使用手机的过程中，通话是一个基本业务，也是一个很重要的功能。但是有些人说话语速比较快，有的人听力又不好，这种情况下沟通起来就比较困难。该方法在用户使用手机进行通话的过程中，根据获取的输入语音信息对双方通话时的情绪、语种、语音特征等语音特征信息进行采集并与语音数据库中的信息进行比对，从而进行判断，如果语速过快，或者对端有异常反馈，确认该语速对应的播放速度，或者异常反馈对应的播放速度，并通过插值或者抽剪对数字信号重新采样，从而拉长或缩短语音的时间尺度，达到改变语速的目的。用户使用手机时根据本端用户或对端用户使用手机通话时使用的语言种类、情绪变化等因素，自动的调节从听筒播放出来的声音的速度。以适应于各类人群的需求。

其中，可选的，利用机器学习算法对所述语音数据库进行学习更新。

在终端中维护语音数据库，可以对用户的语音特征信息参数进行存储，使机器学习算法将语音特征信息参数作为输入进行学习实现对语音数据库的更新。可以根据不同的用户群体的长期使用习惯进行调节，而不是完全按照指导的原始设定数据来调节，具有更好的适应性。

上述例子具体实现过程可以如下：

本端用户即主叫端用户急于表述某事或情绪激动时，其语音信息内容所用的词句符合数据库中对用户“急躁”这类定义，那么就会按照“急躁”对应的播放速度降低获取的输入语音信息的语速。达到舒缓的目的，使得用户可以更加高效与友好的使用手机通话功能。

再例如主叫端用户使用英语时，根据语音特征信息判断出这是英语，那么就会按照英语对应的播放速度调节输入语音信息的语速。这样调节之后，被叫端用户即对端用户会听到放慢后的语音信息，即可一定程度解决用户在与非母语用户沟通时听力困难的问题。

基于上述技术方案，本发明实施例提的语速自动调节的方法，能够根据实时输入的语音信息的语音特征信息，确定与该语音特征信息相对应的预定的播放速度，根据该播放速度对输入的语音信息的语速进行调节，以适应各种用户的需求；即实现了根据语音信息的内容自适应的调节播放速度，且该方法可以用于用户通话以及程序播放等场合，提高了该方法的适应性强。使不同用户可以根据自身需求自适应语音播放速度，提升用户感受。

基于上述实施例，该实施例可以根据输入语音信息的语言种类自适应的调节与各个语言种类相对应语音信息播放速度；即能够根据语言种类自适应调节播放速度。优选的，所述提取所述语音信息的语音特征信息具体为：

识别所述语音信息的语种特征信息。

其中，通过对获取的输入语音信息的识别，可以得到语音信息的语种特征信息该语种特征信息可以包括音频参数，特征词信息，根据该语种特征信息对应的预设的播放速度，确定该语音信息播放的速度。这里可以用户可以对任意语种都分别设置对应的播放速度；或者对预定数量的语种分别设置对应的播放速度；或者将语种分为几大类别，仅针对每种类别设置对应的播放速度，相对应这里的语种特征信息可以是类别信息，或者是将得到语种在判断该语种属于哪一个类别，最后再确定对应的播放速度；这种语种与播放速度的对应关系可以通过对应列表或者映射表实现。

其中，语种特征信息的识别方法可以通过用户语种识别***和语言文本翻译***合成用户每种语言的“参考语音”、基于音段和音节的马尔可夫模型、基音轮廓、共振峰矢量、声学特征、方言性的音素和韵律特征、及其原始的语音声波特征进行识别。使用的分类方法可以包括HMM、专家***、聚类算法、二次分类、以及人工神经网络。

下面通过几种具体的应用场景对上述实施例进行说明：

将监听到终端中应用程序存在输入语音信息时，对获取的语音信息进行识别，若判定该语种特征信息为英语时，确定用户预设的英语对应的播放速度，并将语音信息的语速调节为对应的播放速度。其中英语仅为举例。

在用户进行通话时，可以仅检测本端用户的语音信息的语种，也可以仅检测对端用户的语音信息的语种，也可以检测本端用户及对端用户的语音信息的语种；下面以最后一种情况为例进行说明：

开始时手机处于正常通信状态，主被叫已经接通。语音信息获取模块获取输入的语音信息；语音特征提取模块对双方的音频参数以及关键词句进行提取。播放速度确定模块将提取到的音频参数解析，查询语音数据库并进行语种判断，根据语种确定用户预设的播放速度。播放速度调节模块对语音信息进行时间上的拉长或缩短处理。听筒播放经过处理的语音信息。双方挂断电话，通话完成。

该实施例用户可以根据自身实际情况确定对每种语言的接收能力，合理设定播放速度，可以解决用户在与非母语用户沟通时听力困难的问题。

基于上述任意实施例，该实施例主要用于用户之间进行语音交流时，可能会出现语速过快，情绪激动等情况，为了能够在这些情况下用户之间的交流可以顺利进行，根据用户语音信息的语音特征信息确定用户的状态，确定该状态下设定的播放速度；即能够根据用户说话状态自适应调节播放速度。优选的，所述提取所述语音信息的语音特征信息具体为：

其中，这些需要首先确定每种语音特征信息对应的或者反应的用户状态，进行确定在该种状态下应该设置什么样的播放速度。这里可以仅仅根据语速信息进行判定，也可以仅仅根据特征词信息进行判定等，即语速信息，特征词信息及音频信息可以任意组合；

单个使用时，根据每种语音特征信息情况进行分类，并对分类后的每种情况设定对应的播放速度，例如语速信息，用户在急躁的情况下说话语速一般会过快，则当语速信息超过一定值时即可以认为该用户为急躁，将其语音信息设置为预定的急躁下的播放速度，当然也可以将语速分为若干个语速范围，并设置每个语速范围下对应的播放速度。

为了提高语速调节的准确性，优选的可以将语速信息，特征词信息及音频信息结合使用，即根据三个特征的信息综合来确定播放速度。例如，用户在急躁的情况下说话语速一般会过快，会出现一些特定词语(用户可以根据自身的特点设定在自己急躁情况下的习惯性用词)，并且声音会高，若出现三者或者至少两者即可以认为该用户为急躁，将其语音信息设置为预定的急躁下的播放速度。

该实施例中的语速信息，特征词信息及音频信息可以任意与语种特征信息进行组合使用。如设置英语各个语速范围下对应的播放速度，汉语各个语速范围下对应的播放速度。

基于上述实施例，用户能自适应调节通话语速的问题。使不同用户可以根据自身需求改变语音播放速度，提升用户感受。

基于上述任意实施例，该实施例主要为了能够更加准确的确定本端用户的状态，进而确定本端用户在该状态下的播放速度；能够根据本端用户说话状态自适应调节播放速度。即所述语音信息为本端用户的语音信息，该方法还可以包括：

获取所述本端用户的体征信息；

相应的从语音数据库中查询与所述语音特征信息相对应的所述语音信息的播放速度，包括：

其中，上述实施例可以根据语速信息，特征词信息及音频信息确定用户的状态，为了更加准确的确定本端用户是否处于该状态下，还可以获取本端用户的体征信息，体征信息可以包括本端用户的体温，脉搏等。且体征信息的采集可以通过与终端相适应的智能穿戴设备如智能手环等采集。

例如本端用户即主叫端用户急于表述某事或情绪激动时，其语音信息内容所用的词句符合数据库中对用户急躁这类定义，并且从智能手环采集到了用户脉搏加快等信息，那么可以确定用户处于急躁状态，会按照急躁对应的播放速度降低获取的输入语音信息的语速。达到舒缓的目的，使得用户可以更加高效与友好的使用手机通话功能。具体过程可以如下：

手机处于正常通信状态，主被叫已经接通。采集用户的语音信息，并通过智能手环采集用户通话过程中的体温、脉搏等信息。查询语音数据库信息，结合用户通话过程中的体温、脉搏变化与关键词句即特征词信息的使用，判断用户是否有情绪激动的状况。并根据语速信息判断是否需要调节。如果满足调节的条件，则根据语音数据库中的预设值来进行调节，确定新的播放速度。对语音信息数据进行时间上的拉长或缩短处理。听筒播放经过处理的语音数据。且可以将本次用户的情绪变化信息和特征语句写入语音数据库，以优化后续对情绪判断的计算。

基于上述任意实施例，该实施例主要提高语音数据库的准确性，因此，该方法还包括：

其中，在终端中维护语音数据库，可以对用户的音频信息参数进行存储，这样指导就具备语速调节的学习功能。可以根据不同的用户群体的长期使用习惯进行调节，而不是完全按照指导的原始设定数据来调节，具有更好的适应性。具有学习功能，会不断更新用户常使用的关键性用语即特征词信息，以优化后续对与用户情绪判断的计算。

本发明实施例提供了语速自动调节的方法，能够根据实时输入的语音信息的语音特征信息，确定与该语音特征信息相对应的预定的播放速度，根据该播放速度对输入的语音信息的语速进行调节。

下面对本发明实施例提供的终端进行介绍，下文描述的终端与上文描述的语速自动调节的方法可相互对应参照。

请参考图2，图2为本发明实施例所提供的终端的结构框图；该终端可以包括：

语音信息获取模块100，用于获取输入的语音信息；

语音特征提取模块200，用于提取所述语音信息的语音特征信息；

播放速度确定模块300，用于从语音数据库中查询与所述语音特征信息相对应的所述语音信息的播放速度；

播放速度调节模块400，用于根据所述播放速度调节所述语音信息播放的速度。

可选的，所述语音特征提取模块200包括：

可选的，请参考图3，所述语音信息为本端用户的语音信息，该终端还包括：

体征信息获取模块500，用于获取所述本端用户的体征信息。

其中，这时播放速度确定模块300具体为从语音数据库中查询与所述语音特征信息及所述体征信息相对应的所述语音信息的播放速度的模块。

可选的，请参考图4，该终端还包括：

机器学习模块600，用于利用所述语音特征信息及所述体征信息，根据机器学习算法对语音数据库中播放速度的对应关系进行更新。

可选的，播放速度调节模块400具体为通过插值或者抽剪对所述语音信息的数字信号重新采样，调节所述语音信息的时间尺度达到所述播放速度的模块。

其中，基于上述任意实施例，该终端具体可以为手机。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的语速自动调节的方法及终端进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种语速自动调节的方法，其特征在于，包括：

获取输入的语音信息；

提取所述语音信息的语音特征信息，所述语音特征信息的种类以及种类的数量根据用户实际需要进行确认，所述语音特征信息包括情绪、语种、语速、语调；

根据所述播放速度调节所述语音信息播放的速度。

2.如权利要求1所述的语速自动调节的方法，其特征在于，所述语音信息为本端用户的语音信息，该方法还包括：

获取所述本端用户的体征信息；

3.如权利要求2所述的语速自动调节的方法，其特征在于，将从语音数据库中查询与所述语音特征信息及所述体征信息相对应的所述语音信息的播放速度之后，还包括：

4.如权利要求1所述的语速自动调节的方法，其特征在于，根据所述播放速度调节所述语音信息播放的速度，包括：

5.一种终端，其特征在于，包括：

语音信息获取模块，用于获取输入的语音信息；

语音特征提取模块，用于提取所述语音信息的语音特征信息，所述语音特征信息的种类以及种类的数量根据用户实际需要进行确认，所述语音特征信息包括情绪、语种、语速、语调；

6.如权利要求5所述的终端，其特征在于，所述语音信息为本端用户的语音信息，该终端还包括：

体征信息获取模块，用于获取所述本端用户的体征信息。

7.如权利要求6所述的终端，其特征在于，还包括：

8.如权利要求5所述的终端，其特征在于，所述播放速度调节模块具体为通过插值或者抽剪对所述语音信息的数字信号重新采样，调节所述语音信息的时间尺度达到所述播放速度的模块。