CN103680497B

CN103680497B - 基于视频的语音识别***及方法

Info

Publication number: CN103680497B
Application number: CN201210320742.3A
Authority: CN
Inventors: 王玲珑; 曹晨曦
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-08-31
Filing date: 2012-08-31
Publication date: 2017-03-15
Anticipated expiration: 2032-08-31
Also published as: CN103680497A

Abstract

本发明提出了一种基于视频的语音识别***，包括：终端设备，用于录制或接收视频并采集视频中的语音信号；云服务器，用于接收来自终端设备的语音信号，提取语音信号中的声纹信息，将声纹信息与预存的声纹库中的多个用户的声纹信息进行匹配以获取语音信号发出者的身份信息；社交服务器，用于接收视频和发出者的身份信息，根据发出者身份信息查找发出者在社交服务器上登记的身份识别号，并根据身份识别号向对应的语音信号发出者发送视频。本发明还公开一种基于视频的语音识别方法。本发明通过识别声纹获知用户的身份信息，将用户的身份信息匹配后，针对、准确的将视频等信息分享给对方。

Description

基于视频的语音识别***及方法

技术领域

本发明涉及语音识别技术领域，特别是涉及一种基于视频的语音识别***及方法。

背景技术

语音识别技术已经广泛应用于人们日常生活之中，随之带来了很多问题。例如，在账号体系或SNS相关产品里如何应用语音识别技术，从而高效、准确的发送或分享视频等信息给对方。在当下账号体系及SNS相关产品中需要人脑记忆多个联系人好友，经过实践的累积，很容易忘记曾经见过面但不十分熟识的朋友，且当用户想分享信息给视频中的好友们时，发现想不起来好友的信息身份，比较尴尬。目前解决这些问题只能通过用户自身的记忆和手动分析来实现，效率低，准确度低。

发明内容

本发明旨在至少解决上述技术问题之一。

为此，本发明的一个目的在于提出一种基于视频的语音识别***，该***可以通过语音识别，方便且准确的通过语音识别视频中的用户的身份。本发明的另一个目的在于提出一种终端设备的控制装置。

为了实现上述目的，本发明第一方面的实施例提供一种移动终端控制***，包括以下步骤：终端设备，用于录制或接收视频，并采集所述视频中的语音信号；云服务器，用于接收来自所述终端设备的所述语音信号，提取所述语音信号中的声纹信息，以及将所述声纹信息与预存的声纹库中的多个用户的声纹信息进行匹配以获取所述语音信号的发出者的身份信息，其中，所述声纹库存储有多个用户的身份信息及声纹信息，其中所述声纹信息与所述身份信息一一对应；以及社交服务器，用于接收所述视频和所述发出者的身份信息，根据所述发出者的身份信息查找所述发出者在所述社交服务器上登记的身份识别号，并根据所述身份识别号向对应的所述语音信号的发出者发送所述视频。

根据本发明实施例的终端设备控制***，将用户发送的语音与声纹库中的预存的语音进行匹配，并在匹配成功后，用户进行确认选择和控制，将视频等信息分享给对方，从而不需要其他外部设备即可实现对终端设备的选择控制，过程准确易实现，具有较高的准确性、易用性和适用性。

在本发明的一个实施例中，所述声纹信息包括多个声纹特征，其中，所述声纹特征包括声学特征、词法特征、韵律特征、语言特征和通道特征。

在本发明的又一个实施例中，所述语言特征包括语种特征、方言特征和口音特征中的一种或多种。

由此，云服务器可以通过声纹特征对来自终端设备的语音进行匹配，形式多样性，从而考虑到尽可能多的语言特征，更利于对语音的发出者的身份进行识别。

在本发明的在一个实施例中，所述终端设备还用于对采集到的所述语音信号进行降噪处理，并将降噪处理后的语音信号发送至所述云服务器。

由此，使得获得的语音信号更加清晰，更方便对用户的语音信息进行确认及控制。

在发明的又一个实施例中，所述发出者在所述社交服务器上登记的身份识别号为电子邮箱或即时聊天ID。

由此，通过注册所用的电子邮箱或及时聊天ID，便可以轻松获得有关发出者更多的身份信息，从而将视频发送给发出者，并且便于保障***的准确性与安全性。

本发明第二方面的实施例提出一种基于视频的语音识别方法，包括如下步骤：终端设备录制或接收视频，并采集所述视频中的语音信号，以及将所述语音信号发送至云服务器；

所述云服务器接收所述语音信号，并提取所述语音信号中的声纹信息，以及将所述声纹信息与预存的声纹库中的多个用户的声纹信息进行匹配，获取所述语音信号的发出者的身份信息，其中，所述声纹库存储有多个用户的身份信息及声纹信息，其中所述声纹信息与所述身份信息一一对应；以及

社交服务器接收所述视频和所述语音信号的发出者的身份信息，并根据所述发出者的身份信息查找所述发出者在所述社交服务器上登记的身份识别号，以及根据所述身份识别号向对应的所述语音信号的发出者发送所述视频。

根据本发明实施例的基于视频的语音识别方法，将用户发送的语音与声纹库中的预存的语音进行匹配，并在匹配成功后，用户进行确认选择和控制，将视频等信息分享给对方，从而不需要其他外部设备即可实现对终端设备的选择控制，过程准确易实现，具有较高的准确性、易用性和适用性。

本发明的又一个实施例中，所述语言特征包括语种特征、方言特征和口音特征中的一种或多种。

在本发明的再一个实施例中，所述终端设备在采集到所述视频中的语音信号后，还包括如下步骤：对所述语音信号进行降噪处理，并将降噪处理后的语音信号发送至所述云服务器。

由此使得获得的语音信号更加清晰，更方便对用户的语音信息进行确认及控制。

在本发明的一个实施例中，所述发出者在所述社交服务器上登记的身份识别号为电子邮箱或即时聊天ID。

由此，发出者通过所注册的电子邮箱或即时聊天ID获得身份识别号，可多途径的提供发出者相关的身份信息，从而将视频发送给发出者，并且便于保障***的准确性和安全性。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，

图1为根据本发明一个实施例的基于视频的语音识别***的结构图；

图2为根据本发明一个实施例的基于视频的语音识别方法的流程图；以及

图3为根据本发明一个实施例的用户基于视频的语音识别方法选择好友的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解是对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如：可以是固定连接，也可以使可拆卸连接，或一体地连接；可以使机械连接，也可以是电连接；可以使直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

下面参考图1是描述本发明实施例的基于视频的语音识别***。

如图1所示，本发明实施例的基于视频的语音识别***1000，包括：终端设备100、云服务器200和社交服务器300。

终端设备100可以录制或接收视频，并采集视频中的语音信号。

在本发明的一个实施例中，终端设备可以是移动终端或平板电脑等具有移动通信功能的设备，例如：手机、ipad、PC（Personal Computer，个人电脑）或具有通信功能的拍照设备等。终端设备可以自行录制一个音频或视频片段或者从网络等其他途径接收一个音频或视频片段。

由于终端设备录制或接收到视频中的噪声信号较多，容易形成杂音等情况，不利于对视频中的语音信号进行分析，因此需要对语音信号进行降噪处理。

在本发明的一个实施例中，当终端设备100采集到视频中的语音信号后，终端设备100进一步对语音信号进行降噪处理，并将降噪处理后的语音信号发送至云服务器200。由此，使得获得的语音信号更加清晰，更方便对用户的语音信息进行确认及控制。

云服务器200接收来自所述终端设备100的语音信号，提取语音信号中的声纹信息。其中，声纹信息包括多个声纹特征：声学特征、词法特征、韵律特征、语言特征和通道特征。

下面分别对各种声纹特征进行描述。

（1）声学特征，例如倒频谱。倒频谱是指信号频谱取对数的傅立叶变换后的新频谱信号；

（2）词法特征，例如说话人相关的词n-gram，音素n-gram；

（3）韵律特征，例如利用n-gram描述的基音和能量“姿势”；

（4）语言特征，其中语言特征又包括语种特征、方言特征和口音特征中的一种或多种。由此，云服务器可以通过声纹特征对来自终端设备的语音进行匹配，形式多样性，从而考虑到尽可能多的语言特征，更利于对语音的发出者的身份进行识别。

（5）通道信息，例如使用了何种通道等。

云服务器200在提取出语音信号中的声纹信息后，将声纹信息与预存的声纹库中的多个用户的声纹信息进行匹配以获取语音信号的发出者的身份信息。

在声纹库存储有多个用户的身份信息及声纹信息，其中声纹信息与身份信息是一一对应的。由于声纹具有唯一性，云服务器200通过比较语音的声纹可以获知当前发出语音的用户是否为用户本身。

具体地，在视频中可以包括多路语音信号，每路语音信号的发出者分别不同。由于每个发出者的声纹信息不同，通过将语音信号中提取的声纹特征与预存的多个用户的声纹信息进行匹配，即可获知该路语音信号是由哪个用户发出的，即获知该路语音信号的发出者。

社交服务器300接收来自终端设备100的视频和来自云服务器200发出者的身份信息，根据发出者的身份信息查找发出者在社交服务器300上登记的身份识别号。

在本发明的一个实施例中，发出者在社交服务器300上登记的身份识别号可以为电子邮箱（email）或即时聊天ID。

社交服务器300根据上述身份识别号向对应的语音信号的发出者发送该视频。由此，通过注册所用的电子邮箱或及时聊天ID，便可以轻松获得有关发出者更多的身份信息，从而将视频发送给发出者，并且便于保障***的准确性与安全性。

下面以视频中包括三位用户为例对本发明的基于视频的语音识别***1000进行说明。

用户U通过终端设备100录制视频S。终端设备100对视频S中的语音信号V进行采集，并对采集到的语音信号进V行降噪，然后将降噪后的语音信号V发送给云服务器200。

云服务器200在接收到语音信号V后，提取该语音信号中的声纹信息，其中在该声纹信息中包括有三种不同的声纹特征，分别为A、B和C。云服务器200将上述声纹信息与预存的声纹库中的多个用户的声纹信息进行匹配，得到匹配结果为：声纹特征A对应用户M，声纹特征B对应用户N，声纹特征C对应用户W。从而可以获知，声纹特征A对应的语音信号由用户M发出，声纹特征B对应的语音信号由用户N发出，声纹特征C对应的语音信号由用户W发出。

在云服务器200中还存储有各个用户的身份信息。云服务器200将上述匹配结果和对应用户M、N和W的身份信息发送给社交服务器300。

社交服务器300根据接收到的用户M、N和W的身份信息查找其在社交服务器300上登记的身份识别号，然后将该视频发送给上述用户M、N和W。

根据本发明实施例的终端设备控制***，将用户发送的语音与声纹库中的预存的语音进行匹配，并在匹配成功后，用户进行确认选择和控制，将视频等信息分享给对方，从而不需要其他外部设备即可实现对终端设备的选择控制，过程准确易实现，具有较高的准确性、易用性和适用性。并且，为了保证语音信息与声纹库中的声纹信息高效匹配，在终端设备100采集到语音信号后，进行了降噪处理，使得到的语音信号更加清晰，

如图2所示，本发明实施例的基于视频的语音识别方法，包括如下步骤：

步骤S201，终端设备录制或接受视频并采集视频中的语音信号，将语音信号发送至云服务器。这里的终端设备可以是移动终端或平板电脑等具有移动通信功能的设备，例如：手机、ipad、PC（Personal Computer，个人电脑）或具有通信功能的拍照设备等。终端设备可以自行录制一个音频或视频片段或者从网络等其他途径接收一个音频或视频片段。由于终端设备录制或接收到视频中的噪声信号较多，容易形成杂音等情况，不利于对视频中的语音信号进行分析，因此需要对语音信号进行降噪处理。并将降噪处理后的语音信号发送至云服务器。由此，使得获得的语音信号更加清晰，更方便对用户的语音信息进行确认及控制。

步骤S202，云服务器接收语音信号并提取语音信号中的声纹信息，将声纹信息与预存的声纹库中的多个用户的声纹信息进行匹配，获取语音信号的发出者的身份信息。具体地，在视频中可以包括多路语音信号，每路语音信号的发出者分别不同。由于每个发出者的声纹信息不同，通过将语音信号中提取的声纹特征与预存的声纹信息库中的多个用户的声纹信息进行匹配，即可获知该路语音信号是由哪个用户发出的，即获知该路语音信号的发出者。

步骤S203，社交服务器接收视频和语音信号的发出者的身份信息，并根据发出者的身份信息查找发出者在社交服务器上登记的身份识别号，根据身份识别号向对应的语音信号的发出者发送视频。其中的身份识别号可以是通过注册所用的电子邮箱（Email）或及时聊天ID所描述的。这样便可以轻松获得有关发出者更多的身份信息，从而将视频发送给发出者，并且便于保障***的准确性与安全性。

由于人类语言的产生式人体语言中枢与发音器官之间一个复杂的生理物理过程，任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性，又有差异性，不是绝对的，一成不变的。通过充分利用每个人的发音器官这个唯一性来作为识别口令，使用户更方便更自然地随时随地使用。

从利用数学方法可以建模的角度出发，声纹自动识别模型目前可以使用的特征包括：

（1）声学特征（倒频谱）；

（2）语法特征（说话人相关的词n-gram，音素n-gram）；

（3）韵律特征（利用n-gram描述的基音和能量“姿势”）；

（4）语种、方言和口音信息；

（5）通道信息（使用何种通道）；等等。

如果用户发出的语音与声纹库中的语音匹配，则用户发出的声纹和语义与声纹库中预存的声纹和语音是对应的。

声纹具有唯一性，通过比较语音的声纹可以获知当前发出语音的用户是否为用户本身，从而避免他人冒充或模仿主人对终端设备进行控制，提高了终端设备控制的安全性。此外，通过比较语音的语义可以获知用户期望的终端设备的动作，从而可以准确地实现对终端设备的控制且符合用户的期望。

如图3所示，本发明实施例的基于视频的语音识别方法选择好友的流程图，包括如下步骤：

步骤S301，发出声音。

步骤S302，对声音信息进行检测与降噪处理，得到更清晰的语音信息。

步骤S303，根据声纹特征对某一语音信息进行特征提取。特征提取的任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。与语音识别不同，声纹识别的特征必须是“个性化”特征，而说话人识别的特征对说话人来讲必须是“共性特征”。虽然目前大部分声纹识别***用的都是声学层面的特征，但是表征一个人特点的特征应该是多层面的。

步骤S304，经过声纹注册，到声纹模型，这是声纹的模型匹配的基础步骤。

步骤S305，通过对某一语音的语音信息的特征提取，直接经过声纹确认与声纹鉴别，到达模型匹配。模型匹配与声纹模型是个互相作用的过程。在经过模型匹配后，便可确认所要进行的发送端。

对于模式识别，有以下几大类方法：

模版匹配方法：利用动态时间弯折（DTW）以对准训练和测试特征序列，主要用于固定词组的应用（通常为文本相关任务）；

最近邻方法：训练时保留所有特征矢量，识别时对每个矢量都找到训练矢量中最近的K个，据此进行识别，通常模型存储和相似计算的量都很大；

神经网络方法：有很多种形式，如多层感知、径向基函数（RBF）等，可以显示训练以区分说话人和其背景说话人，其训练量很大，且模型的可推广性不好；

隐式马尔可夫模型（HMM）方法：通常使用单状态的HMM，或高斯混合模型（GMM），是比较流行的方法，效果比较好；

步骤S306，确定了正确的信息发送端，将视频分享给该好友。

下面以查找终端设备的语音以将视频分享给该好友为例对本发明实施例的控制方法进行描述。首先建立一个声纹库，里面存着每个好友对应的声纹信息，然后通过特征提取，提取并选择对说话人的声纹具有可分析性强、稳定性高等特性的声学或语言特征。与语音识别不同，声纹识别的特征必须是“个性化”特征，而说话人识别的特征对说话人来讲必须是“共性特征”。模型匹配，从利用数学方法可以建模的角度出发。通过声纹模型匹配成功后，锁定视频中人物，如果匹配到说话人是声纹库里的某个好友时，读取该说话人身份信息，完成识别。识别好友的身份信息后，可通过SNS社交应用，将视频分享给相关的好友。这一技术解决了需要人脑记忆多个联系人好友，经过实践的累积，很容易忘记曾经见过面但并不十分熟识的朋友，且当用户想分享给视频中的好友们时，发现想不起来好友的信息身份，比较尴尬的问题。这一技术适用于在账号体系或SNS相关产品里，未来可用在百度空间等项目等。

需要说明的是，用户预先在声纹库中存储了好友的语音声纹信息。

根据本发明实施例的移动终端的控制方法，将用户发送的语音与声纹库中预存的语音进行匹配，并在匹配成功后对终端设备进行控制，从而不需要其他外部设备即可实现对移动终端的控制，过程简单易实现，具有较高的易用性和适用性。并且，利用用户发出的语音提示对移动终端进行控制，不易被其他人模仿和冒充，具有较高的安全性。此外，为了保证语音信息与声纹库中的声纹信息高效匹配，将对采集到得语音信号进行降噪处理，使得到的语音信号更加清晰，便于发送者分析得到正确的视频分享者。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备（如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***）使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求极其等同限定。

Claims

1.一种基于视频的语音识别***，其特征在于，包括：

终端设备，用于录制或接收视频，并采集所述视频中的语音信号；

云服务器，用于接收来自所述终端设备的所述语音信号，提取所述语音信号中的声纹信息，以及将所述声纹信息与预存的声纹库中的多个用户的声纹信息进行匹配以获取所述语音信号的发出者的身份信息，其中，所述声纹库存储有多个用户的身份信息及声纹信息，其中所述声纹信息与所述身份信息一一对应；以及

社交服务器，用于接收所述视频和所述发出者的身份信息，根据所述发出者的身份信息查找所述发出者在所述社交服务器上登记的身份识别号，并根据所述身份识别号向对应的所述语音信号的发出者发送所述视频。

2.如权利要求1所述的基于视频的语音识别***，其特征在于，所述声纹信息包括多个声纹特征，其中，所述声纹特征包括声学特征、词法特征、韵律特征、语言特征和通道特征。

3.如权利要求2所述的基于视频的语音识别***，其特征在于，所述语言特征包括语种特征、方言特征和口音特征中的一种或多种。

4.如权利要求1所述的基于视频的语音识别***，其特征在于，所述终端设备还用于对采集到的所述语音信号进行降噪处理，并将降噪处理后的语音信号发送至所述云服务器。

5.如权利要求1所述的基于视频的语音识别***，其特征在于，所述发出者在所述社交服务器上登记的身份识别号为电子邮箱或即时聊天ID。

6.一种基于视频的语音识别方法，其特征在于，包括如下步骤：

终端设备录制或接收视频，并采集所述视频中的语音信号，以及将所述语音信号发送至云服务器；

7.如权利要求6所述的基于视频的语音识别方法，其特征在于，所述声纹信息包括多个声纹特征，其中，所述声纹特征包括声学特征、词法特征、韵律特征、语言特征和通道特征。

8.如权利要求7所述的基于视频的语音识别方法，其特征在于，所述语言特征包括语种特征、方言特征和口音特征中的一种或多种。

9.如权利要求6所述的基于视频的语音识别方法，其特征在于，所述终端设备在采集到所述视频中的语音信号后，还包括如下步骤：对所述语音信号进行降噪处理，并将降噪处理后的语音信号发送至所述云服务器。

10.如权利要求6所述的基于视频的语音识别方法，其特征在于，所述发出者在所述社交服务器上登记的身份识别号为电子邮箱或即时聊天ID。