CN102568478A - 一种基于语音识别的视频播放控制方法和*** - Google Patents

一种基于语音识别的视频播放控制方法和*** Download PDF

Info

Publication number
CN102568478A
CN102568478A CN2012100259248A CN201210025924A CN102568478A CN 102568478 A CN102568478 A CN 102568478A CN 2012100259248 A CN2012100259248 A CN 2012100259248A CN 201210025924 A CN201210025924 A CN 201210025924A CN 102568478 A CN102568478 A CN 102568478A
Authority
CN
China
Prior art keywords
user
voice
phonetic feature
control command
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100259248A
Other languages
English (en)
Other versions
CN102568478B (zh
Inventor
吴昊宇
邓龙
姚键
邱丹
潘柏宇
卢述奇
刘睿姝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Alibaba Music Technology Co Ltd
Original Assignee
1Verge Internet Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 1Verge Internet Technology Beijing Co Ltd filed Critical 1Verge Internet Technology Beijing Co Ltd
Priority to CN201210025924.8A priority Critical patent/CN102568478B/zh
Publication of CN102568478A publication Critical patent/CN102568478A/zh
Application granted granted Critical
Publication of CN102568478B publication Critical patent/CN102568478B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于语音识别的视频控制方法,包括:对用户的语音进行训练提取语音特征并保存在语音特征库中;接收用户的语音控制命令,与所述保存的用户语音特征进行对比;其中,当该用户的语音特征与服务器中的用户语音特征相匹配后,提取该语音控制命令并基于该语音控制命令进行视频播放的控制。本发明采取了上述技术方案以后,克服了现有技术中语音识别都是应用于单机或者必须下载特征的软件的技术缺点;并且,由于本申请的语音特征是基于特定人而保存在语音特征库中,能够实现基于特征人的语音识别的效果,并且,该种方法进行语音识别和控制,其准确率较高。此外,本发明还公开了一种基于语音识别的视频控制***。

Description

一种基于语音识别的视频播放控制方法和***
技术领域
本发明涉及一种视频控制方法,尤其涉及一种基于语音识别的视频播放控制方法,属于语音识别领域。
背景技术
目前,计算机语音识别的任务是让计算机能够听懂人类说话的语句或者命令,并做出相应的动作。
其中,从上世纪70年代开始,计算机语音识别技术在研究上取得了突破性的进展。现在计算机语音识别技术在各个领域都有广泛的应用,比如语音识别拨号,语音搜索,语音控制等。但是现有的计算机语音识别***都存在一些问题。由于计算机语音识别需要进行大量的计算,所以现有的计算机语音识别计算基本上都是应用于单机的计算,或者需要下载并且安装特定的软件才能进行语音识别的任务,没有和互联网技术很好的结合。操作***自带的语音识别***只能完成特定的简单任务,与别的程序,或者与互联网应用没有连接,已经不能适应当今互联网的快速发展的需求。
由于人类的语言多种多样,而且同一个词的不同人的发音也不同,计算机语音识别从对人的语音的依赖程度上,按照声学模型建立的方式进行划分,可以分为特定人识别和非特定人语音识别***。
发明内容
本发明针对现有技术的缺点,提供了一种基于语音识别的视频播放控制方法,该方法能够具有较灵活的视频控制效果。此外,本发明还公开了一种基于语音识别的视频播放控制***。
根据本发明的第一目的,本发明提供了一种基于语音识别的视频播放控制方法,包括:
对用户的语音进行训练提取语音特征并保存在语音特征库中;
接收用户的语音控制命令,与所述保存的用户语音特征进行对比;
其中,当该用户的语音特征与服务器中的用户语音特征相匹配后,提取该语音控制命令并基于该语音控制命令进行视频播放的控制。
进一步地,优选的方法是,所述对用户语音进行训练提取语音特征并保存在语音特征库中,具体包括:
计算用户的语音的声学参数,提取出能够反映语音信号特征的关键特征参数并进行降维;
获取用户输入的若干次控制命令的训练语音;
经过预处理和语音特征后,得到特定用户的语音特征矢量参数并存储在网络服务器中的语音特征库中。
进一步地,优选的方法是,所述关键特征参数采用MFCC参数。
进一步地,优选的方法是,所述接收用户的语音控制命令,与所述保存的用户语音特征进行对比,具体包括:
将用户后续输入的语音控制命令与服务器中存储的中各指令语音特征进行相似性度量,判断用户的语音控制命令是否匹配语音特征库的特征。
进一步地,优选的方法是,所述视频控制方法基于FLASH播旋器,其中,还包括:
在10秒钟完成对应的用户语音控制命令的识别步骤,在返回成功以后进行相应的视频控制动作。
本发明采取了上述技术方案以后,克服了现有技术中语音识别都是应用于单机或者必须下载特征的软件的技术缺点;并且,由于本申请的语音特征是基于特定人而保存在语音特征库中,能够实现基于特征人的语音识别的效果,并且,该种方法进行语音识别和控制,其准确率较高。
根据本发明的又一目的,本发明提供了一种基于语音识别的视频播放控制***,包括:
语音特征训练单元,用于对用户的语音进行训练提取语音特征并保存在语音特征库中;
语音特征识别单元,用于接收用户的语音控制命令,与所述保存的用户语音特征进行对比;
视频控制单元,用于当该用户的语音特征与服务器中的用户语音特征相匹配后,提取该语音控制命令并基于该语音控制命令进行视频播放的控制。
进一步地,优选的是,所述语音特征训练单元,具体包括:
特征参数提取子单元,用于计算用户的语音的声学参数,提取出能够反映语音信号特征的关键特征参数并进行降维;
特征参数训练子单元,用于获取用户输入的若干次控制命令的训练语音;经过预处理和语音特征后,得到特定用户的语音特征矢量参数;
发送子单元,用于将上述语音特征矢量参数存储在网络服务器中的语音特征库中。
进一步地,优选的是,所述关键特征参数采用MFCC参数。
进一步地,优选的是,所述语音特征识别单元,具体包括:
对比子单元,用于将用户后续输入的语音控制命令与服务器中存储的中各指令语音特征进行相似性度量,判断用户的语音控制命令是否匹配语音特征库的特征。
进一步地,优选的是,所述视频控制单元,还包括:
FLASH播放器子单元;
播放器控制子单元,用于在10秒钟完成对应的用户语音控制命令的识别,在返回成功以后进行相应的视频控制动作。
本发明采取了上述技术方案以后,具有前述方法的所有优点,即本申请克服了现有技术中语音识别都是应用于单机或者必须下载特征的软件的技术缺点;并且,由于本申请的语音特征是基于特定人而保存在语音特征库中,能够实现基于特征人的语音识别的效果,并且,该种方法进行语音识别和控制,其准确率较高。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
下面结合附图对本发明进行详细的描述,以使得本发明的上述优点更加明确。
图1是本发明基于语音识别的视频播放控制方法的流程示意图;
图2是本发明的一个实施例中的进行语音视频的示意图;
图3是本发明的一个实施例中的进行语音训练的示意图;
图4是本发明的一个实施例的进行语音识别视频控制的流程示意图;
图5是本发明的另一个实施例的进行语音识别视频控制的流程示意图;
图6是本发明基于语音识别的视频播放控制***的结构示意图;
图7是本发明的一个实施例中的语音特征训练单元的示意图;
图8是本发明的一个实施例的语音特征训练单元的架构示意图;
图9是本发明的一个实施例的语音特征识别单元的示意图;
图10是本发明的一个实施例的视频控制单元的示意图。
具体实施方式
以下结合附图和具体实施例对本发明进行详细的描述。
方法实施例一
以下结合附图对本发明进行一个详细的描述;
其中,图1是本发明基于语音识别的视频播放控制方法的流程示意图,图2是本发明的一个实施例中的进行语音视频的示意图;
根据本实施例,所述基于语音识别的视频播放控制方法,包括:
S101:对某一个用户的语音进行训练提取语音特征;
S102:将上述特定用户的语音特征保存在语音特征库中;
S103:接收用户的语音控制命令;
S014:将接收到的用户的语音控制命令与所述保存的用户语音特征进行对比;
S015:当该用户的语音特征与服务器中的用户语音特征相匹配后,提取该语音控制命令并基于该语音控制命令进行视频播放的控制。
其中,在步骤S102中,可以基于用户名和账户和具体的语音特征一起保存在语音特征库中,其中,在优选的实施例中,该语音特征库是一个互联网服务器中的数据库。
并且,步骤S103包括:
将用户后续输入的语音控制命令与服务器中存储的中各指令语音特征进行相似性度量,判断用户的语音控制命令是否匹配语音特征库的特征。
其中,本申请所述的视频控制方法基于FLASH播放器,其中,还包括:
在10秒钟完成对应的用户语音控制命令的识别步骤,在返回成功以后进行相应的视频控制动作。
本发明采取了上述技术方案以后,克服了现有技术中语音识别都是应用于单机或者必须下载特征的软件的技术缺点;并且,由于本申请的语音特征是基于特定人而保存在语音特征库中,能够实现基于特征人的语音识别的效果,并且,该种方法进行语音识别和控制,其准确率较高。
方法实施例二:
进一步对本发明进行描述,其中,本申请主要包括:语音特征训练步骤、语音特征识别步骤以及视频控制步骤,以下对本发明的上述三个步骤分别进行详细描述。
图3是本发明的一个实施例中的进行语音训练的示意图;
如图3所示,所述方法主要包括以下步骤:
某一个特定的注册用户打开网页,网页中会显示一个语音识别FLASH,该FLASH技术是现有技术较为公知的,在此不详细说明。
其中,当***获取到该用户没有进行语音特征训练时,其会提示用户进行语音训练,否则直接进入下一个步骤;
其中,***会给出一些基本的词,例如:开始、暂停、播放、提高音量、快进等,用户按照上述提示进行语音特征训练。
其中,在语音特征训练步骤中,包括:
语音特征提取阶段:计算语音的声学参数,进行语音特征的计算,提取出能够反映语音信号特征的关键特征参数,实现降维。
其中,在语音识别技术中,采取的是MFCC和DTW技术,其中,MFCC(MelFrequency Cepstrum Coefficient,Mel频率倒谱系数),是音频的频域分析中,最常用的一种特征系数,应用也最为广泛。它的特点在于充分考虑了人的听觉***中的非线性特性,在低频情况下使用线性刻度,在高频情况下使用对数刻度。因此,MFCC可以将音频信号进行更为合理的分段。对于一段音频,就可以获得n组(n对应于音框数)MFCC参数。之后的语音识别过程,就可以使用这n组参数进行处理。
在孤立词识别***中,DTW(Dynamic Time Warping,动态时间归整)是最为常用的算法,其使用动态规划的思想,解决了发音长短不一带来的模板匹配问题,是语音识别中一种较为经典的算法。DTW算法首先需要训练待识别的孤立词所对应的模板。DTW算法首先需要训练待识别的孤立词所对应的模板。训练样本之间,长度也是不一样的。因此如何选择模板也是一个必须考虑的问题。
通常的做法是,首先计算出音频样本的平均长度,然后将最接***均长度的样本作为模板,将其它样本作为训练样本,用来训练、调整模板的具体值。最后对于与模板同样长度的样本,就可以计算相似性与距离,进行识别操作。
本申请中,主要采取的是MFCC参数,借助于该MFCC参数,其整体的语音特征良好的抗噪性和鲁棒性。
训练阶段:用户输入若干次训练语音,***经过预处理和语音特征提取两个阶段,得到了特定用户的特征矢量参数。
最后,网页会提示用户是否上传该语音特征,根据该提示,用户选择将自己的语音特征上传至特定语音特征库或者本地电脑中。
在训练了用户的语音特征之后,用户便可以进行语音识别和视频控制等后续步骤。
方法实施例三:
其中,所述语音识别步骤包括:
接收用户输入的语音;
将用户后续输入的语音控制命令与语音特征库中存储的中各指令语音特征进行相似性度量;
根据两者的相似度大小以判断用户的语音控制命令是否匹配语音特征库的特征。
在一个实施例中,用户在观看过程中,需要点击特定的语音操作按钮;图4是本发明的一个实施例的进行语音识别视频控制的流程示意图;
其中,在点击操作按钮之后,在特定时间内,例如10秒之内说出语音控制命令,在这10秒之内说出的操作命令被认为是有效的,并且进行识别,匹配相应的操作命令,并且做出反应。
此外,在一个实施例中,在观看过程中,需要首先对着麦克风说出某个发语词,比如“开始”,图5是本发明的另一个实施例的进行语音识别视频控制的流程示意图;
其中,语音识别程序在识别发语词之后,在特定时间内,例如,10秒内说出语音控制命令,在这10秒之内说出的操作命令被认为是有效的,并且进行识别,匹配相应的操作命令,并且做出反应。
并且,在语音识别程序识别出发语词10秒之后,如果没有识别出语音控制命令,那么再次进入等待阶段,这时候需要再次对麦克风说出发语词,之后才能进行语音控制。
通过上述技术方案,解决了在语音识别过程之中,由于语音识别程序始终监听用户的麦克风,避免用户在观看视频的过程中,由于某些误操作使得观看体验不好,具有很好的技术效果。
此外,由于在服务器存储用户的语音特征之后,下次用户在别的电脑,或者移动设备上再次打开语音识别程序,无需再次训练,而是用已经保存的语音特征,来进行语音识别并且对视频播放器进行控制,进而使得本申请基于特定人进行语音控制,克服了多个客户端无法应用的缺点。
例如,某一用户完成语音训练并将训练得到的语音特征上传至服务器后,以后在本机,他机或移动设备使用此语音识别flash程序,无需再训练,直接选择识别阶段的两种启动语音识别操作,进行再次识别并进而实现语音控制。
其中,在本申请之中,使用了互联网广泛使用的flash技术,具有覆盖率高,方便传播,易于使用,多终端配合等特点。当然,也可以采取微软的HTML5技术,这些都是本领域技术人员所能知晓的,在此不详细说明。
方法实施例四:
下面对本发明的应用实例进行说明:
1.用户A的UID=1,他首次下载了网页上提示的语音识别flash程序,特定人语音特征库中未曾建立UID=1的用户的语音特征,提示用户必须在语音训练后才可以使用语音识别功能,并给出语音训练操作提示,训练完成后用户A可使用语音识别对视频进行语音控制。
2.用户A的UID=1,他已完成了语音训练,以后无论在本机,他机或移动设备上想要实现语音识别功能,只需下载或打开flash语音识别扩展程序,无需再次进行语音训练,直接开启语音识别功能即可。若用户采用语音识别阶段的方式1,点击“开始”按钮并在10秒内给出指令“播放”,***完成语音识别进而做出“播放”视频的反应,如用户还有其它指令则需要再次点击“开始”按钮,在10秒内给出控制指令;若采用方式2,给出发语词“开始”,等待用户给出后续指令10秒,如果10秒内用户给出指令“播放”,进而做出反应,之后***恢复等待用户给出发语词状态,如用户还有其它指令则需要再次说明发语词后再给出后续指令。
3.用户B试图使用用户A的ID进行语音识别,点击开始后给出指令播放,服务器搜索UID=1的语音特征,发现本次语音指令的语音特征与特定语音特征库中UID=1的语音特征不匹配,则给出提示信息,提示用户注册或登录自己的账户,再进行语音识别操作。
结合上述描述,对本发明的技术优点进行详细说明如下:
1.覆盖率高,是指99%的浏览器装有flash插件,并且现在的移动设备很多也都支持flash插件,无需特殊的支持就可以广泛进行部署。
2.方便传播是指本语音识别方案不需要安装特定程序,只需要自动下载语音识别程序,就可以在flash上进行使用。
3.易于使用是指对于在线视频的语音控制,语音识别指令简单,可以通过少量的语音实现特定的视频播放控制功能。
4.多终端支持是可以通过服务器记录用户的语音特征,换了电脑或者移动设备之后,无需再次训练就能进行语音控制。
***实施例一:
下面结合附图对本发明的***进行详细说明,其中,图6是本发明基于语音识别的视频播放控制***的结构示意图;
如图6所示,所述基于语音识别的视频控制***,包括:
语音特征训练单元,用于对用户的语音进行训练提取语音特征并保存在语音特征库中;
语音特征识别单元,用于接收用户的语音控制命令,与所述保存的用户语音特征进行对比;
视频控制单元,用于当该用户的语音特征与服务器中的用户语音特征相匹配后,提取该语音控制命令并基于该语音控制命令进行视频播放的控制。
图7是本发明的一个实施例中的语音特征训练单元的示意图;图8是本发明的一个实施例的语音特征训练单元的架构示意图;
所述语音特征训练单元,具体包括:
特征参数提取子单元,用于计算用户的语音的声学参数,提取出能够反映语音信号特征的关键特征参数并进行降维;
特征参数训练子单元,用于获取用户输入的若干次控制命令的训练语音;经过预处理和语音特征后,得到特定用户的语音特征矢量参数;
发送子单元,用于将上述语音特征矢量参数存储在网络服务器中的语音特征库中。
其中,所述关键特征参数采用MFCC参数。
图9是本发明的一个实施例的语音特征识别单元的示意图;
所述语音特征识别单元,具体包括:
对比子单元,用于将用户后续输入的语音控制命令与语音特征库中存储的中各指令语音特征进行相似性度量,判断用户的语音控制命令是否匹配语音特征库的特征。
图10是本发明的一个实施例的视频控制单元的示意图。
如图10所示,所述视频控制单元,还包括:
FLASH播放器子单元;
播放器控制子单元,用于在10秒钟完成对应的用户语音控制命令的识别,在返回成功以后进行相应的视频控制动作。
本申请克服了现有技术中语音识别都是应用于单机或者必须下载特征的软件的技术缺点;并且,由于本申请的语音特征是基于特定人而保存在语音特征库中,能够实现基于特征人的语音识别的效果,并且,该种方法进行语音识别和控制,其准确率较高。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:只读存储器(Read Only Memory,简称ROM)、随机存取存储器(Random Acess Memory,简称RAM)、磁碟、终端手机软件或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于语音识别的视频控制方法,包括:
对用户的语音进行训练提取语音特征并保存在语音特征库中;
接收用户的语音控制命令,与所述保存的用户语音特征进行对比;
其中,当该用户的语音特征与服务器中的用户语音特征相匹配后,提取该语音控制命令并基于该语音控制命令进行视频播放的控制。
2.根据权利要求1所述的基于语音识别的视频控制方法,其特征在于,所述对用户语音进行训练提取语音特征并保存在语音特征库中,具体包括:
计算用户的语音的声学参数,提取出能够反映语音信号特征的关键特征参数并进行降维;
获取用户输入的若干次控制命令的训练语音;
经过预处理和语音特征后,得到特定用户的语音特征矢量参数并存储在网络服务器中的语音特征库中。
3.根据权利要求2所述的基于语音识别的视频控制方法,其特征在于,所述关键特征参数采用MFCC参数。
4.根据权利要求1~3任一所述的基于语音识别的视频控制方法,其特征在于,所述接收用户的语音控制命令,与所述保存的用户语音特征进行对比,具体包括:
将用户后续输入的语音控制命令与语音特征库中存储的中各指令语音特征进行相似性度量,判断用户的语音控制命令是否匹配语音特征库的特征。
5.根据权利要求4所述的基于语音识别的视频控制方法,其特征在于,所述视频控制方法基于FLASH播放器,其中,还包括:
在10秒钟完成对应的用户语音控制命令的识别步骤,在返回成功以后进行相应的视频控制动作。
6.一种基于语音识别的视频控制***,包括:
语音特征训练单元,用于对用户的语音进行训练提取语音特征并保存在语音特征库中;
语音特征识别单元,用于接收用户的语音控制命令,与所述保存的用户语音特征进行对比;
视频控制单元,用于当该用户的语音特征与服务器中的用户语音特征相匹配后,提取该语音控制命令并基于该语音控制命令进行视频播放的控制。
7.根据权利要求6所述的基于语音识别的视频控制***,其特征在于,所述语音特征训练单元,具体包括:
特征参数提取子单元,用于计算用户的语音的声学参数,提取出能够反映语音信号特征的关键特征参数并进行降维;
特征参数训练子单元,用于获取用户输入的若干次控制命令的训练语音;经过预处理和语音特征后,得到特定用户的语音特征矢量参数;
发送子单元,用于将上述语音特征矢量参数存储在网络服务器中的语音特征库中。
8.根据权利要求7所述的基于语音识别的视频控制***,其特征在于,所述关键特征参数采用MFCC参数。
9.根据权利要求6~8任一所述的基于语音识别的视频控制***,其特征在于,所述语音特征识别单元,具体包括:
对比子单元,用于将用户后续输入的语音控制命令与语音特征库中存储的中各指令语音特征进行相似性度量,判断用户的语音控制命令是否匹配语音特征库的特征。
10.根据权利要求9所述的基于语音识别的视频控制***,其特征在于,所述视频控制单元,还包括:
FLASH播放器子单元;
播放器控制子单元,用于在10秒钟完成对应的用户语音控制命令的识别,在返回成功以后进行相应的视频控制动作。
CN201210025924.8A 2012-02-07 2012-02-07 一种基于语音识别的视频播放控制方法和*** Expired - Fee Related CN102568478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210025924.8A CN102568478B (zh) 2012-02-07 2012-02-07 一种基于语音识别的视频播放控制方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210025924.8A CN102568478B (zh) 2012-02-07 2012-02-07 一种基于语音识别的视频播放控制方法和***

Publications (2)

Publication Number Publication Date
CN102568478A true CN102568478A (zh) 2012-07-11
CN102568478B CN102568478B (zh) 2015-01-07

Family

ID=46413734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210025924.8A Expired - Fee Related CN102568478B (zh) 2012-02-07 2012-02-07 一种基于语音识别的视频播放控制方法和***

Country Status (1)

Country Link
CN (1) CN102568478B (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880392A (zh) * 2012-09-29 2013-01-16 广东欧珀移动通信有限公司 一种浏览图片的方法、装置及移动终端
CN103366744A (zh) * 2013-07-04 2013-10-23 三星半导体(中国)研究开发有限公司 基于语音控制便携式终端的方法和装置
CN103426429A (zh) * 2013-07-15 2013-12-04 三星半导体(中国)研究开发有限公司 语音控制方法和装置
CN103543930A (zh) * 2012-07-13 2014-01-29 腾讯科技(深圳)有限公司 一种电子书操作控制方法及装置
CN103778915A (zh) * 2012-10-17 2014-05-07 三星电子(中国)研发中心 语音识别方法和移动终端
CN103839547A (zh) * 2012-11-27 2014-06-04 英业达科技有限公司 比对语音操作信号以载入对应指令元素的***及其方法
CN104200807A (zh) * 2014-09-18 2014-12-10 成都博智维讯信息技术有限公司 一种erp语音控制方法
CN104269170A (zh) * 2014-09-17 2015-01-07 成都博智维讯信息技术有限公司 一种erp权限语音识别方法
CN104320255A (zh) * 2014-09-30 2015-01-28 百度在线网络技术(北京)有限公司 生成账户认证数据的方法、账户认证的方法以及装置
CN104423980A (zh) * 2013-08-26 2015-03-18 联想(北京)有限公司 信息处理方法和信息处理设备
CN104598138A (zh) * 2014-12-24 2015-05-06 三星电子(中国)研发中心 电子地图控制方法及装置
CN104699676A (zh) * 2013-12-04 2015-06-10 中国电信股份有限公司 基于语音识别的信息搜索方法和***
CN104754261A (zh) * 2013-12-26 2015-07-01 深圳市快播科技有限公司 一种投影设备及投影方法
CN104766608A (zh) * 2014-01-07 2015-07-08 深圳市中兴微电子技术有限公司 一种语音控制方法及装置
CN105185384A (zh) * 2015-06-11 2015-12-23 王政 具有环境模拟功能的音控播放***及控制方法
CN105872619A (zh) * 2015-12-15 2016-08-17 乐视网信息技术(北京)股份有限公司 一种视频播放记录的匹配方法及匹配装置
CN105897686A (zh) * 2015-12-21 2016-08-24 乐视致新电子科技(天津)有限公司 智能电视语音管理用户账号方法及智能电视
CN106162987A (zh) * 2016-07-01 2016-11-23 深圳市盛莱普智能科技有限公司 照明灯具的语音控制方法
CN106409285A (zh) * 2016-11-16 2017-02-15 杭州联络互动信息科技股份有限公司 智能终端设备根据语音数据识别语言种类的方法及装置
CN106409289A (zh) * 2016-09-23 2017-02-15 合肥华凌股份有限公司 语音识别的环境自适应方法、语音识别装置和家用电器
CN106504743A (zh) * 2016-11-14 2017-03-15 北京光年无限科技有限公司 一种用于智能机器人的语音交互输出方法及机器人
WO2017219796A1 (zh) * 2016-06-21 2017-12-28 中兴通讯股份有限公司 一种视频业务控制方法、移动终端及业务服务器
CN107949880A (zh) * 2015-09-09 2018-04-20 三菱电机株式会社 车载用语音识别装置以及车载设备
CN108538293A (zh) * 2018-04-27 2018-09-14 青岛海信电器股份有限公司 语音唤醒方法、装置及智能设备
CN108766466A (zh) * 2018-06-19 2018-11-06 河南孚点电子科技有限公司 一种基于语音信号报警的视频控制方法
CN108831458A (zh) * 2018-05-29 2018-11-16 广东声将军科技有限公司 一种离线的语音到命令变换方法和***
CN108986792A (zh) * 2018-09-11 2018-12-11 苏州思必驰信息科技有限公司 用于语音对话平台的语音识别模型的训练调度方法及***
CN109979442A (zh) * 2017-12-27 2019-07-05 珠海市君天电子科技有限公司 一种语音控制方法、装置及电子设备
CN110867188A (zh) * 2018-08-13 2020-03-06 珠海格力电器股份有限公司 内容服务的提供方法、装置、存储介质及电子装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101493987A (zh) * 2008-01-24 2009-07-29 深圳富泰宏精密工业有限公司 手机声控遥控***及方法
CN201845550U (zh) * 2010-10-28 2011-05-25 庄鸿 Cd/dvd播放器语音识别***
CN102332262A (zh) * 2011-09-23 2012-01-25 哈尔滨工业大学深圳研究生院 基于音频特征的歌曲智能识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101493987A (zh) * 2008-01-24 2009-07-29 深圳富泰宏精密工业有限公司 手机声控遥控***及方法
CN201845550U (zh) * 2010-10-28 2011-05-25 庄鸿 Cd/dvd播放器语音识别***
CN102332262A (zh) * 2011-09-23 2012-01-25 哈尔滨工业大学深圳研究生院 基于音频特征的歌曲智能识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《微计算机信息(测控自动化)》 20041231 吴智量等 语音识别控制在音频、视频***中的应用 113-114 第20卷, 第7期 *
《新疆师范大学学报(自然科学版)》 20000930 王昆仑 语音特征的降维变换与特征鲁棒性 15-19 第19卷, 第3期 *
吴智量等: "语音识别控制在音频、视频***中的应用", 《微计算机信息(测控自动化)》 *
王昆仑: "语音特征的降维变换与特征鲁棒性", 《新疆师范大学学报(自然科学版)》 *

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103543930A (zh) * 2012-07-13 2014-01-29 腾讯科技(深圳)有限公司 一种电子书操作控制方法及装置
CN102880392A (zh) * 2012-09-29 2013-01-16 广东欧珀移动通信有限公司 一种浏览图片的方法、装置及移动终端
CN103778915A (zh) * 2012-10-17 2014-05-07 三星电子(中国)研发中心 语音识别方法和移动终端
CN103839547A (zh) * 2012-11-27 2014-06-04 英业达科技有限公司 比对语音操作信号以载入对应指令元素的***及其方法
CN103366744A (zh) * 2013-07-04 2013-10-23 三星半导体(中国)研究开发有限公司 基于语音控制便携式终端的方法和装置
CN103366744B (zh) * 2013-07-04 2015-10-14 三星半导体(中国)研究开发有限公司 基于语音控制便携式终端的方法和装置
CN103426429A (zh) * 2013-07-15 2013-12-04 三星半导体(中国)研究开发有限公司 语音控制方法和装置
CN103426429B (zh) * 2013-07-15 2017-04-05 三星半导体(中国)研究开发有限公司 语音控制方法和装置
CN104423980A (zh) * 2013-08-26 2015-03-18 联想(北京)有限公司 信息处理方法和信息处理设备
CN104423980B (zh) * 2013-08-26 2018-12-14 联想(北京)有限公司 信息处理方法和信息处理设备
CN104699676B (zh) * 2013-12-04 2019-03-26 中国电信股份有限公司 基于语音识别的信息搜索方法和***
CN104699676A (zh) * 2013-12-04 2015-06-10 中国电信股份有限公司 基于语音识别的信息搜索方法和***
CN104754261A (zh) * 2013-12-26 2015-07-01 深圳市快播科技有限公司 一种投影设备及投影方法
CN104766608A (zh) * 2014-01-07 2015-07-08 深圳市中兴微电子技术有限公司 一种语音控制方法及装置
CN104269170B (zh) * 2014-09-17 2018-04-20 成都博智维讯信息技术有限公司 一种erp权限语音识别方法
CN104269170A (zh) * 2014-09-17 2015-01-07 成都博智维讯信息技术有限公司 一种erp权限语音识别方法
CN104200807B (zh) * 2014-09-18 2017-11-17 温州大学 一种erp语音控制方法
CN104200807A (zh) * 2014-09-18 2014-12-10 成都博智维讯信息技术有限公司 一种erp语音控制方法
CN104320255A (zh) * 2014-09-30 2015-01-28 百度在线网络技术(北京)有限公司 生成账户认证数据的方法、账户认证的方法以及装置
CN104598138B (zh) * 2014-12-24 2017-10-17 三星电子(中国)研发中心 电子地图控制方法及装置
CN104598138A (zh) * 2014-12-24 2015-05-06 三星电子(中国)研发中心 电子地图控制方法及装置
CN105185384A (zh) * 2015-06-11 2015-12-23 王政 具有环境模拟功能的音控播放***及控制方法
CN105185384B (zh) * 2015-06-11 2018-11-30 南京舒尔茨智能技术有限公司 具有环境模拟功能的音控播放***及控制方法
CN107949880A (zh) * 2015-09-09 2018-04-20 三菱电机株式会社 车载用语音识别装置以及车载设备
CN105872619A (zh) * 2015-12-15 2016-08-17 乐视网信息技术(北京)股份有限公司 一种视频播放记录的匹配方法及匹配装置
CN105897686A (zh) * 2015-12-21 2016-08-24 乐视致新电子科技(天津)有限公司 智能电视语音管理用户账号方法及智能电视
WO2017219796A1 (zh) * 2016-06-21 2017-12-28 中兴通讯股份有限公司 一种视频业务控制方法、移动终端及业务服务器
CN107527613A (zh) * 2016-06-21 2017-12-29 中兴通讯股份有限公司 一种视频业务控制方法、移动终端及业务服务器
CN106162987A (zh) * 2016-07-01 2016-11-23 深圳市盛莱普智能科技有限公司 照明灯具的语音控制方法
CN106409289A (zh) * 2016-09-23 2017-02-15 合肥华凌股份有限公司 语音识别的环境自适应方法、语音识别装置和家用电器
CN106409289B (zh) * 2016-09-23 2019-06-28 合肥美的智能科技有限公司 语音识别的环境自适应方法、语音识别装置和家用电器
CN106504743A (zh) * 2016-11-14 2017-03-15 北京光年无限科技有限公司 一种用于智能机器人的语音交互输出方法及机器人
CN106409285A (zh) * 2016-11-16 2017-02-15 杭州联络互动信息科技股份有限公司 智能终端设备根据语音数据识别语言种类的方法及装置
CN109979442A (zh) * 2017-12-27 2019-07-05 珠海市君天电子科技有限公司 一种语音控制方法、装置及电子设备
CN108538293A (zh) * 2018-04-27 2018-09-14 青岛海信电器股份有限公司 语音唤醒方法、装置及智能设备
CN108831458A (zh) * 2018-05-29 2018-11-16 广东声将军科技有限公司 一种离线的语音到命令变换方法和***
CN108766466A (zh) * 2018-06-19 2018-11-06 河南孚点电子科技有限公司 一种基于语音信号报警的视频控制方法
CN110867188A (zh) * 2018-08-13 2020-03-06 珠海格力电器股份有限公司 内容服务的提供方法、装置、存储介质及电子装置
CN108986792A (zh) * 2018-09-11 2018-12-11 苏州思必驰信息科技有限公司 用于语音对话平台的语音识别模型的训练调度方法及***

Also Published As

Publication number Publication date
CN102568478B (zh) 2015-01-07

Similar Documents

Publication Publication Date Title
CN102568478B (zh) 一种基于语音识别的视频播放控制方法和***
JP6613347B2 (ja) 情報をプッシュする方法及び装置
US9837068B2 (en) Sound sample verification for generating sound detection model
CN110970014B (zh) 语音转换、文件生成、播音、语音处理方法、设备及介质
US10529340B2 (en) Voiceprint registration method, server and storage medium
CN104575504A (zh) 采用声纹和语音识别进行个性化电视语音唤醒的方法
US10224030B1 (en) Dynamic gazetteers for personalized entity recognition
CN110544473B (zh) 语音交互方法和装置
EP3195310A1 (en) Keyword detection using speaker-independent keyword models for user-designated keywords
CN106971723A (zh) 语音处理方法和装置、用于语音处理的装置
KR20140089863A (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
US20170262537A1 (en) Audio scripts for various content
KR20160106075A (ko) 오디오 스트림에서 음악 작품을 식별하기 위한 방법 및 디바이스
CN103943111A (zh) 一种身份识别的方法及装置
CN110691258A (zh) 一种节目素材制作方法、装置及计算机存储介质、电子设备
CN109346057A (zh) 一种智能儿童玩具的语音处理***
CN103426429B (zh) 语音控制方法和装置
WO2019101099A1 (zh) 视频节目识别方法、设备、终端、***和存储介质
CN105006179A (zh) 语音输入的内容跟读方法和装置
CN109271480B (zh) 一种语音搜题方法及电子设备
CN110660385A (zh) 一种命令词检测方法及电子设备
JP2021033228A (ja) 情報処理装置、キーワード検出装置、情報処理方法およびプログラム
CN112837688B (zh) 语音转写方法、装置、相关***及设备
JP2006189799A (ja) 選択可能な音声パターンの音声入力方法及び装置
CN112017662B (zh) 控制指令确定方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee after: Youku network technology (Beijing) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: 1VERGE INTERNET TECHNOLOGY (BEIJING) Co.,Ltd.

CP01 Change in the name or title of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20200624

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: Youku network technology (Beijing) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210301

Address after: 100102 room 801, 8th floor, building 9, District 4, Wangjing East Garden, Chaoyang District, Beijing

Patentee after: Beijing Alibaba Music Technology Co.,Ltd.

Address before: 310052 room 508, 5th floor, building 4, No. 699 Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: Alibaba (China) Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150107

Termination date: 20210207

CF01 Termination of patent right due to non-payment of annual fee