CN110139146A - 基于声纹识别的语音识别抗干扰方法、装置及存储介质 - Google Patents
基于声纹识别的语音识别抗干扰方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110139146A CN110139146A CN201910267072.5A CN201910267072A CN110139146A CN 110139146 A CN110139146 A CN 110139146A CN 201910267072 A CN201910267072 A CN 201910267072A CN 110139146 A CN110139146 A CN 110139146A
- Authority
- CN
- China
- Prior art keywords
- vocal print
- pickup data
- application
- speech recognition
- instruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000001755 vocal effect Effects 0.000 claims abstract description 109
- 238000004891 communication Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 7
- 230000006399 behavior Effects 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 abstract description 6
- 239000000203 mixture Substances 0.000 description 4
- 230000000739 chaotic effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于声纹识别的语音识别抗干扰方法、装置及存储介质,所述方法包括:收集获取拾音数据;对获取的拾音数据进行声纹识别,将所有的声纹特征及对应的拾音数据进行分解,解出按照声纹特征为维度的新的拾音数据;将新的拾音数据按照分组进行语义解析,解析成按照声纹为维度存为声纹语义指令;并过滤不清楚的无效指令;得到有效语音指令;控制按预定规则执行与有效语音指令对应的操作。本发明解决多人同时下发指令环境下,语音拾音同时识别到多组或多个声源造成的指令混乱,多声源混杂指令无法有效的识别及执行的问题;提高了语音识别解析指令的准确率,极大的提升了智能电视语音交互的语音识别的效率及质量,提高了安全性。
Description
技术领域
本发明涉及语音识别技术领域,具体涉及一种基于声纹识别的语音识别抗干扰方法、装置及存储介质。
背景技术
当前智能电视语音识别功能已经成为一种新型的电视交互方式,虽然语音的出现给电视的交互带来了非常大的易用性体验。
但是当前的语音识别在使用的过程中存在一个非常大的缺陷,当语音输入的时候如果同时有很多人都在说话(发送指令),语音会把所有人说话的声音都录制进去(拾音),而语音在进行解析这些录音的时候并不会进行区分(语义解析),所以解析出来的结果就是所有人的说话都夹杂在一起,无法解析出正确的语音指令供电视执行,不方便用户的使用。
因此,现有技术还有待于改进和发展。
发明内容
鉴于上述现有技术的不足之处,本发明的目的在于提供一种基于声纹识别的语音识别抗干扰方法、装置及存储介质,本发明解决多人同时下发指令环境下,语音拾音同时识别到多组或多个声源造成的指令混乱,多声源混杂指令无法有效的识别及执行的问题;提高了语音识别解析指令的准确率,极大的提升了智能电视语音交互的语音识别的效率及质量,提高了安全性。
为了达到上述目的,本发明采取了以下技术方案:
一种基于声纹识别的语音识别抗干扰方法,其中,包括如下步骤:
A、收集获取拾音数据;
B、对获取的拾音数据进行声纹识别,将所有的声纹特征及对应的拾音数据进行分解,解出按照声纹特征为维度的新的拾音数据;
C、将新的拾音数据按照分组进行语义解析,解析成按照声纹为维度存为声纹语义指令;并过滤不清楚的无效指令;得到有效语音指令;
D、控制按预定规则执行与有效语音指令对应的操作。
所述的基于声纹识别的语音识别抗干扰方法,其中,所述步骤A之前还包括:
S1、预先设置用于获取拾音数据的语音拾音模块;
S2、以设置与语音拾音模块连接的,用于进行声纹识别的声纹识别模块;
S3、以设置与声纹识别模块连接的,用于进行语义解析的解析模块;
以及设置与解析模块连接的,用于过滤不清楚的无效指令的抗干扰分析模块。
所述的基于声纹识别的语音识别抗干扰方法,其中,所述步骤A包括:
A1、通过语音拾音模块收集获取拾音数据。
所述的基于声纹识别的语音识别抗干扰方法,其中,所述步骤B包括:
B1、通过声纹识别模块对获取的拾音数据进行声纹识别,解析出拾音数据的声纹特征,将所有的声纹特征及对应的拾音数据进行分解,分解出按照声纹特征为维度的新的拾音数据。
所述的基于声纹识别的语音识别抗干扰方法,其中,所述步骤C包括:
C1、将新的拾音数据按照分组发给解析模块进行语义解析;语义解析的结果按照声纹为维度存为声纹语义指令;并过滤不清楚的无效指令;得到有效语音指令。
所述的基于声纹识别的语音识别抗干扰方法,其中,所述步骤D包括:
D1、通过指令执行模块获取所述有效语音指令;并控制执行与有效语音指令对应的操作;
D2、当同时有多条有效语音指令时,则根据程序设定读取优先级高的指令执行或者按顺序执行所有有效指令。
一种基于声纹识别的语音识别抗干扰装置,其中,包括:处理器、存储器和通信总线;
所述存储器上存储有可被所述处理器执行的基于声纹识别的语音识别抗干扰程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述基于声纹识别的语音识别抗干扰程序时实现如下步骤:
收集获取拾音数据;
对获取的拾音数据进行声纹识别,将所有的声纹特征及对应的拾音数据进行分解,解出按照声纹特征为维度的新的拾音数据;
将新的拾音数据按照分组进行语义解析,解析成按照声纹为维度存为声纹语义指令;并过滤不清楚的无效指令;得到有效语音指令;
控制按预定规则执行与有效语音指令对应的操作。
所述基于声纹识别的语音识别抗干扰装置,其中,所述处理器执行所述基于声纹识别的语音识别抗干扰程序时还实现如下步骤:
通过语音拾音模块收集获取拾音数据;
通过声纹识别模块对获取的拾音数据进行声纹识别,解析出拾音数据的声纹特征,将所有的声纹特征及对应的拾音数据进行分解,分解出按照声纹特征为维度的新的拾音数据;
将新的拾音数据按照分组发给解析模块进行语义解析;语义解析的结果按照声纹为维度存为声纹语义指令;并过滤不清楚的无效指令;得到有效语音指令。
所述基于声纹识别的语音识别抗干扰装置,其中,所述处理器执行所述基于声纹识别的语音识别抗干扰程序时还实现如下步骤:
通过指令执行模块获取所述有效语音指令;并控制执行与有效语音指令对应的操作;
当同时有多条有效语音指令时,则根据程序设定读取优先级高的指令执行或者按顺序执行所有有效指令。
一种基于声纹识别的语音识别抗干扰装置,其中,包括:
语音拾音模块,用于收集获取拾音数据;
声纹识别模块,用于对获取的拾音数据进行声纹识别,将所有的声纹特征及对应的拾音数据进行分解,解出按照声纹特征为维度的新的拾音数据;
解析模块,用于将新的拾音数据按照分组进行语义解析,解析成按照声纹为维度存为声纹语义指令;
抗干扰分析模块,用于过滤不清楚的无效指令;得到有效语音指令;
指令执行模块,用于控制按预定规则执行与有效语音指令对应的操作。
一种计算机可读存储介质,其中,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现任意一项所述的基于声纹识别的语音识别抗干扰方法中的步骤。
相较于现有技术,本发明提供的基于声纹识别的语音识别抗干扰方法、装置及存储介质,所述方法通过在语音拾音后通过声纹识别模块进行拾音数据的声纹数据分组,通过解析声纹数据的语义提取声纹分组的语音指令,并剔除无效指令,执行有效语音指令。语音拾音模块的拾音数据在发给声纹识别模块的之前首先调用声纹识别模块,通过声纹识别模块解析出拾音模块拾音数据具有几个声纹特征,将所有的声纹特征及对应的拾音数据进行分解出按照声纹特征为维度的新的拾音数据,将新的拾音数据按照分组发给声纹识别模块进行语义解析,语义解析的结果按照声纹为维度存为声纹语义指令,语义解析将声纹语义指令发送给指令执行模块,指令执行模块调用指令抗干扰分析模块对发送过来的声纹语义指令进行分析,把无效指令剔除,提取有效指令并进行指令执行,如果提取的声纹指令有多条有效指令可以根据程序设定读取优先级高的指令执行或者顺序执行所有有效指令。
本发明解决多人同时下发指令环境下,语音拾音同时识别到多组或多个声源造成的指令混乱,多声源混杂指令无法有效的识别及执行的问题;提高了语音识别解析指令的准确率,极大的提升了智能电视语音交互的语音识别的效率及质量,提高了安全性。
附图说明
图1为本发明提供的基于声纹识别的语音识别抗干扰方法的流程图。
图2为本发明基于声纹识别的语音识别抗干扰装置较佳实施例的功能模块图。
图3为本发明基于声纹识别的语音识别抗干扰装置另一较佳实施例的功能模块图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
请参阅图1,本发明提供的基于声纹识别的语音识别抗干扰方法包括以下步骤:
S100、收集获取拾音数据。
例如可以设置通过一语音拾音模块收集获取拾音数据。例如通过麦克收集人的语音信号等。
本发明在具体实施前,可以预先设置用于获取拾音数据的语音拾音模块;以设置与语音拾音模块连接的,用于进行声纹识别的声纹识别模块;以设置与声纹识别模块连接的,用于进行语义解析的解析模块;以及设置与解析模块连接的,用于过滤不清楚的无效指令的抗干扰分析模块。
S200、对获取的拾音数据进行声纹识别,将所有的声纹特征及对应的拾音数据进行分解,解出按照声纹特征为维度的新的拾音数据。
本步骤中,对获取的拾音数据进行声纹识别,将所有的声纹特征及对应的拾音数据进行分解,解出按照声纹特征为维度的新的拾音数据。即分解出不同的人有不同的声纹数据,解出按照声纹特征区别不同人为维度的新的拾音数据。
例如可以通过声纹识别模块对获取的拾音数据进行声纹识别,解析出拾音数据的声纹特征,将所有的声纹特征及对应的拾音数据进行分解,分解出按照声纹特征为维度的新的拾音数据。即解析识别出每一个人发出的对应的拾音数据。
S300、将新的拾音数据按照分组进行语义解析,解析成按照声纹为维度存为声纹语义指令;并过滤不清楚的无效指令;得到有效语音指令。
本发明实施例中将新的拾音数据按照分组进行语义解析,解析成按照声纹为维度存为声纹语义指令,即解析出不同人讲的语音对应的声纹语义指令;并将不清楚的无效指令过滤;得到有效语音指令。
例如可以、将新的拾音数据按照分组发给解析模块进行语义解析;语义解析的结果按照声纹为维度存为声纹语义指令;并过滤不清楚的无效指令;得到有效语音指令。
S400、控制按预定规则执行与有效语音指令对应的操作。
本发明实施例中,可以通过指令执行模块获取所述有效语音指令;并控制执行与有效语音指令对应的操作;当同时有多条有效语音指令时,则根据程序设定读取优先级高的指令执行或者按顺序执行所有有效指令。
以下通过一具体实施例对本发明做进一步详细说明:
本发明基于声纹识别的语音识别抗干扰方法包括以下步骤:
语音拾音模块的拾音数据在发给语义解析模块的之前首先调用声纹识别模块
通过声纹识别模块解析出拾音模块拾音数据具有几个声纹特征,将所有的声纹特征及对应的拾音数据进行分解出按照声纹特征为维度的新的拾音数据,将新的拾音数据按照分组发给语义解析模块进行语义解析
语义解析的结果按照声纹为维度存为声纹语义指令
语义解析将声纹语义指令发送给指令执行模块
指令执行模块调用指令抗干扰分析模块对发送过来的声纹语义指令进行分析,把无效指令剔除,提取有效指令并进行指令执行
如果提取的声纹指令有多条有效指令可以根据程序设定读取优先级高的指令执行或者顺序执行所有有效指令。
由上可见,本发明提供了一种基于声纹识别的语音识别抗干扰方法,本发明解决多人同时下发指令环境下,语音拾音同时识别到多组或多个声源造成的指令混乱,多声源混杂指令无法有效的识别及执行的问题;提高了语音识别解析指令的准确率,极大的提升了智能电视语音交互的语音识别的效率及质量,提高了安全性。
如图2所示,基于上述基于声纹识别的语音识别抗干扰方法,本发明还相应提供了一种基于声纹识别的语音识别抗干扰装置,所述基于声纹识别的语音识别抗干扰装置可以是智能电视机、智能音响、笔记本、掌上电脑及服务器、智能手机等智能设备。该基于声纹识别的语音识别抗干扰装置包括处理器10、存储器20及显示屏30, 处理器10通过通信总线50与存储器20连接,所述显示屏30通过通信总线50与处理器10连接。图2仅示出了基于声纹识别的语音识别抗干扰装置的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器20在一些实施例中可以是所述基于声纹识别的语音识别抗干扰装置的内部存储单元,例如基于声纹识别的语音识别抗干扰装置的内存。所述存储器20在另一些实施例中也可以是所述基于声纹识别的语音识别抗干扰装置的外部存储设备,例如所述基于声纹识别的语音识别抗干扰装置上配备的插接式U盘,智能存储卡(Smart MediaCard, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器20还可以既包括所基于声纹识别的语音识别抗干扰装置的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述基于声纹识别的语音识别抗干扰装置的应用软件及各类数据,例如所述安装基于声纹识别的语音识别抗干扰装置的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器20上存储有基于声纹识别的语音识别抗干扰方法程序40,该基于声纹识别的语音识别抗干扰方法程序40可被处理器10所执行,从而实现本申请中基于声纹识别的语音识别抗干扰方法。
所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器,或其他数据处理芯片,用于运行所述存储器20中存储的程序代码或处理数据,例如执行所述基于声纹识别的语音识别抗干扰方法等。
所述显示屏30在一些实施例中可以是LED显示屏、液晶显示屏、触控式液晶显示屏以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示屏30用于显示在所述基于声纹识别的语音识别抗干扰装置的信息以及用于显示可视化的用户界面。
在一实施例中,当处理器10执行所述存储器20中基于声纹识别的语音识别抗干扰方法程序40时实现以下步骤:
收集获取拾音数据;
对获取的拾音数据进行声纹识别,将所有的声纹特征及对应的拾音数据进行分解,解出按照声纹特征为维度的新的拾音数据;
将新的拾音数据按照分组进行语义解析,解析成按照声纹为维度存为声纹语义指令;并过滤不清楚的无效指令;得到有效语音指令;
控制按预定规则执行与有效语音指令对应的操作。
所述基于声纹识别的语音识别抗干扰装置,其中,所述处理器执行所述基于声纹识别的语音识别抗干扰程序时还实现如下步骤:
通过语音拾音模块收集获取拾音数据;
通过声纹识别模块对获取的拾音数据进行声纹识别,解析出拾音数据的声纹特征,将所有的声纹特征及对应的拾音数据进行分解,分解出按照声纹特征为维度的新的拾音数据;
将新的拾音数据按照分组发给解析模块进行语义解析;语义解析的结果按照声纹为维度存为声纹语义指令;并过滤不清楚的无效指令;得到有效语音指令。
所述基于声纹识别的语音识别抗干扰装置,其中,所述处理器执行所述基于声纹识别的语音识别抗干扰程序时还实现如下步骤:
通过指令执行模块获取所述有效语音指令;并控制执行与有效语音指令对应的操作;
当同时有多条有效语音指令时,则根据程序设定读取优先级高的指令执行或者按顺序执行所有有效指令,具体如上所述。
请参阅图3,其为本发明基于声纹识别的语音识别抗干扰装置较佳实施例的功能模块图。所述基于声纹识别的语音识别抗干扰装置,包括:
语音拾音模块21,用于收集获取拾音数据;
声纹识别模块22,用于对获取的拾音数据进行声纹识别,将所有的声纹特征及对应的拾音数据进行分解,解出按照声纹特征为维度的新的拾音数据;
解析模块23,用于将新的拾音数据按照分组进行语义解析,解析成按照声纹为维度存为声纹语义指令;
抗干扰分析模块24,用于过滤不清楚的无效指令;得到有效语音指令;
指令执行模块25,用于控制按预定规则执行与有效语音指令对应的操作,具体如上所述。
基于上述实施例,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述任意一项所述的基于声纹识别的语音识别抗干扰方法中的步骤,具体如上所述。
综上所述,本发明提供的基于声纹识别的语音识别抗干扰方法、装置及存储介质,所述方法通过在语音拾音后通过声纹识别模块进行拾音数据的声纹数据分组,通过解析声纹数据的语义提取声纹分组的语音指令,并剔除无效指令,执行有效语音指令。语音拾音模块的拾音数据在发给声纹识别模块的之前首先调用声纹识别模块,通过声纹识别模块解析出拾音模块拾音数据具有几个声纹特征,将所有的声纹特征及对应的拾音数据进行分解出按照声纹特征为维度的新的拾音数据,将新的拾音数据按照分组发给声纹识别模块进行语义解析,语义解析的结果按照声纹为维度存为声纹语义指令,语义解析将声纹语义指令发送给指令执行模块,指令执行模块调用指令抗干扰分析模块对发送过来的声纹语义指令进行分析,把无效指令剔除,提取有效指令并进行指令执行,如果提取的声纹指令有多条有效指令可以根据程序设定读取优先级高的指令执行或者顺序执行所有有效指令。
本发明解决多人同时下发指令环境下,语音拾音同时识别到多组或多个声源造成的指令混乱,多声源混杂指令无法有效的识别及执行的问题;提高了语音识别解析指令的准确率,极大的提升了智能电视语音交互的语音识别的效率及质量,提高了安全性。
当然,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器,控制器等)来完成,所述的程序可存储于一计算机可读取的存储介质中,该程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (10)
1.一种基于声纹识别的语音识别抗干扰方法,其特征在于,包括如下步骤:
A、收集获取拾音数据;
B、对获取的拾音数据进行声纹识别,将所有的声纹特征及对应的拾音数据进行分解,解出按照声纹特征为维度的新的拾音数据;
C、将新的拾音数据按照分组进行语义解析,解析成按照声纹为维度存为声纹语义指令;并过滤不清楚的无效指令;得到有效语音指令;
D、控制按预定规则执行与有效语音指令对应的操作。
2.根据权利要求1所述的基于声纹识别的语音识别抗干扰方法,其特征在于,所述步骤A之前还包括:
S1、预先设置用于获取拾音数据的语音拾音模块;
S2、以设置与语音拾音模块连接的,用于进行声纹识别的声纹识别模块;
S3、以设置与声纹识别模块连接的,用于进行语义解析的解析模块;
以及设置与解析模块连接的,用于过滤不清楚的无效指令的抗干扰分析模块。
3.根据权利要求1所述的基于声纹识别的语音识别抗干扰方法,其特征在于,所述步骤A包括:
A1、通过语音拾音模块收集获取拾音数据。
4.根据权利要求1所述的基于声纹识别的语音识别抗干扰方法,其特征在于,所述步骤B包括:
B1、通过声纹识别模块对获取的拾音数据进行声纹识别,解析出拾音数据的声纹特征,将所有的声纹特征及对应的拾音数据进行分解,分解出按照声纹特征为维度的新的拾音数据。
5.根据权利要求1所述的基于声纹识别的语音识别抗干扰方法,其特征在于,所述步骤C包括:
C1、将新的拾音数据按照分组发给解析模块进行语义解析;语义解析的结果按照声纹为维度存为声纹语义指令;并过滤不清楚的无效指令;得到有效语音指令。
6.根据权利要求1所述的基于声纹识别的语音识别抗干扰方法,其特征在于,所述步骤D包括:
D1、通过指令执行模块获取所述有效语音指令;并控制执行与有效语音指令对应的操作;
D2、当同时有多条有效语音指令时,则根据程序设定读取优先级高的指令执行或者按顺序执行所有有效指令。
7.一种基于声纹识别的语音识别抗干扰装置,其特征在于,包括:处理器、存储器和通信总线;
所述存储器上存储有可被所述处理器执行的基于声纹识别的语音识别抗干扰程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述基于声纹识别的语音识别抗干扰程序时实现如下步骤:
收集获取拾音数据;
对获取的拾音数据进行声纹识别,将所有的声纹特征及对应的拾音数据进行分解,解出按照声纹特征为维度的新的拾音数据;
将新的拾音数据按照分组进行语义解析,解析成按照声纹为维度存为声纹语义指令;并过滤不清楚的无效指令;得到有效语音指令;
控制按预定规则执行与有效语音指令对应的操作。
8.根据权利要求7所述基于声纹识别的语音识别抗干扰装置,其特征在于,所述处理器执行所述基于声纹识别的语音识别抗干扰程序时还实现如下步骤:
通过语音拾音模块收集获取拾音数据;
通过声纹识别模块对获取的拾音数据进行声纹识别,解析出拾音数据的声纹特征,将所有的声纹特征及对应的拾音数据进行分解,分解出按照声纹特征为维度的新的拾音数据;
将新的拾音数据按照分组发给解析模块进行语义解析;语义解析的结果按照声纹为维度存为声纹语义指令;并过滤不清楚的无效指令;得到有效语音指令;
通过指令执行模块获取所述有效语音指令;并控制执行与有效语音指令对应的操作;
当同时有多条有效语音指令时,则根据程序设定读取优先级高的指令执行或者按顺序执行所有有效指令。
9.一种基于声纹识别的语音识别抗干扰装置,其特征在于,包括:
语音拾音模块,用于收集获取拾音数据;
声纹识别模块,用于对获取的拾音数据进行声纹识别,将所有的声纹特征及对应的拾音数据进行分解,解出按照声纹特征为维度的新的拾音数据;
解析模块,用于将新的拾音数据按照分组进行语义解析,解析成按照声纹为维度存为声纹语义指令;
抗干扰分析模块,用于过滤不清楚的无效指令;得到有效语音指令;
指令执行模块,用于控制按预定规则执行与有效语音指令对应的操作。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-6任意一项所述的基于声纹识别的语音识别抗干扰方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910267072.5A CN110139146A (zh) | 2019-04-03 | 2019-04-03 | 基于声纹识别的语音识别抗干扰方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910267072.5A CN110139146A (zh) | 2019-04-03 | 2019-04-03 | 基于声纹识别的语音识别抗干扰方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110139146A true CN110139146A (zh) | 2019-08-16 |
Family
ID=67568969
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910267072.5A Pending CN110139146A (zh) | 2019-04-03 | 2019-04-03 | 基于声纹识别的语音识别抗干扰方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110139146A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112802452A (zh) * | 2020-12-21 | 2021-05-14 | 出门问问(武汉)信息科技有限公司 | 垃圾指令识别方法及装置 |
CN113205819A (zh) * | 2021-04-22 | 2021-08-03 | 苏州知轶信息科技有限公司 | 基于地面机器人的智能陪护方法、设备、介质及产品 |
CN113421567A (zh) * | 2021-08-25 | 2021-09-21 | 江西影创信息产业有限公司 | 基于智能眼镜的终端设备控制方法、***及智能眼镜 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108682414A (zh) * | 2018-04-20 | 2018-10-19 | 深圳小祺智能科技有限公司 | 语音控制方法、语音***、设备和存储介质 |
CN108932947A (zh) * | 2018-07-24 | 2018-12-04 | 珠海格力电器股份有限公司 | 语音控制方法及家电设备 |
CN109065051A (zh) * | 2018-09-30 | 2018-12-21 | 珠海格力电器股份有限公司 | 一种语音识别处理方法及装置 |
-
2019
- 2019-04-03 CN CN201910267072.5A patent/CN110139146A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108682414A (zh) * | 2018-04-20 | 2018-10-19 | 深圳小祺智能科技有限公司 | 语音控制方法、语音***、设备和存储介质 |
CN108932947A (zh) * | 2018-07-24 | 2018-12-04 | 珠海格力电器股份有限公司 | 语音控制方法及家电设备 |
CN109065051A (zh) * | 2018-09-30 | 2018-12-21 | 珠海格力电器股份有限公司 | 一种语音识别处理方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112802452A (zh) * | 2020-12-21 | 2021-05-14 | 出门问问(武汉)信息科技有限公司 | 垃圾指令识别方法及装置 |
CN113205819A (zh) * | 2021-04-22 | 2021-08-03 | 苏州知轶信息科技有限公司 | 基于地面机器人的智能陪护方法、设备、介质及产品 |
CN113421567A (zh) * | 2021-08-25 | 2021-09-21 | 江西影创信息产业有限公司 | 基于智能眼镜的终端设备控制方法、***及智能眼镜 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11315366B2 (en) | Conference recording method and data processing device employing the same | |
CN110139146A (zh) | 基于声纹识别的语音识别抗干扰方法、装置及存储介质 | |
CN107492379B (zh) | 一种声纹创建与注册方法及装置 | |
WO2020098249A1 (zh) | 电子装置、应对话术推荐方法和计算机可读存储介质 | |
CN110246512A (zh) | 声音分离方法、装置及计算机可读存储介质 | |
CN108986826A (zh) | 自动生成会议记录的方法、电子装置及可读存储介质 | |
CN102799821A (zh) | 智能卡与持卡人身份验证的方法及人脸识别身份验证装置 | |
WO2021175019A1 (zh) | 音视频录制引导方法、装置、计算机设备及存储介质 | |
CN107274916A (zh) | 基于声纹信息对音频/视频文件进行操作的方法及装置 | |
US20190066695A1 (en) | Voiceprint registration method, server and storage medium | |
CN109192194A (zh) | 语音数据标注方法、装置、计算机设备及存储介质 | |
CN110047467B (zh) | 语音识别方法、装置、存储介质及控制终端 | |
CN111243603B (zh) | 声纹识别方法、***、移动终端及存储介质 | |
CN113903363B (zh) | 基于人工智能的违规行为检测方法、装置、设备及介质 | |
CN108921204A (zh) | 电子装置、图片样本集生成方法和计算机可读存储介质 | |
CN112507314B (zh) | 客户身份核实方法、装置、电子设备及存储介质 | |
CN111488813B (zh) | 视频的情感标注方法、装置、电子设备及存储介质 | |
CN109602421A (zh) | 健康监测方法、装置及计算机可读存储介质 | |
CN114639152A (zh) | 基于人脸识别的多模态语音交互方法、装置、设备及介质 | |
CN110222493A (zh) | 一种计算机开机身份验证***及方法 | |
CN114791771A (zh) | 智能语音鼠标的交互管理***及管理方法 | |
CN103984415B (zh) | 一种信息处理方法及电子设备 | |
CN113791723A (zh) | 数据录入方法、设备及存储介质 | |
CN110288996A (zh) | 一种语音识别装置和语音识别方法 | |
CN109993053A (zh) | 电子装置、基于微表情识别的访谈辅助方法和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190816 |