CN106875949A - 一种语音识别的校正方法及装置 - Google Patents
一种语音识别的校正方法及装置 Download PDFInfo
- Publication number
- CN106875949A CN106875949A CN201710291330.4A CN201710291330A CN106875949A CN 106875949 A CN106875949 A CN 106875949A CN 201710291330 A CN201710291330 A CN 201710291330A CN 106875949 A CN106875949 A CN 106875949A
- Authority
- CN
- China
- Prior art keywords
- speech recognition
- current application
- application scene
- result
- language material
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000000463 material Substances 0.000 claims abstract description 77
- 238000013136 deep learning model Methods 0.000 claims abstract description 24
- 238000001514 detection method Methods 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000012360 testing method Methods 0.000 claims abstract description 17
- 238000013135 deep learning Methods 0.000 claims abstract description 15
- 238000012937 correction Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 description 12
- 238000013519 translation Methods 0.000 description 10
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 235000014443 Pyrus communis Nutrition 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种语音识别的校正方法及装置,该方法包括:根据设定检测设备的检测数据确定用户所处的当前应用场景;在所述当前应用场景下对检测到的声音进行语音识别;基于所述当前应用场景对应的深度学习模型对语音识别得到的语料进行深度学习,获取学习结果;根据所述学习结果对语音识别的结果进行校正。本发明实施例能够满足特定应用场景语音识别的要求,具有针对性的对各个应用场景进行语音识别,大大提升了语音识别的准确性,进而促进了人机交互,可应用范围广泛。
Description
技术领域
本发明涉及语音处理技术,尤其涉及一种语音识别的校正方法及装置。
背景技术
随着科技的发展,人类已进入人工智能时代,人工智能用于延展人类的智慧和能力,模拟人类的思维过程和智能行为,使机器能够胜任通常需要人类智能才能完成的复杂工作。人工智能的其中一个重要分支包括语音识别、文字翻译以及语音合成,语音识别技术是机器通过识别和理解过程把输入的语音信号转变成相应的文本,实现人与机器的交流;文字翻译技术是将语音识别到的词语按照正确的语法翻译为语句;语音合成技术(Text toSpeech,简称TTS)是将机器产生或外部输入的文字信息转变为类似人类表达方式的语音并输出。
目前,科大讯飞、微软、谷歌等公司研制出的语音识别技术是基于具有庞大的云数据处理能力的大数据平台计算而来,数据量具有大而广的特点,可以基本实现人机语言交互,但是,针对特定应用场景下的特定应用语句的识别和翻译往往是不够准确的。
现有技术的校正方法中,通常采用统计学或机器学习的方法,逐步过滤获取校正集合。但是这种方法由于缺乏针对性,对每个用户的输入进行校正的过程基本是相同的,因此校正的准确性不高。例如,接收到不同用户的语音“lihua”,通过初始识别获取的对应文本为“李华”,可能通通校正为“梨花”、“理化”或者“礼花”,即没有根据不同的应用场景更具有针对性的获取校正结果。
发明内容
本发明实施例提供一种语音识别的校正方法及装置,以解决现有技术中对语音识别结果校正不准确的问题。
第一方面,本发明实施例提供了一种语音识别的校正方法,包括:
根据设定检测设备的检测数据确定用户所处的当前应用场景;
在所述当前应用场景下对检测到的声音进行语音识别;
基于所述当前应用场景对应的深度学习模型对语音识别得到的语料进行深度学习,获取学习结果;
根据所述学习结果对语音识别的结果进行校正。
进一步地,所述根据设定检测设备的检测数据确定用户所处的当前应用场景,包括以下的至少一种:
对检测到的声音进行语音识别,判断语音识别得到语料所属的语料集对应的应用场景;
通过定位模块检测移动终端所在的位置,获取用户所处的当前应用场景;
通过蓝牙数字信号处理设备检测应用场景的特征,根据所述特征确定当前应用场景。
进一步地,所述根据设定检测设备的检测数据确定用户所处的当前应用场景之前,还包括:
使用聚类算法对各个应用场景下的语料库进行分组,根据所述分组的结果提取语料特征;
对所述语料特征进行训练,创建对应各个应用场景的深度学习模型。
进一步地,所述根据所述学习结果对语音识别的结果进行校正,包括:
如果所述学习结果为所述语音识别的结果与当前应用场景不匹配,将所述语音识别的结果校正为当前应用场景下对应的结果。
进一步地,所述语料库包括:已存储的用户输入的语料、经过筛选的语料和/或校正语音识别的结果得到的语料。
第二方面,本发明实施例还提供了一种语音识别的校正装置,包括:
场景确定模块,用于根据设定检测设备的检测数据确定用户所处的当前应用场景;
语音识别模块,用于在所述当前应用场景下对检测到的声音进行语音识别;
深度学习模块,用于基于所述当前应用场景对应的深度学习模型对语音识别得到的语料进行深度学习,获取学习结果;
校正模块,用于根据所述学习结果对语音识别的结果进行校正。
进一步地,所述场景确定模块包括:
第一确定单元,用于对检测到的声音进行语音识别,判断语音识别得到语料所属的语料集对应的应用场景;
第二确定单元,用于通过定位模块检测移动终端所在的位置,获取用户所处的当前应用场景;
第三确定单元,用于通过蓝牙数字信号处理设备检测应用场景的特征,根据所述特征确定当前应用场景。
进一步地,所述装置还包括:
特征提取单元,用于使用聚类算法对各个应用场景下的语料库进行分组,根据所述分组的结果提取语料特征;
模型创建单元,用于对所述语料特征进行训练,创建对应各个应用场景的深度学习模型。
进一步地,所述校正模块包括:
校正单元,用于如果所述学习结果为所述语音识别的结果与当前应用场景不匹配,将所述语音识别的结果校正为当前应用场景下对应的结果。
进一步地,所述语料库包括:
已存储的用户输入的语料、经过筛选的语料和/或校正语音识别的结果得到的语料。
本发明实施例提供了一种语音识别的校正方法及装置,通过获取检测数据来确定当前应用场景,将语音识别得到的语料在当前应用场景对应的深度学习模型中进行深度学习,对与当前应用场景不匹配的语音识别的结果进行校正,替换为正确的文字翻译结果,能够满足特定应用场景语音识别的要求,具有针对性的对各个应用场景进行语音识别,大大提升了语音识别的准确性,进而促进了人机交互,使人与机器能够有效的沟通交流,提升了用户体验感,可应用范围广泛。
附图说明
图1是本发明实施例一中的一种语音识别的校正方法的流程图;
图2是本发明实施例二中的一种语音识别的校正方法的流程图;
图3a是本发明实施例三中的一种语音识别的校正方法的流程图;
图3b是本发明实施例三中的一种语音识别的校正方法的示意图;
图4是本发明实施例四中的一种语音识别的校正方法的流程图;
图5是本发明实施例五中的一种语音识别的校正装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种语音识别的校正方法的流程图,本实施例可适用于根据当前应用场景来进行校正语音识别的结果的情况,该方法可以由一种语音识别的校正装置来执行,该装置可以采用软件和/或硬件的方式实现,一般集成于具有语音识别功能的设备中。
本发明实施例一的方法具体包括:
S101、根据设定检测设备的检测数据确定用户所处的当前应用场景。
中国的语言博大精深,对汉语进行语音识别是具有一定难度的,哪怕仅仅是一个语音音调的不同,甚至说即使是语音的音调完全相同,所要表达的意义就是截然不同的,所以,需要检测用户所处于的当前应用场景,根据不同的应用场景来对用户使用的特定应用场景下的语料进行识别和判断,使语音识别的最终结果更加准确。使用设定检测设备能够检测出当前的应用环境,从而确定用户所处于的当前应用场景。
S102、在所述当前应用场景下对检测到的声音进行语音识别。
具体的,在确定了用户所处于的当前应用场景之后,对检测到的声音进行语音识别,获取语音识别的结果,即获取通过语音识别得到的语料。
S103、基于所述当前应用场景对应的深度学习模型对语音识别得到的语料进行深度学习,获取学习结果。
具体的,首先创建对应各个应用场景的深度学习模型,建立模拟人脑进行分析学习的神经网络,对语音识别得到的语料进行深度的学习和分析,包括语义、语音、语调、语境以及语法等,判断语音识别的初步结果和当前的应用场景是否是匹配的,判断语音识别得到的语料是否是准确的。
S104、根据所述学习结果对语音识别的结果进行校正。
具体的,经过深度学习后,如果语音识别得到的语料是不准确的,则对语音识别的结果进行校正,将语音识别结果翻译为正确的文字,替换之前的语音识别结果。
本实施例中,首先确定用户所处于的当前应用场景,结合当前应用场景,对语音识别得到的语料进行深度学习,如果语音识别得到的语料是不准确的,则根据深度学习的结果,依据当前应用场景,对语音识别的结果进行校正。例如:用户输入的语料为“程序员在电脑前写代码”,可能由于用户发出的口音不标准、语速过快等原因,大数据语音引擎的识别结果为“程序员在电脑前写大妈”,根据“程序员”、“电脑”等词汇可以确定当前的应用场景为程序员的工作场景,通过在深度学习模型中对大数据语音引擎的识别结果进行深度学习,将“写大妈”校正为“写代码”,获取正确的语音识别结果。
本发明实施例一提供的一种语音识别的校正方法,能够满足特定应用场景语音识别的要求,具有针对性的对各个应用场景进行语音识别,大大提升了语音识别的准确性,进而促进了人机交互,使人与机器能够有效的沟通交流,提升了用户体验感,可应用范围广泛。
实施例二
图2为本发明实施例二提供的一种语音识别的校正方法的流程图,本发明实施例二以实施例一为基础进行了优化,具体是对根据设定检测设备的检测数据确定用户所处的当前应用场景的操作进一步优化,如图2所示,本发明实施例二的具体包括:
S201、对检测到的声音进行语音识别,判断语音识别得到语料所属的语料集对应的应用场景。
具体的,收集并存储与各个应用场景具有映射关系的语料集,语料集即所有收集到的语料的集合,根据用户输入的语料,对检测到的声音进行语音识别,并与语料集的内容进行比对,查找并判断出语音识别得到语料所属于的语料集对应的当前应用场景。可以通过收集特定应用场景的关键词,建立该关键词与其应用场景的映射关系。例如,收集餐厅场景的所有常用语、菜谱名等语料,建立该语料与餐厅应用场景的映射关系。
S202、通过定位模块检测移动终端所在的位置,获取用户所处的当前应用场景。
具体的,可以通过用户使用的移动终端中带有定位功能的模块检测用户所在的位置,根据检测结果确定用户所处于的当前应用场景。带有定位功能的模块可以采用全球定位***(Global Positioning System,简称GPS)、蓝牙定位技术以及连接移动数据流量或无线局域网通过地图软件定位等定位方法进行当前应用场景的定位。
S203、通过蓝牙数字信号处理设备检测应用场景的特征,根据所述特征确定当前应用场景。
具体的,使用蓝牙数字信号处理设备中的传感器进行当前应用场景信号的采集,根据采集信号检测应用场景的特征,例如,可以通过温度传感器检测环境的温度来判断是室内环境或者室外环境,以此来确定用户处于的当前应用场景。
本实施例中,可以采用全球定位***定位用户所处于的位置,例如:定位到用户位于某一个餐厅,那么可以判定当前应用场景为餐厅,则语音识别的结果应该与餐厅场景有关。
值得说明的是,上述三个方法用于确定当前应用场景,可以根据实际应用情况,选择其中的任意一种或任意两种或全部的方法来进行当前应用场景的确定。
S204、在所述当前应用场景下对检测到的声音进行语音识别。
S205、基于所述当前应用场景对应的深度学习模型对语音识别得到的语料进行深度学习,获取学习结果。
S206、根据所述学习结果对语音识别的结果进行校正。
本发明实施例二提供的一种语音识别的校正方法,能够准确的获取用户所处于的当前应用场景,根据当前应用场景针对性的进行语音识别,提升了语音识别的准确性,提升了用户与产品的实际交互体验。
实施例三
图3a为本发明实施例三提供的一种语音识别的校正方法的流程图,本发明实施例三以上述各实施例为基础进行了优化改进,对根据设定检测设备的检测数据确定用户所处的当前应用场景之前的操作进行了进一步说明,如图3a所示,本发明实施例三的方法具体包括:
S301、使用聚类算法对各个应用场景下的语料库进行分组,根据所述分组的结果提取语料特征。
优选的,所述语料库包括:已存储的用户输入的语料、经过筛选的语料和/或校正语音识别的结果得到的语料。
具体的,语料库作为深度学习模型中的基础数据,可以为已经存储的用户输入的语料,和/或专业的语音技术商根据通过各类话题筛选出来的语料,和/或对语音识别结果进行语音合成,分析和校正语音合成结果得到的语料。使用划分法或层次法等聚类算法对语料库进行分组,提取每组语料的特征。
S302、对所述语料特征进行训练,创建对应各个应用场景的深度学习模型。
具体的,在模型中输入语料库,通过神经网络对语料的特征进行训练,模拟人脑的思维方式,创建针对各个应用场景的深度学习模型。对于每一个语料,结合其应用场景,判断其语音识别的结果的准确性。
S303、根据设定检测设备的检测数据确定用户所处的当前应用场景。
S304、在所述当前应用场景下对检测到的声音进行语音识别。
S305、基于所述当前应用场景对应的深度学习模型对语音识别得到的语料进行深度学习,获取学习结果。
S306、根据所述学习结果对语音识别的结果进行校正。
本实施例中,图3b为本发明实施例三提供的一种语音识别的校正方法的示意图,参考图3b,可以通过用户使用的移动终端的定位功能、蓝牙数字信号处理设备以及查找输入语料的匹配应用场景共同获取用户的当前地理位置,确定用户所处于的当前应用场景。将已存储的用户语料、语音技术商提供的分类语料以及对语音合成结果进行校正后的语料输入至模型进行训练,创建对应各个应用场景的深度学习模型。将大数据语音引擎的语音识别的结果输入至深度学习模型,根据当前应用场景,对语音识别的结果进行纠错,并且对易错点进行预测,对错误的语音识别的结果进行校正,用正确的翻译结果替换原有错误的翻译结果。
本发明实施例三提供的一种语音识别的校正方法,通过创建深度学习模型使当前应用场景识别更加准确,从而对语音识别的结果进行准确性的判断,校正不准确的语音识别结果,提升了语音识别的准确性。
实施例四
图4为本发明实施例四提供的一种语音识别的校正方法的流程图,本发明实施例四以上述各实施例为基础进行了优化改进,对根据所述学习结果对语音识别的结果进行校正的操作进行了进一步说明,如图4所示,本发明实施例四的方法具体包括:
S401、根据设定检测设备的检测数据确定用户所处的当前应用场景。
S402、在所述当前应用场景下对检测到的声音进行语音识别。
S403、基于所述当前应用场景对应的深度学习模型对语音识别得到的语料进行深度学习,获取学习结果。
S404、如果所述学习结果为所述语音识别的结果与当前应用场景不匹配,将所述语音识别的结果校正为当前应用场景下对应的结果。
具体的,验证大数据语音引擎输出的语音识别的结果与当前的应用场景是否匹配,如果不匹配,对语音识别的结果进行校正,校正为与当前应用场景相匹配的结果,并翻译为正确的文字,替换原有错误的结果。
本发明实施例四提供的一种语音识别的校正方法,对与应用场景不匹配的语音识别结果进行校正,提高了特定应用场景下语音识别和翻译的准确性,优化了***逻辑。
实施例五
图5是本发明实施例五中的一种语音识别的校正装置的结构示意图,该装置应用于校正与应用场景不匹配的语音识别结果。如图5所示,装置包括:场景确定模块501、语音识别模块502、深度学习模块503以及校正模块504。
场景确定模块501,用于根据设定检测设备的检测数据确定用户所处的当前应用场景;
语音识别模块502,用于在所述当前应用场景下对检测到的声音进行语音识别;
深度学习模块503,用于基于所述当前应用场景对应的深度学习模型对语音识别得到的语料进行深度学习,获取学习结果;
校正模块504,用于根据所述学习结果对语音识别的结果进行校正。
本发明实施例五通过获取检测数据来确定当前应用场景,将语音识别得到的语料在当前应用场景对应的深度学习模型中进行深度学习,对与当前应用场景不匹配的语音识别的结果进行校正,替换为正确的文字翻译结果,能够满足特定应用场景语音识别的要求,具有针对性的对各个应用场景进行语音识别,大大提升了语音识别的准确性,进而促进了人机交互,使人与机器能够有效的沟通交流,提升了用户体验感,可应用范围广泛。
在上述各实施例的基础上,所述场景确定模块501可以包括:
第一确定单元,用于对检测到的声音进行语音识别,判断语音识别得到语料所属的语料集对应的应用场景;
第二确定单元,用于通过定位模块检测移动终端所在的位置,获取用户所处的当前应用场景;
第三确定单元,用于通过蓝牙数字信号处理设备检测应用场景的特征,根据所述特征确定当前应用场景。
在上述各实施例的基础上,所述装置还可以包括:
特征提取单元,用于使用聚类算法对各个应用场景下的语料库进行分组,根据所述分组的结果提取语料特征;
模型创建单元,用于对所述语料特征进行训练,创建对应各个应用场景的深度学习模型。
在上述各实施例的基础上,所述校正模块504可以包括:
校正单元,用于如果所述学习结果为所述语音识别的结果与当前应用场景不匹配,将所述语音识别的结果校正为当前应用场景下对应的结果。
在上述各实施例的基础上,所述语料库可以包括:
已存储的用户输入的语料、经过筛选的语料和/或校正语音识别的结果得到的语料。
本实施例中,通过第一确定单元查找与输入语料匹配的应用场景、第二确定单元定位用户的地理位置以及第三确定单元检测应用场景特征的方法在场景确定模块中确定用户处于的当前应用场景,在语音识别模块中,对当前应用场景下检测到的声音进行识别,得到识别结果。将已经存储的用户输入的语料,和/或专业的语音技术商根据通过各类话题筛选出来的语料,和/或对语音识别结果进行语音合成,分析和校正语音合成结果得到的语料作为语料库的基础数据输入至模型进行训练,创建各个应用场景对应的深度学习模型,在深度学习模块中,基于当前应用场景对应的深度学习模型对语音识别得到的语料进行深度学习,如果学习结果为语音识别的结果与当前应用场景不匹配,则在校正模块的校正单元对语音识别的结果进行校正,并翻译为正确的文字,替换原有的翻译结果。
本发明实施例五提供的一种语音识别的校正装置,提升了语音识别的准确性,促进了人机交互的有效沟通,同时,提升了语音识别***的逻辑,可应用范围广泛。
本发明实施例提供的语音识别的校正装置可执行本发明任意实施例提供语音识别的校正的方法,具备执行方法相应的功能模块和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种语音识别的校正方法,其特征在于,包括:
根据设定检测设备的检测数据确定用户所处的当前应用场景;
在所述当前应用场景下对检测到的声音进行语音识别;
基于所述当前应用场景对应的深度学习模型对语音识别得到的语料进行深度学习,获取学习结果;
根据所述学习结果对语音识别的结果进行校正。
2.根据权利要求1所述的方法,其特征在于,所述根据设定检测设备的检测数据确定用户所处的当前应用场景,包括以下的至少一种:
对检测到的声音进行语音识别,判断语音识别得到语料所属的语料集对应的应用场景;
通过定位模块检测移动终端所在的位置,获取用户所处的当前应用场景;
通过蓝牙数字信号处理设备检测应用场景的特征,根据所述特征确定当前应用场景。
3.根据权利要求1所述的方法,其特征在于,所述根据设定检测设备的检测数据确定用户所处的当前应用场景之前,还包括:
使用聚类算法对各个应用场景下的语料库进行分组,根据所述分组的结果提取语料特征;
对所述语料特征进行训练,创建对应各个应用场景的深度学习模型。
4.根据权利要求1所述的方法,其特征在于,所述根据所述学习结果对语音识别的结果进行校正,包括:
如果所述学习结果为所述语音识别的结果与当前应用场景不匹配,将所述语音识别的结果校正为当前应用场景下对应的结果。
5.根据权利要求3所述的方法,其特征在于,所述语料库包括:已存储的用户输入的语料、经过筛选的语料和/或校正语音识别的结果得到的语料。
6.一种语音识别的校正装置,其特征在于,包括:
场景确定模块,用于根据设定检测设备的检测数据确定用户所处的当前应用场景;
语音识别模块,用于在所述当前应用场景下对检测到的声音进行语音识别;
深度学习模块,用于基于所述当前应用场景对应的深度学习模型对语音识别得到的语料进行深度学习,获取学习结果;
校正模块,用于根据所述学习结果对语音识别的结果进行校正。
7.根据权利要求6所述的装置,其特征在于,所述场景确定模块包括:
第一确定单元,用于对检测到的声音进行语音识别,判断语音识别得到语料所属的语料集对应的应用场景;
第二确定单元,用于通过定位模块检测移动终端所在的位置,获取用户所处的当前应用场景;
第三确定单元,用于通过蓝牙数字信号处理设备检测应用场景的特征,根据所述特征确定当前应用场景。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
特征提取单元,用于使用聚类算法对各个应用场景下的语料库进行分组,根据所述分组的结果提取语料特征;
模型创建单元,用于对所述语料特征进行训练,创建对应各个应用场景的深度学习模型。
9.根据权利要求6所述的装置,其特征在于,所述校正模块包括:
校正单元,用于如果所述学习结果为所述语音识别的结果与当前应用场景不匹配,将所述语音识别的结果校正为当前应用场景下对应的结果。
10.根据权利要求8所述的装置,其特征在于,所述语料库包括:
已存储的用户输入的语料、经过筛选的语料和/或校正语音识别的结果得到的语料。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710291330.4A CN106875949B (zh) | 2017-04-28 | 2017-04-28 | 一种语音识别的校正方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710291330.4A CN106875949B (zh) | 2017-04-28 | 2017-04-28 | 一种语音识别的校正方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106875949A true CN106875949A (zh) | 2017-06-20 |
CN106875949B CN106875949B (zh) | 2020-09-22 |
Family
ID=59161656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710291330.4A Active CN106875949B (zh) | 2017-04-28 | 2017-04-28 | 一种语音识别的校正方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106875949B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107293296A (zh) * | 2017-06-28 | 2017-10-24 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠正方法、装置、设备及存储介质 |
CN107680600A (zh) * | 2017-09-11 | 2018-02-09 | 平安科技(深圳)有限公司 | 声纹模型训练方法、语音识别方法、装置、设备及介质 |
CN108831505A (zh) * | 2018-05-30 | 2018-11-16 | 百度在线网络技术(北京)有限公司 | 用于识别应用的使用场景的方法和装置 |
CN109104534A (zh) * | 2018-10-22 | 2018-12-28 | 北京智合大方科技有限公司 | 一种提高外呼机器人意图检测准确率、召回率的*** |
CN109410913A (zh) * | 2018-12-13 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法、装置、设备及存储介质 |
CN110544234A (zh) * | 2019-07-30 | 2019-12-06 | 北京达佳互联信息技术有限公司 | 图像噪声检测方法、装置、电子设备及存储介质 |
CN110556127A (zh) * | 2019-09-24 | 2019-12-10 | 北京声智科技有限公司 | 语音识别结果的检测方法、装置、设备及介质 |
CN111104546A (zh) * | 2019-12-03 | 2020-05-05 | 珠海格力电器股份有限公司 | 一种构建语料库的方法、装置、计算设备及存储介质 |
CN111368145A (zh) * | 2018-12-26 | 2020-07-03 | 沈阳新松机器人自动化股份有限公司 | 一种知识图谱的创建方法、创建***及终端设备 |
CN111951626A (zh) * | 2019-05-16 | 2020-11-17 | 上海流利说信息技术有限公司 | 语言学习装置、方法、介质和计算设备 |
CN113660501A (zh) * | 2021-08-11 | 2021-11-16 | 云知声(上海)智能科技有限公司 | 一种匹配字幕的方法和设备 |
CN114155841A (zh) * | 2021-11-15 | 2022-03-08 | 安徽听见科技有限公司 | 语音识别方法、装置、设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0661688A2 (en) * | 1993-12-30 | 1995-07-05 | International Business Machines Corporation | System and method for location specific speech recognition |
CN1282072A (zh) * | 1999-07-27 | 2001-01-31 | 国际商业机器公司 | 对语音识别结果中的错误进行校正的方法和语音识别*** |
CN1356628A (zh) * | 2000-07-05 | 2002-07-03 | 国际商业机器公司 | 具有有限或无显示器的设备的语音识别校正 |
CN1555553A (zh) * | 2001-09-17 | 2004-12-15 | �ʼҷ����ֵ��ӹɷ�����˾ | 通过比较所识别的文本中的语音学序列与手动输入的校正词的语音学转换来校正通过语音识别而识别的文本 |
CN102324233A (zh) * | 2011-08-03 | 2012-01-18 | 中国科学院计算技术研究所 | 汉语语音识别中重复出现词识别错误的自动修正方法 |
CN103645876A (zh) * | 2013-12-06 | 2014-03-19 | 百度在线网络技术(北京)有限公司 | 语音输入方法和装置 |
CN103903619A (zh) * | 2012-12-28 | 2014-07-02 | 安徽科大讯飞信息科技股份有限公司 | 一种提高语音识别准确率的方法及*** |
CN105447019A (zh) * | 2014-08-20 | 2016-03-30 | 北京羽扇智信息科技有限公司 | 一种基于用户使用场景的输入识别结果校正方法和*** |
CN105448292A (zh) * | 2014-08-19 | 2016-03-30 | 北京羽扇智信息科技有限公司 | 一种基于场景的实时语音识别***和方法 |
CN105786880A (zh) * | 2014-12-24 | 2016-07-20 | 中兴通讯股份有限公司 | 语音识别的方法、客户端及终端设备 |
-
2017
- 2017-04-28 CN CN201710291330.4A patent/CN106875949B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0661688A2 (en) * | 1993-12-30 | 1995-07-05 | International Business Machines Corporation | System and method for location specific speech recognition |
CN1282072A (zh) * | 1999-07-27 | 2001-01-31 | 国际商业机器公司 | 对语音识别结果中的错误进行校正的方法和语音识别*** |
CN1356628A (zh) * | 2000-07-05 | 2002-07-03 | 国际商业机器公司 | 具有有限或无显示器的设备的语音识别校正 |
CN1555553A (zh) * | 2001-09-17 | 2004-12-15 | �ʼҷ����ֵ��ӹɷ�����˾ | 通过比较所识别的文本中的语音学序列与手动输入的校正词的语音学转换来校正通过语音识别而识别的文本 |
CN102324233A (zh) * | 2011-08-03 | 2012-01-18 | 中国科学院计算技术研究所 | 汉语语音识别中重复出现词识别错误的自动修正方法 |
CN103903619A (zh) * | 2012-12-28 | 2014-07-02 | 安徽科大讯飞信息科技股份有限公司 | 一种提高语音识别准确率的方法及*** |
CN103645876A (zh) * | 2013-12-06 | 2014-03-19 | 百度在线网络技术(北京)有限公司 | 语音输入方法和装置 |
CN105448292A (zh) * | 2014-08-19 | 2016-03-30 | 北京羽扇智信息科技有限公司 | 一种基于场景的实时语音识别***和方法 |
CN105447019A (zh) * | 2014-08-20 | 2016-03-30 | 北京羽扇智信息科技有限公司 | 一种基于用户使用场景的输入识别结果校正方法和*** |
CN105786880A (zh) * | 2014-12-24 | 2016-07-20 | 中兴通讯股份有限公司 | 语音识别的方法、客户端及终端设备 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107293296A (zh) * | 2017-06-28 | 2017-10-24 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠正方法、装置、设备及存储介质 |
CN107293296B (zh) * | 2017-06-28 | 2020-11-20 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠正方法、装置、设备及存储介质 |
CN107680600A (zh) * | 2017-09-11 | 2018-02-09 | 平安科技(深圳)有限公司 | 声纹模型训练方法、语音识别方法、装置、设备及介质 |
WO2019047343A1 (zh) * | 2017-09-11 | 2019-03-14 | 平安科技(深圳)有限公司 | 声纹模型训练方法、语音识别方法、装置、设备及介质 |
CN108831505A (zh) * | 2018-05-30 | 2018-11-16 | 百度在线网络技术(北京)有限公司 | 用于识别应用的使用场景的方法和装置 |
CN109104534A (zh) * | 2018-10-22 | 2018-12-28 | 北京智合大方科技有限公司 | 一种提高外呼机器人意图检测准确率、召回率的*** |
US11264006B2 (en) | 2018-12-13 | 2022-03-01 | Baidu Online Network Technology (Beijing) Co., Ltd. | Voice synthesis method, device and apparatus, as well as non-volatile storage medium |
CN109410913A (zh) * | 2018-12-13 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法、装置、设备及存储介质 |
CN111368145A (zh) * | 2018-12-26 | 2020-07-03 | 沈阳新松机器人自动化股份有限公司 | 一种知识图谱的创建方法、创建***及终端设备 |
CN111951626A (zh) * | 2019-05-16 | 2020-11-17 | 上海流利说信息技术有限公司 | 语言学习装置、方法、介质和计算设备 |
CN110544234A (zh) * | 2019-07-30 | 2019-12-06 | 北京达佳互联信息技术有限公司 | 图像噪声检测方法、装置、电子设备及存储介质 |
CN110556127A (zh) * | 2019-09-24 | 2019-12-10 | 北京声智科技有限公司 | 语音识别结果的检测方法、装置、设备及介质 |
CN111104546A (zh) * | 2019-12-03 | 2020-05-05 | 珠海格力电器股份有限公司 | 一种构建语料库的方法、装置、计算设备及存储介质 |
CN111104546B (zh) * | 2019-12-03 | 2021-08-27 | 珠海格力电器股份有限公司 | 一种构建语料库的方法、装置、计算设备及存储介质 |
CN113660501A (zh) * | 2021-08-11 | 2021-11-16 | 云知声(上海)智能科技有限公司 | 一种匹配字幕的方法和设备 |
CN114155841A (zh) * | 2021-11-15 | 2022-03-08 | 安徽听见科技有限公司 | 语音识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106875949B (zh) | 2020-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106875949A (zh) | 一种语音识别的校正方法及装置 | |
CN107330011B (zh) | 多策略融合的命名实体的识别方法及装置 | |
CN102243871B (zh) | 作为语音识别错误预测器的用于语法适合度评估的方法和*** | |
US8560301B2 (en) | Apparatus and method for language expression using context and intent awareness | |
CN112329467B (zh) | 地址识别方法、装置、电子设备以及存储介质 | |
CN109920414A (zh) | 人机问答方法、装置、设备和存储介质 | |
CN111488468B (zh) | 地理信息知识点抽取方法、装置、存储介质及计算机设备 | |
US20090228277A1 (en) | Search Aided Voice Recognition | |
CN106503231B (zh) | 基于人工智能的搜索方法和装置 | |
CN104143331B (zh) | 一种添加标点的方法和*** | |
CN104360994A (zh) | 自然语言理解方法及*** | |
CN104376065B (zh) | 检索词重要度的确定方法和装置 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
JP2005084681A (ja) | 意味的言語モデル化および信頼性測定のための方法およびシステム | |
CN103956169A (zh) | 一种语音输入方法、装置和*** | |
CN103853738A (zh) | 一种网页信息相关地域的识别方法 | |
CN106649253B (zh) | 基于后验证的辅助控制方法及*** | |
CN110674423A (zh) | 一种地址定位的方法、装置、可读存储介质和电子设备 | |
Lefevre et al. | Cross-lingual spoken language understanding from unaligned data using discriminative classification models and machine translation. | |
CN109213856A (zh) | 一种语义识别方法及*** | |
CN109710949A (zh) | 一种翻译方法及翻译机 | |
CN106297765A (zh) | 语音合成方法及*** | |
CN103246648A (zh) | 语音输入控制方法及装置 | |
KR20180133645A (ko) | 대화형 음성인식을 이용한 지리정보 검색 방법 및 장치 | |
CN114841164A (zh) | 一种实体链接方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |