CN107316637A - 语音识别方法及相关产品 - Google Patents

语音识别方法及相关产品 Download PDF

Info

Publication number
CN107316637A
CN107316637A CN201710401787.6A CN201710401787A CN107316637A CN 107316637 A CN107316637 A CN 107316637A CN 201710401787 A CN201710401787 A CN 201710401787A CN 107316637 A CN107316637 A CN 107316637A
Authority
CN
China
Prior art keywords
recognizer
recognition
terminal device
recognition result
mentioned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710401787.6A
Other languages
English (en)
Inventor
白剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN201710401787.6A priority Critical patent/CN107316637A/zh
Publication of CN107316637A publication Critical patent/CN107316637A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例公开了语音识别方法及相关产品,其中方法包括:终端设备提示输入语音后,采集语音数据;使用至少一种识别算法获得至少两种识别结果,输出所述至少两种识别结果;获得所述至少两种识别结果中相对准确的识别结果,确定所述相对准确的识别结果所对应的识别算法作为所述终端设备后续进行语音识别使用的识别算法。通过提示用户输入语音后,采集用户输入的语音数据,然后采用一种或者多种算法得到了两种以上的识别结果,然后通过用户确认的更为准确的识别结果可以确定哪一种算法更好;该方案极为适合例如手机等较为私人或者口音类似的用户使用,可以在保证识别速度的前提下,提高非标准语音的识别的准确率。

Description

语音识别方法及相关产品
技术领域
本发明涉及计算机技术领域,具体涉及语音识别方法及相关产品。
背景技术
与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。中国物联网校企联盟形象得把语音识别比做为机器的听觉***。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。
语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术车联网也得到了充分的引用,例如:只需口述即可设置目的地直接导航,安全、便捷。
语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
如何提高语音识别的准确率以及识别速度,是该领域技术人员努力的方向;目前,由于人们说话带有口音,甚至有区别很大的方言,给语音识别造成了较大的困难,因此需要提出解决方案。
发明内容
本发明实施例提供了语音识别方法及相关产品,用于提高非标准语音的识别的准确率。
第一方面,本发明实施例提供一种语音识别方法,包括:
终端设备提示输入语音后,采集语音数据;使用至少一种识别算法获得至少两种识别结果,输出所述至少两种识别结果;
获得所述至少两种识别结果中相对准确的识别结果,确定所述相对准确的识别结果所对应的识别算法作为所述终端设备后续进行语音识别使用的识别算法。
在一个可能的实现方式中,所述终端设备提示输入语音包括:以语音的方式提示用户以用户习惯的说话方式说话。
在一个可能的实现方式中,所述输出所述至少两种识别结果包括:
以标准语音的方式输出所述至少两种识别结果。
在一个可能的实现方式中,所述确定所述相对准确的识别结果所对应的识别算法包括:
首先确定所述相对准确的识别结果对应的语言类型以及方言类型;
将确定的语言类型以及方言类型对应的识别算法作为所述相对准确的识别结果所对应的识别算法。
在一个可能的实现方式中,所述使用至少一种识别算法获得至少两种识别结果包括:
按照所述终端设备所处的地理位置,使用与所述地理位置所属的方言区域对应的识别算法,获得可能性最大的至少两种识别结果;
或者,按照所述终端设备所使用的语言类型,使用所述语言类型对应的至少两种识别算法,获得可能性最大的至少两种识别结果。
在一个可能的实现方式中,所述使用与所述地理位置所属的方言区域对应的识别算法,获得可能性最大的至少两种识别结果包括:
按照所述终端设备所使用的语言类型以及所述终端设备所处的地理位置,依据所述语言类型及方言区域确定最可能的至少两种标准语音库,使用所述至少两种语音库对应的识别算法,获得可能性最大的至少两种识别结果。
第二方面,本发明实施例还提供了一种语音识别设备,包括处理单元和输入输出单元,
所述处理单元,用于控制所述输入输出单元提示输入语音后,采集语音数据;使用至少一种识别算法获得至少两种识别结果,输出所述至少两种识别结果;获得所述至少两种识别结果中相对准确的识别结果,确定所述相对准确的识别结果所对应的识别算法作为所述终端设备后续进行语音识别使用的识别算法。
在一个可能的实现方式中,所述处理单元,用于使用至少一种识别算法获得至少两种识别结果包括:按照所述终端设备所处的地理位置,使用与所述地理位置所属的方言区域对应的识别算法,获得可能性最大的至少两种识别结果;或者,按照所述终端设备所使用的语言类型,使用所述语言类型对应的至少两种识别算法,获得可能性最大的至少两种识别结果。
第三方面本发明实施例提供了一种终端设备,包括一个或多个处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述一个或多个处理器执行,所述程序包括用于执行本发明实施例提供的任一项方法中的步骤的指令。
第四方面本发明实施例还提供了一种计算机可读存储介质,其存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行本发明实施例提供的任一项所述的方法,所述计算机包括终端设备。
可以看出,本发明实施例中,通过提示用户输入语音后,采集用户输入的语音数据,然后采用一种或者多种算法得到了两种以上的识别结果,然后通过用户确认的更为准确的识别结果可以确定哪一种算法更好;该方案极为适合例如手机等较为私人或者口音类似的用户使用,可以在保证识别速度的前提下,提高非标准语音的识别的准确率。
附图说明
下面将对本发明实施例所涉及到的附图作简单地介绍。
图1是本发明实施例提供的方法的流程示意图;
图2是本发明实施例的界面示意图;
图3是本发明实施例的语音识别设备结构示意图;
图4是本发明实施例的语音识别设备结构示意图;
图5是本发明实施例的终端设备的结构示意图;
图6是本发明实施例的终端设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明实施例所涉及到的终端设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(User Equipment,UE),移动台(Mobile Station, MS),终端设备(terminaldevice)等等。为方便描述,上面提到的设备统称为移动终端。
下面结合附图对本发明实施例进行介绍。
请参阅图1,图1是本发明实施例提供了一种语音识别方法的流程示意图,应用于终端设备,如图1所示,本语音识别方法包括:
101:终端设备提示输入语音后,采集语音数据;使用至少一种识别算法获得至少两种识别结果,输出上述至少两种识别结果;
终端设备提示输入语音的应用场景,可以是在终端设备首次使用自动提示输入语音;也可以是多次语音识别错误,或者多次语音识别不准确的情况下,用户启动本发明实施例的流程后提示输入语音。
一种识别算法会得出多个识别结果,这多个识别结果按照概率论,有些可能性比较大,有些可能性相对小一些;但是可能性相对小一些的情况,并不见得是不准确的,因为存在识别不准确的情况。
对于不同的方言或者不同类型的语言,可以有不同的识别算法;对同一种语言也可能有多种识别算法;因此本实施例可以使用多种识别算法进行尝试,来确定几个可能性比较大的识别结果。
102:获得上述至少两种识别结果中相对准确的识别结果,确定上述相对准确的识别结果所对应的识别算法作为上述终端设备后续进行语音识别使用的识别算法。
本实施例中,获得上述至少两种识别结果中相对准确的识别结果的方式,可以是用户选择的方式实现,即:用户选择其中一个识别结果作为相对准确识别结果。
对于不同的识别结果,终端设备可以预先确定一个识别结果对应到一种优选的识别算法。本步骤最终确定后续续语音识别使用的识别算法,由于本步骤确定了一个特定的识别算法,对于手机这类设备而言,具有私人属性;也就是说,这个终端设备通常来说是同一个人使用的,使用一个特定的识别算法就可以了,不必使用过多的其他算法或者语音库来识别语音,因此识别速度和识别准确率均可以很高。
本发明实施例不使用标准文本给用户读,这样可以避免用户读文档时隐藏自己真实说话的口音,导致确定方言类型和识别算法不准确。
基于前文说明,本发明实施例中,通过提示用户输入语音后,采集用户输入的语音数据,然后采用一种或者多种算法得到了两种以上的识别结果,然后通过用户确认的更为准确的识别结果可以确定哪一种算法更好;该方案极为适合例如手机等较为私人或者口音类似的用户使用,可以在保证识别速度的前提下,提高非标准语音的识别的准确率。
在一个可能的实现方式中,本发明实施例还提供了一个更为具体的应用例,如下:如图2所示,上述终端设备提示输入语音包括:以语音的方式提示用户以用户习惯的说话方式说话。
基于此,在本实施例中,可以使用终端设备所在地的标准语音,比如:在中国使用标准普通话,提示用户以用户习惯的说话方式说话。在图2中可以显示:算法校准等信息,也可以不显示。该方案可以适用于文盲使用,不需要用户认识字。
在一个可能的实现方式中,本发明实施例还提供了一个更为具体的应用例,上述输出上述至少两种识别结果包括:
以标准语音的方式输出上述至少两种识别结果。
可以理解的是,本实施例中,以标准语音的方式输出识别结果以后,还可以发出询问提示,在上述询问提示中询问:翻译是否准确;如果本次询问提示不是第一次询问提示,可以进一步询问这个翻译比前一个翻译结果是否更准确。
上述是否准确的询问可以是具体询问:这次翻译的对不对?类似这样口语化的语音提示。
在一个可能的实现方式中,为了更为快速的确定识别算法,本发明实施例还提供了如下解决方案:上述确定上述相对准确的识别结果所对应的识别算法包括:
首先确定上述相对准确的识别结果对应的语言类型以及方言类型;
将确定的语言类型以及方言类型对应的识别算法作为上述相对准确的识别结果所对应的识别算法。
由于对于不同的方言会建立不同的语音数据库,或者说是该方案类型对应的标准语音数据库,用于识别语音的比对。因此先确定方言类型,可以提高算法的准确性。
在语音识别的研究发展过程中,研究人员根据不同语言的发音特点,设计和制作了以汉语(包括不同方言)、英语等各类语言的语音数据库,这些语音数据库,例如:MITMedia lab Speech Dataset(麻省理工学院媒体实验室语音数据集)、Pitch and VoicingEstimates for Aurora 2(Aurora2语音库的基因周期和声调估计)、Congressionalspeech data(国会语音数据)、Mandarin Speech Frame Data(普通话语音帧数据)、用于测试盲源分离算法的语音数据等。
在一个可能的实现方式中,如果首先确定了可能是什么方言,那么可以提高识别准确性,从而提高提供给用户选择的语音的准确性,具体如下:上述使用至少一种识别算法获得至少两种识别结果包括:
按照上述终端设备所处的地理位置,使用与上述地理位置所属的方言区域对应的识别算法,获得可能性最大的至少两种识别结果;
或者,按照上述终端设备所使用的语言类型,使用上述语言类型对应的至少两种识别算法,获得可能性最大的至少两种识别结果。
在本实施例中,前者可以仅使用一种识别算法,后者可以使用多种识别算法;其中,前者结合终端设备的地理位置,可以大概率的确定用户可能的方言类型;后者,则可以确定用户使用的语言类型,此时并不清楚方言类型,因此可以尝试多种识别算法。
在一个可能的实现方式中,本发明实施例还提供了结合方言类型以及语言类型的实现方案,可以作为一个优选的实现方案,具体如下:上述使用与上述地理位置所属的方言区域对应的识别算法,获得可能性最大的至少两种识别结果包括:
按照上述终端设备所使用的语言类型以及上述终端设备所处的地理位置,依据上述语言类型及方言区域确定最可能的至少两种标准语音库,使用上述至少两种语音库对应的识别算法,获得可能性最大的至少两种识别结果。
在本实施例中,根据终端设备使用的语言类型,可以确定用户使用哪一种语言类型;例如:终端设备使用的是简体中文,那么语言类型可以是汉语;终端设备使用的是繁体中文,那么语言类型将会是汉语,更具体地可以确定是汉语中的粤语或者闽南语等;终端设备使用的是英语,那么可以确定语言类型是英语;结合地理位置,例如:终端设备使用的是简体中文,地理位置为湖北;那么大概率是汉语和湖北方言。
本发明实施例还提供了一种语音识别设备,如图3所示,包括:
提示单元301,用于提示输入语音;
采集单元302,用于提示输入语音后,采集语音数据;
识别单元303,用于使用至少一种识别算法获得至少两种识别结果;
输出单元304,用于输出上述至少两种识别结果;
算法确认单元305,用于获得上述至少两种识别结果中相对准确的识别结果,确定上述相对准确的识别结果所对应的识别算法作为上述终端设备后续进行语音识别使用的识别算法。
在本实施例中,通过提示用户输入语音后,采集用户输入的语音数据,然后采用一种或者多种算法得到了两种以上的识别结果,然后通过用户确认的更为准确的识别结果可以确定哪一种算法更好;该方案极为适合例如手机等较为私人或者口音类似的用户使用,可以在保证识别速度的前提下,提高非标准语音的识别的准确率。
在一个可能的实现方式中,上述提示单元301,用于提示输入语音包括:以语音的方式提示用户以用户习惯的说话方式说话。
在一个可能的实现方式中,上述输出单元304,用于输出上述至少两种识别结果包括:以标准语音的方式输出上述至少两种识别结果。
在一个可能的实现方式中,上述算法确认单元305,用于确定上述相对准确的识别结果所对应的识别算法包括:
首先确定上述相对准确的识别结果对应的语言类型以及方言类型;
将确定的语言类型以及方言类型对应的识别算法作为上述相对准确的识别结果所对应的识别算法。
在一个可能的实现方式中,上述识别单元303,用于使用至少一种识别算法获得至少两种识别结果包括:
按照上述终端设备所处的地理位置,使用与上述地理位置所属的方言区域对应的识别算法,获得可能性最大的至少两种识别结果;
或者,按照上述终端设备所使用的语言类型,使用上述语言类型对应的至少两种识别算法,获得可能性最大的至少两种识别结果。
在一个可能的实现方式中,上述识别单元303,用于使用与上述地理位置所属的方言区域对应的识别算法,获得可能性最大的至少两种识别结果包括:
按照上述终端设备所使用的语言类型以及上述终端设备所处的地理位置,依据上述语言类型及方言区域确定最可能的至少两种标准语音库,使用上述至少两种语音库对应的识别算法,获得可能性最大的至少两种识别结果。
本发明实施例还提供了一种语音识别设备,该语音识别设备可以是终端设备,如图4所示,在采用集成的单元的情况下,图4示出了上述实施例中所涉及的终端设备的一种可能的功能单元组成框图。终端设备400包括:处理单元 402和输入输出单元403。处理单元402用于对终端设备的动作进行控制管理,例如,处理单元402用于支持终端设备执行图1中的步骤101-102或用于本文所描述的技术的其它过程。输入输出单元403用于支持数据输入和输出。终端设备还可以包括存储单元401,用于存储终端设备的程序代码和数据。
其中,处理单元402可以是处理器或控制器,例如可以是中央处理器(CentralProcessing Unit,CPU),通用处理器,数字信号处理器(Digital Signal Processor,DSP),专用集成电路(Application-Specific Integrated Circuit,ASIC),现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。上述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。输入输出单元403可以话筒、听筒、喇叭等,存储单元401可以是存储器。
其中,上述处理单元402,用于控制上述输入输出单元403提示输入语音后,采集语音数据;使用至少一种识别算法获得至少两种识别结果,输出上述至少两种识别结果;获得上述至少两种识别结果中相对准确的识别结果,确定上述相对准确的识别结果所对应的识别算法作为上述终端设备后续进行语音识别使用的识别算法。
在一个可能的实现方式中,上述处理单元401,用于使用至少一种识别算法获得至少两种识别结果包括:按照上述终端设备所处的地理位置,使用与上述地理位置所属的方言区域对应的识别算法,获得可能性最大的至少两种识别结果;或者,按照上述终端设备所使用的语言类型,使用上述语言类型对应的至少两种识别算法,获得可能性最大的至少两种识别结果。
前述处理器401还可以执行前述方法步骤中的其他流程,在此不再赘述。
请参阅图5,图5是本发明实施例提供的一种终端设备的结构示意图,如图所示,该终端设备包括一个或多个处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述一个或多个处理器执行,上述程序包括用于执行以下步骤的指令;
提示输入语音后,采集语音数据;使用至少一种识别算法获得至少两种识别结果,输出上述至少两种识别结果;获得上述至少两种识别结果中相对准确的识别结果,确定上述相对准确的识别结果所对应的识别算法作为上述终端设备后续进行语音识别使用的识别算法。
终端设备提示输入语音的应用场景,可以是在终端设备首次使用自动提示输入语音;也可以是多次语音识别错误,或者多次语音识别不准确的情况下,用户启动本发明实施例的流程后提示输入语音。
一种识别算法会得出多个识别结果,这多个识别结果按照概率论,有些可能性比较大,有些可能性相对小一些;但是可能性相对小一些的情况,并不见得是不准确的,因为存在识别不准确的情况。
对于不同的方言或者不同类型的语言,可以有不同的识别算法;对同一种语言也可能有多种识别算法;因此本实施例可以使用多种识别算法进行尝试,来确定几个可能性比较大的识别结果。
本实施例中,获得上述至少两种识别结果中相对准确的识别结果的方式,可以是用户选择的方式实现,即:用户选择其中一个识别结果作为相对准确识别结果。
对于不同的识别结果,终端设备可以预先确定一个识别结果对应到一种优选的识别算法。本步骤最终确定后续续语音识别使用的识别算法,由于本步骤确定了一个特定的识别算法,对于手机这类设备而言,具有私人属性;也就是说,这个终端设备通常来说是同一个人使用的,使用一个特定的识别算法就可以了,不必使用过多的其他算法或者语音库来识别语音,因此识别速度和识别准确率均可以很高。
基于前文说明,本发明实施例中,通过提示用户输入语音后,采集用户输入的语音数据,然后采用一种或者多种算法得到了两种以上的识别结果,然后通过用户确认的更为准确的识别结果可以确定哪一种算法更好;该方案极为适合例如手机等较为私人或者口音类似的用户使用,可以在保证识别速度的前提下,提高非标准语音的识别的准确率。
在一个可能的实现方式中,本发明实施例还提供了一个更为具体的应用例,如下:上述终端设备提示输入语音包括:以语音的方式提示用户以用户习惯的说话方式说话。
基于此,在本实施例中,可以使用终端设备所在地的标准语音,比如:在中国使用标准普通话,提示用户以用户习惯的说话方式说话。
在一个可能的实现方式中,本发明实施例还提供了一个更为具体的应用例,上述输出上述至少两种识别结果包括:
以标准语音的方式输出上述至少两种识别结果。
可以理解的是,本实施例中,以标准语音的方式输出识别结果以后,还可以发出询问提示,在上述询问提示中询问:翻译是否准确;如果本次询问提示不是第一次询问提示,可以进一步询问这个翻译比前一个翻译结果是否更准确。
上述是否准确的询问可以是具体询问:这次翻译的对不对?类似这样口语化的语音提示。
在一个可能的实现方式中,为了更为快速的确定识别算法,本发明实施例还提供了如下解决方案:上述确定上述相对准确的识别结果所对应的识别算法包括:
首先确定上述相对准确的识别结果对应的语言类型以及方言类型;
将确定的语言类型以及方言类型对应的识别算法作为上述相对准确的识别结果所对应的识别算法。
由于对于不同的方言会建立不同的语音数据库,或者说是该方案类型对应的标准语音数据库,用于识别语音的比对。因此先确定方言类型,可以提高算法的准确性。
在一个可能的实现方式中,如果首先确定了可能是什么方言,那么可以提高识别准确性,从而提高提供给用户选择的语音的准确性,具体如下:上述使用至少一种识别算法获得至少两种识别结果包括:
按照上述终端设备所处的地理位置,使用与上述地理位置所属的方言区域对应的识别算法,获得可能性最大的至少两种识别结果;
或者,按照上述终端设备所使用的语言类型,使用上述语言类型对应的至少两种识别算法,获得可能性最大的至少两种识别结果。
在本实施例中,前者可以仅使用一种识别算法,后者可以使用多种识别算法;其中,前者结合终端设备的地理位置,可以大概率的确定用户可能的方言类型;后者,则可以确定用户使用的语言类型,此时并不清楚方言类型,因此可以尝试多种识别算法。
在一个可能的实现方式中,本发明实施例还提供了结合方言类型以及语言类型的实现方案,可以作为一个优选的实现方案,具体如下:上述使用与上述地理位置所属的方言区域对应的识别算法,获得可能性最大的至少两种识别结果包括:
按照上述终端设备所使用的语言类型以及上述终端设备所处的地理位置,依据上述语言类型及方言区域确定最可能的至少两种标准语音库,使用上述至少两种语音库对应的识别算法,获得可能性最大的至少两种识别结果。
在本实施例中,根据终端设备使用的语言类型,可以确定用户使用哪一种语言类型;例如:终端设备使用的是简体中文,那么语言类型可以是汉语;终端设备使用的是繁体中文,那么语言类型将会是汉语,更具体地可以确定是汉语中的粤语或者闽南语等;终端设备使用的是英语,那么可以确定语言类型是英语;结合地理位置,例如:终端设备使用的是简体中文,地理位置为湖北;那么大概率是汉语和湖北方言。
本发明实施例还提供了另一种终端设备,如图6所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该终端设备可以为包括手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、POS(Point of Sales,销售终端)、车载电脑等任意终端设备,以终端设备为手机为例:
图6示出的是与本发明实施例提供的终端设备相关的手机的部分结构的框图。参考图6,手机包括:射频(Radio Frequency,RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(Wireless Fidelity,WiFi)模块970、处理器980、以及电源990等部件。本领域技术人员可以理解,图6中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图6对手机的各个构成部件进行具体的介绍:
RF电路910可用于信息的接收和发送。通常,RF电路910包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier, LNA)、双工器等。此外,RF电路910还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯***(Global System of Mobilecommunication,GSM)、通用分组无线服务 (General Packet Radio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code DivisionMultiple Access, WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器920可用于存储软件程序以及模块,处理器980通过运行存储在存储器920的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据手机的使用所创建的数据(比如应用的使用参数等)等。此外,存储器920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元930可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元930可包括指纹传感器931以及其他输入设备932。指纹传感器931,可采集用户在其上的指纹数据。除了指纹传感器931,输入单元930还可以包括其他输入设备932。具体地,其他输入设备932可以包括但不限于触控屏、物理按键、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元940可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元940可包括显示屏941,可选的,可以采用液晶显示器 (Liquid CrystalDisplay,LCD)、有机发光二极管(Organic Light-Emitting Diode, OLED)等形式来配置显示屏941。虽然在图6中,指纹传感器931与显示屏941 是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将指纹传感器931与显示屏941集成而实现手机的输入和播放功能。
手机还可包括至少一种传感器950,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏941的亮度,接近传感器可在手机移动到耳边时,关闭显示屏941和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路960、扬声器961,传声器962可提供用户与手机之间的音频接口。音频电路960可将接收到的音频数据转换后的电信号,传输到扬声器961,由扬声器961转换为声音信号播放;另一方面,传声器962将收集的声音信号转换为电信号,由音频电路960接收后转换为音频数据,再将音频数据播放处理器 980处理后,经RF电路910以发送给比如另一手机,或者将音频数据播放至存储器920以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块970可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块970,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器980是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器920内的软件程序和/或模块,以及调用存储在存储器920内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器980可包括一个或多个处理单元;优选的,处理器 980可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器980中。
手机还包括给各个部件供电的电源990(比如电池),优选的,电源可以通过电源管理***与处理器980逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
前述图1所示的实施例中,各步骤方法流程可以基于该手机的结构实现。
前述图3~4所示的实施例中,各单元功能可以基于该手机的结构实现。
本发明实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括终端设备。
本发明实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括终端设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM, Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本发明实施例进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上上述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
终端设备提示输入语音后,采集语音数据;使用至少一种识别算法获得至少两种识别结果,输出所述至少两种识别结果;
获得所述至少两种识别结果中相对准确的识别结果,确定所述相对准确的识别结果所对应的识别算法作为所述终端设备后续进行语音识别使用的识别算法。
2.根据权利要求1所述方法,其特征在于,所述终端设备提示输入语音包括:以语音的方式提示用户以用户习惯的说话方式说话。
3.根据权利要求1所述方法,其特征在于,所述输出所述至少两种识别结果包括:
以标准语音的方式输出所述至少两种识别结果。
4.根据权利要求1所述方法,其特征在于,所述确定所述相对准确的识别结果所对应的识别算法包括:
首先确定所述相对准确的识别结果对应的语言类型以及方言类型;
将确定的语言类型以及方言类型对应的识别算法作为所述相对准确的识别结果所对应的识别算法。
5.根据权利要求1至4任意一项所述方法,其特征在于,所述使用至少一种识别算法获得至少两种识别结果包括:
按照所述终端设备所处的地理位置,使用与所述地理位置所属的方言区域对应的识别算法,获得可能性最大的至少两种识别结果;
或者,按照所述终端设备所使用的语言类型,使用所述语言类型对应的至少两种识别算法,获得可能性最大的至少两种识别结果。
6.根据权利要求5所述方法,其特征在于,所述使用与所述地理位置所属的方言区域对应的识别算法,获得可能性最大的至少两种识别结果包括:
按照所述终端设备所使用的语言类型以及所述终端设备所处的地理位置,依据所述语言类型及方言区域确定最可能的至少两种标准语音库,使用所述至少两种语音库对应的识别算法,获得可能性最大的至少两种识别结果。
7.一种语音识别设备,其特征在于,包括处理单元和输入输出单元,
所述处理单元,用于控制所述输入输出单元提示输入语音后,采集语音数据;使用至少一种识别算法获得至少两种识别结果,输出所述至少两种识别结果;获得所述至少两种识别结果中相对准确的识别结果,确定所述相对准确的识别结果所对应的识别算法作为所述终端设备后续进行语音识别使用的识别算法。
8.根据权利要求7所述的语音识别设备,其特征在于,
所述处理单元,用于使用至少一种识别算法获得至少两种识别结果包括:按照所述终端设备所处的地理位置,使用与所述地理位置所属的方言区域对应的识别算法,获得可能性最大的至少两种识别结果;或者,按照所述终端设备所使用的语言类型,使用所述语言类型对应的至少两种识别算法,获得可能性最大的至少两种识别结果。
9.一种终端设备,其特征在于,包括一个或多个处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述一个或多个处理器执行,所述程序包括用于执行权利要求1-6任一项方法中的步骤的指令。
10.一种计算机可读存储介质,其特征在于,其存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-6任一项所述的方法,所述计算机包括终端设备。
CN201710401787.6A 2017-05-31 2017-05-31 语音识别方法及相关产品 Pending CN107316637A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710401787.6A CN107316637A (zh) 2017-05-31 2017-05-31 语音识别方法及相关产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710401787.6A CN107316637A (zh) 2017-05-31 2017-05-31 语音识别方法及相关产品

Publications (1)

Publication Number Publication Date
CN107316637A true CN107316637A (zh) 2017-11-03

Family

ID=60183977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710401787.6A Pending CN107316637A (zh) 2017-05-31 2017-05-31 语音识别方法及相关产品

Country Status (1)

Country Link
CN (1) CN107316637A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766438A (zh) * 2018-06-21 2018-11-06 Oppo广东移动通信有限公司 人机交互方法、装置、存储介质及智能终端
CN108806691A (zh) * 2017-05-04 2018-11-13 有爱科技(深圳)有限公司 语音识别方法及***
WO2018219105A1 (zh) * 2017-05-31 2018-12-06 Oppo广东移动通信有限公司 语音识别方法及相关产品
CN110203209A (zh) * 2019-06-05 2019-09-06 广州小鹏汽车科技有限公司 一种语音提示方法和装置
CN110473570A (zh) * 2018-05-09 2019-11-19 广达电脑股份有限公司 整合式语音辨识***及方法
CN112329457A (zh) * 2019-07-17 2021-02-05 北京声智科技有限公司 输入语音的识别方法及相关设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1223529A (zh) * 1998-09-30 1999-07-21 深圳市华为技术有限公司 呼叫排队路由分配方法
CN101076063A (zh) * 2007-06-29 2007-11-21 中国网络通信集团公司 呼叫接续方法、语音求助***及语音求助信息处理方法
CN102138175A (zh) * 2008-07-02 2011-07-27 谷歌公司 具有并行识别任务的语音识别
CN103106900A (zh) * 2013-02-28 2013-05-15 用友软件股份有限公司 语音识别装置和语音识别方法
CN103903611A (zh) * 2012-12-24 2014-07-02 联想(北京)有限公司 一种语音信息的识别方法和设备
CN104301522A (zh) * 2014-09-19 2015-01-21 联想(北京)有限公司 通讯中的信息输入方法及通讯终端
CN105225665A (zh) * 2015-10-15 2016-01-06 桂林电子科技大学 一种语音识别方法及语音识别装置
CN105632501A (zh) * 2015-12-30 2016-06-01 中国科学院自动化研究所 一种基于深度学习技术的自动口音分类方法及装置
CN105931643A (zh) * 2016-06-30 2016-09-07 北京海尔广科数字技术有限公司 语音识别方法及装置
CN106128462A (zh) * 2016-06-21 2016-11-16 东莞酷派软件技术有限公司 语音识别方法及***
CN106340297A (zh) * 2016-09-21 2017-01-18 广东工业大学 一种基于云计算与置信度计算的语音识别方法与***
CN106356065A (zh) * 2016-10-31 2017-01-25 努比亚技术有限公司 一种移动终端及语音转换方法
CN106384593A (zh) * 2016-09-05 2017-02-08 北京金山软件有限公司 一种语音信息转换、信息生成方法及装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1223529A (zh) * 1998-09-30 1999-07-21 深圳市华为技术有限公司 呼叫排队路由分配方法
CN101076063A (zh) * 2007-06-29 2007-11-21 中国网络通信集团公司 呼叫接续方法、语音求助***及语音求助信息处理方法
CN102138175A (zh) * 2008-07-02 2011-07-27 谷歌公司 具有并行识别任务的语音识别
CN103903611A (zh) * 2012-12-24 2014-07-02 联想(北京)有限公司 一种语音信息的识别方法和设备
CN103106900A (zh) * 2013-02-28 2013-05-15 用友软件股份有限公司 语音识别装置和语音识别方法
CN104301522A (zh) * 2014-09-19 2015-01-21 联想(北京)有限公司 通讯中的信息输入方法及通讯终端
CN105225665A (zh) * 2015-10-15 2016-01-06 桂林电子科技大学 一种语音识别方法及语音识别装置
CN105632501A (zh) * 2015-12-30 2016-06-01 中国科学院自动化研究所 一种基于深度学习技术的自动口音分类方法及装置
CN106128462A (zh) * 2016-06-21 2016-11-16 东莞酷派软件技术有限公司 语音识别方法及***
CN105931643A (zh) * 2016-06-30 2016-09-07 北京海尔广科数字技术有限公司 语音识别方法及装置
CN106384593A (zh) * 2016-09-05 2017-02-08 北京金山软件有限公司 一种语音信息转换、信息生成方法及装置
CN106340297A (zh) * 2016-09-21 2017-01-18 广东工业大学 一种基于云计算与置信度计算的语音识别方法与***
CN106356065A (zh) * 2016-10-31 2017-01-25 努比亚技术有限公司 一种移动终端及语音转换方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《新东方英语》编辑部: "《新东方留学指南《新东方英语》增刊》", 31 July 2004 *
奚振斐: "《电子银行学》", 31 July 2006 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108806691A (zh) * 2017-05-04 2018-11-13 有爱科技(深圳)有限公司 语音识别方法及***
CN108806691B (zh) * 2017-05-04 2020-10-16 有爱科技(深圳)有限公司 语音识别方法及***
WO2018219105A1 (zh) * 2017-05-31 2018-12-06 Oppo广东移动通信有限公司 语音识别方法及相关产品
CN110473570A (zh) * 2018-05-09 2019-11-19 广达电脑股份有限公司 整合式语音辨识***及方法
CN110473570B (zh) * 2018-05-09 2021-11-26 广达电脑股份有限公司 整合式语音辨识***及方法
CN108766438A (zh) * 2018-06-21 2018-11-06 Oppo广东移动通信有限公司 人机交互方法、装置、存储介质及智能终端
CN110203209A (zh) * 2019-06-05 2019-09-06 广州小鹏汽车科技有限公司 一种语音提示方法和装置
CN112329457A (zh) * 2019-07-17 2021-02-05 北京声智科技有限公司 输入语音的识别方法及相关设备

Similar Documents

Publication Publication Date Title
CN107274885A (zh) 语音识别方法及相关产品
CN107316637A (zh) 语音识别方法及相关产品
CN107170454A (zh) 语音识别方法及相关产品
CN106652996B (zh) 一种提示音生成方法和装置、移动终端
CN111261144B (zh) 一种语音识别的方法、装置、终端以及存储介质
JP2020533696A (ja) 画像認識方法、端末及び記憶媒体
CN103578474B (zh) 一种语音控制方法、装置和设备
CN104217717A (zh) 构建语言模型的方法及装置
CN104123937B (zh) 提醒设置方法、装置和***
CN107356261B (zh) 导航方法及相关产品
CN103702297B (zh) 短信增强方法、装置及***
CN105810194B (zh) 待机状态下语音控制信息获取方法和智能终端
CN108735209A (zh) 唤醒词绑定方法、智能设备及存储介质
CN106055961B (zh) 一种指纹解锁方法及移动终端
CN107402964A (zh) 一种信息推荐方法、服务器及终端
CN109949795A (zh) 一种控制智能设备交互的方法及装置
CN109189258A (zh) 记录笔记的方法及装置
CN106920559A (zh) 通话音的优化方法、装置及通话终端
CN106657641B (zh) 一种优化分享方式的方法及相关设备
CN106356071B (zh) 一种噪声检测方法,及装置
CN107317918A (zh) 参数设置方法及相关产品
CN107256380A (zh) 指纹注册方法及相关产品
CN109324866A (zh) 应用角标的处理方法、装置、计算机可读存储介质及终端
CN108052356A (zh) 一种启动计算器的方法,及终端设备
CN108549681A (zh) 数据处理方法和装置、电子设备、计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171103