CN104756185A - 语音识别装置 - Google Patents

语音识别装置 Download PDF

Info

Publication number
CN104756185A
CN104756185A CN201280076811.9A CN201280076811A CN104756185A CN 104756185 A CN104756185 A CN 104756185A CN 201280076811 A CN201280076811 A CN 201280076811A CN 104756185 A CN104756185 A CN 104756185A
Authority
CN
China
Prior art keywords
speech recognition
section
equipment
recognition result
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280076811.9A
Other languages
English (en)
Other versions
CN104756185B (zh
Inventor
古本友纪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN104756185A publication Critical patent/CN104756185A/zh
Application granted granted Critical
Publication of CN104756185B publication Critical patent/CN104756185B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Navigation (AREA)

Abstract

根据本发明的语音识别装置,即使是在始终对说出的语音进行识别的情况下,也能够接受语音识别开始指示的操作,因此能够避免因每次识别都需要进行特定操作所带来的麻烦,而且在说话人希望的情况下,能够通过语音识别开始指示的操作,利用识别率更高的语音识别方法来进行识别,从而能够提高便利性。

Description

语音识别装置
技术领域
本发明涉及对说出的语音进行识别的语音识别装置。
背景技术
作为语音识别的方法,在说话人进行了语音识别开始指示的操作之后对说出的语音进行识别的方法、和不进行该操作而始终对说出的语音进行识别的方法已广为人知。前一方法通过明确地示出所说语音的起始端,从而使区间检测变得容易,因此识别率变高,但由于在识别时需要进行特定的操作,因此比较麻烦。而后一方法无需进行特定的操作,因此克服了上述缺点,但由于语音的区间检测较为困难,所以存在识别率变低的问题。
为解决这些问题,例如专利文献1中公开了具备上述2种语音识别方法并根据说话人的状况或周围的状况来自动地切换到合适的语音识别方法的语音识别装置。具体而言,例如在周围的噪音较大的情况下切换到前一语音识别方法,在噪音较小的情况下切换到后一语音识别方法。
现有技术文献
专利文献
专利文献1
日本专利特开2001-42894号公报
发明内容
发明所要解决的技术问题
然而,在例如专利文献1那样的现有语音识别装置中,当切换到其中一个语音识别方法时,就无法使用另一语音识别方法。因此,例如即使在噪音较小的场所想要更可靠地对语音进行识别的情况下,也无法使用前一语音识别方法,从而存在对于说话人来说便利性较低的问题。
本发明是为了解决上述技术问题而完成的,其目的在于提供一种即使是在始终对说出的语音进行识别的情况下也能够接受说话人的语音识别开始指示操作的语音识别装置。
解决技术问题所采用的技术手段
为了达到上述目的,本发明的语音识别装置对说出的语音进行识别,其包括:语音获取部,该语音获取部检测并获取所述说出的语音;第1语音识别部,该第1语音识别部在所述语音识别装置启动的情况下始终对所述语音获取部所获取的语音数据进行识别;语音识别开始指示部,该语音识别开始指示部输出语音识别开始的指示信号;第2语音识别部,该第2语音识别部在接收到所述语音识别开始指示部输出的信号时,对所述语音获取部所获取的语音数据进行识别;以及控制部,该控制部获取并输出所述第1语音识别部或所述第2语音识别部的识别结果,所述控制部获取所述第1语音识别部的识别结果,在没有接收到所述语音识别开始指示部输出的信号的情况下,将所述第1语音识别部的识别结果输出到所述语音识别装置所适用的装置,在接收到所述语音识别开始指示部输出的信号的情况下,获取所述第2语音识别部的识别结果,并将该第2语音识别部的识别结果优先于所述第1语音识别部的识别结果进行输出。
发明效果
根据本发明的语音识别装置,即使是在始终对说出的语音进行识别的情况下,也能够接受语音识别开始指示的操作,因此能够避免因识别时需要进行特定操作所带来的麻烦,而且在说话人希望的情况下,能够通过语音识别开始指示的操作,利用识别率更高的语音识别方法来进行识别,从而能够提高便利性。
附图说明
图1是表示实施方式1的语音识别装置的一个示例的框图。
图2是表示实施方式1的语音识别装置中的处理的流程图。
图3是表示实施方式2的语音识别装置的一个示例的框图。
图4是存储了画面的类别信息的表格。
图5是表示实施方式2的语音识别装置中的处理的流程图。
图6是表示在导航部的显示部上显示名称列表的画面例的图。
图7是表示实施方式3的语音识别装置的一个示例的框图。
图8是表示实施方式3的语音识别装置中的处理的流程图。
图9是表示实施方式4的语音识别装置的一个示例的框图。
图10是表示实施方式4的语音识别装置中的处理的流程图。
图11是明确示出是否是输出始终进行语音识别的第1语音识别部的识别结果的状态的图像或文字等的例子。
图12是在一般的导航画面中显示图11所示的图像或文字等的例子。
图13是在一般的导航画面中用视觉性的方法显示噪音音量的例子。
具体实施方式
下面,参照附图,对本发明的实施方式进行详细说明。
本发明是对说出的语音进行识别的语音识别装置,在该语音识别装置启动的情况下,始终进行语音识别,同时也接受说话人的语音识别开始指示的操作。在下面的实施方式中,以将本发明的语音识别装置用于搭载于车辆等移动体的导航装置的情况为例进行说明,但也可以用于安装在智能手机、平板电脑、移动电话等上的导航***等。
实施方式1
图1是表示本发明的实施方式1的语音识别装置的一个示例的框图。该语音识别装置10包括语音获取部1、语音识别开始指示部2、语音识别部3、语音识别词典4和控制部5。该语音识别装置10被用于具备导航部6的导航装置。
语音获取部1取得由麦克风收集的话语、即输入的语音,并通过例如PCM(Pulse Code Moduation:脉冲编码调制)来进行A/D(Analog/Digital:模/数)转换。
语音识别开始指示部2是例如显示在触摸屏上的图标、手柄或设置在导航***中的按钮或遥控器等的操作部,当说话人按下该语音识别开始指示部2时,向后述的第2语音识别部3b输出指示语音识别处理开始的信号。还向后述的控制部5输出表示语音识别开始指示部2被按下的信号。
语音识别部3由第1语音识别部3a和第2语音识别部3b构成,从经由语音获取部1而数字化后的语音信号中,检测出与说话内容相符合的语音区间,提取出该语音区间的语音数据的特征量,基于该特征量,利用语音识别词典4进行识别处理,并输出语音识别结果的字符串。识别处理使用例如HMM(Hidden Markov Model:隐马尔可夫模型)法之类的一般方法即可。
这里,第1语音识别部3a在说话人没有做出语音识别开始指示的情况下也始终对说话人说话的内容进行识别。即,第1语音识别部3a在没有接收到语音识别开始指示部2输出的语音识别开始指示信号的情况下,也始终对语音获取部1所获取的语音数据进行上述识别处理。另一方面,第2语音识别部3b在说话人按下语音识别开始指示部2从而接收到语音识别开始指示部2所输出的语音识别开始信号时,以此为触发来对语音获取部1所获取的语音数据进行识别。
该第1语音识别部3a的识别结果与第2语音识别部3b的识别结果相比,始终进行识别的第1语音识别部3a的识别结果的精度没有第2语音识别部3b的识别结果的精度好。但由于在说话人没有作出语音识别开始指示的情况下也始终进行语音识别,因此便利性更好。
另一方面,第2语音识别部3b的识别结果是以说话人做出的语音识别开始指示为触发来开始语音识别的,因此语音识别开始地点明确,所以语音识别的精度更好。但说话人必须要在语音识别开始指示部2上进行操作。
语音识别词典4中存储有用来在语音识别部3(第1语音识别部3a和第2语音识别部3b)进行语音识别时与语音数据的特征量进行对照的可能被提取出的词汇。
控制部5获取语音识别部3(第1语音识别部3a和第2语音识别部3b)所识别的结果,判断是否输出各识别结果,并将其输出至后述的导航部6(语音识别装置10所适用的装置)。此时,控制部5基本上是输出第1语音识别部3a所识别出的识别结果字符串,但在语音识别开始指示部2输出了信号的情况下,将第2语音识别部3b所识别的识别结果字符串优先于第1语音识别部3a所识别的识别结果字符串进行输出。
导航部6使用控制部5所输出的识别结果字符串来进行设施检索、或将识别结果显示在画面上、或执行与识别结果字符串相对应的功能。导航部6具备通常的导航装置所具备的的基本功能,图中省略了图示,但也可以具备用于对识别结果进行画面显示的显示部。
接下来,利用图2所示的流程图,对实施方式1的语音识别装置的动作进行说明。
首先,控制部5获取第1语音识别部3a的识别结果(步骤ST01)。第1语音识别部3a如上所述,在语音识别装置10启动的期间内,始终对说出的语音进行识别,控制部5也基本上在没有任何指示的情况下都获取来自第1语音识别部3a的识别结果。
然后,控制部5判定语音识别开始指示部2是否输出了语音识别开始信号(步骤ST02)。在该信号没有输出从而没有接收到该信号的情况(步骤ST02为否的情况)下,输出步骤ST01中取得的第1语音识别部3a的识别结果(步骤ST03)。另一方面,在语音识别开始信号输出从而接收到该信号的情况(步骤ST02为是的情况)下,获取第2语音识别部3b的识别结果(步骤ST04),并优先输出步骤ST04中获取的第2语音识别部3b的识别结果,而不是步骤ST01中取得的第1语音识别部3a的识别结果(步骤ST05)。
这样,在基本上由第1语音识别部3a始终对说出的语音进行识别并输出的语音识别装置中,能够仅仅在语音识别开始指示部2被按下的情况下,才***第2语音识别部3b的识别结果的输出并使该识别结果优先输出,因此,例如在噪音较小的场所等想要更可靠地进行语音识别时,通过按下语音识别开始指示部2,能够输出高识别率的语音识别结果。
如上所述,即使是在始终对说出的语音进行识别的情况下,也能够接受语音识别开始指示的操作,并优先输出该语音识别开始指示所带来的高精度的语音识别结果,因此能够避免通常在识别时需要进行特定操作所带来的麻烦,而且在说话人希望的情况下,能够通过语音识别开始指示的操作,利用识别率更高的语音识别方法来进行识别,从而能够提高便利性。
关于语音识别词典4,说明了第1语音识别部3a和第2语音识别部3b使用同一词典的情况,各语音识别部也可以使用不同的语音识别词典。例如,第2语音识别部3b所使用的词典可以仅存储“下一个”、“第N行”、“前一页”等用于选择所显示的列表项目的词汇,即,与第1语音识别部3a所使用的语音识别词典相比,其识别词汇被限定。
通过这样使用不同的语音识别词典,在按下语音识别开始指示部2说话的情况下,识别率进一步提高,因此在说话人特别不想识别失败的情况等下,进一步提高了便利性。
实施方式2
图3是表示本发明的实施方式2的语音识别装置的一个示例的框图。对于与实施方式1中说明的相同的结构,标注同一标号并省略重复说明。以下所示的实施方式2的语音识别装置20与实施方式1的语音识别装置10相比,其还具备画面信息获取部(周边状态获取部)7和画面信息存储部8。另外,控制部5的动作也与实施方式1的不同,其动作将在后文阐述。
画面信息获取部(周边状态获取部)7获取导航部6的显示部(语音识别装置20所适用的装置的显示部)上显示的画面的类别信息(例如分配给每一个画面的ID或画面名称等。以下也一样)。
画面信息存储部8如图4(a)所示,存储的是导航部6的显示部上显示的画面的类别信息,是不想要语音识别失败的画面的类别信息,即,所述画面的类别信息表示该画面是被分到要采用第2语音识别部3b的识别结果的类别的画面,并决定不输出第1语音识别部3a的识别结果。
而且,本实施方式2的语音识别装置20中的控制部5以画面信息获取部7获取的画面信息作为检索关键词,在画面信息存储部8中进行检索。在与检索关键词一致的画面的类别信息存在于画面信息存储部8的情况下,决定不向导航部6(语音识别装置20所适用的装置)输出第1语音识别部3a的识别结果,在与检索关键词一致的画面的类别信息不存在于画面信息存储部8的情况下,如通常那样输出第1语音识别部3a的识别结果。即,控制部5基于画面信息获取部(周边信息获取部)7所获取的画面的类别信息,在判断该画面是被分到要采用第2语音识别部3b的识别结果的类别的画面的情况下,不输出第1语音识别部3a的识别结果。
具体而言,例如在显示部上显示了主画面、设施检索画面、音乐检索画面等的情况下,通常只要始终进行识别的第1语音识别部3a进行语音识别并输出识别结果即可,但在显示部上显示了特别不想识别失败的菜单画面或列表选择画面等的情况下,想要使用通过语音识别开始指示部2的指示而进行高精度的语音识别所得到的第2语音识别部3b的识别结果,因此不再输出第1语音识别部3a的识别结果。
即,特别不想识别失败的菜单画面或列表选择画面等画面被分到要采用第2语音识别部3b的识别结果的类别,当导航部6的显示部(语音识别装置20所适用的装置的显示部)上显示的画面是这些菜单画面或列表选择画面等画面时,控制部5能够基于该显示的画面的类别信息,判断该画面是被分到要采用第2语音识别部3b的识别结果的类别的画面。
接下来,利用图5所示的流程图,对实施方式2的语音识别装置的动作进行说明。
首先,画面信息获取部(周边状态获取部)7在从导航部6接收到显示部所显示的画面发生了变更的通知时,获取该显示的画面的类别信息(步骤ST11)。然后,控制部5以画面信息获取部7所获取的类别信息为检索关键词,在画面信息存储部8中进行检索(步骤ST12)。
在画面信息存储部8所存储的画面的类别信息中存在步骤ST11所获取的画面的类别信息的情况(步骤ST13为是的情况)下,控制部5不输出第1语音识别部3a的识别结果(步骤ST14)。另一方面,在画面信息存储部8所存储的画面的类别信息中不存在该类别信息的情况(步骤ST13为否的情况)下,若第1语音识别部3a的识别结果的输出处于停止状态(步骤ST15为是的情况),则控制部5重新开始输出第1语音识别部3a的识别结果(步骤ST16)。另外,在画面信息存储部8中不存在所取得的画面的类别信息的情况(步骤ST13为否的情况)下,若第1语音识别部3a的识别结果的输出未停止(步骤ST15为否的情况),则直接结束处理,并按通常那样进行语音识别和输出处理。
画面信息存储部8也可以如图4(b)那样将画面类别和表示是否输出第1语音识别部3a的识别结果的标记与画面的类别对应起来进行存储,控制部5以画面信息获取部7所获取的画面的类别信息为检索关键词,在画面信息存储部8中进行检索,若相一致的画面的类别信息所对应的标记为False(假),则停止输出第1语音识别部3a的识别结果(步骤ST14的处理),若相一致的画面的类别信息所对应的标记为True(真),则重新开始输出第1语音识别部3a的识别结果(步骤ST15和ST16的处理)。
在图4(a)(b)中,也可以采用不设置画面名称和ID中的任一方项目的结构。
也可以基于在显示部所显示的画面上重叠显示的显示元素的类别,来判断是否输出第1语音识别部3a的识别结果。这里,该重叠显示的显示元素例如是图6所示那样呈现出设施检索结果的名称列表13等。图6是导航部6的显示部上显示的导航画面的一个示例。
图6是在地图上显示了表示本车位置的本车标志12的一般导航画面中,重叠显示例如饭店检索的结果、牛排餐厅检索等的结果、牛排餐厅的名称列表13,并等待说话人进行选择的状态。这样,即使在显示了名称列表13作为说话人应当进行某种选择的状态的显示元素的情况下,由于不想要语音识别失败,因此也控制为不输出第1语音识别部3b的识别结果。
另外,本实施方式2中,说明了基于导航部6的显示部所显示的画面的类别信息来判断是否输出第1语音识别部3a的识别结果的情况,但也可以基于导航部6所执行的功能的类别信息来判断是否输出第1语音识别部3a的识别结果。即,控制部5在判断其功能是被分到要采用第2语音识别部3b的识别结果的类别的功能的情况下,不输出第1语音识别部的识别结果。
例如,在执行的功能是检索住所的情况下,由于住所是不确定性较低且与列表中的候选选项同样是想要可靠地进行识别的对象,而且不希望其语音识别失败,因此,该住所检索的功能被分到要采用第2语音识别部3b的识别结果的类别,控制部5基于该功能的类别信息,判断该功能是被分到要采用第2语音识别部3b的识别结果的类别的功能,从而控制为不输出第1语音识别部3a的识别结果。这种情况下,将图5所示的框图中的画面信息获取部7作为功能信息获取部(周边状态获取部),从导航部6获取当前正在执行的功能的类别信息,并将画面信息存储部8作为功能信息存储部来存储功能的类别信息。然后,控制部5以功能的类别信息作为检索关键词,在功能信息存储部中进行检索即可,
这样,根据语音识别装置所适用的装置正在显示的画面或正在执行的功能,停止或重新开始输出始终进行语音识别的第1语音识别部的识别结果,因此在例如显示了检索结果的列表画面中选择列表项目等特别不想要识别失败的状况下,通过按下语音识别开始指示部2说话,能够减少误识别,并且不会显示由始终进行语音识别产生的误识别或误检测的结果,也不会基于误识别或误检测的结果进行动作,从而提高了便利性。
实施方式3
图7是表示本发明的实施方式3的语音识别装置的一个示例的框图。对于与实施方式1中说明的相同的结构,标注同一标号并省略重复说明。以下所示的实施方式3的语音识别装置30与实施方式1的语音识别装置10相比,其还具备行驶状态获取部(周边状态获取部)9。另外,控制部5的动作也与实施方式1的不同,其动作将在后文阐述。
行驶状态获取部(周边状态获取部9)获取语音识别装置30所在的移动体的行驶状态,例如是否处于停车状态的信息、行驶速度、发动机转速等。
而且,本实施方式3的语音识别装置30的控制部5根据行驶状态获取部9获取的行驶状态,决定是否输出第1语音识别部3a的识别结果。
具体而言,控制部5基于移动体的行驶状态,在判断该移动体处于加速中或者高速移动中的情况下,不输出第1语音识别部3a的识别结果。例如,在车辆处于停止状态等预料到噪音较小的情况下,输出始终进行的第1语音识别部3a的识别结果即可,在车辆处于加速中或高速移动中等预料到噪音较大而识别率会更低的情况下,想要使用根据语音识别开始指示部2的指示而进行高精度的语音识别的第2语音识别部3b的识别结果,因此不输出第1语音识别部3a的识别结果。
接下来,利用图8所示的流程图,对实施方式3的语音识别装置的动作进行说明。
首先,行驶状态获取部(周边状态获取部)9从例如CAN(Controller AreaNetwork:控制器区域网络)信号等中,获取车辆(移动体)的速度、转向状态、停车状态、制动状态、发动机转速等移动体的行驶状态(步骤ST21)。然后,控制部5基于行驶状态获取部9所获取的信息(移动体的行驶状态),判断移动体是在行驶状态还是停车状态(步骤ST22)。
然后,在判断为移动体处于停车状态(步骤ST22为是的情况)且第1语音识别部3a的识别结果的输出处于停止状态的情况(步骤ST23为是的情况)下,重新开始输出第1语音识别部3a的识别结果(步骤ST24)。另外,当步骤ST23中第1语音识别部3a的识别结果的输出未处于停止状态时(步骤ST23为否的情况),直接结束处理,然后按通常那样进行语音识别和输出处理。
另一方面,在判断为移动体处于行驶状态(步骤ST22为否的情况)且行驶速度在规定值以下(或小于规定值)的情况(步骤ST25为是的情况)下,执行步骤ST23之后的处理。当步骤ST25中行驶速度大于规定值(或在规定值以上)时(步骤ST25为否的情况)下,不输出第1语音识别部3a的识别结果(步骤ST26)。
如上所述,根据移动体的行驶状态来停止或重新开始输出始终进行语音识别的第1语音识别部的识别结果,因此,能够在加速状态或高速行驶状态等预料到噪音较大的情况下抑制误识别的发生,而在停车状态等预料到噪音较小的情况下无需进行特定的操作就能识别语音,从而能够消除麻烦以提高便利性。
本实施方式3中,说明了在行驶速度大于规定值(或在规定值以上)的情况下不输出第1语音识别部3a的识别结果的情况,但也可以反过来在移动体处于停车状态时停止输出第1语音识别部3a的识别结果,而在行驶速度大于规定值(或在规定值以上)时重新开始输出该识别结果。即,对于例如驾驶初学者等来说,在行驶过程中操作按钮等是非常危险的,因此,可以在移动体处于停车状态的情况下对语音识别开始指示部2进行按下操作从而采用第2语音识别部3b的识别结果,而在行驶过程中输出始终进行识别的第1语音识别部3a的识别结果。
另外,为了避免因行驶速度在规定值附近变化而导致在短时间内反复进行第1语音识别部3a的识别结果的输出的停止和重新开始,也可以将重新开始输出第1语音识别部3a的识别结果的规定值与停止输出时的规定值设定为不同的值。具体而言,例如将停止输出时的规定值设为60km/h,将重新开始时的规定值设为70km/h等,使其具有滞后性。从而,即使是在行驶速度在规定值附近发生微小变化的情况下,也能够避免识别结果的输出的停止和重新开始频繁地反复变化。
实施方式4
图9是表示本发明的实施方式4的语音识别装置的一个示例的框图。对于与实施方式1中说明的相同的结构,标注同一标号并省略重复说明。以下所示的实施方式4的语音识别装置40与实施方式1的语音识别装置10相比,其还具备噪音获取部(周边状态获取部)11。另外,控制部5的动作也与实施方式1的不同,其动作将在后文阐述。
噪音获取部(周边状态获取部)11对由麦克风收集的声音进行解析,计算出噪音音量并输出。即,获取语音识别装置40周边的噪音音量。
而且,本实施方式4的语音识别装置40的控制部5根据噪音获取部11获取的噪音音量,停止或重新开始输出第1语音识别部3a的识别结果。
具体而言,在噪音音量为规定值以上的情况下,控制部5不输出第1语音识别部3a的识别结果。例如,在噪音音量较小的情况下,输出始终进行的第1语音识别部3a的识别结果即可,但在预料到噪音音量较大而识别率会变低的情况下,想要使用根据语音识别开始指示部2的指示而进行高精度的语音识别的第2语音识别部3b的识别结果,因此不输出第1语音识别部3a的识别结果。
接下来,利用图10所示的流程图,对实施方式4的语音识别装置的动作进行说明。
首先,噪音获取部(周边状态获取部)11对由麦克风收集的声音进行解析,计算出噪音音量(步骤ST31)。然后,在噪音获取部11计算出的噪音音量为规定值以下(或小于规定值(步骤ST32为是的情况)且第1语音识别部3a的识别结果的输出处于停止状态的情况(步骤ST33为是的情况)下,重新开始输出第1语音识别部3a的识别结果(步骤ST34)。另外,当第1语音识别部3a的识别结果的输出未处于停止状态时(步骤ST33为否的情况),直接结束处理,然后按通常那样进行语音识别和输出处理。
另一方面,在噪音获取部11计算出的噪音音量大于规定值(或在规定值以上)的情况下(步骤ST32为否的情况)下,不输出第1语音识别部3a的识别结果(步骤ST35)。
这里,当噪音音量在说话人说话的中途变为大于规定值(或在规定值以上)时,也可以在对所说的语音的第1语音识别部3a的识别结果的输出结束之前,不停止输出第1语音识别部3a的识别结果。
本实施方式4中,根据从麦克风收集的声音来决定噪音音量,但也可以基于实施方式3中的行驶状态获取部9获得的发动机转速来决定噪音音量。
具体而言,在噪音获取部11中将发动机转速和对应于该转速的噪音音量对应起来进行存储,噪音获取部11从基于CAN信号等获取了发动机转速的行驶状态获取部9获取发动机转速,并决定与该获取的转速相对应的噪音音量。
然后,控制部5根据该噪音音量是否在规定值以下(或小于规定值),来判断是否输出第1语音识别部3a的识别结果。
另外,也可以与实施方式3一样,将重新开始输出第1语音识别部3a的识别结果的规定值与停止输出时的规定值设定为不同的值等,使其具有滞后性。
另外,噪音获取部11还可以通过导航部6从地图数据获取正在行驶的道路类别,并基于该道路类别来判断是否输出第1语音识别部3a的识别结果。具体而言,考虑在所获取的道路类别为“隧道内的道路”的情况下,判断为容易产生噪音,控制不输出第1语音识别部3a的识别结果等。
如上所述,根据语音识别装置周边的噪音音量来停止或重新开始输出始终进行语音识别的第1语音识别部的识别结果,因此,能够在噪音较大的情况下抑制误识别的发生,而在噪音较小的情况下无需进行特定的操作就能识别语音,从而能够消除麻烦以提高便利性。
上述实施方式2~4中,也可以如图12那样在导航部6的显示部显示图像或文字等(参照图11(a)或(b)),以表示是否输出第1语音识别部3a的识别结果。图11是明确示出是否是在输出始终进行语音识别的第1语音识别部3a的识别结果的状态下的图像或文字等的例子,图11(a)用图像来表示,图11(b)用文字来表示。图11(a)(b)的左侧表示的都是输出第1语音识别部3a的识别结果的状态,右侧表示的都是停止输出第1语音识别部3a的识别结果的状态。除此以外,也可以用记号等来明确示出。
图12是在地图上显示了表示本车位置的本车标志12的一般导航画面中,显示了图11所示的表示是否是在输出第1语音识别部3a的识别结果的状态下的图像或文字等14的例子。当前处于输出第1语音识别部3a的识别结果的状态下时,如图12所示,例如在该画面的左下方显示图11(b)左侧的文字即可。
这种情况下,也可以例如从控制部5输出表示是否需要进行该显示的信号。另外,也可以根据是否进行第1语音识别部3a的识别结果的输出处理,改变显示画面的颜色,还可以改变画面正在显示的语音识别开始指示部2的颜色等。从而,说话人能够立即得知始终进行语音识别的第1语音识别部3a的识别结果的输出是否停止,从而提高了便利性。
另外,上述实施方式4中,也可以如图13所示那样,在显示部用视觉方式来显示噪音音量15和规定值(噪音音量的阈值)16。图13是在地图上显示了表示本车位置的本车标志12的一般导航画面中,重叠显示了当前语音识别装置周边的噪音音量15、和用于明示该噪音音量是否超过了规定值16的规定值16。从而,说话人能够根据噪音音量,通过视觉方式掌握始终进行语音识别的第1语音识别部3a的识别结果的输出是否停止,从而提高了便利性。
此外,还可以在图12所示的显示了表示是否是在输出第1语音识别部3a的识别结果的状态下的图像或文字等14的基础上,显示图13所示的噪音音量15和规定值(噪音音量的阈值)16。从而,说话人能够通过视觉方式立即掌握始终进行语音识别的第1语音识别部3a的识别结果的输出是否停止、以及其原因是由于噪音音量较大(或较小)引起的,从而进一步提高了便利性。
在以上实施方式中,说明了将本发明的语音识别装置用于搭载于车辆等移动体的导航装置的情况,但适用的导航装置并不限于车辆用,也可以用于包括人、车辆、铁路、船舶或飞机等移动体用的导航装置、安装在智能手机、平板电脑、移动电话等上的导航***等各种形态。
本申请发明在其发明的范围内可以将各实施方式自由组合,或者对各实施方式的任意构成要素进行变形,或者在各实施方式中省略任意构成要素。
工业上的实用性
本发明的语音识别装置能够用于搭载于车辆等移动体的导航装置、安装在智能手机、平板电脑、移动电话等上的导航***等。
标号说明
1 语音获取部、2 语音识别开始指示部、3 语音识别部、3a 第1语音识别部、3b 第2语音识别部、4 语音识别词典、5 控制部、6 导航部、7 画面信息获取部(周边状态获取部)、8 画面信息存储部、9 行驶状态获取部(周边状态获取部)、10、20、30、40 语音识别装置、11 噪音获取部(周边状态获取部)、12 本车标记、13 名称列表、14 表示是否在输出第1语音识别部3a的识别结果的状态下的图像或文字等、15 噪音音量、16规定值(噪音音量的阈值)。

Claims (8)

1.一种语音识别装置,对说出的语音进行识别,其特征在于,包括:
语音获取部,该语音获取部检测并获取所述说出的语音;
第1语音识别部,该第1语音识别部在所述语音识别装置启动的情况下始终对所述语音获取部所获取的语音数据进行识别;
语音识别开始指示部,该语音识别开始指示部输出语音识别开始的指示信号;
第2语音识别部,该第2语音识别部在接收到所述语音识别开始指示部输出的信号时,对所述语音获取部所获取的语音数据进行识别;以及
控制部,该控制部获取并输出所述第1语音识别部或所述第2语音识别部的识别结果,
所述控制部获取所述第1语音识别部的识别结果,在没有接收到所述语音识别开始指示部输出的信号的情况下,将所述第1语音识别部的识别结果输出到所述语音识别装置所适用的装置,在接收到所述语音识别开始指示部输出的信号的情况下,获取所述第2语音识别部的识别结果,并将该第2语音识别部的识别结果优先于所述第1语音识别部的识别结果进行输出。
2.如权利要求1所述的语音识别装置,其特征在于,
还包括周边状态获取部,该周边状态获取部获取周边状态,
所述控制部基于所述周边状态获取部获取的周边状态,决定是否输出所述第1语音识别部的识别结果。
3.如权利要求2所述的语音识别装置,其特征在于,
所述周边状态是所述语音识别装置所适用的装置的显示部上显示的画面的类别信息,
所述控制部在基于所述画面的类别信息,判断该画面是被分到要采用所述第2语音识别部的识别结果的类别的画面的情况下,不输出所述第1语音识别部的识别结果。
4.如权利要求2所述的语音识别装置,其特征在于,
所述周边状态是所述语音识别装置所适用的装置所执行的功能的类别信息,
所述控制部在基于所述功能的类别信息,判断该功能是被分到要采用所述第2语音识别部的识别结果的类别的功能的情况下,不输出所述第1语音识别部的识别结果。
5.如权利要求2所述的语音识别装置,其特征在于,
所述语音识别装置搭载于移动体,
所述周边状态是所述移动体的行驶状态,
所述控制部在基于所述移动体的行驶状态,判断该移动体处于加速中或者高速移动中的情况下,不输出所述第1语音识别部的识别结果。
6.如权利要求2所述的语音识别装置,其特征在于,
所述周边状态是所述语音识别装置周边的噪音音量,
所述控制部在所述噪音音量为规定值以上的情况下,不输出所述第1语音识别部的识别结果。
7.如权利要求2所述的语音识别装置,其特征在于,
所述控制部在所述语音识别装置所适用的装置的显示部上显示是否处于不输出所述第1语音识别部的识别结果的状态。
8.如权利要求6所述的语音识别装置,其特征在于,
所述控制部在所述语音识别装置所适用的装置的显示部上通过视觉方式显示所述周边状态获取部所获取的噪音音量。
CN201280076811.9A 2012-11-05 2012-11-05 语音识别装置 Expired - Fee Related CN104756185B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/078625 WO2014068788A1 (ja) 2012-11-05 2012-11-05 音声認識装置

Publications (2)

Publication Number Publication Date
CN104756185A true CN104756185A (zh) 2015-07-01
CN104756185B CN104756185B (zh) 2018-01-09

Family

ID=50626751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280076811.9A Expired - Fee Related CN104756185B (zh) 2012-11-05 2012-11-05 语音识别装置

Country Status (5)

Country Link
US (1) US9378737B2 (zh)
JP (1) JP5677650B2 (zh)
CN (1) CN104756185B (zh)
DE (1) DE112012007103B4 (zh)
WO (1) WO2014068788A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106796790A (zh) * 2016-11-16 2017-05-31 深圳达闼科技控股有限公司 机器人语音指令识别的方法及相关机器人装置
CN108780542A (zh) * 2016-06-21 2018-11-09 日本电气株式会社 作业支持***、管理服务器、便携式终端、作业支持方法以及程序
CN109462694A (zh) * 2018-11-19 2019-03-12 维沃移动通信有限公司 一种语音助手的控制方法及移动终端
CN111629156A (zh) * 2019-02-28 2020-09-04 北京字节跳动网络技术有限公司 图像特效的触发方法、装置和硬件装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6418820B2 (ja) * 2014-07-07 2018-11-07 キヤノン株式会社 情報処理装置、表示制御方法、及びコンピュータプログラム
JP2016109725A (ja) * 2014-12-02 2016-06-20 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
CA3004281A1 (en) 2016-10-31 2018-05-03 Rovi Guides, Inc. Systems and methods for flexibly using trending topics as parameters for recommending media assets that are related to a viewed media asset
JP2018116206A (ja) * 2017-01-20 2018-07-26 アルパイン株式会社 音声認識装置、音声認識方法及び音声認識システム
WO2018174884A1 (en) 2017-03-23 2018-09-27 Rovi Guides, Inc. Systems and methods for calculating a predicted time when a user will be exposed to a spoiler of a media asset
JP7119008B2 (ja) * 2017-05-24 2022-08-16 ロヴィ ガイズ, インコーポレイテッド 自動発話認識を使用して生成された入力を発話に基づいて訂正する方法およびシステム
JP6996944B2 (ja) * 2017-11-07 2022-01-17 アルパイン株式会社 音声認識システム

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001042894A (ja) * 1999-08-04 2001-02-16 Toshiba Corp 音声認識装置及び方法
US20020046023A1 (en) * 1995-08-18 2002-04-18 Kenichi Fujii Speech recognition system, speech recognition apparatus, and speech recognition method
JP2003140691A (ja) * 2001-11-07 2003-05-16 Hitachi Ltd 音声認識装置
CN1454381A (zh) * 2000-09-08 2003-11-05 高通股份有限公司 在话音识别的说话者独立型和依赖型模式中组合dtw和hmm
JP2004219728A (ja) * 2003-01-15 2004-08-05 Matsushita Electric Ind Co Ltd 音声認識装置
CN1692406A (zh) * 2003-02-03 2005-11-02 三菱电机株式会社 车载控制装置
JP2006215418A (ja) * 2005-02-07 2006-08-17 Nissan Motor Co Ltd 音声入力装置及び音声入力方法
JP2006251298A (ja) * 2005-03-10 2006-09-21 Nissan Motor Co Ltd 音声入力装置および音声入力方法
CN1920948A (zh) * 2005-08-24 2007-02-28 富士通株式会社 语音识别***及语音处理***
CN101034390A (zh) * 2006-03-10 2007-09-12 日电(中国)有限公司 用于语言模型切换和自适应的装置和方法
CN101039359A (zh) * 2007-04-30 2007-09-19 华为技术有限公司 电话会议中提示发言人信息的方法、设备和***
CN101136198A (zh) * 2006-08-29 2008-03-05 爱信艾达株式会社 语音识别方法及语音识别装置
DE102007042583A1 (de) * 2007-09-07 2009-03-12 Audi Ag Verfahren zur Kommunikation zwischen einer natürlichen Person und einem künstlichen Sprachsystem sowie Kommunikationssystem
CN101443732A (zh) * 2006-05-12 2009-05-27 皇家飞利浦电子股份有限公司 用于从第一自适应数据处理版本转换至第二自适应数据处理版本的方法
US20100004930A1 (en) * 2008-07-02 2010-01-07 Brian Strope Speech Recognition with Parallel Recognition Tasks
JP2010078986A (ja) * 2008-09-26 2010-04-08 Hitachi Ltd 音声認識による機器制御装置
CN101855521A (zh) * 2007-11-12 2010-10-06 大众汽车有限公司 用于信息的输入和展示的驾驶员辅助***的多形态的用户接口
CN102750087A (zh) * 2012-05-31 2012-10-24 华为终端有限公司 控制语音识别功能的方法、装置和终端设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0635497A (ja) * 1992-07-16 1994-02-10 Nippon Telegr & Teleph Corp <Ntt> 音声入力装置
JPH0713591A (ja) * 1993-06-22 1995-01-17 Hitachi Ltd 音声認識装置および音声認識方法
DE19533541C1 (de) * 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
GB2383459B (en) * 2001-12-20 2005-05-18 Hewlett Packard Co Speech recognition system and method
JP2004354722A (ja) 2003-05-29 2004-12-16 Nissan Motor Co Ltd 音声認識装置
US7418392B1 (en) * 2003-09-25 2008-08-26 Sensory, Inc. System and method for controlling the operation of a device by voice commands
JP2006010739A (ja) * 2004-06-22 2006-01-12 Toyota Central Res & Dev Lab Inc 音声認識装置
US20110111805A1 (en) * 2009-11-06 2011-05-12 Apple Inc. Synthesized audio message over communication links
US9620122B2 (en) * 2011-12-08 2017-04-11 Lenovo (Singapore) Pte. Ltd Hybrid speech recognition
EP2639793B1 (en) * 2012-03-15 2016-04-20 Samsung Electronics Co., Ltd Electronic device and method for controlling power using voice recognition
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020046023A1 (en) * 1995-08-18 2002-04-18 Kenichi Fujii Speech recognition system, speech recognition apparatus, and speech recognition method
JP2001042894A (ja) * 1999-08-04 2001-02-16 Toshiba Corp 音声認識装置及び方法
CN1454381A (zh) * 2000-09-08 2003-11-05 高通股份有限公司 在话音识别的说话者独立型和依赖型模式中组合dtw和hmm
JP2003140691A (ja) * 2001-11-07 2003-05-16 Hitachi Ltd 音声認識装置
JP2004219728A (ja) * 2003-01-15 2004-08-05 Matsushita Electric Ind Co Ltd 音声認識装置
CN1692406A (zh) * 2003-02-03 2005-11-02 三菱电机株式会社 车载控制装置
JP2006215418A (ja) * 2005-02-07 2006-08-17 Nissan Motor Co Ltd 音声入力装置及び音声入力方法
JP2006251298A (ja) * 2005-03-10 2006-09-21 Nissan Motor Co Ltd 音声入力装置および音声入力方法
CN1920948A (zh) * 2005-08-24 2007-02-28 富士通株式会社 语音识别***及语音处理***
CN101034390A (zh) * 2006-03-10 2007-09-12 日电(中国)有限公司 用于语言模型切换和自适应的装置和方法
CN101443732A (zh) * 2006-05-12 2009-05-27 皇家飞利浦电子股份有限公司 用于从第一自适应数据处理版本转换至第二自适应数据处理版本的方法
CN101136198A (zh) * 2006-08-29 2008-03-05 爱信艾达株式会社 语音识别方法及语音识别装置
CN101039359A (zh) * 2007-04-30 2007-09-19 华为技术有限公司 电话会议中提示发言人信息的方法、设备和***
DE102007042583A1 (de) * 2007-09-07 2009-03-12 Audi Ag Verfahren zur Kommunikation zwischen einer natürlichen Person und einem künstlichen Sprachsystem sowie Kommunikationssystem
CN101855521A (zh) * 2007-11-12 2010-10-06 大众汽车有限公司 用于信息的输入和展示的驾驶员辅助***的多形态的用户接口
US20100004930A1 (en) * 2008-07-02 2010-01-07 Brian Strope Speech Recognition with Parallel Recognition Tasks
JP2010078986A (ja) * 2008-09-26 2010-04-08 Hitachi Ltd 音声認識による機器制御装置
CN102750087A (zh) * 2012-05-31 2012-10-24 华为终端有限公司 控制语音识别功能的方法、装置和终端设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108780542A (zh) * 2016-06-21 2018-11-09 日本电气株式会社 作业支持***、管理服务器、便携式终端、作业支持方法以及程序
CN108780542B (zh) * 2016-06-21 2023-05-02 日本电气株式会社 作业支持***、管理服务器、便携式终端、作业支持方法以及程序
CN106796790A (zh) * 2016-11-16 2017-05-31 深圳达闼科技控股有限公司 机器人语音指令识别的方法及相关机器人装置
CN106796790B (zh) * 2016-11-16 2020-11-10 深圳达闼科技控股有限公司 机器人语音指令识别的方法及相关机器人装置
CN109462694A (zh) * 2018-11-19 2019-03-12 维沃移动通信有限公司 一种语音助手的控制方法及移动终端
CN111629156A (zh) * 2019-02-28 2020-09-04 北京字节跳动网络技术有限公司 图像特效的触发方法、装置和硬件装置
US11595591B2 (en) 2019-02-28 2023-02-28 Beijing Bytedance Network Technology Co., Ltd. Method and apparatus for triggering special image effects and hardware device

Also Published As

Publication number Publication date
US9378737B2 (en) 2016-06-28
DE112012007103B4 (de) 2017-02-02
CN104756185B (zh) 2018-01-09
WO2014068788A1 (ja) 2014-05-08
JP5677650B2 (ja) 2015-02-25
DE112012007103T5 (de) 2015-07-30
JPWO2014068788A1 (ja) 2016-09-08
US20150279363A1 (en) 2015-10-01

Similar Documents

Publication Publication Date Title
CN104756185A (zh) 语音识别装置
US9092394B2 (en) Depth based context identification
US7818171B2 (en) Speech recognition apparatus and speech recognition program
JP5925313B2 (ja) 音声認識装置
EP1975923B1 (en) Multilingual non-native speech recognition
US9123327B2 (en) Voice recognition apparatus for recognizing a command portion and a data portion of a voice input
JP2002041085A (ja) 音声認識装置及び記録媒体
JP2006195576A (ja) 車載音声認識装置
CN101033977B (zh) 导航仪的语音导航方法
JP6214297B2 (ja) ナビゲーション装置および方法
CN108122557A (zh) 基于声纹识别的车载多媒体导航终端
US20130013310A1 (en) Speech recognition system
CN1458645A (zh) 语音识别设备和语音识别程序
KR101063607B1 (ko) 음성인식을 이용한 명칭 검색 기능을 가지는 네비게이션시스템 및 그 방법
US7295923B2 (en) Navigation device and address input method thereof
JP3830124B2 (ja) 音声認識装置
JP4938719B2 (ja) 車載情報システム
JP2947143B2 (ja) 音声認識装置及びナビゲーション装置
JP3700533B2 (ja) 音声認識装置及び処理システム
JP2007025076A (ja) 車載用音声認識装置
JP4646718B2 (ja) ナビゲーション装置
JP2000305595A (ja) 音声認識装置
JP2007271901A (ja) ナビゲーション装置及びその住所入力方法
JP2008298851A (ja) 音声入力処理装置および音声入力処理方法
JPH11125533A (ja) ナビゲーション装置及びナビゲート方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180109