CN1941077A - 识别语音输入中的字符串的语音识别设备和方法 - Google Patents

识别语音输入中的字符串的语音识别设备和方法 Download PDF

Info

Publication number
CN1941077A
CN1941077A CNA2006101155289A CN200610115528A CN1941077A CN 1941077 A CN1941077 A CN 1941077A CN A2006101155289 A CNA2006101155289 A CN A2006101155289A CN 200610115528 A CN200610115528 A CN 200610115528A CN 1941077 A CN1941077 A CN 1941077A
Authority
CN
China
Prior art keywords
sounding
speech utterance
speech
utterance
identification candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006101155289A
Other languages
English (en)
Inventor
平川秀树
知野哲朗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN1941077A publication Critical patent/CN1941077A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

语音识别设备包括:生成单元,用于接收语音发声并生成至少一个与其相关的识别候选和该候选的可能性;存储单元,用于存储识别候选和可能性;选择单元,用于根据可能性选择一第一语音发声的识别结果;发声关系确定单元,用于当顺序地输入第一和第二语音发声时,至少确定在之后输入的第二语音发声是第一语音发声整体的还是部分的重新发声;整体修正单元,用于当确定是第一语音发声的整体的重新发声时,根据第二语音发声修正第一语音发声的整体的识别候选并显示修正的识别结果;部分修正单元,用于当确定是第一语音发声的一部分的重新发声时,根据第二语音发声修正第一语音发声的、对应于第二语音发声的部分的识别候选并显示修正的识别结果。

Description

识别语音输入中的字符串的语音识别设备和方法
技术领域
本发明涉及一种语音识别设备和一种语音识别方法,根据其可以识别语音输入中的字符串。
背景技术
传统上,开发了语音识别技术,以便通过在语音发声(speechutterance)和预先存储的用于语音分析的信息之间进行模式对照,来实现语音信息到文本信息的转换。现有的语音识别技术不能完全避免识别错误。为了克服这种不便,提出了多种技术,并且被广泛使用以便提高语音识别的精确度。
例如,一种传统技术使得能够高效地获取语音识别中的适当结果,这是通过执行下列步骤来实现的:在多个识别候选中选择最可能的识别候选并将其呈现给用户,如果所选择的识别候选不正确则允许用户重新输入整个发声,以及从进一步的呈现中排除已拒绝的识别候选。但是,这种技术增加了用户的操作负担,因为它需要重新输入整个发声。
另一方面,日本专利申请公开(JP-A)No.2002-287792公开了一种技术,根据该技术,当所选择的识别候选错误时,用户仅仅重新输入未正确识别的部分。然后根据重新输入的发声修正识别候选,并且再次将修正的候选显示给用户。根据该技术,因为用户不需要重新对整个句子进行发声,因此可以减轻用户的负担并且增强了设备的可操作性。
在JP-A No.2002-287792中,假定所提供的信息具有层次结构,比如在地址或电话号码中一样。在修正识别候选时,确定重新输入的发声在层次中的等级,并根据所确定的等级进行修正。这里,仅仅可以选择错误识别的候选的等级的模式作为修正的目标。因此,可以实现更有效率的和高精度的识别处理。
此外,JP-A No.2003-316386提出了一种技术,使得用户能够重新输入仅仅对应于错误识别的部分的发声,并且对于重新输入,能够从识别候选中删除在先前的发声中选择的识别候选,从而避免选择以及向用户呈现同样的错误候选。
通常,在接收并识别短语和句子的语音识别***中,错误的识别以两种方式出现,第一,仅错误地识别了一些单词;第二,出现成组错误(burst error),即,由于噪音等的影响而导致错误地识别了整个发声。如果错误识别的部分的数量较少并且错误是微小的,则有效的方式是仅修正相关的部分。另一方面,当需要修正的部分的数量较多时,即当发生成组错误时,有效的方式是修正整个发声。
但是,基本上传统技术仅实现了语音识别中的两类错误修正中的一种,即为了修正整个发声的句子而重新输入,或者为了修正部分发声而重新输入。因此,不能根据识别时的错误类型灵活地选择修正的方式。
同时,在JP-A No.2003-316386中公开的技术既可以应用于整体修正也可以应用于部分修正。但是,这种技术对于整体修正和部分修正中的每一个只允许一种修正方式,因此不能根据用户重新输入的方式(即,用户重新输入整体发声还是一部分发声)灵活地进行修正。
发明内容
根据本发明的一个方面,语音识别设备包括:生成单元,用于接收语音发声并生成至少一个相应于该语音发声的识别候选和该识别候选的可能性;存储单元,用于存储至少一个识别候选及其相似度;选择单元,用于根据可能性选择至少一个识别候选中的一个作为第一个语音发声的识别结果;发声关系确定单元,用于在第一语音发声和第二语音发声连续输入时,至少确定输入第一语音发声之后所输入的第二语音发声是第一语音发声的整体的语音重新发声还是第一语音发声的一部分的语音重新发声;整体修正单元,用于在发声关系确定单元确定第二语音发声是第一语音发声的整体的语音重新发声时,根据第二语音发声修正第一语音发声的整体的识别候选并显示被修正的识别结果;部分修正单元,用于在发声关系确定单元确定第二语音发声是第一语音发声的一部分的语音重新发声时,根据第二语音发声修正第一语音发声的相应于第二语音发声的部分的识别候选,并显示被修正的识别结果。
根据本发明的另一个方面,语音识别方法包括:接收语音发声;生成至少一个相应于该语音发声的识别候选和识别候选的相似度;根据相似度选择至少一个识别候选中的一个作为第一语音发声的识别结果;当第一语音发声和第二语音发声连续输入时,至少确定输入第一语音发声之后所输入的第二语音发声是第一语音发声的整体的语音重新发声还是第一语音发声的一部分的语音重新发声;在发声关系确定单元确定第二语音发声是第一语音发声的整体的语音重新发声时,根据第二语音发声修正第一语音发声的整体的识别候选以显示被修正的识别结果;在确定第二语音发声是第一语音发声的一部分的语音重新发声时,根据第二语音发声修正第一语音发声的相应于第二语音发声的部分的识别候选以显示被修正的识别结果。
附图说明
图1是根据第一实施例的语音识别设备的结构的框图;
图2A和2B显示了存储在存储单元中的识别候选的数据结构的例子;
图3显示了由根据第一实施例的语音识别设备所处理的数据的例子;
图4显示了存储在变化差别信息存储单元中的修正内容的数据结构的例子;
图5显示了存储在优先级信息存储单元中的优先级信息的数据结构的例子;
图6显示了存储在抑制信息存储单元中的抑制信息的数据结构的例子;
图7是根据第一实施例的语音识别过程的整个流程的流程图;
图8是根据第一实施例的发声关系确定过程的整个流程的流程图;
图9是根据第一实施例的整体修正过程的整个流程的流程图;
图10是根据第一实施例的整体修正候选生成过程的整个流程的流程图;
图11是根据第一实施例的部分修正过程的整个流程的流程图;
图12A和12B显示了由语音识别过程所处理的数据的例子;
图13A至13C显示了由语音识别过程所处理的数据的另一个例子;
图14显示了在语音识别过程中显示的操作屏幕的例子;
图15是根据第二实施例的语音识别设备的结构的框图;
图16显示了存储在同义词辞典存储单元中的同义词辞典的数据结构的例子;
图17是根据第二实施例的语音识别过程的整个流程的流程图;
图18是根据第二实施例的发声关系确定过程的整个流程的流程图;以及
图19A和19B显示了由语音识别过程所处理的数据的例子。
具体实施方式
下面将参照附图详细描述根据本发明的语音识别设备和语音识别方法的优选实施例。
根据第一实施例的语音识别设备确定由用户重新输入的语音是用于整体修正的语音还是用于部分修正的语音,并根据所确定的结果改变修正方式。第一实施例的语音识别设备进一步从包含原始语音的识别候选和用于修正的重新输入的语音的识别候选的识别候选中选择一个最有可能的识别候选并将其输出。
图1是根据第一实施例的语音识别设备100的结构的框图。如图1所示,语音识别设备100包括麦克风111、显示器112、扬声器113、存储单元121、变化差别信息存储单元122、优先级信息存储单元123、以及抑制信息存储单元124,作为主要的硬件配置。
语音识别设备100包括输入接收单元101、生成单元102、发声关系确定单元103、修正单元104、选择单元105、以及输出控制单元106,作为主要的软件配置。
麦克风111是输入装置,用户通过其输入语音(即,发声)。显示器112是显示向用户呈现识别结果等的屏幕的显示单元。扬声器113输出作为对应于被确定为正确的识别候选的识别候选的语音的合成而获得的合成声音。当将第一实施例的语音识别设备应用于语音翻译***时,扬声器113输出作为目标语言的语音的合成而获得的合成声音。
存储单元121用于存储由下文描述的生成单元102所生成,并作为语音识别的结果而提供的识别候选。图2A和2B显示了存储单元121中存储的识别候选的数据结构的例子。
如图2A和2B所示,存储单元121以网格形式存储语音识别的结果。图2A概要显示了相互对应的包含在输入语音中的音素和表示音素的输入位置的数值。只要该信息可以指明输入位置,那么输入位置可以由任何其他信息表示。
在网格形式中,表示识别结果的节点在时间序列中从左到右排列,并由弧线相互连接。将识别结果与存储在语音识别词典(未显示)中的语音分析模型进行比较,并用一个分数表示他们之间的相似度。将分数附加在网格中的弧线上。特别地,将节点的分数附加在进入节点的弧线上(下文中称为输入弧)。例如,在图2所示的例子中,将分数写在表示弧线202的箭头下面。简单地说,该分数表示识别候选的相似度。
节点是为每个预定的输入语音片段生成的,比如类似于单词的字符串、类似于重读短语(accent phrase)的音素串、音素、以及音节。例如,图2B中的节点201表示包含在从输入位置0到输入位置2的片段中所说的三个音素,即“WA”、“TA”、以及“SHI”的日语单词。符号“/”之后的部分表示该单词的词类。例如,节点201中的“/n”表示相关单词的词类是名词。
当有多个识别候选时,相应地生成多个节点。选择并输出多个节点中的对应于分数最高的节点的识别候选,作为最可能的候选。
存储单元121不仅存储最近发声的识别结果,还存储过去发声的识别结果,以便下文所述的发声关系确定单元103能够参照存储单元121来确定最近的发声和过去的发声之间的关系。
此外,存储单元121与识别结果相关联地存储标识信息,以指示识别结果对应的发声的时间。这种标识信息至少指明相应的声音是属于第一发声、当前发声、前一个发声、还是最近的整个发声。
这里,第一发声是当语音识别设备100准备好接收新的发声时的发声输入。当前发声是语音识别设备100接收的最近发声。前一个发声是刚好在当前发声之前输入的发声。最近的整体发声是除了当前发声之外的所有整体发声中的最近发声,其被输入以修正第一发声。
此外,存储单元121存储信息,以指示一个发声是新的发声、整体修正的发声、还是部分修正的发声。在这种情况下,新的发声是新输入的发声,整体修正的发声是前一个发声的整体的重新发声,部分修正的发声是前一个发声的一部分的重新发声。发声的类型,即发声是新的发声、整体修正的发声、还是部分修正的发声,由下文描述的发声关系确定单元103确定并存储在存储单元121中。
图3显示了由根据第一实施例的语音识别设备所处理的数据的例子。例如,图3中的日语句子301表示所选择的、在图2B所示的网格中具有最高分数的识别候选。此外,图3中的日语单词302到305表示发音都为“KO-U-E-N”的四个日语单词。
变化差别信息存储单元122用于存储当修正单元104修正识别候选时所获取的修正内容。图4显示了存储在变化差别信息存储单元122中的修正内容的数据结构的例子。
如图4所示,变化差别信息存储单元122将修正前位置、修正前内容、修正后位置、修正后内容相互关联地存储。
修正前位置是表示一个发声的被修正部分在修正之前的输入位置的信息。修正前内容是表示被修正部分在修正之前的内容的信息。修正后位置是表示一个发声的被修正的部分在修正之后的输入位置的信息。修正后内容是表示被修正部分在修正之后的内容的信息。
在图4所示的例子中,修正内容指示将一个过去的发声中的输入位置为0的日语单词401修正为在用于修正的重新输入的发声中的输入位置0的日语单词402。
当修正单元104参照过去的修正内容更新识别候选的分数时,将访问变化差别信息存储单元122。
优先级信息存储单元123用于存储优先级信息,该优先级信息是关于由修正单元104参照过去的修正内容确定为优先的识别候选的信息。图5显示了存储在优先级信息存储单元123中的优先级信息的数据结构的例子。
如图5所示,优先级信息存储单元123相互关联地存储表示在过去的发声中的优先化部分的输入位置的位置以及优先化部分的内容。
例如,当顺序地修正某个部分和另一个部分时,将首先被修正的部分的修正内容存储在优先级信息存储单元123中。因为不重新修正首先被修正的部分,所以可以确定首先修正的部分的内容被正确地识别。那么,应当在识别候选的选择中将首先修正之后的内容列入优先。
抑制信息存储单元124用于存储抑制信息,该抑制信息是关于由修正单元104参照过去的修正内容确定不将其优先化的识别候选的信息。图6显示了存储在抑制信息存储单元124中的抑制信息的数据结构的例子。
如图6所示,抑制信息存储单元124相互关联地存储表示在过去的发声中的将被抑制的部分的输入位置的位置以及将被抑制的部分的内容。
例如,当某个部分被修正并且随后再次修正同一个部分时,将首次修正之后的修正内容存储在抑制信息存储单元124中。因为该部分在首次修正之后再次被修正,所以可以确定首次修正的内容是错误的。那么,应当在识别候选的选择中禁止首次修正后的内容。
可以由任何常用的存储装置(例如硬盘驱动器(HDD)、光盘、存储卡、以及随机访问存储器(RAM))构成存储单元121、变化差别信息存储单元122、优先级信息存储单元123、以及抑制信息存储单元124。
输入接收单元101用于接收用户通过麦克风111输入的语音,并将所接收的语音转换为可以由生成单元102处理的电子信号以便输出该电子信号。更具体地,输入接收单元101接收语音、将语音转换为电子信号、执行模拟-数字(A/D)转换、以及以脉冲编码调制(PCM)等格式输出通过该转换所获得的数字数据。可以用与传统上使用的音频信号的数字化处理同样的方式来实现这些处理。
将输出数字数据存储在存储单元(未显示)中,并且在稍后描述的生成单元102执行语音识别处理时参考其。
当语音识别设备100具有除麦克风11以外的、诸如操作按钮或者键盘这样的输入单元(未显示)时,输入接收单元101通过(例如)按下按钮来接收从这些输入单元提供的信息。
生成单元102接收从输入接收单元101提供的数字数据、执行语音识别处理、以及生成通过语音识别处理而得到的识别候选。
更具体地,生成单元102利用FFT(快速傅立叶变换)执行频率分析等等,以便按时间顺序连续地输出对语音输入的每个预定片段进行语音识别所需的特征信息(例如,频谱)。预定片段是诸如单词的字符串、诸如口语短语的音素串、音素、或音节的单元。可以通过传统的语音分析处理技术来实现该处理。
此外,生成单元102比较特征信息和存储在语音识别词典(未显示)中的语音分析模型,以计算表示它们之间的相似程度的分数,并以上述网格形式输出识别候选。对于该比较处理,可以应用任何常用的方法,例如隐性马尔可夫模型(HMM)、动态规划(DP)、或者神经网络(NN)。
发声关系确定单元103用于确定用户输入的当前发声是前一个发声的整体的重新发声还是前一个发声的一部分的重新发声。
更具体地,发声关系确定单元103将两个发声的多段语音信息进行比较以便检测相似部分,其中,多段语音信息之间的相似程度高于预定阈值。当相似部分与前一个发声的整体匹配时,发声关系确定单元103确定当前发声是整体修正的发声。
即使当用户试图给出与前一个发声具有相同内容的当前发声时,用户也可能会给出带有不同终止的发声。那么,两个发声之间的相似部分可能不会完全相同。因此,不仅在相似部分与整个语音完全匹配的情况下,而且在相似部分与整个语音的部分匹配的百分比大于或等于预定比率(例如85%)的情况下,将当前发声确定为整体修正的发声。
当相似部分与前一个发声的一部分匹配时,以及当相似部分与当前发声的整体匹配时,发声关系确定单元103确定当前发声是部分修正的发声。当前发声不是整体修正的发声或者部分修正的发声时,发声关系确定单元103确定当前发声是新的发声。
例如,假设前一个发声是意思为“我应该去哪看电影?”,并且发音为“E-I-GA-WO-MI-TA-I-NO-DE-SU-GA-DO-KO-E-I-KE-BA-YO-I-DE-SU-KA”的日语句子,以及当前发声是意思为“电影”并且发音为“E-I-GA”的日语单词。在这个例子中,一个对应于“E-I-GA”的节点出现在作为前一个发声的识别信息的网格中,并且一个对应于“E-I-GA”的节点出现在当前发声的网格中。然后,相关节点被识别为相似部分,并且将当前发声确定为前一个发声的部分修正的发声。此外,假设当前发声是“EI-GA-WO-MI-TA-I-NO-DE-SU-GA-DO-KO-E-I-KE-BA-YO-I-DE-SU”。在这种情况下,当前发声与前一个发声的不同在于句子结尾的音素“KA”的部分。但是,因为匹配部分的比率较高,因此将当前发声确定为整体修的正发声。
发声关系确定单元103还能够确定语音识别设备100的运行状态。例如,当语音识别设备100启动时或者当输入接收单元101接收来自用户的指令时,发声关系确定单元103确定语音识别设备100处于接收新的发声的输入的初始状态。
当语音识别设备100处于初始状态时,未在存储单元121中存储第一个发声、当前发声、前一个发声、以及最近的整体发声。语音识别设备100在初始状态期间第一次接收的发声是第一个发声。当语音识别设备100接收到第一个发声时,发声关系确定单元103确定语音识别设备100转变为修正等待状态。
当语音识别设备100在修正等待状态中通过声音接收到一个发声时,那么如上所述,发声关系确定单元103执行一个处理以便根据当前发声和前一个发声之间的关系确定当前发声是新的发声、整体修正的发声、还是部分修正的发声。如果发声关系确定单元103确定当前发声是新的发声,那么以与当在初始状态中输入发声时同样的方式执行处理。在这种情况下,发声关系确定单元103将此前所有的存储在存储单元121中的第一个发声、当前发声、前一个发声、以及最近的整体发声删除,并重新存储新的发声。
当发声关系确定单元103确定当前发声是整体修正的发声或者是部分修正的发声时,修正单元104执行修正处理,以修正识别候选并输出修正后的识别候选。修正单元104包括整体修正单元104a和部分修正单元104b。
当发声关系确定单元103确定当前发声是整体修正的发声时,整体修正单元104a参照当前发声的识别候选修正最近的整体发声的识别候选,并将修正后的识别候选输出到存储单元121。
当发声关系确定单元103确定当前发声是部分修正的发声时,部分修正单元104b参照当前发声的识别候选修正对应于最近的整体发声中的应被修正的部分的识别候选,并将修正后的识别候选输出到存储单元121。
选择单元105用于从存储在存储单元121中的识别候选中选择在网格中具有最大分数的识别候选。可以应用任何常用的方法作为选择方法,例如Viterbi算法。
输出控制单元106用于将由选择单元105所选择的识别候选输出到显示器112。当用户指示输出到显示器112的识别候选是正确的识别结果时,输出控制单元106输出合成的声音到扬声器113,该声音是表示对应于识别候选的句子的语音的合成。
对于语音合成处理,可以应用任何常用的方法,例如使用基于音素片段的连接合成、共振峰合成等的文本到语音***。
如果本实施例的语音识别设备被构造为语音翻译***,那么输出控制单元106可以将对应于识别候选的源语言句子翻译为目标语言句子,并且可以将对应于被翻译的目标语言句子的合成声音输出到扬声器113。
下面将描述由如上所述构造的根据第一实施例的语音识别设备100所执行的语音识别处理。图7是根据第一实施例的语音识别处理的整体流程的流程图。
输入接收单元101接收由用户通过麦克风111输入的语音(步骤S601)。生成单元102对所接收的语音输入执行语音识别并生成识别候选,以输出到存储单元121(步骤S602)。
更具体地,生成单元102通过诸如FFT的方法对语音输入执行频率分析以输出特征信息。生成单元102比较特征信息和语音分析模型以计算表示相似度的分数并以网格形式输出识别候选。
发声关系确定单元103通过将前一个发声和当前发声进行比较以执行发声关系确定处理,从而确定前一个发声和当前发声的关系(步骤S603)。发声关系确定处理的细节将在后面描述。
发声关系确定处理之后,发声关系确定单元103确定当前发声是否为新的发声(步骤S604)。当确定当前发声不是新的发声时(步骤S604:否),发声关系确定单元103确定当前发声是否为整体修正的发声(步骤S605)。
当确定当前发声是整体修正的发声时(步骤S605:是),整体修正单元104a执行整体修正处理(步骤S607)。当确定当前发声不是整体修正的发声时(步骤S605:否),也就是说,当当前发声是部分修正的发声时,部分修正单元104b执行部分修正处理(步骤S606)。整体修正处理以及部分修正处理的细节将在后面描述。
当在步骤S604中确定当前发声是新的发声时(步骤S604:是),在整体修正处理(步骤S607)执行之后或者在部分修正处理(步骤S606)执行之后,选择单元105从存储在存储单元121中的识别候选中为当前发声选择具有最高分数的候选(步骤S608)。
例如,如果识别候选由如图2所示的网格表示,从出现三个候选的输入位置2到7的片段的节点中选择具有最高分数(即5)的最上层的节点。类似地,从出现三个候选的输入位置9到10的片段的节点中选择具有最高分数(即6)的最上层的节点。因此,选择单元105选择图3所示的连接了所选择的节点的日语句子301,作为识别候选。
输出控制单元106将由选择单元105所选择的识别候选作为识别结果输出到显示器112(步骤609),从而结束语音识别处理。
下面将描述步骤S603所示的发声关系确定处理的细节。图8是第一实施例中的发声关系确定处理的整体流程的流程图。
在发声关系确定处理中,根据前一个发声和当前发声中的相似部分和不匹配部分之间的关系确定当前发声是新的发声、整体修正的发声、还是部分修正的发声。
发声关系确定单元103将前一个发声和当前发声互相比较以计算相似部分和不匹配部分(步骤S701)。
例如,在JP-A No.2003-316386中描述的方法可以用于相似部分的计算。更具体地,可以基于将输入语音转换为音频信号而获得的数字数据、从数字数据中提取的特征信息、以及对每个识别候选的特征信息执行动态规划(DP)处理所计算的相似度等等,来确定相似部分。
如果两个输入语音中的预定片段的识别候选包括共同的音素串或者字符串,并且这种共同部分的比率大于等于预定的阈值,那么可以将预定的片段确定为相似部分。如果公共音素串或者字符串的比率高于预定阈值的片段在预定时段内连续出现,则可以将对应于该连续时段的片段确定为相似部分。没有确定为相似部分的片段是不匹配部分。
发声关系确定单元103确定前一个发声的一部分是否与当前发声的整体相似(步骤S702)。如果前一个发声的一部分与当前发声的整体相似(步骤S702:是),则发声关系确定单元103确定当前发声是部分修正的发声(步骤S703)。
如果前一个发声的一部分不与当前发声的整体相似(步骤S702:否),则发声关系确定单元103确定不匹配部分的比率是否高于预定的阈值(步骤S704)。例如,指定阈值为15%。
如果不匹配部分的比率高于预定的阈值(步骤S704:是),则发声关系确定单元103确定当前发声是新的发声(步骤S706)。如果不匹配部分的比率不高于预定的阈值(步骤S704:否),则发声关系确定单元103确定当前发声是整体修正的发声(步骤S705)。
在这种方式下,当不存在不匹配的部分时,确定当前发声是整体修正的发声。另外,当所包含的不匹配部分的比率小于等于例如15%时,确定当前发声是整体修正的发声。因此,即使当句子的结尾改变时,也可以确定当前发声是整体修正的发声。所以,考虑了用户的使用模式,因此能够实现方便的语音识别设备。
步骤S607所示的整体修正处理的细节将在下面描述。图9是显示第一实施例的整体修正处理的全部流程的流程图。
首先,整体修正单元104a确定前一个发声是否为整体修正的发声(步骤S801)。整体修正单元104a参照存储在存储单元121中的信息确定前一个发声是否为整体修正的发声。
当确定前一个发声是整体修正的发声时(步骤S801:是),从变化差别信息存储单元122中获取为前一个发声所执行的整体修正处理中的变化差别信息的修正后内容,并将其存储在抑制信息存储单元124中(步骤S802)。
尽管关于前一个发声执行了整体修正处理,但是关于当前发声再次执行整体修正处理。因此,可以将在对前一个发声执行的整体修正处理中的修正确定为错误的。所以,从前一个发声的变化差别信息中获取修正后内容并存储在抑制信息存储单元124中,以减少对应于修正后内容的识别候选的分数。
当前一个发声是新的发声时,可以将为前一个发声选择的所有识别候选存储在抑制信息存储单元124中。类似地,当前一个发声是整体修正的发声时,不仅变化差别信息而且所有识别候选都可以被存储在抑制信息存储单元124中。因为为前一个发声选择的大多数识别候选是错误的,所以该发声可以被整体修正。
如果在步骤S801确定前一个发声不是整体修正的发声(步骤S801:否),则整体修正单元104a确定前一个发声是否为部分修正的发声(步骤S803)。整体修正单元104a参照存储在存储单元121中的信息确定前一个发声是否为部分修正的发声。
当确定前一个发声是部分修正的发声时(步骤S803:是),从变化差别信息存储单元122中获取关于前一个发声所执行的部分修正处理中的变化差别信息的修正后内容,并将其存储在抑制信息存储单元124中(步骤S804)。
尽管在前一个发声中执行了部分修正处理,但是对当前发声再次执行部分修正处理。因此,可以将前一个发声中的部分修正处理中的修正确定为错误的。所以,从当前发声的变化差别信息中获取修正后内容并存储在抑制信息存储单元124中,以减少对应于修正后内容的识别候选的分数。
如果在步骤S803中确定前一个发声不是部分修正的发声(步骤S803:否),则整体修正单元104a参照前一个发声的识别候选执行用于修正当前发声的识别候选的整体修正候选生成处理(步骤S805)。整体修正候选生成处理的细节将在后面描述。
执行整体修正候选生成处理之后,整体修正单元104a将修正部分的信息存储在变化差别信息存储单元122中(步骤S806),从而终止整体修正处理。
将在下面描述步骤S805所述的整体修正候选生成处理的细节。图10是第一实施例中的整体修正候选生成处理的全部流程的流程图。
首先,整体修正单元104a从存储单元121获取最近的完整发声,以获取最近的完整发声的网格中的未处理的结点(以下称为X)(步骤S901)。整体修正单元104a确定与结点X相同的结点(以下称为Y)是否存在于整体修正的发声的网格中(步骤S902)。
当与结点X相同的结点Y存在时(步骤S902:是),整体修正单元104a将结点X的输入弧的分数添加到结点Y的输入弧(步骤S904)。
在这种方式下,不仅增加了为整体修正的发声(当前发声)计算的识别候选的分数,而且增加了为最近的完整发声计算的识别候选的分数,从而使得在考虑这两个分数的情况下进行确定,因而可以选择更恰当的识别候选。
当与结点X相同的结点Y不存在时(步骤S902:否),整体修正单元104a将结点X及其输入弧添加到整体修正的发声的网格(步骤S903)。
在这种方式下,不仅增加了为作为当前发声的整体修正的发声计算的识别候选,而且增加了为最近的完整发声计算的识别候选,以使得在考虑这两者的情况下进行确定,因而可以选择更恰当的识别候选。
整体修正单元104a参照优先级信息存储单元123和抑制信息存储单元124,在网格的分数上反映优先级信息和抑制信息(步骤S905)。例如,当某个片段包括多个识别候选并且其中的一个识别候选是具有与存储为优先级信息的内容相同的内容的结点时,将相关结点的分数更新为通过在该片段中的最高分数上加1所获得的值。此外,例如,当某个片段包括多个识别候选并且其中的一个识别候选是具有与存储为抑制信息的内容相同的内容的结点时,将相关结点的分数更新为通过从该片段中的最低分数减1而获得的值。
在网格的分数上反映优先级信息和抑制信息的方式不局限于以上所述的。可以应用任何增加对应于优先级信息的识别候选的分数和减少对应于抑制信息的识别候选的分数的方法。
整体修正单元104a确定是否已处理过最近的完整发声的网格中的所有结点(步骤S906)。如果不是所有结点都处理过(步骤S906:否),则获取下一个未处理的结点以重复该处理(步骤S901)。如果所有结点都处理过(步骤S906:是),则结束整体修正候选生成处理。
步骤S606所示的部分修正处理的细节将在下面描述。图11是显示第一实施例的部分修正处理的整体流程的流程图。
部分修正单元104b参照存储单元121确定前一个发声是新的发声还是整体修正的发声(步骤S1001)。
如果前一个发声被确定为是新的发声和整体修正的发声中之一(步骤S1001:是),部分修正单元104b在抑制信息存储单元124中存储前一个发声的所选择的识别候选的对应于部分修正的发声(当前发声)的部分(步骤S1007)。
这是因为,由于为前一个发声选择的识别候选是错误的,因此可以确定用户执行部分修正处理。所以,获取前一个发声的识别候选的相应部分,并存储在抑制信息存储单元124中以减小所获取的识别候选的分数。
当前一个发声不是新的发声或者整体修正的发声时(步骤S1001:否),即,当前一个发声是部分修正的发声时,部分修正单元104b确定前一个发声的输入位置和当前发声的输入位置是否相同(步骤S1002)。
如果前一个发声的输入位置与当前发声的输入位置不同(步骤S1002:否),则部分修正单元104b将前一个部分修正处理中的变化差别信息的修正后内容存储在优先级信息存储单元123中(步骤S1003)。然后部分修正单元104b将前一个部分修正处理中的变化差别信息的修正前内容存储在抑制信息存储单元124中(步骤S1004)。
这是因为,由于在当前发声中,相对于不同于根据前一个发声对其执行了部分修正处理的部分执行了部分修正处理,所以可以确定适当地执行了前一个发声的部分修正处理中的修正。所以,修正后内容是从前一个发声的变化差别信息中获取的,并被存储在优先级信息存储单元123中以增加对应于修正后内容的识别候选的分数。从前一个发声的变化差别信息中获取修正前内容,并存储在抑制信息存储单元124中,以减少对应于修正前内容的识别候选的分数。
此外,部分修正单元104b将从最近的完整发声的识别候选中选择的对应于部分修正的发声(当前发声)的部分中的识别候选存储在抑制信息存储单元124中(步骤S1005)。
这是因为,能够确定,尽管根据部分修正的发声(前一个发声)的部分修正处理被适当地执行,但是为最近的完整发声选择的另一个部分中的识别候选是错误的。因此可以确定,用户对另一个部分执行部分修正处理。所以,获取最近的完整发声的部分的识别候选,并存储在抑制信息存储单元124中,以减小所获取的识别候选的分数。
如果前一个发声的输入位置与当前发声的输入位置相同(步骤S1002:是),则部分修正单元104b将前一个部分修正处理中的变化差别信息的修正后内容存储在抑制信息存储单元124中(步骤S1006)。
这是因为,由于通过当前发声对与由前一个发声执行了部分修正处理的部分相同的部分执行了部分修正处理,所以可以确定前一个发声的部分修正处理中的修正是错误的。因此,从前一个发声的变化差别信息中获取修正后内容,并存储在抑制信息存储单元124中以减小对应于修正后内容的识别候选的分数。
执行步骤S1005、步骤S1006、或者步骤S1007之后,部分修正单元104b将最近的完整发声的网格中的相应部分替换为部分修正的发声(当前发声)的识别候选(步骤S1008)。
最近的完整发声的网格的相应部份的结点与表示部分修正的发声的识别候选的结点可以相互结合。在这种情况下,公共的识别候选的结点的分数被添加。在这种方式下,除了当前发声的分数之外,还可以考虑为最近的完整发声所计算的分数,以使得能够在考虑到两者的情况下进行确定,从而可以选择更恰当的识别候选。
部分修正单元104b参照优先级信息存储单元123和抑制信息存储单元124,在网格的分数上反映优先级信息和抑制信息(步骤S1009)。
部分修正单元104b将修正部分的信息存储在变化差别信息存储单元122中(步骤S1010),并终止部分修正处理。
下面将要描述根据如上所述的过程执行的语音识别处理的具体例子。图12A和12B显示了由语音识别处理所处理的数据的例子。
首先,假定意思为“我想去公园”并且发音为“WA-TA-SHI-WA-KO-U-EN-NI-I-KI-TA-I”的日语句子被输入作为新的发声(步骤S601),并且生成单元102将如图12A所示的网格输出作为识别候选(步骤S602)。
图12A显示了一个例子,其中,在输入位置2到7的片段中的结点处存在三个识别候选,并且在输入位置9和10的片段中的结点处存在三个识别候选。结点的分数分别是5、3和1,以及6、2和2。
其后,选择单元105选择具有最高分数的结点,并选择图3中的连接了所选择的结点的日语句子301作为识别候选(步骤S608)。所选择的识别候选由输出控制单元106显示在显示器112上(步骤S609)。
因为所显示的识别候选是错误的,所以用户再次输入意思为“公园”并且发音为“KO-U-EN”的日语单词(步骤S601)。
假定,响应于该输入,生成单元102输出图3所示的四个日语单词302、303、304、以及305(步骤S602),作为发音为“KO-U-EN”的输入发声的识别候选。四个识别候选的分数分别是7、7、5以及1。
发声关系确定单元103确定重新输入的发声是部分修正的发声(步骤S603),并且由部分修正单元104b执行部分修正处理(步骤S606)。
在部分修正处理中,因为前一个发声是新的发声(步骤S1001:是),所以将根据前一个发声选择的具有分数5并且对应于单词302的识别候选存储在抑制信息存储单元124中(步骤S1007)。
将最近的完整发声的网格的对应部分替换为部分修正的发声的识别候选(步骤S1008),并且反映存储在抑制信息存储单元124中的抑制信息的内容(步骤S1009)。在这种情况下,因为对应于单词302的识别候选被存储为抑制信息,所以将对应于该识别候选的结点的分数设置为0,该值是通过从四个识别候选中的最低分数1减去1而获得的值。
图12B中的网格显示这时的状态。因此,选择单元105选择具有最高分数的结点,并选择图3中的连接了所选择的结点的日语单词306作为识别候选(步骤S608)。
类似地,用户再次输入意思为“想去”并且发音为“I-KI-TA-I”的日语单词(步骤S601)。在这种情况下,因为前一个发声是部分修正的发声(步骤S1001:否),所以确定输入位置是否彼此相等(步骤S1002)。
在该例子中,因为输入位置彼此不同(步骤S1002:否),所以参照前一个部分修正处理中的变化差别信息,将内容为位置2和单词303的优先级信息存储在优先级信息存储单元123中(步骤S1003)。在这种方式下,在后续处理中,可以增加单词303的分数。
将内容为位置2和单词302的抑制信息存储在抑制信息存储单元124中(步骤S1004)。在这种方式下,在后续处理中,可以减小单词302的分数。
此外,为了禁止对应于最近的完整发声中的重新输入部分的识别候选,将内容为位置9和单词307的抑制信息存储在抑制信息存储单元124中(步骤S1005)。在这种方式下,在后续处理中,可以降低单词307的分数。
因此,选择单元105选择具有最高分数的结点,并选择连接了所选择的结点的日语句子308作为识别候选(步骤S608)。当用户确定所选择的识别候选是正确的识别候选时,例如,当用户点击OK按钮时,语音识别处理结束。
语音识别处理的另一个具体例子将在下面描述。图13A到13C显示了由语音识别处理所处理的数据的另一个例子。图12A和12B显示了由部分修正处理所处理的数据的例子。另一方面,图13A到13C显示了由整体修正处理所处理的例子。
首先,假定意思为“我应该去哪看电影?”并且发音为“EI-GA-WO-MI-TA-I-NO-DE-SU-GA-DO-KO-E-I-KE-BA-YO-I-DE-SU-KA”的日语句子被输入作为新的发声(步骤S601)。此外,假定生成单元102输出图13A所示的网格作为识别候选(步骤S602)。在图13A中,未显示输入位置8到15的片段中的结点。
然后,该选择单元105选择具有最高分数的结点并且选择连接了所选择的结点的日语单词309(步骤S608)。所选择的识别候选由输出控制单元106显示在显示器112上(步骤S609)。
假定显示的识别候选是错误的,并且用户再次输入了发音为“EI-GA-WO-MI-TA-I-NO-DE-SU-GA-DO-KO-E-I-KE-BA-YO-I-I-KA”的句子(步骤S601)。此外,假定生成单元102输出图13B所示的网格(步骤S602)。
发声关系确定单元103将前一个发声和作为当前发声的整体修正的发声进行比较,以计算相似部分(步骤S701)。图13A所示的网格与图13B所示的网格的不同仅仅在于句子结尾的表达上的不同。因此,输入位置0到18的片段是相似部分。
不匹配部分的比率大约为14%(=(22-19)×100/22)。当阈值设置为15%时,不匹配部分的比率低于该阈值。因此,发声关系确定单元103确定重新输入的发声是整体修正的发声(步骤S704:否、步骤S705)。所以,由整体修正单元104a执行整体修正处理(步骤S607)。
在整体修正处理中,输出通过结合新的发声(前一个发声)的网格(图13A)和整体修正的发声的网格(图13B)而获取的网格(图13C)(步骤S805)。
例如,对于相应于图13A中的输入位置4到6的片段的结点1201,具有相同的内容的结点1202存在于图13B中(步骤S902:是)。然后将结点1201的分数10以及结点1202的分数10相加以提供值20作为图13C的结点1203的分数(步骤S904)。
例如,对应于在图13A中的输入位置0到3的片段中的结点1204的结点不存在于图13B中(步骤S902:否)。因此,将这样的结点添加到图13B中的网格,以便输出具有结点1205的图13C的网格(步骤S903)。
通过使用如上所述结合的图13C的网格作为目标,选择单元105选择具有最高分数的结点,并选择连接所选择的结点的日语句子310作为识别候选(步骤S608)。
下面将通过例子描述在语音识别处理中呈现给用户的屏幕。图14显示了语音识别处理中所显示的操作屏幕的例子。
图14的中间部分显示了操作屏幕上的显示及其转换的例子。图14的左边部分显示了由用户执行的操作的例子。图14的右边部分指示语音识别设备100的操作状态的例子。
屏幕1301是语音识别处理中的初始屏幕,包括屏幕上方的固定结果显示区域1302以及屏幕下方的识别结果显示区域1303。通过输出控制单元106将语音识别的结果显示在识别结果显示区域1303。这时操作状态1304是初始状态。
假定用户输入了意思为“我应该去哪看电影?”的日语句子。在初始状态,用户输入意思为“我想去看电影”并且发音为“E-I-GA-WO-MI-TA-I-NO-DE-SU-GA”的日语语音1305。
响应于该输入,在屏幕上的识别结果显示区域1303中显示日语句子1306作为识别结果。这时,操作状态转换为修正等待状态,用户可以输入修正的发声或者下一个新的发声。
除了单词311应该是单词312之外,识别结果是正确的识别结果。因此,用户输入相应于单词312的语音1307(“E-I-GA”)。在这种情况下,发声关系确定单元103确定该发声是部分修正的发声,并且部分修正单元104b执行部分修正处理。
当部分修正处理正确地执行时,日语句子1308作为正确的识别结果显示在识别结果显示区域1303。
随后,用户输入意思为“我应该去哪?”并且发音为“DO-KO-E-I-KE-BA-YO-I-DE-SHO-U-KA”的日语语音1309。
发声关系确定单元103将该发声与前一个发声进行比较从而确定该发声是新的发声,固定前一个发声的识别结果,并且在固定结果显示区域1302显示识别结果。发声关系确定单元103执行输入语音的语音识别以显示日语句子1310作为识别结果。
在这种情况下,因为日语句子1310中的错误是成组错误,因此用户再次输入与语音1309相同的日语语音1311。在这种情况下,发声关系确定单元103确定该发声是整体修正的发声。然后,整体修正单元104执行整体修正处理。
当正确地执行整体修正处理时,日语句子1312作为正确的识别结果显示在识别结果显示区域1303。
因为整体语音输入被正确地识别,用户按下OK按钮。然后,输出控制单元106重新显示屏幕1313,在该屏幕上,显示在识别结果显示器区域1303中的识别结果被移到固定结果显示器区域1302中。
在这种方式下,用户可以检查该语音识别的结果,并通过输入语音适当地选择部分修正处理或者整体修正处理。更具体地,可以根据容易理解的标准执行重新输入,即,当有少量错误时执行部分重新输入,以及当有较多错误时执行整体重新输入。另外,因为操作等不需要从部分修正处理切换到整体修正处理,反之亦然,因此可以平稳地执行修正处理的操作。
此外,除了在确认识别结果时按OK键以外,用户还可以仅仅通过语音来执行句子的输入以及修正。因此第一实施例的语音识别设备可以为用户提供高度的可操作性和便利。
如上所述,在根据第一实施例的语音识别设备中,可以确定由用户提供的重新输入的语音是用于整体修正处理还是用于部分修正处理,并且修正的方式可以根据确定的结果而改变。所以,用户不需要给出关于修正方式的指令,可以根据语音输入的方式来使用最优的修正方式。因此,作为输出而提供的语音识别结果对于用户是高度有用的并且是高度精确的。
此外,因为可以从通过结合原始语音的识别候选以及用于修正的语音输入的识别候选而获得的识别候选中选择最有可能的识别候选,因此语音识别设备不会将原始语音的正确的识别结果错误地替换为通过错误的识别而获得的错误的内容,并且不会输出错误的内容。因此,可以获得高准确度的识别结果。
当在原始语音的识别结果和用于修正的语音输入的识别结果中包含不匹配部分时,以及当存在包括具有预定关系的不匹配部分的识别结果的组合时,根据第二实施例的语音识别设备输出识别结果的组合作为识别候选。
图15是根据第二实施例的语音识别设备1400的结构的框图。如图15所示,语音识别设备1400包括麦克风111、显示器112、扬声器113、存储单元121、变化差别信息存储单元122、优先级信息存储单元123、抑制信息存储单元124、以及辞典存储单元1425,作为主要的硬件配置。
语音识别设备1400还包括输入接收单元101、生成单元102、发声关系确定单元1403、修正单元104、选择单元105、以及输出控制单元106,作为主要的软件配置。
第二实施例与第一实施例的区别在于,增加了同义词辞典存储单元1425和发声关系确定单元1403的功能。因为其它配置和功能与图1所示的根据第一实施例的语音识别设备100的相同,因此相同的元素由相同的参考符号表示并且不再重复其描述。
同义词辞典存储单元1425用于存储同义词辞典,其中单词和与其相应的同义词相互关联。图16显示了存储在同义词辞典存储单元1425中的同义词辞典的数据结构的例子。
如图16所示,同义词辞典存储单元1425彼此关联地存储单词和该单词的同义词。图16显示了一个例子,其中意思为“电影”的日语单词1601以及以Kata-kana表示英语单词“movie”的发音的日语单词1602彼此关联,“Kata-kana”是一个日语音素。
与根据第一实施例的发声关系确定单元103类似,发声关系确定单元1403用于确定由用户为前一个发声输入的当前发声是前一个发声的整体的重新发声还是前一个发声的部分的重新发声。
另外,发声关系确定单元1403与根据第一实施例的发声关系确定单元103的区别在于,发声关系确定单元1403确定由用户为前一个发声输入的当前发声是否为一部分被其同义词替换的前一个发声的重新发声。
更具体地,当前一个发声和当前发声包括识别结果具有同义词关系的不匹配部分时,发声关系确定单元1403确定当前发声是前一个发声的整体的重新发声而不是新的发声。作为前一个发声的整体的重新发声并且在不匹配部分包括前面的发声的一部分的同义词的这种发声将在以下被称为部分释义的整体发声。
前一个发声的识别结果与当前发声的识别结果之间的关系不局限于同义词关系。可以确定识别结果是否可以被翻译为另一个语言的相同单词(以下称为同译语的关系),或者在概念上它们是否具有上-下位的层次关系(以下称为层次概念的关系)。
例如,单词312和单词313可以翻译为相同的英语单词“movie”。因此,单词312和313具有同译语关系。此外,例如,单词314和单词315代表彼此具有上-下位关系的概念。这种关系在下文称作层次概念的关系。在这些情况下,可以将翻译词典或者同义词辞典存储为对应于同义词辞典存储单元1425的词典。
由根据如上所述配置的第二实施例的语音识别设备1400执行的语音识别处理将在下面描述。图17是根据第二实施例的语音识别处理的整个流程的流程图。
因为步骤S1601中的语音输入接收处理和步骤S1602中的语音识别处理与根据第一实施例的语音识别设备100中的步骤S601和步骤S602中的处理相同,因此不再重复其描述。
在步骤S1603中的发声关系确定处理中,发声关系确定单元1403通过比较前一个发声和当前发声来执行发声关系确定处理,并确定当前发声是新的发声、整体修正的发声、部分修正的发声、还是部分释义的整体发声。将在后面描述发声关系确定处理的细节。
在发声关系确定处理之后,发声关系确定单元1403确定当前发声是否为部分释义的整体发声(步骤S1604)。如果将当前语音确定为部分释义的整体发声(步骤S1604:是),则整体修正单元104a通过将前一个发声的网格中的对应于释义部分的部分替换为释义部分中的单词序列的组合的识别候选来执行整体修正处理(步骤S1605)。
在发声关系确定处理中获取释义部分的单词序列的组合。更具体地,如果确定前一个发声的识别结果和当前发声的识别结果具有同义词关系,以及在发声关系确定处理中确定当前发声是部分释义的整体发声,则获取具有同义词关系的识别结果的组合作为释义部分的单词序列的组合。
例如,假定提供单词311和单词312作为前一个发声的识别候选并且提供单词313和单词315作为当前发声的识别候选。在这种情况下,因为前一个发声中的单词312和当前发声中的单词313具有同义词关系,因此确定当前发声是部分释义的整体发声。同时,获取单词312和单词313的组合作为释义部分的单词序列的组合。
除了最近的完整发声的网格被替换为相应于释义部分的单词序列的识别候选以外,步骤S1605中的整体修正处理与第一实施例中描述的整体修正处理相同。所以,不再重复其描述。
因为步骤S1606到S1611中的整体修正处理、部分修正处理、识别候选选择处理、以及识别结果输出处理与步骤604到S609中的处理相同,其描述不再重复。
步骤S1603所示的发声关系确定处理的细节将在下面描述。图18是第二实施例中的发声关系确定处理的整个流程的流程图。
因为步骤S1701到S1705中的相似部分计算处理、部分修正的发声确定处理、以及整体修正的发声确定处理与步骤S701到S705中的那些相同,其描述不再重复。
第二实施例与第一实施例的区别在于,当确定不匹配部分的比率高于预定阈值时,不是简单地将该发声确定为新的发声,而是考虑到不匹配部分的识别结果之间的关系,可能将该发声确定为部分释义的整个发声。
更具体地,如果在步骤S1704中确定不匹配部分的比率高于预定阈值(步骤S1704:是),那么发声关系确定单元1403获取相应于不匹配部分的单词序列的组合(步骤S1706)。
例如,假定提供单词311和单词312作为前一个发声的识别候选、提供单词313和单词316作为当前发声的识别候,并假定确定这一部分是不匹配部分。在这种情况下,作为相应单词序列的组合,存在四个组合,即单词311和单词313的组合、单词311和单词316的组合、单词312和单词313的组合、以及单词312和单词316的组合。在步骤S1706中,发声关系确定单元1403获取四个组合中的一个。
这里,发声关系确定单元1403会优先获取不包括为前一个发声选择的识别候选的组合。因为在前一个发声中选择的识别候选可能是错误的,排除这些识别候选的确定处理会带来更高效的处理。
发声关系确定单元1403确定包含在所获取的组合中的单词序列是否具有预定的关系(步骤S1707)。如上所述,预定关系包括同义词关系、同译语关系、层次概念关系等等。
当单词序列具有预定关系时(步骤S1707:是),发声关系确定单元1403确定当前发声是部分释义的整体发声(步骤S1708),并终止发声关系确定处理。在这种情况下,将具有预定关系的单词序列的组合存储在诸如RAM这样的存储单元中(未显示)。在步骤S1605的整体修正处理中将参照该组合。
在上述例子中,将最初确定为具有预定关系的单词序列的组合存储为正确的组合。但是,可以确定所有组合中的每一个是否具有预定关系,以及可以根据预定关系的可能性、单词序列的声学相似度等等计算最优组合。
如果组合不具有预定关系(步骤S1707:否),那么发声关系确定单元1403确定单词序列的所有组合是否都被处理了(步骤S1709)。如果发声关系确定单元1403确定单词序列的所有组合没有都被处理(步骤S1709:否),则获取未处理单词序列的组合,并且重复该处理(步骤S1706)。
另一方面,在确定所有结点都已被处理时(步骤S1709:是),发声关系确定单元1403确定当前发声是新的发声(步骤S1710),并且终止发声关系确定处理。
根据上述处理执行的语音识别处理的具体例子将在下面描述。图19A和19B显示了语音识别处理中的数据处理的例子。
首先,假定输入意思为“我想去看电影”而且发音为“EI-GA-WO-MI-TA-I-NO-DE-SU-GA”的日语句子作为新的发声(步骤S1601)并且生成单元102输出图19a所示的网格作为识别候选(步骤S1602)。
然后,选择单元105选择具有最高分数的结点并选择与所选择的结点相连的日语句子317作为识别候选(步骤S1610)。所选择的识别候选由输出控制单元106显示在显示器112上(步骤S1611)。
假定所显示的识别候选是错误的,用户重新输入了发音为“MU-U-BI-I-WO-MI-TA-I-NO-DE-SU-GA”并且是通过将最初的输入句子中的单词312替换为单词313(其为单词312的同义词)而获得的日语句子(步骤S1601)。
生成单元102输出图19B所示的网格作为识别候选(步骤S1602)。
在这种情况下,发声关系确定单元1403计算从输入位置4开始的片段作为相似部分,以及输入位置0到3的片段作为不匹配部分(步骤S1701)。不匹配部分的比率大约是33%(=(12-8)×100/12))。如果阈值设置为15%,那么不匹配部分的比率高于阈值(步骤S1706:是),发声关系确定单元1403获取相应于不匹配部分的单词序列的组合(步骤S1706)。
例如,假定发声关系确定单元1403获取单词312和单词316的组合(步骤S1706)。在这种情况下,因为这两个单词之间的同义词关系没有存储在同义词辞典存储单元1425中,所以发声关系确定单元1403确定这两个单词不具有预定关系(步骤S1707:否)。
假定发声关系确定单元1403获取单词312和单词313的组合(步骤S1706)。在这种情况下,因为这两个单词之间的同义词关系存储在同义词辞典存储单元1425中,所以发声关系确定单元1403确定这两个单词具有预定关系(步骤S1707:是)。所以,发声关系确定单元1403确定当前发声是部分释义的整体发声(步骤S1708)。
整体修正单元104a使用单词312和单词313作为不匹配部分的识别结果并将图19B中的网格(前一个发声的网格)的输入位置0到3的片段的识别结果替换为用作新的识别结果的单词312和313,从而执行整体修正处理(步骤S1605)。
在这种方式下,在根据第二实施例的语音识别设备中,当原始语音的识别结果和用于修正的语音输入的识别结果具有不匹配部分时,以及当对于不匹配部分来说,存在具有预定关系的识别结果时,可以输出这些具有预定关系的识别结果作为识别候选。因此,可以与不匹配部分的辨识同时地确定识别候选,借此可以实现高效的语音识别处理。
第一和第二实施例可以应用于语音翻译***中的话音输入装置。在语音翻译***中,不同于用在汽车导航***或者家用电器的操作中的命令输入型的语音***,会提供各种内容作为语音输入。此外,输入不是利用诸如名词性短语的片段而执行的,而是通过具有一定长度的句子或者短语来执行的。
上述语音识别处理可以应用于语音听写器,以实现编辑识别结果的功能。该实施例的语音识别处理适于这种***,因为语音听写器与语音翻译***类似地通过语音接收长文件并修正错误的语音识别。通常,语音听写器用于诸如一位个人电脑(PC)的硬件中,并且可以通过除话音输入装置以外的诸如键盘或者鼠标这样的输入设备来编辑语音识别的结果。所以,可以将通过重新输入语音来修正语音识别的结果的功能用作一种编辑功能。
另一方面,语音翻译***应是便携式的,并且诸如键盘或者鼠标的***设备不是必需的。此外,语音翻译***具有较小的屏幕并且最好用语音操作因为语音翻译***用于与人通讯。
本发明不局限于上述实施例。例如,本发明还可以应用于个人电脑的话音输入界面、汽车导航***、以及用于控制家用电器的输入接口。
可以将根据第一或第二实施例的语音识别设备所执行的语音识别程序预先存入只读存储器(ROM)来进行提供。
可以将由根据第一或第二实施例的语音识别设备所执行的语音识别程序以可安装格式或可执行格式的文件记录在计算机可读的记录介质上,例如光盘只读存储器(CD-ROM)、软盘(FD)、可记录光盘(CD-R)、或数字多用途光盘(DVD)。
此外,可以将由根据第一或第二实施例的语音识别设备所执行的语音识别程序存储在连接到诸如因特网的网络的计算机上,并通过网络下载。由根据第一或第二实施例的语音识别设备所执行的语音识别程序可以通过诸如因特网的网络提供或分发。
根据第一或第二实施例的语音识别设备所执行的语音识别程序具有包括上述单元(输入接收单元、生成单元、发声关系确定单元、修正单元、识别候选选择单元、以及输出控制单元)的模块化结构。作为实际的硬件,中央处理单元(CPU)从ROM读取语音识别程序并执行语音识别程序以在主存储器上加载各个单元,以便在主存储器上生成各个单元。
对于本领域的技术人员来说,将容易地想到其他的优点和变形。所以,该发明的范围不局限于此处所显示和描述的具体细节和典型实施例。因此,在不脱离由附加权利要求及其等价内容所定义的一般发明概念的精神或范围的情况下,可以进行各种修改。

Claims (14)

1.一种语音识别设备,包括:
生成单元,用于接收语音发声并生成至少一个与所述语音发声相关的识别候选以及所述识别候选的可能性;
存储单元,用于存储所述至少一个识别候选和所述可能性;
选择单元,用于根据所述可能性选择所述至少一个识别候选中的一个作为第一语音发声的识别结果;
发声关系确定单元,用于当顺序地输入第一语音发声和第二语音发声时,至少确定在输入所述第一发声之后输入的所述第二发声是所述第一语音发声的整体的语音重新发声,还是所述第一语音发声的一部分的语音重新发声;
整体修正单元,用于当所述发声关系确定单元确定所述第二语音发声是所述第一语音发声的整体的语音重新发声时,根据所述第二语音发声修正所述第一语音发声的整体的识别候选,并显示所述修正的识别结果;以及
部分修正单元,用于当所述发声关系确定单元确定所述第二语音发声是所述第一语音发声的一部分的语音重新发声时,根据所述第二语音发声修正所述第一语音发声的、对应于所述第二语音发声的部分的识别候选,并且显示所述修正的识别结果。
2.如权利要求1所述的语音识别设备,其中
当所述发声关系确定单元在所述第一语音发声中检测到相似部分并且所述相似部分与所述第一语音发声的整体匹配时,所述发声关系确定单元确定所述第二语音发声是所述第一语音发声的整体的语音重新发声,所述相似部分是其中所述第一语音发声的语音信息和所述第二语音发声的语音信息之间的相似度比预定阈值高的部分,以及
当所述相似部分与所述第一语音发声的一部分匹配并且所述相似部分与所述第二语音发声的整体匹配时,所述发声关系确定单元确定所述第二语音发声是所述第一语音发声的所述一部分的语音重新发声。
3.如权利要求1所述的语音识别设备,其中
所述整体修正单元
将所述第一语音发声的识别候选与所述第二语音发声的识别候选相互结合,
当所述第一语音发声的识别候选和所述第二语音发声的识别候选是共同的时,根据所述共同的识别候选对于所述第一语音发声的可能性以及所述共同的识别候选对于所述第二语音发声的可能性来计算新的可能性,以及
将所述新的可能性输出到所述存储单元。
4.如权利要求1所述的语音识别设备,其中
所述部分修正单元
当所述第一语音发声的一部分的识别候选和所述第二语音发声的识别候选是共同的时,根据所述共同的识别候选对于所述第一语音发声的可能性以及所述共同的识别候选对于所述第二语音发声的可能性来计算新的可能性,所述第一语音发声的所述一部分对应于按照所述第二语音发声的所述语音重新发声,以及
将所述可能性输出到所述存储单元。
5.如权利要求1所述的语音识别设备,其中
所述部分修正单元将所述识别候选输出到所述存储单元,所述识别候选是通过将所述第一语音发声中的一部分替换为所述第二语音发声的所述识别候选而获得的,所述部分对应于按照第二语音发声的所述语音重新发声。
6.如权利要求3所述的语音识别设备,其中
所述整体修正单元减小对应于所述第一语音发声中的一部分的识别结果的可能性,所述一部分是所述第一语音发声的前一个语音发声的、被所述第一语音发声修正的部分。
7.如权利要求1所述的语音识别设备,其中
当所述第一语音发声中的一部分未在所述第二语音发声中重新发声时,所述部分修正单元增大对应于所述第一语音发声中的所述一部分的识别结果的可能性,所述一部分是所述第一语音发声的前一个语音发声的、被所述第一语音发声修正的部分。
8.如权利要求1所述的语音识别设备,其中
当所述第一语音发声中的一部分在所述第二语音发声中重新发声时,所述部分修正单元减小对应于所述第一个语音发声中的所述一部分的识别结果的可能性,所述一部分是所述第一语音发声的前一个语音发声的、被所述第一语音发声修正的部分。
9.如权利要求1所述的语音识别设备,其中
所述发声关系确定单元确定所述第一语音发声的识别候选和所述第二语音发声的识别候选是否在所述第一语音发声与所述第二语音发声的不匹配部分中具有预定关系,以及
当所述第一和所述第二语音发声的识别候选具有所述预定关系时,确定所述第二语音发声是所述第一语音发声的整体的语音重新发声,以及在所述语音重新发声中,所述第一语音发声的一部分被替换为不同的语音发声,以及
当所述发声关系确定单元确定所述第二语音发声是所述第一语音发声的整体的语音重新发声,并且在所述语音重新发声中,所述第一语音发声的一部分被替换为不同的语音发声时,所述整体修正单元输出具有所述预定关系的识别候选。
10.如权利要求9所述的语音识别设备,其中
当所述发声关系确定单元在所述第一语音发声中检测到相似部分并且所述相似部分与所述第一语音发声的整体匹配时,所述发声关系确定单元确定所述第二语音发声是所述第一语音发声的整体的语音重新发声,所述相似部分是其中所述第一语音发声的语音信息和所述第二语音发声的语音信息之间的相似度比预定阈值高的部分,以及
当所述相似部分与所述第一语音发声的所述部分匹配并且所述相似部分与所述第二语音发声的整体匹配时,所述发声关系确定单元确定所述第二语音发声是所述第一语音发声的所述部分的语音重新发声,以及
当所述第一语音发声的识别候选和所述第二语音发声的识别候选在不匹配部分中具有预定关系时,所述发声关系确定单元确定所述第二语音发声是所述第一语音发声的整体的语音重新发声,在所述语音重新发声中,所述第一语音发声的一部分被替换为不同的语音发声,所述不匹配部分是除所述第一语音发声中的所述相似部分以外的部分。
11.如权利要求9所述的语音识别设备,其中
所述发声关系确定单元确定是否存在同义词的关系作为所述预定关系。
12.如权利要求9所述的语音识别设备,其中
所述发声关系确定单元确定是否存在同译语的关系作为所述预定关系。
13.如权利要求9所述的语音识别设备,其中
所述发声关系确定单元确定是否存在层次概念的关系作为所述预定关系。
14.一种语音识别方法,包括,
接收语音发声;
生成至少一个与所述语音发声相关的识别候选以及所述识别候选的可能性;
根据所述可能性选择所述至少一个识别候选中的一个作为第一个语音发声的识别结果;
当顺序地输入第一语音发声和第二语音发声时,至少确定在输入所述第一语音发声之后输入的所述第二语音发声是所述第一语音发声的整体的语音重新发声还是所述第一语音发声的一部分的语音重新发声;
当所述发声关系确定单元确定所述第二语音发声是所述第一语音发声的整体的语音重新发声时,根据所述第二语音发声修正所述第一语音发声的整体的识别候选以显示所述修正的识别结果;以及
当确定所述第二语音发声是所述第一语音发声的一部分的语音重新发声时,根据所述第二语音发声修正所述第一语音发声的、对应于所述第二语音发声的部分的识别候选,以显示所述修正的识别结果。
CNA2006101155289A 2005-09-27 2006-08-18 识别语音输入中的字符串的语音识别设备和方法 Pending CN1941077A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP280593/2005 2005-09-27
JP2005280593A JP4542974B2 (ja) 2005-09-27 2005-09-27 音声認識装置、音声認識方法および音声認識プログラム

Publications (1)

Publication Number Publication Date
CN1941077A true CN1941077A (zh) 2007-04-04

Family

ID=37895266

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006101155289A Pending CN1941077A (zh) 2005-09-27 2006-08-18 识别语音输入中的字符串的语音识别设备和方法

Country Status (3)

Country Link
US (1) US7983912B2 (zh)
JP (1) JP4542974B2 (zh)
CN (1) CN1941077A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103280218A (zh) * 2012-12-31 2013-09-04 威盛电子股份有限公司 基于语音识别的选择方法及其移动终端装置及信息***
CN103903618A (zh) * 2012-12-28 2014-07-02 联想(北京)有限公司 一种语音输入方法及电子设备
CN105404903A (zh) * 2014-09-15 2016-03-16 联想(北京)有限公司 信息处理方法、装置及电子设备
CN105810188A (zh) * 2014-12-30 2016-07-27 联想(北京)有限公司 一种信息处理方法和电子设备
CN107993653A (zh) * 2017-11-30 2018-05-04 南京云游智能科技有限公司 语音识别设备的错误发音自动纠正更新方法和更新***
CN110770819A (zh) * 2017-06-15 2020-02-07 北京嘀嘀无限科技发展有限公司 语音识别***和方法
CN112331194A (zh) * 2019-07-31 2021-02-05 北京搜狗科技发展有限公司 一种输入方法、装置和电子设备

Families Citing this family (185)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7949533B2 (en) 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7827032B2 (en) 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7865362B2 (en) * 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
JP4551961B2 (ja) * 2006-03-31 2010-09-29 パイオニア株式会社 音声入力支援装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、ナビゲーション装置
EP2005417A2 (en) * 2006-04-03 2008-12-24 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP4393494B2 (ja) * 2006-09-22 2010-01-06 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP4867622B2 (ja) * 2006-11-29 2012-02-01 日産自動車株式会社 音声認識装置、および音声認識方法
JP4791984B2 (ja) * 2007-02-27 2011-10-12 株式会社東芝 入力された音声を処理する装置、方法およびプログラム
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20080221899A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile messaging environment speech processing facility
US10056077B2 (en) 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US8886540B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US20080312934A1 (en) * 2007-03-07 2008-12-18 Cerra Joseph P Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility
US8996379B2 (en) 2007-03-07 2015-03-31 Vlingo Corporation Speech recognition text entry for software applications
US8949130B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US8886545B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US8288498B2 (en) 2007-03-30 2012-10-16 Nof Corporation Sugar-alcohol-modified organopolysiloxane compound and processes for producing the same
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
JP4987623B2 (ja) * 2007-08-20 2012-07-25 株式会社東芝 ユーザと音声により対話する装置および方法
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8965765B2 (en) * 2008-09-19 2015-02-24 Microsoft Corporation Structured models of repetition for speech recognition
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
KR101377459B1 (ko) * 2009-12-21 2014-03-26 한국전자통신연구원 자동 통역 장치 및 그 방법
US8494852B2 (en) 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
JP5633042B2 (ja) 2010-01-28 2014-12-03 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識ロボット
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20150279354A1 (en) * 2010-05-19 2015-10-01 Google Inc. Personalization and Latency Reduction for Voice-Activated Commands
US10762293B2 (en) * 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US20130268271A1 (en) * 2011-01-07 2013-10-10 Nec Corporation Speech recognition system, speech recognition method, and speech recognition program
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
JP5799733B2 (ja) * 2011-10-12 2015-10-28 富士通株式会社 認識装置、認識プログラムおよび認識方法
US8965904B2 (en) * 2011-11-15 2015-02-24 Long Van Dinh Apparatus and method for information access, search, rank and retrieval
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9424233B2 (en) 2012-07-20 2016-08-23 Veveo, Inc. Method of and system for inferring user intent in search input in a conversational interaction system
US9465833B2 (en) 2012-07-31 2016-10-11 Veveo, Inc. Disambiguating user intent in conversational interaction system for large corpus information retrieval
CN102831894B (zh) * 2012-08-09 2014-07-09 华为终端有限公司 指令处理方法、装置和***
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9224387B1 (en) * 2012-12-04 2015-12-29 Amazon Technologies, Inc. Targeted detection of regions in speech processing data streams
CN103871401B (zh) * 2012-12-10 2016-12-28 联想(北京)有限公司 一种语音识别的方法及电子设备
CN110889265B (zh) * 2012-12-28 2024-01-30 索尼公司 信息处理设备和信息处理方法
JP6325770B2 (ja) * 2013-02-04 2018-05-16 日本放送協会 音声認識誤り修正装置及びそのプログラム
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
EP3640938B1 (en) * 2013-05-07 2024-07-03 Veveo, Inc. Incremental speech input interface with real time feedback
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
JP6260138B2 (ja) * 2013-08-12 2018-01-17 日本電気株式会社 コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム
JP6223744B2 (ja) * 2013-08-19 2017-11-01 株式会社東芝 方法、電子機器およびプログラム
EP3261087A1 (en) * 2013-09-03 2017-12-27 Panasonic Intellectual Property Corporation of America Voice interaction control method
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
DE102014017384B4 (de) * 2014-11-24 2018-10-25 Audi Ag Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9852136B2 (en) 2014-12-23 2017-12-26 Rovi Guides, Inc. Systems and methods for determining whether a negation statement applies to a current or past query
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
JP6280074B2 (ja) * 2015-03-25 2018-02-14 日本電信電話株式会社 言い直し検出装置、音声認識システム、言い直し検出方法、プログラム
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
EP3089159B1 (en) * 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
DE102015212413A1 (de) 2015-07-02 2017-01-05 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum Auswählen eines Bestandteils einer Spracheingabe
DE102015213720B4 (de) 2015-07-21 2020-01-23 Volkswagen Aktiengesellschaft Verfahren zum Erfassen einer Eingabe durch ein Spracherkennungssystem und Spracherkennungssystem
DE102015213722B4 (de) 2015-07-21 2020-01-23 Volkswagen Aktiengesellschaft Verfahren zum Betreiben eines Spracherkennungssystems in einem Fahrzeug und Spracherkennungssystem
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
JP6675078B2 (ja) * 2016-03-15 2020-04-01 パナソニックIpマネジメント株式会社 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム
JP6605995B2 (ja) 2016-03-16 2019-11-13 株式会社東芝 音声認識誤り修正装置、方法及びプログラム
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
EP3474275A4 (en) * 2016-06-21 2019-11-06 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
JP6678545B2 (ja) 2016-09-12 2020-04-08 株式会社東芝 修正システム、修正方法及びプログラム
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
WO2018135303A1 (ja) * 2017-01-18 2018-07-26 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
JP6672209B2 (ja) 2017-03-21 2020-03-25 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
US20180315415A1 (en) * 2017-04-26 2018-11-01 Soundhound, Inc. Virtual assistant with error identification
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US11170762B2 (en) 2018-01-04 2021-11-09 Google Llc Learning offline voice commands based on usage of online voice commands
US10832675B2 (en) 2018-08-24 2020-11-10 Denso International America, Inc. Speech recognition system with interactive spelling function
US11430435B1 (en) 2018-12-13 2022-08-30 Amazon Technologies, Inc. Prompts for user feedback
US11263198B2 (en) 2019-09-05 2022-03-01 Soundhound, Inc. System and method for detection and correction of a query
KR20210029354A (ko) * 2019-09-06 2021-03-16 삼성전자주식회사 전자장치 및 그 제어방법
JP7111758B2 (ja) * 2020-03-04 2022-08-02 株式会社東芝 音声認識誤り訂正装置、音声認識誤り訂正方法及び音声認識誤り訂正プログラム
US11657814B2 (en) * 2020-10-08 2023-05-23 Harman International Industries, Incorporated Techniques for dynamic auditory phrase completion
US11620993B2 (en) * 2021-06-09 2023-04-04 Merlyn Mind, Inc. Multimodal intent entity resolver
US20230252995A1 (en) * 2022-02-08 2023-08-10 Google Llc Altering a candidate text representation, of spoken input, based on further spoken input

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01237597A (ja) * 1988-03-17 1989-09-22 Fujitsu Ltd 音声認識訂正装置
JPH07248792A (ja) * 1994-03-11 1995-09-26 Ricoh Co Ltd 音声認識装置
US5712957A (en) * 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
JP3580643B2 (ja) 1996-07-24 2004-10-27 株式会社デンソー 音声認識方法及び音声認識装置
US5829000A (en) * 1996-10-31 1998-10-27 Microsoft Corporation Method and system for correcting misrecognized spoken words or phrases
US5864805A (en) * 1996-12-20 1999-01-26 International Business Machines Corporation Method and apparatus for error correction in a continuous dictation system
DE19709990C2 (de) * 1997-03-11 2000-03-02 Philips Corp Intellectual Pty System zur Erkennung gesprochener Ziffernfolgen
JPH11149294A (ja) * 1997-11-17 1999-06-02 Toyota Motor Corp 音声認識装置および音声認識方法
JP2991178B2 (ja) * 1997-12-26 1999-12-20 日本電気株式会社 音声ワープロ
US5970451A (en) * 1998-04-14 1999-10-19 International Business Machines Corporation Method for correcting frequently misrecognized words or command in speech application
US6327566B1 (en) * 1999-06-16 2001-12-04 International Business Machines Corporation Method and apparatus for correcting misinterpreted voice commands in a speech recognition system
US6374214B1 (en) * 1999-06-24 2002-04-16 International Business Machines Corp. Method and apparatus for excluding text phrases during re-dictation in a speech recognition system
JP4604377B2 (ja) * 2001-03-27 2011-01-05 株式会社デンソー 音声認識装置
US7444286B2 (en) * 2001-09-05 2008-10-28 Roth Daniel L Speech recognition using re-utterance recognition
JP3762327B2 (ja) * 2002-04-24 2006-04-05 株式会社東芝 音声認識方法および音声認識装置および音声認識プログラム
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903618A (zh) * 2012-12-28 2014-07-02 联想(北京)有限公司 一种语音输入方法及电子设备
CN103280218A (zh) * 2012-12-31 2013-09-04 威盛电子股份有限公司 基于语音识别的选择方法及其移动终端装置及信息***
CN106847278A (zh) * 2012-12-31 2017-06-13 威盛电子股份有限公司 基于语音识别的选择方法及其移动终端装置及信息***
CN105404903A (zh) * 2014-09-15 2016-03-16 联想(北京)有限公司 信息处理方法、装置及电子设备
CN105404903B (zh) * 2014-09-15 2020-06-23 联想(北京)有限公司 信息处理方法、装置及电子设备
CN105810188A (zh) * 2014-12-30 2016-07-27 联想(北京)有限公司 一种信息处理方法和电子设备
CN105810188B (zh) * 2014-12-30 2020-02-21 联想(北京)有限公司 一种信息处理方法和电子设备
CN110770819A (zh) * 2017-06-15 2020-02-07 北京嘀嘀无限科技发展有限公司 语音识别***和方法
CN110770819B (zh) * 2017-06-15 2023-05-12 北京嘀嘀无限科技发展有限公司 语音识别***和方法
CN107993653A (zh) * 2017-11-30 2018-05-04 南京云游智能科技有限公司 语音识别设备的错误发音自动纠正更新方法和更新***
CN112331194A (zh) * 2019-07-31 2021-02-05 北京搜狗科技发展有限公司 一种输入方法、装置和电子设备

Also Published As

Publication number Publication date
US20070073540A1 (en) 2007-03-29
JP4542974B2 (ja) 2010-09-15
JP2007093789A (ja) 2007-04-12
US7983912B2 (en) 2011-07-19

Similar Documents

Publication Publication Date Title
CN1941077A (zh) 识别语音输入中的字符串的语音识别设备和方法
CN1143263C (zh) 识别有调语言的***和方法
CN1228762C (zh) 用于语音识别的方法、组件、设备及服务器
CN1168068C (zh) 语音合成***与语音合成方法
CN101042867A (zh) 语音识别设备和方法
CN1975857A (zh) 会话控制装置
CN101046960A (zh) 处理语音中的话音的装置和方法
CN1234109C (zh) 语调生成方法、语音合成装置、语音合成方法及语音服务器
CN100347741C (zh) 移动语音合成方法
CN1157712C (zh) 语音识别方法和装置
CN1244902C (zh) 语音识别装置和语音识别方法
CN1194337C (zh) 语音识别设备和方法以及记录了语音识别程序的记录媒体
CN1725295A (zh) 语音处理装置、语音处理方法、程序、和记录介质
CN1113305C (zh) 语言处理装置和方法
CN1196103C (zh) 语音识别设备和方法以及记录了语音识别程序的记录媒体
CN1311881A (zh) 语言变换规则产生装置、语言变换装置及程序记录媒体
CN1320520C (zh) 语音识别设备和语音识别方法
CN1975858A (zh) 会话控制装置
CN1750120A (zh) 索引设备和索引方法
CN1879147A (zh) 文本到语音转换方法和***、及其计算机程序产品
CN1908965A (zh) 信息处理装置及其方法和程序
CN1453767A (zh) 语音识别装置以及语音识别方法
CN1542736A (zh) 在自然语言理解***中用于位置的基于规则的语法和用于前终端的统计模型
CN101067780A (zh) 智能设备的文字输入***及方法
JP2008083459A (ja) 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20070404