CN112055876A

CN112055876A - 利用语音识别技术的多方对话记录/输出方法及用于其的装置

Info

Publication number: CN112055876A
Application number: CN201880092748.5A
Authority: CN
Inventors: 金善泰; 黄铭振; 朴来镇; 池昌真
Original assignee: Yuxiang Road Co ltd
Current assignee: Yuxiang Road Co ltd
Priority date: 2018-04-27
Filing date: 2018-04-27
Publication date: 2020-12-08
Also published as: WO2019208860A1; KR20200125735A; EP3779971A1; US20210232776A1; EP3779971A4; JP2021529337A

Abstract

本发明一实施例的基于多方语音识别***的语音识别及翻译方法可包括：接收语音的步骤；识别作为上述语音的语言的第一语言的步骤；通过基于上述第一语言的基本声学模型识别上述语音的文本的步骤；在上述第一语言并非为作为输出语言来预设的输出语言的情况下以上述输出语言翻译所识别的上述语音的步骤；以及存储及输出由上述输出语言构成的结果的步骤。

Description

利用语音识别技术的多方对话记录/输出方法及用于其的装置

技术领域

本发明涉及利用自动语音识别***的多方对话及对话记录生成方法及支援其的装置。

背景技术

多方对话***为利用计算机和网络来可多方实时进行对话的***。上述多方对话***主要以个人之间的沟通为目的，也可以作为会议等业务目的使用，对话方式包括文字、语音、影像等。

在对话的目的或会议的审理等业务的情况下，需要制订概括对话内容的对话记录，这主要通过手动作业执行。最近，试图将上述作业通过自动化进行，但是，与手动作业相比，存在作业的可靠性、准确度将会降低的问题。因此，将会伴随以录音的对话内容为基础再次检讨自动制订的对话记录的时间及人力，在录音的对话内容中，寻找录音特定对话的位置也将消耗很多时间及人力。

并且，最近，外国人参与多方对话的情况日益增加。在此情况下，在参加人员均无法进行沟通的情况下，将会需要通译人员，这将会导致会议时间及费用的增加。

自动语音识别技术为将用户的语音转换为文字的技术。近来，上述技术在语音识别率方面实现了快速的提高。但是，目前，当发生重叠的发音(utterance)时，用于识别准确的发音位置的技术发达微不足道。通常，语音识别装置起到将特定时间段的语音转换成文字的作用。即，语音识别装置在当前时间点发音的人为一名的假设下执行语音识别。因此，在两个以上的用户发音重叠的情况下(即，在相同时间点发生多个用户的发音)，语音识别装置无法通过当前的语音识别技术将重叠的发音均准确地转换成文字。因此，语音识别装置为了准确地识别用户的语音，需要按用户/说话者分离发音的适当功能。

并且，未登录语问题为语音识别准确度降低的其他原因。语音识别装置无法识别预先未登录的单词，仅可揭示发音类似而词意不同的单词。为了解决上述问题，可以尽可能在语音识别装置登录所有词汇，但是，在此情况下，随着声学模型的变大，发生语音识别装置的处理速度降低的问题。因此，为了保障语音识别装置的性能，需要印未登录语等所引起的适当的错误识别解决/处理功能。

发明内容

技术问题

本发明的目的在于，提供用于翻译/记录/输出的多方对话的准确度高的语音识别方法及用于其的装置。

本发明所要解决的技术问题并不局限于以上提及的技术问题，本发明所属技术领域的普通技术人员可从以下的记载明确理解未提及的其他技术问题。

技术方案

本发明一实施方式为基于多方语音识别***的语音识别及翻译方法，上述语音识别及翻译方法可包括：包括：接收语音的步骤；识别作为上述语音的语言的第一语言的步骤；通过基于上述第一语言的基本声学模型识别上述语音的文本的步骤；在上述第一语言并非为作为输出语言来预设的输出语言的情况下以上述输出语言翻译所识别的上述语音的步骤；以及存储及输出由上述输出语言构成的结果的步骤。

并且，识别上述语音的步骤可以为如下的步骤，即，通过上述基本声学模型，将上述语音转换成上述第一语言的文本。

并且，以上述输出语言进行翻译的步骤可以为如下的步骤，即，翻译上述第一语言的文本来转换成上述输出语言的文本。

并且，存储及输出由上述输出语言构成的结果的步骤可包括如下的步骤，即，按文本和/或声音方式输出以上述输出语言翻译的结果。

并且，按上述声音方式输出由上述输出语言构成的结果的步骤可包括如下的步骤，即，以与所接收的上述语音相同的语音输出上述输出语言。

并且，若在相同区域内存在多个用于按上述声音方式输出上述输出语言的语音输出部，按上述声音方式输出由上述输出语言构成的结果的步骤可包括：在上述多个语音输出部中，选择输出上述声音的至少一个语音输出部的步骤；以及仅通过所选择的上述至少一个语音输出部来按上述声音方式输出上述结果的步骤。

并且，选择上述至少一个语音输出部的步骤可以为如下的步骤，即，在上述多个语音输出部中，按接近上述发音者的实际或虚拟位置的顺序选择数量达到预设数量的语音输出部。

并且，在多次输入上述语音的情况下，按上述文本方式输出由上述输出语言构成的结果的步骤可以是如下的步骤，即，按用于识别上述语音的输入源的标识符(Identifier，ID)区分上述文本来按输入上述语音的时间顺序进行输出。

并且，上述标识符可按输入上述语音的语音输入通道不同地分配。

并且，上述标识符可选自由上述输出语言构成的结果内。

并且，按上述文本方式输出由上述输出语言构成的结果的步骤可包括如下的步骤，即，在由上述输出语言构成的结果中，按单词、词汇和/或文章的重要程度来以适用不同格式的文本输出。

并且，按上述文本方式输出由上述输出语言构成的结果的步骤还可包括如下的步骤，即，在由上述输出语言构成的结果中，针对语音识别可靠度低于预设等级的上述单词、上述词汇和/或文章，能够以适用预设格式的文本的方式进行输出。

并且，语音识别及翻译方法还可包括：接收与适用上述预设格式的文本相关的修改文本的步骤；以及以上述修改文本代替适用上述预设格式的文本的步骤。

并且，存储由上述输出语言构成的结果的步骤还可包括如下的步骤，即，以使上述标识符与由上述输出语言构成的结果互相产生联系的方式来存储。

并且，接收上述语音的步骤可以为如下的步骤，即，按接收上述语音的语音输入部区分发音者，通过独立的通道接收各个上述发音者的语音。

并且，在将已存储的上述结果以上述语音输出的情况下，在输出已存储的上述结果的期间，接收上述语音的步骤可被中断。

并且，语音识别及翻译方法还可包括如下的步骤，即，从用户接收对于所输出的上述结果中的核心词和/或核心文章的选择及解除。

并且，语音识别及翻译方法还可包括如下的步骤，即，以所选择的上述核心词和/或核心文章为中心，使用预设的算法来概括由上述输出语言构成的结果。

并且，本发明的其他实施方式提供语音识别***，上述语音识别***可包括：语音输入部，用于接收语音；处理器，识别作为上述语音的语言的第一语言，通过基于上述第一语言的基本声学模型识别上述语音，在上述第一语言并非为作为输出语言来预设的输出语言的情况下，以上述输出语言翻译所识别的上述语音；存储器，用于存储以上述输出语言翻译的结果；以及输出部，用于输出以上述输出语言翻译的结果。

发明的效果

根据本发明的实施例，本发明具有如下的效果，即，可向多方对话***适用语音识别功能来将语音及视频对话均转换成轻松管理/存储/探索的文字。

根据本发明的实施例，本发明具有如下的效果，即，按说话者区分发音并进行记录，按发音者自动指定/修改名字，因此，可按说话者确认对话。

并且，根据本发明的实施例，本发明具有如下的效果，即，用户可实时确认识别及翻译的结果。

并且，根据本发明的实施例，本发明具有如下的效果，即，永不可将记录的对话记录的文本以发音者的语音听取。

并且，根据本发明的实施例，本发明具有如下的效果，即，即使处于对话中，语音识别装置也可以随时选择重要发音，并可将其反映在对话记录。

并且，根据本发明的实施例，本发明具有如下的效果，即，语音识别装置可提供错误识别语识别功能来处理错误识别，结果，可以完善语音识别器的结果。

本发明可获取的效果并不局限于以上提及的效果，本发明所属技术领域的普通技术人员可从以下的记载明确理解未提及的其他效果。

附图说明

为了帮助理解本发明，作为详细说明的一部分包含的附图提供对于本发明的实施例，与详细说明一同说明本发明的技术特征。

图1为本发明一实施例的语音识别装置的框图。

图2例示本发明一实施例的多方对话***。

图3为例示包括本发明一实施例的多个语音识别装置的语音识别***的图。

图4为例示本发明一实施例的核心词选择方法的图。

图5为例示本发明一实施例的语音识别及翻译方法的流程图。

具体实施方式

以下，参照附图，详细说明本发明优选实施形态。与附图一同以下揭示的详细说明用于说明本发明的例示性实施形态，而并非呈现出本发明可实施的唯一的实施形态。以下的详细说明为了完全理解本发明而包括具体细部思想。但是，本发明所属技术领域的普通技术人员可以知道在没有这种具体细部思想的情况下也可以实施。

在多种情况下，为了防止本发明的概念变得模糊而可以省略公知的结构及装置，可以使出以各个结构及装置的核心功能为中心的框图形式。

图1为本发明一实施例的语音识别装置的框图。

参照图1，语音识别装置100可包括：语音输入部110，用于接收用户的语音；存储器120，用于存储与所识别的语音有关的多种数据；处理器130，用于处理所输入的用户的语音；显示部140，用于显示图像/影像；以及语音输出部150，用于输出语音。其中，显示部140及语音输出部150可被统称为“输出部”。

语音输入部110可包括麦克风(microphone)，若输入用户发音(utterance)的语音，则将其转换成电信号来向处理器130输出。

处理器130可向从语音输入部110接收的信号适用语音识别(speechrecognition)算法或语音识别引擎(speech recognition engine)来获取用户的语音数据。

在此情况下，向处理器130输入的信号可转换成用于语音识别的更有用的形态，处理器130将信号从从模拟形式转换为数字形式，检测语音的开始和结束位置来检测在语音数据中包含的实际语音区间/数据。将其称为终点检测(EPD，End Point Detection)。

而且，处理器130在检测的区间内适用倒频谱(Cepstrum)、线性预测系数(LinearPredictive Coefficient，LPC)、梅尔倒谱系数特征(Mel Frequency CepstralCoefficient，MFCC)或滤网能量(Filter Bank Energy)等的特征向量提取技术来提取信号的特征向量。

处理器130可利用存储数据的存储器120来存储与语音数据的结束位置有关的信息及特征向量。

存储器120可包括闪存(flash memory)、硬盘(hard disc)、存储卡、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、存储卡、电可擦可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、磁存储器、磁盘、光盘中的至少一个存储介质。

而且，处理器130可通过比较所提取的特征向量与训练的基准模式来获取识别结果。为此，可使用将语音的信号特性建模来进行比较的声学模型(Acoustic Model)和将与识别词汇相对应的单词或音节等的语言顺序管理建模的语言模型(Language Model)。

声学模型可再次分为将识别对象设定为特征向量模型，并将其与语音数据的特征向量进行比较的直接比较方法和统计处理识别对象的特征向量来利用的统计方法。

将单词或音节等的语言顺序关系建模的语言模型可将构成语言的多个单位之间的顺序关系适用于从语言识别中获取的多个单位来减少声学模糊性并可减少识别的错误。语言模型包括统计语言模型和基于有限状态自动机(Finite State Automata，FSA)的模型，统计语言模型利用Unigram、Bigram、Trigram等单词的连锁概率。

处理器130在识别语音的过程中，即使使用上述放置中的一种方式也无妨。例如，可以使用适用隐马尔可夫模型的声学模型，也可以使用合并声学模型和语言模型的N-best探索法。N-best探索法可利用声学模型和语言模型来选择到N的识别结果候补之后，对浙西候补的顺序进行再次评价来提高识别性能。

处理器130为了确保识别结果的可靠性而可以计算可靠度分数(confidencescore)(或可以简称为“可靠度”)。

可靠度分数可以为呈现出对于语音识别结果的可靠程度的尺度，针对作为所识别的结果的音素或单词，可以通过与从其他音素或单词发出上述音节的概率有关的相对值进行定义。因此，可靠度分数可表现为0至1之间的值，也可以表现为0至100之间的值。在可靠度分数大于预设阈值(threshold)的情况下，认定识别结果，在小于阈值的情况下，可以拒接(rejection)识别结果。

此外，可靠度分数可根据现有的多种可靠度分数获取算法获取。

并且，处理器130可将所识别的用户的语音翻译成预设的语言，将其转换成文本来通过显示部140显示。进而，处理器130可通过输入所翻译的语言的用户的语音，通过语音输出部150进行语音输出。为此，处理器可预先(或在语音识别过程中)将用户的语音预先存储在存储器120。

显示部140(例如，液晶显示器(LCD，liquid crystal display)、发光二极管(LED，light-emitting diode)、有机发光二极管(OLED，organic LED)等)可通过处理器130的控制输出多种图像/影像。

语音输出部150(例如，扬声器、耳机等)可通过处理器130的输出多种语音。

处理器130可在利用软件、硬件或它们的组合来通过计算机读取的记录介质内体现。根据硬件实例，可利用专用集成电路(ASICs，Application Specific IntegratedCircuits)、数字信号处理器(DSPs，Digital Signal Processors)、数字信号处理设备(DSPDs，Digital Signal Processing Devices)、可编程逻辑器件(PLDs，ProgrammableLogic Devices)、现场可编程门阵列(FPGAs，Field Programmable Gate Arrays)、处理器(processor)、微控制器(microcontrollers)、微处理器(micro-processor)等电单元中的至少一个来体现。

根据软件性实例，可以与执行至少一个功能或工作的额外的软件模块一同体现，可通过以软件代码或适当程序语言写入的软件应用体现。

处理器130体现在以下后述的图2至图5中提出的功能、过程和/或方法，以下，为了说明的便利，将处理器130与语音识别装置100视为一个来进行说明。并且，语音识别装置140基本上可体现为一个装置，也可体现为多个装置的组合/结合。在后者的情况下，多个语音识别装置可构成一个语音识别***，语音识别***可通过选自多个语音识别装置中的一个主语音识别装置控制。以下，为了说明的便利，将语音识别***和主语音识别装置视为一个来进行说明。

本发明涉及利用语音识别技术及自动翻译技术的多方对话识别/翻译/输出/记录方法。根据上述本发明，可提高利用视频、语音或文本的对话***的实用性，更加有效地制订/输出/探索对话记录。

图2例示本发明一实施例的多方对话***。

参照图2，语音识别装置140可接收各个发音者发音的语音并对其进行识别。在通过需要输出/记录的语言在语音识别装置140设定的语言与所识别的语音的语言不相同的情况下，语音识别装置140可将所识别的语言自动翻译成所设定的语言。在本附图的实施例的情况下，所设定的语言为“韩语”。因此，语音识别装置140可将所识别的语音的语言(例如，英语及法语)均翻译成“韩语”，并将所翻译的结果以文本及语音输出。

更详细地，语音识别装置140可将语音识别/翻译结果文本按时间顺序输出/显示在显示部140。而且，语音识别装置140可将所输出的文本以对各个文本进行发音的发音者的语音来通过语音输出部150输出。为此，语音识别装置140可预先接收各个发音者的语音来存储在存储器120。并且，语音识别装置140可将所输出的文本以预设的语言进行语音输出。即，在本实施例的情况下，语音识别装置140可将所输出的文本以“韩语”进行语音输出。

即，所有发音者的语音可均被转换及翻译成语音识别装置140的用户所需要的语言的文本来向显示部140输出，所输出的各个文本可转换成各个发音者的语音来通过语音输出部输出。

在相同空间存在多个语音识别装置(140-1～140-n)的情况下，语音识别***141可选择特定语音识别装置(或特定语音识别装置的语音输出部)，仅通过对应语音识别装置输出语音。这是因为在相同语音隔着些许的时间差来通过多个语音识别装置输出的情况下，多个用户很难听懂上述语音。因此，在判断为相同空间存在多个语音识别装置(140-1～140-n)的情况下，仅可在指定/选择的一部分语音识别装置输出语音。

语音识别***141可通过在各个语音识别装置(140-1～140-n)额外设置的全球定位***(GPS)所提供的位置信息、是否共同属于传播范围窄的特定通信介质、麦克风流入音是否类似、是否可以随意传输传播范围的窄的光波、电波、音波等来相互进行通信等多种实施例判断相同空间内是否存在多个语音识别装置(140-1～140-n)。

语音识别***141可根据手动、随机或按预设的规则选择输出语音的特定语音识别装置。例如，语音识别***141可反映对话参与人员的地位/作用(对此的详细信息可从各个参与人员额外接收，在此情况下，可选择对话进行人员/主持人的语音识别装置)和/或设置于各个语音识别装置的语音输出部的特性(例如，可选择设置有音量和/或音质最好的语音输出部的语音识别装置)等来选择输出语音的语音识别装置。

而且，语音识别***141并不选择输出语音的特定语音识别装置，而是可以执行多个语音识别装置之间的语音输出同步。这是因为若语音输出同步，则即使在多个语音识别装置中同时输出语音，听到上述语音的用户也不会感觉到混乱。因此，语音识别***141可执行多个语音识别装置之间的语音输出同步，可通过同步的语音识别装置同时输出语音。

而且，语音识别***141可使各个发音者在不同的语音识别装置输出语音。在此情况下，识别发音者的语音的语音识别装置和输出对应语音的语音识别装置有可能不相同。例如，即使通过第一语音识别装置内的语音输入部识别发音者的语音，所识别的语音也可以通过第二语音识别装置内的语音输出部(例如，在立体声扬声器的情况下，左右扬声器中的一个，在环绕声扬声器的情况下，一个位置的扬声器)输出。

如上所述，若各个发音者在不同的位置输出语音，则收听上述语音的收听者将轻松区分发音者。发音者的语音的输出位置可通过语音识别***141手动或自动指定。在自动指定的情况下，语音识别***141可以指定能够按各个发音者区分方向的任意位置，可以与实际发音者位置相同/类似地指定。

以下，说明发音者区分及通道分离方法。

在用于制订会议记录/对话记录的语音识别中，发音者的区分较为重要。即，在以记录目的制订的会议记录/对话记录的情况下，按发音者区分发言来制订。并且，根据位于相同空间的多个发音者的同时发音，对话重叠的情况下，语音识别装置/***的识别准确度将会降低，因此，各个发音者的语音输入通道需要分离。因此，以下，说明用于解决上述问题的说话者及通道分离方法。

1.发音者及通道分离方法：在各个发音者使用个别语音输入部(例如，耳麦或麦克风)的情况下，可通过独立通道接收各个发音者的语音。在相同空间具有多个发音者的情况下，可以输入其他发音者的语音，在原来通道与噪音通道之间存在音量差异，因此，语音识别装置/***可以区分由其他发音者输入的语音。

2.说话者分离方法：与人类可通过2只耳朵识别发音者的位置相同，语音识别装置/***可以使用通过2个以上的语音输入部接收的语音的特性差和通过i-vector把握的环境特征来把握发音者的位置特征，结果，可以区分发音者。

3.通道分离方法：即使多个发音使用个别语音输入部，针对同时发音而导致对话集中的重叠的区间，语音识别装置/***很难准确地分离各个发音者的对话。

为了解决上述问题，语音识别装置/***可执行：第一，分别识别通过多个语音输入部输入的语音，其中，选择/使用可靠度高的结果；第二，在对话重叠之前/之后，均通过由对象发音者主要使用的主语音输入部识别重叠的对话；以及第三，在图像处理技术中，在一同拍摄背景和客体的影像中，与仅拍摄背景的影像进行比较，若对相同或类似的部分进行差值计算，则与仅剩留客体的方式相同，来对语音也适用相同计算，数值方面特性差异最大的两个输入语音进行差值计算来去除混声噪音。

4.手动发音者分离方法：可向显示部输出用于提醒发音者分离失败的信息来提醒用户。因此，用户可通过鼠标、键盘、触摸等的操作来在发音者分离失败的文章中指定发音者边界来进行直接分离。

以下，说明发明者命名方式。

在对话***或对话记录中需要区分封印者，因此，需要分配可用于识别各个发音者的名字。在自动化的***中，在登录过程和标识符(ID)等可识别/区分发音者。但是在登录过程或标识符全部或部分被省略的情况下，或者在多个用户共享一个标识符的情况下，需要进行额外的处理方法。以下，提出这种处理方法。

1.方法1：语音识别装置/***可以按输入通道或媒体分配基本名字(例如，麦克风1、麦克风2或***、法官、主持人、播音员1等)。

2.方法2：语音识别装置/***可通过自我介绍或称呼和代用词连接来分离发音者。各个方案的具体实施例如下。

1)方案1

用户1：“我是黄明珍负责人。”

“用户1＝黄明珍负责人”分配/命名

2)方案2

用户1：“黄负责人的想法如何。”

用户2：“不好说。”

用户2＝黄负责人分配/命名

3)方案3

用户1：“请黄负责人说说。”

用户2：“不好说。”

用户2＝黄负责人分配/命名

用户目录搜索

用户2＝黄负责人＝黄明珍负责人

以下，说明有效的对话探索方法。

通常，当在影像或录音文件中探索需要的部分时，利用滑杆等来探索大致位置。这具有如下的优点，即，消耗大量的人力及时间，探索准确度极低。但是，如本发明，在与语音识别联动的对话***中，通过对于语音识别的结果的一般文本搜索来准确且迅速地探索所需要的部分。

在此情况下，若用户在记录的对话记录内容中选择所需要的文本，则语音识别装置/***可将对应文本以语音输出。为此，语音识别装置/***当将各个文本部分以语音输出时，可通过与各个文本部分连接来存储输出语音，当用户请求时，可以输出对应语音。

在对话过程中，在从用户接收语音输出请求的情况下，语音识别装置/***可以自动中断语音识别。这是为了减少用于再次识别已识别的内容的负荷和用户分离及驱动等的负荷。根据设定或在必要的情况下，语音识别装置/***可以不中断语音识别功能，而是持续执行。语音识别装置/***即使在播放语音时中断语音识别，也可以记录录音语音。语音识别装置/***当播放语音时可以在显示部显示提醒当前显示语音的图标/信息和对于播放过程中的语音的链接或过去识别的语音的文本。

以下，说明核心词选择方法。

图4为例示本发明一实施例的核心词选择方法的图。

语音识别装置/***可执行自动/手动实时/非实时核心词选择(黄标)及利用其的对话的自动/半自动/手动概括。即，语音识别装置/***可向用户提供如下的功能，即，以自动/手动在对话过程中实时通过显示部显示(颜色或粗细、下划线、字体变更等)核心词汇或文章。核心词的自动选择方法包括：第一方法，选择通过与预先指定的关键词的匹配的核心词汇及核心文章；以及第二方法，通过特定算法(例如，用于判断出现频率高的词汇及文章的算法等)来选择词汇及文章的重要程度。

作为手动选择方法，包括如下的方法，即，在对话过程中或在对话结束之后，通过多种输入单元(例如，键盘、鼠标、用户的触摸等)，从用户直接接收核心词/核心文章的选择及解除。

语音识别装置/***可根据核心词的重要程度或作用/功能改变显示方法。例如，语音识别装置/***可通过不屠龙的方式(例如，其他文本格式)显示核心词/核心文章、非核心词/非核心文章、采用方案、非采用方案。

语音识别装置/***可基于核心词/核心文章来自动/手动概括对话记录/会议记录。在执行自动概括的情况下，语音识别装置/***以核心词/核心文章为主，可以使用特定算法来概括对话记录/会议记录。在执行手动概括的情况下，语音识别装置/***可根据预先定义的方式和规则来罗列由用户直接选择的词汇/文章并概括对话记录/会议记录。

图4为例示本发明一实施例的错误识别语修改方法的图。

语音识别装置/***可将识别可靠度低的词汇或文章与其他词汇/文章不同地(例如，其他文本格式)显示。例如，语音识别装置/***可改变被判断为识别可靠度低的词汇或文章的颜色、下划线或字体来显示或者可附加额外的图标。在此情况下，语音识别装置/***可利用语言模型和/或声学模型来判断可靠度，在均利用两个模型的情况下，以可区分基于语言模型的可靠度及基于声学模型的可靠度的方式不同地显示。或者，用户可以直接实时修改判断为语音识别错误的部分。

语音识别装置/***可实时反映所修改的内容。语音识别装置/***实时反映错误识别修改内容的方法可包括：第一方法，将错误识别修改内容反应在基础语言模型来再次构建；第二方法，除基础语言模型之外，向仅在对应对话中使用并消失的易失性语言模型反映错误识别修改内容来再次构建；以及第三方法，简单对相同词汇进行相同校正来进行后处理。

在后处理方法的情况下，可包括如下的方法，即，语音识别装置/***仅简单比较词汇来通过新的修改内容代替，可以考虑对应发音当时的语音特性的类似性来反映错误识别修改内容。

在此情况下，错误识别修改内容的实时反映仅反映在之后的对话，也可以反映之前对话。并且，用户的修改内容可以记录并额外显示，即使进行新的语音识别，对应记录或显示也不会被删除。并且，语音识别装置/***可向用户一同显示/提供用户的校正前错误内容和校正后修改内容。

以下，说明对话窗口构成方法。

除对话内容的文本之外，对话窗口还可以构成在如一同浏览图像、视频或网页、一同会话或对方视频图像的对话窗口。

语音识别装置/***在对话过程中或对话结束后，可将对话内容以语音播放，可按时间顺序或逆顺序播放。用户可滚动对话内容来选择播放时间点，可利用滑杆来选择时间点。在此情况下，向显示部输出的所有文本/图像与显示的对话内容同步来一同输出，用户可改变除内容修改之外的对话窗口构成。

以下，说明各个发音者的对话分离显示方法。

语音识别装置/***可按发音者进行进行分离/区分文章的作业之后，按时间的顺序整列文章。并且，语音识别装置/***在规定时间以上同时发生发音或者不该分离文章的位置中分离发音者的情况下，可以不分离文章。只是，在此情况下，按发音者构成一个文章并将各个发音者的文章捆绑成一个。捆绑管理的文章可根据同时发音的时间点，通过按单词、字调节空格或间隔等表示发音的文章和发言时间点之间的同步。

图5为例示本发明一实施例的语音识别及翻译方法的流程图。与本流程图有关地，在此说明的实施例/说明也可以相同/类似地适用，将省略重复说明。

首先，语音识别装置/***可接收语音(步骤S501)。接收语音的步骤为如下的步骤，即，按接收语音的语音输入部区分发音者，通过独立通道接收各个发音者的语音。

接着，语音识别装置/***可识别作为语音的语言的第一语言(步骤S502)。

接着，语音识别装置/***可通过基于第一语言的基本声学模型识别上述语音的文本(步骤S53)。其中，识别语音的文本可以为将语音通过基本声学模型转换成第一语言的文本。

接着，在第一语言并非为预设的输出语言的情况下，语音识别装置/***可将所识别的上述语音翻译成输出语言(步骤S504)。在此情况下，语音识别装置/***可翻译第一语言的文本来将其转换成上述输出语言的文本。

接着，语音识别装置/***可存储及输出由输出语言构成的结果(步骤S505)。在此情况下，语音识别装置/***可将由输出语言构成的结果以文本和/或声音输出。在以声音输出的情况下，语音识别装置/***可将与所接收的上述语音相同的语音输出上述输出语言。为此，语音识别装置/***可将所接收的上述语言预先存储于存储器。

在相同区域内存在多个用于按上述声音方式输出上述输出语言的语音输出部的情况下，语音识别装置/***可在多个语音输出部中选择输出声音的至少一个语音输出部，仅通过所选择的上述至少一个语音输出部来将由上述输出语言构成的结果以声音输出。在此情况下，语音识别装置/***在多个语音输出部中，可按接近发音者的实际或虚拟的位置的顺序选择数量达到预设数量的语音输出部。

并且，在多次输入语音的情况下，语音识别装置/***可将各个输出文本按用于识别语音的输入源的标识符(ID)区分来按输入语音的时间顺序进行输出。标识符可按输入语音的语音输入通道不同地分配。并且，标识符可在由输出语言构成的结果内选择。并且，语音识别装置/***可以将标识符与由输出语言构成的结果相互连接来存储。

并且，语音识别装置/***在由输出语言构成的结果中，按单词词汇和/或文章的重要程度输出适用不同格式的文本。在此情况下，重要程度能够以至今存储的翻译结果内的出现频率为基准确定。

并且，语音识别装置/***可在由输出语言构成的结果中，针对语音识别可靠度小于预设等级的单词、词汇和/或文章，以适用预设格式的文本输出。在此情况下，语音识别装置/***可接收对于适用预设格式的文本的修改文本，可通过修改文本代替适用预设格式的文本。

并且，语音识别装置/***在将已存储的结果以语音输出的情况下(步骤S505)，在输出上述已存储的结果的期间，可以中断接收上述语音的步骤S501。

并且，语音识别装置/***可从用户接收在所输出的上述结果中的核心词和/或核心文章的选择及解除(例如，通过基于键盘、鼠标、用户的触摸等的手动输入)。在此情况下，语音识别装置/***以所选择的核心词和/或核心文章为中心，使用预设的算法来概括由输出语言构成的记过。

本发明的实施例可通过多个单元，例如，硬件、固件(firmware)、软件或它们的结合等体现。在通过软件体现的情况下，本发明的一实施例可通过一个或一个以上的专用集成电路(ASICs，application specific integrated circuits)、数字信号处理器(DSPs，digital signal processors)、数字信号处理设备(DSPDs，digital signal processingdevices)、可编程逻辑器件(PLDs，programmable logic devices)、现场可编程门阵列(FPGAs，field programmable gate arrays)、处理器、控制器、微控制器、微处理器等体现。

在通过固件或软件体现的情况下，本发明的一实施例可体现为执行以上说明的功能或工作的模块、步骤、函数等的形态。软件代码存储于存储器来通过处理器驱动。上述存储器位于上述处理器的内部后外部，可通过已公知的多种单元来与上述处理器收发数据。

本发明在不超出本发明的必要特征的范围内，可以具体化成其他特定形态对本发明所属技术领域的普通技术人员来说是显而易见的。因此，上述详细说明在所有方面均是例示性实施例，而并非为限定性实施例。本发明的范围通过发明要求保护范围的合理解释确定，本发明的等价范围内的所有变更均属于本发明的范围内。

另一方面，在本说明书中，“和/或”可被解释成“至少一个”的含义。

产业上的可利用性

本发明可适用于多种对话情况。

Claims

1.一种语音识别及翻译方法，其以多方语音识别***为基础，其特征在于，包括：

接收语音的步骤；

识别作为上述语音的语言的第一语言的步骤；

通过基于上述第一语言的基本声学模型识别上述语音的文本的步骤；

在上述第一语言并非为作为输出语言来预设的输出语言的情况下以上述输出语言翻译所识别的上述语音的步骤；以及

存储及输出由上述输出语言构成的结果的步骤。

2.根据权利要求1所述的语音识别及翻译方法，其特征在于，识别上述语音的步骤为如下的步骤，即，通过上述基本声学模型，将上述语音转换成上述第一语言的文本。

3.根据权利要求2所述的语音识别及翻译方法，其特征在于，以上述输出语言进行翻译的步骤为如下的步骤，即，翻译上述第一语言的文本来转换成上述输出语言的文本。

4.根据权利要求1或3所述的语音识别及翻译方法，其特征在于，存储及输出由上述输出语言构成的结果的步骤包括如下的步骤，即，按文本和/或声音方式输出以上述输出语言翻译的结果。

5.根据权利要求4所述的语音识别及翻译方法，其特征在于，按上述声音方式输出由上述输出语言构成的结果的步骤包括如下的步骤，即，以与所接收的上述语音相同的语音输出上述输出语言。

6.根据权利要求4所述的语音识别及翻译方法，其特征在于，若在相同区域内存在多个用于按上述声音方式输出上述输出语言的语音输出部，按上述声音方式输出由上述输出语言构成的结果的步骤包括：

在上述多个语音输出部中，选择输出上述声音的至少一个语音输出部的步骤；以及

仅通过所选择的上述至少一个语音输出部来按上述声音方式输出上述结果的步骤。

7.根据权利要求6所述的语音识别及翻译方法，其特征在于，选择上述至少一个语音输出部的步骤为如下的步骤，即，在上述多个语音输出部中，按接近上述发音者的实际或虚拟位置的顺序选择数量达到预设数量的语音输出部。

8.根据权利要求4所述的语音识别及翻译方法，其特征在于，在多次输入上述语音的情况下，按上述文本方式输出由上述输出语言构成的结果的步骤为如下的步骤，即，按用于识别上述语音的输入源的标识符区分上述文本来按输入上述语音的时间顺序进行输出。

9.根据权利要求8所述的语音识别及翻译方法，其特征在于，上述标识符按输入上述语音的语音输入通道不同地分配。

10.根据权利要求9所述的语音识别及翻译方法，其特征在于，上述标识符选自由上述输出语言构成的结果内。

11.根据权利要求8所述的语音识别及翻译方法，其特征在于，按上述文本方式输出由上述输出语言构成的结果的步骤包括如下的步骤，即，在由上述输出语言构成的结果中，按单词、词汇和/或文章的重要程度来以适用不同格式的文本输出。

12.根据权利要求11所述的语音识别及翻译方法，其特征在于，按上述文本方式输出由上述输出语言构成的结果的步骤还包括如下的步骤，即，在由上述输出语言构成的结果中，针对语音识别可靠度低于预设等级的上述单词、上述词汇和/或文章，以适用预设格式的文本方式进行输出。

13.根据权利要求12所述的语音识别及翻译方法，其特征在于，还包括：

接收与适用上述预设格式的文本相关的修改文本的步骤；以及

以上述修改文本代替适用上述预设格式的文本的步骤。

14.根据权利要求13所述的语音识别及翻译方法，其特征在于，存储由上述输出语言构成的结果的步骤还包括如下的步骤，即，以使上述标识符与由上述输出语言构成的结果互相产生联系的方式来存储。

15.根据权利要求1所述的语音识别及翻译方法，其特征在于，接收上述语音的步骤为如下的步骤，即，按接收上述语音的语音输入部区分发音者，通过独立的通道接收各个上述发音者的语音。

16.根据权利要求1所述的语音识别及翻译方法，其特征在于，在将已存储的上述结果以上述语音输出的情况下，在输出已存储的上述结果的期间，接收上述语音的步骤将被中断。

17.根据权利要求1所述的语音识别及翻译方法，其特征在于，还包括如下的步骤，即，从用户接收对于所输出的上述结果中的核心词和/或核心文章的选择及解除。

18.根据权利要求17所述的语音识别及翻译方法，其特征在于，还包括如下的步骤，即，以所选择的上述核心词和/或核心文章为中心，使用预设的算法来概括由上述输出语言构成的结果。

19.一种语音识别***，其特征在于，包括：

语音输入部，用于接收语音；

处理器，识别作为上述语音的语言的第一语言，通过基于上述第一语言的基本声学模型识别上述语音，在上述第一语言并非为作为输出语言来预设的输出语言的情况下，以上述输出语言翻译所识别的上述语音；

存储器，用于存储以上述输出语言翻译的结果；以及

输出部，用于输出以上述输出语言翻译的结果。