CN109241330A

CN109241330A - 用于识别音频中的关键短语的方法、装置、设备和介质

Info

Publication number: CN109241330A
Application number: CN201810949733.8A
Authority: CN
Inventors: 王志华; 杨天行; 伍志鹏; 彭彬; 赵程缘
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-08-20
Filing date: 2018-08-20
Publication date: 2019-01-18
Also published as: JP2020030408A; KR102316063B1; US11308937B2; JP6909832B2; KR20200021429A; EP3614378A1; US20200058291A1

Abstract

本公开的实施例提供了用于识别音频中的关键短语的方法、装置、设备和计算机可读存储介质。一种用于识别音频中的关键短语的方法包括获取待识别的音频数据。该方法还包括利用经训练的关键短语识别模型来识别音频数据中的关键短语。该关键短语识别模型基于第一训练数据和第二训练数据而被训练，其中第一训练数据标识第一训练文本中的词语的特征信息并且第二训练数据标识第二训练文本中的关键短语。以此方式，本公开的实施例能够准确且高效地识别音频数据中的关键信息。

Description

用于识别音频中的关键短语的方法、装置、设备和介质

技术领域

本公开的实施例总体涉及数据处理领域，并且更具体地，涉及用于识别音频中的关键短语的方法、装置、设备和计算机可读存储介质。

背景技术

随着计算机技术的发展和智能终端的普及，人们越来越多地使用智能手机或智能音箱等终端设备来收听各种有声节目，诸如有声小说、儿童故事、培训课程等等。由于有声资源的提供方通常仅将录制好的音频数据上传至服务器并配以简单的标题和文字说明，当用户针对这些资源进行检索时，***通常仅根据标题及文字说明进行检索。由于不能够全面快速地理解音频数据的内容，这样的检索效果可能无法满足用户需求。例如，当用户发出的查询命令中的关键词未被包括在音频数据的标题或文字说明中时，该音频数据将不会被检索到。

发明内容

根据本公开的示例实施例，提供了用于识别音频中的关键短语的方案。

在本公开的第一方面中，提供了一种用于训练关键短语识别模型的方法。该方法包括获取第一训练数据，第一训练数据标识第一训练文本中的词语的特征信息。该方法还包括获取第二训练数据，第二训练数据标识第二训练文本中的关键短语。该方法还包括基于第一训练数据和第二训练数据来训练关键短语识别模型，以用于识别音频数据中的关键短语。

在本公开的第二方面中，提供了一种用于识别音频中的关键短语的方法。该方法包括获取待识别的音频数据。该方法还包括利用经训练的关键短语识别模型来识别音频数据中的关键短语。该关键短语识别模型基于第一训练数据和第二训练数据而被训练，其中第一训练数据标识第一训练文本中的词语的特征信息并且第二训练数据标识第二训练文本中的关键短语。

在本公开的第三方面中，提供了一种用于训练关键短语识别模型的装置。该装置包括：第一获取模块，被配置为获取第一训练数据，第一训练数据标识第一训练文本中的词语的特征信息；第二获取模块，被配置为获取第二训练数据，第二训练数据标识第二训练文本中的关键短语；以及模型训练模块，被配置为基于第一训练数据和第二训练数据来训练关键短语识别模型，以用于识别音频数据中的关键短语。

在本公开的第四方面中，提供了一种用于识别音频中的关键短语的装置。该装置包括：音频获取模块，被配置为获取待识别的音频数据；以及识别模块，被配置为利用经训练的关键短语识别模型来识别音频数据中的关键短语，其中关键短语识别模型基于第一训练数据和第二训练数据而被训练，第一训练数据标识第一训练文本中的词语的特征信息并且第二训练数据标识第二训练文本中的关键短语。

在本公开的第五方面中，提供了一种电子设备，包括一个或多个处理器和存储装置。存储装置用于存储一个或多个程序。当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器执行根据本公开的第一方面的方法。

在本公开的第六方面中，提供了一种电子设备，包括一个或多个处理器和存储装置。存储装置用于存储一个或多个程序。当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器执行根据本公开的第二方面的方法。

在本公开的第七方面中，提供了一种计算机可读介质，其上存储有计算机程序，该计算机程序在被处理器执行时实现根据本公开的第一方面的方法。

在本公开的第八方面中，提供了一种计算机可读介质，其上存储有计算机程序，该计算机程序在被处理器执行时实现根据本公开的第二方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了本公开的实施例能够在其中实现的示例***的示意图；

图2示出了根据本公开的实施例的用于训练关键短语识别模型的示例方法的流程图；

图3示出了根据本公开的实施例的用于识别音频中的关键短语的示例方法的流程图；

图4示出了根据本公开实施例的用于训练关键短语识别模型的装置的示意性框图；

图5示出了根据本公开实施例的用于识别音频中的关键短语的装置的示意性框图；以及

图6示出了能够实施本公开的多个实施例的计算设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如以上提及的，随着计算机技术的发展和智能终端的普及，人们越来越多地使用智能手机或智能音箱等终端设备来收听各种有声节目，诸如有声小说、儿童故事、培训课程等等。由于有声资源的提供方通常仅将录制好的音频数据上传至服务器并配以简单的标题和文字说明，当用户针对这些资源进行检索时，***通常仅根据标题及文字说明进行检索。由于不能够全面快速地理解音频数据的内容，这样的检索效果可能无法满足用户需求。在此情况下，如何快速理解音频文件的内容，从而准确高效地识别其中的关键词或关键短语成为亟待解决的挑战。一些传统方案针对热门音频采用人工标注的方式来标注其中的关键词或关键短语，例如热门儿童故事中的主人公等。然而，这种方案效率较低，无法大规模应用。此外，传统方案中存在针对文本来进行关键词或关键短语的检索的方案。然而，这些方案无法针对音频数据进行准确高效的检索。

根据本公开的实施例，提出了一种用于识别音频中的关键短语的方案。该方案利用经自然语言处理的训练样本和经人工序列标注的训练样本两者来训练关键短语识别模型。该方案将待识别的音频数据转换成对应的文本，并且利用经训练的关键短语识别模型来识别文本中的关键词或关键短语。以此方式，该方案能够准确且高效地理解音频数据的内容并提取其中的关键信息。因此，该方案能够被广泛地应用于各种有声应用或音频检索***中。

以下将参照附图来具体描述本公开的实施例。在本文中，术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联，从而在训练完成后可以针对给定的输入，生成对应的输出。应当理解，“模型”也可以被称为“神经网络”、“学习模型”或“学习网络”。术语“关键短语”可以指代一段内容中出现的一个或多个关键词。“关键短语”可以基于用户的意图来被确定，其示例可以包括但不限于有声内容中的主人公、特定场景、时间或其组合。

图1示出了本公开的实施例能够在其中实现的示例***100的示意图。***100总体上可以包括模型训练子***110和模型应用子***120。应当理解，仅出于示例性的目的描述***100的结构和功能，而不暗示对于本公开的范围的任何限制。本公开的实施例还可以被应用到具有不同的结构和/或功能的环境中。

在模型训练子***110中，模型训练装置111可以获取第一训练数据101和第二训练数据102以用于训练关键短语识别模型103。例如，第一训练数据101可以标识第一训练文本中的词语的特征信息，而第二训练数据102可以标识第二训练文本中的关键短语。

在一些实施例中，第一训练文本或第二训练文本可以是任意文本或者从音频数据转换得到的文本。例如，第一训练文本可以从用于训练关键短语识别模型103的第一音频样本转换而得到。第二训练文本可以从用于训练关键短语识别模型103的第二音频样本转换而得到。在一些实施例中，第一音频样本与第二音频样本可以为相同或者不同的音频数据。也即，第一训练文本与第二训练文本可以相同或者不同。

在一些实施例中，可以通过对第一训练文本进行预处理来生成第一训练数据101。例如，可以将第一训练文本按照句子分隔符(例如，各种标点符号等)拆分成多个句子，然后针对其中每个句子进行自然语言处理，以获得句子中的每个词语的特征信息。例如，词语的特征信息可以包括该词语的文本、词性、语义和/或语法信息等。特征信息中的词性例如可以指示该词语属于名词、动词、形容词、还是副词等。特征信息中的语义例如可以指示该词语的具体含义，例如人物、动作、环境等。特征信息中的语法信息可以指示该词语属于句子中的主语、谓语、宾语、定语、状语还是补语等。

在一些实施例中，第一训练文本的获取和第一训练数据101的生成中的部分或者全部可以由模型训练装置111来执行。也即，模型训练装置111可以将任意文本作为第一训练文本或者可以利用语音识别技术将第一音频样本转换成第一训练文本。附加地或者备选地，模型训练装置111可以基于第一训练文本来自行生成第一训练数据101。

备选地，在另一些实施例中，第一训练文本的获取和第一训练数据101的生成中的部分或者全部可以由另外的装置来执行。在此情况下，模型训练装置111例如可以从该另外的装置获取所生成的第一训练数据101以直接用于模型训练。

在一些实施例中，可以通过对第二训练文本进行预处理来生成第二训练数据102。例如，可以将第二训练文本按照句子分隔符(例如，各种标点符号等)拆分成多个句子，然后利用多个标签来标识每个句子中的关键短语。在一些实施例中，例如，可以利用B(Begin)、I(Inside)、O(Outside)标签来人工标注句子中的关键短语，其中B标签(本文中也称为“第一标签”)用于标注关键短语的起始字符，I标签(本文中也称为“第二标签”)用于标注关键短语中初起始字符以外的其他字符，而O标签(本文中也称为“第三标签”)用于标注句子中不属于关键短语的其他字符。

举例而言，假设待标注的句子为“白雪公主和七个小矮人在森林里”并且待标注的关键短语为该句子中的主人公(即，“白雪公主”及“七个小矮人”)，则“白”字和“七”字分别利用B标签来标注，“雪公主”和“个小矮人”分别利用I标签来标注，而其余字符利用O标签来标注。仍以句子“白雪公主和七个小矮人在森林里”为例，假设待标注的关键短语为该句子中的场景(即，“森林”)，则“森”字利用B标签来标注，“林”字利用I标签来标注，而其余字符利用O标签来标注。

以上以BIO标签为例描述了对第二训练文本中的关键短语进行人工标注。然而，应当理解，这仅仅出于说明的目的而无意于对本公开的任何限制。在本公开的一些其他实施例中，也可以利用除BIO标签之外的其他标签来对第二训练文本中的关键短语进行标注，本公开的范围在此方面不受限制。

在一些实施例中，第二训练文本的获取和第二训练数据102的生成中的部分或者全部可以由模型训练装置111来执行。也即，模型训练装置111可以将任意文本作为第二训练文本或者可以利用语音识别技术将第二音频样本转换成第二训练文本。附加地或者备选地，模型训练装置111可以基于第二训练文本来自行生成第二训练数据102。

备选地，在另一些实施例中，第二训练文本的获取和第二训练数据102的生成中的部分或者全部可以由另外的装置来执行。在此情况下，模型训练装置111例如可以从该另外的装置获取所生成的第二训练数据102以直接用于模型训练。

在一些实施例中，模型训练装置111可以基于第一训练数据101和第二训练数据102来训练关键短语识别模型103。例如，关键短语识别模型103的示例可以包括但不限于递归神经网络模型(例如，长短期记忆(LSTM)模型)、卷积神经网络(CNN)模型等。经训练的关键短语识别模型103可以被用于识别音频数据中的关键短语。

如图1所示，在模型应用子***120中，模型应用装置121可以获取待识别的音频数据104，并且利用经训练的关键短语识别模型103来识别音频数据104中的关键短语。音频数据104可以包括任何待识别的音频文件、音频数据流等等。例如，模型应用装置121可以实时地获取待识别的音频数据流或者从特定存储装置中获取待识别的音频文件作为音频数据104。

在一些实施例中，模型应用装置121可以利用语音识别技术将音频数据104转换成与之对应的文本，并且将所得到的文本按照句子分隔符拆分成一个或多个句子。然后，模型应用装置121可以利用关键短语识别模型103来确定每个句子中的字符的相应标签，并且基于相应标签来识别句子中的关键短语。

在一些实施例中，例如在用于训练关键短语识别模型103的第二训练数据102中利用BIO标签来标注第二训练文本中的关键短语。在此情况下，模型应用装置121可以利用关键短语识别模型103将每个句子中的每个字符的标签确定为B标签、I标签和O标签之一，其中B标签可以指示该字符为关键短语的起始字符，I标签可以指示该字符为关键短语中除起始字符之外的字符，而O标签可以指示该字符不属于关键短语。进一步地，模型应用装置121可以由B标签标识的字符和由I标签标识的字符的集合识别为关键短语。备选地，在一些其他实施例中，在用于训练关键短语识别模型103的第二训练数据102中也可以利用除BIO标签之外的多个其他标签来标注第二训练文本中的关键短语。在此情况下，模型应用装置121可以利用关键短语识别模型103将每个句子中的字符或词语的相应标签确定为例如多个其他标签之一，并且进一步基于所确定的标签来识别关键短语。

图2示出了根据本公开的实施例的用于训练关键短语识别模型的示例方法200的流程图。例如，方法200可以由如图1所示的模型训练装置111来执行。以下将结合图1来详细描述方法200的各个动作。应当理解，方法200还可以包括未示出的附加动作和/或可以省略所示出的动作。本公开的范围在此方面不受限制。

在框210，模型训练装置111获取第一训练数据101。例如，第一训练数据101可以标识第一训练文本中的词语的特征信息。

在一些实施例中，第一训练文本可以被获取，并且可以通过对第一训练文本进行预处理来生成第一训练数据101。例如，可以获取任意文本作为第一训练文本。又如，可以获取用于训练关键短语识别模型103的第一音频样本，并且利用语音识别技术将第一音频样本转换成第一训练文本。在一些实施例中，第一训练数据101可以以如下方式来被生成：按照句子分隔符将第一训练文本被拆分成至少一个句子，然后利用自然语言处理技术来确定至少一个句子中的词语的特征信息。例如，词语的特征信息可以包括该词语的文本、词性、语义和语法信息中的至少一项。

在框220，模型训练装置111获取第二训练数据102。例如，第二训练数据102可以标识第二训练文本中的关键短语。在此所述的“关键短语”可以基于用户的意图来被确定，其示例可以包括但不限于第二训练文本中的主人公、特定场景、时间或其组合等。

在一些实施例中，第二训练文本可以被获取，并且可以通过对第二训练文本进行预处理来生成第二训练数据102。例如，可以获取任意文本作为第二训练文本。又如，可以获取用于训练关键短语识别模型103的第二音频样本，并且利用语音识别技术将第二音频样本转换成第二训练文本。在一些实施例中，第二训练数据102可以以如下方式来被生成：按照句子分隔符将第二训练文本被拆分成至少一个句子，然后利用多个标签来标识至少一个句子中的关键短语。例如，可以利用第一标签来表示关键短语的起始字符，可以利用第二标签来标识关键短语中在起始字符之后的后续字符，并且可以利用第三标签来标识句子中不属于关键短语的字符。

在框230，模型训练装置111基于第一训练数据101和第二训练数据102来训练关键短语识别模型103。例如，关键短语识别模型103的示例可以包括但不限于递归神经网络模型(例如，长短期记忆(LSTM)模型)、卷积神经网络(CNN)模型等。经训练的关键短语识别模型103可以被用于识别音频数据中的关键短语。

图3示出了根据本公开的实施例的用于识别音频中的关键短语的方法300的流程图。例如，方法300可以由如图1所示的模型应用装置121来执行。以下将结合图1来详细描述方法300的各个动作。应当理解，方法300还可以包括未示出的附加动作和/或可以省略所示出的动作。本公开的范围在此方面不受限制。

在框310，模型应用装置121获取待识别的音频数据104。例如，音频数据104可以包括任何待识别的音频文件、音频数据流等等。在一些实施例中，模型应用装置121可以实时地获取待识别的音频数据流作为音频数据104。备选地，模型应用装置121可以从特定存储装置中获取待识别的音频文件作为音频数据104。

在框320，模型应用装置121利用经训练的关键短语识别模型103来识别音频数据104中的关键短语。

在一些实施例，例如，字符的标签可以包括以下之一：第一标签，其指示该字符为关键短语的起始字符；第二标签，其指示该字符为关键短语中在起始字符之后的后续字符；以及第三标签，其指示该字符不属于关键短语。在一些实施例中，模型应用装置121可以将由第一标签标识的起始字符和由第二标签标识的后续字符的集合识别为关键短语。

通过以上描述能够看出，本公开的实施例提出了一种用于识别音频中的关键短语的方案。该方案利用经自然语言处理的训练样本和经人工序列标注的训练样本两者来训练关键短语识别模型。该方案将待识别的音频数据转换成对应的文本，并且利用经训练的关键短语识别模型来识别文本中的关键词或关键短语。以此方式，该方案能够准确且高效地理解音频数据的内容并提取其中的关键信息。因此，该方案能够被广泛地应用于各种有声应用或音频检索***中。

图4示出了根据本公开实施例的用于训练关键短语识别模型的装置400的示意性框图。如图4所示，装置400可以包括第一获取模块410，其被配置为获取第一训练数据，其中第一训练数据标识第一训练文本中的词语的特征信息。装置400还可以包括第二获取模块420，其被配置为获取第二训练数据，其中第二训练数据标识第二训练文本中的关键短语。此外，装置400还可以包括模型训练模块430，其被配置为基于第一训练数据和第二训练数据来训练关键短语识别模型，以用于识别音频数据中的关键短语。

在一些实施例中，第一获取模块410包括：第一获取单元，被配置为获取第一训练文本；以及第一预处理单元，被配置为通过对第一训练文本进行预处理来生成第一训练数据。

在一些实施例中，第一获取单元还被配置为：获取用于训练关键短语识别模型的第一音频样本；以及利用语音识别技术将第一音频样本转换成第一训练文本。

在一些实施例中，第一预处理单元还被配置为：将第一训练文本拆分成至少一个句子；以及利用自然语言处理技术来确定至少一个句子中的词语的特征信息。

在一些实施例中，特征信息包括该词语的文本、词性、语义和语法信息中的至少一项。

在一些实施例中，第二获取模块420包括：第二获取单元，被配置为获取第二训练文本；以及第二预处理单元，被配置为通过对第二训练文本进行预处理来生成第二训练数据。

在一些实施例中，第二获取单元还被配置为：获取用于训练关键短语识别模型的第二音频样本；以及利用语音识别技术将第二音频样本转换成第二训练文本。

在一些实施例中，第二预处理单元还被配置为：将第二训练文本拆分成至少一个句子；以及利用多个标签来标识至少一个句子中的关键短语。

在一些实施例中，第二预处理单元还被配置为：利用第一标签来标识关键短语的起始字符；利用第二标签来标识关键短语的后续字符，该后续字符在起始字符之后；以及利用第三标签来标识至少一个句子中不属于关键短语的字符。

图5示出了根据本公开实施例的用于识别音频中的关键短语的装置500的示意性框图。如图5所示，装置500可以包括音频获取模块510，其被配置为获取待识别的音频数据。装置500还可以包括识别模块520，其被配置为利用经训练的关键短语识别模型来识别音频数据中的关键短语。其中，关键短语识别模型基于第一训练数据和第二训练数据而被训练，第一训练数据标识第一训练文本中的词语的特征信息并且第二训练数据标识第二训练文本中的关键短语。

在一些实施例中，识别模块520包括：数据转换单元，被配置为利用语音识别技术将音频数据转换成与该音频数据相对应的文本；文本拆分单元，被配置为将该文本拆分成至少一个句子；标签确定单元，被配置为利用关键短语识别模型来确定至少一个句子中的字符的相应标签；以及识别单元，被配置为基于相应标签来识别音频数据中的关键短语。

在一些实施例中，相应标签包括以下之一：第一标签，其指示该字符为关键短语的起始字符；第二标签，其指示该字符为关键短语的后续字符，其中后续字符在起始字符之后；以及第三标签，其指示该字符不属于关键短语。

在一些实施例中，识别单元还被配置为：将由第一标签标识的起始字符和由第二标签标识的后续字符的集合识别为关键短语。

图6示出了可以用来实施本公开的实施例的示例设备600的示意性框图。设备600可以用于实现如图1所述的模型训练装置111和/或模型应用装置121。如图所示，设备600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的计算机程序指令或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序指令，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。CPU 601、ROM602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元601执行上文所描述的各个方法和处理，例如方法400和/或500。例如，在一些实施例中，方法400和/或500可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由CPU601执行时，可以执行上文描述的方法400和/或500的一个或多个步骤。备选地，在其他实施例中，CPU 601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法400和/或500。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于训练关键短语识别模型的方法，包括：

获取第一训练数据，所述第一训练数据标识第一训练文本中的词语的特征信息；

获取第二训练数据，所述第二训练数据标识第二训练文本中的关键短语；以及

基于所述第一训练数据和所述第二训练数据来训练关键短语识别模型，以用于识别音频数据中的关键短语。

2.根据权利要求1所述的方法，其中获取第一训练数据包括：

获取所述第一训练文本；以及

通过对所述第一训练文本进行预处理来生成所述第一训练数据。

3.根据权利要求2所述的方法，其中获取所述第一训练文本包括：

获取用于训练所述关键短语识别模型的第一音频样本；以及

利用语音识别技术将所述第一音频样本转换成所述第一训练文本。

4.根据权利要求2所述的方法，其中对所述第一训练文本进行预处理包括：

将所述第一训练文本拆分成至少一个句子；以及

利用自然语言处理技术来确定所述至少一个句子中的所述词语的所述特征信息。

5.根据权利要求4所述的方法，其中所述特征信息包括所述词语的文本、词性、语义和语法信息中的至少一项。

6.根据权利要求1所述的方法，其中获取所述第二训练数据包括：

获取所述第二训练文本；以及

通过对所述第二训练文本进行预处理来生成所述第二训练数据。

7.根据权利要求6所述的方法，其中获取所述第二训练文本包括：

获取用于训练所述关键短语识别模型的第二音频样本；以及

利用语音识别技术将所述第二音频样本转换成所述第二训练文本。

8.根据权利要求6所述的方法，其中对所述第二训练文本进行预处理包括：

将所述第二训练文本拆分成至少一个句子；以及

利用多个标签来标识所述至少一个句子中的所述关键短语。

9.根据权利要求8所述的方法，其中利用多个标签来标识所述至少一个句子中的所述关键短语包括：

利用第一标签来标识所述关键短语的起始字符；

利用第二标签来标识所述关键短语的后续字符，所述后续字符在所述起始字符之后；以及

利用第三标签来标识所述至少一个句子中不属于所述关键短语的字符。

10.一种用于识别音频中的关键短语的方法，包括：

获取待识别的音频数据；以及

利用经训练的关键短语识别模型来识别所述音频数据中的关键短语，其中所述关键短语识别模型基于第一训练数据和第二训练数据而被训练，所述第一训练数据标识第一训练文本中的词语的特征信息并且所述第二训练数据标识第二训练文本中的关键短语。

11.根据权利要求10所述的方法，其中识别所述音频数据中的关键短语包括：

利用语音识别技术将所述音频数据转换成与所述音频数据相对应的文本；

将所述文本拆分成至少一个句子；

利用所述关键短语识别模型来确定所述至少一个句子中的字符的相应标签；以及

基于所述相应标签来识别所述音频数据中的关键短语。

12.根据权利要求11所述的方法，其中所述相应标签包括以下之一：

第一标签，其指示所述字符为所述关键短语的起始字符；

第二标签，其指示所述字符为所述关键短语的后续字符，其中所述后续字符在所述起始字符之后；以及

第三标签，其指示所述字符不属于所述关键短语。

13.根据权利要求12所述的方法，其中基于所述相应标签来识别所述音频数据中的关键短语包括：

将由所述第一标签标识的所述起始字符和由所述第二标签标识的所述后续字符的集合识别为所述关键短语。

14.一种用于训练关键短语识别模型的装置，包括：

第一获取模块，被配置为获取第一训练数据，所述第一训练数据标识第一训练文本中的词语的特征信息；

第二获取模块，被配置为获取第二训练数据，所述第二训练数据标识第二训练文本中的关键短语；以及

模型训练模块，被配置为基于所述第一训练数据和所述第二训练数据来训练关键短语识别模型，以用于识别音频数据中的关键短语。

15.根据权利要求14所述的装置，其中所述第一获取模块包括：

第一获取单元，被配置为获取所述第一训练文本；以及

第一预处理单元，被配置为通过对所述第一训练文本进行预处理来生成所述第一训练数据。

16.根据权利要求15所述的装置，其中所述第一获取单元还被配置为：

获取用于训练所述关键短语识别模型的第一音频样本；以及

17.根据权利要求15所述的装置，其中所述第一预处理单元还被配置为：

将所述第一训练文本拆分成至少一个句子；以及

18.根据权利要求17所述的装置，其中所述特征信息包括所述词语的文本、词性、语义和语法信息中的至少一项。

19.根据权利要求14所述的装置，其中所述第二获取模块包括：

第二获取单元，被配置为获取所述第二训练文本；以及

第二预处理单元，被配置为通过对所述第二训练文本进行预处理来生成所述第二训练数据。

20.根据权利要求19所述的装置，其中所述第二获取单元还被配置为：

获取用于训练所述关键短语识别模型的第二音频样本；以及

21.根据权利要求19所述的装置，其中所述第二预处理单元还被配置为：

将所述第二训练文本拆分成至少一个句子；以及

利用多个标签来标识所述至少一个句子中的所述关键短语。

22.根据权利要求21所述的装置，其中所述第二预处理单元还被配置为：

利用第一标签来标识所述关键短语的起始字符；

23.一种用于识别音频中的关键短语的装置，包括：

音频获取模块，被配置为获取待识别的音频数据；以及

识别模块，被配置为利用经训练的关键短语识别模型来识别所述音频数据中的关键短语，其中所述关键短语识别模型基于第一训练数据和第二训练数据而被训练，所述第一训练数据标识第一训练文本中的词语的特征信息并且所述第二训练数据标识第二训练文本中的关键短语。

24.根据权利要求23所述的装置，其中所述识别模块包括：

数据转换单元，被配置为利用语音识别技术将所述音频数据转换成与所述音频数据相对应的文本；

文本拆分单元，被配置为将所述文本拆分成至少一个句子；

标签确定单元，被配置为利用所述关键短语识别模型来确定所述至少一个句子中的字符的相应标签；以及

识别单元，被配置为基于所述相应标签来识别所述音频数据中的关键短语。

25.根据权利要求24所述的装置，其中所述相应标签包括以下之一：

第一标签，其指示所述字符为所述关键短语的起始字符；

第三标签，其指示所述字符不属于所述关键短语。

26.根据权利要求25所述的装置，其中所述识别单元还被配置为：

27.一种电子设备，包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1-9中任一项所述的方法。

28.一种电子设备，包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求10-13中任一项所述的方法。

29.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。

30.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现根据权利要求10-13中任一项所述的方法。