CN112597340A

CN112597340A - 一种对垂直领域短视频asr文本关键词的抽取方法、计算机设备及可读存储介质

Info

Publication number: CN112597340A
Application number: CN202011537896.9A
Authority: CN
Inventors: 王磊; 黄颖骅
Original assignee: Hangzhou Aigeng Technology Co ltd
Current assignee: Changshu Zhiyi Technology Co.,Ltd.
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-04-02
Anticipated expiration: 2040-12-23
Also published as: CN112597340B

Abstract

本发明公开了一种对垂直领域短视频ASR文本关键词的抽取方法、计算机设备及可读存储介质，本发明能够对短视频口语化文本进行纠错，在短视频口语化文本上定义关键词类型，结合领域词表，专家***的特殊类型关键词抽取模型和基于深度学习的关键词抽取模型共同抽取关键词，并对最终结果做后处理进行筛选。本发明的提取方法不仅优化了口语化文本自身的准确性，提高关键词抽取的召回率，而且丰富了关键词的抽取类型，并结合后处理做到了关键词抽取的可控性。

Description

一种对垂直领域短视频ASR文本关键词的抽取方法、计算机设备及可读存储介质

技术领域

本发明具体涉及一种对垂直领域短视频ASR文本关键词的抽取方法、计算机设备及可读存储介质。

背景技术

针对特定领域关键词抽取的问题，目前主要有以下几种方法：

(1)基于领域词表，通过文本硬匹配方式进行相关领域关键词抽取。

(2)基于无监督方式的抽取方式，例如TF-IDF，TextRank等。

现有技术中，对特定领域关键词的抽取方法存在以下缺点：

(1)基于领域词表的抽取方式，需要耗费大量人力整理相关特定领域词表，且针对部分领域还需专业人员参与，成本很大。同时该方式抽取关键词召回偏低，换一个领域该词表就不适用。

(2)基于无监督方式的抽取方案，该类方法根据统计信息，如词频来计算得到文档中词语的权重，按权重值排序提取关键词。此类方法简单易行，但未考虑该词在整个文本中的语意。

(3)由于ASR(语音识别Automatic Speech Recognition)文本天然存在不通顺、错字、口语化严重等问题，关键词抽取结果精度偏低。

发明内容

针对上述情况，为克服现有技术的缺陷，本发明提供一种对垂直领域短视频ASR文本关键词的抽取方法、计算机设备及可读存储介质。

为了实现上述目的，本发明提供以下技术方案：

一种对垂直领域短视频ASR文本关键词的抽取方法，包括以下步骤：

(1)对待处理短视频进行处理获取ASR文本；

(2)对步骤(1)得到的ASR文本进行文本纠错，获得纠错后的ASR文本；

(3)基于领域关键词表，对步骤(2)得到的ASR文本抽取专有名词；

(4)基于专家***的特殊类型关键词抽取模型，对步骤(2)得到的ASR文本抽取特殊类型的关键词；

(5)基于关键词抽取模型，对步骤(2)得到的ASR文本抽取相应的关键词；

(6)对步骤(3)-(5)获取的关键词做合并去重、重要度排序后处理，得到最终的抽取结果。

进一步地，数据集建立与模型训练包括以下步骤：

(1.1)搜集垂直领域的相关短视频素材，调用语音转文本模块得到原始ASR文本；

(1.2)调用文本纠错模块对原始ASR文本进行纠错处理，得到待标注ASR文本；

(1.3)根据垂直领域专家的意见，总结待抽取关键词类型，对每一段ASR文本进行标注，构建ASR关键词抽取训练语料；

(1.4)使用TensorFlow框架搭建网络结构和模型训练测试代码，使用(1.3)中的训练语料训练基于深度学习的关键词抽取模型；

(1.5)结合垂直领域结构化数据和垂直领域专家的整理，构建该领域的专有名词词表；

(1.6)根据垂直领域专家整理的规则，针对特殊类型关键词，构建基于专家***的特殊类型关键词抽取模型。

进一步地，步骤(1.5)中，关键词抽取模型为标准的序列标注模型，网络结构为Bert+Crf结构。

进一步地，步骤(1.5)中，模型训练参数设置为batch_size为32，learning rate为1e-5，max sentence len为128，epoches为20，max training step为200000。

进一步地，步骤(1.4)中，采用BIO形式标注。

进一步地，步骤(6)中，去重时，由于抽取词会有交叠和覆盖的情况，会保留较长文本。

进一步地，步骤(6)中，重要度排序时，优先统计关键词被抽取到的次数，关键词抽取次数为所有子串抽取的次数；抽取次数相同的关键词则按抽取方式排序，排序优先级由高到低分别为基于领域关键词表抽取、基于专家***的特殊类型关键词抽取、基于深度学习的关键词抽取模型抽取。

一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器在执行所述计算机程序时能够实现如上所述的ASR文本关键词的抽取方法中的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时能够实现如上所述的ASR文本关键词的抽取方法中的步骤。

本发明的有益效果是：

(1)本发明能够对短视频口语化文本进行纠错，在短视频口语化文本上定义关键词类型，结合领域词表，专家***的特殊类型关键词抽取模型和基于深度学习的关键词抽取模型共同抽取关键词，并对最终结果做后处理进行筛选。本发明的提取方法不仅优化了口语化文本自身的准确性，而且丰富了关键词的抽取类型，并结合后处理做到了关键词抽取的可控性。

(2)本发明针对垂直领域短视频ASR文本关键词进行不同类型关键词抽取优化，针对ASR文本易错，偏口语化的特点，做了文本纠错和训练语料风格的调整。

(3)本发明基于领域词表的专有名词抽取，可以保证重要专有名词的抽取，提高关键词抽取的召回率。

(4)本发明基于专家***的抽取可以用添加规则的方式确保特殊类型关键词的抽取，满足不同业务需求，提高抽取召回率，并保证关键词类型多样化。

(5)本发明采用深度学习模型抽取模型可以在对整句文本的语意理解的基础上进行关键词抽取，提升整体抽取的召回率。

(6)本发明的关键词抽取方法可以方便快速地迁移到不同的垂直领域。

附图说明

图1是本发明对垂直领域短视频ASR文本关键词的抽取流程示意图。

图2是本发明的计算机设备的示意图。

具体实施方式

以下结合附图对本发明的技术方案做进一步详细说明，应当指出的是，具体实施方式只是对本发明的详细说明，不应视为对本发明的限定。

实施例1

如图1所示，以电商领域带货视频为例，针对垂直领域ASR文本关键词的抽取方法，包括以下步骤：

(1)对待处理短视频进行处理获取ASR文本；本实施例中，垂直领域为电商领域，采用的待处理短视频为电商领域带货的一个原始视频。

调用科大讯飞或者阿里云等开放的语音转文本API，将步骤(1)中的语音转换为文本，此时得到的文本为：“皮料采用的是投层牛皮，而且鞋面做了一个烫转的设计，特别好看”。

(2)将步骤(1)中得到的ASR文本进行纠错，比如“投层牛皮”中“投”是个错字，而“烫转”应为“烫钻”，上述文本经过领域词表纠错和纠错模型纠错处理后可以得到最终的准确文本，“皮料采用的是头层牛皮，而且鞋面做了一个烫钻的设计，特别好看”。本实施例中，采用的领域词表和纠错模型是现有技术中通用方法，本发明不对该纠错方法进行改进。

(3)基于领域关键词表，对步骤(2)中得到的文本抽取专有名词，在本实施例中，“烫钻”是鞋类衣物的特殊工艺，在工艺关键词表中可以匹配抽出。

(4)基于专家***的特殊类型关键词抽取模型，对步骤(2)中得到的文本抽取特殊类型的关键词。专家***主要是业务专家整理的一些抽取规则，在文本中，“特别好看”命中程度副词+形容词的抽取规则，会被抽取。

(5)基于深度学习关键词抽取模型，对步骤(2)中得到的文本抽取相应的关键词。关键词抽取模型是基于BIO形式标注的语料训练的序列标注模型，对于步骤(2)中文本，其序列标注结果为：“O O O O O O B I I I O O O B I O O O O B I I I O O O O”，取出B和I位置对应的词，分别为“头层牛皮”，“鞋面”，“烫钻的设计”。

(6)对步骤(3)～步骤(5)中获取的关键词做合并去重、重要度排序后处理，得到最终的关键词抽取结果。

在去重方面，由于抽取词会有交叠和覆盖的情况，会选择较长文本，如“烫钻的设计”和“烫钻”是重叠的情况，最后会保留“烫钻的设计”。

在重要度排序方面，优先统计关键词被抽取到的次数，关键词抽取次数为所有子串抽取的次数，“烫钻”为“烫钻的设计”的子串，那么“烫钻的设计”的抽取次数为2。抽取次数相同的关键词则按抽取方式排序，排序优先级由高到低分别为基于领域关键词表抽取、基于专家***的特殊类型关键词抽取、基于深度学习的关键词抽取模型抽取。

在一些优选的方式中，关键词抽取模型的构建包括数据集建立与模型训练，

所述数据集建立与模型训练包括以下步骤：

本实施例中，垂直领域为电商领域，从外部数据源获取电商带货原始视频集，并抽取出音频，调用科大讯飞或者阿里云等开放的语音转文本API得到原始ASR文本；

(1.2)调用文本纠错***对原始ASR文本进行纠错处理，得到待标注ASR文本；

本实施例中，调用外部智能纠错***，如哈工大飞鹰文本纠错***，对步骤(1.1)中得到的原始ASR文本进行纠错，减小ASR识别错字的影响。

(1.3)根据垂直领域专家的意见，总结待抽取关键词类型，本实施例中，电商场景下，关键词类型有：商品属性词，价格优惠词，评价感受，倒计时等类型。

(1.4)对每一段ASR文本进行人工标注，构建ASR文本关键词抽取训练集语料和测试集语料；标注形式采用BIO形式，如“皮料采用的是头层牛皮”中“头层牛皮”是商品属性词，会被标注为“O O O O O O B I I I”；

(1.5)使用TensorFlow框架搭建网络结构和模型训练测试代码，使用步骤(1.4)中的训练语料训练基于深度学习的关键词抽取模型；本实施例中，未对Tensorflow框架做改进，模型训练也可以使用其他深度学习框架实现，例如Pytorch。

本实施例中，训练模型为标准的序列标注模型，具体的网络结构为Bert+CRF结构，本发明未对Bert和CRF进行改进。

训练过程中，对于单条训练样本，其输入为按字切分的句子，输出为BIO标签。具体的，以步骤(1.4)标注的样本为例，其输入为“皮料采用的是头层牛皮”，输出为“O O O O OO B I I I”。

假定有数据量为n的一组已标注数据

i表示已标注数据中的第i个，xⁱ，yⁱ表示第i组已标注数据，对其中任意一条长度为m的样本，输入序列可以表示为

输出序列可以表示为

则序列标注模型可以表示为一组条件概率分布模型，即

其中θ为要学习的模型超参数，xⁱ为模型输入，yⁱ为模型输出，y′为可能输出的标签。Score为在当前输入输出下的概率评分，具体的可以表示为：

ψ_emit和ψ_trans均为θ相关的函数。

模型训练的优化目标在于找到一组参数θ，使得

其中，θ^*表示求得的参数，1≤i≤n。

则模型训练的优化目标函数可以表示为

更新模型参数的公式为：

其中，

为梯度算子，t表示对参数的第t次更新，θ_t表示经过t次更新后的模型参数，θ_t+1表示经过t+1次更新后的模型参数，α表示学习率，用来控制每次参数更新的幅度。

一般，很难找到目标函数精确的极小值对应的模型参数θ，因此只需要找到目标函数L(θ)的极小值的近似值即可。

在实际操作中，可以设定阈值ε或最大训练步数max training step，当参数更新后L(θ)的变化值小于ε或模型训练达到最大步数后，模型训练停止。

在本实施示例中，模型训练参数设置为batch size为32，learning rate为1e-5，max sentence len为128，epoches为20，max training step为200000。

在一些优选的方式中，步骤(3)中，结合垂直领域结构化数据和垂直领域专家的整理，构建该领域的专有名词词表(即领域关键词表)；

本实施例中，从电商详情页等半结构化数据中，整理颜色，品牌等属性的关键词表，并交由垂直领域专家进行人工标注整理，构建该领域的专有名词词表。根据专有名词词表采用字符串匹配的方式，构建专有名词抽取***。

在一些优选的方式中，步骤(4)中，结合业务需求和领域知识，由垂直领域专家整理相应规则，针对特殊类型关键词，如价格、评价关键词等，采用规则匹配的方式，构建基于专家***的特殊类型关键词抽取模型。例：“特别好看”是评价关键词，它符合程度副词+形容词的抽取规则，会被抽取。

所述基于专家***的特殊类型关键词抽取模型可以直接根据专家整理的句法规则或依存句法分析树进行解析得到。句法规则或依存句法分析树是现有的通用工具，所述专家整理的句法规则指的是：上述的抽取规则(比如程度副词+形容词的抽取规则)。

实施例2，参照附图2。

在本实施例中，提供了一种计算机设备100，包括存储器102、处理器101及存储在存储器102上并可在处理器101上运行的计算机程序103，处理器101执行计算机程序103时能够实现上述实施例1所提供的ASR文本关键词抽取方法中的步骤。

实施例3

在本实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时能够实现上述各个实施例所提供的ASR文本关键词抽取方法中的步骤。

在本实施例中，所述计算机程序可以是实施例2中的计算机程序。

在本实施例中，所述计算机可读存储介质可以被实施例2中的计算机设备所运行。

本领域普通技术人员可以理解实现上述实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例的所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种对垂直领域短视频ASR文本关键词的抽取方法，其特征是，包括以下步骤：

(1)对待处理短视频进行处理获取ASR文本；

2.根据权利要求1所述的一种对垂直领域短视频ASR文本关键词的抽取方法，其特征是，关键词抽取模型的构建包括数据集建立与模型训练，所述数据集建立与模型训练包括以下步骤：

(1.3)根据垂直领域专家的意见，总结待抽取关键词类型，

(1.4)对每一段ASR文本进行标注，构建ASR关键词抽取训练集语料和测试集语料；

(1.5)使用TensorFlow框架搭建网络结构和模型训练测试代码，使用步骤(1.4)中的训练语料训练基于深度学习的关键词抽取模型。

3.根据权利要求2所述的一种对垂直领域短视频ASR文本关键词的抽取方法，其特征是，步骤(1.5)中，关键词抽取模型为标准的序列标注模型。

4.根据权利要求2所述的一种对垂直领域短视频ASR文本关键词的抽取方法，其特征是，步骤(1.5)中，模型训练参数设置为batch_size为32，learning rate为1e-5，maxsentence len为128，epoches为20，max training step为200000。

5.根据权利要求2所述的一种对垂直领域短视频ASR文本关键词的抽取方法，其特征是，步骤(1.4)中，采用BIO形式标注。

6.根据权利要求1所述的一种对垂直领域短视频ASR文本关键词的抽取方法，其特征是，步骤(6)中，去重时，由于抽取词会有交叠和覆盖的情况，保留较长文本。

7.根据权利要求1所述的一种对垂直领域短视频ASR文本关键词的抽取方法，其特征是，步骤(6)中，重要度排序时，优先统计关键词被抽取到的次数，关键词抽取次数为所有子串抽取的次数；抽取次数相同的关键词则按抽取方式排序，排序优先级由高到低分别为基于领域关键词表抽取、基于专家***的特殊类型关键词抽取、基于深度学习的关键词抽取模型抽取。

8.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器在执行所述计算机程序时能够实现如权利要求1-7中任一项所述的ASR文本关键词的抽取方法中的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时能够实现如权利要求1-7中任一项所述的ASR文本关键词的抽取方法中的步骤。