CN106897290A

CN106897290A - 一种建立关键词模型的方法及装置

Info

Publication number: CN106897290A
Application number: CN201510956045.0A
Authority: CN
Inventors: 邱志贤; 唐敏华; 孙佳伟; 顾伟; 束俞; 林嘉
Original assignee: China Mobile Group Shanghai Co Ltd
Current assignee: China Mobile Group Shanghai Co Ltd
Priority date: 2015-12-17
Filing date: 2015-12-17
Publication date: 2017-06-27
Anticipated expiration: 2035-12-17
Also published as: CN106897290B

Abstract

本发明公开了一种建立关键词模型的方法及装置，该方法包括通过获取语音文本数据和核心关键词，检索所述语音文本数据中所述核心关键词所在的文本语句，统计所述文本语句中设定范围内的词以及词的词频，对所述统计的词依据词的词频进行排序，将所述词频的排名大于排名阈值的词，确定辅助关键词，对所述核心关键词和所述辅助关键词进行逻辑关系组合，建立关键词模型。通过对核心关键词所在的文本语句中设定范围内的词的筛选，以及词的词频进行排序，可以获取辅助关键词，从而获取用于建立关键词模型的关键词，再将这些关键词进行逻辑组合，即可以建立关键词模型，提高了语义分析的效率和准确性。

Description

一种建立关键词模型的方法及装置

技术领域

本发明涉及业务支撑技术领域，尤其涉及一种建立关键词模型的方法及装置。

背景技术

随着移动通信数据挖掘技术应用的越来越广泛，客服中心存储的大量录音数据成了数据挖掘的重要研究方向，目前客服中心的录音数据已经进行文本化，并可以进行基于关键词的语义分析。

在进行基于关键词的语义分析时，需要先依赖人工经验确定关键词，再根据各关键词之间的逻辑关系，将关键词进行逻辑组合，形成语义分析模型。建立这种模型主要根据业务人员的经验进行的。

发明内容

本发明实施例提供一种建立关键词模型的方法及装置，用以解决现有技术中人工确定关键词的问题。

本发明实施例提供的一种建立关键词模型的方法，包括：

获取语音文本数据和核心关键词；

检索所述语音文本数据中所述核心关键词所在的文本语句，统计所述文本语句中设定范围内的词以及词的词频，所述设定范围内的词是指在所述文本语句中，位于所述核心关键词前后设定范围内的词；

对所述统计的词依据词的词频进行排序，将所述词频的排名大于排名阈值的词，确定辅助关键词；

对所述核心关键词和所述辅助关键词进行逻辑关系组合，建立关键词模型。

较佳地，在统计所述文本语句中设定范围内的词以及词的词频之后，还包括：

根据所述核心关键词所在文本语句的标点符号，确定所述核心关键词所在文本语句所表述的语气，将所述核心关键词所在文本语句所表述的语气确定为所述关键词模型所表述的语气；或

根据各所述核心关键词所在文本语句的标点符号，确定各所述核心关键词所在文本语句所表述的语气；针对每个所述核心关键词所在文本语句所表述的语气，根据所述核心关键词所在的文本语句所述表述的语气及其相邻的两个文本语句所述表述的语气，确定所述关键词模型所表述的语气。

较佳地，所述将词频排名大于排名阈值的词，确定辅助关键词，包括：

对所述统计的词进行领域分类，针对每个领域，将每个领域内词频排名大于排名阈值的词，确定为所述辅助关键词。

较佳地，所述对所述核心关键词和所述辅助关键词进行逻辑关系组合，包括：

将所述核心关键词和所述辅助关键词确定为模型关键词；

对所述模型关键词进行领域分类，将不同类的所述模型关键词之间的逻辑关系确定为逻辑关系与；

若同一类的所述模型关键词之间是同义词，则将所述同一类的所述模型关键词之间的逻辑关系确定为逻辑关系或；

若同一类的所述模型关键词之间不是同义词，则将所述同一类的所述模型关键词之间的逻辑关系确定为逻辑关系非。

较佳地，所述获取核心关键词，包括：

获取根据语音文本数据的业务类型确定的核心关键词；或

获取用户输入的核心关键词。

相应地，本发明实施例提供了一种建立关键词模型的装置，包括：

获取单元，用于获取语音文本数据和核心关键词；

统计单元，用于检索所述语音文本数据中所述核心关键词所在的文本语句，统计所述文本语句中设定范围内的词以及词的词频，所述设定范围内的词是指在所述文本语句中，位于所述核心关键词前后设定范围内的词；

确定单元，用于对所述统计的词依据词的词频进行排序，将所述词频的排名大于排名阈值的词，确定辅助关键词；

建立单元，用于对所述核心关键词和所述辅助关键词进行逻辑关系组合，建立关键词模型。

较佳地，所述统计单元还用于：

较佳地，所述确定单元具体用于：

较佳地，所述建立单元具体用于：

将所述核心关键词和所述辅助关键词确定为模型关键词；

较佳地，所述获取单元具体用于：

获取根据语音文本数据的业务类型确定的核心关键词；或

获取用户输入的核心关键词。

本发明实施例表明，通过获取语音文本数据和核心关键词，检索所述语音文本数据中所述核心关键词所在的文本语句，统计所述文本语句中设定范围内的词以及词的词频，所述设定范围内的词是指在所述文本语句中，位于所述核心关键词前后的词，对所述统计的词依据词的词频进行排序，将所述词频的排名大于排名阈值的词，确定辅助关键词，对所述核心关键词和所述辅助关键词进行逻辑关系组合，建立关键词模型。通过对核心关键词所在的文本语句中设定范围内的词的筛选，以及词的词频进行排序，可以获取辅助关键词，从而获取用于建立关键词模型的关键词，再将这些关键词进行逻辑组合，即可以建立关键词模型，提高了语义分析的效率和准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种建立关键词模型的方法的流程示意图；

图2为本发明实施例提供的一种建立关键词模型的装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本发明实施例中，语音文本数据是对语音进行识别后，文本化的数据，该数据可以进行语义分析。

图1示出了本发明实施例提供的一种建立关键词模型的流程，该流程可以由建立关键词模型的装置执行，该装置可以位于语义分析***中。

如图1所示，该流程具体包括：

步骤101，获取语音文本数据和核心关键词。

步骤102，检索所述语音文本数据中所述核心关键词所在的文本语句，统计所述文本语句中设定范围内的词以及词的词频。

步骤103，对所述统计的词依据词的词频进行排序，将所述词频的排名大于排名阈值的词，确定辅助关键词。

步骤104，对所述核心关键词和所述辅助关键词进行逻辑关系组合，建立关键词模型。

在步骤101中，核心关键词可以是获取的根据语言文本数据的业务类型确定的核心关键词，或者是获取用户输入的核心关键词。该语音文本数据是对音频

该核心关键词可以用于确定业务的具体内容。如语言文本数据的内容是GPRS套餐投诉，需要建立GPRS套餐投诉分析的关键词模型，该核心关键词可以是“GPRS”、“投诉”。还可以通过接口获取用户输入的核心关键词，如“88套餐”、“手机终端”。

在获取核心关键词时，也可以在已有核心关键词的基础上，对核心关键词进行扩展，可以是同义词或近义词。如，当确定核心关键词为“GPRS”之后，可以扩展核心关键词“上网”、“流量”等。

在步骤102中，在步骤101获取语音文本数据和核心关键词之后，检索该语言文本数据所在的文本语句，然后统计该文本语句中设定范围内的词以及词的词频，该词的词频是指词出现的次数、出现的频率。设定范围内的词是指在文本语句中，位于核心关键词前后设定范围内的词，即对核心关键词所在的文本语句的上下文进行检索。还可以设置距离核心关键词多少个词，对核心关键词之前的词的个数和核心关键词之后的词的个数进行统计。该设定范围可以依据经验进行设置。

举例来说，核心关键词为“数据”、“流量”、“上网”、“GPRS”，统计在核心关键词之前的5个词，之后的8个词，即可以得到如“投诉”在核心关键词之前出现了n次，在核心关键词之后出现了m次，n为正整数，m为正整数。还可以对语气词进行筛选驱除。

在统计了词以及词的词频之后，还可以根据核心关键词所在文本语句的标点符号，确定该核心关键词所在文本语句所表述的语气，就可以将该核心关键词所在文本语句所表述的语气确定为关键词模型所表述的语气。

或者是根据各核心关键词所在文本语句的标点符号，确定各核心关键词所在文本语句所表述的语气，然后针对每个所述核心关键词所在文本语句所表述的语气，根据该核心关键词所在的文本语句所表述的语气及其相邻的两个文本语句所表述的语气，确定关键词模型所表述的语气。

举例来说，“流量”所在的第k个文本语句的标点符号为问号，表达疑问语气，所在的第i个文本语句的标点符号为叹号，表达语气为气愤语气。k为正整数，i为正整数。或者是“流量”所在的文本语句表述的语气的基础上，根据其相邻两个文本语句所表述的语气为气愤语气，可以确定关键词模型所表述的语气为气愤语气。该关键词模型所述表述的语气可以在对语音进行语义分析时，分析语音中语句的表述的语气，以便工作人员针对语气强烈的信息进行处理。

在步骤103中，对统计的词按照词的词频进行排序，然后对统计的词进行领域分类，针对每个领域，将每个领域内词频排名大于排名阈值的词，确定为辅助关键词。该排名阈值可以依据经验进行设定，该辅助关键词用于进一步的限定文本语句，保证关键词所涵盖的领域较广泛。如在表达业务的词汇中，选择词频较高的5个词，表达态度的词汇中，选择词频较高的5个关键词。每个领域的排名阈值的设置可以相同，也可以不同，不同的领域统计的词频相差很小时，可以将排名阈值设置为相同。

同时，在统计到“投诉”一词出现的次数较多，则可以进一步的将“投诉”作为核心关键词，然后进行统计其设定范围内的词的词频。

在步骤104中，在得到核心关键词和辅助关键词之后，将核心关键词和辅助关键词确定为模型关键词，对该模型关键词进行分类。

在进行分类之后，将不同类的模型关键词之间的逻辑关系确定为逻辑关系与。

若同一类的模型关键词之间是同义词，则将同一类的模型关键词之间的逻辑关系确定为逻辑关系或，若同一类的模型关键词之间不是同义词，则将同一类的模型关键词之间的逻辑关系确定为逻辑关系非。

“+”符号可以代表“与”的逻辑关系，“│”符号可以代表“或”的逻辑关系。如，(“GPRS”+“数据”)|(“不对”|“乱扣”|“扣错”)。

上述实施例表明，通过获取语音文本数据和核心关键词，检索所述语音文本数据中所述核心关键词所在的文本语句，统计所述文本语句中设定范围内的词以及词的词频，所述设定范围内的词是指在所述文本语句中，位于所述核心关键词前后的词，对所述统计的词依据词的词频进行排序，将所述词频的排名大于排名阈值的词，确定辅助关键词，对所述核心关键词和所述辅助关键词进行逻辑关系组合，建立关键词模型。通过对核心关键词所在的文本语句中设定范围内的词的筛选，以及词的词频进行排序，可以获取辅助关键词，从而获取用于建立关键词模型的关键词，再将这些关键词进行逻辑组合，即可以建立关键词模型，提高了语义分析的效率和准确性。

基于相同的技术构思，图2示出了本发明实施例提供的一种建立关键词模型的装置，该装置可以执行建立关键词模型的流程。

如图2所示，该装置具体包括：

获取单元201，用于获取语音文本数据和核心关键词；

统计单元202，用于检索所述语音文本数据中所述核心关键词所在的文本语句，统计所述文本语句中设定范围内的词以及词的词频，所述设定范围内的词是指在所述文本语句中，位于所述核心关键词前后设定范围内的词；

确定单元203，用于对所述统计的词依据词的词频进行排序，将所述词频的排名大于排名阈值的词，确定辅助关键词；

建立单元204，用于对所述核心关键词和所述辅助关键词进行逻辑关系组合，建立关键词模型。

优选地，所述统计单元202还用于：

优选地，所述确定单元203具体用于：

优选地，所述建立单元204具体用于：

将所述核心关键词和所述辅助关键词确定为模型关键词；

优选地，所述获取单元201具体用于：

获取根据语音文本数据的业务类型确定的核心关键词；或

获取用户输入的核心关键词。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种建立关键词模型的方法，其特征在于，包括：

获取语音文本数据和核心关键词；

2.如权利要求1所述的方法，其特征在于，在统计所述文本语句中设定范围内的词以及词的词频之后，还包括：

根据各所述核心关键词所在文本语句的标点符号，确定各所述核心关键词所在文本语句所表述的语气；针对每个所述核心关键词所在文本语句所表述的语气，根据所述核心关键词所在的文本语句所表述的语气及其相邻的两个文本语句所表述的语气，确定所述关键词模型所表述的语气。

3.如权利要求1所述的方法，其特征在于，所述将词频排名大于排名阈值的词，确定辅助关键词，包括：

4.如权利要求1所述的方法，其特征在于，所述对所述核心关键词和所述辅助关键词进行逻辑关系组合，包括：

将所述核心关键词和所述辅助关键词确定为模型关键词；

对所述模型关键词进行分类，将不同类的所述模型关键词之间的逻辑关系确定为逻辑关系与；

5.如权利要求1至4任一项所述的方法，其特征在于，所述获取核心关键词，包括：

获取根据语音文本数据的业务类型确定的核心关键词；或

获取用户输入的核心关键词。

6.一种建立关键词模型的装置，其特征在于，包括：

获取单元，用于获取语音文本数据和核心关键词；

7.如权利要求6所述的装置，其特征在于，所述统计单元还用于：

8.如权利要求6所述的装置，其特征在于，所述确定单元具体用于：

9.如权利要求6所述的装置，其特征在于，所述建立单元具体用于：

将所述核心关键词和所述辅助关键词确定为模型关键词；

10.如权利要求6至9任一项所述的装置，其特征在于，所述获取单元具体用于：

获取根据语音文本数据的业务类型确定的核心关键词；或

获取用户输入的核心关键词。