CN105630976A

CN105630976A - 训练语料的获取方法和装置

Info

Publication number: CN105630976A
Application number: CN201510992677.2A
Authority: CN
Inventors: 马璇
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2015-12-24
Filing date: 2015-12-24
Publication date: 2016-06-01

Abstract

本发明实施例公开了一种训练语料的获取方法和装置，涉及互联网技术领域，其中，方法包括：获取通信运营商发送给用户的文本信息；通过预设过滤规则对所述文本信息的内容进行过滤，以得到过滤后的文本信息；利用第一正则表达式对过滤后的文本信息进行匹配，以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。本发明实施例可以提高训练语料的获取效率。

Description

训练语料的获取方法和装置

技术领域

本发明涉及互联网技术领域，尤其是一种训练语料的获取方法和装置。

背景技术

移动通信运营商为用户提供通信业务的查询功能，例如，用户可以通过短信、电话、客户端等多种方式进行查询，但是，上述几种方式均需要用户进行大量的操作，实时性较差，不能满足用户的要求。

随着互连网技术的发展，出现了很多在终端侧进行通信业务使用量的监测的技术，从而可以及时向用户报告。然而，在终端侧监测到的数据经常会出现与通信运营商的统计数据不一致，因此，现有的通信业务使用量的监控方法需要定期根据通信运营商的统计数据进行校准。

一种有效的校准方法是利用条件随机场(CRF)识别模型对截取到的运营商发给用户的短信进行识别，这种方法可以提高校准的精度。但是，条件随机场识别模型需要训练语料进行训练得到，而现有技术中训练语料均是通过人工的方式来获取，效率低下，影响运营效率。

发明内容

本发明实施例所要解决的一个技术问题是：提供一种训练语料的获取方法和装置，以提高训练语料的获取效率。

本发明实施例提供的一种训练语料的获取方法包括：获取通信运营商发送给用户的文本信息；通过预设过滤规则对所述文本信息的内容进行过滤，以得到过滤后的文本信息；利用第一正则表达式对过滤后的文本信息进行匹配，以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。

在基于本发明上述方法的另一个实施例中，还包括：利用第二正则表达式对所述短文本进行匹配，以提取出各业务的使用量名称作为第二训练语料。

在基于本发明上述方法的另一个实施例中，所述利用第一正则表达式对过滤后的文本信息进行匹配，以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料包括：将过滤后的文本信息拆分为多个短句，其中，每个短句中包含该业务类型的不同业务；利用每个业务对应的第一正则表达式对相应的短句进行匹配，以提取出包含该业务的使用情况信息的短文本作为第一训练语料。

在基于本发明上述方法的另一个实施例中，在利用第一正则表达式对过滤后的文本信息进行匹配之前，还包括：对过滤后的文本信息进行去重处理。

在基于本发明上述方法的另一个实施例中，所述利用第一正则表达式对过滤后的文本信息进行匹配，以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料包括：获取去重后的文本信息的重复率；利用第一正则表达式按照重复率的高低依次对去重后的文本信息进行匹配，以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。

在基于本发明上述方法的另一个实施例中，所述利用第一正则表达式对过滤后的文本信息进行匹配，以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料包括：获取去重后的文本信息的重复率，按照重复率的高低对文本信息进行排序；从排序后的文本信息中提取出重复率大于预设值的文本信息作为需要加强训练的文本信息；以多组随机数字替代需要加强训练的文本信息中的数字，以便将每个文本信息变为多个文本信息；利用第一正则表达式对所述多个文本信息进行匹配，以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。

在基于本发明上述方法的另一个实施例中，所述业务类型包括流量、短信、彩信、通话时长和话费中的一项或多项。

本发明实施例提供的一种训练语料的获取装置，包括：获取单元，用于获取通信运营商发送给用户的文本信息；过滤单元，用于通过预设过滤规则对所述文本信息的内容进行过滤，以得到过滤后的文本信息；第一匹配单元，用于利用第一正则表达式对过滤后的文本信息进行匹配，以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。

在基于本发明上述装置的另一个实施例中，还包括：第二匹配单元，用于利用第二正则表达式对所述短文本进行匹配，以提取出各业务的使用量名称作为第二训练语料。

在基于本发明上述装置的另一个实施例中，所述第一匹配单元包括：拆分模块，用于将过滤后的文本信息拆分为多个短句，其中，每个短句中包含所述业务类型的不同业务；匹配模块，用于利用每个业务对应的第一正则表达式对相应的短句进行匹配，以提取出包含该业务的使用情况信息的短文本作为第一训练语料。

基于本发明上述实施例提供的训练语料的获取方法和装置，在获取到通信运营商发送给用户的文本信息后，先对文本信息的内容进行过滤，然后通过正则表达式匹配出包含业务类型和该业务的使用情况信息的短文本作为训练语料，与现有技术人工获取训练语料的方式相比，大大提高了获取训练语料的效率，从而提高了运营效率。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1是本发明训练语料的获取方法一个实施例的流程图；

图2是本发明训练语料的获取方法另一个实施例的流程图；

图3是本发明训练语料的获取方法又一个实施例的流程图；

图4是本发明训练语料的获取装置一个实施例的框图；

图5是本发明训练语料的获取装置另一个实施例的框图；

图6是本发明训练语料的获取装置又一个实施例的框图；

图7是本发明训练语料的获取装置再一个实施例的框图；

图8是本发明训练语料的获取装置再一个实施例的框图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1是本发明训练语料的获取方法一个实施例的流程图。该实施例的方法可以由设置在服务器上的训练语料的获取装置来实施，如图1所示，该实施例的方法包括如下步骤：

步骤102，获取通信运营商发送给用户的文本信息。

通信运营商可以包括***、***和中国电信等，例如，当用户向***的10086、***的10010或中国电信的10000发送对应的通信业务查询代码后，通信运营商会向用户返回相应的文本信息，该文本信息可以是短信、彩信或其他形式的文本信息。

客户端可以监控并截取通信运营商向用户发送的文本信息，然后上传到服务器，从而使得服务器可以获取到通信运营商发送给用户的文本信息。该文本信息包括用户请求查询的业务类型和该业务类型的各业务的使用情况信息。通信运营商记录的各业务的使用情况信息是用于收费或结算的依据，该信息可以更准确地反映用户各业务的使用情况。

步骤104，通过预设过滤规则对文本信息的内容进行过滤，以得到过滤后的文本信息。

这里，预设过滤规则可以根据实际情况进行设定，以过滤掉文本信息中不需要的内容。例如，可以过滤掉某些数字、字母、以及诸如“尊敬的…”和“您的号码是…”等无用的信息，过滤后的文本信息基本只包括主干文本信息。以流量为例，过滤后的文本信息可以包括如下信息：“您的国内套餐总流量为300M，已使用流量为30M，剩余流量为270M；您的省内套餐总流量为100M，已使用流量为40M，剩余流量为60M”。

步骤106，利用第一正则表达式对过滤后的文本信息进行匹配，以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。

业务类型可以包括流量、短信、彩信、通话时长和话费中的一项或多项。对于流量来说，可能包括不同套餐类型，不同的套餐类型即为流量的不同业务。

作为一个非限制性实现方式，步骤106可以通过如下方式来实现：

首先，可以将过滤后的文本信息拆分为多个短句，其中，每个短句中包含该业务类型的不同的业务。例如，可以将业务类型为流量的文本信息拆分为第一个短句：“您的国内套餐总流量为300M，已使用流量为30M，剩余流量为270M”和第二个短句：“您的省内套餐总流量为100M，已使用流量为40M，剩余流量为60M”。

然后，利用每个业务对应的第一正则表达式对相应的短句进行匹配，以提取出包含业务类型和该业务类型的各业务使用情况信息的短文本。

不同的业务(例如国内套餐和省内套餐)对应不同的第一正则表达式，通过相应的第一正则表达式可以匹配出“您的国内套餐总流量为300M，已使用30M，剩余270M”和“您的省内套餐总流量为100M，已使用40M，剩余60M”作为第一训练语料。利用获取到的第一训练语料对条件随机场模型进行训练，然后利用生成的条件随机场模型可以提取出被标注业务类型的短文本。

本实施例在获取到通信运营商发送给用户的文本信息后，先对文本信息的内容进行过滤，然后通过正则表达式匹配出包含业务类型和该业务的使用情况信息的短文本作为训练语料，与现有技术人工获取训练语料的方式相比，大大提高了获取训练语料的效率，从而提高了运营效率。

图2是本发明训练语料的获取方法另一个实施例的流程图。与图1所示实施例相比，该实施例的方法还可以包括：

步骤202，利用第二正则表达式对短文本进行匹配，以提取出各业务的使用量名称作为第二训练语料。

对于短文本“您的国内套餐总流量为300M，已使用流量为30M，剩余流量为270M”来说，通过第二正则表达式可以匹配出国内套餐业务的三个使用量名称：总流量、已使用流量和剩余流量。

将各业务的使用量名称作为第二训练语料对条件随机场模型进行训练，然后利用生成的条件随机场模型可以得到各业务的使用量名称对应的数值，例如300、30和270。利用得到的数值可以对用户使用的流量、短信等进行校准。

本实施例一方面利用第一正则表达式可以快速获取第一训练语料；另一方面，利用第二正则表达式可以快速获取第二训练语料，从而为条件随机场模型提供了所需的训练语料，提高了运营效率。

图3是本发明训练语料的获取方法又一个实施例的流程图。如图3所示，该实施例的方法包括：

步骤102，获取通信运营商发送给用户的文本信息。

步骤302，对过滤后的文本信息进行去重处理。

例如，可以采用哈希算法对过滤后的文本信息进行去重处理，然而，本发明并不限于此，也可以采用其他算法进行去重处理。去重处理后会使得文本消息的数量大大下降，例如从几千万变为几十万，从而在后续正则匹配时可以进一步提高训练语料的获取效率。

在一个具体实现方式中，步骤106可以通过如下方式来实现：获取去重后的文本信息的重复率。利用第一正则表达式按照重复率的高低依次对去重后的文本信息进行匹配，以提取出包含业务类型和各业务的使用情况信息的短文本作为第一训练语料。优先对重复率的高的文本信息进行匹配，可以更进一步提高训练语料的获取效率。

在另一个具体实现方式中，步骤106可以通过如下方式来实现：

首先，获取去重后的文本信息的重复率，按照重复率的高低对文本信息进行排序，例如升序或降序排列。

然后，从排序后的文本信息中提取出重复率大于预设值的文本信息作为需要加强训练的文本信息。此外，还可以将之前通过第一正则表达式匹配后确认正确的文本信息作为需要加强训练的文本信息。

之后，以多组随机数字替代需要加强训练的文本信息中的数字，以便将每个文本信息变为多个文本信息。这里，多个文本信息中只有数字不同，其他内容是相同的。

最后，利用第一正则表达式对多个文本信息进行匹配，以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。后续条件随机场模型会对这些训练语料加强训练。

本实施例中的步骤102和步骤104可以参见图1所示实施例的描述，在此不再赘述。

本实施例一方面，在利用第一正则表达式对文本信息进行匹配之前先进行去重处理，从而可以进一步提高训练语料的获取效率；另一方面，在在利用第一正则表达式对文本信息进行匹配时，考虑了文本消息的去重率，可以更进一步提高训练语料的获取效率。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于装置实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图4是本发明训练语料的获取装置一个实施例的框图。该实施例的装置可以设置在服务器上，可用于实现本发明上述各方法实施例。如图4所示，该实施例的装置包括获取单元401、过滤单元402和第一匹配单元403，其中：

获取单元401，可以用于获取通信运营商发送给用户的文本信息；

过滤单元402，可以用于通过预设过滤规则对文本信息的内容进行过滤，以得到过滤后的文本信息；

第一匹配单元403，可以用于利用第一正则表达式对过滤后的文本信息进行匹配，以提取出包含业务类型和业务类型的各业务的使用情况信息的短文本作为第一训练语料。其中，业务类型包括流量、短信、彩信、通话时长和话费中的一项或多项。

本实施例提供的训练语料的获取装置，在获取到通信运营商发送给用户的文本信息后，先对文本信息的内容进行过滤，然后通过正则表达式匹配出包含业务类型和该业务的使用情况信息的短文本作为训练语料，与现有技术人工获取训练语料的方式相比，大大提高了获取训练语料的效率，从而提高了运营效率。

图5是本发明训练语料的获取装置另一个实施例的框图。如图5所示，该实施例的装置还可以包括：第二匹配单元501，用于利用第二正则表达式对短文本进行匹配，以提取出各业务的使用量名称作为第二训练语料。

图6是本发明训练语料的获取装置又一个实施例的框图。该实施例中的第一匹配单元403可以包括拆分模块413和匹配模块423，其中：拆分模块413用于将过滤后的文本信息拆分为多个短句，每个短句中包含业务类型的不同业务；匹配模块423用于利用每个业务对应的第一正则表达式对相应的短句进行匹配，以提取出包含该业务的使用情况信息的短文本作为第一训练语料。

图7是本发明训练语料的获取装置再一个实施例的框图。该实施例的装置与图4所示实施例相比还可以包括：去重单元701，用于对过滤后的文本信息进行去重处理。

进一步地，该实施例中的第一匹配单元403可以包括：重复率获取模块713和匹配模块723，其中：复率获取模块713用于获取去重后的文本信息的重复率；匹配模块723用于利用第一正则表达式按照重复率的高低依次对去重后的文本信息进行匹配，以提取出包含业务类型和业务类型的各业务的使用情况信息的短文本作为第一训练语料。

图8是本发明训练语料的获取装置还一个实施例的框图。该实施例的装置与图4所示实施例相比还可以包括：去重单元701，用于对过滤后的文本信息进行去重处理。

进一步地，该实施例中的第一匹配单元403可以包括：排序模块813，用于获取去重后的文本信息的重复率，按照重复率的高低对文本信息进行排序；提取模块823，用于从排序后的文本信息中提取出重复率大于预设值的文本信息作为需要加强训练的文本信息；替代模块833，用于以多组随机数字替代需要加强训练的文本信息中的数字，以便将每个文本信息变为多个文本信息；匹配模块843，用于利用第一正则表达式对所述多个文本信息进行匹配，以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。

本发明实施例提供了以下技术方案：

1、一种训练语料的获取方法，包括：

获取通信运营商发送给用户的文本信息；

通过预设过滤规则对所述文本信息的内容进行过滤，以得到过滤后的文本信息；

利用第一正则表达式对过滤后的文本信息进行匹配，以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。

2、根据1所述的方法，还包括：

利用第二正则表达式对所述短文本进行匹配，以提取出各业务的使用量名称作为第二训练语料。

3、根据1或2所述的方法，所述利用第一正则表达式对过滤后的文本信息进行匹配，以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料包括：

将过滤后的文本信息拆分为多个短句，其中，每个短句中包含该业务类型的不同业务；

利用每个业务对应的第一正则表达式对相应的短句进行匹配，以提取出包含该业务的使用情况信息的短文本作为第一训练语料。

4、根据1-3任意一项所述的方法，在利用第一正则表达式对过滤后的文本信息进行匹配之前，还包括：

对过滤后的文本信息进行去重处理。

5、根据4所述的方法，所述利用第一正则表达式对过滤后的文本信息进行匹配，以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料包括：

获取去重后的文本信息的重复率；

利用第一正则表达式按照重复率的高低依次对去重后的文本信息进行匹配，以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。

6、根据4所述的方法，所述利用第一正则表达式对过滤后的文本信息进行匹配，以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料包括：

获取去重后的文本信息的重复率，按照重复率的高低对文本信息进行排序；

从排序后的文本信息中提取出重复率大于预设值的文本信息作为需要加强训练的文本信息；

以多组随机数字替代需要加强训练的文本信息中的数字，以便将每个文本信息变为多个文本信息；

利用第一正则表达式对所述多个文本信息进行匹配，以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。

7、根据1-6任意一项所述的方法，所述业务类型包括流量、短信、彩信、通话时长和话费中的一项或多项。

8、一种训练语料的获取装置，包括：

获取单元，用于获取通信运营商发送给用户的文本信息；

过滤单元，用于通过预设过滤规则对所述文本信息的内容进行过滤，以得到过滤后的文本信息；

第一匹配单元，用于利用第一正则表达式对过滤后的文本信息进行匹配，以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。

9、根据8所述的装置，还包括：

第二匹配单元，用于利用第二正则表达式对所述短文本进行匹配，以提取出各业务的使用量名称作为第二训练语料。

10、根据8或9所述的装置，所述第一匹配单元包括：

拆分模块，用于将过滤后的文本信息拆分为多个短句，其中，每个短句中包含所述业务类型的不同业务；

匹配模块，用于利用每个业务对应的第一正则表达式对相应的短句进行匹配，以提取出包含该业务的使用情况信息的短文本作为第一训练语料。

11、根据8-10任意一项所述的装置，还包括：

去重单元，用于对过滤后的文本信息进行去重处理。

12、根据11所述的装置，所述第一匹配单元包括：

重复率获取模块，用于获取去重后的文本信息的重复率；

匹配模块，用于利用第一正则表达式按照重复率的高低依次对去重后的文本信息进行匹配，以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。

13、根据11所述的装置，所述第一匹配单元包括：

排序模块，用于获取去重后的文本信息的重复率，按照重复率的高低对文本信息进行排序；

提取模块，用于从排序后的文本信息中提取出重复率大于预设值的文本信息作为需要加强训练的文本信息；

替代模块，用于以多组随机数字替代需要加强训练的文本信息中的数字，以便将每个文本信息变为多个文本信息；

匹配模块，用于利用第一正则表达式对所述多个文本信息进行匹配，以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。

14、根据8-13任意一项所述的装置，所述业务类型包括流量、短信、彩信、通话时长和话费中的一项或多项。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

可能以许多方式来实现本发明的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种训练语料的获取方法，其特征在于，包括：

获取通信运营商发送给用户的文本信息；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述利用第一正则表达式对过滤后的文本信息进行匹配，以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料包括：

4.根据权利要求1-3任意一项所述的方法，其特征在于，在利用第一正则表达式对过滤后的文本信息进行匹配之前，还包括：

对过滤后的文本信息进行去重处理。

5.根据权利要求4所述的方法，其特征在于，所述利用第一正则表达式对过滤后的文本信息进行匹配，以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料包括：

获取去重后的文本信息的重复率；

6.根据权利要求4所述的方法，其特征在于，所述利用第一正则表达式对过滤后的文本信息进行匹配，以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料包括：

7.根据权利要求1-6任意一项所述的方法，其特征在于，所述业务类型包括流量、短信、彩信、通话时长和话费中的一项或多项。

8.一种训练语料的获取装置，其特征在于，包括：

获取单元，用于获取通信运营商发送给用户的文本信息；

9.根据权利要求8所述的装置，其特征在于，还包括：

10.根据权利要求8或9所述的装置，其特征在于，所述第一匹配单元包括：