CN105630976A - 训练语料的获取方法和装置 - Google Patents

训练语料的获取方法和装置 Download PDF

Info

Publication number
CN105630976A
CN105630976A CN201510992677.2A CN201510992677A CN105630976A CN 105630976 A CN105630976 A CN 105630976A CN 201510992677 A CN201510992677 A CN 201510992677A CN 105630976 A CN105630976 A CN 105630976A
Authority
CN
China
Prior art keywords
text information
business
corpus
text
regular expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510992677.2A
Other languages
English (en)
Inventor
马璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510992677.2A priority Critical patent/CN105630976A/zh
Publication of CN105630976A publication Critical patent/CN105630976A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种训练语料的获取方法和装置,涉及互联网技术领域,其中,方法包括:获取通信运营商发送给用户的文本信息;通过预设过滤规则对所述文本信息的内容进行过滤,以得到过滤后的文本信息;利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。本发明实施例可以提高训练语料的获取效率。

Description

训练语料的获取方法和装置
技术领域
本发明涉及互联网技术领域,尤其是一种训练语料的获取方法和装置。
背景技术
移动通信运营商为用户提供通信业务的查询功能,例如,用户可以通过短信、电话、客户端等多种方式进行查询,但是,上述几种方式均需要用户进行大量的操作,实时性较差,不能满足用户的要求。
随着互连网技术的发展,出现了很多在终端侧进行通信业务使用量的监测的技术,从而可以及时向用户报告。然而,在终端侧监测到的数据经常会出现与通信运营商的统计数据不一致,因此,现有的通信业务使用量的监控方法需要定期根据通信运营商的统计数据进行校准。
一种有效的校准方法是利用条件随机场(CRF)识别模型对截取到的运营商发给用户的短信进行识别,这种方法可以提高校准的精度。但是,条件随机场识别模型需要训练语料进行训练得到,而现有技术中训练语料均是通过人工的方式来获取,效率低下,影响运营效率。
发明内容
本发明实施例所要解决的一个技术问题是:提供一种训练语料的获取方法和装置,以提高训练语料的获取效率。
本发明实施例提供的一种训练语料的获取方法包括:获取通信运营商发送给用户的文本信息;通过预设过滤规则对所述文本信息的内容进行过滤,以得到过滤后的文本信息;利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。
在基于本发明上述方法的另一个实施例中,还包括:利用第二正则表达式对所述短文本进行匹配,以提取出各业务的使用量名称作为第二训练语料。
在基于本发明上述方法的另一个实施例中,所述利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料包括:将过滤后的文本信息拆分为多个短句,其中,每个短句中包含该业务类型的不同业务;利用每个业务对应的第一正则表达式对相应的短句进行匹配,以提取出包含该业务的使用情况信息的短文本作为第一训练语料。
在基于本发明上述方法的另一个实施例中,在利用第一正则表达式对过滤后的文本信息进行匹配之前,还包括:对过滤后的文本信息进行去重处理。
在基于本发明上述方法的另一个实施例中,所述利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料包括:获取去重后的文本信息的重复率;利用第一正则表达式按照重复率的高低依次对去重后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。
在基于本发明上述方法的另一个实施例中,所述利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料包括:获取去重后的文本信息的重复率,按照重复率的高低对文本信息进行排序;从排序后的文本信息中提取出重复率大于预设值的文本信息作为需要加强训练的文本信息;以多组随机数字替代需要加强训练的文本信息中的数字,以便将每个文本信息变为多个文本信息;利用第一正则表达式对所述多个文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。
在基于本发明上述方法的另一个实施例中,所述业务类型包括流量、短信、彩信、通话时长和话费中的一项或多项。
本发明实施例提供的一种训练语料的获取装置,包括:获取单元,用于获取通信运营商发送给用户的文本信息;过滤单元,用于通过预设过滤规则对所述文本信息的内容进行过滤,以得到过滤后的文本信息;第一匹配单元,用于利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。
在基于本发明上述装置的另一个实施例中,还包括:第二匹配单元,用于利用第二正则表达式对所述短文本进行匹配,以提取出各业务的使用量名称作为第二训练语料。
在基于本发明上述装置的另一个实施例中,所述第一匹配单元包括:拆分模块,用于将过滤后的文本信息拆分为多个短句,其中,每个短句中包含所述业务类型的不同业务;匹配模块,用于利用每个业务对应的第一正则表达式对相应的短句进行匹配,以提取出包含该业务的使用情况信息的短文本作为第一训练语料。
基于本发明上述实施例提供的训练语料的获取方法和装置,在获取到通信运营商发送给用户的文本信息后,先对文本信息的内容进行过滤,然后通过正则表达式匹配出包含业务类型和该业务的使用情况信息的短文本作为训练语料,与现有技术人工获取训练语料的方式相比,大大提高了获取训练语料的效率,从而提高了运营效率。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同描述一起用于解释本发明的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1是本发明训练语料的获取方法一个实施例的流程图;
图2是本发明训练语料的获取方法另一个实施例的流程图;
图3是本发明训练语料的获取方法又一个实施例的流程图;
图4是本发明训练语料的获取装置一个实施例的框图;
图5是本发明训练语料的获取装置另一个实施例的框图;
图6是本发明训练语料的获取装置又一个实施例的框图;
图7是本发明训练语料的获取装置再一个实施例的框图;
图8是本发明训练语料的获取装置再一个实施例的框图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1是本发明训练语料的获取方法一个实施例的流程图。该实施例的方法可以由设置在服务器上的训练语料的获取装置来实施,如图1所示,该实施例的方法包括如下步骤:
步骤102,获取通信运营商发送给用户的文本信息。
通信运营商可以包括***、***和中国电信等,例如,当用户向***的10086、***的10010或中国电信的10000发送对应的通信业务查询代码后,通信运营商会向用户返回相应的文本信息,该文本信息可以是短信、彩信或其他形式的文本信息。
客户端可以监控并截取通信运营商向用户发送的文本信息,然后上传到服务器,从而使得服务器可以获取到通信运营商发送给用户的文本信息。该文本信息包括用户请求查询的业务类型和该业务类型的各业务的使用情况信息。通信运营商记录的各业务的使用情况信息是用于收费或结算的依据,该信息可以更准确地反映用户各业务的使用情况。
步骤104,通过预设过滤规则对文本信息的内容进行过滤,以得到过滤后的文本信息。
这里,预设过滤规则可以根据实际情况进行设定,以过滤掉文本信息中不需要的内容。例如,可以过滤掉某些数字、字母、以及诸如“尊敬的…”和“您的号码是…”等无用的信息,过滤后的文本信息基本只包括主干文本信息。以流量为例,过滤后的文本信息可以包括如下信息:“您的国内套餐总流量为300M,已使用流量为30M,剩余流量为270M;您的省内套餐总流量为100M,已使用流量为40M,剩余流量为60M”。
步骤106,利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。
业务类型可以包括流量、短信、彩信、通话时长和话费中的一项或多项。对于流量来说,可能包括不同套餐类型,不同的套餐类型即为流量的不同业务。
作为一个非限制性实现方式,步骤106可以通过如下方式来实现:
首先,可以将过滤后的文本信息拆分为多个短句,其中,每个短句中包含该业务类型的不同的业务。例如,可以将业务类型为流量的文本信息拆分为第一个短句:“您的国内套餐总流量为300M,已使用流量为30M,剩余流量为270M”和第二个短句:“您的省内套餐总流量为100M,已使用流量为40M,剩余流量为60M”。
然后,利用每个业务对应的第一正则表达式对相应的短句进行匹配,以提取出包含业务类型和该业务类型的各业务使用情况信息的短文本。
不同的业务(例如国内套餐和省内套餐)对应不同的第一正则表达式,通过相应的第一正则表达式可以匹配出“您的国内套餐总流量为300M,已使用30M,剩余270M”和“您的省内套餐总流量为100M,已使用40M,剩余60M”作为第一训练语料。利用获取到的第一训练语料对条件随机场模型进行训练,然后利用生成的条件随机场模型可以提取出被标注业务类型的短文本。
本实施例在获取到通信运营商发送给用户的文本信息后,先对文本信息的内容进行过滤,然后通过正则表达式匹配出包含业务类型和该业务的使用情况信息的短文本作为训练语料,与现有技术人工获取训练语料的方式相比,大大提高了获取训练语料的效率,从而提高了运营效率。
图2是本发明训练语料的获取方法另一个实施例的流程图。与图1所示实施例相比,该实施例的方法还可以包括:
步骤202,利用第二正则表达式对短文本进行匹配,以提取出各业务的使用量名称作为第二训练语料。
对于短文本“您的国内套餐总流量为300M,已使用流量为30M,剩余流量为270M”来说,通过第二正则表达式可以匹配出国内套餐业务的三个使用量名称:总流量、已使用流量和剩余流量。
将各业务的使用量名称作为第二训练语料对条件随机场模型进行训练,然后利用生成的条件随机场模型可以得到各业务的使用量名称对应的数值,例如300、30和270。利用得到的数值可以对用户使用的流量、短信等进行校准。
本实施例一方面利用第一正则表达式可以快速获取第一训练语料;另一方面,利用第二正则表达式可以快速获取第二训练语料,从而为条件随机场模型提供了所需的训练语料,提高了运营效率。
图3是本发明训练语料的获取方法又一个实施例的流程图。如图3所示,该实施例的方法包括:
步骤102,获取通信运营商发送给用户的文本信息。
步骤104,通过预设过滤规则对文本信息的内容进行过滤,以得到过滤后的文本信息。
步骤302,对过滤后的文本信息进行去重处理。
例如,可以采用哈希算法对过滤后的文本信息进行去重处理,然而,本发明并不限于此,也可以采用其他算法进行去重处理。去重处理后会使得文本消息的数量大大下降,例如从几千万变为几十万,从而在后续正则匹配时可以进一步提高训练语料的获取效率。
步骤106,利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。
在一个具体实现方式中,步骤106可以通过如下方式来实现:获取去重后的文本信息的重复率。利用第一正则表达式按照重复率的高低依次对去重后的文本信息进行匹配,以提取出包含业务类型和各业务的使用情况信息的短文本作为第一训练语料。优先对重复率的高的文本信息进行匹配,可以更进一步提高训练语料的获取效率。
在另一个具体实现方式中,步骤106可以通过如下方式来实现:
首先,获取去重后的文本信息的重复率,按照重复率的高低对文本信息进行排序,例如升序或降序排列。
然后,从排序后的文本信息中提取出重复率大于预设值的文本信息作为需要加强训练的文本信息。此外,还可以将之前通过第一正则表达式匹配后确认正确的文本信息作为需要加强训练的文本信息。
之后,以多组随机数字替代需要加强训练的文本信息中的数字,以便将每个文本信息变为多个文本信息。这里,多个文本信息中只有数字不同,其他内容是相同的。
最后,利用第一正则表达式对多个文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。后续条件随机场模型会对这些训练语料加强训练。
本实施例中的步骤102和步骤104可以参见图1所示实施例的描述,在此不再赘述。
本实施例一方面,在利用第一正则表达式对文本信息进行匹配之前先进行去重处理,从而可以进一步提高训练语料的获取效率;另一方面,在在利用第一正则表达式对文本信息进行匹配时,考虑了文本消息的去重率,可以更进一步提高训练语料的获取效率。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于装置实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
图4是本发明训练语料的获取装置一个实施例的框图。该实施例的装置可以设置在服务器上,可用于实现本发明上述各方法实施例。如图4所示,该实施例的装置包括获取单元401、过滤单元402和第一匹配单元403,其中:
获取单元401,可以用于获取通信运营商发送给用户的文本信息;
过滤单元402,可以用于通过预设过滤规则对文本信息的内容进行过滤,以得到过滤后的文本信息;
第一匹配单元403,可以用于利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含业务类型和业务类型的各业务的使用情况信息的短文本作为第一训练语料。其中,业务类型包括流量、短信、彩信、通话时长和话费中的一项或多项。
本实施例提供的训练语料的获取装置,在获取到通信运营商发送给用户的文本信息后,先对文本信息的内容进行过滤,然后通过正则表达式匹配出包含业务类型和该业务的使用情况信息的短文本作为训练语料,与现有技术人工获取训练语料的方式相比,大大提高了获取训练语料的效率,从而提高了运营效率。
图5是本发明训练语料的获取装置另一个实施例的框图。如图5所示,该实施例的装置还可以包括:第二匹配单元501,用于利用第二正则表达式对短文本进行匹配,以提取出各业务的使用量名称作为第二训练语料。
本实施例一方面,在利用第一正则表达式对文本信息进行匹配之前先进行去重处理,从而可以进一步提高训练语料的获取效率;另一方面,在在利用第一正则表达式对文本信息进行匹配时,考虑了文本消息的去重率,可以更进一步提高训练语料的获取效率。
图6是本发明训练语料的获取装置又一个实施例的框图。该实施例中的第一匹配单元403可以包括拆分模块413和匹配模块423,其中:拆分模块413用于将过滤后的文本信息拆分为多个短句,每个短句中包含业务类型的不同业务;匹配模块423用于利用每个业务对应的第一正则表达式对相应的短句进行匹配,以提取出包含该业务的使用情况信息的短文本作为第一训练语料。
图7是本发明训练语料的获取装置再一个实施例的框图。该实施例的装置与图4所示实施例相比还可以包括:去重单元701,用于对过滤后的文本信息进行去重处理。
进一步地,该实施例中的第一匹配单元403可以包括:重复率获取模块713和匹配模块723,其中:复率获取模块713用于获取去重后的文本信息的重复率;匹配模块723用于利用第一正则表达式按照重复率的高低依次对去重后的文本信息进行匹配,以提取出包含业务类型和业务类型的各业务的使用情况信息的短文本作为第一训练语料。
本实施例一方面,在利用第一正则表达式对文本信息进行匹配之前先进行去重处理,从而可以进一步提高训练语料的获取效率;另一方面,在在利用第一正则表达式对文本信息进行匹配时,考虑了文本消息的去重率,可以更进一步提高训练语料的获取效率。
图8是本发明训练语料的获取装置还一个实施例的框图。该实施例的装置与图4所示实施例相比还可以包括:去重单元701,用于对过滤后的文本信息进行去重处理。
进一步地,该实施例中的第一匹配单元403可以包括:排序模块813,用于获取去重后的文本信息的重复率,按照重复率的高低对文本信息进行排序;提取模块823,用于从排序后的文本信息中提取出重复率大于预设值的文本信息作为需要加强训练的文本信息;替代模块833,用于以多组随机数字替代需要加强训练的文本信息中的数字,以便将每个文本信息变为多个文本信息;匹配模块843,用于利用第一正则表达式对所述多个文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。
本发明实施例提供了以下技术方案:
1、一种训练语料的获取方法,包括:
获取通信运营商发送给用户的文本信息;
通过预设过滤规则对所述文本信息的内容进行过滤,以得到过滤后的文本信息;
利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。
2、根据1所述的方法,还包括:
利用第二正则表达式对所述短文本进行匹配,以提取出各业务的使用量名称作为第二训练语料。
3、根据1或2所述的方法,所述利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料包括:
将过滤后的文本信息拆分为多个短句,其中,每个短句中包含该业务类型的不同业务;
利用每个业务对应的第一正则表达式对相应的短句进行匹配,以提取出包含该业务的使用情况信息的短文本作为第一训练语料。
4、根据1-3任意一项所述的方法,在利用第一正则表达式对过滤后的文本信息进行匹配之前,还包括:
对过滤后的文本信息进行去重处理。
5、根据4所述的方法,所述利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料包括:
获取去重后的文本信息的重复率;
利用第一正则表达式按照重复率的高低依次对去重后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。
6、根据4所述的方法,所述利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料包括:
获取去重后的文本信息的重复率,按照重复率的高低对文本信息进行排序;
从排序后的文本信息中提取出重复率大于预设值的文本信息作为需要加强训练的文本信息;
以多组随机数字替代需要加强训练的文本信息中的数字,以便将每个文本信息变为多个文本信息;
利用第一正则表达式对所述多个文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。
7、根据1-6任意一项所述的方法,所述业务类型包括流量、短信、彩信、通话时长和话费中的一项或多项。
8、一种训练语料的获取装置,包括:
获取单元,用于获取通信运营商发送给用户的文本信息;
过滤单元,用于通过预设过滤规则对所述文本信息的内容进行过滤,以得到过滤后的文本信息;
第一匹配单元,用于利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。
9、根据8所述的装置,还包括:
第二匹配单元,用于利用第二正则表达式对所述短文本进行匹配,以提取出各业务的使用量名称作为第二训练语料。
10、根据8或9所述的装置,所述第一匹配单元包括:
拆分模块,用于将过滤后的文本信息拆分为多个短句,其中,每个短句中包含所述业务类型的不同业务;
匹配模块,用于利用每个业务对应的第一正则表达式对相应的短句进行匹配,以提取出包含该业务的使用情况信息的短文本作为第一训练语料。
11、根据8-10任意一项所述的装置,还包括:
去重单元,用于对过滤后的文本信息进行去重处理。
12、根据11所述的装置,所述第一匹配单元包括:
重复率获取模块,用于获取去重后的文本信息的重复率;
匹配模块,用于利用第一正则表达式按照重复率的高低依次对去重后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。
13、根据11所述的装置,所述第一匹配单元包括:
排序模块,用于获取去重后的文本信息的重复率,按照重复率的高低对文本信息进行排序;
提取模块,用于从排序后的文本信息中提取出重复率大于预设值的文本信息作为需要加强训练的文本信息;
替代模块,用于以多组随机数字替代需要加强训练的文本信息中的数字,以便将每个文本信息变为多个文本信息;
匹配模块,用于利用第一正则表达式对所述多个文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。
14、根据8-13任意一项所述的装置,所述业务类型包括流量、短信、彩信、通话时长和话费中的一项或多项。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
可能以许多方式来实现本发明的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (10)

1.一种训练语料的获取方法,其特征在于,包括:
获取通信运营商发送给用户的文本信息;
通过预设过滤规则对所述文本信息的内容进行过滤,以得到过滤后的文本信息;
利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。
2.根据权利要求1所述的方法,其特征在于,还包括:
利用第二正则表达式对所述短文本进行匹配,以提取出各业务的使用量名称作为第二训练语料。
3.根据权利要求1或2所述的方法,其特征在于,所述利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料包括:
将过滤后的文本信息拆分为多个短句,其中,每个短句中包含该业务类型的不同业务;
利用每个业务对应的第一正则表达式对相应的短句进行匹配,以提取出包含该业务的使用情况信息的短文本作为第一训练语料。
4.根据权利要求1-3任意一项所述的方法,其特征在于,在利用第一正则表达式对过滤后的文本信息进行匹配之前,还包括:
对过滤后的文本信息进行去重处理。
5.根据权利要求4所述的方法,其特征在于,所述利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料包括:
获取去重后的文本信息的重复率;
利用第一正则表达式按照重复率的高低依次对去重后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。
6.根据权利要求4所述的方法,其特征在于,所述利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料包括:
获取去重后的文本信息的重复率,按照重复率的高低对文本信息进行排序;
从排序后的文本信息中提取出重复率大于预设值的文本信息作为需要加强训练的文本信息;
以多组随机数字替代需要加强训练的文本信息中的数字,以便将每个文本信息变为多个文本信息;
利用第一正则表达式对所述多个文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。
7.根据权利要求1-6任意一项所述的方法,其特征在于,所述业务类型包括流量、短信、彩信、通话时长和话费中的一项或多项。
8.一种训练语料的获取装置,其特征在于,包括:
获取单元,用于获取通信运营商发送给用户的文本信息;
过滤单元,用于通过预设过滤规则对所述文本信息的内容进行过滤,以得到过滤后的文本信息;
第一匹配单元,用于利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。
9.根据权利要求8所述的装置,其特征在于,还包括:
第二匹配单元,用于利用第二正则表达式对所述短文本进行匹配,以提取出各业务的使用量名称作为第二训练语料。
10.根据权利要求8或9所述的装置,其特征在于,所述第一匹配单元包括:
拆分模块,用于将过滤后的文本信息拆分为多个短句,其中,每个短句中包含所述业务类型的不同业务;
匹配模块,用于利用每个业务对应的第一正则表达式对相应的短句进行匹配,以提取出包含该业务的使用情况信息的短文本作为第一训练语料。
CN201510992677.2A 2015-12-24 2015-12-24 训练语料的获取方法和装置 Pending CN105630976A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510992677.2A CN105630976A (zh) 2015-12-24 2015-12-24 训练语料的获取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510992677.2A CN105630976A (zh) 2015-12-24 2015-12-24 训练语料的获取方法和装置

Publications (1)

Publication Number Publication Date
CN105630976A true CN105630976A (zh) 2016-06-01

Family

ID=56045909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510992677.2A Pending CN105630976A (zh) 2015-12-24 2015-12-24 训练语料的获取方法和装置

Country Status (1)

Country Link
CN (1) CN105630976A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107493370A (zh) * 2016-06-12 2017-12-19 阿里巴巴集团控股有限公司 流量模板确定方法、流量信息识别方法及装置
CN110955754A (zh) * 2019-12-01 2020-04-03 国家电网有限公司客户服务中心 一种用于重复来电分析识别的模型构建方法
CN113111234A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于正则表达式的处警警情类别确定方法和装置
CN113179494A (zh) * 2021-04-16 2021-07-27 北京思特奇信息技术股份有限公司 基于短信的业务办理方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102752398A (zh) * 2012-07-18 2012-10-24 腾讯科技(深圳)有限公司 解析流量值的方法、终端、服务器及***
CN104159209A (zh) * 2014-08-01 2014-11-19 北京奇虎科技有限公司 一种移动终端的数据流量校准的方法和装置
CN104853334A (zh) * 2015-05-25 2015-08-19 小米科技有限责任公司 短信解析方法及装置
CN104994219A (zh) * 2015-05-18 2015-10-21 北京奇虎科技有限公司 一种数据处理方法和***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102752398A (zh) * 2012-07-18 2012-10-24 腾讯科技(深圳)有限公司 解析流量值的方法、终端、服务器及***
CN104159209A (zh) * 2014-08-01 2014-11-19 北京奇虎科技有限公司 一种移动终端的数据流量校准的方法和装置
CN104994219A (zh) * 2015-05-18 2015-10-21 北京奇虎科技有限公司 一种数据处理方法和***
CN104853334A (zh) * 2015-05-25 2015-08-19 小米科技有限责任公司 短信解析方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107493370A (zh) * 2016-06-12 2017-12-19 阿里巴巴集团控股有限公司 流量模板确定方法、流量信息识别方法及装置
CN107493370B (zh) * 2016-06-12 2020-08-04 阿里巴巴集团控股有限公司 流量模板确定方法、流量信息识别方法及装置
CN110955754A (zh) * 2019-12-01 2020-04-03 国家电网有限公司客户服务中心 一种用于重复来电分析识别的模型构建方法
CN113111234A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于正则表达式的处警警情类别确定方法和装置
CN113179494A (zh) * 2021-04-16 2021-07-27 北京思特奇信息技术股份有限公司 基于短信的业务办理方法及***

Similar Documents

Publication Publication Date Title
CN104281622A (zh) 一种社交媒体中的信息推荐方法和装置
CN105045919B (zh) 一种信息输出方法及装置
CN105630976A (zh) 训练语料的获取方法和装置
CN107515878A (zh) 一种数据索引的管理方法及装置
CN104135498A (zh) 一种跨平台的信息推送***及其推送方法
CN102547554B (zh) 基于移动用户行为的移动业务推荐方法
CN110347786A (zh) 一种语义模型的调优方法及***
CN107748739A (zh) 一种短信文本模版的提取方法及相关装置
CN105302917A (zh) 应用于电子商务平台的数据处理***及数据处理方法
CN110019157A (zh) 基于物联网的安全生产业务数据分析方法
CN106933919A (zh) 数据表的连接方法及装置
CN105260365A (zh) 终端信息的处理方法和装置
CN105550361A (zh) 日志处理方法及装置和问答信息处理方法及装置
CN104407699A (zh) 一种人机交互方法、装置及***
CN105095402A (zh) 一种微信素材的搜集方法
CN104750788A (zh) 一种利用微信进行查询防伪物流的方法
CN112954082B (zh) 域名注册ip地址查询方法及装置
CN111221967A (zh) 一种基于区块链架构的语言数据分类存储***
CN105630983A (zh) 一种资源获取优化装置和方法
CN101827175A (zh) 一种话单分拣分目录存储的方法及***
CN114863463A (zh) 一种对合同文本的智能审核校验方法及装置
CN103812873A (zh) 业务服务请求处理方法和装置
CN107566539A (zh) 信息推送方法及***
CN108572948A (zh) 门牌信息的处理方法及装置
CN106548218A (zh) 基于识读二维码的方式对物品特征进行比对的方法与***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160601