CN105354262A - 一种提取短信文本标签方法 - Google Patents

一种提取短信文本标签方法 Download PDF

Info

Publication number
CN105354262A
CN105354262A CN201510697001.0A CN201510697001A CN105354262A CN 105354262 A CN105354262 A CN 105354262A CN 201510697001 A CN201510697001 A CN 201510697001A CN 105354262 A CN105354262 A CN 105354262A
Authority
CN
China
Prior art keywords
identity
label
label information
note
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510697001.0A
Other languages
English (en)
Inventor
章宦记
王建
庞彦伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201510697001.0A priority Critical patent/CN105354262A/zh
Publication of CN105354262A publication Critical patent/CN105354262A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种提取短信文本标签方法,包括:对已有的短信文本,通过编写正则表达式挖掘出通知类短信;将挖掘的XX作为短信文本的身份标签信息;对挖掘出的此种通知类短信文本身份,通过取阈值的方式,取频率最高的身份标签信息来作为该服务号的最终身份标签信息;时间更新。本发明可以实现快速的更新和迭代。

Description

一种提取短信文本标签方法
所属技术领域
本发明是关于自然语言处理短信文本方面的应用,通过设计提取短信文本的标签方法,实现对短信文本的分类。
背景技术
近年来,在自然语言处理方面对本发明的分析方法层出不穷,但是对文本进行分析都是需要一定的语料基础,通过已有标签的语料去分析需要解决的内容。在处理大量的文本信息之前,通常通过人工去标记一定量的文本信息,比如标记该文本的主题,文字个数等。这是一个非常耗费时间的过程,经常性的会出现一两个月才只是标记了非常少的一部分数据。特别是在对短信文本进行分类的过程中,需要大量的已有标签的短信文本进行模型训练,然后对训练好的模型采用测试数据进行分析验证。然而对这一部分模型训练的已标签短信文本,往往也是通过人工标记的方式来获得的,费时费力。
发明内容
本发明基于通知类短信文本的特点提供一个可以不用人工标记,而通过自动化脚本来实现通知类短信文本标记的方式。所采用的技术方案是:
一种提取短信文本标签方法,包括下列几个方面:
正则表达式模块:对已有的短信文本,第一,根据服务号,明确哪些短信是属于通知类短信,通过编写正则表达式挖掘出所有通知类短信;第二,根据通知类短信的身份出现的位置及文本模式,对身份进行挖掘,设挖掘到的身份信息为XX,将挖掘的XX作为短信文本的身份标签信息,如果挖掘不到,则该短信没有对应的身份标签信息;
阈值模块:对挖掘出的此种通知类短信文本身份,通过取阈值的方式,取频率最高的身份标签信息来作为该服务号的最终身份标签信息,如果一个服务号对应的短信没有挖掘出身份标签信息,则该服务号没有对应的标签;如果一个服务号发送的短信数量挖掘出的对应身份标签信息的个数与发送的短信数量的比值小于某一个阈值,则也认为该服务号没有对应的身份标签信息;
时间更新模块:每隔一段时间,根据最近一段时间该服务号提取的身份标签信息与上一个时间段保存的服务号标签信息进行对比,如果最近一段时间提取的标签信息比较集中为某个标签,同时该标签与上一个时间段提取的标签不同,则自动更新挖掘的服务号身份标签信息,将当前的标签作为该服务号的身份标签,否则保留上一个时间段的服务号身份标签不变。
本发明的有益效果是:本发明根据通知类文本本身的特性,采用正则表达式根据关键词括号模式和短信内容模式对文本本身进行挖掘,基于文本自身又结合文本的历史统计分布来提取相关信息,避免人工挖掘的偏差,将一个服务号对应的多个文本内容进行身份挖掘,挖掘出多个候选信息,避免人工检索,排查的麻烦,最终选择频率最高的身份作为服务号身份信息。同时为后续采用标记的语料处理其他应用提供足量的素材。而且采用自动化脚本,能在产品的生产线上,实现快速的更新和迭代。
具体实施方式
通知类短信文本一般是以106数字开头的服务号,同时短信文本中往往开头出现中括号或者小括号中的内容表明短信的身份,或者短信内容中出现”XX提醒您,欢迎致电XX”等模式。通过对这些情况的分析,挖掘括号中的内容以及短信文本中的XX作为通知类短信文本的标签,可以大大的减少人工标记的费时费力,也能降低人为的一些感性认识导致的误差从而提高通知类短信识别的精确度。本发明的技术方案如下:
正则表达式模块:对已有的短信文本,第一,明确哪些短信是属于通知类短信,一般是106数字开头的服务号短信认为是通知类短信,通过编写正则表达式挖掘出所有106开头的通知类短信。第二,通知类短信的身份一般出现在短信文本的开始和结尾处的括号中,同时开头和结尾处如果没有括号,则判断挖掘短信文本内容中是否有”XX提醒您,以及XX通知您“等文本模式信息,将挖掘的XX作为短信文本的身份标签信息。如果短信文本中没有以上两种情况,则该短信没有对应的身份信息。
阈值模块:对挖掘出的通知类短信文本身份,一个106服务号可能对应多个身份标签信息,通过取阈值的方式,取频率最高的身份标签信息来作为该服务号的最终身份标签信息。如果一个服务号对应的短信没有挖掘出身份标签信息,则该服务号没有对应的标签。如果一个106开头的数字服务号发送的短信数量挖掘出的对应身份信息的个数与发送的短信数量的比值小于某一个阈值,则也认为该106开头的数字服务号没有对应的标签。
时间更新模块:由于106开头的数字服务号短信每隔一段时间可能会被不同的公司购买,因此每隔一段时间,时间更新模块会根据最近一段时间该服务号提取的标签信息与上一个时间段保存的服务号标签信息进行对比,如果最近一段时间提取的标签信息比较集中为某个标签,同时该标签与上一个时间段提取的标签不同,则时间更新模块会自动的更新挖掘的服务号身份信息,将当前的标签作为该服务号的身份标签,否则保留上一个时间段的服务号身份标签不变。
下面结合实施例对本发明进行说明。
现在收集到大量的短信数据有如下若干形式:
106123456,【人才管理】邀请您参加校园招聘,2010.05.11。106123456,【人才管理】邀请您参加校园招聘,2010.05.11。…106123456,【人才管理】邀请您参加校园招聘,2010.05.11。共计100条数据,每条短信的括号都有”人才管理”这个标签
10678456,【顶级物业】欢迎您回家,2010.05.11。10678456,顶级商品送给您,路上注意安,2010.05.11…10678456,谢谢您来到我公司,2010.05.11。其中有括号短信的50条,无括号短信的50条
1065678,欢迎您拨打金麟酒店,详细请询问柜台,2010.05.11。1065678,欢迎您拨打金麟酒店,详细请咨询前台,2010.05.11。…1065678,欢迎您拨打金麟酒店,详细请拨3344556677,2010.05.11。共计100条短信数据,每条短信都有”欢迎您拨打金麟酒店”的模式
1065678,欢迎您拨打山西面馆,详细请询问柜台,2010.06.11。1065678,欢迎您拨打山西面馆,详细请咨询前台,2010.06.11。…1065678,欢迎您拨打山西面馆,详细请拨3344556677,2010.06.11。共计100条短信数据,每条短信都有”欢迎您拨打山西面馆”的模式
106778899,【人才管理】邀请您参加校园招聘,2010.06.11。106778899,【人才管理】期待您参加汽车之友专场招聘会,2010.06.11。106778899,【宏伟物业】请您及时交费,2010.06.11。…106778899,【疾病中心】请您注意天气情况,2010.06.11。有多个括号中的标签身份,”人才管理“有80个标记,”宏伟物业“有10个标记,”疾病中心“有10个标记,总计100个。
对于上面106数字开头的服务号短信,通正则表达式和阈值两大模块以及时间更新模块后,服务号会得到对应的标签,同时时间更新模块中会保留一份服务号最近时间对应的标签。106123456服务号得到对应的标签会是“人才管理”。10678456服务号发送的一些短信可能会得到“顶级物业”这个标签,但是整体而言,如果阈值取0.6即能提出标签的短信至少要有60条,才可以作为该服务号是否有对应标记的依据,那么该服务号显然由于有括号的短信数目才50条,总共短信数目100条,没有达到该阈值的要求会没有对应的标签。1065678通过短信内容模式,可以匹配到”金麟酒店“。而过了一段时间,1065678这个服务号的短信在2010年5月发送的短信内容由”金麟酒店“变成了2010年6月发送的”山西面馆“,那么这个时候通过时间更新模块原先在时间更新模块中保留的”金麟酒店”标签和现在的”山西面馆”标签进行对比,由于带有”山西面馆”内容的短信时间是6月份比5月份的”金麟酒店”内容的短信时间更接近当前时间,可以得到1065678的标记为”山西面馆“。而106778899,虽然对应的标签类别有三类,但是其中”人才管理“占的比例最大达到80%,所以106778899最终对应的标签也是”人才管理“。

Claims (1)

1.一种提取短信文本标签方法,包括下列几个方面:
正则表达式模块:对已有的短信文本,第一,根据服务号,明确哪些短信是属于通知类短信,通过编写正则表达式挖掘出所有通知类短信;第二,根据通知类短信的身份出现的位置及文本模式,对身份进行挖掘,设挖掘到的身份信息为XX,将挖掘的XX作为短信文本的身份标签信息,如果挖掘不到,则该短信没有对应的身份标签信息;
阈值模块:对挖掘出的此种通知类短信文本身份,通过取阈值的方式,取频率最高的身份标签信息来作为该服务号的最终身份标签信息,如果一个服务号对应的短信没有挖掘出身份标签信息,则该服务号没有对应的标签;如果一个服务号发送的短信数量挖掘出的对应身份标签信息的个数与发送的短信数量的比值小于某一个阈值,则也认为该服务号没有对应的身份标签信息;
时间更新模块:每隔一段时间,根据最近一段时间该服务号提取的身份标签信息与上一个时间段保存的服务号标签信息进行对比,如果最近一段时间提取的标签信息比较集中为某个标签,同时该标签与上一个时间段提取的标签不同,则自动更新挖掘的服务号身份标签信息,将当前的标签作为该服务号的身份标签,否则保留上一个时间段的服务号身份标签不变。
CN201510697001.0A 2015-10-26 2015-10-26 一种提取短信文本标签方法 Pending CN105354262A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510697001.0A CN105354262A (zh) 2015-10-26 2015-10-26 一种提取短信文本标签方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510697001.0A CN105354262A (zh) 2015-10-26 2015-10-26 一种提取短信文本标签方法

Publications (1)

Publication Number Publication Date
CN105354262A true CN105354262A (zh) 2016-02-24

Family

ID=55330235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510697001.0A Pending CN105354262A (zh) 2015-10-26 2015-10-26 一种提取短信文本标签方法

Country Status (1)

Country Link
CN (1) CN105354262A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095745A (zh) * 2016-05-27 2016-11-09 厦门市美亚柏科信息股份有限公司 基于通讯记录的交易记录提取方法及其***
CN107436922A (zh) * 2017-07-05 2017-12-05 北京百度网讯科技有限公司 文本标签生成方法和装置
CN108038154A (zh) * 2017-12-05 2018-05-15 北京小米移动软件有限公司 联系人身份信息的确定方法、装置、设备及存储介质
CN109561402A (zh) * 2017-09-26 2019-04-02 中国电信股份有限公司 信息获取方法、装置和移动终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120322471A1 (en) * 2011-06-16 2012-12-20 Hon Hai Precision Industry Co., Ltd. Mobile phone and method for processing short message
CN103428662A (zh) * 2013-07-31 2013-12-04 广州市动景计算机科技有限公司 短信信息处理方法及装置
CN104301532A (zh) * 2014-09-30 2015-01-21 小米科技有限责任公司 通信消息识别方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120322471A1 (en) * 2011-06-16 2012-12-20 Hon Hai Precision Industry Co., Ltd. Mobile phone and method for processing short message
CN103428662A (zh) * 2013-07-31 2013-12-04 广州市动景计算机科技有限公司 短信信息处理方法及装置
CN104301532A (zh) * 2014-09-30 2015-01-21 小米科技有限责任公司 通信消息识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SINCOOW: "【荣组儿】【新功能建议】通知类短信发件人规则自动匹配", 《MIUI米柚HTTP://WWW.MIUI.COM/FORUM.PHP?MOD=VIEWTHREAD&TID=1822143》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095745A (zh) * 2016-05-27 2016-11-09 厦门市美亚柏科信息股份有限公司 基于通讯记录的交易记录提取方法及其***
CN107436922A (zh) * 2017-07-05 2017-12-05 北京百度网讯科技有限公司 文本标签生成方法和装置
CN107436922B (zh) * 2017-07-05 2021-06-08 北京百度网讯科技有限公司 文本标签生成方法和装置
CN109561402A (zh) * 2017-09-26 2019-04-02 中国电信股份有限公司 信息获取方法、装置和移动终端
CN108038154A (zh) * 2017-12-05 2018-05-15 北京小米移动软件有限公司 联系人身份信息的确定方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN105354262A (zh) 一种提取短信文本标签方法
CN106874134B (zh) 工单类型的处理方法、装置及***
CN107423278B (zh) 评价要素的识别方法、装置及***
CN104461863A (zh) 一种业务***测试方法、设备及***
CN108664474A (zh) 一种基于深度学习的简历解析方法
CN109934227A (zh) 图像文字识别***和方法
CN103914546A (zh) 数据更新方法及其装置
CN105824756B (zh) 一种基于代码依赖关系的过时需求自动检测方法及***
CN102682760A (zh) 重叠语音检测方法和***
CN102043716A (zh) 基于业务驱动的软件自动化测试方法
CN105808721A (zh) 一种基于数据挖掘的客服内容分析方法及其***
CN104933024A (zh) 中文地址分词标注方法
CN103324632B (zh) 一种基于协同学习的概念识别方法及装置
CN111522942B (zh) 文本分类模型的训练方法、装置、存储介质及计算机设备
CN103677821A (zh) 软件开发工具代码发布的方法和装置
CN103729473A (zh) 一种基于lda主题模型的相关软件历史数据提取方法
CN111325031B (zh) 简历解析方法及装置
CN105183742A (zh) 一种简历识别方法
CN109858025A (zh) 一种地址标准化语料的分词方法及***
CN110688856B (zh) 一种裁判文书信息提取方法
CN104021180A (zh) 一种组合式软件缺陷报告分类方法
CN111008706A (zh) 一种自动标注、训练、预测海量数据的处理方法
CN110880020B (zh) 一种自适应的跨区域基站能耗模型迁移与补偿方法
CN103810365A (zh) 一种基于水电仿真培训***自动评分的方法
CN102103502A (zh) 基于经过遗留***的踪迹来分析遗留***的方法和***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160224

WD01 Invention patent application deemed withdrawn after publication