CN109299233B - 文本数据处理方法、装置、计算机设备及存储介质 - Google Patents

文本数据处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109299233B
CN109299233B CN201811093274.4A CN201811093274A CN109299233B CN 109299233 B CN109299233 B CN 109299233B CN 201811093274 A CN201811093274 A CN 201811093274A CN 109299233 B CN109299233 B CN 109299233B
Authority
CN
China
Prior art keywords
text data
cleaning
target
data
digital
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811093274.4A
Other languages
English (en)
Other versions
CN109299233A (zh
Inventor
黄锦伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811093274.4A priority Critical patent/CN109299233B/zh
Publication of CN109299233A publication Critical patent/CN109299233A/zh
Application granted granted Critical
Publication of CN109299233B publication Critical patent/CN109299233B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开一种文本数据处理方法、装置、计算机设备及存储介质,应用在大数据领域,尤其涉及大数据采集及处理。该方法包括:获取数据清洗请求,数据清洗请求包括频道标识和清洗时间;基于频道标识确定与频道标识相对应的目标语料库,目标语料库包括至少一个原始文本数据,每一原始文本数据携带一时间标识;根据频道标识和清洗时间查询数据清洗记录表,确定目标时间区间;将时间标识在目标时间区间内的原始文本数据确定为待清洗文本数据;基于频道标识查询规则数据库,获取与频道标识相对应的目标清洗规则;采用目标清洗规则对待清洗文本数据进行清洗,获取目标纯文本数据。该方法可有效提高文本数据清洗效率和清洗质量。

Description

文本数据处理方法、装置、计算机设备及存储介质
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种文本数据处理方法、装置、计算机设备及存储介质。
背景技术
在语音识别和OCR文本识别等技术领域,需要采集特定领域大量的文本数据,以训练该特定领域专用的语言模型,从而保证训练出的语言模型在该特定领域的识别准确率。当前语言模型训练过程中,主要通过人工收集并清洗文本数据,其过程耗时长、效率低且错误率较高。并且,在中文语言模型训练过程中,需采集纯中文文本数据作为中文语言模型的文本数据,而人工收集并清洗纯中文文本数据过程中,需对该文本数据中中文以外的数据进行清洗,其过程耗时长、效率低且准确率无法保障。
发明内容
本发明实施例提供一种文本数据处理方法、装置、计算机设备及存储介质,以解决人工收集并清洗文本数据过程中存在的效率低且错误率较高的问题。
一种文本数据处理方法,包括:
获取数据清洗请求,所述数据清洗请求包括频道标识和清洗时间;
基于所述频道标识确定与所述频道标识相对应的目标语料库,所述目标语料库包括至少一个原始文本数据,每一所述原始文本数据携带一时间标识;
根据所述频道标识和所述清洗时间查询数据清洗记录表,确定目标时间区间;
将所述时间标识在所述目标时间区间内的原始文本数据确定为待清洗文本数据;
基于所述频道标识查询规则数据库,获取与所述频道标识相对应的目标清洗规则;
采用所述目标清洗规则对所述待清洗文本数据进行清洗,获取目标纯文本数据。
一种文本数据处理装置,包括:
数据清洗请求获取模块,获取数据清洗请求,所述数据清洗请求包括频道标识和清洗时间;
原始文本数据获取模块,用于基于所述频道标识确定与所述频道标识相对应的目标语料库,所述目标语料库包括至少一个原始文本数据,每一所述原始文本数据携带一时间标识;
目标时间区间获取模块,用于根据所述频道标识和所述清洗时间查询数据清洗记录表,确定目标时间区间;
待清洗文本数据获取模块,用于将所述时间标识在所述目标时间区间内的原始文本数据确定为待清洗文本数据;
目标清洗规则获取模块,用于基于所述频道标识查询规则数据库,获取与所述频道标识相对应的目标清洗规则;
目标纯文本数据获取模块,用于采用所述目标清洗规则对所述待清洗文本数据进行清洗,获取目标纯文本数据。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文本数据处理方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文本数据处理方法的步骤。
上述文本数据处理方法、装置、计算机设备及存储介质,根据数据清洗请求中的频道标识确定对应的目标语料库,从而获取携带时间标识的至少一个原始文本数据,以提高原始文本数据的获取效率。根据数据清洗请求中的频道标识和清洗时间确定目标时间区间,并依据该目标时间区间与每一原始文本数据携带的时间标签,确定待清洗文本数据,有助于避免对目标语料库中已被清洗过的原始文本数据进行重复清洗,从而提高文本数据清洗的效率。依据频道标识对应的目标清洗规则对待清洗文本数据进行清洗,可快速获取目标纯文本数据,其过程无需人工干预,可有效提高文本清洗的效率和质量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中文本数据处理方法的一应用环境示意图;
图2是本发明一实施例中文本数据处理方法的一流程图;
图3是本发明一实施例中文本数据处理方法的另一流程图;
图4是本发明一实施例中文本数据处理方法的另一流程图;
图5是本发明一实施例中文本数据处理方法的另一流程图;
图6是本发明一实施例中文本数据处理方法的另一流程图;
图7是本发明一实施例中文本数据处理方法的另一流程图;
图8是本发明一实施例中文本数据处理装置的一示意图;
图9是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的文本数据处理方法,该文本数据处理方法可应用如图1所示的应用环境中。具体地,该文本数据处理方法应用在文本数据处理***中,该文本数据处理***包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于实现对文本数据自动清洗,可快速获取批量的目标纯文本数据,并且获取过程可节省人工清洗处理时间和人工成本,提高清洗效率和清洗质量。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种文本数据处理方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S201:获取数据清洗请求,数据清洗请求包括频道标识和清洗时间。
其中,数据清洗请求是用于实现对文本数据进行自动清洗的请求。该数据清洗请求具体是用户通过客户端发送给文本数据处理***的服务器,以使服务器基于该数据清洗请求进行相应文本清洗处理的请求。频道标识是用于识别需要清洗的文本数据的来源频道的标识。本实施例中,需要清洗的文本数据的来源频道可以理解为各网站预先设置的分类频道,包括但不限于新闻、金融、娱乐、体育和教育等分类频道。清洗时间是指本次数据清洗请求中限定的需要进行清洗的文本数据的截止时间。该清洗时间可以是客户端触发该数据清洗请求时的***当前日期,也可以是用户通过客户端自主设定的时间。
本实施例中,客户端的数据清洗配置界面上显示频道标识输入框、清洗时间输入框和确认按钮。用户可在该频道标识输入框中直接输入需要进行文本清洗处理的频道标识,也可以通过与频道标识输入框关联的下拉列表选择需要进行文本清洗处理的频道标识。在清洗时间输入框中默认显示***当前日期,并配置自主选择按钮,可直接采用默认的***当前日期作为清洗时间,也可通过点击自主选择按钮之后自主确定其清洗时间。在选择确定频道标识和输入时间之后,点击确认按钮,即可触发数据清洗请求,以使服务器可接收到该数据清洗请求。
S202:基于频道标识确定与频道标识相对应的目标语料库,目标语料库包括至少一个原始文本数据,每一原始文本数据携带一时间标识。
目标语料库是用于存储与频道标识相对应的原始文本数据的语料库。本实施例中,文本数据处理***的数据库中预先存储有多个语料库,每一语料库用于存储一种来源频道对应的原始文本数据,使得该语料库与一频道标识关联。具体地,服务器根据该频道标识查询数据库,以确定与该频道标识相对应的语料库为目标语料库,确定过程简单快捷。
原始文本数据是存储在语料库中未经处理的文本数据,具体可以是采用爬虫工具从相关网站的不同来源频道上爬取到的与频道标识相关联的文本数据。例如,采用爬虫工具从新浪网站上爬取“体育”这一来源频道中的网页内容作为一原始文本数据存储在与体育频道标识相对应的语料库中。
每一原始文本数据携带一时间标识,该时间标识可以是原始文本数据存储到与频道标识相对应的语料库中的时间。具体地,在每一原始文本数据存储在语料库时,通过***当前时间获取函数(如time())获取***当前时间,以使该原始文本数据携带该***当前时间作为其时间标识。
S203:根据频道标识和清洗时间查询数据清洗记录表,确定目标时间区间。
数据清洗记录表是服务器预先配置的用于记录数据清洗请求中信息的数据表。服务器依据接收到的数据清洗请求的顺序,依次将所有数据清洗请求中的频道标识和清洗时间记录在该数据清洗记录表,以便确定与各频道标识相对应的语料库中的原始文本数据是否被清洗。
本实施例中,服务器根据频道标识和清洗时间查询数据清洗记录表,确定目标时间区间具体包括:服务器根据频道标识查询数据清洗记录表,以确定该频道标识对应的目标语料库最近一次清洗时间(即上一次数据清洗请求所携带的清洗时间);然后,根据最近一次清洗时间与本次数据清洗请求所携带的清洗时间,确定目标时间区间。该目标时间区间是以最近一次清洗时间为起始时间,以本次数据清洗请求所携带的清洗时间为截止时间的时间区间。可以理解地,该目标时间区间是用于确定目标语料库中未被清洗过的原始文本数据的时间区间,有助于避免对目标语料库中已被清洗过的原始文本数据进行重复清洗,降低文本数据清洗的效率。
S204:将时间标识在目标时间区间内的原始文本数据确定为待清洗文本数据。
本实施例中,存储在目标语料库中的每一原始文本数据均携带有一用于确定原始文本数据存储到目标语料库中的时间标识。而目标时间区间是用于确定目标语料库中未被清洗过的原始文本数据的时间区间。因此,服务器可直接将时间标识在目标时间区间内的所有原始文本数据确定为待清洗文本数据,有助于提高文本数据的清洗效率。该待清洗文本数据是存储在目标语料库中还未被清洗过的文本数据。由于该目标时间区间是以最近一次清洗时间为起始时间,以本次数据清洗请求所携带的清洗时间为截止时间的时间区间,因此,时间标识在目标时间区间外的原始文本数据为已清洗文本数据,若将其确定为待清洗文本数据可能导致重复清洗,从而影响文本数据清洗的效率。
S205:基于频道标识查询规则数据库,获取与频道标识相对应的目标清洗规则。
其中,规则数据库是用于存储不同清洗规则的数据库,每一清洗规则与一来源频道的内容相对应,使得每一清洗规则与一频道标识相对应,以便后续根据频道标识查询规则数据库,以获取与频道标识相对应的目标清洗规则。
本实施例中,与频道标识相对应的目标清洗规则包括至少两个特征清洗规则和特征清洗顺序。其中,特征清洗规则是用于对与频道标识相对应的待清洗文本数据中某一部分特征进行清洗的规则。本实施例中,特征清洗规则包括但不限于特殊标签清洗规则、数字清洗规则、标点符号清洗规则和外文清洗规则。特征清洗顺序是用于限定至少两个特征清洗规则对待清洗文本数据进行清洗的顺序,可以理解为特征清洗规则之间的优先级,特征清洗顺序的限定有助于保障对待清洗文本数据进行清洗的清洗质量。可以理解地,由于特征清洗规则是对待清洗文本数据中某一部分特征进行清洗的规则,而待清洗文本数据中的某一部分特征的内容可能命中至少两个特征清洗规则,即可能被至少两个特征清洗规则进行清洗,此时如果不限定两个特征清洗规则之间的顺序,会导致清洗出错,从而影响清洗质量。
S206:采用目标清洗规则对待清洗文本数据进行清洗,获取目标纯文本数据。
其中,目标纯文本数据是采用目标清洗规则对待清洗文本数据进行清洗后获取的纯净的文本数据。具体地,服务器依据目标清洗规则中的特征清洗顺序,依序调用相应的特征清洗规则对待清洗文本数据进行清洗,即可获取目标纯文本数据,其过程无需人工干预,可有效提高文本清洗的效率和质量。
进一步地,在获取目标纯文本数据之后,该文本数据处理方法还包括:将目标纯文本数据存储在与频道标识相对应训练文本数据库中。其中,训练文本数据库是用于存储训练文本数据的数据库。可以理解地,每一训练文本数据库与一频道标识相对应,并使该训练文本数据库只存储与频道标识相对应的目标纯文本数据,以便后续可直接基于该训练文本数据库中的目标纯文本数据,训练与频道标识相对应的目标中文语言模型,从而提高目标中文语言模型对与频道标识相对应的待识别文本数据进行识别的识别准确率。其中,待识别文本数据是指需要进行文本识别的数据。
本实施例所提供的文本数据处理方法中,根据数据清洗请求中的频道标识确定对应的目标语料库,从而获取携带时间标识的至少一个原始文本数据,以提高原始文本数据的获取效率。根据数据清洗请求中的频道标识和清洗时间确定目标时间区间,并依据该目标时间区间与每一原始文本数据携带的时间标签,确定待清洗文本数据,有助于避免对目标语料库中已被清洗过的原始文本数据进行重复清洗,从而提高文本数据清洗的效率。依据频道标识对应的目标清洗规则对待清洗文本数据进行清洗,可快速获取目标纯文本数据,其过程无需人工干预,可有效提高文本清洗的效率和质量。
在一实施例中,与频道标识相对应的目标清洗规则包括至少两个特征清洗规则和特征清洗顺序,而特征清洗规则包括但不限于特殊标签清洗规则、数字清洗规则、标点符号清洗规则和外文清洗规则。如图3所示,采用目标清洗规则对待清洗文本数据进行清洗,获取目标纯文本数据,包括:
S301:采用特殊标签清洗规则对待清洗文本数据进行标签清洗,获取第一文本数据。
其中,特殊标签清洗规则是对待清洗文本数据中存在的特殊标签进行清洗处理的规则。该特殊标签包括但不限于超链接地址、URL地址和HTML标签,这些特殊标签由标签和字符串组成,而字符串由数字、字母和标点符号中的至少一个组合而成。由于特殊标签组成的特殊性,使得其可能命中其他特征清洗规则,因此,在对待清洗文本数据进行清洗时,优先采用特殊标签清洗规则对待清洗文本数据进行清洗,获取第一文本数据,以保障后续清洗操作的顺利进行,从而保障数据清洗的效率和质量。
本实施例中,服务器采用特殊标签清洗规则对待清洗文本数据进行标签清洗,获取第一文本数据的过程具体包括:采用与特殊标签清洗规则相对应的正则表达式,对待清洗文本数据中出现的特殊标签进行匹配,若匹配到特殊标签中的标签,则删除标签之后的字符串再删除该标签,以达到清除待清洗文本数据中所有的特殊标签的目标。例如,对于“http://120.77.246.207/index.aspx?objid=F3BFA010-60E9-4F63-BDED-B22782EC0513&pagecode=RE”这一URL地址,先将识别到的“http”标签之后的字符串删除,再删除“http”标签,以达到清洗特殊标签的目的,避免先清洗字符串而后清洗标签时,容易导致清洗过程出错。
S302:采用数字清洗规则对第一文本数据进行数字清洗,获取第二文本数据。
其中,数字清洗规则是对待清洗文本数据中存在的数字进行清洗处理的规则。为了适应后续中文语言模型的训练需求,需采集纯中文文本数据,因此,需采用数字清洗规则对第一文本数据进行数字清洗,以将第一文本数据中出现的数字转换成汉字形式,以达到数字清洗效果。
本实施例中,采用数字清洗规则对第一文本数据进行数字清洗有如下两种清洗方式:第一种是对第一文本数据中出现的数字进行汉字数字转换,如123转换成“一百二十三”。第二种是对第一文本数据中出现的数字进行逐字转换,如123转换成“一二三”。可以理解地,采用数字清洗规则对第一文本数据进行数字清洗的过程,具体是依据第一文本数据中出现的数字的适用前提,选择相对应的清洗方式进行清洗,以达到数字清洗效果,提高数字清洗的效率和质量。
可以理解地,对第一文本数据进行数字清洗中的数字是进行标签清洗后的数字,而第一文本数据中出现的数字可能携带有标点符号,而这些标点符号在数字有特殊含义,如直接采用标点符号清洗规则进行符号清洗,可能使得符号清洗后的数字与第一文本数据中的数字不相匹配,从而影响文本清洗的质量,因此,需先采用数字清洗规则对第一文本数据进行数字清洗,再执行步骤S303进行符号清洗,以保证文本数据的清洗效率和质量。
S303:采用标点符号清洗规则对第二文本数据进行符号清洗,获取第三文本数据。
其中,标点符号清洗规则是对待清洗文本数据中存在的标点符号进行清洗处理的规则。本实施例中,采用标点符号清洗规则对第二文本数据进行符号清洗有删除和替换两种方式。具体地,服务器预先存储有标点符号配置表,该标点符号配置表存储多条配置记录,每一配置记录包括一标点符号、清洗方式和适用前提。该清洗方式包括删除和替换两种,该适用前提是指适用一清洗方式对标点符号进行清洗的前提。可以理解地,对应于替换这一清洗方式,该标点符号配置表中的配置记录还存储其对应的替换词,以便在符号清洗时采用该替换词更换标点符号。
本实施例中,采用标点符号清洗规则对第二文本数据进行符号清洗,获取第三文本数据的过程具体包括:采用与标点符号清洗规则相对应的正则表达式,对第二文本数据中出现标点符号的句子和与标点符号对应的适用前提进行匹配,若匹配成功,则依据该适用前提对应的清洗方式对第二文本数据中出现的标点符号进行符号清洗,以获取第三文本数据,其清洗过程无需人工干预,有利于保障清洗效率,并降低清洗的错误率,提高清洗质量。例如,对于“:”这一标点符号而言,若应用在“提示语后的停顿或表示提示下文或总括上文”这一适用前提下,则对“:”这一标点符号进行删除处理;若应用在“数学语言中,表示两者的比值关系”这一适用前提下,则对“:”这一标点符号进行替换处理,以将“:”转换成“比”。
S304:采用外文清洗规则对第三文本数据进行外文清洗,获取目标纯文本数据。
其中,外文清洗规则是对待清洗文本数据中存在的外文进行清洗处理的规则。该外文包括但不限于本实施例提及的英文、法文和日文等。本实施例中,服务器采用外文清洗规则对第三文本数据进行外文清洗,获取目标纯文本数据的过程具体包括:采用与外文清洗规则相对应的正则表达式,对第三文本数据中存在的外文进行匹配处理,若匹配到相对应的外文,则对该外文进行删除处理,以达到外文清洗目的。
本实施例所提供的文本数据处理方法中,依次采用特殊标签清洗规则、数字清洗规则、标点符号清洗规则和外文清洗规则对待清洗文本数据进行标签清洗、数字清洗、符号清洗和外文清洗,以获取目标纯文本数据,以实现快速对待清洗文本数据进行清洗的目的,无需人工干预,可保障文本数据清洗的效率和质量。另外,依据目标清洗规则中的特征清洗顺序,依序采用特殊标签清洗规则、数字清洗规则、标点符号清洗规则和外文清洗规则进行清洗处理,确定清洗规则的顺序,避免待清洗文本数据中的内容同时适用不同清洗规则时,需人工确定清洗顺序,增加人工成本并降低效率的问题出现,同时避免依据错误的清洗顺序进行清洗而导致文本数据清洗过程出错这一问题出现。
在一实施例中,如图4所示,在采用特殊标签清洗规则对待清洗文本数据进行标签清洗,获取第一文本数据的步骤之后,且采用数字清洗规则对第一文本数据进行数字清洗,获取第二文本数据的步骤之前,文本数据处理方法还包括,包括:
S401:基于频道标识查询品牌数据库,获取与频道标识相对应的目标品牌数据。
其中,品牌数据库是用于存储不同来源频道对应的品牌数据的数据库。目标品牌数据是品牌数据库中存储的与频道标识相对应的品牌数据。品牌数据是来源频道所在领域的品牌数据,包括品牌名称。而且,品牌名称可以采用数字、字母、符号和汉字组成,如361°是由数字与符号组成。例如,在体育频道,361°是与频道标识相对应的品牌数据;而在教育频道,361°不是与频道标识相对应的品牌数据。
S402:将第一文本数据与目标品牌数据进行匹配处理。
本实施例中,服务器采用模糊匹配算法对第一文本数据与目标品牌数据进行匹配处理,确定第一文本数据中是否包含与频道标识相对应的目标品牌数据,以便根据匹配处理结果进行分类处理。其中,模糊匹配算法包括但不限于KMP(Knuth-Morris-Pratt)算法和BM(Boyer-Moore)算法等字符串匹配算法。
S403:若第一文本数据与目标品牌数据匹配成功,则对匹配成功的第一文本数据进行除外处理,再采用数字清洗规则对除外处理后的第一文本数据进行数字清洗,获取第二文本数据。
本实施例中,若第一文本数据与目标品牌数据匹配成功,则说明第一文本数据中包含目标品牌数据,由于品牌名称是本领域通用名词,如进行转换或删除操作,可能会影响文本数据的整体性,因此服务器需对第一文本数据进行除外处理,以使除外处理后的第一文本数据中与目标品牌数据相对应的文本内容携带除外标签,以使后续采用其他特征清洗规则对文本数据进行清洗处理时,不对携带除外标签的文本内容进行处理。
具体地,若第一文本数据与目标品牌数据匹配成功,并对匹配成功的第一文本数据进行除外处理之后,使得后续所有的特征清洗规则均不对第一文本数据中携带除外标签的文本内容进行清洗,但其他未携带除外标签的文本内容仍需要采用其他特征清洗规则进行清洗,因此,服务器需采用数字清洗规则对除外处理后的第一文本数据进行数字清洗,以将第一文本数据中出现的数字转换成汉字形式,从而达到数字清洗效果。
S403:若第一文本数据与目标品牌数据匹配不成功,则采用数字清洗规则对第一文本数据进行数字清洗,获取第二文本数据。
本实施例中,若第一文本数据与目标品牌数据匹配不成功,则说明第一文本数据中未包含目标品牌数据,则直接采用数字清洗规则对第一文本数据进行数字清洗,以将第一文本数据中出现的数字转换成汉字形式,从而达到数字清洗效果。
本实施例所提供的文本数据处理方法中,根据频道标识查询品牌数据库,以便确定是否存在需要进行除外处理的目标品牌数据,从而有利于保障后续文本数据清洗的完整性。在第一文本数据与目标品牌数据匹配成功时,对匹配成功的第一文本数据进行除外处理,以避免后续采用其他特征清洗规则(如数字清洗规则)进行清洗时,将与目标品牌数据相对应的文本内容一并清洗,影响第一文本数据的完整性,从而提高文本数据清洗的准确率,避免清洗出错。
在一实施例中,如图5所示,采用数字清洗规则对第一文本数据进行数字清洗,获取第二文本数据,包括:
S501:从第一文本数据中提取数字字符串,采用正则表达式匹配算法判断数字字符串是否为千分位数字。
本实施例中,第一文本数据可以是采用特殊标签清洗规则对待清洗文本数据进行标签清洗后获取的文本数据,也可以是对与目标品牌数据匹配成功的第一文本数据进行除外处理后获取到的文本数据。本实施例中,可以采用字符串匹配算法从第一文本数据中提取出数字字符串,以便后续对数字字符串进行数字清洗。
正则表达式匹配算法是基于正则表达式进行字符串匹配的算法。其中,正则表达式(Regular Expression,在代码中常简写为regex、regexp或RE),又称规则表达式,使用单个字符串来描述、匹配一系列满足某种句法规则的字符串,通常被用来检索、替换那些符合某个模式(规则)的文本。千分位数字是指在数字中,每隔三位数加进一个逗号(即千位分隔符),以便更加容易认出数值,例如,1,000,000 。
本实施例中,服务器预先配置有可匹配出数字字符串中千位分隔符的正则表达式,在依据目标清洗规则中的特征清洗顺序,采用数字清洗规则对第一文本数据进行数字清洗时,先采用该可匹配出数字字符串中千位分隔符的正则表达式,对第一文本数据中提取出的数字字符串进行匹配,若匹配出该数字字符串中含有千位分隔符,则认定该数字字符串为千分位数字;反之,若匹配出该数字字符串中不含有千位分隔符,则认定该数字字符串不为千分位数字。可以理解地,由于特征清洗顺序中,数字清洗在符号清洗之前,先判断数字字符串是否为千分位数字,使得后续可依据判断结果对数字字符串进行数字清洗,以避免采用标点符号清洗规则先进行符号清洗时,将千分位数字“,”误认为逗号进行清洗,使得清洗后的数字出错,从而保证清洗质量。
S502:若数字字符串为千分位数字,则去除千分位数字中的千位分隔符,并对去除千位分隔符后的数字进行汉字数字转换,获取第二文本数据;
本实施例中,若服务器判定该数字字符串为千分位数字,则说明该数字字符串中的“,”为千位分隔符,去除千分位数字中的千位分隔符,并对去除千位分隔符后的数字进行汉字数字转换,获取第二文本数据,以达到数字清洗目的。例如,1,000,000这一千分位数字,去除千位分隔符之后的数字为1000000,再将1000000这一数字进行汉字数字转换,即转换成一百万。
S503:若数字字符串不为千分位数字,则采用正则表达式匹配算法判断数字字符串是否为小数点数字。
具体地,若服务器判定该数字字符串不为千分位数字,则说明该数字字符串中不含有“,”这一千位分隔符,此时,采用正则表达式匹配算法判断数字字符串是否为小数点数字。其中,小数点数字是携带有小数点符号“.”的数字,如123.45。
本实施例中,服务器预先配置有可匹配数字字符串中小数点符号的正则表达式,在采用数字清洗规则对第一文本数据进行数字清洗时,可采用该可匹配数字字符串中小数点符号的正则表达式,对第一文本数据中提取的数字字符串进行匹配,若匹配出该数字字符串中含有小数点符号,则认定该数字字符串为小数点数字;反之,若匹配出该数字字符串中不含有小数点符号,则认定该数字字符串不为小数点数字。可以理解地,由于特征清洗顺序中,数字清洗在符号清洗之前,先判断数字字符串是否为小数点数字,使得后续依据该判断结果对数字字符串进行数字清洗,以避免采用标点符号清洗规则先进行符号清洗时,将小数点符号“.”误认为句号进行清洗,使得清洗后的数字出错,从而保证清洗质量。
S504:若数字字符串为小数点数字,则对小数点符号之前的数字进行汉字数字转换,对小数点符号之后的数字进行逐字转换,并对小数点符号进行汉字替换,获取第二文本数据。
本实施例中,若服务器判定该数字字符串为小数点数字,则说明该数字字符串中的“.”为小数点符号,则将对小数点符号之前的数字进行汉字数字转换,对小数点符号之后的数字进行逐字转换,并对小数点符号进行汉字替换,即将小数点符号替换为“点”,获取第二文本数据,从而达到数字清洗目的。例如123.45这一小数点数字,在数字清洗时,先对123进行汉字数字转换,以转换成“一百二十三”,并对45进行逐字转换,以转换成“四五”,然后将小数点符号替换为“点”,以获取“一百二十三点四五”。
S505:若数字字符串不为小数点数字,则采用正则表达式匹配算法判断数字字符串为中文量词。
具体地,若服务器判定该数字字符串不为小数点数字,则说明该数字字符串中不含有“.”这一小数点符号,此时,采用正则表达式匹配算法判断该数字字符串为中文量词,即判断该数字字符串之后是否携带预先配置的中文单位,以便根据判断结果进行后续数字清洗。中文单位是指中文的单位量词。具体地,服务器预先配置有但不限于分、时、类、厘、毛、元、块、角、个、台、面、辆、匹、只、块、点、条、滴、片、寸、米、尺、十、百、万、亿、兆、千、克、吨、瓶、盒、杯、箱、桶、罐、群、双、束、部、票、辆、趟、件和人等。
S506:若数字字符串为中文量词,则对数字字符串进行汉字数字转换,获取第二文本数据。
本实施例中,服务器在判定数字字符串之后携带中文单位,则说明该数字字符串是表征数量的量词(即为中文量词),此时,对该数字字符串进行汉字数字转换,获取第二文本数据,以达到数字清洗目的,如“123块”转换成“一百二十三块”。
S507:若数字字符串不为中文量词,则采用正则表达式匹配算法判断数字字符串是否为编号数字。
服务器在判定数字字符串不为中文量词,则说明该数字字符串不为表征数量的量词(即不为中文量词),此时,采用正则表达式匹配算法判断数字字符串是否为编号数字。这里的编号数字包括但不限于身份证号码、手机号码、组织机构代码和合同编号等按预设编号规则生成的编号数字。由于这些编号数字有固定的长度并符合特定格式,因此可依据数字字符串的长度或者特定格式,配置可匹配数字字符串是否为编号数字的正则表达式。例如,身份证号码为十八位数字,具体由十七位数字本体码和一位校验码组成,其排列顺序从左至右依次为:六位数字地址码、八位数字出生日期码、三位数字顺序码和一位数字校验码。服务器依据编号数据的正则表达式对第一文本数据提取的数字字符串进行匹配,若匹配成功,则说明该数字字符串为编号数字。
S508:若数字字符串为编号数字,则对编号数字进行逐字转换,获取第二文本数据。
本实施例中,若服务器判定该数字字符串为编号数字,则直接对该编号数字进行逐字转换,获取第二文本数据,以达到数字清洗目的。例如,将手机号码12345678911转换成“一二三四五六七八九一一”。
S509:若数字字符串不为编号数字,则对数字字符串进行汉字数字转换,获取第二文本数据。
具体地,服务器判定该数字字符串不为编号数字,则对数字字符串进行汉字数字转换,获取第二文本数据,以达到数字清洗目的,使得其可获取较纯净的文本数据。
本实施例所提供的文本数据处理方法中,依次对第一文本数据提取的数字字符串进行千分位数字清洗、小数点数字清洗、中文量词清洗和编号数字清洗等,以将第一文本数据中的数字转换成汉字,有助于后续获取更纯净的目标纯文本数据。并且,对第一文本数据提取的数字字符串进行顺序清洗,可避免在后清洗操作之后影响在先清洗的清洗效果,从而保障清洗质量。
在一实施例中,如图6所示,在获取数据清洗请求的步骤之前,该文本数据处理方法还包括:
S601:获取数据爬取任务,数据爬取任务包括任务类型和文件标识。
其中,数据爬取任务是用于触发服务器爬取数据的任务。任务类型是用于限定本次数据爬取任务的类型,具体可以为定时任务或实时任务两种类型。文本标识是用于唯一识别爬虫文件的标识。
本实施例中,服务器预先创建不同的爬虫文件,每一爬虫文件对应的一文件标识,并将该爬虫文件和文件标识关联存储在数据库中,以便后续根据该文件标识获取相对应的爬虫文件。
具体地,服务器可基于Scrapy框架创建与频道标识相对应的爬虫文件。例如,通过Scrapy框架爬取新浪网导航页上所有大类、小类、小类里的子链接、以及子链接页面的新闻内容,最后保存到本地,则其爬虫文件创建过程包括如下步骤:
(1)创建Scrapy项目,如采用“scrapy startproject XX”指令创建Scrapy项目,以确定所需爬取数据的频道,其中,XX可以为新闻、金融、娱乐、体育和教育等频道。
(2)编写item文件,即根据需要爬取的数据内容定义爬取字段。 Item 是保存爬取到的数据的容器,主要目标就是从非结构性的数据源提取结构性数据,例如网页。 Scrapy提供 Item 类来满足这样的需求,其使用方法和python字典类似,并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。例如,需要从想要爬取的网站(这里爬取新浪新闻)中获取以下属性:新闻大类url、新闻大类title;新闻小类url、新闻小类title;新闻url、新闻title;新闻标题、新闻内容。
(3)根据Scrapy项目和item文件,编写爬虫文件,并将该爬虫文件存储在服务器的数据库中。该爬虫文件包括spider文件(用于爬取数据并限定爬取数据的类)、pipelines文件(用于存储item数据)和 settings文件设置(主要设置内容)。
S602:若任务类型为实时任务,则触发爬虫工具执行与文件标识相对应的爬虫文件,获取原始文本数据。
本实施例中,若服务器识别出数据爬取任务中的任务类型为实时任务,则直接通过数据爬取任务中的文件标识获取相对应的爬虫文件,直接触发爬虫工具执行该爬虫文件,以从该爬虫文件中指向的网站中爬取相应的原始文本数据。
S603:若任务类型为定时任务,则触发时间监控工具,以使***当前时间达到数据爬取任务中携带的定时触发时间时,触发爬虫工具执行与文件标识相对应的爬虫文件,获取原始文本数据。
本实施例中,若服务器识别出数据爬取任务中的任务类型为定时任务,则还需获取该数据爬取任务中的定时触发时间,该定时触发时间是定时触发服务器执行数据爬取任务的时间。时间监控工具是用于监控***当前时间的工具,可以为Time Watch工具。
具体地,若任务类型为定时任务时,触发服务器上安装的时间监控工具,以实时监控***当前时间,并在***当前时间达到数据爬取任务中携带的定时触发时间时,触发爬虫工具执行与文件标识相对应的爬虫文件,以从该爬虫文件中指向的网站中爬取相应的原始文本数据。
S604:依据与爬虫文件相对应的分级存储文件夹,将原始文本数据存储在分级存储文件夹的最后一级文件夹上。
其中,与爬虫文件相对应的分级存储文件夹是指基于爬虫文件确定服务器中存储各种原始文本数据的文件夹。本实施例中,与爬虫文件相对应的分级存储文件夹包括频道项目、大类和小类这三级存储文件夹。
本实施例中,依据与爬虫文件相对应的分级存储文件夹,将原始文本数据存储在分级存储文件夹的最后一级文件夹上。例如,与爬虫文件相对应的分级存储文件夹包括频道项目、大类和小类这三级存储文件夹,则依据原始文本数据在该爬虫文件指向的网站中的位置或者分类层级,将原始文本数据存储到相应的小类中,以实现对原始文本数据进行分类存储的目的,以便后续语言模型训练过程中可获取特定领域的原始文本数据进行训练,使其训练所得的语言模型的识别准确率更高。
本实施例所提供的文本数据处理方法中,在数据爬取任务中的任务类型为实时任务时,实时触发与数据爬取任务中的文件标识相对应的爬虫文件进行数据爬取操作,可实时快速获取相对应的原始文本数据。由于爬虫文件预先创建并存储,只需上传相应的文件标识即可快速找到相应的爬虫文件并利用该爬虫文件进行数据爬取,有利于提高数据爬取效率。在数据爬虫任务中的任务类型为定时任务时,可通过时间监控工具定时触发与文本标识相对应的爬虫文件进行数据爬取,其过程无需人工干预,有利于提高数据爬取的效率。将原始文本数据存储在与爬虫文件相对应的分级存储文件夹的最后一级文件夹中,以实现对原始文本数据分类存储,以便后续训练出针对性更强的语言模型。
在一实施例中,如图7所示,在获取目标纯文本数据的步骤之后,文本数据处理方法还包括:
S701:获取模型训练请求,模型训练请求包括频道标识。
其中,模型训练请求是用于触发服务器进行语言模型训练的请求。频道标识是用于识别需要清洗的文本数据的来源频道的标识。可以理解地,模型训练请求中的频道标识用于确定训练语言模型所需文本数据的来源。
S702:从与频道标识相对应的训练文本数据库中,获取与频道标识对应的目标纯文本数据。
训练文本数据库是用于存储训练文本数据的数据库。可以理解地,每一训练文本数据库与一频道标识相对应,以使该训练文本数据库只存储与频道标识相对应的目标纯文本数据。可以理解地,服务器在获取模型训练请求之后,基于该模型训练请求中的频道标识,从相应的训练文本数据库中获取对应的目标纯文本数据,以便利用该目标纯文本数据进行模型训练。可以理解地,该目标纯文本数据是依据步骤S201-S206所获取到的纯文本数据。
S703:对目标纯文本数据进行分词处理,获取至少两个目标分词。
本实施例中,服务器采用预先设置的中文分词工具对目标纯文本数据进行中文分词,以获取至少两个目标分词。其中,中文分词工具包括但不限于jieba分词工具、SnowNLP分词工具、THULAC(THU Lexical Analyzer for Chinese)分词工具和NLPIR分词工具。例如,采用SnowNLP分词工具对“杭州西湖风景很好,是旅游胜地,每年吸引大量前来游玩的游客!”进行分词,可获得“杭州/西湖/风景/很/好/是/旅游/胜地/每年/吸引/大量/前来/游玩/的/游客”等目标分词。
S704:采用N-gram模型对至少两个目标分词进行模型训练,获取目标中文语言模型。
N-gram是大词汇连续语音识别中常用的基于统计语言模型算法,利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开许多汉字对应一个相同拼音而导致重码问题。N-gram基于马尔科夫假设:第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。其中,最大似然估计(Maximum Likelihood Estimate)是指估计的一种方法,建立在已知某个参数能使这个样本出现的概率最大,因此不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值的思想上。
具体地,服务器先采用最大似然估计(Maximum Likelihood Estimate)计算每一目标分词的词序列概率,即计算每一目标分词的词序列概率,其中,/>为第n个目标分词,/>为n个目标分词形成的词序列;/>为/>这一词序列在目标纯文本数据中的词序列频度;/>为n-1个目标分词形成的词序列;/>为/>这一词序列在目标纯文本数据中的词序列频度;/>是指第n个目标分词形成的词序列出现在n-1个目标分词组成的词序列之后的词序列概率。然后,基于马尔科夫假设,对每一目标分词的词序列概率进行处理,以形成目标中文语言模型。即形成的目标中文语言模型中,第n个目标分词的出现只与前面n-1个目标分词相关,而与其它任何词都不相关,整句的概率就是各个目标分词出现概率的乘积.本实施例中,基于各目标分词的词序列概率的乘积形成目标中文语言模型,即,使得后续模型识别过程中,基于每一目标分词对应的词序列概率获取相应的识别结果。
本实施例提提供的文本数据处理方法中,先依据模型训练请求中的频道标识获取相对应的目标纯文本数据,以使得后续依据目标纯文本数据训练所得的目标中文语言模型的识别结果更准确。其原因在于,由于目标中文语言模型的训练过程基于最大似然估计算法和马尔科夫假设,使得目标纯文本数据中第N个目标分词的出现只与前面N-1个目标分词相关,而与其它任何词都不相关,这种特性使得不同频道对应的目标纯文本数据中的每一目标分词和其之前的目标分词的所形成的词序列频度完全不相同,使得所形成的目标中文语言模型在相应频道的识别准确率更高。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种文本数据处理装置,该文本数据处理装置与上述实施例中文本数据处理方法一一对应。如图8所示,该文本数据处理装置包括数据清洗请求获取模块801、原始文本数据获取模块802、目标时间区间获取模块803、待清洗文本数据获取模块804、目标清洗规则获取模块805和目标纯文本数据获取模块806。各功能模块详细说明如下:
数据清洗请求获取模块801,获取数据清洗请求,数据清洗请求包括频道标识和清洗时间。
原始文本数据获取模块802,用于基于频道标识确定与频道标识相对应的目标语料库,目标语料库包括至少一个原始文本数据,每一原始文本数据携带一时间标识。
目标时间区间获取模块803,用于根据频道标识和清洗时间查询数据清洗记录表,确定目标时间区间。
待清洗文本数据获取模块804,用于将时间标识在目标时间区间内的原始文本数据确定为待清洗文本数据。
目标清洗规则获取模块805,用于基于频道标识查询规则数据库,获取与频道标识相对应的目标清洗规则。
目标纯文本数据获取模块806,用于采用目标清洗规则对待清洗文本数据进行清洗,获取目标纯文本数据。
优选地,目标清洗规则包括特殊标签清洗规则、数字清洗规则、标点符号清洗规则和外文清洗规则。
目标纯文本数据获取模块806包括标签清洗单元、数字清洗单元、符号清洗单元和外文清洗单元。
标签清洗单元,用于采用特殊标签清洗规则对待清洗文本数据进行标签清洗,获取第一文本数据。
数字清洗单元,用于采用数字清洗规则对第一文本数据进行数字清洗,获取第二文本数据。
符号清洗单元,用于采用标点符号清洗规则对第二文本数据进行符号清洗,获取第三文本数据。
外文清洗单元,用于采用外文清洗规则对第三文本数据进行外文清洗,获取目标纯文本数据。
优选地,在数字清洗单元之后,文本数据处理装置还包括品牌数据获取单元、数据匹配处理单元、第一匹配结果处理单元和第一匹配结果处理单元。
品牌数据获取单元,用于基于频道标识查询品牌数据库,获取与频道标识相对应的目标品牌数据。
数据匹配处理单元,用于将第一文本数据与目标品牌数据进行匹配处理。
第一匹配结果处理单元,用于若第一文本数据与目标品牌数据匹配成功,则对匹配成功的第一文本数据进行除外处理,再采用数字清洗规则对除外处理后的第一文本数据进行数字清洗,获取第二文本数据。
第二匹配结果处理单元,用于若第一文本数据与目标品牌数据匹配不成功,则采用数字清洗规则对第一文本数据进行数字清洗,获取第二文本数据。
优选地,数字清洗单元包括字符串提取子单元、千分位数字清洗子单元、小数点数字判断子单元、小数点数字清洗子单元、中文量词判断子单元、中文量词清洗子单元、编号数字判断子单元、编号数字清洗子单元和非编号数字清洗子单元。
字符串提取子单元,用于从第一文本数据中提取数字字符串,采用正则表达式匹配算法判断数字字符串是否为千分位数字。
千分位数字清洗子单元,用于若数字字符串为千分位数字,则去除千分位数字中的千位分隔符,并对去除千位分隔符后的数字进行汉字数字转换,获取第二文本数据。
小数点数字判断子单元,用于若数字字符串不为千分位数字,则采用正则表达式匹配算法判断数字字符串是否为小数点数字。
小数点数字清洗子单元,用于若数字字符串为小数点数字,则对小数点符号之前的数字进行汉字数字转换,对小数点符号之后的数字进行逐字转换,并对小数点符号进行汉字替换,获取第二文本数据。
中文量词判断子单元,用于若数字字符串不为小数点数字,则采用正则表达式匹配算法判断数字字符串为中文量词。
中文量词清洗子单元,用于若数字字符串为中文量词,则对数字字符串进行汉字数字转换,获取第二文本数据。
编号数字判断子单元,用于若数字字符串不为中文量词,则采用正则表达式匹配算法判断数字字符串是否为编号数字。
编号数字清洗子单元,用于若数字字符串为编号数字,则对编号数字进行逐字转换,获取第二文本数据。
非编号数字清洗子单元,用于若数字字符串不为编号数字,则对数字字符串进行汉字数字转换,获取第二文本数据。
优选地,在数据清洗请求获取模块801之前,文本数据处理装置还包括数字爬取任务获取单元、文本数据实时获取单元、文本数据定时获取单元和文本数据存储单元。
数字爬取任务获取单元,用于获取数据爬取任务,数据爬取任务包括任务类型和文件标识。
文本数据实时获取单元,用于若任务类型为实时任务,则触发爬虫工具执行与文件标识相对应的爬虫文件,获取原始文本数据。
文本数据定时获取单元,用于若任务类型为定时任务,则触发时间监控工具,以使***当前时间达到数据爬取任务中携带的定时触发时间时,触发爬虫工具执行与文件标识相对应的爬虫文件,获取原始文本数据。
文本数据存储单元,用于依据与爬虫文件相对应的分级存储文件夹,将原始文本数据存储在分级存储文件夹的最后一级文件夹上。
优选地,在目标纯文本数据获取模块806之后,文本数据处理装置还包括模型训练请求获取单元、纯文本数据获取单元、目标分词获取单元和语言模型获取单元。
模型训练请求获取单元,用于获取模型训练请求,模型训练请求包括频道标识。
纯文本数据获取单元,用于从与频道标识相对应的训练文本数据库中,获取与频道标识对应的目标纯文本数据。
目标分词获取单元,用于对目标纯文本数据进行分词处理,获取至少两个目标分词。
语言模型获取单元,用于采用N-gram模型对至少两个目标分词进行模型训练,获取目标中文语言模型。
关于文本数据处理装置的具体限定可以参见上文中对于文本数据处理方法的限定,在此不再赘述。上述文本数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于处理器执行可实现上述实施例中文本数据处理方法对应的计算机程序过程中形成的数据,包括但不限于目标纯文本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本数据处理方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中文本数据处理方法的步骤,例如图2所示的步骤S201-S206,或者图3至图7中所示的步骤。或者,处理器执行计算机程序时实现文本数据处理装置这一实施例中的各模块/单元的功能,例如图8所示的数据清洗请求获取模块801、原始文本数据获取模块802、目标时间区间获取模块803、待清洗文本数据获取模块804、目标清洗规则获取模块805和目标纯文本数据获取模块806的功能,为避免重复,这里不再赘述。
在一实施例中,提供一计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中文本数据处理方法的步骤,例如图2所示的步骤S201-S206,或者图3至图7中所示的步骤,为避免重复,这里不再赘述。或者,该计算机程序被处理器执行时实现上述文本数据处理装置这一实施例中的各模块/单元的功能,例如图8所示的数据清洗请求获取模块801、原始文本数据获取模块802、目标时间区间获取模块803、待清洗文本数据获取模块804、目标清洗规则获取模块805和目标纯文本数据获取模块806的功能,为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (6)

1.一种文本数据处理方法,其特征在于,包括:
获取数据清洗请求,所述数据清洗请求包括频道标识和清洗时间;
基于所述频道标识确定与所述频道标识相对应的目标语料库,所述目标语料库包括至少一个原始文本数据,每一所述原始文本数据携带一时间标识,所述目标语料库是用于存储与频道标识相对应的原始文本数据的语料库,所述时间标识是原始文本数据存储到与频道标识相对应的语料库中的时间;
根据所述频道标识和所述清洗时间查询数据清洗记录表,确定目标时间区间,所述数据清洗记录表是服务器预先配置的用于记录数据清洗请求中信息的数据表,所述目标时间区间是以最近一次清洗时间为起始时间,以本次数据清洗请求所携带的清洗时间为截止时间的时间区间;
将所述时间标识在所述目标时间区间内的原始文本数据确定为待清洗文本数据;
基于所述频道标识查询规则数据库,获取与所述频道标识相对应的目标清洗规则,所述目标清洗规则包括特殊标签清洗规则、数字清洗规则、标点符号清洗规则和外文清洗规则;
采用所述目标清洗规则对所述待清洗文本数据进行清洗,获取目标纯文本数据,包括:采用所述特殊标签清洗规则对所述待清洗文本数据进行标签清洗,获取第一文本数据;基于所述频道标识查询品牌数据库,获取与所述频道标识相对应的目标品牌数据;将所述第一文本数据与所述目标品牌数据进行匹配处理;若所述第一文本数据与所述目标品牌数据匹配成功,则对匹配成功的第一文本数据进行除外处理,再采用所述数字清洗规则对除外处理后的第一文本数据进行数字清洗,获取第二文本数据;若所述第一文本数据与所述目标品牌数据匹配不成功,则采用所述数字清洗规则对所述第一文本数据进行数字清洗,获取第二文本数据;采用所述标点符号清洗规则对所述第二文本数据进行符号清洗,获取第三文本数据;采用所述外文清洗规则对所述第三文本数据进行外文清洗,获取目标纯文本数据;
获取模型训练请求,所述模型训练请求包括频道标识;
从与所述频道标识相对应的训练文本数据库中,获取与所述频道标识对应的目标纯文本数据;
对所述目标纯文本数据进行分词处理,获取至少两个目标分词;
采用N-gram模型对至少两个所述目标分词进行模型训练,获取目标中文语言模型。
2.如权利要求1所述的文本数据处理方法,其特征在于,所述采用数字清洗规则对所述第一文本数据进行数字清洗,获取第二文本数据,包括:
从所述第一文本数据中提取数字字符串,采用正则表达式匹配算法判断所述数字字符串是否为千分位数字;
若所述数字字符串为千分位数字,则去除所述千分位数字中的千位分隔符,并对去除千位分隔符后的数字进行汉字数字转换,获取第二文本数据;
若所述数字字符串不为千分位数字,则采用正则表达式匹配算法判断所述数字字符串是否为小数点数字;
若所述数字字符串为小数点数字,则对小数点符号之前的数字进行汉字数字转换,对小数点符号之后的数字进行逐字转换,并对小数点符号进行汉字替换,获取第二文本数据;
若所述数字字符串不为小数点数字,则采用正则表达式匹配算法判断所述数字字符串为中文量词;
若所述数字字符串为中文量词,则对所述数字字符串进行汉字数字转换,获取第二文本数据;
若所述数字字符串不为中文量词,则采用正则表达式匹配算法判断所述数字字符串是否为编号数字;
若所述数字字符串为编号数字,则对所述编号数字进行逐字转换,获取第二文本数据;
若所述数字字符串不为编号数字,则对所述数字字符串进行汉字数字转换,获取第二文本数据。
3.如权利要求1所述的文本数据处理方法,其特征在于,在所述获取数据清洗请求的步骤之前,所述文本数据处理方法还包括:
获取数据爬取任务,所述数据爬取任务包括任务类型和文件标识;
若所述任务类型为实时任务,则触发爬虫工具执行与所述文件标识相对应的爬虫文件,获取原始文本数据;
若所述任务类型为定时任务,则触发时间监控工具,以使***当前时间达到所述数据爬取任务中携带的定时触发时间时,触发爬虫工具执行与所述文件标识相对应的爬虫文件,获取原始文本数据;
依据与所述爬虫文件相对应的分级存储文件夹,将所述原始文本数据存储在所述分级存储文件夹的最后一级文件夹上。
4.一种文本数据处理装置,其特征在于,包括:
数据清洗请求获取模块,获取数据清洗请求,所述数据清洗请求包括频道标识和清洗时间;
原始文本数据获取模块,用于基于所述频道标识确定与所述频道标识相对应的目标语料库,所述目标语料库包括至少一个原始文本数据,每一所述原始文本数据携带一时间标识,所述目标语料库是用于存储与频道标识相对应的原始文本数据的语料库,所述时间标识是原始文本数据存储到与频道标识相对应的语料库中的时间;
目标时间区间获取模块,用于根据所述频道标识和所述清洗时间查询数据清洗记录表,确定目标时间区间,所述数据清洗记录表是服务器预先配置的用于记录数据清洗请求中信息的数据表,所述目标时间区间是以最近一次清洗时间为起始时间,以本次数据清洗请求所携带的清洗时间为截止时间的时间区间;
待清洗文本数据获取模块,用于将所述时间标识在所述目标时间区间内的原始文本数据确定为待清洗文本数据;
目标清洗规则获取模块,用于基于所述频道标识查询规则数据库,获取与所述频道标识相对应的目标清洗规则,所述目标清洗规则包括特殊标签清洗规则、数字清洗规则、标点符号清洗规则和外文清洗规则;
目标纯文本数据获取模块,用于采用所述特殊标签清洗规则对所述待清洗文本数据进行标签清洗,获取第一文本数据;基于所述频道标识查询品牌数据库,获取与所述频道标识相对应的目标品牌数据;将所述第一文本数据与所述目标品牌数据进行匹配处理;若所述第一文本数据与所述目标品牌数据匹配成功,则对匹配成功的第一文本数据进行除外处理,再采用所述数字清洗规则对除外处理后的第一文本数据进行数字清洗,获取第二文本数据;若所述第一文本数据与所述目标品牌数据匹配不成功,则采用所述数字清洗规则对所述第一文本数据进行数字清洗,获取第二文本数据;采用所述标点符号清洗规则对所述第二文本数据进行符号清洗,获取第三文本数据;采用所述外文清洗规则对所述第三文本数据进行外文清洗,获取目标纯文本数据;
模型训练请求获取单元,用于获取模型训练请求,所述模型训练请求包括频道标识;
纯文本数据获取单元,用于从与所述频道标识相对应的训练文本数据库中,获取与所述频道标识对应的目标纯文本数据;
目标分词获取单元,用于对所述目标纯文本数据进行分词处理,获取至少两个目标分词;
语言模型获取单元,用于采用N-gram模型对至少两个所述目标分词进行模型训练,获取目标中文语言模型。
5.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述文本数据处理方法的步骤。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述文本数据处理方法的步骤。
CN201811093274.4A 2018-09-19 2018-09-19 文本数据处理方法、装置、计算机设备及存储介质 Active CN109299233B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811093274.4A CN109299233B (zh) 2018-09-19 2018-09-19 文本数据处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811093274.4A CN109299233B (zh) 2018-09-19 2018-09-19 文本数据处理方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN109299233A CN109299233A (zh) 2019-02-01
CN109299233B true CN109299233B (zh) 2024-03-01

Family

ID=65163361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811093274.4A Active CN109299233B (zh) 2018-09-19 2018-09-19 文本数据处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN109299233B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096626A (zh) * 2019-03-18 2019-08-06 平安普惠企业管理有限公司 合同文本数据的处理方法、装置、设备及存储介质
CN111797078A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 数据清洗方法、模型训练方法、装置、存储介质及设备
CN111191421B (zh) * 2019-12-30 2023-09-12 出门问问创新科技有限公司 一种文本处理方法和装置、计算机存储介质和电子设备
CN112199364A (zh) * 2020-10-16 2021-01-08 平安国际智慧城市科技股份有限公司 数据清洗方法、装置、电子设备及存储介质
CN112287638B (zh) * 2020-10-28 2022-12-09 云账户技术(天津)有限公司 一种数字展示方法及装置
CN113064885B (zh) * 2020-12-29 2023-10-27 ***通信集团贵州有限公司 一种数据清洗方法和装置
CN117648635B (zh) * 2024-01-30 2024-05-03 深圳昂楷科技有限公司 敏感信息分类分级方法及***、电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361064A (zh) * 2014-11-04 2015-02-18 中国银行股份有限公司 对数据文件的数据清洗方法和数据文件处理方法
WO2016101690A1 (zh) * 2014-12-22 2016-06-30 国家电网公司 基于时间序列分析的输变电设备的状态监测数据清洗方法
CN107784070A (zh) * 2017-09-15 2018-03-09 平安科技(深圳)有限公司 一种提高数据清洗效率的方法、装置及设备
CN108052665A (zh) * 2017-12-29 2018-05-18 深圳市中易科技有限责任公司 一种基于分布式平台的数据清洗方法及装置
CN108446362A (zh) * 2018-03-13 2018-08-24 平安普惠企业管理有限公司 数据清洗处理方法、装置、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10360268B2 (en) * 2016-08-17 2019-07-23 International Business Machines Corporation Result set optimization for a search query

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361064A (zh) * 2014-11-04 2015-02-18 中国银行股份有限公司 对数据文件的数据清洗方法和数据文件处理方法
WO2016101690A1 (zh) * 2014-12-22 2016-06-30 国家电网公司 基于时间序列分析的输变电设备的状态监测数据清洗方法
CN107784070A (zh) * 2017-09-15 2018-03-09 平安科技(深圳)有限公司 一种提高数据清洗效率的方法、装置及设备
CN108052665A (zh) * 2017-12-29 2018-05-18 深圳市中易科技有限责任公司 一种基于分布式平台的数据清洗方法及装置
CN108446362A (zh) * 2018-03-13 2018-08-24 平安普惠企业管理有限公司 数据清洗处理方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN109299233A (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
CN109299233B (zh) 文本数据处理方法、装置、计算机设备及存储介质
CN107045496B (zh) 语音识别后文本的纠错方法及纠错装置
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
CN108932294B (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
EP3318978A1 (en) System and method for semantic analysis of speech
CN110941959B (zh) 文本违规检测、文本还原方法、数据处理方法及设备
CN111581976A (zh) 医学术语的标准化方法、装置、计算机设备及存储介质
US20170220129A1 (en) Predictive Text Input Method and Device
WO2019136841A1 (zh) 直播间内容标签提取方法、存储介质、电子设备及***
US20090043741A1 (en) Autocompletion and Automatic Input Method Correction for Partially Entered Search Query
CN108763380B (zh) 商标识别检索方法、装置、计算机设备和存储介质
CN112541095B (zh) 视频标题生成方法、装置、电子设备及存储介质
JP7149721B2 (ja) 情報処理装置、文字認識エンジン最適化方法及びプログラム
CN107526721B (zh) 一种对电商产品评论词汇的歧义消除方法及装置
US20140289238A1 (en) Document creation support apparatus, method and program
CN111160007B (zh) 基于bert语言模型的搜索方法、装置、计算机设备及存储介质
US11520835B2 (en) Learning system, learning method, and program
CN114036930A (zh) 文本纠错方法、装置、设备及计算机可读介质
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN110825998A (zh) 一种网站识别方法及可读存储介质
CN112417848A (zh) 语料生成方法、装置及计算机设备
CN111369980A (zh) 语音检测方法、装置、电子设备及存储介质
US20200104361A1 (en) Machine learning of colloquial place names
Wijeratne et al. Sinhala language corpora and stopwords from a decade of sri lankan facebook
CN111401012A (zh) 文本纠错方法、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant