CN111104801B

CN111104801B - 基于网址域名的文本分词方法、***、设备及介质

Info

Publication number: CN111104801B
Application number: CN201911367979.5A
Authority: CN
Inventors: 杜韬; 李依谦; 曲守宁; 朱连江; 王信堂; 王希普
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2023-09-26
Anticipated expiration: 2039-12-26
Also published as: CN111104801A

Abstract

本发明公开了基于网址域名的文本分词方法、***、设备及介质，包括：数据采集，采集若干个网址域名；对每个网址域名进行分词处理；将分词处理后的单词进行文本格式化处理；分析文本格式化处理后得到单词的单词词性；根据单词词性进行词形还原；将词形还原后的结果存储到单词库中；将待分词的网址域名，采用双向最大匹配算法与单词库进行匹配，如果匹配成功，则得到文本向量化结果；如果匹配失败，则对待分词的网址域名进行清洗，将清洗后的结果再次采用双向最大匹配算法与单词库进行匹配。

Description

基于网址域名的文本分词方法、***、设备及介质

技术领域

本公开涉及自然语言处理技术领域，特别是涉及基于网址域名的文本分词方法、***、设备及介质。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。本公开以不追踪用户行为、不获取用户隐私为前提。

近些年来，互联网络已经成为人类社会最重要的基础设施之一，对人们的经济活动与社会活动正产生着日益广泛而深入的影响。对于用户来说，不同网址间的跳转可以视为该用户的行为轨迹，随之产生的巨量上网行为数据中网址域名是最具代表性的，它包含了用户浏览网页的名称和性质等，能够充分反映用户在网址间的偏好性和相应网址间的关联性。

网址域名主要是由英文字母、***数字及一些特殊字符“_”、“@”、“/”等组成，目的是为了方便记忆和沟通一组服务器的地址(网站、电子邮件、FTP等)。

在实现本公开的过程中，发明人发现现有技术中存在以下技术问题：

第一：网址域名长度极短，现有分词技术无法有效的提取关键字。

第二：网址域名是不规则的非结构化文本，使得从中提取符合需要的精炼、可理解的知识，和后期将文本向量化都增加了难度。

第三：各公司、组织或个人在设置自己的网址域名的时候，会按照个人习惯来进行命名，常常会出现域名缩写、错拼、语言不一致等情况。

第四：对现在现有的网址域名进行web挖掘，时间、空间复杂度都过高，容易造成维度灾难。

这些问题会造成数据分析师无法从网址域名中快速的得到该网页的性质信息，从而影响在分析用户上网行为时的准确性和效率。

发明内容

为了解决现有技术的不足，本公开提供了基于网址域名的文本分词方法、***、设备及介质；其能够对现有任意网址域名进行文本解析，可实现具有较高准确率地提取其中关键字的技术。

第一方面，本公开提供了基于网址域名的文本分词方法；

基于网址域名的文本分词方法，包括：

数据采集，采集若干个网址域名；对每个网址域名进行分词处理；

将分词处理后的单词进行文本格式化处理；分析文本格式化处理后得到单词的单词词性；

根据单词词性进行词形还原；将词形还原后的结果存储到单词库中；

将待分词的网址域名，采用双向最大匹配算法与单词库进行匹配，如果匹配成功，则得到文本向量化结果；如果匹配失败，则对待分词的网址域名进行清洗，将清洗后的结果再次采用双向最大匹配算法与单词库进行匹配。

第二方面，本公开还提供了基于网址域名的文本分词***；

基于网址域名的文本分词***，包括：

数据采集模块，其被配置为：采集若干个网址域名；对每个网址域名进行分词处理；

文本格式化模块，其被配置为：将分词处理后的单词进行文本格式化处理；分析文本格式化处理后得到单词的单词词性；

词形还原模块，其被配置为：根据单词词性进行词形还原；将词形还原后的结果存储到单词库中；

匹配输出模块，其被配置为：将待分词的网址域名，采用双向最大匹配算法与单词库进行匹配，如果匹配成功，则得到文本向量化结果；如果匹配失败，则对待分词的网址域名进行清洗，将清洗后的结果再次采用双向最大匹配算法与单词库进行匹配。

第三方面，本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述方法的步骤。

第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述方法的步骤。

与现有技术相比，本公开的有益效果是：

此方法可实现更快速剔除公司、组织或个人在命名自己网站时出现的域名冗余、无意义标识等信息；更高准确率的修改域名错拼的情况；并结合个性化词库与官方词典可更高效的、更有针对性的切分出域名中的主要信息。为下一步上网行为分析中对网址域名向量化工作，提供了可靠的准备。对于需要从巨量用户的行为轨迹中分析规律的情况下，本公开改进了原有分析用户上网行为需逐条网址记录加载后再根据网页性质人为分类的传统方法，本公开提供了一种耗时极少，消耗空间极少的方法，无需加载网页，不受网络带宽影响，通过网址域名，进行文本分析，实时获取网页性质，加强用户上网行为分析的时效性，降低了分析的研究成本。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为第一个实施例的方法流程图；

图2为第一个实施例的数据采集后的其中随机一条原始数据；

图3为第一个实施例的经过基于网址域名的极小文本的分词技术处理后的一条数据。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一，本实施例提供了基于网址域名的文本分词方法；

如图1所示，基于网址域名的文本分词方法，包括：

S1：数据采集，采集若干个网址域名；对每个网址域名进行分词处理；

S2：将分词处理后的单词进行文本格式化处理；分析文本格式化处理后得到单词的单词词性；

S3：根据单词词性进行词形还原；将词形还原后的结果存储到单词库中；

S4：将待分词的网址域名，采用双向最大匹配算法与单词库进行匹配，如果匹配成功，则得到文本向量化结果；如果匹配失败，则对待分词的网址域名进行清洗，将清洗后的结果再次采用双向最大匹配算法与单词库进行匹配。

作为一个或多个实施例，所述S1中，数据采集，采集若干个网址域名；具体步骤包括：

采集若干个网址域名，对每个网址域名去除设定的敏感单词，将去除敏感单词后的网址域名，按照时间为单位进行存储，存储到数据集S中。

作为一个或多个实施例，所述采集若干个网址域名步骤之后，所述对每个网址域名进行分词处理步骤之前，还包括：数据预处理步骤；所述数据预处理步骤，包括：

S101：对数据集S中的每个网址域名进行缺失值删除或缺失值补全；

S102：以用户为单位，提取网址域名至列向量。

应理解的，所述采集若干个网址域名步骤之后，所述对每个网址域名进行分词处理步骤之前，还包括：数据预处理步骤；所述数据预处理步骤，包括：

将数据集S进行数据预处理和去噪处理，对数据出现的缺失值，若该属性仅仅包含极少量的缺失值，则可以通过缺失值删除的操作；若该属性含有部分缺失值，可使用同类均值插补的方法进行补全。

在针对该数据进行文本切分操作，原始数据如图2所示，其中包含了服务器、用户终端等信息，针对用户上网行为分析，我们需要通过文本之间的一些标记来区分，并按每个用户为单位，提取浏览网站域名至列向量L₁。

作为一个或多个实施例，所述S1中，对每个网址域名进行分词处理；具体步骤包括：

对每个网址域名，利用jieba分词工具进行分词处理。

应理解的，所述S1中，对每个网址域名进行分词处理；具体步骤包括：

基于Trie树结构实现高效的词图扫描，生成句子中英文所有可能成词情况所构成的有向无环图(DAG)，采用动态规划查找最大概率路径，找出基于词频的最大切分组合，将网址域名列向量L₁输入jieba分词全模式模型，剔除符号，将每条记录中包含的所有可以看作是词语的字符串都扫描出来，存储至列向量L₂。

作为一个或多个实施例，所述S2中，将分词处理后的单词进行文本格式化处理；具体步骤包括：

将分词处理后的单词进行文本格式化处理，删除标志符号和设定的无用字符。

应理解的，所述S2中，将分词处理后的单词进行文本格式化处理；具体步骤包括：

针对列向量L₂实行文本格式化操作，彻底删除标志符号和无用的字符，并以一条网址域名为单位记录，其中包含的若干单词字符串做为子记录，储存至数据集S₁中。

作为一个或多个实施例，所述S2中，分析文本格式化处理后得到单词的单词词性；具体步骤包括：

基于单词中的后缀信息得到当前单词的词性。

应理解的，所述S2中，分析文本格式化处理后得到单词的单词词性；具体步骤包括：

采用正则表达式标注器，通过制定tagset转化为统一符号，利用英语单词中的后缀等信息来推测一个单词的词性，将数据集S₁中的子记录按照顺序匹配，当全部都不匹配时，会被标注为概率最大的词性，最后按照一条网址域名为单位记录，以各英语单词与其对应的词性为子记录，储存至数据集S₂。

作为一个或多个实施例，所述S3中，根据单词词性进行词形还原；具体步骤包括：

根据单词词性，调用WordNet函数，进行词形还原操作，进而将各种单词的变形都还原为同一个形式，生成词典D₁。

应理解的，所述S3中，根据单词词性进行词形还原；具体步骤包括：

提取数据集S₂各个子记录中英语单词和其对应的词性，调用WordNet函数，进行词形还原操作，把各种类型的单词的变形，都归一为一个形式，并按照一条网址域名为单位记录，存储至数据集S₃。

作为一个或多个实施例，所述S3中，将词形还原后的结果存储到单词库中；具体步骤包括：

用户构建个性化词库D₂，在NLTK中利用StandfordNLP工具包完成对词库D₂的操作；取个性化词库D₂与词典D₁的并集，生成词库D3，D3＝D1∪D2。

作为一个或多个实施例，所述S4中，将待分词的网址域名，采用双向最大匹配算法与单词库进行匹配；具体步骤包括：

将待分词的网址域名，采用正向最大匹配算法与词库D3进行匹配，记录下匹配结果R₁；

将待分词的网址域名，采用逆向最大匹配算法与词库D3进行匹配，记录下匹配结果R₂；

如果匹配结果R₁等于匹配结果R₂，则选择匹配结果R₁作为将待分词的网址域名的最终分词结果。

进一步地，若匹配结果R₁不等于匹配结果R₂，则选取网址域名正向最大匹配算法的结果R₁和网址域名逆向最大匹配算法的结果R₂中单个英文单词字数较多的结果，作为待匹配网址域名双向最大匹配算法的最终结果R₃。

应理解的，所述S4中，将待分词的网址域名，采用双向最大匹配算法与单词库进行匹配；具体步骤包括：

先采用网址域名正向最大匹配算法，然后和词库D₃进行比对：

如果是一个英文单词就记录下来，否则通过增加一个单字，继续由左向右进行比较，直到还剩下一个单字则终止，

如果该字符串无法切分，则作为未登录处理，将处理好的这条网址域名为单位，再次匹配词库D₃，若该记录正确匹配，记录下此网址域名正向最大匹配算法的结果R₁；

再将S₃采用网址域名逆向最大匹配算法，与词库D₃进行比对：

如果是一个英文单词就记录下来，否则通过减少一个单字，继续由右向左进行比较，直到还剩下一个单字则终止，

如果该字符串无法切分，则作为未登录处理，将处理好的这条网址域名为单位，再次匹配词库D₃，若该记录正确匹配，记录下此网址域名逆向最大匹配算法的结果R₂。

若R₁等于R₂，即可选择网址域名正向最大匹配算法的结果R₁为该记录网址域名双向最大匹配算法的最终结果R₃；

若匹配结果R₁不等于匹配结果R₂，则选取网址域名正向最大匹配算法的结果R₁和网址域名逆向最大匹配算法的结果R₂中单个英文单词字数较多的结果，作为待匹配网址域名双向最大匹配算法的最终结果R₃；

将最终结果R₃储存至数据集S₄中。

作为一个或多个实施例，所述S4中，如果匹配失败，则对待分词的网址域名进行清洗，将清洗后的结果再次采用双向最大匹配算法与单词库进行匹配，具体步骤包括：

若待分词的网址域名无法正确匹配，则清洗多余字符串，重新返回双向最大匹配算法，一直到待分词的网址域名所有字符串全部正确匹配词库D₃且完成储存至数据集S₄的操作则终止；最终所得数据集S₄即为待分词网址域名的分词结果。

由图2可知域名网址可能会出现的问题，有若干干扰项，如：dldir1，针对这类样本没有实际含义，需要清洗掉；有单词组合拼接，如：checkresupdate，针对这类将若干单词连写还夹杂简写、错拼的样本，需要挑选出来有用的单词，剔除没有意义的单词，以最大概率将简写、错拼的单词还原；

有字符标识混合命名，如：80002486_fa55fa1d3a4b43bab792c6a8ff463f72.zip、wrd_template_HEAD_06281609，针对这类样本，需要删除标识符且在样本中提取有意义的单词、还原单词的时态、被动等变换，并且文件后缀需要设定较高的权重，因为其在判别性质方面具有较高的辨识度。

图3为经过基于网址域名的极小文本的分词技术处理后的一条数据。

表1案例1

表2案例2

表3案例3

表4案例4

表5案例5

实施例二，本实施例还提供了基于网址域名的文本分词***；

基于网址域名的文本分词***，包括：

实施例三，本实施例还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例一所述方法的步骤。

实施例四，本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述方法的步骤。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于网址域名的文本分词方法，其特征是，包括：

数据采集，采集若干个网址域名；对每个网址域名进行分词处理，其中，按每个用户为单位，提取浏览网站域名至列向量L1；基于Trie树结构实现高效的词图扫描，生成句子中英文所有成词情况所构成的有向无环图，采用动态规划查找最大概率路径，找出基于词频的最大切分组合，将网址域名列向量L1输入jieba分词全模式模型，剔除符号，将每条记录中包含的所有看作是词语的字符串都扫描出来，存储至列向量L2；

将分词处理后的单词进行文本格式化处理；分析文本格式化处理后得到单词的单词词性，其中，对列向量L2实行文本格式化操作，彻底删除标志符号和无用的字符，并以一条网址域名为单位记录，其中包含的若干单词字符串做为子记录，储存至数据集S1中；

采用正则表达式标注器，通过制定tagset转化为统一符号，利用英语单词中的后缀信息来推测一个单词的词性，将数据集S₁中的子记录按照顺序匹配，当全部都不匹配时，会被标注为概率最大的词性，最后按照一条网址域名为单位记录，以各英语单词与其对应的词性为子记录，储存至数据集S₂；

根据单词词性进行词形还原；将词形还原后的结果存储到单词库中，具体为：根据单词词性，调用WordNet函数，进行词形还原操作，进而将各种单词的变形都还原为同一个形式，生成词典D₁；

用户构建个性化词库D₂，在NLTK中利用StandfordNLP工具包完成对词库D₂的操作；取个性化词库D₂与词典D₁的并集，生成词库，/>；

将待分词的网址域名，采用双向最大匹配算法与单词库进行匹配，如果匹配成功，则得到文本向量化结果；如果匹配失败，则对待分词的网址域名进行清洗，将清洗后的结果再次采用双向最大匹配算法与单词库进行匹配，具体为：将待分词的网址域名，采用正向最大匹配算法与词库进行匹配，记录下匹配结果/>；将待分词的网址域名，采用逆向最大匹配算法与词库/>进行匹配，记录下匹配结果/>；

如果匹配结果等于匹配结果/>，则选择匹配结果/>作为将待分词的网址域名的最终分词结果；

若匹配结果不等于匹配结果/>，则选取网址域名正向最大匹配算法的结果R₁和网址域名逆向最大匹配算法的结果R₂中单个英文单词字数较多的结果，作为待匹配网址域名双向最大匹配算法的最终结果R₃。

2.如权利要求1所述的方法，其特征是，数据采集，采集若干个网址域名；具体步骤包括：

3.如权利要求1所述的方法，其特征是，所述采集若干个网址域名步骤之后，所述对每个网址域名进行分词处理步骤之前，还包括：数据预处理步骤；所述数据预处理步骤，包括：

S102：以用户为单位，提取网址域名至列向量。

4.如权利要求1所述的方法，其特征是，对每个网址域名进行分词处理；具体步骤包括：对每个网址域名，利用jieba分词工具进行分词处理。

5.基于网址域名的文本分词***，其特征是，包括：

数据采集模块，其被配置为：采集若干个网址域名；对每个网址域名进行分词处理，其中，按每个用户为单位，提取浏览网站域名至列向量L1；基于Trie树结构实现高效的词图扫描，生成句子中英文所有成词情况所构成的有向无环图，采用动态规划查找最大概率路径，找出基于词频的最大切分组合，将网址域名列向量L1输入jieba分词全模式模型，剔除符号，将每条记录中包含的所有看作是词语的字符串都扫描出来，存储至列向量L2；

文本格式化模块，其被配置为：将分词处理后的单词进行文本格式化处理；分析文本格式化处理后得到单词的单词词性，其中，对列向量L2实行文本格式化操作，彻底删除标志符号和无用的字符，并以一条网址域名为单位记录，其中包含的若干单词字符串做为子记录，储存至数据集S1中；

词形还原模块，其被配置为：根据单词词性进行词形还原；将词形还原后的结果存储到单词库中，具体为：根据单词词性，调用WordNet函数，进行词形还原操作，进而将各种单词的变形都还原为同一个形式，生成词典D₁；

匹配输出模块，其被配置为：将待分词的网址域名，采用双向最大匹配算法与单词库进行匹配，如果匹配成功，则得到文本向量化结果；如果匹配失败，则对待分词的网址域名进行清洗，将清洗后的结果再次采用双向最大匹配算法与单词库进行匹配，具体为：将待分词的网址域名，采用正向最大匹配算法与词库进行匹配，记录下匹配结果/>；将待分词的网址域名，采用逆向最大匹配算法与词库/>进行匹配，记录下匹配结果/>；

6.一种电子设备，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-4任一项方法所述的步骤。

7.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，成权利要求1-4任一项方法所述的步骤。