CN111104801B - 基于网址域名的文本分词方法、***、设备及介质 - Google Patents

基于网址域名的文本分词方法、***、设备及介质 Download PDF

Info

Publication number
CN111104801B
CN111104801B CN201911367979.5A CN201911367979A CN111104801B CN 111104801 B CN111104801 B CN 111104801B CN 201911367979 A CN201911367979 A CN 201911367979A CN 111104801 B CN111104801 B CN 111104801B
Authority
CN
China
Prior art keywords
word
domain name
website domain
result
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911367979.5A
Other languages
English (en)
Other versions
CN111104801A (zh
Inventor
杜韬
李依谦
曲守宁
朱连江
王信堂
王希普
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Jinan
Original Assignee
University of Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Jinan filed Critical University of Jinan
Priority to CN201911367979.5A priority Critical patent/CN111104801B/zh
Publication of CN111104801A publication Critical patent/CN111104801A/zh
Application granted granted Critical
Publication of CN111104801B publication Critical patent/CN111104801B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于网址域名的文本分词方法、***、设备及介质,包括:数据采集,采集若干个网址域名;对每个网址域名进行分词处理;将分词处理后的单词进行文本格式化处理;分析文本格式化处理后得到单词的单词词性;根据单词词性进行词形还原;将词形还原后的结果存储到单词库中;将待分词的网址域名,采用双向最大匹配算法与单词库进行匹配,如果匹配成功,则得到文本向量化结果;如果匹配失败,则对待分词的网址域名进行清洗,将清洗后的结果再次采用双向最大匹配算法与单词库进行匹配。

Description

基于网址域名的文本分词方法、***、设备及介质
技术领域
本公开涉及自然语言处理技术领域,特别是涉及基于网址域名的文本分词方法、***、设备及介质。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。本公开以不追踪用户行为、不获取用户隐私为前提。
近些年来,互联网络已经成为人类社会最重要的基础设施之一,对人们的经济活动与社会活动正产生着日益广泛而深入的影响。对于用户来说,不同网址间的跳转可以视为该用户的行为轨迹,随之产生的巨量上网行为数据中网址域名是最具代表性的,它包含了用户浏览网页的名称和性质等,能够充分反映用户在网址间的偏好性和相应网址间的关联性。
网址域名主要是由英文字母、***数字及一些特殊字符“_”、“@”、“/”等组成,目的是为了方便记忆和沟通一组服务器的地址(网站、电子邮件、FTP等)。
在实现本公开的过程中,发明人发现现有技术中存在以下技术问题:
第一:网址域名长度极短,现有分词技术无法有效的提取关键字。
第二:网址域名是不规则的非结构化文本,使得从中提取符合需要的精炼、可理解的知识,和后期将文本向量化都增加了难度。
第三:各公司、组织或个人在设置自己的网址域名的时候,会按照个人习惯来进行命名,常常会出现域名缩写、错拼、语言不一致等情况。
第四:对现在现有的网址域名进行web挖掘,时间、空间复杂度都过高,容易造成维度灾难。
这些问题会造成数据分析师无法从网址域名中快速的得到该网页的性质信息,从而影响在分析用户上网行为时的准确性和效率。
发明内容
为了解决现有技术的不足,本公开提供了基于网址域名的文本分词方法、***、设备及介质;其能够对现有任意网址域名进行文本解析,可实现具有较高准确率地提取其中关键字的技术。
第一方面,本公开提供了基于网址域名的文本分词方法;
基于网址域名的文本分词方法,包括:
数据采集,采集若干个网址域名;对每个网址域名进行分词处理;
将分词处理后的单词进行文本格式化处理;分析文本格式化处理后得到单词的单词词性;
根据单词词性进行词形还原;将词形还原后的结果存储到单词库中;
将待分词的网址域名,采用双向最大匹配算法与单词库进行匹配,如果匹配成功,则得到文本向量化结果;如果匹配失败,则对待分词的网址域名进行清洗,将清洗后的结果再次采用双向最大匹配算法与单词库进行匹配。
第二方面,本公开还提供了基于网址域名的文本分词***;
基于网址域名的文本分词***,包括:
数据采集模块,其被配置为:采集若干个网址域名;对每个网址域名进行分词处理;
文本格式化模块,其被配置为:将分词处理后的单词进行文本格式化处理;分析文本格式化处理后得到单词的单词词性;
词形还原模块,其被配置为:根据单词词性进行词形还原;将词形还原后的结果存储到单词库中;
匹配输出模块,其被配置为:将待分词的网址域名,采用双向最大匹配算法与单词库进行匹配,如果匹配成功,则得到文本向量化结果;如果匹配失败,则对待分词的网址域名进行清洗,将清洗后的结果再次采用双向最大匹配算法与单词库进行匹配。
第三方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述方法的步骤。
第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述方法的步骤。
与现有技术相比,本公开的有益效果是:
此方法可实现更快速剔除公司、组织或个人在命名自己网站时出现的域名冗余、无意义标识等信息;更高准确率的修改域名错拼的情况;并结合个性化词库与官方词典可更高效的、更有针对性的切分出域名中的主要信息。为下一步上网行为分析中对网址域名向量化工作,提供了可靠的准备。对于需要从巨量用户的行为轨迹中分析规律的情况下,本公开改进了原有分析用户上网行为需逐条网址记录加载后再根据网页性质人为分类的传统方法,本公开提供了一种耗时极少,消耗空间极少的方法,无需加载网页,不受网络带宽影响,通过网址域名,进行文本分析,实时获取网页性质,加强用户上网行为分析的时效性,降低了分析的研究成本。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为第一个实施例的方法流程图;
图2为第一个实施例的数据采集后的其中随机一条原始数据;
图3为第一个实施例的经过基于网址域名的极小文本的分词技术处理后的一条数据。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一,本实施例提供了基于网址域名的文本分词方法;
如图1所示,基于网址域名的文本分词方法,包括:
S1:数据采集,采集若干个网址域名;对每个网址域名进行分词处理;
S2:将分词处理后的单词进行文本格式化处理;分析文本格式化处理后得到单词的单词词性;
S3:根据单词词性进行词形还原;将词形还原后的结果存储到单词库中;
S4:将待分词的网址域名,采用双向最大匹配算法与单词库进行匹配,如果匹配成功,则得到文本向量化结果;如果匹配失败,则对待分词的网址域名进行清洗,将清洗后的结果再次采用双向最大匹配算法与单词库进行匹配。
作为一个或多个实施例,所述S1中,数据采集,采集若干个网址域名;具体步骤包括:
采集若干个网址域名,对每个网址域名去除设定的敏感单词,将去除敏感单词后的网址域名,按照时间为单位进行存储,存储到数据集S中。
作为一个或多个实施例,所述采集若干个网址域名步骤之后,所述对每个网址域名进行分词处理步骤之前,还包括:数据预处理步骤;所述数据预处理步骤,包括:
S101:对数据集S中的每个网址域名进行缺失值删除或缺失值补全;
S102:以用户为单位,提取网址域名至列向量。
应理解的,所述采集若干个网址域名步骤之后,所述对每个网址域名进行分词处理步骤之前,还包括:数据预处理步骤;所述数据预处理步骤,包括:
将数据集S进行数据预处理和去噪处理,对数据出现的缺失值,若该属性仅仅包含极少量的缺失值,则可以通过缺失值删除的操作;若该属性含有部分缺失值,可使用同类均值插补的方法进行补全。
在针对该数据进行文本切分操作,原始数据如图2所示,其中包含了服务器、用户终端等信息,针对用户上网行为分析,我们需要通过文本之间的一些标记来区分,并按每个用户为单位,提取浏览网站域名至列向量L1
作为一个或多个实施例,所述S1中,对每个网址域名进行分词处理;具体步骤包括:
对每个网址域名,利用jieba分词工具进行分词处理。
应理解的,所述S1中,对每个网址域名进行分词处理;具体步骤包括:
基于Trie树结构实现高效的词图扫描,生成句子中英文所有可能成词情况所构成的有向无环图(DAG),采用动态规划查找最大概率路径,找出基于词频的最大切分组合,将网址域名列向量L1输入jieba分词全模式模型,剔除符号,将每条记录中包含的所有可以看作是词语的字符串都扫描出来,存储至列向量L2
作为一个或多个实施例,所述S2中,将分词处理后的单词进行文本格式化处理;具体步骤包括:
将分词处理后的单词进行文本格式化处理,删除标志符号和设定的无用字符。
应理解的,所述S2中,将分词处理后的单词进行文本格式化处理;具体步骤包括:
针对列向量L2实行文本格式化操作,彻底删除标志符号和无用的字符,并以一条网址域名为单位记录,其中包含的若干单词字符串做为子记录,储存至数据集S1中。
作为一个或多个实施例,所述S2中,分析文本格式化处理后得到单词的单词词性;具体步骤包括:
基于单词中的后缀信息得到当前单词的词性。
应理解的,所述S2中,分析文本格式化处理后得到单词的单词词性;具体步骤包括:
采用正则表达式标注器,通过制定tagset转化为统一符号,利用英语单词中的后缀等信息来推测一个单词的词性,将数据集S1中的子记录按照顺序匹配,当全部都不匹配时,会被标注为概率最大的词性,最后按照一条网址域名为单位记录,以各英语单词与其对应的词性为子记录,储存至数据集S2
作为一个或多个实施例,所述S3中,根据单词词性进行词形还原;具体步骤包括:
根据单词词性,调用WordNet函数,进行词形还原操作,进而将各种单词的变形都还原为同一个形式,生成词典D1
应理解的,所述S3中,根据单词词性进行词形还原;具体步骤包括:
提取数据集S2各个子记录中英语单词和其对应的词性,调用WordNet函数,进行词形还原操作,把各种类型的单词的变形,都归一为一个形式,并按照一条网址域名为单位记录,存储至数据集S3
作为一个或多个实施例,所述S3中,将词形还原后的结果存储到单词库中;具体步骤包括:
用户构建个性化词库D2,在NLTK中利用StandfordNLP工具包完成对词库D2的操作;取个性化词库D2与词典D1的并集,生成词库D3,D3=D1∪D2。
作为一个或多个实施例,所述S4中,将待分词的网址域名,采用双向最大匹配算法与单词库进行匹配;具体步骤包括:
将待分词的网址域名,采用正向最大匹配算法与词库D3进行匹配,记录下匹配结果R1
将待分词的网址域名,采用逆向最大匹配算法与词库D3进行匹配,记录下匹配结果R2
如果匹配结果R1等于匹配结果R2,则选择匹配结果R1作为将待分词的网址域名的最终分词结果。
进一步地,若匹配结果R1不等于匹配结果R2,则选取网址域名正向最大匹配算法的结果R1和网址域名逆向最大匹配算法的结果R2中单个英文单词字数较多的结果,作为待匹配网址域名双向最大匹配算法的最终结果R3
应理解的,所述S4中,将待分词的网址域名,采用双向最大匹配算法与单词库进行匹配;具体步骤包括:
先采用网址域名正向最大匹配算法,然后和词库D3进行比对:
如果是一个英文单词就记录下来,否则通过增加一个单字,继续由左向右进行比较,直到还剩下一个单字则终止,
如果该字符串无法切分,则作为未登录处理,将处理好的这条网址域名为单位,再次匹配词库D3,若该记录正确匹配,记录下此网址域名正向最大匹配算法的结果R1
再将S3采用网址域名逆向最大匹配算法,与词库D3进行比对:
如果是一个英文单词就记录下来,否则通过减少一个单字,继续由右向左进行比较,直到还剩下一个单字则终止,
如果该字符串无法切分,则作为未登录处理,将处理好的这条网址域名为单位,再次匹配词库D3,若该记录正确匹配,记录下此网址域名逆向最大匹配算法的结果R2
若R1等于R2,即可选择网址域名正向最大匹配算法的结果R1为该记录网址域名双向最大匹配算法的最终结果R3
若匹配结果R1不等于匹配结果R2,则选取网址域名正向最大匹配算法的结果R1和网址域名逆向最大匹配算法的结果R2中单个英文单词字数较多的结果,作为待匹配网址域名双向最大匹配算法的最终结果R3
将最终结果R3储存至数据集S4中。
作为一个或多个实施例,所述S4中,如果匹配失败,则对待分词的网址域名进行清洗,将清洗后的结果再次采用双向最大匹配算法与单词库进行匹配,具体步骤包括:
若待分词的网址域名无法正确匹配,则清洗多余字符串,重新返回双向最大匹配算法,一直到待分词的网址域名所有字符串全部正确匹配词库D3且完成储存至数据集S4的操作则终止;最终所得数据集S4即为待分词网址域名的分词结果。
由图2可知域名网址可能会出现的问题,有若干干扰项,如:dldir1,针对这类样本没有实际含义,需要清洗掉;有单词组合拼接,如:checkresupdate,针对这类将若干单词连写还夹杂简写、错拼的样本,需要挑选出来有用的单词,剔除没有意义的单词,以最大概率将简写、错拼的单词还原;
有字符标识混合命名,如:80002486_fa55fa1d3a4b43bab792c6a8ff463f72.zip、wrd_template_HEAD_06281609,针对这类样本,需要删除标识符且在样本中提取有意义的单词、还原单词的时态、被动等变换,并且文件后缀需要设定较高的权重,因为其在判别性质方面具有较高的辨识度。
图3为经过基于网址域名的极小文本的分词技术处理后的一条数据。
表1案例1
表2案例2
表3案例3
表4案例4
表5案例5
实施例二,本实施例还提供了基于网址域名的文本分词***;
基于网址域名的文本分词***,包括:
数据采集模块,其被配置为:采集若干个网址域名;对每个网址域名进行分词处理;
文本格式化模块,其被配置为:将分词处理后的单词进行文本格式化处理;分析文本格式化处理后得到单词的单词词性;
词形还原模块,其被配置为:根据单词词性进行词形还原;将词形还原后的结果存储到单词库中;
匹配输出模块,其被配置为:将待分词的网址域名,采用双向最大匹配算法与单词库进行匹配,如果匹配成功,则得到文本向量化结果;如果匹配失败,则对待分词的网址域名进行清洗,将清洗后的结果再次采用双向最大匹配算法与单词库进行匹配。
实施例三,本实施例还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例一所述方法的步骤。
实施例四,本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述方法的步骤。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (7)

1.基于网址域名的文本分词方法,其特征是,包括:
数据采集,采集若干个网址域名;对每个网址域名进行分词处理,其中,按每个用户为单位,提取浏览网站域名至列向量L1;基于Trie树结构实现高效的词图扫描,生成句子中英文所有成词情况所构成的有向无环图,采用动态规划查找最大概率路径,找出基于词频的最大切分组合,将网址域名列向量L1输入jieba分词全模式模型,剔除符号,将每条记录中包含的所有看作是词语的字符串都扫描出来,存储至列向量L2;
将分词处理后的单词进行文本格式化处理;分析文本格式化处理后得到单词的单词词性,其中,对列向量L2实行文本格式化操作,彻底删除标志符号和无用的字符,并以一条网址域名为单位记录,其中包含的若干单词字符串做为子记录,储存至数据集S1中;
采用正则表达式标注器,通过制定tagset转化为统一符号,利用英语单词中的后缀信息来推测一个单词的词性,将数据集S1中的子记录按照顺序匹配,当全部都不匹配时,会被标注为概率最大的词性,最后按照一条网址域名为单位记录,以各英语单词与其对应的词性为子记录,储存至数据集S2
根据单词词性进行词形还原;将词形还原后的结果存储到单词库中,具体为:根据单词词性,调用WordNet函数,进行词形还原操作,进而将各种单词的变形都还原为同一个形式,生成词典D1
用户构建个性化词库D2,在NLTK中利用StandfordNLP工具包完成对词库D2的操作;取个性化词库D2与词典D1的并集,生成词库,/>
将待分词的网址域名,采用双向最大匹配算法与单词库进行匹配,如果匹配成功,则得到文本向量化结果;如果匹配失败,则对待分词的网址域名进行清洗,将清洗后的结果再次采用双向最大匹配算法与单词库进行匹配,具体为:将待分词的网址域名,采用正向最大匹配算法与词库进行匹配,记录下匹配结果/>;将待分词的网址域名,采用逆向最大匹配算法与词库/>进行匹配,记录下匹配结果/>
如果匹配结果等于匹配结果/>,则选择匹配结果/>作为将待分词的网址域名的最终分词结果;
若匹配结果不等于匹配结果/>,则选取网址域名正向最大匹配算法的结果R1和网址域名逆向最大匹配算法的结果R2中单个英文单词字数较多的结果,作为待匹配网址域名双向最大匹配算法的最终结果R3
2.如权利要求1所述的方法,其特征是,数据采集,采集若干个网址域名;具体步骤包括:
采集若干个网址域名,对每个网址域名去除设定的敏感单词,将去除敏感单词后的网址域名,按照时间为单位进行存储,存储到数据集S中。
3.如权利要求1所述的方法,其特征是,所述采集若干个网址域名步骤之后,所述对每个网址域名进行分词处理步骤之前,还包括:数据预处理步骤;所述数据预处理步骤,包括:
S101:对数据集S中的每个网址域名进行缺失值删除或缺失值补全;
S102:以用户为单位,提取网址域名至列向量。
4.如权利要求1所述的方法,其特征是,对每个网址域名进行分词处理;具体步骤包括:对每个网址域名,利用jieba分词工具进行分词处理。
5.基于网址域名的文本分词***,其特征是,包括:
数据采集模块,其被配置为:采集若干个网址域名;对每个网址域名进行分词处理,其中,按每个用户为单位,提取浏览网站域名至列向量L1;基于Trie树结构实现高效的词图扫描,生成句子中英文所有成词情况所构成的有向无环图,采用动态规划查找最大概率路径,找出基于词频的最大切分组合,将网址域名列向量L1输入jieba分词全模式模型,剔除符号,将每条记录中包含的所有看作是词语的字符串都扫描出来,存储至列向量L2;
文本格式化模块,其被配置为:将分词处理后的单词进行文本格式化处理;分析文本格式化处理后得到单词的单词词性,其中,对列向量L2实行文本格式化操作,彻底删除标志符号和无用的字符,并以一条网址域名为单位记录,其中包含的若干单词字符串做为子记录,储存至数据集S1中;
采用正则表达式标注器,通过制定tagset转化为统一符号,利用英语单词中的后缀信息来推测一个单词的词性,将数据集S1中的子记录按照顺序匹配,当全部都不匹配时,会被标注为概率最大的词性,最后按照一条网址域名为单位记录,以各英语单词与其对应的词性为子记录,储存至数据集S2
词形还原模块,其被配置为:根据单词词性进行词形还原;将词形还原后的结果存储到单词库中,具体为:根据单词词性,调用WordNet函数,进行词形还原操作,进而将各种单词的变形都还原为同一个形式,生成词典D1
用户构建个性化词库D2,在NLTK中利用StandfordNLP工具包完成对词库D2的操作;取个性化词库D2与词典D1的并集,生成词库,/>
匹配输出模块,其被配置为:将待分词的网址域名,采用双向最大匹配算法与单词库进行匹配,如果匹配成功,则得到文本向量化结果;如果匹配失败,则对待分词的网址域名进行清洗,将清洗后的结果再次采用双向最大匹配算法与单词库进行匹配,具体为:将待分词的网址域名,采用正向最大匹配算法与词库进行匹配,记录下匹配结果/>;将待分词的网址域名,采用逆向最大匹配算法与词库/>进行匹配,记录下匹配结果/>
如果匹配结果等于匹配结果/>,则选择匹配结果/>作为将待分词的网址域名的最终分词结果;
若匹配结果不等于匹配结果/>,则选取网址域名正向最大匹配算法的结果R1和网址域名逆向最大匹配算法的结果R2中单个英文单词字数较多的结果,作为待匹配网址域名双向最大匹配算法的最终结果R3
6.一种电子设备,其特征是,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-4任一项方法所述的步骤。
7.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,成权利要求1-4任一项方法所述的步骤。
CN201911367979.5A 2019-12-26 2019-12-26 基于网址域名的文本分词方法、***、设备及介质 Active CN111104801B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911367979.5A CN111104801B (zh) 2019-12-26 2019-12-26 基于网址域名的文本分词方法、***、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911367979.5A CN111104801B (zh) 2019-12-26 2019-12-26 基于网址域名的文本分词方法、***、设备及介质

Publications (2)

Publication Number Publication Date
CN111104801A CN111104801A (zh) 2020-05-05
CN111104801B true CN111104801B (zh) 2023-09-26

Family

ID=70424414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911367979.5A Active CN111104801B (zh) 2019-12-26 2019-12-26 基于网址域名的文本分词方法、***、设备及介质

Country Status (1)

Country Link
CN (1) CN111104801B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112992376A (zh) * 2021-03-04 2021-06-18 山东大学 基于权重调整的疾病名称匹配方法及***
CN113095050A (zh) * 2021-04-19 2021-07-09 广东电网有限责任公司 一种智能成票方法、***、设备及存储介质
CN113645240B (zh) * 2021-08-11 2023-05-23 积至(海南)信息技术有限公司 一种基于图结构的恶意域名群落挖掘方法
CN113806477A (zh) * 2021-08-26 2021-12-17 广东广信通信服务有限公司 一种文本自动标注方法、装置、终端及存储介质
CN116579344B (zh) * 2023-07-12 2023-10-20 吉奥时空信息技术股份有限公司 一种案件主体抽取方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901249A (zh) * 2009-05-26 2010-12-01 复旦大学 一种图像检索中基于文本的查询扩展与排序方法
CN105975454A (zh) * 2016-04-21 2016-09-28 广州精点计算机科技有限公司 一种网页文本的中文分词方法和装置
CN108228710A (zh) * 2017-11-30 2018-06-29 中国科学院信息工程研究所 一种针对url的分词方法及装置
CN108509419A (zh) * 2018-03-21 2018-09-07 山东中医药大学 中医药古籍文献分词和词性标引方法及***
CN109271626A (zh) * 2018-08-31 2019-01-25 北京工业大学 文本语义分析方法
CN109344263A (zh) * 2018-08-01 2019-02-15 昆明理工大学 一种地址匹配方法
CN110457466A (zh) * 2019-06-28 2019-11-15 谭浩 生成访谈报告的方法、计算机可读存储介质和终端设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901249A (zh) * 2009-05-26 2010-12-01 复旦大学 一种图像检索中基于文本的查询扩展与排序方法
CN105975454A (zh) * 2016-04-21 2016-09-28 广州精点计算机科技有限公司 一种网页文本的中文分词方法和装置
CN108228710A (zh) * 2017-11-30 2018-06-29 中国科学院信息工程研究所 一种针对url的分词方法及装置
CN108509419A (zh) * 2018-03-21 2018-09-07 山东中医药大学 中医药古籍文献分词和词性标引方法及***
CN109344263A (zh) * 2018-08-01 2019-02-15 昆明理工大学 一种地址匹配方法
CN109271626A (zh) * 2018-08-31 2019-01-25 北京工业大学 文本语义分析方法
CN110457466A (zh) * 2019-06-28 2019-11-15 谭浩 生成访谈报告的方法、计算机可读存储介质和终端设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
党倩娜.数据预处理与文本分词.《新兴技术弱信号监测机制研究》.2018,第89-92页. *

Also Published As

Publication number Publication date
CN111104801A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN111104801B (zh) 基于网址域名的文本分词方法、***、设备及介质
Nayak et al. Survey on pre-processing techniques for text mining
US7783476B2 (en) Word extraction method and system for use in word-breaking using statistical information
US7461056B2 (en) Text mining apparatus and associated methods
Huston et al. Evaluating verbose query processing techniques
Ladani et al. Stopword identification and removal techniques on tc and ir applications: A survey
US7424421B2 (en) Word collection method and system for use in word-breaking
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
TWI656450B (zh) 從中文語料庫提取知識的方法和系統
CN103678412A (zh) 一种文档检索的方法及装置
Albishre et al. Effective 20 newsgroups dataset cleaning
CN104346382B (zh) 使用语言查询的文本分析***和方法
CN112035723A (zh) 资源库的确定方法和装置、存储介质及电子装置
Jia et al. A Chinese unknown word recognition method for micro-blog short text based on improved FP-growth
Osman et al. Stemming Tigrinya words for information retrieval
Govilkar et al. Extraction of root words using morphological analyzer for devanagari script
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
Elakiya et al. Designing preprocessing framework (ERT) for text mining application
Patil et al. Inflectional and derivational hybrid stemmer for sentiment analysis: a case study with Marathi tweets
Al-Sultany et al. Enriching tweets for topic modeling via linking to the wikipedia
Husain et al. A language Independent Approach to develop Urdu stemmer
Hajjem et al. Building comparable corpora from social networks
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
TWI534640B (zh) Chinese network information monitoring and analysis system and its method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant