CN113553429A - 一种规范化标签体系构建及文本自动标注方法 - Google Patents
一种规范化标签体系构建及文本自动标注方法 Download PDFInfo
- Publication number
- CN113553429A CN113553429A CN202110765666.6A CN202110765666A CN113553429A CN 113553429 A CN113553429 A CN 113553429A CN 202110765666 A CN202110765666 A CN 202110765666A CN 113553429 A CN113553429 A CN 113553429A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- words
- label
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种规范化标签体系构建及文本自动标注方法,涉及知识图谱、语义分析、文本生成等技术领域。在标签体系的构建方法中,采用隐含狄利克雷分布LDA进行主题聚类,同时融合上下位信息进行主题提取,该方法有效地提高了主题提取的准确率,相较于目前大部分标签,可以确保同一维度的标签处于同一层,不会出现如“体育、足球、跑步、球类运动”这种较为混乱的情况,这样大大增强了数据的规范性,且对于人物画像、知识图谱、推荐***等应用也有积极的影响。
Description
技术领域
本发明涉及知识图谱、语义分析、文本生成等技术领域,具体涉及一种规范化标签体系构建及文本自动标注方法。
背景技术
目前信息技术突飞猛进,加之互联网的便利,使得数据越来越多,在如此庞大的数据浪潮下,如何获取到真正需要的信息是一个关键的问题。大部分情况下,标签是搭在数据和人之间的桥梁,比如推荐***,某平台给一个喜欢足球的人推送的一定是带有足球标签的信息,一个推荐***效果的好坏一般取决于标签体系的好坏。
在进行文本标注时,通常有两种思路,第一种是从已有的标签中选取合适的标签对目标文章进行标注。比如基于协同过滤的方法,对于一篇待标注的新文章,从之前收集到的已标注文章中,找出一定量的相似文章,然后整合其标签,并对这些标签进行重新排序,再从中选取合适的标签作为目标文章的标签。这种方法具有一定的妥协性,因为选取的是候选标签中合适的,并不是真正合适的,且大部分已标注文章是来源于网络,噪音较多,影响标注结果。第二种是直接抽取文章中的关键词,进行相关处理后直接作为目标文章的标签。早期大部分标签体系构建方法都是基于Golder提出的协同标签体系,协作标记主要是许多用户以关键字的形式向共享内容添加元数据的过程,该方法还提出了一个动态的协同标记模型,预测这些稳定的模式,并将它们与仿制和共享知识联系起来。Yeung和Tahar等人利用分众分类法构建标签体系,分众分类法是指一种使用者以任意关键字进行分类的协同工作,与简单的通过使用自订标签进行分类不一样,最终分众分类的词一般都是频率较高的词。协同标签体系的构建往往制约于个人和公共两方面因素,因为个人的知识面及表述习惯不同,导致同一内容不同用户标注也难以统一,标签体系很难达到体系化。在这之后,Skillen、Maleszka等人尝试利用本体框架搭建本体以生成标签体系,但由于生成的标签体系准确度低以及本体构建的复杂也未能进一步发展。Farseev等人提出利用主题模型构建标签体系,主题模型最早的代表模型是潜在语义分析LSA,通过对文本内容分析从而提取出词语和词语之间潜在的语义结构,并利用这种语义结构来降低特征空间维度。其后,在此基础上引入概率模型,提出了基于概率模型的概率潜在语义分析模型PLSA,一篇文档被认为由多个主题按照某种概率分布混合而成,每个主题都是词语的概率分布,文档中的每个词语都是由一个固定的主题生成。2003年,Blei DM等人提出了隐含狄利克雷分布LDA,它将主题看作是K维参数的潜在随机变量,认为一篇文档是通过某个概率选择某个主题,并从这个主题中以某个概率得到某个词语这样的过程生成的。而LDA主题的提取则是上述过程的逆操作。李娜等人提出了采用语义分析的标签体系构建方法,通过分析不同网站导航标签体系中标签的相似性,学习不同导航标签间的等同映射关系和上下位映射关系,从而融合不同网站的标签体系。但是该方法对于网站本身的标签依赖性强,构建的标签体系优劣取决于网站标签的好坏,而目前网站的标签体系往往具有本土化的特性,是为了迎合自身用户特性而构建的,因此该方法局限性较强。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何设计一种规范化的标签体系和该体系的构建方法,以及利用该标签体系进行文本自动标注的方法。
(二)技术方案
为了解决上述技术问题,本发明提供了一种规范化标签体系构建方法,包括以下步骤:
1.1、输入第一分类标签:{文本};
1.2、输入第二类分类标签:{政治,科技,财经,军事,教育,社会,文化,娱乐,体育,其他};
1.3、对爬取的已有的文本数据作为目标文章进行预处理;
1.4、利用基于LDA主题的聚类模型对预处理后的文本数据进行聚类;
1.5、取聚类后目标文章中的前几个主题词,作为候选的第四分类标签;
1.6、利用基于web知识库查询上下位关系,最终抽取出概率最高的上位词作为第三分类标签;
1.7、通过计算第三分类标签和第二分类标签的相似度,将二者进行匹配关联;
1.8、输出四层标签体系。
本发明还提供了一种基于所述的规范化标签体系构建方法实现文本自动标注的方法,包括以下步骤:
2.1、利用TF-IDF算法对待标注文本进行主题词抽取;
2.2、将抽取出的主题词输入匹配分类器中,与第四分类标签,即主题词进行匹配,根据匹配的概率选择对应的分类标签,成功匹配后对文本进行标注,输出到已标注数据库,而未能成功标注的文本,转到步骤2.3;
2.3、将未能成功标注的文本作为下一步标签体系构建的输入;
2.4、通过构建的标签体系将未能成功标注的文本与第三分类进行匹配关联,然后进行标注,其中聚类后得到的主题词存入第四分类标签中;
2.5、输出已标注文本。
本发明还提供了一种所述的规范化标签体系构建方法在知识图谱、语义分析、文本生成技术领域中的应用。
(三)有益效果
本发明提出了一种规范化的标签体系和该体系的构建方法,以及利用该标签体系进行文本自动标注的方法。在标签体系的构建方法中,采用隐含狄利克雷分布LDA进行主题聚类,同时融合上下位信息进行主题提取,该方法有效地提高了主题提取的准确率,相较于目前大部分标签,可以确保同一维度的标签处于同一层,不会出现如“体育、足球、跑步、球类运动”这种较为混乱的情况,这样大大增强了数据的规范性,且对于人物画像、知识图谱、推荐***等应用也有积极的影响。
附图说明
图1为本发明的标签体系示例图;
图2为标签体系构建流程图;
图3为文本自动标注流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明涉及自然语言处理中的文本聚类、分类、语义识别、关键词提取以及词语相似度计算等方法。具体是提出一种较为规范、通用的一种标签体系及构建方法,同时利用此标签体系为文本进行自动标注。
为提高标签体系的规范性、通用性以及易用性,本发明设计了四层树形结构的标签体系,如图1所示。第一层由第一分类标签组成,主要为标注的对象类型,目前本发明只针对文本进行标签体系构建,设计第一分类标签主要是为了以后体系方便扩展,除文本外还有图片、音频及视频等;第二层由第二分类标签组成,主要为文本内容的所属领域,第二分类标签设计的目的主要是为方便标签体系的统一,因此在领域的选取上,尽可能地覆盖大部分言论内容,此外还设置其他类别,用于收录未覆盖言论,经过挖掘分析,本发明中第二分类标签为政治、科技、财经、军事、教育、社会、文化、娱乐、体育、其他,这十类。第三层由第三分类标签组成,主要是文本内容所属领域下的细分类型,比如体育中的田径、球类、游泳等。第四层由第四分类标签组成,主要是关键词或主题词等,比如跑步、篮球、仰泳等。
本发明采用自顶而下、自底向上的方法,构建比较规范的标签体系。首先构建第一、二分类标签,然后通过聚类的方法将已有的文本数据中的目标文章找出,分析抽取目标文章的主题词,选出其中权重较高的主题词或关键词作为第四分类标签,利用上下位关系抽取主题词(或关键词)上位词,将输出的结果作为第三分类标签,然后通过计算第三分类标签与第二分类标签之间的相关度,将其进行关联,最终形成具有四层树形结构的标签体系。
对于利用上面构建的标签体系实现的文本自动标注方法,本发明首先利用机器学习抽取待标注文本的主题词,将该主题词与第四分类标签进行匹配,若重合率达到90%以上,则直接进行标注,这样做可达到剪枝的效果,减少时间复杂度;而对于未能成功匹配(重合率在90%以下)的待标注文本,则查找主题词的上位词与第三分类标签进行匹配,若可匹配到,则直接进行标注,若未匹配到,则将查找到的该主题词的上位词作为第三分类标签加入到标签体系中,同时计算新加入的第三分类标签与第二分类标签之间的相似度,实现新的关联。
参考图2,规范化标签体系构建方法为:
1.1、输入第一分类标签:{文本};
1.2、输入第二类分类标签:{政治,科技,财经,军事,教育,社会,文化,娱乐,体育,其他};
1.3、对爬取的已有的文本数据(作为目标文章)进行预处理;
1.4、利用基于LDA主题的聚类模型对预处理后的文本数据进行聚类;
1.5、取聚类后目标文章中的前10个主题词,作为候选的第四分类标签;
1.6、利用基于web知识库查询上下位关系,最终抽取出概率最高的上位词作为第三分类标签;
1.7、通过计算第三分类标签和第二分类标签的相似度,将二者进行匹配关联;
1.8、输出四层标签体系。
参考图3,文本自动标注方法为:
2.1、利用TF-IDF算法对待标注文本进行主题词抽取;
2.2、将抽取出的主题词输入匹配分类器中,与第四分类标签,即主题词进行匹配,根据匹配的概率选择对应的分类标签,成功匹配后对文本进行标注,输出到已标注数据库,而未能成功标注的文本,转到步骤2.3;
2.3、将未能成功标注的文本输入到标签体系构建器中;
2.4、通过构建标签体系将未能成功标注的文本与第三分类进行匹配关联,然后进行标注,其中聚类后得到的主题词存入第四分类标签中;
2.5、最后输出已标注文本。
本发明标签体系构建方法的详细设计如下:
步骤1.3中,对在网站中爬取的贴文、评论、文章等文本数据进行预处理,主要包括数据清洗、去停用词、数据去重等操作;步骤1.4中,将预处理后的纯文本输入聚类模型中进行聚类,本发明中使用基于LDA主题的聚类模型,对待处理文本进行聚类;步骤1.5中,输出聚类后的主题词列表,选取其中10个主题词作为候选的第四分类标签;步骤1.6中,然后利用基于中文***、百度百科等知识库的上下位关系查询算法,抽取候选的第四分类标签中概率最高的上位词作为第三分类标签,因为聚类后的主题词大部分情况下维度不统一,会造成第三分类标签中混有第二分类标签,因此接下来步骤1.7中将第三分类标签与第二分类标签相关联,通过计算两者的相似度进行匹配,当相似度大于预设阈值时,则认为两种分类标签相匹配。至此形成较为规范、***的标签体系。
本发明通过生成的标签体系对待标注文本进行自动标注方法的详细设计如下:
步骤2.1中,通过TF-IDF对待标注文本进行主题词抽取时,选择前s个词形成主题词列表;然后在步骤2.2中,将主题词列表在第四分类标签中进行查询,最终标注出现概率最高的标签,若全部查询结果为空,说明该主题词未构建到标签体系中,则通过标签构建体系重新对该主题词进行构建和标注。
标签体系构建方法的进一步详细设计如下:
步骤1.3中的数据获取及预处理过程中:
本发明是利用爬虫获取新闻网站、论坛的数据,内容包括贴文、评论、文章等,爬取的数据需要涉及政治、科技、财经、军事、教育、社会、文化、娱乐、体育等领域,因此本发明在爬虫中加入动态控制机制,防止某领域内容比重过高,其他领域爬取内容较少的问题。爬取的基础数据规模是十万条,但后续仍会隔一段时间进行爬取,以不断补充完善构建的标签体系。获取到数据后,首先利用BeautifulSoup库对html文档进行解析,输出纯文本,然后利用正则表达式去除文本中的链接、非法字符等,处理完成后存入本地,此时获得了文档集合D={d1,d2,...,di,...,dn},n为整数。本发明为方便后续处理,将所有文档写入同一个文件中。
接下来对各个文档进行分词处理,本发明使用的是Jieba分词,对于中文,结果表现较为优秀,它结合了基于规则和统计的两种方法,找出最大概率路径,并将其作为最终的分词结果。同时通过语料训练出HMM相关的模型,然后利用Viterbi算法进行求解,最终得到最优的状态序列,来解决未登录词的分词问题。分词完成后,利用停用词表去除文档中的停用词,形成如式(1)所示的数据:
其中wi是文档中的词,S为停用词表中词的集合,i=1,…,n。
例如待标注文本T1={“***南京6月27日电(记者王恒志)随着20日清华大学队击败北京大学队卫冕成功,第23届中国大学生篮球联赛(CUBA)落下帷幕。回顾整个赛季,在新冠肺炎疫情防控常态化的情况下,CUBA赛季总观赛人次达1.77亿,尤为难得的是,巅峰四强赛首度走出校园、走进社会场馆并公开售票,无论是票务还是关注度都大获成功,CUBA的纽带力量越来越强、破圈力度越来越大、融合程度越来越高,中国篮球的又一个顶级IP呼之欲出。”}。在进行预处理后得到WDT1=['***','南京','记者','王恒志','清华大学','队','击败','北京大学','队','卫冕','成功','中国','大学生','篮球联赛','CUBA','落下','帷幕','回顾','整个','赛季','新冠','肺炎','疫情','防控','常态','化','情况','下','CUBA','赛季','总','观赛','人次','尤为','难得','巅峰','四强赛','首度','走出','校园','走进','社会','场馆','公开','售票','无论是','票务','关注度','都','大','获','成功','CUBA','纽带','力量','越来越','强','破圈','力度','越来越','大','融合','程度','越来越','高','中国篮球','顶级','IP','呼之欲出']。
步骤1.4中,基于LDA的文本聚类:
首先,将处理后的文档集D={d1,d2,...,di,...,dn}输入聚类模型中,其中每篇文档di={w1,w2,...,wm}可看作一个词语序列,然后将文档集中涉及的不同词语形成一个词汇表Vca={v1,v2,...,vP};
其次,输入合适的主题数K;
其中,超参数α为K维向量,β为H维向量;
第四步,输入合适的超参数α、β;
第五步,对应文档集中每一篇文档中的每一个词,随机初始化一个主题编号Zdn,该主题编号的分布可从主题分布θd中得出:
Zdn=multi(θd) (4)
而对于该主题编号,可得到词wdn的概率分布为
第六步,重新扫描文档集,首先将文档d对应主题k的计数文档d的词汇数nd、主题k对应的词汇为w的计数以及主题k的词汇数nk利用多项式分布采样随机初始化,然后遍历每一个文档中的每一个词,利用Gibbs采样公式更新主题编号Zdn:
其中,zi=k表示第i个词的主题为k,i的形式为(m,n),是一个二维下标,表示第m篇第n个词,表示去除下标为i的词,是除下标为i的其他词的主题集合,是指语料库中的词语集合,表示第m篇文章中第k个主题的词的个数,除去下标为i的词。 是对应的两个Dirichlet后验分布在贝叶斯框架下的参数估计。
第七步,重复第六步中的Gibbs采样,直到Gibbs采样收敛;
第八步,统计文档中各个词的主题,得到该文档主题词分布;
文档主题词概率矩阵如下所示:
得到如下所示的主题词列表:
List(i)=[(‘中国篮球’,0.018273638),(‘篮球联赛’,0.018273638),(‘赛季,0.0102235647),(‘CUBA’,0.0094384783),(‘肺炎’,0.0073625262),(‘校园’,0.006483338732),(‘场馆’,0.005237823893),(‘卫冕’,0.00478539873),]
上下位关系查询:
步骤1.5中,从聚类结果列表中抽取前s个主题词作为候选的第四分类标签Q={q1,q2,...,qs},然后步骤1.6中,利用基于网络百科的方法查找其上下位关系,具体步骤如下:
(1)从候选的第四分类标签中依次选取目标词qi,作为待查找词,将其他词作为待比较词;
(2)通过基于web知识库的上下位关系查询方法,查找目标词qi的上位词fqi;
(3)将上位词fqi与待比较词进行比较,若待比较词中有与之相同的词,则计数nqi进行累加,若没有,则加入待比较词队列的末尾;
(4)重复步骤3,直至候选的第四分类标签全部查询完毕;
(5)找出待比较词队列中计数nqi最高的词作为第三分类标签,待比较词队列中包括候选的第四分类标签与上位词。如下所示:
Queuq(i)=[(‘球类运动’,4),(‘疾病’,1),(‘建筑物’,1)],因此选择“球类运动”作为第三分类标签。
步骤1.7,标签关联:
对于输出的第三分类标签,需要与第二分类标签相关联,本发明采用较为方便的相似度计算,因为此时两级分类标签已经明确,利用相似度计算可以很好地将其关联。
本发明采用基于上下文向量空间模型计算两者的相似度,即利用word2vec预先训练好的中文词向量对第二、第三分类标签进行初始化,分别如式(7)、(8)所示:
MV2(ti)=V(ti) (7)
MV3(tj)=V(tj) (8)
其中ti、tj分别为第二、三分类标签中第i、j个标签,V(ti)表示ti的词向量表示。
然后通过计算两者的余弦距离来表示相似度,计算公式如式(9)所示:
其中,V(ti)l、V(tj)l分别代表第二分类标签向量的各分量,nv表示词向量的维度。
重复以上步骤,直至输出的第三分类标签与第二分类标签全部完成相似度计算。本发明中设定相关阈值为0.75,即两者相似度大于该阈值时则可直接关联,否则归为其他类。
文本自动标注方法的进一步详细设计如下:
对于新爬取的文本数据进行自动标注,首先对其进行预处理,包括分词、去停用词等,然后利用TF-IDF算法对其抽取主题词,公式如下:
对主题词排序后,选取前10个,输入匹配分类器中,与第四分类标签进行匹配,如果主题词在第四分类标签中并未出现或者重合率小于90%,则将未能成功标注的文本输入到标签体系构建器中,即通过1.4、1.5、1.6三个步骤重新进行标签构建。
通过构建标签体系将未能成功标注的文本与第三分类进行匹配关联,然后进行标注。聚类后得到的主题词存入第四分类标签中。
例如,待标注文本Text={“***南京6月27日电(记者王恒志)随着20日清华大学队击败北京大学队卫冕成功,第23届中国大学生篮球联赛(CUBA)落下帷幕。回顾整个赛季,在新冠肺炎疫情防控常态化的情况下,CUBA赛季总观赛人次达1.77亿,尤为难得的是,巅峰四强赛首度走出校园、走进社会场馆并公开售票,无论是票务还是关注度都大获成功,CUBA的纽带力量越来越强、破圈力度越来越大、融合程度越来越高,中国篮球的又一个顶级IP呼之欲出。”}。最终标注的结果为{文本id:(第一分类标签:[文本])→(第二分类标签:[体育])→(第三分类标签:[篮球])→(第四分类标签:[中国篮球,篮球联赛,CUBA,赛季,卫冕,巅峰四强赛])}。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种规范化标签体系构建方法,其特征在于,包括以下步骤:
1.1、输入第一分类标签:{文本};
1.2、输入第二类分类标签:{政治,科技,财经,军事,教育,社会,文化,娱乐,体育,其他};
1.3、对爬取的已有的文本数据作为目标文章进行预处理;
1.4、利用基于LDA主题的聚类模型对预处理后的文本数据进行聚类;
1.5、取聚类后目标文章中的前几个主题词,作为候选的第四分类标签;
1.6、利用基于web知识库查询上下位关系,最终抽取出概率最高的上位词作为第三分类标签;
1.7、通过计算第三分类标签和第二分类标签的相似度,将二者进行匹配关联;
1.8、输出四层标签体系。
2.如权利要求1所述的方法,其特征在于,步骤1.3中,对在网站中爬取的贴文、评论、文章这些文本数据进行预处理,包括数据清洗、去停用词、数据去重操作;步骤1.4中,将预处理后的纯文本输入聚类模型中进行聚类,其中使用基于LDA主题的聚类模型,对待处理文本进行聚类;步骤1.5中,输出聚类后的主题词列表,选取其中10个主题词作为候选的第四分类标签;步骤1.6中,然后利用基于中文***、百度百科这些知识库的上下位关系查询算法,抽取候选的第四分类标签中概率最高的上位词作为第三分类标签;步骤1.7中将第三分类标签与第二分类标签相关联,通过计算两者的相似度进行匹配,当相似度大于预设阈值时,则认为两种分类标签相匹配,至此形成标签体系。
3.如权利要求2所述的方法,其特征在于,步骤1.3的数据获取及预处理过程中,利用爬虫获取新闻网站、论坛的数据,内容包括贴文、评论、文章,爬取的数据涉及政治、科技、财经、军事、教育、社会、文化、娱乐、体育领域,获取到数据后,首先利用BeautifulSoup库对html文档进行解析,输出纯文本,然后利用正则表达式去除文本中的链接、非法字符,处理完成后存入本地,此时获得了文档集合D={d1,d2,...,di,...,dn},n为整数,将所有文档写入同一个文件中;
接下来对各个文档进行分词处理,使用Jieba分词,找出最大概率路径,并将其作为最终的分词结果,同时通过语料训练出HMM相关的模型,然后利用Viterbi算法进行求解,最终得到最优的状态序列,来解决未登录词的分词问题,分词完成后,利用停用词表去除文档中的停用词,形成如式(1)所示的数据:
其中wi是文档中的词,S为停用词表中词的集合,i=1,…,n。
4.如权利要求3所述的方法,其特征在于,步骤1.4中,基于LDA的文本聚类:
首先,将处理后的文档集D={d1,d2,...,di,...,dn}输入聚类模型中,其中每篇文档di={w1,w2,...,wm}可看作一个词语序列,然后将文档集中涉及的不同词语形成一个词汇表Vca={v1,v2,...,vP};
其次,输入主题数K;
其中,超参数α为K维向量,β为H维向量;
第四步,输入超参数α、β;
第五步,对应文档集中每一篇文档中的每一个词,随机初始化一个主题编号Zdn,该主题编号的分布可从主题分布θd中得出:
Zdn=multi(θd) (4)
而对于该主题编号,可得到词wdn的概率分布为
第六步,重新扫描文档集,首先将文档d对应主题k的计数文档d的词汇数nd、主题k对应的词汇为w的计数以及主题k的词汇数nk利用多项式分布采样随机初始化,然后遍历每一个文档中的每一个词,利用Gibbs采样公式更新主题编号Zdn:
其中,zi=k表示第i个词的主题为k,i的形式为(m,n),是一个二维下标,表示第m篇第n个词,表示去除下标为i的词,是除下标为i的其他词的主题集合,是指语料库中的词语集合,表示第m篇文章中第k个主题的词的个数,除去下标为i的词,是对应的两个Dirichlet后验分布在贝叶斯框架下的参数估计;
第七步,重复第六步中的Gibbs采样,直到Gibbs采样收敛;
第八步,统计文档中各个词的主题,得到该文档主题词分布;
文档主题词概率矩阵如下所示:
得到主题词列表。
5.如权利要求4所述的方法,其特征在于,步骤1.5中,从聚类结果列表中抽取前s个主题词作为候选的第四分类标签Q={q1,q2,...,qs},然后步骤1.6中,利用基于网络百科的方法查找其上下位关系,具体步骤如下:
(1)从候选的第四分类标签中依次选取目标词qi,作为待查找词,将其他词作为待比较词;
(2)通过基于web知识库的上下位关系查询方法,查找目标词qi的上位词fqi;
(3)将上位词fqi与待比较词进行比较,若待比较词中有与之相同的词,则计数nqi进行累加,若没有,则加入待比较词队列的末尾;
(4)重复步骤3,直至候选的第四分类标签全部查询完毕;
(5)找出待比较词队列中计数nqi最高的词作为第三分类标签,待比较词队列中包括候选的第四分类标签与上位词。
6.如权利要求5所述的方法,其特征在于,步骤1.7中,对于输出的第三分类标签,与第二分类标签相关联时,采用基于上下文向量空间模型计算两者的相似度,即利用word2vec预先训练好的中文词向量对第二、第三分类标签进行初始化,分别如式(7)、(8)所示:
MV2(ti)=V(ti) (7)
MV3(tj)=V(tj) (8)
其中ti、tj分别为第二、三分类标签中第i、j个标签,V(ti)表示ti的词向量表示。
然后通过计算两者的余弦距离来表示相似度,计算公式如式(9)所示:
其中,V(ti)l、V(tj)l分别代表第二分类标签向量的各分量,nv表示词向量的维度;
重复计算,直至输出的第三分类标签与第二分类标签全部完成相似度计算。
7.一种基于权利要求6所述的规范化标签体系构建方法实现文本自动标注的方法,其特征在于,包括以下步骤:
2.1、利用TF-IDF算法对待标注文本进行主题词抽取;
2.2、将抽取出的主题词输入匹配分类器中,与第四分类标签,即主题词进行匹配,根据匹配的概率选择对应的分类标签,成功匹配后对文本进行标注,输出到已标注数据库,而未能成功标注的文本,转到步骤2.3;
2.3、将未能成功标注的文本作为下一步标签体系构建的输入;
2.4、通过构建的标签体系将未能成功标注的文本与第三分类进行匹配关联,然后进行标注,其中聚类后得到的主题词存入第四分类标签中;
2.5、输出已标注文本。
8.如权利要求7所述的方法,其特征在于,步骤2.1中,通过TF-IDF对待标注文本进行主题词抽取时,选择前s个词形成主题词列表;然后在步骤2.2中,将主题词列表在第四分类标签中进行查询,最终标注出现概率最高的标签,若全部查询结果为空,说明该主题词未构建到标签体系中,则通过标签构建体系重新对该主题词进行构建和标注。
9.如权利要求8所述的方法,其特征在于,文本自动标注方法中,对于新爬取的文本数据进行自动标注,首先对其进行预处理,包括分词、去停用词,然后利用TF-IDF算法对其抽取主题词,公式如下:
对主题词排序后,选取前10个,输入匹配分类器中,与第四分类标签进行匹配,如果主题词在第四分类标签中并未出现或者重合率小于90%,则将未能成功标注的文本通过1.4、1.5、1.6三个步骤重新进行标签构建;
通过构建标签体系将未能成功标注的文本与第三分类进行匹配关联,然后进行标注;聚类后得到的主题词存入第四分类标签中。
10.一种如权利要求1至6中任一项所述的规范化标签体系构建方法在知识图谱、语义分析、文本生成技术领域中的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110765666.6A CN113553429B (zh) | 2021-07-07 | 2021-07-07 | 一种规范化标签体系构建及文本自动标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110765666.6A CN113553429B (zh) | 2021-07-07 | 2021-07-07 | 一种规范化标签体系构建及文本自动标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113553429A true CN113553429A (zh) | 2021-10-26 |
CN113553429B CN113553429B (zh) | 2023-09-29 |
Family
ID=78102800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110765666.6A Active CN113553429B (zh) | 2021-07-07 | 2021-07-07 | 一种规范化标签体系构建及文本自动标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113553429B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113656579A (zh) * | 2021-07-23 | 2021-11-16 | 北京亿欧网盟科技有限公司 | 文本分类方法、装置、设备及介质 |
CN113961705A (zh) * | 2021-10-29 | 2022-01-21 | 聚好看科技股份有限公司 | 一种文本分类方法及服务器 |
CN114492425A (zh) * | 2021-12-30 | 2022-05-13 | 中科大数据研究院 | 采用一套领域标签体系将多维度数据打通的方法 |
CN114661900A (zh) * | 2022-02-25 | 2022-06-24 | 安阳师范学院 | 一种文本标注推荐方法、装置、设备及存储介质 |
CN115544250A (zh) * | 2022-09-01 | 2022-12-30 | 睿智合创(北京)科技有限公司 | 一种数据处理方法及*** |
CN116702775A (zh) * | 2023-08-07 | 2023-09-05 | 深圳市智慧城市科技发展集团有限公司 | 文本处理方法、文本处理装置及计算机可读存储介质 |
CN116719955A (zh) * | 2023-08-09 | 2023-09-08 | 北京国电通网络技术有限公司 | 标签标注信息生成方法、装置、电子设备和可读介质 |
CN118172448A (zh) * | 2024-05-11 | 2024-06-11 | 中移(苏州)软件技术有限公司 | 一种数据处理方法及装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200828139A (en) * | 2006-12-18 | 2008-07-01 | Webgenie Information Ltd | Method for generating generic title |
CN102332031A (zh) * | 2011-10-18 | 2012-01-25 | 中国科学院自动化研究所 | 一种基于视频集合层级主题结构的检索结果聚类方法 |
CN102902700A (zh) * | 2012-04-05 | 2013-01-30 | 中国人民解放军国防科学技术大学 | 基于在线增量演化主题模型的软件自动分类方法 |
CN107862089A (zh) * | 2017-12-02 | 2018-03-30 | 北京工业大学 | 一种基于感知数据的标签提取方法 |
CN111914918A (zh) * | 2020-07-24 | 2020-11-10 | 太原理工大学 | 基于融合标签和文档的网络主题模型的Web服务聚类方法 |
CN112100396A (zh) * | 2020-08-28 | 2020-12-18 | 泰康保险集团股份有限公司 | 一种数据处理方法和装置 |
-
2021
- 2021-07-07 CN CN202110765666.6A patent/CN113553429B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200828139A (en) * | 2006-12-18 | 2008-07-01 | Webgenie Information Ltd | Method for generating generic title |
CN102332031A (zh) * | 2011-10-18 | 2012-01-25 | 中国科学院自动化研究所 | 一种基于视频集合层级主题结构的检索结果聚类方法 |
CN102902700A (zh) * | 2012-04-05 | 2013-01-30 | 中国人民解放军国防科学技术大学 | 基于在线增量演化主题模型的软件自动分类方法 |
CN107862089A (zh) * | 2017-12-02 | 2018-03-30 | 北京工业大学 | 一种基于感知数据的标签提取方法 |
CN111914918A (zh) * | 2020-07-24 | 2020-11-10 | 太原理工大学 | 基于融合标签和文档的网络主题模型的Web服务聚类方法 |
CN112100396A (zh) * | 2020-08-28 | 2020-12-18 | 泰康保险集团股份有限公司 | 一种数据处理方法和装置 |
Non-Patent Citations (1)
Title |
---|
王金水等: "基于词性标注的文本聚类算法", 《福建工程学院学报》, vol. 2015, no. 4, pages 1 - 4 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113656579A (zh) * | 2021-07-23 | 2021-11-16 | 北京亿欧网盟科技有限公司 | 文本分类方法、装置、设备及介质 |
CN113656579B (zh) * | 2021-07-23 | 2024-01-26 | 北京亿欧网盟科技有限公司 | 文本分类方法、装置、设备及介质 |
CN113961705A (zh) * | 2021-10-29 | 2022-01-21 | 聚好看科技股份有限公司 | 一种文本分类方法及服务器 |
CN114492425A (zh) * | 2021-12-30 | 2022-05-13 | 中科大数据研究院 | 采用一套领域标签体系将多维度数据打通的方法 |
CN114661900A (zh) * | 2022-02-25 | 2022-06-24 | 安阳师范学院 | 一种文本标注推荐方法、装置、设备及存储介质 |
CN115544250A (zh) * | 2022-09-01 | 2022-12-30 | 睿智合创(北京)科技有限公司 | 一种数据处理方法及*** |
CN116702775A (zh) * | 2023-08-07 | 2023-09-05 | 深圳市智慧城市科技发展集团有限公司 | 文本处理方法、文本处理装置及计算机可读存储介质 |
CN116702775B (zh) * | 2023-08-07 | 2023-11-03 | 深圳市智慧城市科技发展集团有限公司 | 文本处理方法、文本处理装置及计算机可读存储介质 |
CN116719955A (zh) * | 2023-08-09 | 2023-09-08 | 北京国电通网络技术有限公司 | 标签标注信息生成方法、装置、电子设备和可读介质 |
CN116719955B (zh) * | 2023-08-09 | 2023-10-27 | 北京国电通网络技术有限公司 | 标签标注信息生成方法、装置、电子设备和可读介质 |
CN118172448A (zh) * | 2024-05-11 | 2024-06-11 | 中移(苏州)软件技术有限公司 | 一种数据处理方法及装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113553429B (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113553429A (zh) | 一种规范化标签体系构建及文本自动标注方法 | |
Ghallab et al. | Arabic sentiment analysis: A systematic literature review | |
Nie et al. | Beyond text QA: multimedia answer generation by harvesting web information | |
CN105824959B (zh) | 舆情监控方法及*** | |
WO2015149533A1 (zh) | 一种基于网页内容分类进行分词处理的方法和装置 | |
Ge et al. | Structured multi-modal feature embedding and alignment for image-sentence retrieval | |
Xie et al. | Fast and accurate near-duplicate image search with affinity propagation on the ImageWeb | |
CN110750995B (zh) | 一种基于自定义图谱的文件管理方法 | |
CN110888991B (zh) | 一种弱标注环境下的分段式语义标注方法 | |
Kim et al. | Joint photo stream and blog post summarization and exploration | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
CN113962293B (zh) | 一种基于LightGBM分类与表示学习的姓名消歧方法和*** | |
Man | Feature extension for short text categorization using frequent term sets | |
Panda | Developing an efficient text pre-processing method with sparse generative Naive Bayes for text mining | |
CN113268606A (zh) | 知识图谱构建的方法和装置 | |
Zhu et al. | Real-time personalized twitter search based on semantic expansion and quality model | |
Fernández et al. | Vits: video tagging system from massive web multimedia collections | |
Gali et al. | Content-based title extraction from web page | |
Luo et al. | Product review information extraction based on adjective opinion words | |
CN106372123B (zh) | 一种基于标签的相关内容推荐方法和*** | |
Liu et al. | Cross domain search by exploiting wikipedia | |
Maylawati et al. | Chatbot for virtual travel assistant with random forest and rapid automatic keyword extraction | |
Xu | A New Sub-topics Clustering Method Based on Semi-supervised Learing. | |
Li et al. | Video reference: question answering on YouTube | |
Maylawati et al. | Feature-based approach and sequential pattern mining to enhance quality of Indonesian automatic text summarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |