CN112990388A - 基于概念词的文本聚类方法 - Google Patents
基于概念词的文本聚类方法 Download PDFInfo
- Publication number
- CN112990388A CN112990388A CN202110536699.3A CN202110536699A CN112990388A CN 112990388 A CN112990388 A CN 112990388A CN 202110536699 A CN202110536699 A CN 202110536699A CN 112990388 A CN112990388 A CN 112990388A
- Authority
- CN
- China
- Prior art keywords
- concept
- words
- text
- clustered
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于概念词的文本聚类方法,包括以下步骤:对待聚类文本进行分句,通过概念词词表识别出分句后的待聚类文本中的概念词;所述概念词词表中包含若干概念词和若干类别,所述类别的数量小于等于所述概念词的数量;将识别出的概念词进行masking处理后,输入已训练的词的BERT预训练模型中进行预测,得到各个masking处理后的概念词基于所述概念词词表的概率分布;将各个masking处理后的概念词的概率分布进行maxpooling处理,分别得到maxpooling向量,选择位置最大值的向量作为所述待聚类文本的表达。本发明依据概念词对聚类结果进行解释,使得聚类更有解释性,提高说服力。
Description
技术领域
本发明涉及自然语言处理技术领域,特别涉及基于概念词的文本聚类方法。
背景技术
文本聚类(Text clustering)主要是依据的是著名的聚类假设:同类的文档(即文本)相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,由于聚类不需要训练过程,以及不需要预先对文档进行类别的手工标注,因此具有一定的灵活性和较高的自动化处理能力,聚类已经成为对文本进行有效地组织、摘要以及导航的重要手段。
常规的文本聚类方法通过将文本映射成向量后,再进行相似度比较,这样聚类出来的文本类别存在不好解释的问题,缺乏说服力。
发明内容
本发明的目的在于对需要聚类的文本进行高效的聚类,让聚类结果更有解释性,提高聚类说服力,提供一种基于概念词的文本聚类方法。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
基于概念词的文本聚类方法,包括以下步骤:
对待聚类文本进行分句,通过概念词词表识别出分句后的待聚类文本中的概念词;所述概念词词表中包含若干概念词和若干类别,所述类别的数量小于等于所述概念词的数量;
将识别出的概念词进行masking处理后,输入已训练的词的BERT预训练模型中进行预测,得到各个masking处理后的概念词基于所述概念词词表的概率分布;
将各个masking处理后的概念词的概率分布进行maxpooling处理,分别得到maxpooling向量,选择位置最大值的向量作为所述待聚类文本的表达。
在上述方案中,依据概念词对聚类结果进行解释,使得聚类更有解释性,提高说服力。
所述待聚类文本为文字表达的信息,包括文章、新闻、文字材料、文字作品。
所述概念词词表通过人工添加、参考***title的方式整理而成。
所述对待聚类文本进行分句的步骤,包括:根据标点符号对待聚类文本进行分句;所述标点符号包括句号、感叹号、问号。
所述通过概念词词表识别出分句后的待聚类文本中的概念词的步骤,包括:分别对分句后的每一句待聚类文本匹配概念词词表,若待聚类文本中具有与概念词词表中相同的概念词,则将该概念词识别出来。
在对所述待聚类文本进行概念词识别时,可将待聚类文本中不属于所述概念词词表的名词作为概念词添加至概念词词表中。
所述将识别出的概念词进行masking处理后,输入已训练的词的BERT预训练模型中进行预测,得到各个masking处理后的概念词基于所述概念词词表的概率分布的步骤,包括:
将识别出的概念词进行masking处理后,得到概念词对应的符号;
将符号输入已训练的词的BERT预训练模型中进行预测,得到该符号在所述概念词词表中的概率分布;
根据待聚类文本识别出的概念词在所述概念词词表中的概率分布,概率大的部分概念词则为该待聚类文本的概率描述。
将向量位置最大的值的向量进行K-means聚类,完成对所述待聚类文本的聚类。
与现有技术相比,本发明的有益效果:
本方案通过人工经验和利用***整理好的概念词对聚类结果进行解释,让文本的聚类结果更有解释性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍, 应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明文本聚类方法流程图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性,或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
实施例1:
本发明通过下述技术方案实现,如图1所示,一种基于概念词的文本聚类方法,包括以下步骤:
步骤S1:准备好概念词词表。
所述概念词词表通过人工添加、参考***title的方式整理而成。
比如根据当前任务的需求,通过人工添加概念词,这些概念词用来描述文本的主题概念。由于人工添加概念词不完整或有缺失,同时对***上的中文标题(即title)进行选择,从而将人工添加的概念词和选择的***title整理为概念词词表,因此所述概念词词表中包含了若干概念词。
作为举例,例如***中有一句“小明买了特斯拉”,其中“特斯拉”有专门的页面对其进行描述,则将“特斯拉”这个title加入在概念词词表中。在选择***title时,也要根据当前任务的需求进行选择。
在比如“特斯拉”、“奔驰”等概念词属于“汽车品牌”的类别,因此所述概念词词表中还包括若干类别,类别和概念词为相互对应的关系。在概念词词表中一个类别可以对应一个或多个概念词,因此类别的数量小于等于概念词的数量。
***(Wikipedia)又称为“百科全书”,由世界各地的不同语言创建而成,基于wiki技术,提供了一个动态、可自由访问和编辑的全球知识库。
步骤S2:准备好词的BERT预训练模型。
目前的BERT预训练模型一般是基于字的,而本方案采用的BERT预训练模型是基于词的。基于词的预训练模型可以是自己训练而成的,也可以使用开源的模型,比如Wors_BERT预训练模型。
BERT预训练模型是谷歌公司发布的基于双向Transformer的大规模预训练语言模型,能够分别捕捉词语和句子级别的表示,高效抽取文本信息并应用于各种NLP任务。本方案对词的BERT预训练模型进行训练的过程属于现有技术,故不对其具体的训练过程进行赘述。
步骤S3:对待聚类文本进行分句。
所述待聚类文本为文字表达的信息,包括文章、新闻、文字材料、文字作品。
将待聚类文本按照标点符号进行分句,比如待聚类文本中有这样一段话“我们都知道,宇宙浩瀚无穷。但我们朝任何一个方向望去时,宇宙最遥远的可见区域大约在460亿光年之外。”,通过标点符号“。”、“!”、“”对待聚类文本进行分句,则可以将这段话分句为:
“我们都知道,宇宙浩瀚无穷。”
“但我们朝任何一个方向望去时,宇宙最遥远的可见区域大约在460亿光年之外。”
步骤S4:通过概念词词表识别出分句后的待聚类文本中的概念词。
分别对分句后的每一句带聚类文本匹配概念词词表,若待聚类文本中具有与概念词词表中相同的概念词,则将该概念词识别出来。比如分句后的文本“但我们朝任何一个方向望去时,宇宙最遥远的可见区域大约在460亿光年之外。”,若概念词词表中有“光年”这个概念词,则将“光年”识别出来:
“但我们朝任何一个方向望去时,宇宙最遥远的可见区域大约在460亿*光年*之外。”
作为优化的实施方式,为了弥补所述概念词词表的不足,在对待聚类文本中的概念词进行识别时,可以根据需求将待聚类文本中不属于概念词词表的名词加入概念词词表,作为概念词进行识别。比如准备的概念词词表中没有“宇宙”一词,则在识别步骤中,可以将“宇宙”加入概念词词表进行识别:
“但我们朝任何一个方向望去时,*宇宙*最遥远的可见区域大约在460亿*光年*之外。”
因此,一个待分类文本中可能存在一个或多个概念词,通常情况下,都是被识别有多个概念词。
步骤S5:将识别出的概念词进行masking处理后,输入已训练的词的BERT预训练模型中进行预测,得到各个masking处理后的概念词基于所述概念词词表的概率分布。
将步骤S4中从待聚类文本中识别出来的概念词进行masking处理后,形成概念词对应的符号,将符号输入步骤S2中已训练好的词的BERT预训练模型中进行预测,得到该符号在所述概念词词表中的概率分布,该步骤可以看做对待聚类文本的概率描述。根据待聚类文本识别出的概念词在所述概念词词表中的概率分布,概率大的概念词则为该待聚类文本的概率描述。
比如“但我们朝任何一个方向望去时,*宇宙*最遥远的可见区域大约在460亿*光年*之外。”中“宇宙”和“光年”分别以符号w1、w2表示,将符号w1、w1输入词的BERT预训练模型中,即可对这两个符号位进行概率预测,预测这两个符号位分别在所述概念词词表中的概率。假设现在概念词词表中有100个概念词,则可预测出在“宇宙”中分别出现这100个概念词的概率,即是一个100维的向量。那么可以通过概念词的概率来反应句子描述的内容,如给出的“宇宙”、“光年”这类词的概率偏大,可以看出这段话更多的在描述天文学相关的内容,因此可以对待聚类文本进行概率描述。
步骤S6:将各个masking处理后的概念词的概率分布进行maxpooling处理,分别得到maxpooling向量,选择向量位置最大值的向量作为所述待聚类文本的表达。
将待聚类文本中的所有masking处理后的概念词的概率分布进行maxpooling处理,得到代表该待聚类文本的向量。比如“但我们朝任何一个方向望去时,*宇宙*最遥远的可见区域大约在460亿*光年*之外。”在步骤S5中会生成两个100维的向量,将这两个向量进行maxpooling处理后,会根据这另个maxpooling向量选择向量位置最大的值作为该句的向量,那么整个待聚类文本中向量位置最大的值即作为该待聚类文本的表达。
步骤S7:将向量位置最大的值的向量进行K-means聚类,完成对所述待聚类文本的聚类。
通过K-means聚类算法进行聚类,聚类完成后,得到聚类文本,聚类文本中有概念词,且概念词有对应的类别,所以可以对聚类有一定的解释性。
实施例2:
作为举例,比如现有一段待聚类文本经过分句后为“|词1|词2|概念词3|词4|词5|词6|词7|名词8|词9|概念词10|词11|词12|”,通过概念词词表的识别后,可以看出其中有概念词3、概念词10,并且需要名词8,因此将概念词3、概念词10、名词8一起进行masking处理并输入词的BERT预训练模型进行预测,分别得到概率分布。然后将概率分布进行maxpooling处理,得到三个maxpooling向量,选择其中向量位置值最大的向量作为该待聚类文本的表达。
可见,本方案可以不限于文本的领域或类别,可支持若干种类别的文本聚类,从而对文字表达的信息进行聚类。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (8)
1.基于概念词的文本聚类方法,其特征在于:包括以下步骤:
对待聚类文本进行分句,通过概念词词表识别出分句后的待聚类文本中的概念词;所述概念词词表中包含若干概念词和若干类别,所述类别的数量小于等于所述概念词的数量;
将识别出的概念词进行masking处理后,输入已训练的词的BERT预训练模型中进行预测,得到各个masking处理后的概念词基于所述概念词词表的概率分布;
将各个masking处理后的概念词的概率分布进行maxpooling处理,分别得到maxpooling向量,选择位置最大值的向量作为所述待聚类文本的表达。
2.根据权利要求1所述的基于概念词的文本聚类方法,其特征在于:所述待聚类文本为文字表达的信息,包括文章、新闻、文字材料、文字作品。
3.根据权利要求1所述的基于概念词的文本聚类方法,其特征在于:所述概念词词表通过人工添加、参考***title的方式整理而成。
4.根据权利要求1所述的基于概念词的文本聚类方法,其特征在于:所述对待聚类文本进行分句的步骤,包括:根据标点符号对待聚类文本进行分句;所述标点符号包括句号、感叹号、问号。
5.根据权利要求1所述的基于概念词的文本聚类方法,其特征在于:所述通过概念词词表识别出分句后的待聚类文本中的概念词的步骤,包括:分别对分句后的每一句待聚类文本匹配概念词词表,若待聚类文本中具有与概念词词表中相同的概念词,则将该概念词识别出来。
6.根据权利要求5所述的基于概念词的文本聚类方法,其特征在于:在对所述待聚类文本进行概念词识别时,可将待聚类文本中不属于所述概念词词表的名词作为概念词添加至概念词词表中。
7.根据权利要求1所述的基于概念词的文本聚类方法,其特征在于:所述将识别出的概念词进行masking处理后,输入已训练的词的BERT预训练模型中进行预测,得到各个masking处理后的概念词基于所述概念词词表的概率分布的步骤,包括:
将识别出的概念词进行masking处理后,得到概念词对应的符号;
将符号输入已训练的词的BERT预训练模型中进行预测,得到该符号在所述概念词词表中的概率分布;
根据待聚类文本识别出的概念词在所述概念词词表中的概率分布,概率大的部分概念词则为该待聚类文本的概率描述。
8.根据权利要求1所述的基于概念词的文本聚类方法,其特征在于:还包括步骤:将向量位置最大的值的向量进行K-means聚类,完成对所述待聚类文本的聚类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110536699.3A CN112990388B (zh) | 2021-05-17 | 2021-05-17 | 基于概念词的文本聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110536699.3A CN112990388B (zh) | 2021-05-17 | 2021-05-17 | 基于概念词的文本聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112990388A true CN112990388A (zh) | 2021-06-18 |
CN112990388B CN112990388B (zh) | 2021-08-24 |
Family
ID=76336650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110536699.3A Active CN112990388B (zh) | 2021-05-17 | 2021-05-17 | 基于概念词的文本聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112990388B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11915614B2 (en) | 2019-09-05 | 2024-02-27 | Obrizum Group Ltd. | Tracking concepts and presenting content in a learning system |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101436201A (zh) * | 2008-11-26 | 2009-05-20 | 哈尔滨工业大学 | 一种变粒度文本聚类的特征量化方法 |
CN105677873A (zh) * | 2016-01-11 | 2016-06-15 | 中国电子科技集团公司第十研究所 | 基于领域知识模型的文本情报关联聚类汇集处理方法 |
CN106681985A (zh) * | 2016-12-13 | 2017-05-17 | 成都数联铭品科技有限公司 | 基于主题自动匹配的多领域词典构建*** |
CN106855853A (zh) * | 2016-12-28 | 2017-06-16 | 成都数联铭品科技有限公司 | 基于深度神经网络的实体关系抽取*** |
US20170270095A1 (en) * | 2016-03-16 | 2017-09-21 | Kabushiki Kaisha Toshiba | Apparatus for creating concept dictionary |
CN108073569A (zh) * | 2017-06-21 | 2018-05-25 | 北京华宇元典信息服务有限公司 | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 |
CN109710770A (zh) * | 2019-01-31 | 2019-05-03 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种基于迁移学习的文本分类方法及装置 |
CN110209822A (zh) * | 2019-06-11 | 2019-09-06 | 中译语通科技股份有限公司 | 基于深度学习的学术领域数据相关性预测方法、计算机 |
CN111159415A (zh) * | 2020-04-02 | 2020-05-15 | 成都数联铭品科技有限公司 | 序列标注方法及***、事件要素抽取方法及*** |
CN111460303A (zh) * | 2020-03-31 | 2020-07-28 | 拉扎斯网络科技(上海)有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
US20200334416A1 (en) * | 2019-04-16 | 2020-10-22 | Covera Health | Computer-implemented natural language understanding of medical reports |
CN112115702A (zh) * | 2020-09-15 | 2020-12-22 | 北京明略昭辉科技有限公司 | 意图识别方法、装置、对话机器人和计算机可读存储介质 |
CN112149411A (zh) * | 2020-09-22 | 2020-12-29 | 常州大学 | 一种抗生素临床使用领域本体构建方法 |
CN112200664A (zh) * | 2020-10-29 | 2021-01-08 | 上海畅圣计算机科技有限公司 | 基于ernie模型和dcnn模型的还款预测方法 |
CN112214989A (zh) * | 2020-10-19 | 2021-01-12 | 扬州大学 | 一种基于bert的汉语句子简化方法 |
US20210012199A1 (en) * | 2019-07-04 | 2021-01-14 | Zhejiang University | Address information feature extraction method based on deep neural network model |
CN112464661A (zh) * | 2020-11-25 | 2021-03-09 | 马上消费金融股份有限公司 | 模型训练方法、语音对话检测方法及相关设备 |
CN112507039A (zh) * | 2020-12-15 | 2021-03-16 | 苏州元启创人工智能科技有限公司 | 基于外部知识嵌入的文本理解方法 |
-
2021
- 2021-05-17 CN CN202110536699.3A patent/CN112990388B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101436201A (zh) * | 2008-11-26 | 2009-05-20 | 哈尔滨工业大学 | 一种变粒度文本聚类的特征量化方法 |
CN105677873A (zh) * | 2016-01-11 | 2016-06-15 | 中国电子科技集团公司第十研究所 | 基于领域知识模型的文本情报关联聚类汇集处理方法 |
US20170270095A1 (en) * | 2016-03-16 | 2017-09-21 | Kabushiki Kaisha Toshiba | Apparatus for creating concept dictionary |
CN106681985A (zh) * | 2016-12-13 | 2017-05-17 | 成都数联铭品科技有限公司 | 基于主题自动匹配的多领域词典构建*** |
CN106855853A (zh) * | 2016-12-28 | 2017-06-16 | 成都数联铭品科技有限公司 | 基于深度神经网络的实体关系抽取*** |
CN108073569A (zh) * | 2017-06-21 | 2018-05-25 | 北京华宇元典信息服务有限公司 | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 |
CN109710770A (zh) * | 2019-01-31 | 2019-05-03 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种基于迁移学习的文本分类方法及装置 |
US20200334416A1 (en) * | 2019-04-16 | 2020-10-22 | Covera Health | Computer-implemented natural language understanding of medical reports |
CN110209822A (zh) * | 2019-06-11 | 2019-09-06 | 中译语通科技股份有限公司 | 基于深度学习的学术领域数据相关性预测方法、计算机 |
US20210012199A1 (en) * | 2019-07-04 | 2021-01-14 | Zhejiang University | Address information feature extraction method based on deep neural network model |
CN111460303A (zh) * | 2020-03-31 | 2020-07-28 | 拉扎斯网络科技(上海)有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
CN111159415A (zh) * | 2020-04-02 | 2020-05-15 | 成都数联铭品科技有限公司 | 序列标注方法及***、事件要素抽取方法及*** |
CN112115702A (zh) * | 2020-09-15 | 2020-12-22 | 北京明略昭辉科技有限公司 | 意图识别方法、装置、对话机器人和计算机可读存储介质 |
CN112149411A (zh) * | 2020-09-22 | 2020-12-29 | 常州大学 | 一种抗生素临床使用领域本体构建方法 |
CN112214989A (zh) * | 2020-10-19 | 2021-01-12 | 扬州大学 | 一种基于bert的汉语句子简化方法 |
CN112200664A (zh) * | 2020-10-29 | 2021-01-08 | 上海畅圣计算机科技有限公司 | 基于ernie模型和dcnn模型的还款预测方法 |
CN112464661A (zh) * | 2020-11-25 | 2021-03-09 | 马上消费金融股份有限公司 | 模型训练方法、语音对话检测方法及相关设备 |
CN112507039A (zh) * | 2020-12-15 | 2021-03-16 | 苏州元启创人工智能科技有限公司 | 基于外部知识嵌入的文本理解方法 |
Non-Patent Citations (6)
Title |
---|
ABEER YOUSSEF 等: "A Multi-Embeddings Approach Coupled with Deep Learning for Arabic Named Entity Recognition", 《2020 2ND NOVEL INTELLIGENT AND LEADING EMERGING SCIENCES CONFERENCE》 * |
LONG CHEN 等: "Clinical concept normalization with a hybrid natural language processing system combining multilevel matching and machine learning ranking", 《JOURNAL OF THE AMERICAN MEDICAL INFORMATICS ASSOCIATION》 * |
YIMING CUI 等: "Pre-Training with Whole Word Masking for Chinese BERT", 《网络在线公开: HTTPS://ARXIV.ORG/ABS/1906.08101》 * |
YU SUN 等: "ERNIE: Enhanced Representation through Knowledge Integration", 《网络在线公开: HTTPS://ARXIV.ORG/ABS/1904.09223》 * |
今夜无风: "基于BERT的多模型融合借鉴", 《网络在线公开: HTTPS://WWW.CNBLOGS.COM/DEMO-DENG/P/12318439.HTML》 * |
薛满意: "基于特征表示及密集门控循环卷积网络的短文本分类研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11915614B2 (en) | 2019-09-05 | 2024-02-27 | Obrizum Group Ltd. | Tracking concepts and presenting content in a learning system |
Also Published As
Publication number | Publication date |
---|---|
CN112990388B (zh) | 2021-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107463607B (zh) | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 | |
US10853576B2 (en) | Efficient and accurate named entity recognition method and apparatus | |
Antony et al. | SVM based part of speech tagger for Malayalam | |
Pillay et al. | Authorship attribution of web forum posts | |
CN111104510B (zh) | 一种基于词嵌入的文本分类训练样本扩充方法 | |
US11170169B2 (en) | System and method for language-independent contextual embedding | |
CN111859961B (zh) | 一种基于改进TopicRank算法的文本关键词抽取方法 | |
CN113704416B (zh) | 词义消歧方法、装置、电子设备及计算机可读存储介质 | |
Sangodiah et al. | A review in feature extraction approach in question classification using Support Vector Machine | |
CN112364628B (zh) | 一种新词识别方法、装置、电子设备及存储介质 | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
CN112667806B (zh) | 一种使用lda的文本分类筛选方法 | |
CN112800184B (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及*** | |
CN112711666B (zh) | 期货标签抽取方法及装置 | |
Desai et al. | Automatic text summarization using supervised machine learning technique for Hindi langauge | |
CN112990388B (zh) | 基于概念词的文本聚类方法 | |
Ahmad et al. | Machine and deep learning methods with manual and automatic labelling for news classification in bangla language | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN112765977A (zh) | 一种基于跨语言数据增强的分词方法及装置 | |
CN112528653A (zh) | 短文本实体识别方法和*** | |
Oh et al. | Bilingual co-training for monolingual hyponymy-relation acquisition | |
Amin et al. | Kurdish Language Sentiment Analysis: Problems and Challenges | |
Wassie et al. | A word sense disambiguation model for amharic words using semi-supervised learning paradigm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |