CN112650852A - 一种基于命名实体和ap聚类的事件归并方法 - Google Patents
一种基于命名实体和ap聚类的事件归并方法 Download PDFInfo
- Publication number
- CN112650852A CN112650852A CN202110015195.7A CN202110015195A CN112650852A CN 112650852 A CN112650852 A CN 112650852A CN 202110015195 A CN202110015195 A CN 202110015195A CN 112650852 A CN112650852 A CN 112650852A
- Authority
- CN
- China
- Prior art keywords
- text
- clustering
- merged
- event
- semantic vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于事件归并领域,尤其是一种基于命名实体和AP聚类的事件归并方法,针对现有的仅依靠无监督的聚类算法存在一定的归并误差的问题,现提出如下方案,其包括以下步骤:生成待归并文本的语义向量;对语义向量采用AP聚类获得初始事件簇;根据语义向量提取待归并文本的命名实体;根据命名实体构建清洗规则集对初始事件簇进行清洗获得事件归并结果。本发明充分考虑了事件个数未知的前提,采用无需预先设定聚类数的AP聚类算法,并将文本转化为语义向量使数值向量涵盖文本语义信息,以此作为聚类算法的输入,以提升聚类精度;遵循描述同一事件的文本所含命名实体一致的原则,构建清洗规则集对初始聚类结果进行清洗优化,有效提升事件归并效果。
Description
技术领域
本发明涉及事件归并方法技术领域,尤其涉及一种基于命名实体和AP聚类的事件归并方法。
背景技术
近年来,随着论坛、微博、市长信箱、阳光热线、网上信访等网络平台逐步成为政府了解民意、汇聚民智、舆情监控的重要渠道,各类社情民意相关的文本数据量不断攀升,给以往主要依靠人工来进行文章、留言和信件等整理的相关部门带来极大挑战。其中,对于杂糅了大量不同事件的文本数据,如何将描述同一事件的文本进行信息归并,是对事件总体信息归纳梳理的基础,是帮助相关人员梳理事件脉络的关键。
目前,大数据、人工智能、自然语言处理等技术已广泛应用于文本处理中。针对文本数据中的事件归并问题,可通过计算文本间相似度对达到阈值的文本进行归并的方法来实现,该方法计算过程简单但计算量大,且阈值不好确定;也可通过如层次聚类、K-Menas聚类、LDA主题模型等算法实现,但需预先设定聚类数或主题数,而文本集中总共反映了多少个事件未知,即聚类数或主题数无法确定;还可通过如AP聚类等基于图的聚类算法实现,虽无需预先设定聚类数,但仅依靠无监督的聚类算法存在一定的归并误差。
发明内容
本发明的目的是为了解决现有技术中存在仅依靠无监督的聚类算法存在一定的归并误差的缺点,而提出的一种基于命名实体和AP聚类的事件归并方法。
为了实现上述目的,本发明采用了如下技术方案:
一种基于命名实体和AP聚类的事件归并方法,包括以下步骤:
步骤1:生成待归并文本的语义向量;
步骤2:对语义向量采用AP聚类获得初始事件簇;
步骤3:根据语义向量提取待归并文本的命名实体;
步骤4:根据命名实体设置清洗规则集,对初始事件簇进行清洗获得反映同一事件的文本集合。
优选的,所述步骤1具体包括:
对每一篇待归并文本进行分词,进一步根据停用词典过滤语气词、助词停用词;
基于过滤后的分词结果采用已预训练的文本向量化模型生成文本的语义向量集X={x1,x2,x3...,xn},其中xi为第i篇待归并文本的语义向量,i=1,2,3,...,n,n为待归并文本数,所述的已训练的文本向量化模型是通过自学习模型训练得到。
优选的,所述的步骤2具体包括:
(1)根据语义向量集X,计算两两向量相似度生成相似度矩阵S,公式如下:
其中,s(x1,x1)表示语义向量x1和语义向量x1间的相似度,n为语义向量个数即待归并文档数;
设置参考度P(i)即第i篇文本的语义向量作为聚类中心的参考度,设置P(i)为相似度矩阵的中值;
(2)初始化吸引度矩阵R和归属度矩阵A为n×n的零矩阵,设置最大迭代次数N;
(3)根据相似度矩阵S更新吸引度矩阵R和归属度矩阵A,更新公式如下:
(4)设置阻尼系数λ在吸引度矩阵和归属度矩阵A进行迭代更新中起收敛作用,公式如下:
rt+1(i,k)=λ×rt(i,k)+(1-λ)×rt+1(i,k)
at+1(i,k)=λ×at(i,k)+(1-λ)×at+1(i,k)
其中,λ∈[0.5,1);
(5)重复步骤(3)、(4)直至迭代次数达到最大值N或矩阵R和A不再变化时,算法结束,获得每一篇待归并文本的初始聚类标签,根据初始聚类标签形成的文本簇即为初始事件簇。
优选的,所述步骤3根据语义向量提取待归并文本的命名实体,命名实体包括人名、地名、组织机构名。
优选的,所述的步骤4具体包括:
(1)根据命名实体设置清洗规则集C,清洗规则的设置遵循表述同一事件的不同文本中所含的命名实体一致的原则;
(2)根据清洗规则集C对初始事件簇进行清洗,对簇中满足规则的文本进行相应处理,得到最终事件簇,即反映同一事件的文本集合。
优选的,所述的清洗规则集C={c1,c2,c3},其中规则c1、c2和c3的详细内容如下:
c1:待归并文本的命名实体数量为0时,则自成一个事件簇;
c2:待归并文本所含命名实体在所属初始事件簇所含的全部命名实体集合中,仅出现1次,则自成一个事件簇;
c3:待归并文本所属初始事件簇所含命名实体中最高频的3个实体,在该待归并文本中未出现,则自成一个事件簇。
与现有技术相比,本发明的有益效果在于:
本发明充分考虑了事件个数未知的前提,采用无需预先设定聚类数的AP聚类算法,并将文本转化为语义向量使数值向量涵盖文本语义信息,以此作为聚类算法的输入,以提升聚类精度;遵循描述同一事件的文本所含命名实体一致的原则,根据命名实体构建清洗规则集对初始聚类结果进行清洗优化,有效提升事件归并效果,本发明可智能对描述同一事件的文本进行归并,为进一步梳理事件脉络奠定基础。
附图说明
图1为本发明提出的一种基于命名实体和AP聚类的事件归并方法的流程图;
图2为本发明提出的一种基于命名实体和AP聚类的事件归并方法的生成待归并文本的语义向量的流程图;
图3为本发明提出的一种基于命名实体和AP聚类的事件归并方法的对语义向量采用AP聚类获得初始事件簇的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1-3,一种基于命名实体和AP聚类的事件归并方法,包括以下步骤:
步骤1:生成待归并文本的语义向量;
步骤2:对语义向量采用AP聚类获得初始事件簇;
步骤3:根据语义向量提取待归并文本的命名实体;
步骤4:根据命名实体设置清洗规则集,对初始事件簇进行清洗获得反映同一事件的文本集合。
本发明中,步骤1具体包括:
对每一篇待归并文本进行分词,进一步根据停用词典过滤语气词、助词停用词;
基于过滤后的分词结果采用已预训练的文本向量化模型生成文本的语义向量集X={x1,x2,x3...,xn},其中xi为第i篇待归并文本的语义向量,i=1,2,3,...,n,n为待归并文本数,的已训练的文本向量化模型是通过自学习模型训练得到。
本发明中,步骤2具体包括:
(1)根据语义向量集X,计算两两向量相似度生成相似度矩阵S,公式如下:
其中,s(x1,x1)表示语义向量x1和语义向量x1间的相似度,n为语义向量个数即待归并文档数;
设置参考度P(i)即第i篇文本的语义向量作为聚类中心的参考度,设置P(i)为相似度矩阵的中值;
(2)初始化吸引度矩阵R和归属度矩阵A为n×n的零矩阵,设置最大迭代次数N;
(3)根据相似度矩阵S更新吸引度矩阵R和归属度矩阵A,更新公式如下:
(4)设置阻尼系数λ在吸引度矩阵和归属度矩阵A进行迭代更新中起收敛作用,公式如下:
rt+1(i,k)=λ×rt(i,k)+(1-λ)×rt+1(i,k)
at+1(i,k)=λ×at(i,k)+(1-λ)×at+1(i,k)
其中,λ∈[0.5,1);
(5)重复步骤(3)、(4)直至迭代次数达到最大值N或矩阵R和A不再变化时,算法结束,获得每一篇待归并文本的初始聚类标签,根据初始聚类标签形成的文本簇即为初始事件簇。
本发明中,步骤3根据语义向量提取待归并文本的命名实体,命名实体包括人名、地名、组织机构名。
本发明中,步骤4具体包括:
(1)根据命名实体设置清洗规则集C,清洗规则的设置遵循表述同一事件的不同文本中所含的命名实体一致的原则;
(2)根据清洗规则集C对初始事件簇进行清洗,对簇中满足规则的文本进行相应处理,得到最终事件簇,即反映同一事件的文本集合。
本发明中,的清洗规则集C={c1,c2,c3},其中规则c1、c2和c3的详细内容如下:
c1:待归并文本的命名实体数量为0时,则自成一个事件簇;
c2:待归并文本所含命名实体在所属初始事件簇所含的全部命名实体集合中,仅出现1次,则自成一个事件簇;
c3:待归并文本所属初始事件簇所含命名实体中最高频的3个实体,在该待归并文本中未出现,则自成一个事件簇。
本发明中,步骤1:生成待归并文本的语义向量;
现有D1、D2、D3、D4、D5和D6共计6篇来源于阳光热线问政平台的留言详情文本,详情内容示例如表1所示;
表1阳光热线问政平台的留言详情文本示例
对每一篇待归并文本进行分词,进一步根据停用词典过滤语气词、助词等停用词,处理结果示例如表2所示;
表2分词和停用词过滤结果示例
基于过滤后的分词结果采用已预训练的文本向量化模型生成文本的语义向量集X={x1,x2,x3...,xn},其中xi为第i篇待归并文本的语义向量,i=1,2,3,...,n,n为待归并文本数。所述的已训练的文本向量化模型是通过自学习模型训练得到。
步骤2:对语义向量采用AP聚类获得初始事件簇;
根据语义向量集X,计算两两向量相似度生成相似度矩阵S,相似度矩阵计算结果示例如下所示:
表3相似度矩阵S计算结果示例
x<sub>1</sub> | …… | x<sub>6</sub> | |
x<sub>1</sub> | 1 | …… | 0.2312 |
…… | …… | …… | …… |
x<sub>6</sub> | 0.2312 | …… | 1 |
设置参考度P(i)即第i篇文本的语义向量作为聚类中心的参考度,设置P(i)为相似度矩阵的中值;
初始化吸引度矩阵R和归属度矩阵A为6×6的零矩阵,设置最大迭代次数N为100;
根据相似度矩阵S更新吸引度矩阵R和归属度矩阵A,更新公式如下:
设置阻尼系数λ在吸引度矩阵和归属度矩阵A进行迭代更新中起收敛作用,公式如下:
rt+1(i,k)=λ×rt(i,k)+(1-λ)×rt+1(i,k)
at+1(i,k)=λ×at(i,k)+(1-λ)×at+1(i,k)
其中,设置λ为0.5,当设置的阻尼系数值越小时,迭代次数会减小,阻尼系数值越大时,迭代次数增大;
重复步骤(3)、(4)直至迭代次数达到最大值N或矩阵R和A不再变化时,算法结束,获得每一篇待归并文本的初始聚类标签,根据初始聚类标签形成的文本簇即为初始事件簇。聚类结果示例如下表4所示:
表4聚类结果示例
根据上表4可知,由初始聚类标签形成2个文本簇即2个初始事件簇,分别为(D1,D2,D3,D4)和(D5,D6)。
步骤3:根据语义向量提取待归并文本的命名实体;
根据语义向量提取待归并文本的命名实体,所述的命名实体包括人名、地名、组织机构名,提取结果示例如下表5所示。
表5命名实体提取结果示例
步骤4:根据命名实体设置清洗规则集,对初始事件簇进行清洗获得反映同一事件的文本集合;
根据命名实体设置清洗规则集C,清洗规则的设置遵循表述同一事件的不同文本中所含的命名实体一致的原则,设置的清洗规则集C示例如下表6所示;
表6清洗规则集C示例
当留言的命名实体满足上述表中3个规则中的任一个规则时,需按规则处理;若3个规则均不满足,则保留原初始聚类标签。
根据清洗规则集C对初始事件簇进行清洗,对簇中不满足规则的文本进行过滤,得到最终事件簇,即反映同一事件的文本集合,最终事件簇结果示例如下表7所示。
表7根据清洗规则集C过滤后的结果示例
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (6)
1.一种基于命名实体和AP聚类的事件归并方法,其特征在于,包括以下步骤:
步骤1:生成待归并文本的语义向量;
步骤2:对语义向量采用AP聚类获得初始事件簇;
步骤3:根据语义向量提取待归并文本的命名实体;
步骤4:根据命名实体设置清洗规则集,对初始事件簇进行清洗获得反映同一事件的文本集合。
2.根据权利要求1所述的一种基于命名实体和AP聚类的事件归并方法,其特征在于,所述步骤1具体包括:
对每一篇待归并文本进行分词,进一步根据停用词典过滤语气词、助词停用词;
基于过滤后的分词结果采用已预训练的文本向量化模型生成文本的语义向量集X={x1,x2,x3...,xn},其中xi为第i篇待归并文本的语义向量,i=1,2,3,...,n,n为待归并文本数,所述的已训练的文本向量化模型是通过自学习模型训练得到。
3.根据权利要求1所述的一种基于命名实体和AP聚类的事件归并方法,其特征在于,所述的步骤2具体包括:
(1)根据语义向量集X,计算两两向量相似度生成相似度矩阵S,公式如下:
其中,s(x1,x1)表示语义向量x1和语义向量x1间的相似度,n为语义向量个数即待归并文档数;
设置参考度P(i)即第i篇文本的语义向量作为聚类中心的参考度,设置P(i)为相似度矩阵的中值;
(2)初始化吸引度矩阵R和归属度矩阵A为n×n的零矩阵,设置最大迭代次数N;
(3)根据相似度矩阵S更新吸引度矩阵R和归属度矩阵A,更新公式如下:
(4)设置阻尼系数λ在吸引度矩阵和归属度矩阵A进行迭代更新中起收敛作用,公式如下:
rt+1(i,k)=λ×rt(i,k)+(1-λ)×rt+1(i,k)
at+1(i,k)=λ×at(i,k)+(1-λ)×at+1(i,k)
其中,λ∈[0.5,1);
(5)重复步骤(3)、(4)直至迭代次数达到最大值N或矩阵R和A不再变化时,算法结束,获得每一篇待归并文本的初始聚类标签,根据初始聚类标签形成的文本簇即为初始事件簇。
4.根据权利要求1所述的一种基于命名实体和AP聚类的事件归并方法,其特征在于,所述步骤3根据语义向量提取待归并文本的命名实体,命名实体包括人名、地名、组织机构名。
5.根据权利要求1所述的一种基于命名实体和AP聚类的事件归并方法,其特征在于,所述的步骤4具体包括:
(1)根据命名实体设置清洗规则集C,清洗规则的设置遵循表述同一事件的不同文本中所含的命名实体一致的原则;
(2)根据清洗规则集C对初始事件簇进行清洗,对簇中满足规则的文本进行相应处理,得到最终事件簇,即反映同一事件的文本集合。
6.根据权利要求5所述的一种基于命名实体和AP聚类的事件归并方法,其特征在于,所述的清洗规则集C={c1,c2,c3},其中规则c1、c2和c3的详细内容如下:
c1:待归并文本的命名实体数量为0时,则自成一个事件簇;
c2:待归并文本所含命名实体在所属初始事件簇所含的全部命名实体集合中,仅出现1次,则自成一个事件簇;
c3:待归并文本所属初始事件簇所含命名实体中最高频的3个实体,在该待归并文本中未出现,则自成一个事件簇。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110015195.7A CN112650852A (zh) | 2021-01-06 | 2021-01-06 | 一种基于命名实体和ap聚类的事件归并方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110015195.7A CN112650852A (zh) | 2021-01-06 | 2021-01-06 | 一种基于命名实体和ap聚类的事件归并方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112650852A true CN112650852A (zh) | 2021-04-13 |
Family
ID=75367865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110015195.7A Pending CN112650852A (zh) | 2021-01-06 | 2021-01-06 | 一种基于命名实体和ap聚类的事件归并方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112650852A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114266255A (zh) * | 2022-03-01 | 2022-04-01 | 深圳壹账通科技服务有限公司 | 基于聚类模型的语料分类方法、装置、设备及存储介质 |
CN116049413A (zh) * | 2023-04-03 | 2023-05-02 | 北京中科闻歌科技股份有限公司 | 基于事件演化的用户观点和立场获取方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050192926A1 (en) * | 2004-02-18 | 2005-09-01 | International Business Machines Corporation | Hierarchical visualization of a semantic network |
WO2016095487A1 (zh) * | 2014-12-17 | 2016-06-23 | 中山大学 | 一种基于人机交互的图像高级语义解析的方法 |
CN107688652A (zh) * | 2017-08-31 | 2018-02-13 | 苏州大学 | 面向互联网新闻事件的演化式摘要生成方法 |
CN109960763A (zh) * | 2019-03-21 | 2019-07-02 | 湖南大学 | 一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法 |
CN110188197A (zh) * | 2019-05-13 | 2019-08-30 | 北京一览群智数据科技有限责任公司 | 一种用于标注平台的主动学习方法及装置 |
CN110232149A (zh) * | 2019-05-09 | 2019-09-13 | 北京邮电大学 | 一种热点事件检测方法和*** |
CN110489558A (zh) * | 2019-08-23 | 2019-11-22 | 网易传媒科技(北京)有限公司 | 文章聚合方法和装置、介质和计算设备 |
CN110569328A (zh) * | 2019-07-31 | 2019-12-13 | 平安科技(深圳)有限公司 | 实体链接方法、电子装置及计算机设备 |
CN110990566A (zh) * | 2019-11-21 | 2020-04-10 | 华东师范大学 | 一种基于社区检测的增量聚类算法 |
CN111221968A (zh) * | 2019-12-31 | 2020-06-02 | 北京航空航天大学 | 基于学科树聚类的作者消歧方法及装置 |
CN112131872A (zh) * | 2020-09-18 | 2020-12-25 | 三螺旋大数据科技(昆山)有限公司 | 一种文献作者重名消歧方法和构建*** |
-
2021
- 2021-01-06 CN CN202110015195.7A patent/CN112650852A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050192926A1 (en) * | 2004-02-18 | 2005-09-01 | International Business Machines Corporation | Hierarchical visualization of a semantic network |
WO2016095487A1 (zh) * | 2014-12-17 | 2016-06-23 | 中山大学 | 一种基于人机交互的图像高级语义解析的方法 |
CN107688652A (zh) * | 2017-08-31 | 2018-02-13 | 苏州大学 | 面向互联网新闻事件的演化式摘要生成方法 |
CN109960763A (zh) * | 2019-03-21 | 2019-07-02 | 湖南大学 | 一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法 |
CN110232149A (zh) * | 2019-05-09 | 2019-09-13 | 北京邮电大学 | 一种热点事件检测方法和*** |
CN110188197A (zh) * | 2019-05-13 | 2019-08-30 | 北京一览群智数据科技有限责任公司 | 一种用于标注平台的主动学习方法及装置 |
CN110569328A (zh) * | 2019-07-31 | 2019-12-13 | 平安科技(深圳)有限公司 | 实体链接方法、电子装置及计算机设备 |
CN110489558A (zh) * | 2019-08-23 | 2019-11-22 | 网易传媒科技(北京)有限公司 | 文章聚合方法和装置、介质和计算设备 |
CN110990566A (zh) * | 2019-11-21 | 2020-04-10 | 华东师范大学 | 一种基于社区检测的增量聚类算法 |
CN111221968A (zh) * | 2019-12-31 | 2020-06-02 | 北京航空航天大学 | 基于学科树聚类的作者消歧方法及装置 |
CN112131872A (zh) * | 2020-09-18 | 2020-12-25 | 三螺旋大数据科技(昆山)有限公司 | 一种文献作者重名消歧方法和构建*** |
Non-Patent Citations (5)
Title |
---|
LEILEI SUN等: "fast affinity propagation clustering based on incomplete similarity matrix", KNOWLEDGE AND INFORMATION SYSTEMS, pages 941 - 963 * |
唐琳;郭崇慧;陈静锋;孙磊磊;: "基于中文学术文献的领域本体概念层次关系抽取研究", 情报学报, vol. 39, no. 04, pages 387 - 398 * |
毕崇武;叶光辉;李明倩;曾杰妍;: "基于标签语义挖掘的城市画像感知研究", 数据分析与知识发现, vol. 3, no. 12, pages 41 - 51 * |
汪沛;线岩团;郭剑毅;文永华;陈玮;王红斌;: "一种结合词向量和图模型的特定领域实体消歧方法", 智能***学报, vol. 11, no. 03, pages 366 - 375 * |
王艳松等: "基于核主成分分析和AP聚类算法的电力***态势感知技术", 国网北京市电力公司, vol. 59, no. 1, pages 25 - 36 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114266255A (zh) * | 2022-03-01 | 2022-04-01 | 深圳壹账通科技服务有限公司 | 基于聚类模型的语料分类方法、装置、设备及存储介质 |
CN114266255B (zh) * | 2022-03-01 | 2022-05-17 | 深圳壹账通科技服务有限公司 | 基于聚类模型的语料分类方法、装置、设备及存储介质 |
CN116049413A (zh) * | 2023-04-03 | 2023-05-02 | 北京中科闻歌科技股份有限公司 | 基于事件演化的用户观点和立场获取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106484664B (zh) | 一种短文本间相似度计算方法 | |
CN108287922B (zh) | 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法 | |
CN103678670A (zh) | 一种微博热词与热点话题挖掘***及方法 | |
CN109960763B (zh) | 基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法 | |
CN111914185B (zh) | 一种基于图注意力网络的社交网络中文本情感分析方法 | |
CN108345585A (zh) | 一种基于深度学习的自动问答方法 | |
CN107992609A (zh) | 一种基于文本分类技术和决策树的投诉倾向判断方法 | |
CN104778256B (zh) | 一种领域问答***咨询的快速可增量聚类方法 | |
CN108388554B (zh) | 基于协同过滤注意力机制的文本情感识别*** | |
CN110175221B (zh) | 利用词向量结合机器学习的垃圾短信识别方法 | |
CN112650852A (zh) | 一种基于命名实体和ap聚类的事件归并方法 | |
CN108804701A (zh) | 基于社交网络大数据的人物画像模型构建方法 | |
CN107577782B (zh) | 一种基于异质数据的人物相似度刻画方法 | |
CN110442720A (zh) | 一种基于lstm卷积神经网络的多标签文本分类方法 | |
CN107025299A (zh) | 一种基于加权lda主题模型的金融舆情感知方法 | |
CN107679031B (zh) | 基于堆叠降噪自编码机的广告博文识别方法 | |
Huang et al. | A topic BiLSTM model for sentiment classification | |
CN113553510B (zh) | 一种文本信息推荐方法、装置及可读介质 | |
CN110347897A (zh) | 基于事件检测的微博网络情感社区识别方法 | |
CN110457711A (zh) | 一种基于主题词的社交媒体事件主题识别方法 | |
CN108268470A (zh) | 一种基于演化聚类的评论文本分类提取方法 | |
CN115017887A (zh) | 基于图卷积的中文谣言检测方法 | |
Lin et al. | Predicting performance outcome with a conversational graph convolutional network for small group interactions | |
CN107807919A (zh) | 一种利用循环随机游走网络进行微博情感分类预测的方法 | |
CN108319584A (zh) | 一种基于改进FP-Growth算法的微博类短文本的新词发现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |