CN111597328A - 一种新事件主题提取方法 - Google Patents
一种新事件主题提取方法 Download PDFInfo
- Publication number
- CN111597328A CN111597328A CN202010541567.5A CN202010541567A CN111597328A CN 111597328 A CN111597328 A CN 111597328A CN 202010541567 A CN202010541567 A CN 202010541567A CN 111597328 A CN111597328 A CN 111597328A
- Authority
- CN
- China
- Prior art keywords
- event
- news
- text
- text data
- new event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于网络信息技术领域,涉及一种新事件主题提取方法,基于BERT对新闻事件文本数据集进行向量化表示,其上下文的联系更密切,表达方式更准确,而且利用注意力机制的双向长短记忆网络实现了对网络中的大数据量的新闻文本进行学习,用以发现新事件,实现对数据的高效准确利用,采用有监督和无监督方法结合的方式,比单一的方式更有效率,其方法简单,能够深层次提取语义信息,可以对网络中的新闻文本进行分析与挖掘,实现新事件的发现,有利于相关监管部门及个人用户对新事件的实时掌控,便于后续的工作。
Description
技术领域:
本发明属于网络信息技术领域,涉及一种新事件主题提取方法,特别是一种基于BERT和注意力机制的双向长短记忆网络训练新事件发现模型和多特征融合的主题建模分析提取新事件主题的方法。
背景技术:
伴随着大数据时代互联网的发展,人们被大量来源广泛的新闻信息环绕,比如报纸、网络等,其中新闻最常见的载体是文本,文本是最容易获取有价值信息的方式。由于不同来源产生的新闻信息方式各种各样,新闻文本的格式和蕴含的信息也往往杂乱无章,同时产生新闻信息的数量也极其庞大,完全依赖人工实现中文新闻事件的检测是几乎不可能的。同时,网络中的大量文本包含着人们对某一个事件的关注程度以及影响,因此针对网络新闻文本进行挖掘研究有利于尽早发现热点关注事件。
目前热点新闻事件的发现方法多基于人工监控的方法,此方法在网络中的新闻事件发现监测中需要较高的资源成本,包括以计算机为辅助的方法从网络中获取数据,再由人工检查的方法同样也费时费力。随着机器学习的兴起,目前普遍采用的事件发现方法是根据聚类的方法实现,此方法对新闻文本进行聚类发现新事件,但是其在新事件发现方面精度不高,易造成错误识别。随着神经网络的兴起,其在各个领域都取得了巨大的成就,神经网络不仅克服了人工构建特征的局限,而且对于大数据其更适用。CN201810696452.6提供了一种面向领域的中文文本主题句生成方法,其特征在于,包括以下步骤:面向领域文本数据集,建立相应的领域知识图谱,应用深度神经网络模型对文本进行语义信息抽取,按照主题句式对文本进行分类,最终生成文本的主题句,该方法通过创建领域知识图谱的方法获得数据集概念模型和内容叙述模式特性,并利用深度学习模型对文本数据进行标注和分类训练,进而生成出文本的主题句,实现基于知识的查询和统计。但是该方法还存在以下不足:首先,该方法只能面向特定的领域数据集,并不适用于各领域通用数据集;其次,该方法需要创建领域知识图谱,此方式资源开销巨大且需要高度的专业素养;最后,该方法利用深度学习方法对文本数据进行标注和分类,此操作只能针对特定领域,面对新领域新数据模型表现较差。因此,需要提供一种新事件主题提取方法,采用深度学习方法,实现新事件的发现,并利用主题建模的方法实现新事件的主题提取。
发明内容:
本发明的目的在于克服现有技术存在的缺点,设计提供一种基于BERT和注意力机制的双向长短记忆网络训练新事件发现模型和多特征融合的主题建模分析提取新事件主题的方法,利用深度学习中的神经网络实现对海量文本数据的挖掘与处理,实现高效准确分析利用文本数据。
为了实现上述的目标,本发明实现新事件主题提取的过程包括以下步骤:
步骤1:根据事件关键词获取新闻事件文本数据流,根据获取的新闻事件文本数据流,构建新闻事件文本数据集,文本中的每一条记录包括新闻文本的事件类型标签以及事件的具体文本描述,并将新闻事件文本数据集划分训练集Train、验证集Val和测试集Test;
步骤2:对步骤1划分的训练集Train、验证集Val和测试集Test,以BERT表示模型为基础,,输出高维稠密向量表示,得到新闻事件文本数据集的高维稠密向量表示,其中BERT表示模型的模型层数为12,隐藏大小为768,注意力头为12;
步骤3:将步骤2获得的新闻事件文本数据集的高维稠密向量表示作为输入,根据训练集Train、验证集Val,采用Xavier进行神经网络参数初始化,采用dropout策略以梯度下降的方法作为神经网络参数及输入特征向量的更新,得到新事件发现模型;
步骤4:设置新事件发现模型的阈值,如果识别结果大于这一阈值,则判定此事件属于已知新闻事件类型并给出事件的主题;如果预测结果阈值小于设定的阈值则判定此事件为新事件,对判定为新事件的新闻文本进行整合存储得到新事件文本数据集;
步骤5:对步骤4获得的新事件文本数据集中包含的无用信息进行去除操作,保留新闻事件文本对新闻事件的描述内容,并采用结巴中文分词工具进行分词后建立自定义词典提高分词的精度;其中无用信息包括特殊字符、停用词等没有实质价值的标记;
步骤6:对步骤5得到的预处理后的新事件文本数据集提取实体特征和LDA主题热词特征后与原文进行词级拼接形成新的新闻文本描述,并对实体特征和LDA主题热词特征通过对特征增加词频的方式进行加权表示;其中实体特征包括人物实体特征、地点实体特征和组织名实体特征;
步骤7:对于步骤6处理后的新闻文本数据集,计算每个词的词频/逆文档率,用以衡量每个词相对于当前主题的重要度,并根据计算结果为每个词赋予相应的权重值;
步骤8:根据步骤6、7获得的特征及其权重值,利用Kmeans算法对步骤7得到的新事件文本数据集按多个事件进行聚类,并对新事件进行主题建模分析;将主题建模分析结果结合词频/逆文档率对新事件文本集的表示,对每个事件抽取十个关键词作为新事件的主题词,完成新事件主题的提取。
本发明所述步骤1具体包含以下步骤:
步骤1.1:根据新闻事件文本数据获取需求,确定具体新闻事件的关键词;
步骤1.2:对于确定的新闻事件关键词,构建以Scrapy框架为基础通过百度搜索引擎获取新闻事件文本数据链接的数据爬虫***,获取新闻事件文本数据流;
步骤1.3:对于获取的新闻事件文本数据流对文本内容进行规范化操作,去除空格等无效内容,对剩余有效内容进行拼接处理形成一条记录为一条新闻文本的规范化表示形成新闻事件文本集;
步骤1.4:对于步骤1.3得到的新闻事件文本集,按照7:2:1的比例划分训练集Train、验证集Val和测试集Test。
本发明与现有技术相比,基于BERT对新闻事件文本数据集进行向量化表示,其上下文的联系更密切,表达方式更准确,而且利用注意力机制的双向长短记忆网络实现了对网络中的大数据量的新闻文本进行学习,用以发现新事件,实现对数据的高效准确利用,采用有监督和无监督方法结合的方式,比单一的方式更有效率,其方法简单,能够深层次提取语义信息,可以对网络中的新闻文本进行分析与挖掘,实现新事件的发现,有利于相关监管部门及个人用户对新事件的实时掌控,便于后续的工作。
附图说明:
图1为本发明的工作流程示意图。
图2为本发明构建的新事件发现模型结构图。
图3为本发明实体特征抽取模型结构图。
图4为本发明主题抽取过程流程图。
具体实施方式:
下面通过实施例并结合附图对本发明做进一步描述。
实施例:
本发实施例实现新事件主题提取的过程包括以下步骤:
步骤1:根据事件关键词获取新闻事件文本数据流,根据获取的新闻事件文本数据流,构建新闻事件文本数据集,文本中的每一条记录包括新闻文本的事件类型标签以及事件的具体文本描述,并将新闻事件文本数据集划分训练集Train、验证集Val和测试集Test,具体为:
步骤1.1:根据新闻事件文本数据获取需求,确定具体新闻事件的关键词;
步骤1.2:对于确定的新闻事件关键词,构建以Scrapy框架为基础通过百度搜索引擎获取新闻事件文本数据链接的数据爬虫***,获取新闻事件文本数据流;
步骤1.3:对于获取的新闻事件文本数据流对文本内容进行规范化操作,去除空格等无效内容,对剩余有效内容进行拼接处理形成一条记录为一条新闻文本的规范化表示形成新闻事件文本集;
步骤1.4:对于步骤1.3得到的新闻事件文本集,按照7:2:1的比例划分训练集Train、验证集Val和测试集Test;
步骤2:对步骤1划分的训练集Train、验证集Val和测试集Test,以BERT表示模型为基础进行文本的向量化,输出高维稠密向量表示,得到新闻事件文本数据集的高维稠密向量表示,其中BERT表示模型参数的模型层数为12,隐藏大小为768,注意力头为12,得到的高维稠密向量表示维度为768,具体为:[8.3772335e-05,3.9696515e-05,3.854327e-05,0.0018235502,0.00028364992,3.3392924e-05,3.613378e-05,0.0011939545,8.937488e-06,0.00028550622,1.6984109e-06,0.014312873,4.2274103e-05,0.0057512685,0.008945758,2.318987e-05,1.9686187e-05,3.6920403e-05,…]
步骤3:将步骤2获得的新闻事件文本数据集的高维稠密向量表示作为输入,根据训练集Train、验证集Val,采用Xavier进行神经网络参数初始化,采用dropout策略以梯度下降的方法作为神经网络参数及输入特征向量的更新,得到基于BERT、注意力机制的双向长短记忆网络的新事件发现模型;
步骤4:设置新事件发现模型的阈值为0.9,如果识别结果大于这一阈值,则判定此事件属于已知新闻事件类型并给出事件的主题;如果预测结果阈值小于设定的阈值则判定此事件为新事件,对判定为新事件的新闻文本进行整合存储得到新事件文本数据集;
步骤5:对步骤4获得的新事件文本数据集中包含的无用信息进行去除操作,保留新闻事件文本对新闻事件的描述内容,并采用结巴中文分词工具进行分词后建立自定义词典提高分词的精度;其中无用信息包括特殊字符、停用词等没有实质价值的标记得到的预处理结果;
步骤6:对步骤5得到的预处理后的新事件文本数据集提取实体特征和LDA主题热词特征后与原文进行词级拼接形成新的新闻文本描述,并对实体特征和LDA主题热词特征通过对特征增加词频的方式进行加权表示;其中实体特征包括人物实体特征、地点实体特征和组织名实体特征;
步骤7:对于步骤6处理后的新闻文本数据集,计算每个词的词频/逆文档率,用以衡量每个词相对于当前主题的重要度,并根据计算结果为每个词赋予相应的权重向量;具体如下:0.11178106295272044,0.11178106295272044,0.11178106295272044,0.11178106295272044,0.11178106295272044,0.16767159442908067…
步骤8:根据步骤6、7获得的特征及其权重值,利用Kmeans算法对步骤7得到的新事件文本数据集按多个事件进行聚类,并对新事件进行主题建模分析;将主题建模分析结果结合词频/逆文档率对新事件文本集的表示,对每个事件抽取十个关键词作为新事件的主题词,完成新事件主题的提取,其中Kmeans新事件主题提取是一个反复迭代的过程,分为四个步骤,首先选取新闻文本集中的k个对象作为初始中心,每个对象代表着一个聚类簇中心;其次,对于样本中的数据对象,根据它们与这些聚类中心的欧氏距离,按距离最近的原则将它们分到距离它们最近的聚类中心所对应的类;然后,将每个类别中所有对象所对应的均值作为该类别的聚类中心,计算目标函数的值;最后,判断聚类中心和目标函数的值是否发生改变,若不变,则输出结果,若改变,则返回第二步。最终聚类完成后结合TF-IDF对新事件文本的表示,抽取出每个事件类别的关键词。
本实施例中未具体描述的策略、方法或算法均采用本领域已有的现有技术。
Claims (2)
1.一种新事件主题提取方法,其特征在于包括以下步骤:
步骤1:根据事件关键词获取新闻事件文本数据流,根据获取的新闻事件文本数据流,构建新闻事件文本数据集,文本中的每一条记录包括新闻文本的事件类型标签以及事件的具体文本描述,并将新闻事件文本数据集划分训练集Train、验证集Val和测试集Test;
步骤2:对步骤1划分的训练集Train、验证集Val和测试集Test,以BERT表示模型为基础,,输出高维稠密向量表示,得到新闻事件文本数据集的高维稠密向量表示,其中BERT表示模型的模型层数为12,隐藏大小为768,注意力头为12;
步骤3:将步骤2获得的新闻事件文本数据集的高维稠密向量表示作为输入,根据训练集Train、验证集Val,采用Xavier进行神经网络参数初始化,采用dropout策略以梯度下降的方法作为神经网络参数及输入特征向量的更新,得到新事件发现模型;
步骤4:设置新事件发现模型的阈值,如果识别结果大于这一阈值,则判定此事件属于已知新闻事件类型并给出事件的主题;如果预测结果阈值小于设定的阈值则判定此事件为新事件,对判定为新事件的新闻文本进行整合存储得到新事件文本数据集;
步骤5:对步骤4获得的新事件文本数据集中包含的无用信息进行去除操作,保留新闻事件文本对新闻事件的描述内容,并采用结巴中文分词工具进行分词后建立自定义词典提高分词的精度;其中无用信息包括特殊字符、停用词没有实质价值的标记;
步骤6:对步骤5得到的预处理后的新事件文本数据集提取实体特征和LDA主题热词特征后与原文进行词级拼接形成新的新闻文本描述,并对实体特征和LDA主题热词特征通过对特征增加词频的方式进行加权表示;其中实体特征包括人物实体特征、地点实体特征和组织名实体特征;
步骤7:对于步骤6处理后的新闻文本数据集,计算每个词的词频/逆文档率,用以衡量每个词相对于当前主题的重要度,并根据计算结果为每个词赋予相应的权重值;
步骤8:根据步骤6、7获得的特征及其权重值,利用Kmeans算法对步骤7得到的新事件文本数据集按多个事件进行聚类,并对新事件进行主题建模分析;将主题建模分析结果结合词频/逆文档率对新事件文本集的表示,对每个事件抽取十个关键词作为新事件的主题词,完成新事件主题的提取。
2.根据权利要求1所述新事件主题提取方法,其特征在于所述步骤1具体包含以下步骤:
步骤1.1:根据新闻事件文本数据获取需求,确定具体新闻事件的关键词;
步骤1.2:对于确定的新闻事件关键词,构建以Scrapy框架为基础通过百度搜索引擎获取新闻事件文本数据链接的数据爬虫***,获取新闻事件文本数据流;
步骤1.3:对于获取的新闻事件文本数据流对文本内容进行规范化操作,去除包括空格的无效内容,对剩余有效内容进行拼接处理形成一条记录为一条新闻文本的规范化表示形成新闻事件文本集;
步骤1.4:对于步骤1.3得到的新闻事件文本集,按照7:2:1的比例划分训练集Train、验证集Val和测试集Test。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010459853 | 2020-05-27 | ||
CN2020104598537 | 2020-05-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111597328A true CN111597328A (zh) | 2020-08-28 |
CN111597328B CN111597328B (zh) | 2022-10-18 |
Family
ID=72191626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010541567.5A Active CN111597328B (zh) | 2020-05-27 | 2020-06-15 | 一种新事件主题提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111597328B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100038A (zh) * | 2020-09-27 | 2020-12-18 | 北京有竹居网络技术有限公司 | 数据时延监控方法、装置、电子设备和计算机可读介质 |
CN112199480A (zh) * | 2020-09-18 | 2021-01-08 | 厦门快商通科技股份有限公司 | 一种基于bert模型的在线对话日志违规检测方法及*** |
CN112269949A (zh) * | 2020-10-19 | 2021-01-26 | 杭州叙简科技股份有限公司 | 一种基于事故灾害新闻的信息结构化方法 |
CN114841155A (zh) * | 2022-04-21 | 2022-08-02 | 科技日报社 | 主题内容智能聚合方法、装置、电子设备及存储介质 |
US20230096118A1 (en) * | 2021-09-27 | 2023-03-30 | Sap Se | Smart dataset collection system |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108241610A (zh) * | 2016-12-26 | 2018-07-03 | 上海神计信息***工程有限公司 | 一种文本流的在线主题检测方法和*** |
CN108897857A (zh) * | 2018-06-28 | 2018-11-27 | 东华大学 | 面向领域的中文文本主题句生成方法 |
CN109635284A (zh) * | 2018-11-26 | 2019-04-16 | 北京邮电大学 | 基于深度学习结合累积注意力机制的文本摘要方法及*** |
CN109766544A (zh) * | 2018-12-24 | 2019-05-17 | 中国科学院合肥物质科学研究院 | 基于lda和词向量的文档关键词抽取方法和装置 |
CN110188172A (zh) * | 2019-05-31 | 2019-08-30 | 清华大学 | 基于文本的事件检测方法、装置、计算机设备及存储介质 |
US10417350B1 (en) * | 2017-08-28 | 2019-09-17 | Amazon Technologies, Inc. | Artificial intelligence system for automated adaptation of text-based classification models for multiple languages |
CN110245229A (zh) * | 2019-04-30 | 2019-09-17 | 中山大学 | 一种基于数据增强的深度学习主题情感分类方法 |
CN110413863A (zh) * | 2019-08-01 | 2019-11-05 | 信雅达***工程股份有限公司 | 一种基于深度学习的舆情新闻去重与推送方法 |
CN110633409A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
CN110781302A (zh) * | 2019-10-23 | 2020-02-11 | 清华大学 | 文本中事件角色的处理方法、装置、设备及存储介质 |
CN111078876A (zh) * | 2019-12-04 | 2020-04-28 | 国家计算机网络与信息安全管理中心 | 一种基于多模型集成的短文本分类方法和*** |
CN111143576A (zh) * | 2019-12-18 | 2020-05-12 | 中科院计算技术研究所大数据研究院 | 一种面向事件的动态知识图谱构建方法和装置 |
CN111143549A (zh) * | 2019-06-20 | 2020-05-12 | 东华大学 | 一种基于主题的舆情情感演化的方法 |
-
2020
- 2020-06-15 CN CN202010541567.5A patent/CN111597328B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108241610A (zh) * | 2016-12-26 | 2018-07-03 | 上海神计信息***工程有限公司 | 一种文本流的在线主题检测方法和*** |
US10417350B1 (en) * | 2017-08-28 | 2019-09-17 | Amazon Technologies, Inc. | Artificial intelligence system for automated adaptation of text-based classification models for multiple languages |
CN110633409A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
CN108897857A (zh) * | 2018-06-28 | 2018-11-27 | 东华大学 | 面向领域的中文文本主题句生成方法 |
CN109635284A (zh) * | 2018-11-26 | 2019-04-16 | 北京邮电大学 | 基于深度学习结合累积注意力机制的文本摘要方法及*** |
CN109766544A (zh) * | 2018-12-24 | 2019-05-17 | 中国科学院合肥物质科学研究院 | 基于lda和词向量的文档关键词抽取方法和装置 |
CN110245229A (zh) * | 2019-04-30 | 2019-09-17 | 中山大学 | 一种基于数据增强的深度学习主题情感分类方法 |
CN110188172A (zh) * | 2019-05-31 | 2019-08-30 | 清华大学 | 基于文本的事件检测方法、装置、计算机设备及存储介质 |
CN111143549A (zh) * | 2019-06-20 | 2020-05-12 | 东华大学 | 一种基于主题的舆情情感演化的方法 |
CN110413863A (zh) * | 2019-08-01 | 2019-11-05 | 信雅达***工程股份有限公司 | 一种基于深度学习的舆情新闻去重与推送方法 |
CN110781302A (zh) * | 2019-10-23 | 2020-02-11 | 清华大学 | 文本中事件角色的处理方法、装置、设备及存储介质 |
CN111078876A (zh) * | 2019-12-04 | 2020-04-28 | 国家计算机网络与信息安全管理中心 | 一种基于多模型集成的短文本分类方法和*** |
CN111143576A (zh) * | 2019-12-18 | 2020-05-12 | 中科院计算技术研究所大数据研究院 | 一种面向事件的动态知识图谱构建方法和装置 |
Non-Patent Citations (3)
Title |
---|
张秀华 等: ""基于卷积神经网络和 K-means 的中文新闻事件检测与主题提取"", 《科学技术与工程》 * |
罗引: ""互联网舆情发现与观点挖掘技术研究"", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
许强: ""基于Spark的话题检测与跟踪技术研究"", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112199480A (zh) * | 2020-09-18 | 2021-01-08 | 厦门快商通科技股份有限公司 | 一种基于bert模型的在线对话日志违规检测方法及*** |
CN112199480B (zh) * | 2020-09-18 | 2022-12-06 | 厦门快商通科技股份有限公司 | 一种基于bert模型的在线对话日志违规检测方法及*** |
CN112100038A (zh) * | 2020-09-27 | 2020-12-18 | 北京有竹居网络技术有限公司 | 数据时延监控方法、装置、电子设备和计算机可读介质 |
CN112269949A (zh) * | 2020-10-19 | 2021-01-26 | 杭州叙简科技股份有限公司 | 一种基于事故灾害新闻的信息结构化方法 |
CN112269949B (zh) * | 2020-10-19 | 2023-09-22 | 杭州叙简科技股份有限公司 | 一种基于事故灾害新闻的信息结构化方法 |
US20230096118A1 (en) * | 2021-09-27 | 2023-03-30 | Sap Se | Smart dataset collection system |
US11874798B2 (en) * | 2021-09-27 | 2024-01-16 | Sap Se | Smart dataset collection system |
CN114841155A (zh) * | 2022-04-21 | 2022-08-02 | 科技日报社 | 主题内容智能聚合方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111597328B (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111597328B (zh) | 一种新事件主题提取方法 | |
CN110134757B (zh) | 一种基于多头注意力机制的事件论元角色抽取方法 | |
CN110598005B (zh) | 一种面向公共安全事件的多源异构数据知识图谱构建方法 | |
CN111046670B (zh) | 基于毒品案件法律文书的实体及关系联合抽取方法 | |
CN111291156A (zh) | 一种基于知识图谱的问答意图识别方法 | |
CN111985612B (zh) | 一种提高视频文本描述准确性的编码器网络模型设计方法 | |
CN110287298A (zh) | 一种基于问句主题的自动问答答案选择方法 | |
CN110175334A (zh) | 基于自定义的知识槽结构的文本知识抽取***和方法 | |
CN110969023B (zh) | 文本相似度的确定方法及装置 | |
CN112836509A (zh) | 一种专家***知识库构建方法及*** | |
CN111159332A (zh) | 一种基于bert的文本多意图识别方法 | |
CN108536781B (zh) | 一种社交网络情绪焦点的挖掘方法及*** | |
CN109543036A (zh) | 基于语义相似度的文本聚类方法 | |
CN116451114A (zh) | 基于企业多源实体特征信息的物联网企业分类***及方法 | |
CN113886562A (zh) | 一种ai简历筛选方法、***、设备和存储介质 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN114756678A (zh) | 一种未知意图文本的识别方法及装置 | |
CN112685374A (zh) | 日志分类方法、装置及电子设备 | |
CN114065749A (zh) | 一种面向文本的粤语识别模型及***的训练、识别方法 | |
Wu et al. | Inferring users' emotions for human-mobile voice dialogue applications | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及*** | |
CN116050419B (zh) | 一种面向科学文献知识实体的无监督识别方法及*** | |
CN111241812A (zh) | 基于并行改进的K-means算法的大数据文本聚类试验方法及*** | |
CN110162629B (zh) | 一种基于多基模型框架的文本分类方法 | |
CN114722798A (zh) | 一种基于卷积神经网络和注意力机制的反讽识别模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |