CN112380344B - 文本分类的方法、话题生成的方法、装置、设备及介质 - Google Patents
文本分类的方法、话题生成的方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN112380344B CN112380344B CN202011305385.4A CN202011305385A CN112380344B CN 112380344 B CN112380344 B CN 112380344B CN 202011305385 A CN202011305385 A CN 202011305385A CN 112380344 B CN112380344 B CN 112380344B
- Authority
- CN
- China
- Prior art keywords
- node
- nodes
- vector
- keywords
- articles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 239000013598 vector Substances 0.000 claims abstract description 65
- 238000013145 classification model Methods 0.000 claims abstract description 43
- 238000012512 characterization method Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种人工智能技术,揭露了一种文本分类的方法、话题生成的方法、装置、设备及介质,该方法包括:抓取网络文章,获取各篇文章对应的关键词;获取各篇文章两两之间的共同关键词,基于所述共同关键词构建表征图,所述表征图中每个节点代表一篇文章,有共同关键词的两两节点之间进行连线;基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度,基于所述紧密度获取每个节点的节点向量;将每个节点的节点向量输入至预定的分类模型中进行训练,获取所述分类模型输出的已分类的各个节点的集合。本发明能够对文本进行准确分类。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文本分类的方法、话题生成的方法、装置、设备及介质。
背景技术
目前,网络上每天产出大量信息,包括突发事件、事件分析、舆情预测、社会发展事件等等,信息依靠互联网实现快速传播,每个人都能快速获取到大量的信息。文本分类在信息处理中占据着重要地位,通过有效方法对信息进行准确分类,对于信息的处理具有很大的价值。传统的文本分类方法包括两种,一种是基于聚类和相似度的方法,通过计算文本的标题或摘要的相似度,把相关的文本聚类在一起,另一种是基于分类模型的方法,比如对文章等文本使用RNN、Text-CNN等算法建模,输出文本分类。
然而,上述方法都是处理的文本的序列化表征特征,能够取得一定效果,但文本包含的信息是非常多的,例如,对于某篇文章,其对另外的多篇文章存在关联关系,这种两两之间的关联关系对于该篇文章来说是相对的,能够表征该篇文章分别与另外的多篇文章的相对关联程度,而通过序列化表征特征的方法无法挖掘这种内在关系,也就无法准确分类文本,因此,对文本进行准确分类的技术有待进一步提高。
发明内容
本发明的目的在于提供一种文本分类的方法、话题生成的方法、装置、设备及介质,旨在对文本进行准确分类。
本发明提供一种文本分类的方法,包括:
抓取网络文章,获取各篇文章对应的关键词;
获取各篇文章两两之间的共同关键词,基于所述共同关键词构建表征图,所述表征图中每个节点代表一篇文章,有共同关键词的两两节点之间进行连线;
基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度,基于所述紧密度获取每个节点的节点向量;
将每个节点的节点向量输入至预定的分类模型中进行训练,获取所述分类模型输出的已分类的各个节点的集合。
本发明还提供一种基于上述的文本分类的方法的话题生成的方法,所述话题生成的方法包括:
抓取网络文章,获取各篇文章对应的关键词;
获取各篇文章两两之间的共同关键词,基于所述共同关键词构建表征图,所述表征图中每个节点代表一篇文章,有共同关键词的两两节点之间进行连线;
基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度,基于所述紧密度获取每个节点的节点向量;
将每个节点的节点向量输入至预定的分类模型中进行训练,获取所述分类模型输出的已分类的各个节点的集合;
从各类别的集合中选取预设数量的节点,基于所选取节点提取对应的文章的共同信息,基于所述共同信息生成话题。
本发明还提供一种文本分类的装置,包括:
抓取模块,用于抓取网络文章,获取各篇文章对应的关键词;
构建模块,用于获取各篇文章两两之间的共同关键词,基于所述共同关键词构建表征图,所述表征图中每个节点代表一篇文章,有共同关键词的两两节点之间进行连线;
处理模块,用于基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度,基于所述紧密度获取每个节点的节点向量;
分类模块,用于将每个节点的节点向量输入至预定的分类模型中进行训练,获取所述分类模型输出的已分类的各个节点的集合。
本发明还提供一种计算机设备,所述计算机设备包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的文本分类的方法的步骤,或者实现如上述的话题生成的方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的文本分类的方法的步骤,或者实现如上述的话题生成的方法的步骤。
本发明的有益效果是:本发明通过文章之间的共同关键词构建表征图,计算表征图中每个节点与其他相连节点的紧密度,从而得到每个节点对应的节点向量,将每个节点的节点向量输入分类模型中进行训练,得到分类后各个节点的集合,本实施例通过构建文章的表征图,将节点与相连节点的紧密度作为节点向量,通过将节点向量输入至分类模型中进行训练来对节点进行分类,能够挖掘一个节点与其他的多个节点相对的关联紧密度,这种紧密度为该文章与其他文章间进一步的内在联系或者空间联系,通过这种内在联系或者空间联系,可以准确地将最相似的文章分为一类,得到更好的分类。
附图说明
图1为本发明文本分类的方法一实施例的流程示意图;
图2为图1中的表征图的示意图;
图3为图1中基于共同关键词计算每个节点与相连的其他节点之间的紧密度,基于紧密度获取每个节点的节点向量的步骤的细化流程示意图;
图4为图1中将每个节点的节点向量输入至预定的分类模型中进行训练,获取分类模型输出的已分类的各个节点的集合的步骤的细化流程示意图;
图5为本发明话题生成的方法一实施例的流程示意图;
图6为本发明文本分类的装置一实施例的结构示意图;
图7为本发明计算机设备一实施例的硬件架构的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参阅图1所示,是本发明文本分类的方法一实施例的流程示意图,该方法包括:
步骤S1,抓取网络文章,获取各篇文章对应的关键词;
其中,可以定时(例如每天)从网络上抓取网络文章,从而生成对应时段的话题。网络文章包括不同标签类别的文章,例如要闻、财经、教育、体育等标签类别的网络文章。
其中,首先对每篇文章进行分词,可以使用分词工具逐个对每篇文章进行分词处理,例如使用Stanford汉语分词工具、jieba分词等分词工具进行分词处理。对于每篇文章,分词处理后可以得到一个对应的单词列表。
通过预定的关键词提取算法提取关键词,例如,使用TF-IDF(TermFrequency-Inverse Document Frequency,词项频率-逆向文本频率)算法、LSA(Latent SemanticAnalysis,隐性语义分析)算法或者PLSA(Probabilisitic Latent Semantic Analysis,概率隐性语义分析)算法等关键词提取算法中的任意一种算法对每篇文章的单词列表进行计算,得到分值较高的词作为文章的关键词。作为另一种实施方式,本实施例还可以同时使用多种关键词提取算法提取一篇文章的关键词,将多种关键词提取算法中所提取到的相同的关键词作为该篇文章的关键词。
步骤S2,获取各篇文章两两之间的共同关键词,基于所述共同关键词构建表征图,所述表征图中每个节点代表一篇文章,有共同关键词的两两节点之间进行连线;
分析两篇文章之间是否有共同的关键词,如果两篇文章之间有共同的关键词,那么每篇文章作为一个节点,在这两个节点之间进行连线。在分析完所抓取的全部文章后,各个节点之间有共同关键词的均进行连线,这样,构建表征图,构建好的表征图如图2所示。
步骤S3,基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度,基于所述紧密度获取每个节点的节点向量;
其中,在一实施例中,如图3所示,步骤S3包括:
步骤S31,统计相连的两节点对应的两篇文章中所述共同关键词的数量;
步骤S32,统计每个共同关键词在相连的两节点对应的两篇文章中分别出现的次数;
步骤S33,基于所述共同关键词的数量及所述分别出现的次数计算每个节点与相连的其他节点之间的紧密度S:
其中,A、B代表所述表征图中相连的节点,n为A、B两节点所对应的两篇文章中共同关键词的数量,i为共同关键词的序号,Ai为第i个共同关键词在节点A所对应的文章中出现的次数,Bi为第i个共同关键词在节点B所对应的文章中出现的次数,μ为共同关键词的数量的倒数。/>是所有比值的加和,乘以μ后就是平均到各个共同关键词的比值。通过紧密度S表达两篇具有共同关键的文章之间的关联关系,及紧密的程度。其中,当两篇文章很相似的情况下,紧密度S的值趋近于1,例如两篇相同文章的S值为1。如果两篇文章不相似,那么S值会趋近于0或者比1大很多,相当于在值1的附近波动,波动较大。
步骤S34,将每个节点与相连的其他节点之间的紧密度进行向量化,得到每个节点对应的节点向量。
本实施例中,将每个节点与相连的其他节点之间的紧密度进行向量化,得到所述节点对应的节点向量。例如,抓取的所有文章节点表示为A0,A1,A2,…,An,节点A0和节点A1的紧密度是S1,和节点A2的紧密度是S2,以此类推得到节点A0的节点向量表示为(S1,S2,…,Sn),继而构建了每一篇文章的节点向量表达,完成节点A0的向量化,最终得到表征图中每一个节点的向量表达。每个节点向量表达中不仅包含了关键词的序列特征,还包含了每个节点与其他节点的紧密程度。
步骤S4,将每个节点的节点向量输入至预定的分类模型中进行训练,获取所述分类模型输出的已分类的各个节点的集合。
其中,预定的分类模型可以是朴素贝叶斯模型(NB model),随机森林模型(RF),SVM分类模型,KNN分类模型,神经网络分类模型中的任一种,当然也可以是其他的深度学习文本分类模型,例如fastText模型、TextCNN模型等。本实施例中的分类模型采用图神经网络(Graph Neural Network,GNN)。图神经网络是用于学习包含大量连接的图的联结主义模型。当信息在图的节点之间传播时,图神经网络会捕捉到节点的独立性。与其他分类模型不同的是,图神经网络会保持一种状态,这个状态可以代表来源于人为指定的深度上的信息。此外,图神经网络的目标是学习到每个节点的邻居的状态嵌入,这个状态嵌入是向量且可以用来产生输出。本实施例具体采用的是图神经网络中的图注意力网络(Graph AttentionNetworks),图注意力网络是在图神经网络中引入了注意力机制,通过注意力机制给与较为重要的节点更大的权重。
其中,在一实施例中,如图4所示,步骤S4包括:
步骤S41,将每个节点的节点向量输入到图注意力网络,将节点向量输入到图注意力网络的各节点作为各待分类节点,计算每个待分类节点的损失函数;
步骤S42,对于每个待分类节点,在所述损失函数最小化时,基于所述待分类节点的节点向量计算邻居节点对所述待分类节点的贡献度,所述邻居节点为所述表征图中与所述待分类节点相连的节点;
步骤S43,基于所述贡献度对所述邻居节点进行聚合。
其中,采用的损失函数是鼓励较相似的节点进行聚合,而较不相似的节点则在空间中被远离。损失函数的公式为:
其中,Zu为节点u生成的嵌入向量(即embedding向量),节点v是节点u随机游走到的邻居节点,Zv为节点v生成的嵌入向量,σ代表sigmoid函数,T为转置,负样本为随机游走后不能成为邻居节点的节点,Q是负样本的数量,E是概率分布的期望值,Pn(v)是负样本的概率分布,n为节点序号,“~”为服从分布。
其中,将每一节点的节点向量输入到图注意力网络中,将这些节点作为待分类节点,对于每个待分类节点,在待分类节点的损失函数最小化时,计算邻居节点对该待分类节点贡献度,基于所述贡献度对所述邻居节点进行聚合,输出若干个分类,每个分类中包含的节点均为最相似的节点。这里的分类指的是按照文章内容的相似程度进行的分类,越相似的文章其属于同一类别的概率越大。
其中,基于所述待分类节点的节点向量计算邻居节点对所述待分类节点的贡献度包括:
eAB=LeakyReLU(αT[WA||WB]),其中,A、B为所述表征图中相连的节点,节点A为待分类节点,节点B为节点A的邻居节点,eAB为邻居节点B对节点A的贡献度,LeakyReLU为带泄露修正线性单元函数,该函数可以进行非线性转换激活,WA为节点A的节点向量,WB为节点B的节点向量,||为WA和WB节点向量的拼接,α为共享注意力计算函数,αT为共享注意力计算函数的转置。
在生成下一个隐层的新特征时,节点A会根据邻居节点B的贡献度eAB,贡献度eAB越大代表节点聚合到一起的概率越大。
其中,邻居节点B对节点A生成新特征的贡献度eAB,是通过图注意力网络使用前馈神经网络去计算,图注意力网络计算邻居节点的贡献度,聚合相近节点。其中,某个节点可以只聚合在一个分类中,也可以在多个不同的分类中。
其中,上述步骤S4进一步包括:利用归一化指数函数计算聚合后每一节点聚合在当前类别下时对应的分值,基于所述分值确定所述节点对应的类别。
归一化指数函数的计算公式如下:
其中,p(y|x)为节点x属于类别y的概率,C为类别的集合,c为某一类别的序号,W为向量映射矩阵。p(y|x)越大,节点划分到对应类别下的概率越大。本实施例中,获取某个节点划分到各个类别下对应的概率p(y|x),该概率p(y|x)作为该节点划分到各个类别下对应的分值,将分值最大的类别作为该节点最终确定的类别。
本实施例通过文章之间的共同关键词构建表征图,计算表征图中每个节点与其他相连节点的紧密度,从而得到每个节点对应的节点向量,将每个节点的节点向量输入分类模型中进行训练,得到分类后各个节点的集合,本实施例通过构建文章的表征图,将节点与相连节点的紧密度作为节点向量,通过将节点向量输入至分类模型中进行训练来对节点进行分类,能够挖掘一个节点与其他的多个节点相对的关联紧密度,这种紧密度为该文章与其他文章间进一步的内在联系或者空间联系,通过这种内在联系或者空间联系,可以准确地将最相似的文章分为一类,得到更好的分类。
本发明还提供一种基于上述的文本分类的方法的话题生成的方法,如图5所示,该话题生成的方法包括:
步骤S1,抓取网络文章,获取各篇文章对应的关键词;
步骤S2,获取各篇文章两两之间的共同关键词,基于所述共同关键词构建表征图,所述表征图中每个节点代表一篇文章,有共同关键词的两两节点之间进行连线;
步骤S3,基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度,基于所述紧密度获取每个节点的节点向量;
步骤S4,将每个节点的节点向量输入至预定的分类模型中进行训练,获取所述分类模型输出的已分类的各个节点的集合;
步骤S5,从各类别的集合中选取预设数量的节点,基于所选取节点提取对应的文章的共同信息,基于所述共同信息生成话题。
其中,上述的步骤S1至步骤S4的限定可参考上述文本分类的方法的各个实施例。在步骤S5中,在一实施方式中,从各类别的集合中选取预设数量的节点,可以将各个节点划分到各个类别下对应的分值按照从大至小的顺序将所述节点进行排序,选取分值最大的预设数量的节点,例如,选取分值最大的5个节点。获取所选取节点对应的文章的共同信息,基于该共同信息生成话题。其中,可以在预设数量的节点中,获取2个或2个以上的节点对应的文章中的共同信息,或者直接获取全部节点对应的文章中的共同信息,根据这几个节点所在的类别及共同信息生成话题。其中,获取文章的共同信息,可以利用现有技术中提取文本特征的手段实现,此处不做过多说明。
本实施例通过文章之间的共同关键词构建表征图,计算表征图中每个节点与其他相连节点的紧密度,从而得到每个节点对应的节点向量,将每个节点的节点向量输入分类模型中进行训练,得到分类后各个节点的集合,本实施例通过构建文章的表征图,将节点与相连节点的紧密度作为节点向量,通过将节点向量输入至分类模型中进行训练来对节点进行分类,能够挖掘一个节点与其他的多个节点相对的关联紧密度,这种紧密度为该文章与其他文章间进一步的内在联系或者空间联系,通过这种内在联系或者空间联系,可以准确地将最相似的文章分为一类,基于该分类提取节点的共同信息并生成话题,能够得到优质的话题。
在一实施例中,本发明提供一种文本分类的装置,该文本分类的装置与上述实施例中文本分类的方法一一对应。如图6所示,该文本分类的装置包括:
抓取模块101,用于抓取网络文章,获取各篇文章对应的关键词;
构建模块102,用于获取各篇文章两两之间的共同关键词,基于所述共同关键词构建表征图,所述表征图中每个节点代表一篇文章,有共同关键词的两两节点之间进行连线;
处理模块103,用于基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度,基于所述紧密度获取每个节点的节点向量;
分类模块104,用于将每个节点的节点向量输入至预定的分类模型中进行训练,获取所述分类模型输出的已分类的各个节点的集合。
文本分类的装置的具体限定可以参见上文中对于文本分类的方法的限定,在此不再赘述。上述文本分类的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一实施例中,本发明提供一种话题生成的装置,该话题生成的装置与上述实施例中话题生成的方法一一对应。该话题生成的装置包括:
抓取模块,用于抓取网络文章,获取各篇文章对应的关键词;
构建模块,用于获取各篇文章两两之间的共同关键词,基于所述共同关键词构建表征图,所述表征图中每个节点代表一篇文章,有共同关键词的两两节点之间进行连线;
处理模块,用于基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度,基于所述紧密度获取每个节点的节点向量;
分类模块,用于将每个节点的节点向量输入至预定的分类模型中进行训练,获取所述分类模型输出的已分类的各个节点的集合。
生成模块,用于从各类别的集合中选取预设数量的节点,基于所选取节点提取对应的文章的共同信息,基于所述共同信息生成话题。
话题生成的装置的具体限定可以参见上文中对于话题生成的方法的限定,在此不再赘述。上述话题生成的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述计算机设备可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
如图7所示,所述计算机设备可包括,但不仅限于,可通过***总线相互通信连接的存储器11、处理器12、网络接口13,存储器11存储有可在处理器12上运行的计算机程序。需要指出的是,图7仅示出了具有组件11-13的计算机设备,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
其中,存储器11可以是非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。本实施例中,存储器11的可读存储介质通常用于存储安装于计算机设备的操作***和各类应用软件,例如存储本发明一实施例中的计算机程序的程序代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器12在一些实施例中可以是中央处理器(Central ProcessingUnit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片,用于运行所述存储器11中存储的程序代码或者处理数据,例如运行计算机程序等。
所述网络接口13可包括标准的无线网络接口、有线网络接口,该网络接口13通常用于在所述计算机设备与其他电子设备之间建立通信连接。
所述计算机程序存储在存储器11中,包括至少一个存储在存储器11中的计算机可读指令,该至少一个计算机可读指令可被处理器12执行,以实现以下步骤:
抓取网络文章,获取各篇文章对应的关键词;
获取各篇文章两两之间的共同关键词,基于所述共同关键词构建表征图,所述表征图中每个节点代表一篇文章,有共同关键词的两两节点之间进行连线;
基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度,基于所述紧密度获取每个节点的节点向量;
将每个节点的节点向量输入至预定的分类模型中进行训练,获取所述分类模型输出的已分类的各个节点的集合;或者
该至少一个计算机可读指令可被处理器12执行,以实现以下步骤:
抓取网络文章,获取各篇文章对应的关键词;
获取各篇文章两两之间的共同关键词,基于所述共同关键词构建表征图,所述表征图中每个节点代表一篇文章,有共同关键词的两两节点之间进行连线;
基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度,基于所述紧密度获取每个节点的节点向量;
将每个节点的节点向量输入至预定的分类模型中进行训练,获取所述分类模型输出的已分类的各个节点的集合;
从各类别的集合中选取预设数量的节点,基于所选取节点提取对应的文章的共同信息,基于所述共同信息生成话题。
在一个实施例中,本发明提供了一种计算机可读存储介质,计算机可读存储介质可以是非易失性和/或易失性存储器,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中文本分类的方法或话题生成的方法的步骤,例如图1所示的步骤S1至步骤S4,或者图5所示的步骤S1至步骤S5。或者,计算机程序被处理器执行时实现上述实施例中文本分类的装置的各模块/单元的功能,例如图6所示模块101至模块104的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种文本分类的方法,其特征在于,包括:
抓取网络文章,获取各篇文章对应的关键词;
获取各篇文章两两之间的共同关键词,基于所述共同关键词构建表征图,所述表征图中每个节点代表一篇文章,有共同关键词的两两节点之间进行连线;
基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度,基于所述紧密度获取每个节点的节点向量;
将每个节点的节点向量输入至预定的分类模型中进行训练,获取所述分类模型输出的已分类的各个节点的集合;
其中,所述基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度,基于所述紧密度获取每个节点的节点向量的步骤,具体包括:统计相连的两节点对应的两篇文章中所述共同关键词的数量;统计每个共同关键词在相连的两节点对应的两篇文章中分别出现的次数;基于所述共同关键词的数量及所述分别出现的次数计算每个节点与相连的其他节点之间的紧密度S:其中,A、B代表所述表征图中相连的节点,n为A、B两节点所对应的两篇文章中共同关键词的数量,i为共同关键词的序号,Ai为第i个共同关键词在节点A所对应的文章中出现的次数,Bi为第i个共同关键词在节点B所对应的文章中出现的次数,μ为共同关键词的数量的倒数;将每个节点与相连的其他节点之间的紧密度进行向量化,得到每个节点对应的节点向量;
所述将每个节点的节点向量输入至预定的分类模型中进行训练,获取所述分类模型输出的已分类的各个节点的集合的步骤,具体包括:将每个节点的节点向量输入到图注意力网络,将节点向量输入到图注意力网络的各节点作为各待分类节点,计算每个待分类节点的损失函数;对于每个待分类节点,在所述损失函数最小化时,基于所述待分类节点的节点向量计算邻居节点对所述待分类节点的贡献度,所述邻居节点为所述表征图中与所述待分类节点相连的节点;基于所述贡献度对所述邻居节点进行聚合。
2.根据权利要求1所述的文本分类的方法,其特征在于,所述基于所述待分类节点的节点向量计算邻居节点对所述待分类节点的贡献度包括:
eAB=LeakyReLU(αT[WA||WB]),其中,LeakyReLU为带泄露修正线性单元函数,A、B为所述表征图中相连的节点,WA为节点A的节点向量,WB为节点B的节点向量,||为WA和WB节点向量的拼接,α为共享注意力计算函数,αT为共享注意力计算函数的转置。
3.根据权利要求1所述的文本分类的方法,其特征在于,所述将每个节点的节点向量输入至预定的分类模型中进行训练,获取所述分类模型输出的已分类的各个节点的集合的步骤,进一步包括:
利用归一化指数函数计算聚合后每一节点聚合在当前类别下时对应的分值;
基于所述分值确定所述节点对应的类别。
4.根据权利要求3所述的文本分类的方法,其特征在于,所述利用归一化指数函数计算聚合后每一节点聚合在当前类别下时对应的分值包括:
其中,
p(y|x)为节点x属于类别y的概率,C为类别的集合,c为某一类别的序号,W为向量映射矩阵。
5.一种基于权利要求1至4任一项所述的文本分类的方法的话题生成的方法,其特征在于,所述话题生成的方法包括:
抓取网络文章,获取各篇文章对应的关键词;
获取各篇文章两两之间的共同关键词,基于所述共同关键词构建表征图,所述表征图中每个节点代表一篇文章,有共同关键词的两两节点之间进行连线;
基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度,基于所述紧密度获取每个节点的节点向量;
将每个节点的节点向量输入至预定的分类模型中进行训练,获取所述分类模型输出的已分类的各个节点的集合;
从各类别的集合中选取预设数量的节点,基于所选取节点提取对应的文章的共同信息,基于所述共同信息生成话题。
6.一种文本分类的装置,用于实现如权利要求1至4中任一项所述的文本分类的方法,其特征在于,包括:
抓取模块,用于抓取网络文章,获取各篇文章对应的关键词;
构建模块,用于获取各篇文章两两之间的共同关键词,基于所述共同关键词构建表征图,所述表征图中每个节点代表一篇文章,有共同关键词的两两节点之间进行连线;
处理模块,用于基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度,基于所述紧密度获取每个节点的节点向量;
分类模块,用于将每个节点的节点向量输入至预定的分类模型中进行训练,获取所述分类模型输出的已分类的各个节点的集合。
7.一种计算机设备,所述计算机设备包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的文本分类的方法的步骤,或者实现如权利要求5所述的话题生成的方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的文本分类的方法的步骤,或者实现如权利要求5所述的话题生成的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011305385.4A CN112380344B (zh) | 2020-11-19 | 2020-11-19 | 文本分类的方法、话题生成的方法、装置、设备及介质 |
PCT/CN2021/090711 WO2022105123A1 (zh) | 2020-11-19 | 2021-04-28 | 文本分类的方法、话题生成的方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011305385.4A CN112380344B (zh) | 2020-11-19 | 2020-11-19 | 文本分类的方法、话题生成的方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112380344A CN112380344A (zh) | 2021-02-19 |
CN112380344B true CN112380344B (zh) | 2023-08-22 |
Family
ID=74584415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011305385.4A Active CN112380344B (zh) | 2020-11-19 | 2020-11-19 | 文本分类的方法、话题生成的方法、装置、设备及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112380344B (zh) |
WO (1) | WO2022105123A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380344B (zh) * | 2020-11-19 | 2023-08-22 | 平安科技(深圳)有限公司 | 文本分类的方法、话题生成的方法、装置、设备及介质 |
CN113254603B (zh) * | 2021-07-08 | 2021-10-01 | 北京语言大学 | 一种基于分类体系的领域词表自动构建的方法及装置 |
CN113722483B (zh) * | 2021-08-31 | 2023-08-22 | 平安银行股份有限公司 | 话题分类方法、装置、设备及存储介质 |
CN114757170B (zh) * | 2022-04-19 | 2024-07-12 | 北京字节跳动网络技术有限公司 | 一种主题聚合方法、装置及电子设备 |
CN115035349B (zh) * | 2022-06-27 | 2024-06-18 | 清华大学 | 图数据的点表征学习方法、表征方法及其装置和存储介质 |
CN117493490B (zh) * | 2023-11-17 | 2024-05-14 | 南京信息工程大学 | 基于异构多关系图的话题检测方法、装置、设备及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102591988A (zh) * | 2012-01-16 | 2012-07-18 | 宋胜利 | 基于语义图的短文本分类方法 |
CN108228587A (zh) * | 2016-12-13 | 2018-06-29 | 北大方正集团有限公司 | 群体识别方法及群体识别装置 |
CN109522410A (zh) * | 2018-11-09 | 2019-03-26 | 北京百度网讯科技有限公司 | 文档聚类方法及平台、服务器和计算机可读介质 |
CN110019659A (zh) * | 2017-07-31 | 2019-07-16 | 北京国双科技有限公司 | 裁判文书的检索方法及装置 |
CN110196920A (zh) * | 2018-05-10 | 2019-09-03 | 腾讯科技(北京)有限公司 | 文本数据的处理方法和装置、以及存储介质和电子装置 |
CN110489558A (zh) * | 2019-08-23 | 2019-11-22 | 网易传媒科技(北京)有限公司 | 文章聚合方法和装置、介质和计算设备 |
CN110704626A (zh) * | 2019-09-30 | 2020-01-17 | 北京邮电大学 | 一种用于短文本的分类方法及装置 |
CN111428488A (zh) * | 2020-03-06 | 2020-07-17 | 平安科技(深圳)有限公司 | 简历数据信息解析及匹配方法、装置、电子设备及介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804432A (zh) * | 2017-04-26 | 2018-11-13 | 慧科讯业有限公司 | 一种基于网络媒体数据流发现并跟踪热点话题的方法、***和装置 |
CN107526785B (zh) * | 2017-07-31 | 2020-07-17 | 广州市香港科大***研究院 | 文本分类方法及装置 |
WO2019067878A1 (en) * | 2017-09-28 | 2019-04-04 | Oracle International Corporation | ACTIVATION OF AUTONOMOUS AGENTS TO DISTINGUISH QUESTIONS AND DEMANDS |
CN109471937A (zh) * | 2018-10-11 | 2019-03-15 | 平安科技(深圳)有限公司 | 一种基于机器学习的文本分类方法及终端设备 |
CN109299379B (zh) * | 2018-10-30 | 2021-02-05 | 东软集团股份有限公司 | 文章推荐方法、装置、存储介质和电子设备 |
CN109977223B (zh) * | 2019-03-06 | 2021-10-22 | 中南大学 | 一种融合胶囊机制的图卷积网络对论文进行分类的方法 |
CN110032606B (zh) * | 2019-03-29 | 2021-05-14 | 创新先进技术有限公司 | 一种样本聚类方法及装置 |
CN110134764A (zh) * | 2019-04-26 | 2019-08-16 | 中国地质大学(武汉) | 一种文本数据的自动分类方法及*** |
CN110175224B (zh) * | 2019-06-03 | 2022-09-30 | 安徽大学 | 基于语义链接异构信息网络嵌入的专利推荐方法及装置 |
CN110543563B (zh) * | 2019-08-20 | 2022-03-08 | 暨南大学 | 一种层次型文本分类方法及*** |
CN110781275B (zh) * | 2019-09-18 | 2022-05-10 | 中国电子科技集团公司第二十八研究所 | 基于多特征的问题可回答性判别方法及计算机存储介质 |
CN111125358B (zh) * | 2019-12-17 | 2023-07-11 | 北京工商大学 | 一种基于超图的文本分类方法 |
CN112380344B (zh) * | 2020-11-19 | 2023-08-22 | 平安科技(深圳)有限公司 | 文本分类的方法、话题生成的方法、装置、设备及介质 |
-
2020
- 2020-11-19 CN CN202011305385.4A patent/CN112380344B/zh active Active
-
2021
- 2021-04-28 WO PCT/CN2021/090711 patent/WO2022105123A1/zh active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102591988A (zh) * | 2012-01-16 | 2012-07-18 | 宋胜利 | 基于语义图的短文本分类方法 |
CN108228587A (zh) * | 2016-12-13 | 2018-06-29 | 北大方正集团有限公司 | 群体识别方法及群体识别装置 |
CN110019659A (zh) * | 2017-07-31 | 2019-07-16 | 北京国双科技有限公司 | 裁判文书的检索方法及装置 |
CN110196920A (zh) * | 2018-05-10 | 2019-09-03 | 腾讯科技(北京)有限公司 | 文本数据的处理方法和装置、以及存储介质和电子装置 |
CN109522410A (zh) * | 2018-11-09 | 2019-03-26 | 北京百度网讯科技有限公司 | 文档聚类方法及平台、服务器和计算机可读介质 |
CN110489558A (zh) * | 2019-08-23 | 2019-11-22 | 网易传媒科技(北京)有限公司 | 文章聚合方法和装置、介质和计算设备 |
CN110704626A (zh) * | 2019-09-30 | 2020-01-17 | 北京邮电大学 | 一种用于短文本的分类方法及装置 |
CN111428488A (zh) * | 2020-03-06 | 2020-07-17 | 平安科技(深圳)有限公司 | 简历数据信息解析及匹配方法、装置、电子设备及介质 |
Non-Patent Citations (1)
Title |
---|
Topic Model for Graph Mining;Junyu Xuan et al;《JOURNAL OF LATEX CLASS FILES》;第11卷(第4期);第1-11页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2022105123A1 (zh) | 2022-05-27 |
CN112380344A (zh) | 2021-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112380344B (zh) | 文本分类的方法、话题生成的方法、装置、设备及介质 | |
CN111897970B (zh) | 基于知识图谱的文本比对方法、装置、设备及存储介质 | |
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
Wang et al. | A novel reasoning mechanism for multi-label text classification | |
CN112711953B (zh) | 一种基于注意力机制和gcn的文本多标签分类方法和*** | |
US11531824B2 (en) | Cross-lingual information retrieval and information extraction | |
CN109271514B (zh) | 短文本分类模型的生成方法、分类方法、装置及存储介质 | |
CN112819023A (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN112085091B (zh) | 基于人工智能的短文本匹配方法、装置、设备及存储介质 | |
CN113515589A (zh) | 数据推荐方法、装置、设备以及介质 | |
Costa et al. | Adaptive learning for dynamic environments: A comparative approach | |
Sorour et al. | AFND: Arabic fake news detection with an ensemble deep CNN-LSTM model | |
CN113761192B (zh) | 文本处理方法、文本处理装置及文本处理设备 | |
CN113516094B (zh) | 一种用于为文档匹配评议专家的***以及方法 | |
Prachi et al. | Detection of Fake News Using Machine Learning and Natural Language Processing Algorithms [J] | |
Poczeta et al. | A multi-label text message classification method designed for applications in call/contact centre systems | |
Illig et al. | A comparison of content-based tag recommendations in folksonomy systems | |
CN109977194B (zh) | 基于无监督学习的文本相似度计算方法、***、设备及介质 | |
CN111553167A (zh) | 文本类型识别方法和装置及存储介质 | |
Barigou | Improving K-nearest neighbor efficiency for text categorization | |
Kumar et al. | Approaches towards Fake news detection using machine learning and deep learning | |
Zhang et al. | Sentiment analysis-based social network rumor detection model with bi-directional graph convolutional networks | |
Dey et al. | Analysis of machine learning algorithms by developing a phishing email and website detection model | |
Nukarinen | Automated text sentiment analysis for Finnish language using deep learning | |
Amin et al. | Enhancing the detection of fake news in social media based on machine learning models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |