CN116011436A - 文本主题提取方法、装置、计算机设备及存储介质 - Google Patents

文本主题提取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN116011436A
CN116011436A CN202110970007.6A CN202110970007A CN116011436A CN 116011436 A CN116011436 A CN 116011436A CN 202110970007 A CN202110970007 A CN 202110970007A CN 116011436 A CN116011436 A CN 116011436A
Authority
CN
China
Prior art keywords
text
bert
node
vector
graph model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110970007.6A
Other languages
English (en)
Inventor
武晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SF Technology Co Ltd
Original Assignee
SF Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SF Technology Co Ltd filed Critical SF Technology Co Ltd
Priority to CN202110970007.6A priority Critical patent/CN116011436A/zh
Publication of CN116011436A publication Critical patent/CN116011436A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种文本主题提取方法、装置、计算机设备及存储介质,方法包括:获取待处理文本的Bert词向量和Bert句向量;将Bert词向量和Bert句向量作为节点,构建拓扑图模型;通过携带有注意力机制的图自编码器,对拓扑图模型进行节点优化,获取各个节点的多重特征;通过聚类算法分析多重特征,以提取待处理文本的主题信息。采用本方法能够提高文本主题的提取准确率。

Description

文本主题提取方法、装置、计算机设备及存储介质
技术领域
本申请涉及人工智能技术领域,具体涉及一种文本主题提取方法、装置、计算机设备及存储介质。
背景技术
随着电子商务的迅猛发展,客诉已成为电商行业主要的业务关注点。精准预测客诉主题可以有效的对客诉进行止损,从而达到节约成本、提升账号活跃度、提高业务好评度的目的。
然而,现有技术中的主题预测往往是通过人工筛选订单特征,再运用机器学习模型进行的,所花费的时间成本巨大,且预测结果的精准率和召回率都不太理想。
因此,现有基于机器学习的文本主题提取方法存在准确率不高的问题。
发明内容
基于此,有必要针对上述技术问题提供一种文本主题提取方法、装置、计算机设备及存储介质,用以提高文本主题的提取准确率。
第一方面,本申请提供一种文本主题提取方法,包括:
获取待处理文本的Bert词向量和Bert句向量;
将Bert词向量和Bert句向量作为节点,构建拓扑图模型;
通过携带有注意力机制的图自编码器,对拓扑图模型进行节点优化,获取各个节点的多重特征;
通过聚类算法分析多重特征,以提取待处理文本的主题信息。
在本申请一些实施例中,通过聚类算法分析多重特征,以提取待处理文本的主题信息,包括:并联处理各个节点的多重特征,得到拓扑图模型的特征矩阵,多重特征包括模型特征、位置特征、加权平均特征以及重要度特征;通过聚类算法分析特征矩阵,获取各个节点对应的第一概率分布和第二概率分布,第二概率分布为第一概率分布的二次方分析结果;根据第一概率分布和第二概率分布,提取待处理文本的主题信息。
在本申请一些实施例中,根据第一概率分布和第二概率分布,提取待处理文本的主题信息,包括:获取第一概率分布与第二概率分布之间的KL散度信息,作为目标损失;通过预设优化算法分析目标损失,以更新拓扑图模型的模型参数,得到更新后的模型参数;若KL散度信息小于预设的散度阈值,根据更新后的模型参数,提取待处理文本的主题信息。
在本申请一些实施例中,若KL散度信息小于预设的散度阈值,根据更新后的模型参数,提取待处理文本的主题信息,包括:若KL散度信息小于预设的散度阈值,根据更新后的模型参数,获取训练后的拓扑图模型;基于训练后的拓扑图模型,获取各个节点所属的目标集合;提取各目标集合的中心节点,得到待处理文本的主题信息。
在本申请一些实施例中,将Bert词向量和Bert句向量作为节点,构建拓扑图模型,包括:将Bert词向量和Bert句向量作为节点,构建初始拓扑图模型;确定初始拓扑图模型中的目标Bert词向量和目标Bert词句向量,目标Bert词向量为两个相邻的Bert词向量节点,目标Bert词句向量为两个相邻的Bert词向量节点和Bert句向量节点;获取目标Bert词向量和目标Bert词句向量各自对应的边值,以利用边值对初始拓扑图模型进行优化,得到拓扑图模型。
在本申请一些实施例中,获取目标Bert词向量和目标Bert词句向量各自对应的边值,以利用边值对初始拓扑图模型进行优化,得到拓扑图模型,包括:分析目标Bert词向量在待处理文本中的第一共现程度,获取目标Bert词向量对应的第一边值;分析目标Bert词句向量中的Bert词向量节点在对应Bert句向量节点下的第二共现程度,并分析目标Bert词句向量中的Bert词向量节点在待处理文本中的第三共现程度,获取目标Bert词句向量对应的第二边值;根据第一边值和第二边值,对初始拓扑图模型进行优化,得到拓扑图模型。
在本申请一些实施例中,通过携带有注意力机制的图自编码器,对拓扑图模型进行节点优化,获取各个节点的多重特征,包括:确定拓扑图模型中的主节点,以及与主节点相邻的邻居节点;通过携带有注意力机制的图自编码器,对各邻居节点的权重进行优化,得到优化后的权重,权重是根据邻居节点对主节点的重要程度确定的;基于优化后的权重进行加权求和计算,以对拓扑图模型进行节点优化,获取各主节点的高级特征,得到各个节点的多重特征。
第二方面,本申请提供一种文本主题提取装置,包括:
向量获取模块,用于获取待处理文本的Bert词向量和Bert句向量;
模型构建模块,用于将Bert词向量和Bert句向量作为节点,构建拓扑图模型;
节点优化模块,用于通过携带有注意力机制的图自编码器,对拓扑图模型进行节点优化,获取各个节点的多重特征;
主题提取模块,用于通过聚类算法分析多重特征,以提取待处理文本的主题信息。
第三方面,本申请还提供一种计算机设备,包括:
一个或多个处理器;
存储器;以及一个或多个应用程序,其中的一个或多个应用程序被存储于存储器中,并配置为由处理器执行以实现文本主题提取方法。
第四方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器进行加载,以执行文本主题提取方法中的步骤。
第五方面,本申请实施例提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面提供的方法。
上述文本主题提取方法、装置、计算机设备及存储介质,通过获取待处理文本的Bert词向量和Bert句向量,并将Bert词向量和Bert句向量作为节点,可构建拓扑图模型,再通过携带有注意力机制的图自编码器,对拓扑图模型进行节点优化,可获取各个节点的多重特征,进而通过聚类算法分析多重特征,可提取待处理文本的主题信息。由于本申请采用了拓扑图模型提取文本主题,可以更加全面捕捉到非连续性较长距离间隔的共现词语信息,有利于深度挖掘文本信息,且利用拓扑图模型分析Bert词向量和Bert句向量,避免了向量和图模型完全分割而导致向量无法有目的性更新的问题,因而可以提高文本主题的提取准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中文本主题提取方法的场景示意图;
图2是本申请实施例中文本主题提取方法的流程示意图;
图3是本申请实施例中文本主题提取方法的具体流程示意图;
图4是本申请实施例中文本主题提取装置的结构示意图;
图5是本申请实施例中计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本申请的描述中,术语“例如”一词用来表示“用作例子、例证或说明”。本申请中被描述为“例如”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本发明。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本发明的描述变得晦涩。因此,本发明并非旨在限于所示的实施例,而是与符合本申请所公开的原理和特征的最广范围相一致。
本申请提供的方案涉及人工智能技术,具体通过如下实施例进行说明:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请实施例提供一种文本主题提取方法、装置、计算机设备及存储介质,以下分别进行详细说明。
参阅图1,图1为本申请提供的文本主题提取方法的场景示意图,该文本主题提取方法可应用于文本主题提取***中。其中,文本主题提取***包括终端100和服务器200。终端100可以是既包括接收和发射硬件的设备,即具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备。终端100具体可以是台式终端或移动终端,终端100具体还可以是手机、平板电脑、笔记本电脑中的一种。服务器200可以是独立的服务器,也可以是服务器组成的服务器网络或服务器集群,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中,云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。此外,终端100与服务器200之间通过网络建立通信连接,网络具体可以是广域网、局域网、城域网中的任意一种。
本领域技术人员可以理解,图1中示出的应用环境,仅仅是适用于本申请方案的一种应用场景,并不构成对本申请方案应用场景的限定,其他的应用环境还可以包括比图1中所示更多或更少的计算机设备,例如图1中仅示出1个服务器200,可以理解的是,该文本主题提取***还可以包括一个或多个其他服务器,具体此处不作限定。另外,如图1所示,该文本主题提取***还可以包括存储器,用于存储数据,如存储各场景文本数据。
需要说明的是,图1所示的文本主题提取***的场景示意图仅仅是一个示例,本发明实施例描述的文本主题提取***以及场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着文本主题提取***的演变和新业务场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。
参阅图2,本申请实施例提供了一种文本主题提取方法,本实施例主要以该方法应用于上述图1中的服务器200来举例说明,该方法包括步骤S201至S204,体如下:
S201,获取待处理文本的Bert词向量和Bert句向量。
其中,待处理文本可以是需要提取主题的一个句子(Sentence)、一个段落(Paragraph)或者是一个篇章(Discourse)。例如,待处理文本具体可以是服务评价文本、事件记录文本、新闻文本等;待处理文本可以通过终端中安装的应用程序进行浏览;应用程序具体可以是浏览器、专门的资讯浏览应用等。
具体实现中,文本主题提取的执行前提可以是服务器200接收到用户提交的文本主题提取请求,该请求可以是携带有文本内容的请求,也可以是携带有文本标识的请求;若是请求中携带有文本标识,则服务器200可从本地数据库中依据文本标识查询获取到待提取主题的文本;若是文本并未存储在本地数据库中,则服务器200可向预先建立有通信连接,且存储有文本的其他服务器请求获取文本,此时可以将文本标识作为索引,请求其他服务器反馈所需文本内容。此时,服务器200获取到待处理文本之后,该待处理文本可通过用户使用的电子设备(手机、电脑、平板等)进行展示,也可以不进行展示。
进一步地,服务器200获取到待处理文本之后,可以通过加载Bert预训练模型,并将待处理文本输入至Bert预训练模型的方式,获取待处理文本的Bert词向量和Bert句向量。具体的,Bert预训练模型是基于双向Transformer构建的语言模型,能够更准确地用结构化的数据表示具体场景语义,特别是物流投诉场景。相较于传统通过查字典方式查出与词语上下文无关的word2vec词向量,本申请实施例提出采用灵活可训练优化的Bert模型来根据具体场景训练词向量,这样得到的词向量学习到了比其他词向量表示更加符合具体场景的语义表达。
因此,在一些实施例中,本申请实施例提出可以通过加载Bert预训练模型,来分析获取待处理文本的Bert词向量和Bert句向量,且Bert预训练模型生成的词向量是由词语周围的词语动态结合计算而成的,不是固定的200维向量,而是768维可训练更新的变量。
S202,将Bert词向量和Bert句向量作为节点,构建拓扑图模型。
其中,拓扑图模型也称异构图模型,其可以表示学习的目的是为每个节点寻求一个有意义的向量表示,以方便后续应用,如链路预测、个性化推荐、节点分类等。
具体实现中,可参阅图3,服务器200当前所获的Bert词向量和Bert句向量不仅包括待处理文本的,还包括海量文本的,且所得向量不是固定的一个序列而是变量形式。服务器200获取到Bert词向量和Bert句向量之后,可将所有词向量和句向量作为节点,利用图神经网络建立拓扑图模型。本实施例中涉及的拓扑图模型构建步骤将在下文详细说明。
在一个实施例中,本步骤包括:将Bert词向量和Bert句向量作为节点,构建初始拓扑图模型;确定初始拓扑图模型中的目标Bert词向量和目标Bert词句向量,目标Bert词向量为两个相邻的Bert词向量节点,目标Bert词句向量为两个相邻的Bert词向量节点和Bert句向量节点;获取目标Bert词向量和目标Bert词句向量各自对应的边值,以利用边值对初始拓扑图模型进行优化,得到拓扑图模型。
具体实现中,本申请实施例用于提取文本主题所需的拓扑图模型不仅需要有节点,还需要有每个节点间相关联的异构属性、异构内容,而这类属性内容可以通过边值进行标识,包括两类边:词与词之间的边、词与句之间的边,包含节点和节点之间边值信息的图模型可更加全面地捕捉到非连续的较长距离间隔的共现词语的信息,即用于有效获得语料中全局层面非连续的长距离的语义共现词语,很好地弥补了其他神经网络如卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)的局部性和序列性思路。
可以理解的是,考虑到传统的词向量、句向量均采用“tfidf”或“word2vec”等把句子当成无序的词语组合,或者有序的词语序列,仅记录了词语临近的N个词语信息,而本申请实施例采用了图模型(拓扑图模型)结构更加全面地捕捉到非连续的较长距离间隔的共现词语的信息,非常方便的深度挖掘文本甚至语料库的词和词,词和文本,词在语料库重要度等关系信息,因而可以初步提升文本主题的提取准确率。本申请实施例提出在初始拓扑图模型的基础上补充节点之间的边值,以为各节点关系附加权重,实现对初始拓扑图模型的优化,即可得到拓扑图模型。
在一个实施例中,上述获取目标Bert词向量和目标Bert词句向量各自对应的边值,以利用边值对初始拓扑图模型进行优化,得到拓扑图模型的步骤,包括:分析目标Bert词向量在待处理文本中的第一共现程度,获取目标Bert词向量对应的第一边值;分析目标Bert词句向量中的Bert词向量节点在对应Bert句向量节点下的第二共现程度,并分析目标Bert词句向量中的Bert词向量节点在待处理文本中的第三共现程度,获取目标Bert词句向量对应的第二边值;根据第一边值和第二边值,对初始拓扑图模型进行优化,得到拓扑图模型。
具体实现中,第一边值可以表征词与词之间的边值,即目标Bert词向量包括的两个相邻Bert词向量节点之间的边值,而第二边值可以表征词与句之间的边值,即目标Bert词句向量包括的两个相邻Bert词向量节点与Bert句向量节点之间的边值;词和词之间的边值依据这两个词同时出现的程度确定,词和句之间的边值由词出现在所有文本中的频率与词在该文本中出现的频率的比值确定。
例如,当前有5万条文本,5万条文本中同时包含有“A”词和“B”词的有1万条,那么两个相邻的Bert词向量节点“A”和“B”之间的边是1万除以5万,目标Bert词向量对应的第一边值为“0.2”。
又例如,两个相邻的Bert词向量节点和Bert句向量节点中,“C”词在“D”句中出现过3次,而含有“C”词的文本数有10个,那么这个词和这句文本的边就是3除以10,目标Bert词句向量对应的第二边值为“0.3”。
S203,通过携带有注意力机制的图自编码器,对拓扑图模型进行节点优化,获取各个节点的多重特征。
其中,图自编码器主要应用于无监督学习中,适用于学习无监督信息的图节点表示。
具体实现中,为了融合邻居节点词信息,位置信息,获得更抽象的词和文本的表示特征,本申请实施例提出采用带有注意力机制的图自编码器,来构造更高层、更抽象、融合更多信息的节点表示。不同于直接对某节点的邻居节点信息进行平均,注意力机制会学***均来优化主节点,避免传统方法以平等态度看待所有节点的缺陷。
在一个实施例中,本步骤包括:确定拓扑图模型中的主节点,以及与主节点相邻的邻居节点;通过携带有注意力机制的图自编码器,对各邻居节点的权重进行优化,得到优化后的权重,权重是根据邻居节点对主节点的重要程度确定的;基于优化后的权重进行加权求和计算,以对拓扑图模型进行节点优化,获取各主节点的高级特征,得到各个节点的多重特征。
其中,由于文本中各个句子的每一个词都需要计算相应的特征,所以每个词会依次轮流做主节点,与之相邻的词就是邻居节点,故而本申请实施例中的主节点可指当前分析的节点。
其中,权重可以是指该邻居节点对该主节点的重要程度。
具体实现中,服务器200可调用带有注意力机制的图自编码器,分析计算各个节点的高级特征,也即是采用加权求和的方式将邻居节点信息进行融合,来计算各个主节点的高级特征,得到各个节点的多重特征。
S204,通过聚类算法分析多重特征,以提取待处理文本的主题信息。
具体实现中,本申请实施例提出采用节点概率分布、节点伪标签概率分布的K-L散度作为模型的损失函数来优化模型参数,进而提取待处理文本的主题信息,具体分析步骤将在下文详细说明。
在一个实施例中,本步骤包括:并联处理各个节点的多重特征,得到拓扑图模型的特征矩阵,多重特征包括模型特征、位置特征、加权平均特征以及重要度特征;通过聚类算法分析特征矩阵,获取各个节点对应的第一概率分布和第二概率分布,第二概率分布为第一概率分布的二次方分析结果;根据第一概率分布和第二概率分布,提取待处理文本的主题信息。
其中,多重特征包括模型特征、位置特征、加权平均特征以及重要度特征;位置特征是这个词在句子中普遍处于第几个词语,比如出现的位置在3、4、5位置都出现过一次,那么位置特征就是取平均的4;加权平均特征可以是指邻居节点加权信息,例如,图结构的每个节点都可以看做是(k,v)的组合,每个词的k、v都是随机初始化的,在后续过程中会优化。用当前主节点的k和某个邻居节点的Kj相乘作为这个邻居节点的权重,用这个乘积去乘这个邻居节点的Vj就得到了邻居节点的加权信息;重要度特征可以是这个词出现过的文本个数的倒数。
具体实现中,服务器200分析获取到各个节点的多重特征,可将多重特征整合起来获得每个节点的“embedding”,“embedding”是一个将离散变量转为连续向量表示的一个方式。在神经网络中,“embedding”是非常有用的,因为它不光可以减少离散变量的空间维数,同时还可以有意义的表示该变量。所有节点的“embedding”并联可以得到拓扑图模型的特征矩阵,采用聚类算法计算每个节点属于每个集合的概率,可以得到第一概率分布“Q”;对第一概率分布“Q”求二次方可以得到第二概率分布“P”。
例如,计算每个节点“i”属于每个集合“u”的概率“q_iu”,在对“q_iu”求二次方得到“p_iu=q_iu^2”,可使“q_iu”的分布更加尖锐。
在一个实施例中,上述根据第一概率分布和第二概率分布,提取待处理文本的主题信息的步骤,包括:获取第一概率分布与第二概率分布之间的KL散度信息,作为目标损失;通过预设优化算法分析目标损失,以更新拓扑图模型的模型参数,得到更新后的模型参数;若KL散度信息小于预设的散度阈值,根据更新后的模型参数,提取待处理文本的主题信息。
其中,第一概率分布(“Q”)是每个节点属于不同集合的预测概率分布,第二概率分布(“P”)是每个节点属于不同集合的伪标签概率分布。
具体实现中,服务器200可通过计算“P”和“Q”之间的K-L散度,来量化两种概率分布P和Q之间差异,进而将概率分布差异值当做损失,采用随机梯度下降优化算法或Adam优化算法更新模型参数,如重复计算新的“Q”、“P”,迭代优化模型参数,直到K-L散度小于一定阈值,即可根据更新后的模型参数,分析得到待处理文本的主题信息。
进一步地,目标损失的公式可表示为:
Figure BDA0003225586590000111
其中,M是指类别的数量;yic指示变量(0或1),如果样本i的预测类别和真实类别相同(等于c)就是1,否则是0;pic表示对于观测样本i属于类别c的预测概率。
在一个实施例中,上述若KL散度信息小于预设的散度阈值,根据更新后的模型参数,提取待处理文本的主题信息的步骤,包括:若KL散度信息小于预设的散度阈值,根据更新后的模型参数,获取训练后的拓扑图模型;基于训练后的拓扑图模型,获取各个节点所属的目标集合;提取各目标集合的中心节点,得到待处理文本的主题信息。
具体实现中,服务器200分析得出每个节点最终属于的集合后,可提取每个集合靠近中心的词节点,就得到了代表这个集合内容的主题词集,进而输出每个聚类类别的主题,作为待处理文本的主题信息。
此外,服务器200还可采用Single-Pass增量聚类算法,对各个节点进行集合归类,再采用TextRank文本摘要算法计算各个集合的语义主题,得到待处理文本的主题信息。具体的,服务器200可计算待处理文本与已有的“主题集合”中心的相似度,根据设定的相似度阈值来判断该文本和当前主题集合的关系;如果相似度在设定阈值范围之内,则该文本将归类到这个主题集合中,如何超出阈值,那么将建立一个新的主题集合。服务器200执行完集合归类操作之后,可选取每个集合最靠近中心点的N个词作为该集合的代表,然后调用python的工具包分析各个集合的代表词,计算得到文本主题信息。
上述文本主题提取方法若是应用于物流客诉场景,则采用本方法可以定期快速且大规模地汇总投诉文本语义,自动总结归纳出不同的投诉主题,以便决策层实时快速掌握客户诉求,并应用于优化业务环节。同时,由于机器运算成本很低,但应用于文本主题提取领域可快速响应业务环节出现的问题实现及时止损和优化,因而可在提升文本主题提取准确率的基础上,提高文本主题提取效率。
上述实施例中的文本主题提取方法,服务器通过采用Bert语言模型后接拓扑图模型的方式,相较于传统方法所获词向量不是以任务为导向,也无法根据不同场景任务而灵活调整的缺陷,实现了以任务为导向的词向量、模型参数一体化优化目的,避免了向量和图模型完全分割而导致向量无法有目的性更新的问题,且因采用了拓扑图模型提取文本主题,可以更加全面捕捉到非连续性较长距离间隔的共现词语信息,有利于深度挖掘文本信息,又因采用了带有注意力机制的图自编码器计算节点的高级特征,避免了传统方法以平等态度看待所有邻居节点的问题,因而可以提高文本主题的提取准确率。
为了更好实施本申请实施例提供的文本主题提取方法,在本申请实施例所提文本主题提取方法的基础之上,本申请实施例中还提供一种文本主题提取装置,如图4所示,该文本主题提取装置400包括:
向量获取模块410,用于获取待处理文本的Bert词向量和Bert句向量;
模型构建模块420,用于将Bert词向量和Bert句向量作为节点,构建拓扑图模型;
节点优化模块430,用于通过携带有注意力机制的图自编码器,对拓扑图模型进行节点优化,获取各个节点的多重特征;
主题提取模块440,用于通过聚类算法分析多重特征,以提取待处理文本的主题信息。
在本申请一些实施例中,主题提取模块440还用于并联处理各个节点的多重特征,得到拓扑图模型的特征矩阵,多重特征包括模型特征、位置特征、加权平均特征以及重要度特征;通过聚类算法分析特征矩阵,获取各个节点对应的第一概率分布和第二概率分布,第二概率分布为第一概率分布的二次方分析结果;根据第一概率分布和第二概率分布,提取待处理文本的主题信息。
在本申请一些实施例中,主题提取模块440还用于获取第一概率分布与第二概率分布之间的KL散度信息,作为目标损失;通过预设优化算法分析目标损失,以更新拓扑图模型的模型参数,得到更新后的模型参数;若KL散度信息小于预设的散度阈值,根据更新后的模型参数,提取待处理文本的主题信息。
在本申请一些实施例中,主题提取模块440还用于若KL散度信息小于预设的散度阈值,根据更新后的模型参数,获取训练后的拓扑图模型;基于训练后的拓扑图模型,获取各个节点所属的目标集合;提取各目标集合的中心节点,得到待处理文本的主题信息。
在本申请一些实施例中,模型构建模块420还用于将Bert词向量和Bert句向量作为节点,构建初始拓扑图模型;确定初始拓扑图模型中的目标Bert词向量和目标Bert词句向量,目标Bert词向量为两个相邻的Bert词向量节点,目标Bert词句向量为两个相邻的Bert词向量节点和Bert句向量节点;获取目标Bert词向量和目标Bert词句向量各自对应的边值,以利用边值对初始拓扑图模型进行优化,得到拓扑图模型。
在本申请一些实施例中,模型构建模块420还用于分析目标Bert词向量在待处理文本中的第一共现程度,获取目标Bert词向量对应的第一边值;分析目标Bert词句向量中的Bert词向量节点在对应Bert句向量节点下的第二共现程度,并分析目标Bert词句向量中的Bert词向量节点在待处理文本中的第三共现程度,获取目标Bert词句向量对应的第二边值;根据第一边值和第二边值,对初始拓扑图模型进行优化,得到拓扑图模型。
在本申请一些实施例中,节点优化模块430还用于确定拓扑图模型中的主节点,以及与主节点相邻的邻居节点;通过携带有注意力机制的图自编码器,对各邻居节点的权重进行优化,得到优化后的权重,权重是根据邻居节点对主节点的重要程度确定的;基于优化后的权重进行加权求和计算,以对拓扑图模型进行节点优化,获取各主节点的高级特征,得到各个节点的多重特征。
上述实施例中,通过采用Bert语言模型后接拓扑图模型的方式,相较于传统方法所获词向量不是以任务为导向,也无法根据不同场景任务而灵活调整的缺陷,实现了以任务为导向的词向量、模型参数一体化优化目的,避免了向量和图模型完全分割而导致向量无法有目的性更新的问题,且因采用了拓扑图模型提取文本主题,可以更加全面捕捉到非连续性较长距离间隔的共现词语信息,有利于深度挖掘文本信息,又因采用了带有注意力机制的图自编码器计算节点的高级特征,避免了传统方法以平等态度看待所有邻居节点的问题,因而可以提高文本主题的提取准确率。
在本申请一些实施例中,文本主题提取装置400可以实现为一种计算机程序的形式,计算机程序可在如图5所示的计算机设备上运行。计算机设备的存储器中可存储组成该文本主题提取装置400的各个程序模块,比如,图4所示的向量获取模块410、模型构建模块420、节点优化模块430以及主题提取模块440。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的文本主题提取方法中的步骤。
例如,图5所示的计算机设备可以通过如图4所示的文本主题提取装置400中的向量获取模块410执行步骤S201。计算机设备可通过模型构建模块420执行步骤S202。计算机设备可通过节点优化模块430执行步骤S203。计算机设备可通过主题提取模块440执行步骤S204。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的计算机设备通过网络连接通信。该计算机程序被处理器执行时以实现一种文本主题提取方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本申请一些实施例中,提供了一种计算机设备,包括一个或多个处理器;存储器;以及一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行上述文本主题提取方法的步骤。此处文本主题提取方法的步骤可以是上述各个实施例的文本主题提取方法中的步骤。
在本申请一些实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器进行加载,使得处理器执行上述文本主题提取方法的步骤。此处文本主题提取方法的步骤可以是上述各个实施例的文本主题提取方法中的步骤。
本邻域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上对本申请实施例所提供的一种文本主题提取方法、装置、计算机设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种文本主题提取方法,其特征在于,包括:
获取待处理文本的Bert词向量和Bert句向量;
将所述Bert词向量和所述Bert句向量作为节点,构建拓扑图模型;
通过携带有注意力机制的图自编码器,对所述拓扑图模型进行节点优化,获取各个节点的多重特征;
通过聚类算法分析所述多重特征,以提取所述待处理文本的主题信息。
2.如权利要求1所述的方法,其特征在于,所述通过聚类算法分析所述多重特征,以提取所述待处理文本的主题信息,包括:
并联处理所述各个节点的多重特征,得到所述拓扑图模型的特征矩阵;
通过聚类算法分析所述特征矩阵,获取各个节点对应的第一概率分布和第二概率分布,所述第二概率分布为所述第一概率分布的二次方分析结果;
根据所述第一概率分布和所述第二概率分布,提取所述待处理文本的主题信息。
3.如权利要求2所述的方法,其特征在于,所述根据所述第一概率分布和所述第二概率分布,提取所述待处理文本的主题信息,包括:
获取所述第一概率分布与所述第二概率分布之间的KL散度信息,作为目标损失;
通过预设优化算法分析所述目标损失,以更新所述拓扑图模型的模型参数,得到更新后的模型参数;
若所述KL散度信息小于预设的散度阈值,根据所述更新后的模型参数,提取所述待处理文本的主题信息。
4.如权利要求3所述的方法,其特征在于,所述若所述KL散度信息小于预设的散度阈值,根据所述更新后的模型参数,提取所述待处理文本的主题信息,包括:
若所述KL散度信息小于预设的散度阈值,根据所述更新后的模型参数,获取训练后的拓扑图模型;
基于所述训练后的拓扑图模型,获取各个节点所属的目标集合;
提取各所述目标集合的中心节点,得到所述待处理文本的主题信息。
5.如权利要求1所述的方法,其特征在于,所述将所述Bert词向量和所述Bert句向量作为节点,构建拓扑图模型,包括:
将所述Bert词向量和所述Bert句向量作为节点,构建初始拓扑图模型;
确定所述初始拓扑图模型中的目标Bert词向量和目标Bert词句向量,所述目标Bert词向量为两个相邻的Bert词向量节点,所述目标Bert词句向量为两个相邻的Bert词向量节点和Bert句向量节点;
获取所述目标Bert词向量和所述目标Bert词句向量各自对应的边值,以利用所述边值对所述初始拓扑图模型进行优化,得到所述拓扑图模型。
6.如权利要求5所述的方法,其特征在于,所述获取所述目标Bert词向量和所述目标Bert词句向量各自对应的边值,以利用所述边值对所述初始拓扑图模型进行优化,得到所述拓扑图模型,包括:
分析所述目标Bert词向量在所述待处理文本中的第一共现程度,获取所述目标Bert词向量对应的第一边值;
分析所述目标Bert词句向量中的Bert词向量节点在对应Bert句向量节点下的第二共现程度,并分析所述目标Bert词句向量中的Bert词向量节点在所述待处理文本中的第三共现程度,获取所述目标Bert词句向量对应的第二边值;
根据所述第一边值和所述第二边值,对所述初始拓扑图模型进行优化,得到所述拓扑图模型。
7.如权利要求1所述的方法,其特征在于,所述通过携带有注意力机制的图自编码器,对所述拓扑图模型进行节点优化,获取各个节点的多重特征,包括:
确定所述拓扑图模型中的主节点,以及与所述主节点相邻的邻居节点;
通过携带有注意力机制的图自编码器,对各所述邻居节点的权重进行优化,得到优化后的权重,所述权重是根据所述邻居节点对所述主节点的重要程度确定的;
基于所述优化后的权重进行加权求和计算,以对所述拓扑图模型进行节点优化,获取各所述主节点的高级特征,得到所述各个节点的多重特征。
8.一种文本主题提取装置,其特征在于,包括:
向量获取模块,用于获取待处理文本的Bert词向量和Bert句向量;
模型构建模块,用于将所述Bert词向量和所述Bert句向量作为节点,构建拓扑图模型;
节点优化模块,用于通过携带有注意力机制的图自编码器,对所述拓扑图模型进行节点优化,获取各个节点的多重特征;
主题提取模块,用于通过聚类算法分析所述多重特征,以提取所述待处理文本的主题信息。
9.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储器;以及一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现权利要求1至7中任一项所述的文本主题提取方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至7任一项所述的文本主题提取方法中的步骤。
CN202110970007.6A 2021-08-23 2021-08-23 文本主题提取方法、装置、计算机设备及存储介质 Pending CN116011436A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110970007.6A CN116011436A (zh) 2021-08-23 2021-08-23 文本主题提取方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110970007.6A CN116011436A (zh) 2021-08-23 2021-08-23 文本主题提取方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN116011436A true CN116011436A (zh) 2023-04-25

Family

ID=86021579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110970007.6A Pending CN116011436A (zh) 2021-08-23 2021-08-23 文本主题提取方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN116011436A (zh)

Similar Documents

Publication Publication Date Title
US11861477B2 (en) Utilizing machine learning models to identify insights in a document
Lytvyn et al. Methods of building intelligent decision support systems based on adaptive ontology
CN108717408B (zh) 一种敏感词实时监控方法、电子设备、存储介质及***
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
CN116415654A (zh) 一种数据处理方法及相关设备
CN113392651B (zh) 训练词权重模型及提取核心词的方法、装置、设备和介质
CN111143569A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN109471944A (zh) 文本分类模型的训练方法、装置及可读存储介质
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
WO2023137911A1 (zh) 基于小样本语料的意图分类方法、装置及计算机设备
CN114265979A (zh) 确定融合参数的方法、信息推荐方法和模型训练方法
CN113158554B (zh) 模型优化方法、装置、计算机设备及存储介质
CN111625715B (zh) 信息提取方法、装置、电子设备及存储介质
CN111930518A (zh) 面向知识图谱表示学习的分布式框架构建方法
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN110705255A (zh) 检测语句之间的关联关系的方法和装置
CN112819024B (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
WO2023159756A1 (zh) 价格数据的处理方法和装置、电子设备、存储介质
Costa et al. Adaptive learning for dynamic environments: A comparative approach
CN113569118B (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN113239143B (zh) 融合电网故障案例库的输变电设备故障处理方法及***
CN115640399A (zh) 一种文本分类的方法、装置、设备及存储介质
Ataman et al. Transforming large-scale participation data through topic modelling in urban design processes
CN116011436A (zh) 文本主题提取方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination