CN112989790B - 基于深度学习的文献表征方法及装置、设备、存储介质 - Google Patents
基于深度学习的文献表征方法及装置、设备、存储介质 Download PDFInfo
- Publication number
- CN112989790B CN112989790B CN202110287711.1A CN202110287711A CN112989790B CN 112989790 B CN112989790 B CN 112989790B CN 202110287711 A CN202110287711 A CN 202110287711A CN 112989790 B CN112989790 B CN 112989790B
- Authority
- CN
- China
- Prior art keywords
- document
- text
- feature vector
- feature
- inputting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于深度学习的文献表征方法及装置、设备、存储介质,该方法包括:对待表征文献进行解析,获得待表征文献的关键词、作者列表及多个文本信息;将每一个文本信息和关键词输入至结合关键词注意力机制的网络模型中,获得每一个文本信息的第一特征向量;将作者列表、每一个文本信息依次输入至第一特征提取模型,获得作者列表、每一个文本信息的第二特征向量;将第一特征向量、第二特征向量输入至融合网络模型中进行融合,获得待表征文献的表征向量。本发明提出的文献表征方法充分利用关键词信息且同时考虑文献的多个文本数据并针对不同的文本数据采用不同的特征提取方法,从而有效提升文献向量化表征的精度。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于深度学习的文献表征方法及装置、设备、存储介质。
背景技术
文献数量的快速增长给当前的科研工作者提出了巨大的挑战,如何快速筛选优质文献以及如何快速理解分析文献是科研工作者亟需解决的难题。专业的科研工作者一般会通过对文献的分类、检索、推荐、自动化生成摘要等办法来解决这一难题,而上述各个文献处理任务中,文献表征(Paper Representation)是不可或缺的第一步。简而言之,文献表征就是会为每一篇文献生成一个数学上的向量化表达,将非结构化数据的文献转化为结构化的向量,以向量衡量不同文献之间的相似度,以便下游的各项文献处理任务使用。因此,如何更好的使用向量表征文献,是提升各类文献处理任务效果的重要方向。
目前文献的向量表征方法主要包括Author2Vec和Cite2Vec,其中,Author2Vec通过作者合作网络和文章摘要构造作者向量表征,借此表达论文,能够用于论文分类、论文推荐等;Cite2Vec基于Word2Vec利用引用论文的摘要信息构造被引文献的向量表征,可用于文献语义表征和语义检索。但是,Author2Vec和Cite2Vec并没有考虑其他文本数据,并且Author2Vec中作者向量到文献向量的转换比较简单粗暴,损失了大量信息,而Cite2Vec中的摘要使用Word2Vec提取信息,不能适用于一词多义的情况。
发明内容
为了解决现有技术的不足,本发明提供一种基于深度学习的文献表征方法及装置、设备、存储介质,同时考虑文献的多个文本数据且针对不同的文本数据采用不同的特征提取方法,能够有效提升文献向量化表征的精度。
本发明提出的具体技术方案为:基于深度学习的文献表征方法,其特征在于,所述文献表征方法包括:
对待表征文献进行解析,获得所述待表征文献的关键词、作者列表及多个文本信息;
分别将多个文本信息中的每一个文本信息和关键词输入至结合关键词注意力机制的网络模型中,获得每一个文本信息对应的第一特征向量;
将作者列表、多个文本信息中的每一个文本信息依次输入至第一特征提取模型,分别获得作者列表、每一个文本信息对应的第二特征向量;
将每一个文本信息对应的第一特征向量、第二特征向量以及作者列表对应的第二特征向量输入至融合网络模型中进行融合,获得所述待表征文献的表征向量。
进一步地,所述结合关键词注意力机制的网络模型包括第二特征提取模型、第一池化层、关键词特征提取层、第二池化层,分别将多个文本信息中的每一个文本信息和关键词输入至结合关键词注意力机制的网络模型中,获得每一个文本信息对应的第一特征向量,包括:
分别将多个文本信息中的每一个文本信息输入至第二特征提取模型,获得每一个文本信息对应的多个特征向量;
将每一个文本信息对应的多个特征向量输入至第一池化层,获得每一个文本信息对应的池化特征向量;
分别将每一个文本信息对应的多个特征向量、关键词输入至关键词特征提取层,获得每一个文本信息对应的结合关键词注意力机制的多个特征向量;
将每一个文本信息对应的池化特征向量与结合关键词注意力机制的多个特征向量输入至第二池化层,获得每一个文本信息对应的第一特征向量。
进一步地,若文本信息为正文,所述结合关键词注意力机制的网络模型还包括第三池化层,在分别将多个文本信息中的每一个文本信息输入至第二特征提取模型,获得每一个文本信息对应的多个特征向量之前,所述文献表征方法还包括:
将正文输入至第三池化层,获得池化后的正文;
相应的,分别将多个文本信息中的每一个文本信息输入至第二特征提取模型,获得每一个文本信息对应的多个特征向量,包括:
将池化后的正文输入至第二特征提取模型,获得正文对应的特征向量。
进一步地,将作者列表、多个文本信息中的每一个文本信息依次输入至第一特征提取模型,分别获得作者列表、每一个文本信息对应的第二特征向量,包括:
将作者列表输入至第一特征提取模型,获得作者列表对应的第二特征向量;
对多个文本信息中的每一个文本信息进行分词,获得每一个文本信息对应的多个词;
分别将每一个文本信息对应的多个词输入至第一特征提取模型,获得每一个文本信息对应的第二特征向量。
进一步地,第一特征提取模型为Bert模型,第二特征提取模型为BM25模型。
进一步地,所述融合网络模型包括第一融合层、拼接层、深度学习模型、第二融合层、第三特征提取模型、全连接层,将每一个文本信息对应的第一特征向量、第二特征向量以及作者列表对应的第二特征向量输入至融合网络模型中进行融合,获得所述待表征文献的表征向量,包括:
将每一个文本信息对应的第二特征向量输入至第一融合层进行融合,获得融合后的特征向量;
将融合后的特征向量、作者列表对应的第二特征向量、每一个文本信息对应的第一特征向量输入至拼接层进行拼接,获得多通道特征参数;
将多通道特征参数输入至深度学习模型中,获得第三特征向量;
将多个文本信息中的标题、摘要输入至第二融合层进行合成,获得合成文档;
将合成文档输入至第三特征提取模型,获得第四特征向量;
将第三特征向量、第四特征向量输入至全连接层,获得待表征文献的表征向量。
进一步地,所述深度学习模型包括多个全连接层和多个激活函数,多个全连接层、多个激活函数依次交替级联。
本发明还提供了一种基于深度学习的文献表征装置,所述文献表征装置包括:
解析模块,用于对待表征文献进行解析,获得所述待表征文献的关键词、作者列表及多个文本信息;
第一特征提取模块,用于分别将多个文本信息中的每一个文本信息和关键词输入至结合关键词注意力机制的网络模型中,获得每一个文本信息对应的第一特征向量;
第二特征提取模块,用于将作者列表、多个文本信息中的每一个文本信息依次输入至第一特征提取模型,分别获得作者列表、每一个文本信息对应的第二特征向量;
融合模块,用于将每一个文本信息对应的第一特征向量、第二特征向量以及作者列表对应的第二特征向量输入至融合网络模型中进行融合,获得所述待表征文献的表征向量。
本发明还提供了一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现如上任一项所述的文献表征方法。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机指令,所述计算机指令被处理器执行时实现如上任一项所述的文献表征方法。
本发明提出的文献表征方法将多个文本信息中的每一个文本信息和关键词输入至结合关键词注意力机制的网络模型中,获得结合关键词注意力机制的第一特征向量,然后再将作者列表、多个文本信息中的每一个文本信息依次输入至第一特征提取模型,获得第二特征向量,最后再将第一特征向量与第二特征向量进行融合,充分利用关键词信息且同时考虑文献的多个文本数据并针对不同的文本数据采用不同的特征提取方法,从而有效提升文献向量化表征的精度。
附图说明
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其它有益效果显而易见。
图1为本申请实施例中的文献表征方法的示意图;
图2为本申请实施例中的结合关键词注意力机制的网络模型示意图;
图3为本申请实施例中的结合关键词注意力机制的网络模型另一示意图;
图4为本申请实施例中的融合网络模型示意图;
图5为本申请实施例中的文献表征装置的结构示意图;
图6为本申请实施例中的设备的结构示意图。
具体实施方式
以下,将参照附图来详细描述本发明的实施例。然而,可以以许多不同的形式来实施本发明,并且本发明不应该被解释为限制于这里阐述的具体实施例。相反,提供这些实施例是为了解释本发明的原理及其实际应用,从而使本领域的其他技术人员能够理解本发明的各种实施例和适合于特定预期应用的各种修改。在附图中,相同的标号将始终被用于表示相同的元件。
文献本身是多种数据的集合,这些数据大致可以分为文本数据和图片数据两大类,其中,文本数据包括标题、作者列表、关键词、摘要、正文、引用和被引,而图片数据主要包括论文插图,多种数据形式就带来了处理上的困难,并且文本和图片都是非结构化信息,我们需要从中提取结构化表达的语义,这一步的精度成为文献向量表征所面临的第二重困难。Author2Vec和Cite2Vec是目前比较常用的文献向量表征方法,但是,这两种方法均没有考虑文本数据的多样性,从而导致文献向量表征的信息损耗,降低了文献向量化表征的精度。
基于上述问题,本申请提供了一种基于深度学习的文献表征方法,同时考虑文献的多个文本数据且针对不同的文本数据采用不同的特征提取方法,能够有效提升文献向量化表征的精度。具体地,本申请先对待表征文献进行解析,获得待表征文献的关键词、作者列表及多个文本信息;再分别将多个文本信息中的每一个文本信息和关键词输入至结合关键词注意力机制的网络模型中,获得每一个文本信息对应的第一特征向量;将作者列表、多个文本信息中的每一个文本信息依次输入至第一特征提取模型,分别获得作者列表、每一个文本信息对应的第二特征向量;最后,将每一个文本信息对应的第一特征向量、第二特征向量以及作者列表对应的第二特征向量输入至融合网络模型中进行融合,获得待表征文献的表征向量。
本申请提出的文献表征方法充分利用关键词信息且同时考虑文献的多个文本数据并针对不同的文本数据采用不同的特征提取方法,从而有效提升文献向量化表征的精度。
下面以文本数据包括作者列表、关键词、标题、摘要、正文为例,通过具体的实施例并结合附图来对本申请中的基于深度学习的文献表征方法及装置、设备、存储介质进行详细的描述,需要说明的是,将文本数据包括作者列表、关键词、标题、摘要、正文仅仅是作为示例并不用于对本申请的文献表征方法进行限定,本申请中的文献表征方法也可以用到其他文本数据中。
参照图1,本实施例提供的文献表征方法包括以下步骤:
S1、对待表征文献进行解析,获得待表征文献的关键词、作者列表及多个文本信息;
S2、分别将多个文本信息中的每一个文本信息和关键词输入至结合关键词注意力机制的网络模型中,获得每一个文本信息对应的第一特征向量;
S3、将作者列表、多个文本信息中的每一个文本信息依次输入至第一特征提取模型,分别获得作者列表、每一个文本信息对应的第二特征向量;
S4、将每一个文本信息对应的第一特征向量、第二特征向量以及作者列表对应的第二特征向量输入至融合网络模型中进行融合,获得待表征文献的表征向量。
在对待表征文献进行解析之前,本实施例中的文献表征方法还需要先加载待表征文献,这里,加载主要是对待表征文献进行格式转换,即将待表征文献的格式转换为预定的数据格式的文献,具体地,先获取待表征文献的文件路径,然后根据文件路径并按照预定的数据格式读取待表征文献,其中,文件的读取是通过Python中的标准文件流来实现。
在待表征文献加载完成后,进入步骤S1,对加载的待表征文献进行解析,获得待表征文献的文本数据和图像数据,其中,待表征文献的文本数据包括关键词、作者列表及多个文本信息,这里的文本信息以标题、摘要、正文为例,具体地,采用Python中的PDFMiner库,根据待表征文献中各种数据的特点将不同类型的数据解析出来,分别获得待表征文献的关键词、作者列表、标题、摘要、正文,将解析出来的文本数据和图像数据分别以对应的格式进行存储,以便后续调用。
文献数据与其他文本数据的区别在于文献数据中包括关键词,关键词是表达用户信息需求和检索课题内容的基本构成要素,因此,关键词在自然语言处理中起到非常重要的作用。本实施例中的文献表征方法在步骤S2中,将关键词与其他文本信息结合来获得每个文本信息的特征向量,从而获得每个文本信息对应的结合关键词注意力机制的第一特征向量。
参照图2,本实施例中的结合关键词注意力机制的网络模型包括第二特征提取模型11、第一池化层12、关键词特征提取层13、第二池化层14,步骤S2具体包括:
S21、分别将多个文本信息中的每一个文本信息输入至第二特征提取模型,获得每一个文本信息对应的多个特征向量;
S22、将每一个文本信息对应的多个特征向量输入至第一池化层,获得每一个文本信息对应的池化特征向量;
S23、分别将每一个文本信息对应的多个特征向量、关键词输入至关键词特征提取层,获得每一个文本信息对应的结合关键词注意力机制的多个特征向量;
S24、将每一个文本信息对应的池化特征向量与结合关键词注意力机制的多个特征向量输入至第二池化层,获得每一个文本信息对应的第一特征向量。
本实施例中的文献表征方法先获得每一个文本信息对应的池化特征向量,然后再获得每一个文本信息对应的结合关键词注意力机制的多个特征向量,在其他实施方式中,也可以先获得每一个文本信息对应的结合关键词注意力机制的多个特征向量,再获得每一个文本信息对应的结合关键词注意力机制的多个特征向量,也可以同时获得每一个文本信息对应的结合关键词注意力机制的多个特征向量、每一个文本信息对应的结合关键词注意力机制的多个特征向量,即步骤S22、步骤S23没有先后顺序。
本实施例中的第二特征提取模型11采用的是基于上下文的语义特征的模型,较佳地,第二特征提取模型11为Bert(Bidirectional Encoder Representations fromTransformers)模型,通过第二特征提取模型11可以获得体现上下文语义信息的特征向量。
具体地,在步骤S21之前,需要先对第二特征提取模型11进行预训练,即结合科技文献库中的文献来获得第二特征提取模型11的训练数据,然后,利用获得的训练数据和科技文献库的上下文预料来对第二特征提取模型11进行预训练,获得新的模型参数,利用新的模型参数对初始的第二特征提取模型11进行更新,获得训练好的第二特征提取模型11。
在获得训练好的第二特征模型11后,分别将多个文本信息中的每一个文本信息输入至第二特征提取模型11,获得每一个文本信息对应的多个特征向量,这里,由于每一个文本信息都是由多个词构成的,将每一个文本信息对应的多个词输入至第二特征提取模型11后分别获得多个特征向量,多个特征向量与多个词一一对应,例如,以文本信息为摘要作为示例,假设摘要包括N个词,则将摘要输入第二特征提取模型11后分别获得N个长度为L的特征向量,N个长度为L的特征向量分别与N个词一一对应。
在步骤S22中,为了减少数据处理的维度,提升数据处理效率,本实施例在第二特征提取模型11的后面增加了第一池化层12,通过第一池化层12对第二特征提取模型11出输出的N个特征向量进行池化,这里,为了避免损失过多的语义信息,第一池化层12采用均值池化的方法进行池化,即将N个长度为L的特征向量加权平均获得一个长度为L的特征向量,最终获得每个文本信息对应的池化特征向量。
在步骤S23中,为了获得结合关键词注意力机制的特征向量,本实施例在第二特征提取模型11的后面增加了关键词特征提取层13,将步骤S21中获得的每一个文本信息对应的多个特征向量与关键词一起输入至关键词特征提取层13中,关键词特征提取层13从多个特征向量中筛选出包含关键词的m个特征向量并将m个特征向量输出作为每一个文本信息的结合关键词注意力机制的特征向量,其中,m<N。
同样的,在步骤S24中,为了减少数据处理的维度,提升数据处理效率,在第一池化层12和关键词特征提取层13后面增加了第二池化层14,通过第二池化层14对第一池化层12输出的池化特征向量与关键词特征提取层13输出的m个结合关键词注意力机制的特征向量进行池化,这里,为了避免损失过多的语义信息,第二池化层14也采用均值池化的方法进行池化,最终获得每一个文本信息对应的结合关键词注意力机制的第一特征向量。
参照图3,由于正文的长度与其他文本信息存在较大的差异,为了避免正文的长度超过第二特征提取模型的处理能力,本实施例中的结合关键词注意力机制的网络模型还包括第三池化层15,将正文输入至第三池化层15中,通过第三池化层15对正文进行滑窗处理并池化,获得池化后的正文,这里,为了避免损失过多的语义信息,第三池化层15也采用均值池化的方法进行池化。然后再将池化后的正文输入至第二特征提取模型11中,进入步骤S21。
为了避免利用同一种向量表征算法对不同的文本信息进行向量化表征会造成信息损耗,从而降低向量化表征方法的精度的问题,本实施例在步骤S3中,通过第一特征提取模型来对作者列表和多个文本信息进行向量表征,分别获得作者列表、每一个文本信息对应的第二特征向量。
具体地,步骤S3包括:
S31、将作者列表输入至第一特征提取模型,获得作者列表对应的第二特征向量;
S32、对多个文本信息中的每一个文本信息进行分词,获得每一个文本信息对应的多个词;
S33、分别将每一个文本信息对应的多个词输入至第一特征提取模型,获得每一个文本信息对应的第二特征向量。
本实施例中的文献表征方法先获得作者列表的第二特征向量,再获得每一个文本信息对应的第二特征向量,在其他实施方式中,可以先获得每一个文本信息对应的第二特征向量,再获得作者列表对应的第二特征向量,也可以同时获得作者列表、每一个文本信息对应的第二特征向量,即步骤S31与步骤S32~S33没有先后顺序。
在步骤S31之前,需要先对第一特征提取模型进行预训练,利用前述的训练数据对第二特征提取模型11进行预训练,获得新的模型参数,利用新的模型参数对初始的第一特征提取模型进行更新,获得训练好的第一特征提取模型,再将作者列表、多个文本信息中的每一个文本信息依次输入至第一特征提取模型,分别获得作者列表、每一个文本信息对应的第二特征向量。
词袋模型是自然语言处理的基础,在词袋模型中,文本信息被看作是一系列词的集合且忽略词的位置关系,即词袋模型不需要考虑词与词之间的位置序列关系,能够很好的与基于上下文语义特征的模型互补,因此,本实施例中的第一特征提取模型为词袋模型,较佳地,第一特征提取模型为BM25(Best Match25)模型,通过第一特征提取模型可以获得每个文本信息的词袋特征。
这里需要说明的是,由于作者列表本身就是一个有序的词集合,不需要获得基于上下文语义信息的特征,因此,在本实施例中,作者列表只需要通过第一特征提取模型来进行特征提取,从而实现对不同的文本信息采用相对应的恰当的特征提取方法。在获得作者列表的词袋特征时,待表征文献的第一作者和通讯作者的权重要高于其他作者,本实施例中,待表征文献的第一作者和通讯作者的权重是其他作者的权重的2倍,即第一作者和通讯作者相对于其他作者的权重系数是2,当然,这个权重系数可以根据实际需要调整,并不限于2。
在步骤S32~S33中,对于标题、摘要、正文这些文本信息,在获得词袋特征之前,需要先对这些文本信息进行分词,从而获得每一个文本信息对应的多个词。较佳地,本实施例采用基于N-gram假设的方法来对标题、摘要、正文这些文本信息进行分词。在词袋模型中,需要考虑输出的词袋特征向量的维度和各个维度的长度,而在对文献进行向量表征时,由于标题和摘要的重要性要高于正文,因此,在词袋模型中,正文的词袋特征向量的维度与标题和摘要的词袋特征向量的维度相等,即将标题和摘要的词袋特征向量的维度作为正文的词袋特征向量的维度,从而避免了三种不同维度向量在后续融合过程中会增加维度的问题。
本实施例中的文献表征方法先获得每一个文本信息对应的第一特征向量,然后再获得作者列表、每一个文本信息对应的第二特征向量,在其他实施方式中,也可以先获得作者列表、每一个文本信息对应的第二特征向量,再获得每一个文本信息对应的第一特征向量,也可以同时获得每一个文本信息对应的第一特征向量以及作者列表、每一个文本信息对应的第二特征向量,即步骤S2、步骤S3没有先后顺序。
在获得每个文本信息的第一特征向量和第二特征向量、作者列表的第二特征向量后需要将这些特征向量进行融合,从而获得利用关键词信息且同时考虑文献的多个文本数据的特征向量,从而有效提升文献向量化表征的精度。
具体地,参照图4,本实施例中的融合网络模型包括第一融合层21、拼接层22、深度学习模型23、第二融合层24、第三特征提取模型25、全连接层26,步骤S4包括:
S41、将每一个文本信息对应的第二特征向量输入至第一融合层21进行融合,获得融合后的特征向量;
S42、将融合后的特征向量、作者列表对应的第二特征向量、每一个文本信息对应的第一特征向量输入至拼接层22进行拼接,获得多通道特征参数;
S43、将多通道特征参数输入至深度学习模型23中,获得第三特征向量;
S44、将多个文本信息中的标题、摘要输入至第二融合层24进行合成,获得合成文档;
S45、将合成文档输入至第三特征提取模型25,获得第四特征向量;
S46、将第三特征向量、第四特征向量输入至全连接层26,获得待表征文献的表征向量。
本实施例中的文献表征方法先获得第三特征向量,再获得第四特征向量,在其他实施方式中,也可以先获得第四特征向量,再获得第三特征向量,也可以同时获得第三特征向量和第四特征向量,即步骤S41~S43与步骤S44~S45没有先后顺序。
在步骤S41~S43中,先将步骤S3获得每个文本信息的第二特征向量输入至第一融合层21进行加权相加,获得融合后的特征向量,这里,每个文本信息的权重可以根据实际需要设定,例如,若标题、摘要、正文的重要程度依次递减,则标题、摘要、正文对应的权重也相应的依次递减,从而使得获得的融合后的特征向量中包含标题的信息更多。然后,将融合后的特征向量、作者列表对应的第二特征向量以及标题、摘要、正文的第一特征向量输入至拼接层22进行拼接,获得同时包含标题、摘要、正文的结合关键词注意力机制的上下文语义特征和词袋特征、作者列表的词袋特征的多通道特征参数,再将多通道特征参数输入至深度学习模型23,其中,本实施例中的深度学习模型23包括多个全连接层和多个激活函数,多个全连接层、多个激活函数依次交替级联,在步骤S4之前,也需要先对深度学习模型23进行预训练,获得训练好的深度学习模型23,再将多通道特征参数输入至深度学习模型23中。
由于标题和摘要是文献表征主要依赖的部分,本实施例在步骤S44~S45中重新提取标题和摘要的特征向量,具体为先将标题和摘要输入至第二融合层24进行合成,得到合成的文档,再将合成的文档输入至第三特征提取模型25,获得第四特征向量,较佳地,第三特征提取模型25为采用的是基于上下文的语义特征的模型,较佳地,第三特征提取模型25采用的是基于上下文的语义特征的模型,较佳地,第三特征提取模型25也为Bert(Bidirectional Encoder Representations from Transformers)模型,通过第三特征提取模型25可以获得标题和摘要的基于上下文语义信息的第四特征向量。
最后,在步骤S46中,将第三特征向量、第四特征向量输入至全连接层26,通过全连接层26将第三特征向量和第四特征向量进行拼接,获得待表征文献的表征向量。
本实施例中的文献表征方法在获得待表征文献的表征向量后,将该表征向量以csv格式进行存储,以便后续各项文献分析任务进行调用。
参照图5,本实施例还提供了与上述文献表征方法对应的文献表征装置,其包括解析模块31、第一特征提取模块32、第二特征提取模块33、融合模块34。
具体地,解析模块31用于对待表征文献进行解析,获得待表征文献的关键词、作者列表及多个文本信息。第一特征提取模块32用于分别将多个文本信息中的每一个文本信息和关键词输入至结合关键词注意力机制的网络模型中,获得每一个文本信息对应的第一特征向量。第二特征提取模块33用于将作者列表、多个文本信息中的每一个文本信息依次输入至第一特征提取模型,分别获得作者列表、每一个文本信息对应的第二特征向量。融合模块34用于将每一个文本信息对应的第一特征向量、第二特征向量以及作者列表对应的第二特征向量输入至融合网络模型中进行融合,获得待表征文献的表征向量。
参照图6,本实施例提供了一种设备,包括存储器100、处理器200、网络接口202,存储器100上存储有计算机程序,处理器200执行计算机程序以实现本实施例中的文献表征方法。
存储器100可以包括高速随机存取存储器(Random Access Memory,RAM),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器200可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本实施例中的文献表征方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。处理器200也可以是通用处理器,包括中央处理器(Central ProcessingUnit,CPU)、网络处理器(Network Processor,NP)等,还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
存储器100用于存储计算机程序,处理器200在接收到执行指令后,执行该计算机程序以实现本实施例中的文献表征方法。
本实施例还提供了一种计算机存储介质,计算机存储介质中存储有计算机程序,处理器200用于读取并执行计算机存储介质201中存储的计算机程序,以实现本实施例中的文献表征方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机存储介质中,或者从一个计算机存储介质向另一个计算机存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solidstate disk,SSD))等。
本发明实施例是参照根据本发明实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (8)
1.一种基于深度学习的文献表征方法,其特征在于,所述文献表征方法包括:
对待表征文献进行解析,获得所述待表征文献的关键词、作者列表及多个文本信息;
分别将多个文本信息中的每一个文本信息和关键词输入至结合关键词注意力机制的网络模型中,获得每一个文本信息对应的第一特征向量;
将作者列表、多个文本信息中的每一个文本信息依次输入至第一特征提取模型,分别获得作者列表、每一个文本信息对应的第二特征向量;
将每一个文本信息对应的第一特征向量、第二特征向量以及作者列表对应的第二特征向量输入至融合网络模型中进行融合,获得所述待表征文献的表征向量;
其中,所述结合关键词注意力机制的网络模型包括第二特征提取模型、第一池化层、关键词特征提取层、第二池化层,分别将多个文本信息中的每一个文本信息和关键词输入至结合关键词注意力机制的网络模型中,获得每一个文本信息对应的第一特征向量,包括:
分别将多个文本信息中的每一个文本信息输入至第二特征提取模型,获得每一个文本信息对应的多个特征向量;
将每一个文本信息对应的多个特征向量输入至第一池化层,获得每一个文本信息对应的池化特征向量;
分别将每一个文本信息对应的多个特征向量、关键词输入至关键词特征提取层,获得每一个文本信息对应的结合关键词注意力机制的多个特征向量;
将每一个文本信息对应的池化特征向量与结合关键词注意力机制的多个特征向量输入至第二池化层,获得每一个文本信息对应的第一特征向量。
2.根据权利要求1所述的文献表征方法,其特征在于,若文本信息为正文,所述结合关键词注意力机制的网络模型还包括第三池化层,在分别将多个文本信息中的每一个文本信息输入至第二特征提取模型,获得每一个文本信息对应的多个特征向量之前,所述文献表征方法还包括:
将正文输入至第三池化层,获得池化后的正文;
相应的,分别将多个文本信息中的每一个文本信息输入至第二特征提取模型,获得每一个文本信息对应的多个特征向量,包括:
将池化后的正文输入至第二特征提取模型,获得正文对应的特征向量。
3.根据权利要求1所述的文献表征方法,其特征在于,将作者列表、多个文本信息中的每一个文本信息依次输入至第一特征提取模型,分别获得作者列表、每一个文本信息对应的第二特征向量,包括:
将作者列表输入至第一特征提取模型,获得作者列表对应的第二特征向量;
对多个文本信息中的每一个文本信息进行分词,获得每一个文本信息对应的多个词;
分别将每一个文本信息对应的多个词输入至第一特征提取模型,获得每一个文本信息对应的第二特征向量。
4.根据权利要求3所述的文献表征方法,其特征在于,第一特征提取模型为Bert模型,第二特征提取模型为BM25模型。
5.根据权利要求1所述的文献表征方法,其特征在于,所述融合网络模型包括第一融合层、拼接层、深度学习模型、第二融合层、第三特征提取模型、全连接层,将每一个文本信息对应的第一特征向量、第二特征向量以及作者列表对应的第二特征向量输入至融合网络模型中进行融合,获得所述待表征文献的表征向量,包括:
将每一个文本信息对应的第二特征向量输入至第一融合层进行融合,获得融合后的特征向量;
将融合后的特征向量、作者列表对应的第二特征向量、每一个文本信息对应的第一特征向量输入至拼接层进行拼接,获得多通道特征参数;
将多通道特征参数输入至深度学习模型中,获得第三特征向量;
将多个文本信息中的标题、摘要输入至第二融合层进行合成,获得合成文档;
将合成文档输入至第三特征提取模型,获得第四特征向量;
将第三特征向量、第四特征向量输入至全连接层,获得待表征文献的表征向量。
6.根据权利要求5所述的文献表征方法,其特征在于,所述深度学习模型包括多个全连接层和多个激活函数,多个全连接层、多个激活函数依次交替级联。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现如权利要求1~6任一项所述的文献表征方法。
8.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机指令,其特征在于,所述计算机指令被处理器执行时实现如权利要求1~6任一项所述的文献表征方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110287711.1A CN112989790B (zh) | 2021-03-17 | 2021-03-17 | 基于深度学习的文献表征方法及装置、设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110287711.1A CN112989790B (zh) | 2021-03-17 | 2021-03-17 | 基于深度学习的文献表征方法及装置、设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112989790A CN112989790A (zh) | 2021-06-18 |
CN112989790B true CN112989790B (zh) | 2023-02-28 |
Family
ID=76333506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110287711.1A Active CN112989790B (zh) | 2021-03-17 | 2021-03-17 | 基于深度学习的文献表征方法及装置、设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112989790B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113961710B (zh) * | 2021-12-21 | 2022-03-08 | 北京邮电大学 | 基于多模态分层融合网络的细粒度化论文分类方法及装置 |
CN116738054A (zh) * | 2023-06-19 | 2023-09-12 | 联洋国融(上海)科技有限公司 | 一种结合用户意图的文本深度分析方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004086533A (ja) * | 2002-08-27 | 2004-03-18 | Fuji Xerox Co Ltd | 学術文書管理装置 |
CN108614825A (zh) * | 2016-12-12 | 2018-10-02 | 中移(杭州)信息技术有限公司 | 一种网页特征提取方法和装置 |
CN111507089A (zh) * | 2020-06-09 | 2020-08-07 | 平安科技(深圳)有限公司 | 基于深度学习模型的文献分类方法、装置和计算机设备 |
CN111581401A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种基于深度相关性匹配的局部引文推荐***及方法 |
CN112036177A (zh) * | 2020-07-28 | 2020-12-04 | 中译语通科技股份有限公司 | 基于多模型融合的文本语义相似度信息处理方法及*** |
CN112347150A (zh) * | 2020-11-23 | 2021-02-09 | 北京智源人工智能研究院 | 一种学者学术标签标注方法、装置和电子设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110119505A (zh) * | 2018-02-05 | 2019-08-13 | 阿里巴巴集团控股有限公司 | 词向量生成方法、装置以及设备 |
CN110008342A (zh) * | 2019-04-12 | 2019-07-12 | 智慧芽信息科技(苏州)有限公司 | 文献分类方法、装置、设备及存储介质 |
US11748613B2 (en) * | 2019-05-10 | 2023-09-05 | Baidu Usa Llc | Systems and methods for large scale semantic indexing with deep level-wise extreme multi-label learning |
WO2021000362A1 (zh) * | 2019-07-04 | 2021-01-07 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
-
2021
- 2021-03-17 CN CN202110287711.1A patent/CN112989790B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004086533A (ja) * | 2002-08-27 | 2004-03-18 | Fuji Xerox Co Ltd | 学術文書管理装置 |
CN108614825A (zh) * | 2016-12-12 | 2018-10-02 | 中移(杭州)信息技术有限公司 | 一种网页特征提取方法和装置 |
CN111581401A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种基于深度相关性匹配的局部引文推荐***及方法 |
CN111507089A (zh) * | 2020-06-09 | 2020-08-07 | 平安科技(深圳)有限公司 | 基于深度学习模型的文献分类方法、装置和计算机设备 |
CN112036177A (zh) * | 2020-07-28 | 2020-12-04 | 中译语通科技股份有限公司 | 基于多模型融合的文本语义相似度信息处理方法及*** |
CN112347150A (zh) * | 2020-11-23 | 2021-02-09 | 北京智源人工智能研究院 | 一种学者学术标签标注方法、装置和电子设备 |
Non-Patent Citations (2)
Title |
---|
Document-level Representation Learning using Citation-informed Transformers;Arman Cohan et.al;《arXiv:2004.07180v1》;20200415;第1-13页 * |
基于深度学习技术的海量科技文献向量表示方法研究;曾文 等;《2017年北京科学技术情报学会年会--"科技情报发展助力科技创新中心建设"论坛论文集北京科学技术情报学会会议论文集》;20171117;第161-167页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112989790A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635103B (zh) | 摘要生成方法和装置 | |
US9792534B2 (en) | Semantic natural language vector space | |
CN106973244B (zh) | 使用弱监督数据自动生成图像字幕的方法和*** | |
GB2547068B (en) | Semantic natural language vector space | |
CN110019812B (zh) | 一种用户自生产内容检测方法和*** | |
JP5128629B2 (ja) | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 | |
Jalalzai et al. | Heavy-tailed representations, text polarity classification & data augmentation | |
CN112749326B (zh) | 信息处理方法、装置、计算机设备及存储介质 | |
CN112989790B (zh) | 基于深度学习的文献表征方法及装置、设备、存储介质 | |
CN116720004B (zh) | 推荐理由生成方法、装置、设备及存储介质 | |
CN113011186B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
Xiang et al. | Incorporating label dependency for answer quality tagging in community question answering via cnn-lstm-crf | |
CN111506725A (zh) | 生成摘要的方法和装置 | |
CN112084338B (zh) | 一种文档自动归类方法、***、计算机设备及存储介质 | |
CN116881462A (zh) | 文本数据处理、文本表示、文本聚类的方法及设备 | |
Timoney et al. | Nostalgic sentiment analysis of youtube comments for chart hits of the 20th century | |
JP2019021218A (ja) | 学習装置、プログラムパラメータ、学習方法およびモデル | |
Martin et al. | Fusion-based Representation Learning Model for Multimode User-generated Social Network Content | |
Kumar et al. | Sarcasm detection in Telugu and Tamil: an exploration of machine learning and deep neural networks | |
CN113761326B (zh) | 一种过滤相似产品的方法和装置 | |
CN113836289B (zh) | 一种实体演进规律推荐方法及装置 | |
CN115935195B (zh) | 文本匹配方法及装置、计算机可读存储介质、终端 | |
Yin et al. | A classification method based on encoder‐decoder structure with paper content | |
Thakur et al. | Audio and text-based emotion recognition system using deep learning | |
Chen et al. | An effective emotion tendency perception model in empathic dialogue |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |