CN116522165B - 一种基于孪生结构的舆情文本匹配***及方法 - Google Patents
一种基于孪生结构的舆情文本匹配***及方法 Download PDFInfo
- Publication number
- CN116522165B CN116522165B CN202310761055.3A CN202310761055A CN116522165B CN 116522165 B CN116522165 B CN 116522165B CN 202310761055 A CN202310761055 A CN 202310761055A CN 116522165 B CN116522165 B CN 116522165B
- Authority
- CN
- China
- Prior art keywords
- sentence
- similarity
- layer
- vector
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 239000013598 vector Substances 0.000 claims abstract description 139
- 238000012512 characterization method Methods 0.000 claims abstract description 70
- 238000013528 artificial neural network Methods 0.000 claims abstract description 60
- 230000003993 interaction Effects 0.000 claims abstract description 42
- 238000004364 calculation method Methods 0.000 claims abstract description 22
- 230000004927 fusion Effects 0.000 claims abstract description 5
- 230000014509 gene expression Effects 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 20
- 238000011176 pooling Methods 0.000 claims description 20
- 238000010606 normalization Methods 0.000 claims description 14
- 238000005259 measurement Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 230000008520 organization Effects 0.000 claims 1
- 239000010410 layer Substances 0.000 description 122
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000002372 labelling Methods 0.000 description 8
- 230000007704 transition Effects 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010380 label transfer Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明的一种基于孪生结构的舆情文本匹配***,包括孪生神经网络模块:用于构造孪生神经网络的编码层,获取命名实体间的第一相似度表征向量;语义交互模块:用于获取第二相似度表征向量;融合模块:用于将第一相似度表征向量和第二相似度表征向量拼接,得到句子对的最终相似度表征向量;匹配模块:用于将最终相似度表征向量通过SoftMax分类函数得到文本匹配结果。本发明通过提取舆情文本的命名实体相似度特征和文本语义相似度特征,将两类特征融合后进行语义相似度计算并分析两舆情文本是否相似,提高舆情文本匹配的准确性和鲁棒性,因为不再是单纯对文本的主题和含义进行匹配,同时考虑了针对同一人物、事物或现象的表述进行匹配。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于孪生结构的舆情文本匹配***及方法。
背景技术
目前舆情本文匹配方法的核心问题是解决文本数据相似度判断的问题,只有当文本数据相似度判断准确了,舆情文本***的匹配准确率才能提升。在以往传统方法中,需要大量人力和时间进行人为判断、标注和去除相似的舆情文本。因此需要一种智能化的舆情文本匹配***,提炼重要信息,提高文本分析的效率。舆情文本匹配在舆情分析、舆情预警中发挥着至关重要地作用,舆情文本匹配的准确率关乎着后续舆情研判的准确与否。
目前对于舆情文本匹配的计算大多采用两种方式,一种是基于传统的文本匹配算法,另一种是基于深度学习的文本匹配算法。传统的文本匹配算法一般可分为基于字符串的方法,基于统计的方法和基于知识库的方法。传统的文本匹配算法大多都只能计算出文本表层的含义,难以挖掘出文本深层含义。随着自然语言处理任务的需求越来越广泛,基于传统的方法始终无法突破语义相似度计算任务的瓶颈,故逐渐被基于深度学习的语义相似度算法取代。基于深度学习的文本匹配算法可以理解到文本的深层含义,使模型效果更好,但由于研究时间不长,模型的准确性仍待提升。在2013年提出的生成分布式词向量方法,即word2vec,该方法根据一定范围内的上下文预测出来文本中每个单词的词向量,然后生成的词向量被拼接后,能够表示一定的语义信息;但每个词所依赖的上下文范围是有限的,因此每个词向量表达句语义信息也是局部有限的。2014年又提出了doc2vec方法,该方法用于文档文本的向量化表示,文档与单词不同之处在于,文档没有像单词与单词之间的逻辑结构,其是一个整体的文本数据。以上两种方法所生成的向量均为静态的,即无法根据文本语境的不同而动态变化,从而影响了方法的准确率和性能。
近几年BERT方法的提出,给自然语言处理领域带来了很大影响,BERT方法结合了自注意力机制,并提出了掩盖语言模型任务和下文预测任务两种十分新颖且有效的预训练目标,为方法的性能带来极大的提升,成为目前最常用的生成动态词向量的方法之一。舆情文本匹配比起一般的文本匹配具有更高的难度,它不仅仅需要判断两文本在语义上是否相似,还需判断两文本是否是针对同一人物、事物或现象所表达的信念、态度、意见和情绪等等。现有的文本匹配算法一般只考虑文本字符的匹配或文本含义匹配,即当两文本有许多相似字符或两文本表达相同主题或相同含义时则判断为相似,未具体到人物或事件层面,故本发明提出一种基于孪生结构的舆情文本匹配方法以使舆情场景的文本匹配在准确率和鲁棒性方面得到进一步提升。
发明内容
针对舆情文本匹配比起一般的文本匹配具有更高的难度,不仅仅需要判断两文本在语义上是否相似,还需判断两文本是否是针对同一人物、事物或现象所表达的信念、态度、意见和情绪等,因此,基于舆情场景的文本匹配方法在准确率和鲁棒性方均要求更高,不仅要判断两文本在语义上是否相似,还需要判断两文本是否为针对同一人物、事物或现象的表述。
为了克服上述现有技术的不足,本发明旨在提供一种基于孪生结构的舆情文本匹配***及方法。
根据本发明的第一方面,提供一种基于孪生结构的舆情文本匹配的***,包括
孪生神经网络模块:用于构造孪生神经网络的编码层,提取出句子对中的命名实体信息,并对提取出的命名实体进行相似度计算,获取命名实体间的第一相似度表征向量;
语义交互模块:用于获取句子对在语义方面的第二相似度表征向量;
融合模块:用于将第一相似度表征向量和第二相似度表征向量拼接,得到句子对的最终相似度表征向量;
匹配模块:用于将最终相似度表征向量通过SoftMax分类函数得到文本匹配结果。
在本发明的一种示例性实施例中,所述孪生神经网络模块,具体利用BERT+CRF方法构造孪生神经网络的编码层,包括两个相同或相似的神经网络建立的耦合三层架构,分别是输入层、特征提取层和相似度度量层,其中输入层输入需进行匹配的句子对,特征提取层将输入的句子对样本嵌入至高纬度空间得到句子对两个样本的表征向量,相似度度量层通过数学公式对提取出的两个样本的表征向量进行相似度计算,得到句子对的第一相似度表征向量。
在本发明的一种示例性实施例中,所述孪生神经网络模块的BERT模型
还包括掩码语言模型任务单元,(采用BERT层的掩码语言模型任务获取输入句子对语句中词级别的文本特征),在训练的输入层中随即掩盖部分字符,然后利用剩余未被掩盖的字符来预测这些掩盖的字符,通过该方式的训练,可使模型充分学习到输入语句中词级别的文本特征,再将BERT层输出的特征向量输入至CRF层;
还包括下文预测任务单元,用于判断输入的句子对的A句子和B句子是否上下问相关,从而使模型学习到两个文本之间的关系,解决句子层面的问题;再将BERT层输出的特征向量输入至CRF层;
在本发明的一种示例性实施例中,所述孪生神经网络模块的CRF模型还包括数据集中标签之间的转移概率单元,CRF层通过学习数据集中标签之间的转移概率,从而修正BERT层的输出,从而保证预测标签的合理性;
还包括标注单元,由于需提取出句子对中的命名实体,训练集即句子对采用BIO方法对实体进行标注,B(begin)表示该字符处于一个实体的开始,I(inside)表示该字符处于该实体的内部位置,O(outside)表示实体外部的不被关注的非实体字符;对于舆情文本需重点关注文本中的人名(PER)、地名(GEO)、以及组织(ORG),故训练集的实体标签有B-PER,I-PER,B-GEO,I-GEO,B-ORG,I-ORG,O这7种类型的标签;
还包括获取词性状态以进行表征向量单元,将句子对送入孪生神经网络前,需
要在句子的头部加入[CLS]标识符,得到A、B句子对的A句子和;将和送入BERT进行微调,通过BERT层的编码为句子中每个
位置上的字符引入上下文信息从而获取词性状态以进行表征向量,所有BERT的输出将作为
CRF层的输入;
在本发明的一种示例性实施例中,所述语义交互模块,具体基于BERT采用下
文预测任务以学习文本间的句子关系特征,包括交互模块的编码层、交互模块的池
化层和交互模块的归一化层,所述交互模块的编码层,将句子对送入BERT前,需要在
句子的头部加入[CLS]标识符,并在两句之间***[SEP]标识符进行切分。将拼接好后
的句子送入BERT模型进行微调,输出,即句子对的向量化表达;
所述交互模块的池化层,通过BERT得到的句向量通过池化层来提取重要特征缩
小维度;
所述交互模块的归一化层,句向量经过层归一化后的输出结果为交互模块获取
到的句子对的第二相似度表征向量。
在本发明的一种示例性实施例中,所述匹配模块中,具体SoftMax分类函数如下,代表的含义为样本向量 x 属于第 j 个分类的概率,其中W为权重系数,k表示有k个
类别:
将最终相似度表征向量输入至softmax函数中,,其中
为所述孪生神经网络模块的输出,为所述交互模块的输出,为上述 softmax 函数中
的 x;得到的最终结果在[0,1]区间中,假设设置文本相似的阈值为0.5,则当时,则
认为两文本匹配,否则两文本不匹配。
根据本发明的第二方面,提供一种基于孪生结构的舆情文本匹配的方法,应用所述的基于孪生结构的舆情文本匹配的***,包括如下步骤:
构造孪生神经网络的编码层,从而提取出句子对中的命名实体信息,并对提取出的命名实体进行相似度计算,获取命名实体间的第一相似度表征向量;
获取句子对在语义方面的第二相似度表征向量;
将第一相似度表征向量和第二相似度表征向量拼接,得到句子对的最终相似度表征向量;
将最终相似度表征向量通过SoftMax分类函数得到文本匹配结果。
在本发明的一种示例性实施例中,所述构造孪生神经网络的编码层,具体利用BERT+CRF方法构造孪生神经网络的编码层,包括两个相同或相似的神经网络建立的耦合三层架构,分别是输入层、特征提取层和相似度度量层,其中输入层输入需进行匹配的句子对,特征提取层将输入的句子对样本嵌入至高纬度空间得到句子对两个样本的表征向量,相似度度量层通过数学公式对提取出的两个样本的表征向量进行相似度计算,得到句子对的第一相似度表征向量。
在本发明的一种示例性实施例中,所述构造孪生神经网络的编码层,从而提取出句子对中的命名实体信息,并对提取出的命名实体进行相似度计算,获取命名实体间的第一相似度表征向量,具体还包括:
采用BERT层的掩码语言模型任务获取输入句子对语句中词级别的文本特征,再将BERT层输出的特征向量输入至CRF层;
CRF层通过学习数据集中标签之间的转移概率,从而修正BERT层的输出;
训练集即句子对采用BIO方法对实体进行标注,B(begin)表示该字符处于一个实体的开始,I(inside)表示该字符处于该实体的内部位置,O(outside)表示实体外部的不被关注的非实体字符;对于舆情文本需重点关注文本中的人名(PER)、地名(GEO)、以及组织(ORG),故训练集的实体标签有B-PER,I-PER,B-GEO,I-GEO,B-ORG,I-ORG,O这7种类型的标签;
将句子对送入孪生神经网络前,需要在句子的头部加入[CLS]标识符,得到A、B句
子对的A句子向量和;将和送入BERT
进行微调,通过BERT层的编码为句子中每个位置上的字符引入上下文信息从而获取词性状
态以进行表征向量,所有BERT的输出将作为CRF层的输入。
在本发明的一种示例性实施例中,所述获取句子对在语义方面的第二相似度表征
向量,具体包括:具体基于BERT采用下文预测任务以学习文本间的句子关系特征;将句子对
送入BERT前,需要在句子的头部加入[CLS]标识符,并在两句之间***[SEP]标识符进行切
分。将拼接好后的句子送入BERT模型进行微
调,输出,即句子对的向量化表达;通过BERT得
到的句向量通过池化层来提取重要特征缩小维度;句向量经过层归一化后的输出结果
为交互模块获取到的句子对的第二相似度表征向量。
根据本发明的第三方面,提供一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述的基于孪生结构的舆情文本匹配的方法。
根据本发明的第四方面,提供一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述的基于孪生结构的舆情文本匹配的方法。
本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
本发明的基于孪生结构的舆情文本匹配***和方法,该***分为两个主要模块,分别为基于BERT+CRF的孪生神经网络模块和基于BERT的语义交互模块。孪生神经网络模块利用BERT+CRF方法构造孪生神经网络的编码层,从而提取出句子对中的命名实体信息包括人名,地名等,并对提取出的命名实体进行相似度计算,获取命名实体间的相似度特征(表征向量)。基于BERT的语义交互模块可获取句子对在语义方面的相似度特征(表征向量)。本发明通过以上两个模块提取舆情文本的命名实体相似度特征和文本语义相似度特征,将两类特征融合后进行语义相似度计算并分析两舆情文本是否相似,提高舆情文本匹配的准确性和鲁棒性,因为不再是单纯对文本的主题和含义进行匹配,同时考虑了针对同一人物、事物或现象的表述进行匹配。
附图说明
图1为本发明基于孪生结构的舆情文本匹配***结构示意图。
图2为本发明孪生神经网络模块的BERT模型的输入表征向量图。
图3为本发明孪生神经网络模块的训练集的具体标签形式图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,均属于本发明保护的范围。
实施例一
结合图1所示,本实施例提供一种提供一种基于孪生结构的舆情文本匹配的***,包括:孪生神经网络模块,用于构造孪生神经网络的编码层,提取出句子对中的命名实体信息,并对提取出的命名实体进行相似度计算,获取命名实体间的第一相似度表征向量;语义交互模块,用于获取句子对在语义方面的第二相似度表征向量;融合模块,用于将第一相似度表征向量和第二相似度表征向量拼接,得到句子对的最终相似度表征向量;匹配模块,用于将最终相似度表征向量通过SoftMax分类函数得到文本匹配结果。
在一种示例性实施例中,所述孪生神经网络模块,具体利用BERT+CRF方法(即BERT模型+CRF模型)构造孪生神经网络的编码层,包括两个相同或相似的神经网络(具体BERT模型+CRF模型)建立的耦合三层架构,该耦合三层架构的天然优势使其非常适用于解决相似度匹配问题。三层架构分别是输入层、特征提取层和相似度度量层,其中输入层输入需进行匹配的句子对样本,特征提取层将输入的句子对样本嵌入至高纬度空间得到两个句子对样本的表征向量,相似度度量层通过数学公式对提取出的两个样本的表征向量进行相似度计算,得到句子对的第一相似度表征向量,一般可以采用欧式距离、余弦距离或杰卡德距离等方法计算两样本的相似度。
具体地,BERT模型采用多层Transfomer编码器作为其网络层,从而能够深度挖掘文本中的重要特征,捕捉更长距离的上下文信息。BERT是一个多任务模型,预训练好的BERT模型能够完成各式各样的下游任务。该模型的输入既可以为单个语句,也可以是文本。文本输入时,需要将文本序列的首部添加一个特殊分类符号[CLS],然后在每句话的结束位置添加一个特殊符号[SEP]作为句子的分隔符和结束符。文本中的每个字符首先通过word2vec模型进行向量初始化形成原始表征向量。为了区分字符来源,需要添加一个片段归属信息嵌入来区分该字符是来自于句子对的句子A还是句子B。最后,为了(是)模型学会句子中各个字符的位置信息对句子含义的影响,还需要嵌入一个位置向量。故最终BERT模型的输入表征向量由字嵌入、片段归属信息嵌入和位置嵌入三部分相加而成,如图2所示。
BERT模型的预训练任务由两个无监督学习子任务组成,分别是掩码语言模型和下文预测任务。掩码语言模型是指在训练的输入层中随即掩盖部分字符,然后利用剩余未被掩盖的字符来预测这些掩盖的字符,通过该方式的训练,可使模型充分学习到输入语句中词级别的文本特征。下文预测任务是让模型判断输入的两句子是否上下问相关,从而使模型学习到两个文本之间的关系,解决句子层面的问题。每个字符的通过大量的无监督语料进行上述两种任务的充分训练后,学习到文本的语言特征并输出具有更深层次表达的字符向量编码。在下游任务中,可直接利用训练好的模型参数对文本进行向量化。
在一种示例性实施例中,所述孪生神经网络模块的BERT模型,还包括掩码语言模型任务单元,(采用BERT层的掩码语言模型任务获取输入句子对语句中词级别的文本特征),在训练的输入层中随即掩盖部分字符,然后利用剩余未被掩盖的字符来预测这些掩盖的字符,通过该方式的训练,可使模型充分学习到输入语句中词级别的文本特征,再将BERT层输出的特征向量输入至CRF层;还包括下文预测任务单元,用于判断输入的句子对的A句子和B句子是否上下问相关,从而使模型学习到两个文本之间的关系,解决句子层面的问题;再将BERT层输出的特征向量输入至CRF层。
在本发明的一种示例性实施例中,所述孪生神经网络模块的CRF模型,还包括数据
集中标签之间的转移概率单元,CRF层通过学习数据集中标签之间的转移概率,从而修正
BERT层的输出,从而保证预测标签的合理性,修正bert层的输出,比如之前BERT输出的是向
量X,修正后输出为X´;还包括标注单元,由于需提取出句子对中的命名实体训练集即句子
对采用BIO方法对实体进行标注,B(begin)表示该字符处于一个实体的开始,I(inside)表
示该字符处于该实体的内部位置,O(outside)表示实体外部的不被关注的非实体字
符;对于舆情文本需重点关注文本中的人名(PER)、地名(GEO)、以及组织(ORG),故训练集的
实体标签有B-PER,I-PER,B-GEO,I-GEO,B-ORG,I-ORG,O这7种类型的标签;还包括
获取词性状态以进行表征向量单元,将句子对的A、B句子送入孪生神经网络前,需要在
句子的头部加入[CLS]标识符,得到A、B句子对的A句子向量和;将和送入BERT进行微调,通过BERT层的编码为句
子中每个位置上的字符引入上下文信息从而获取词性状态以进行表征向量,所有BERT的输
出将作为CRF层的输入;还可以包括预处理单元,对于孪生神经网络模块的训练集即句子对
作为模型的输入,对该输入句子对的文本进行清洗和停用词去除,并采用停用词表对整个
文本进行过滤(从而降低文本长度,提高模型的计算效率),采用直接截断的方式对输入的
文本长度进行限制。
总之,孪生神经网络模块利用BERT+CRF方法构造孪生神经网络的编码层,从而提取出句子对中的命名实体信息,并对提取出的命名实体进行相似度计算。孪生神经网络模块首先采用BERT层的掩码语言模型任务来获取输入语句中词级别的文本特征。再将BERT层输出的特征向量输入至CRF层,CRF层可以通过学习数据集中标签之间的转移概率从而修正BERT层的输出,从而保证预测标签的合理性。具体如下:
舆情文本句子对句子A和句子B,即句子A和句子B为需要判断是否相似的句子对,
即孪生神经网络模块的训练集,则该句子对作为模型的输入,需首先对该输入文本进行清
洗和停用词去除。文本清洗即对文本中的冗余信息和错误信息进行处理,将空白符号或表
情符号等不重要的信息删除,将文本中的繁体字转为简体字,其次将文本中的字符格式统
一为半角格式方便后续的文本表征向量。对于文本中的语气词或一些不重要的词可直接删
除,并采用停用词表对整个文本进行过滤,从而降低文本长度,提高模型的计算效率。采用
直接截断的方式对输入的文本长度进行限制。处理后的句子A长度为n,句子B长度为m, 则
表示为A={WA1,WA2,...,WAn},B={WB1,WB2,...,WBn},其中WAi和WBi分别表示句子A和句子
B的第i个字。由于需提取出句子对中的命名实体,训练集采用BIO方法对实体进行标注,B
(begin)表示该字符处于一个实体的开始,I(inside)表示该字符处于该实体的内部位置,O
(outside)表示实体外部的不被关注的非实体字符。对于舆情文本需重点关注文本中的人名
(PER)、地名(GEO)、以及组织(ORG),故训练集的实体标签有B-PER,I-PER,B-GEO,I-GEO,B-ORG,I-
ORG,O这7种类型的标签。具体标签形式如图3所示。将句子对送入孪生神经网络前,需要在句
子的头部加入[CLS]标识符,得到 和。将和送入BERT进行微调,通过BERT层的编码可以为句子中每个位置上的字符引入上下文信息
从而获取词性状态以进行表征向量和。表示句子A对应的第i个字的编码向量,文表示句子B对应的第i个字的编码向量。所有
BERT的输出将作为CRF层的输入。CRF有两类特征函数,一类是针对观测序列与状态的对应
关系(如“我”一般是名词),一类是针对状态间关系(如“动词”后一般跟“名词”)。在BERT+
CRF模型中,前一类特征函数的输出由BERT的输出替代,后一类特征函数的输出则为标签转
移矩阵,标签转移矩阵表示标签之间的转移得分。具体的,BERT层输出的表征向量为一
个矩阵,得到每个字符对应的标签得分分布为,将该矩阵称为发射矩阵。对于句子A,
其对应的标签是一条链。句子A的长度为n,共有7种类型的标签,故共有种可能的标记结果,即有种可能的。对于舆情文本需重点关注文本中的人名(PER)、
地名(GEO)、以及组织(ORG),故训练集的实体标签有B-PER,I-PER,B-GEO,I-GEO,B-ORG,I-
ORG,O这7种类型的标签。标签少或者多取决于具体的应用场景,这里只是表述一般情况。对
于字符,其标签得分分布为一个7维的向量,标签的得分为,其中为整数
类型,表示标签索引。将所有的加起来得到各个字符节点的分数。根据标签矩阵,求
得到的转移分数。最后将所有分数求和得到句子A每个可能的标注结果的
得分为。然后利用Softmax函数进行归一化求出每种标
注结果的概率,其中 。同理地,句子B每种标注结果的概率
为,其中。
取概率最大的标注结果作为该字符的实体标签,并将标签为B的字符作为实体的
开头,后面跟着标签I的所有字符拼接在一起组成一个词语作为实体词。将实体词所在字符
位置对应的BERT层输出的字符表征向量提取得到和,利用余弦算法构造相似度度量
层,两向量之间的距离特征计算如下:
表示利用孪生神经网络(SEN)获得的句子对的相似度特征矩阵即第一相似度
表征向量,该相似度特征,将会进一步与BERT获取到的句子对的交互特征进行再次融合。
在一种示例性实施例中,所述语义交互模块,具体是基于BERT的语义交互模块,采用下文预测任务以学习文本间的句子关系特征,包括交互模块的编码层、交互模块的池化层和交互模块的归一化层;
交互模块的编码层,将句子对送入BERT前,需要在句子的头部加入[CLS]标识符,并在两句之间***[SEP]标识符进行切分。
将拼接好后的句子送入BERT模
型进行微调,输出,即句子对的向量化表达;
句子具体是T = {[CLS], 好,好,学,习,
[SEP], 天,天,向,上}。
交互模块的池化层,通过BERT得到的句向量通过池化层来提取重要特征缩小维
度;
交互模块的归一化层,句向量经过层归一化后的输出结果为交互模块获取到的
句子对的第二相似度表征向量。
作为具体示例,采用社区问答数据集对模型进行训练,该数据集是一个大规模高质量的问答型数据集,该数据集针对某些社会问题进行提问,每个问题都有多个反馈回答,同一个问题的反馈可以作为相似舆情。
对于交互模块的编码层,将句子对送入BERT前,需要在句子的头部加入[CLS]标识符,并在两句
之间***[SEP]标识符进行切分。将拼接好后的句子送
入BERT模型进行微调,输出,即句子对的向量
化表达。
对于交互模块的池化层,通过BERT得到的句向量通过池化层来提取重要特征缩
小为度。平均池化主要用于当所有信息都应该有所贡献的时候,比如要获取全局上下文关
系或者要获取网络深层的语义信息等。最大池化主要是为了减少无用信息造成的影响,同
时它能降低特征维度并提取出更好、更强烈的语义信息特征。为了使模型的鲁棒性更强,这
里用平均池化和最大池化共同处理特征向量即表征向量。句向量平均池化后的结
果为,最大池化为,其中是全局平均池化后获得的句
子T的向量,全局最大池化之后获得的句子T的向量。将平均池化的计算结果与最大池
化的计算结果进行拼接,即。
对于交互模块的归一化层,经过层归一化后的输出结果为。即可作为交互模块的第二相似度表征向量。
本申请的***还包括匹配模块,利用此模块将孪生神经网络模块得到的第一相似
度表征向量与基于BERT的交互模块得到的第二相似度表征向量拼接,得到句子A和句子B的
最终相似度表征向量。既能表达句子对中实体词的之间的差异,又
能通过结合BERT模型获取句子对的深层语义交互特征从而获得更加准确的文本相似度信
息。最后通过SoftMax分类函数得到最终结果。
在本发明的一种示例性实施例中,所述匹配模块中,具体SoftMax分类函数如下,代表的含义为样本向量 x 属于第 j 个分类的概率,其中W为权重系数,k表示有k个
类别:
将最终相似度表征向量输入至softmax函数中,,其中
为所述孪生神经网络模块的输出,为所述交互模块的输出,为上述 softmax 函数中
的 x;得到的最终结果在[0,1]区间中,假设设置句子对A句子和B句子的文本相似的阈值
为0.5,则当时,则认为A句子和B句子两文本匹配,否则两文本不匹配。
实施例二
使用实施例一中的基于孪生结构的舆情文本匹配的***,本实施例提供一种基于孪生结构的舆情文本匹配的方法,包括如下步骤:
构造孪生神经网络的编码层,利用孪生神经网络模块,提取出句子对中的命名实体信息,并对提取出的命名实体进行相似度计算,获取命名实体间的第一相似度表征向量;
构造孪生神经网络的编码层,具体利用BERT+CRF模型(方法)构造孪生神经网络的编码层,包括两个相同或相似的神经网络建立的耦合三层架构,分别是输入层、特征提取层和相似度度量层,其中输入层输入需进行匹配的句子对,特征提取层将输入的句子对样本嵌入至高纬度空间得到句子对两个样本的表征向量,相似度度量层通过数学公式对提取出的两个样本的表征向量进行相似度计算,得到句子对的第一相似度表征向量。
具体利用BERT+CRF模型(方法)构造孪生神经网络的编码层,从而提取出句子对中的命名实体信息,并对提取出的命名实体进行相似度计算,获取命名实体间的第一相似度表征向量,具体还包括:
采用BERT层的掩码语言模型任务获取输入句子对语句中词级别的文本特征,再将BERT层输出的特征向量输入至CRF层;
采用BERT层的下文预测任务,判断输入的句子对的A句子和B句子是否上下问相关,从而使模型学习到两个文本之间的关系,解决句子层面的问题;再将BERT层输出的特征向量输入至CRF层;
CRF层通过学习数据集中标签之间的转移概率,从而修正BERT层的输出;
训练集即句子对采用BIO方法对实体进行标注,B(begin)表示该字符处于一个实体的开始,I(inside)表示该字符处于该实体的内部位置,O(outside)表示实体外部的不被关注的非实体字符;对于舆情文本需重点关注文本中的人名(PER)、地名(GEO)、以及组织(ORG),故训练集的实体标签有B-PER,I-PER,B-GEO,I-GEO,B-ORG,I-ORG,O这7种类型的标签;
将句子对送入孪生神经网络前,需要在句子的头部加入[CLS]标识符,得到A、B句
子对的A句子向量和;将和送入BERT
进行微调,通过BERT层的编码为句子中每个位置上的字符引入上下文信息从而获取词性状
态以进行表征向量,所有BERT的输出将作为CRF层的输入。
获取句子对在语义方面的第二相似度表征向量,利用语义交互模块获取,具体包括:
具体基于BERT采用下文预测任务以学习文本间的句子关系特征;
将句子对送入BERT前,需要在句子的头部加入[CLS]标识符,并在两句之间***
[SEP]标识符进行切分。将拼接好后的句子送
入BERT模型进行微调,输出,即句子对的向量
化表达;
通过BERT得到的句向量通过池化层来提取重要特征缩小维度;
句向量经过层归一化后的输出结果为交互模块获取到的句子对的第二相似度
表征向量。
将第一相似度表征向量和第二相似度表征向量拼接,利用融合模块拼接,得到句子对的最终相似度表征向量;
将最终相似度表征向量通过SoftMax分类函数得到文本匹配结果,利用匹配模块,
将孪生神经网络模块得到的第一相似度表征向量与基于BERT的交互模块得到的第二相似
度表征向量拼接,得到句子A和句子B的最终相似度表征向量。既能
表达句子对中实体词的之间的差异,又能通过结合BERT模型获取句子对的深层语义交互特
征从而获得更加准确的文本相似度信息。最后通过SoftMax分类函数得到最终结果。总之,可表达句子对中实体词的之间的差异能获取句子对的深层语义交互特征,故可以
获得更加准确的文本相似度信息。
在本发明的一种示例性实施例中,所述匹配模块中,具体SoftMax分类函数如下,代表的含义为样本向量 x 属于第 j 个分类的概率,其中W为权重系数,k表示有k个
类别:
将最终相似度表征向量输入至softmax函数中,,其中
为所述孪生神经网络模块的输出,为所述交互模块的输出,为上述 softmax 函数中
的 x;得到的最终结果在[0,1]区间中,假设设置句子对A句子和B句子的文本相似的阈值
为0.5,则当时,则认为A句子和B句子两文本匹配,否则两文本不匹配。
为了进一步展示本发明的技术效果,将本发明提出的一种基于孪生结构的舆情文本匹配方法应用于STS-B语义相似度数据集。该数据集中每条数据包含句子对和相似度分数,相似度分数从0至5,分数越高则代表句子对的相似度越高,分数为0时则代表两个句子的语义不相似。且数据集被划分为训练集、验证集和测试集,其中,训练集中共有5231条数据,验证集包含1458条数据,测试集包含1361条数据。
另外,为了更直观的进行对比,本发明同时利用文本匹配任务中的Siamese-CNN,Siamese-LSTM,ABCNN,BERT几个主流模型进行比较实验。最终不同模型在STS-B数据集上的实验结果如下所示:
模型名称 | 模型准确率 |
Siamese-CNN | 60.21 |
Siamese-LSTM | 64.52 |
ABCNN | 66.80 |
BERT | 75.52 |
本发明提出的方法 | 83.96 |
从以上实验结果可以发现孪生神经网络结构在语义相似度领域中应用时可以有效地提高模型的表现。该方法不仅通过句子对A句子和B句子两文本的语义特征进行相似性判断,还通过句子对A句子和B句子两文本的实体特征来判断文本是否是针对同一人物、事物或现象等等进行的描述,使文本数据相似度判断更加准确,从而使舆情文本***的匹配准确率提升,减少了大量人力和时间进行人为地判断,提高了舆情文本分析的效率。
实施例三
另一方面,本发明还提供一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述的基于孪生结构的舆情文本匹配的方法。
实施例四
本发明还提供一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述的基于孪生结构的舆情文本匹配的方法。
Claims (4)
1.一种基于孪生结构的舆情文本匹配的***,其特征在于包括
孪生神经网络模块:用于构造孪生神经网络的编码层,从而提取出句子对中的命名实体信息,并对提取出的命名实体进行相似度计算,获取命名实体间的第一相似度表征向量;
语义交互模块:用于获取句子对在语义方面的第二相似度表征向量, 第二相似度向量表示文本语义相似度特征;
所述语义交互模块,包括交互模块的编码层、交互模块的池化层和交互模块的归一化层,所述交互模块的编码层,将句子对送入BERT前,需要在句子的头部加入[CLS]标识符,并在两句之间***[SEP]标识符进行切分,将拼接好后的句子T={,[SEP],/>}送入BERT模型进行微调,通过BERT层的编码为句子中每个位置上的字符引入上下文信息从而获取词性状态以进行表征向量,输出/>={},即句子对的向量化表达;所述交互模块的池化层,通过BERT得到的句向量/>通过池化层来提取重要特征缩小维度;所述交互模块的归一化层,句向量/>经过层归一化后的输出结果为交互模块获取到的句子对的第二相似度表征向量;
所述孪生神经网络模块,具体利用BERT+CRF方法构造孪生神经网络的编码层,孪生神经网络模块包括两个相同的神经网络建立的耦合三层架构,孪生神经网络的每个神经网络包括输入层、特征提取层,两个相同的神经网络共享相似度度量层,其中每个神经网络的输入层输入需进行匹配的句子对的一个句子,特征提取层将输入的句子对的句子嵌入至高维度空间得到句子对的的句子的向量表征,相似度度量层通过数学公式对提取出的句子对的句子的向量表征进行相似度计算,得到句子对的第一相似度表征向量;将句子对的A、B句子送入孪生神经网络前,需要在句子的头部加入[CLS]标识符,得到A、B句子对的A句子向量和B句子向量/>;将/>和送入BERT进行微调,通过BERT层的编码为句子中每个位置上的字符引入上下文信息从而获取词性状态以进行表征向量,所有BERT的输出将作为CRF层的输入;
包括标注单元,孪生神经网络模块的训练集即句子对采用BIO方法对实体进行标注,B表示字符处于一个实体的开始,I表示字符处于该实体的内部位置,O表示实体外部的不被关注的非实体字符;舆情文本需重点关注文本中的人名PER、地名GEO、以及组织ORG,故训练集的实体标签有B-PER,I-PER,B-GEO,I-GEO,B-ORG,I-ORG,O这7种类型的标签;B为begin的简写,I为inside的简写,O为outside的简写;
融合模块:用于将第一相似度表征向量和第二相似度表征向量拼接,得到句子对的最终相似度表征向量;
匹配模块:用于将最终相似度表征向量通过SoftMax分类函数得到文本匹配结果。
2.基于孪生结构的舆情文本匹配的方法,应用如权利要求1所述的基于孪生结构的舆情文本匹配的***,其特征在于,包括如下步骤:
构造孪生神经网络的编码层,从而提取出句子对中的命名实体信息,并对提取出的命名实体进行相似度计算,获取命名实体间的第一相似度表征向量;
通过语义交互模块获取句子对在语义方面的第二相似度表征向量,第二相似度向量表示文本语义相似度特征;
将第一相似度表征向量和第二相似度表征向量拼接,得到句子对的最终相似度表征向量;
将最终相似度表征向量通过SoftMax分类函数得到文本匹配结果。
3.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求2中所述的基于孪生结构的舆情文本匹配的方法。
4.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求2中所述的基于孪生结构的舆情文本匹配的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310761055.3A CN116522165B (zh) | 2023-06-27 | 2023-06-27 | 一种基于孪生结构的舆情文本匹配***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310761055.3A CN116522165B (zh) | 2023-06-27 | 2023-06-27 | 一种基于孪生结构的舆情文本匹配***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116522165A CN116522165A (zh) | 2023-08-01 |
CN116522165B true CN116522165B (zh) | 2024-04-02 |
Family
ID=87408580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310761055.3A Active CN116522165B (zh) | 2023-06-27 | 2023-06-27 | 一种基于孪生结构的舆情文本匹配***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116522165B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117194614B (zh) * | 2023-11-02 | 2024-01-30 | 北京中电普华信息技术有限公司 | 一种文本差异识别方法、装置和计算机可读介质 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259127A (zh) * | 2020-01-15 | 2020-06-09 | 浙江大学 | 一种基于迁移学习句向量的长文本答案选择方法 |
CN111723575A (zh) * | 2020-06-12 | 2020-09-29 | 杭州未名信科科技有限公司 | 识别文本的方法、装置、电子设备及介质 |
CN113673225A (zh) * | 2021-08-20 | 2021-11-19 | 中国人民解放军国防科技大学 | 中文句子相似性判别方法、装置、计算机设备和存储介质 |
CN114329225A (zh) * | 2022-01-24 | 2022-04-12 | 平安国际智慧城市科技股份有限公司 | 基于搜索语句的搜索方法、装置、设备及存储介质 |
CN114386421A (zh) * | 2022-01-13 | 2022-04-22 | 平安科技(深圳)有限公司 | 相似新闻检测方法、装置、计算机设备和存储介质 |
CN114579731A (zh) * | 2022-02-28 | 2022-06-03 | 江苏至信信用评估咨询有限公司 | 基于多特征融合的网络信息话题检测方法、***及装置 |
CN114896397A (zh) * | 2022-04-29 | 2022-08-12 | 中航华东光电(上海)有限公司 | 一种基于bert-crf词向量模型的空管指令复诵检验方法 |
CN115292447A (zh) * | 2022-07-14 | 2022-11-04 | 昆明理工大学 | 融合主题与实体知识的新闻匹配方法 |
CN115374778A (zh) * | 2022-08-08 | 2022-11-22 | 北京工商大学 | 一种基于深度学习的化妆品舆情文本实体关系抽取方法 |
CN115408494A (zh) * | 2022-07-25 | 2022-11-29 | 中国科学院深圳先进技术研究院 | 一种融合多头注意力对齐的文本匹配方法 |
CN115470871A (zh) * | 2022-11-02 | 2022-12-13 | 江苏鸿程大数据技术与应用研究院有限公司 | 基于命名实体识别与关系抽取模型的政策匹配方法及*** |
CN115630632A (zh) * | 2022-09-29 | 2023-01-20 | 北京蜜度信息技术有限公司 | 基于上下文语义的特定领域人名纠错方法、***、介质及终端 |
CN115687939A (zh) * | 2022-09-02 | 2023-02-03 | 重庆大学 | 一种基于多任务学习的Mask文本匹配方法及介质 |
CN115712713A (zh) * | 2022-11-23 | 2023-02-24 | 桂林电子科技大学 | 一种文本匹配方法、装置、***以及存储介质 |
CN115759104A (zh) * | 2023-01-09 | 2023-03-07 | 山东大学 | 基于实体识别的金融领域舆情分析方法与*** |
CN116304745A (zh) * | 2023-03-27 | 2023-06-23 | 济南大学 | 基于深层次语义信息的文本话题匹配方法及*** |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9965459B2 (en) * | 2014-08-07 | 2018-05-08 | Accenture Global Services Limited | Providing contextual information associated with a source document using information from external reference documents |
US20220198146A1 (en) * | 2020-12-17 | 2022-06-23 | Jpmorgan Chase Bank, N.A. | System and method for end-to-end neural entity linking |
-
2023
- 2023-06-27 CN CN202310761055.3A patent/CN116522165B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259127A (zh) * | 2020-01-15 | 2020-06-09 | 浙江大学 | 一种基于迁移学习句向量的长文本答案选择方法 |
CN111723575A (zh) * | 2020-06-12 | 2020-09-29 | 杭州未名信科科技有限公司 | 识别文本的方法、装置、电子设备及介质 |
CN113673225A (zh) * | 2021-08-20 | 2021-11-19 | 中国人民解放军国防科技大学 | 中文句子相似性判别方法、装置、计算机设备和存储介质 |
CN114386421A (zh) * | 2022-01-13 | 2022-04-22 | 平安科技(深圳)有限公司 | 相似新闻检测方法、装置、计算机设备和存储介质 |
CN114329225A (zh) * | 2022-01-24 | 2022-04-12 | 平安国际智慧城市科技股份有限公司 | 基于搜索语句的搜索方法、装置、设备及存储介质 |
CN114579731A (zh) * | 2022-02-28 | 2022-06-03 | 江苏至信信用评估咨询有限公司 | 基于多特征融合的网络信息话题检测方法、***及装置 |
CN114896397A (zh) * | 2022-04-29 | 2022-08-12 | 中航华东光电(上海)有限公司 | 一种基于bert-crf词向量模型的空管指令复诵检验方法 |
CN115292447A (zh) * | 2022-07-14 | 2022-11-04 | 昆明理工大学 | 融合主题与实体知识的新闻匹配方法 |
CN115408494A (zh) * | 2022-07-25 | 2022-11-29 | 中国科学院深圳先进技术研究院 | 一种融合多头注意力对齐的文本匹配方法 |
CN115374778A (zh) * | 2022-08-08 | 2022-11-22 | 北京工商大学 | 一种基于深度学习的化妆品舆情文本实体关系抽取方法 |
CN115687939A (zh) * | 2022-09-02 | 2023-02-03 | 重庆大学 | 一种基于多任务学习的Mask文本匹配方法及介质 |
CN115630632A (zh) * | 2022-09-29 | 2023-01-20 | 北京蜜度信息技术有限公司 | 基于上下文语义的特定领域人名纠错方法、***、介质及终端 |
CN115470871A (zh) * | 2022-11-02 | 2022-12-13 | 江苏鸿程大数据技术与应用研究院有限公司 | 基于命名实体识别与关系抽取模型的政策匹配方法及*** |
CN115712713A (zh) * | 2022-11-23 | 2023-02-24 | 桂林电子科技大学 | 一种文本匹配方法、装置、***以及存储介质 |
CN115759104A (zh) * | 2023-01-09 | 2023-03-07 | 山东大学 | 基于实体识别的金融领域舆情分析方法与*** |
CN116304745A (zh) * | 2023-03-27 | 2023-06-23 | 济南大学 | 基于深层次语义信息的文本话题匹配方法及*** |
Non-Patent Citations (4)
Title |
---|
A Graph-based Text Similarity Measure That Employs Named Entity Information;Leonidas Tsekouras 等;《Proceedings of Recent Advances in Natural Language Processing》;第765-771页 * |
基于BERT-BiLSTM-CRF模型的中文实体识别;谢腾;杨俊安;刘辉;;计算机***应用;20200715(第07期);第52-59页 * |
基于BERTCA的新闻实体与正文语义相关度计算模型;向军毅 等;《第十九届中国计算语言学大会论文集》;第288-300页 * |
基于BERT模型的司法文书实体识别方法;陈剑;何涛;闻英友;马林涛;;东北大学学报(自然科学版);20201015(第10期);第16-21页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116522165A (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992782B (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
CN112115238B (zh) | 一种基于bert和知识库的问答方法和*** | |
CN107798140B (zh) | 一种对话***构建方法、语义受控应答方法及装置 | |
CN114064918B (zh) | 一种多模态事件知识图谱构建方法 | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理***及方法 | |
CN110737758A (zh) | 用于生成模型的方法和装置 | |
CN110929030A (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN110765775A (zh) | 一种融合语义和标签差异的命名实体识别领域自适应的方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN111274804A (zh) | 基于命名实体识别的案件信息提取方法 | |
CN111368542A (zh) | 一种基于递归神经网络的文本语言关联抽取方法和*** | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配***及方法 | |
CN114648016A (zh) | 一种基于事件要素交互与标签语义增强的事件论元抽取方法 | |
CN117171333A (zh) | 一种电力文件问答式智能检索方法及*** | |
CN111222329B (zh) | 句向量训练方法及模型、句向量预测方法及*** | |
CN112818698A (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN115906816A (zh) | 一种基于Bert的双通道Attention模型的文本情感分析方法 | |
CN115858750A (zh) | 基于自然语言处理的电网技术标准智能问答方法及*** | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及*** | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN114357166B (zh) | 一种基于深度学习的文本分类方法 | |
CN115759102A (zh) | 一种中国诗酒文化命名实体识别方法 | |
CN115081445A (zh) | 一种基于多任务学习的短文本实体消歧方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A Public Opinion Text Matching System and Method Based on Twin Structure Granted publication date: 20240402 Pledgee: Guanggu Branch of Wuhan Rural Commercial Bank Co.,Ltd. Pledgor: Wuhan AGCO Software Technology Co.,Ltd. Registration number: Y2024980019034 |