CN110413783A - 一种基于注意力机制的司法文本分类方法及*** - Google Patents
一种基于注意力机制的司法文本分类方法及*** Download PDFInfo
- Publication number
- CN110413783A CN110413783A CN201910666514.3A CN201910666514A CN110413783A CN 110413783 A CN110413783 A CN 110413783A CN 201910666514 A CN201910666514 A CN 201910666514A CN 110413783 A CN110413783 A CN 110413783A
- Authority
- CN
- China
- Prior art keywords
- vector
- judicial
- answer
- data
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于注意力机制的司法文本分类方法及***,本发明主要包括数据预处理操作,数据向量化处理,利用自注意力机制进行自我学习,利用协同注意力机制明确问题的意图,利用lstm训练文本分类模型。本发明采用多头自注意力机制,扩展模型关注不同位置的能力,解决多主题和中文文本深层语义表达不够全面的问题,使得中文文本所表示的语义信息更加准确和丰富;同时节约了时间成本。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于注意力机制的司法文本分类方法及***。
背景技术
搜索引擎技术是近些年来互联网发展中出现的一项新技术,其应用的目的是帮助互联网用户在浩如烟海的信息中快速地找到并显示其所需信息。随着网络信息的飞速增长,搜索引擎已成为现代人上网获取信息的必备工具。法律检索是一个复杂、***、繁琐的工程或任务,如何从千万裁判文书中找到所想的内容,需要精细的安排与设计。法律搜索引擎可以帮助用户在海量司法库中快速地找到并显示其所需信息。例如中国裁判文书网内的裁判文书多达数千万件,每日新增数万件,民事案由达400多类,如何通过语义的理解对用户的输入进行意图识别,从而准确的找到用户所需信息,提高用户查询效率,是一项值得探讨的工作。搜索引擎意图识别存在以下难点:1、用户输入不规范,输入方式多样化,使用自然语言查询,甚至非标准的自然语言;2、用户的查询词表现出多意图;3、用户查询涉及主次意图。意图识别本质上是一个分类问题,司法文本类型细分种类繁多,文本分类技术可以识别出用户想要查询的司法文本类型,再通过搜索引擎中的倒排索引等排序技术返回用户想要的结果。用户输入文本存在模糊性、多意图性和不规范性等特点。用户输入文本的这些特点使文本分类面临以下难点:1、文本模糊性,用户输入的文本主要以短文本为主,缺少词语间潜在的语义关联关系,无法确认多义词;2、文本不规范性,用户输入不规范,输入方式多样化使文本中出现不规则特征词和分词词典无法识别的未登录词;3、文本多意图性,用户输入文本涉及多意图查询,传统的文本分类理解不了用户查询意图的主次,增加了分类的难度。
随着短文本数据的大量产生,人们针对短文本的分类技术做了大量探索和实践。专利申请号CN 201710686945.7提出了一种组合类降维算法和加权欠采样SVM算法相结合的短文本分类方法,解决了文本分类中高纬度稀疏性和类别不平衡的问题,但在多分类准确度上效果不佳。专利申请号CN201510271672.0公开了一种基于卷积神经网络的短文本分类方法,通过预训练的词表示向量对短文本进行语义扩展,利用卷积神经网络提取定长的语义特征向量,使其语义特征向量化表示得到进一步增强,并最终使其分类任务的性能得以改善。但该方法在垂直领域,很难根据外部辅助数据对语料进行扩充。
发明内容
本发明为克服上述的不足之处,目的在于提供一种基于注意力机制的司法文本分类方法及***,本发明主要包括数据预处理操作,数据向量化处理,利用自注意力机制进行自我学习,利用协同注意力机制明确问题的意图,利用lstm训练文本分类模型。本发明采用多头自注意力机制,扩展模型关注不同位置的能力,解决多主题和中文文本深层语义表达不够全面的问题,使得中文文本所表示的语义信息更加准确和丰富;同时节约了时间成本。
本发明是通过以下技术方案达到上述目的:一种基于注意力机制的司法文本分类方法,包括如下步骤:
(1)对收集得到的司法文本数据进行数据预处理,对预处理后的数据进行整理构建得到词汇表,并进行数据向量化;
(2)基于步骤(1)的结果,利用自注意力机制进行自我学习,得到自我关注向量,其中所述的自我关注向量包括问题文本的自我关注向量和答案文本的自我关注向量;
(3)利用co-attention协同注意力机制明确问题的意图,其中包括获取问题—答案视图、从不同的视角理解问题及输出问题向量;
(4)利用lstm神经网络对文本分类模型进行训练,基于训练得到的文本分类模型实现司法文本的快速分类。
作为优选,所述步骤(1)具体如下:
(1.1)收集司法文本数据:收集司法相关问答数据,其中问题作为训练数据,答案作为辅助数据,根据专家经验将司法问答数据打上类别标签,类别标签与司法案由一致;
(1.2)司法文本数据预处理:将收集的司法问答数据进行分词处理,同时去除停用词,得到词级与字符级共存的司法问题数据Eq和答案数据Ea;
(1.3)司法文本构建词汇表:将司法数据Eq和Ea中的字与词整理成集合作为数据中所用的词汇表C={unk:0,eos:1,…,c:vocab_size},其中,unk为未知词,eos为结束标识,vocab_size为词汇表大小,c为司法数据Eq和Ea中的词或字;
(1.4)文本嵌入:根据输出词汇表C构造司法文本矩阵,并用向量表示。
作为优选,所述步骤(1.4)具体包括:假设一个司法问答数据预处理后,问题为其中Lq为问题固定的句长度,答案为其中La为答案固定的句长度,则根据输出的词汇表C构造司法文本矩阵,问题矩阵为答案矩阵为并利用WordEmbedding矩阵给每个字符分配一个固定长度为l的向量表示,得到问题向量答案向量
作为优选,所述步骤(2)具体如下:
(2.1)添加词位置标识:根据步骤(1)输出的问题向量分别给每个词的位置赋予一个位置向量,通过结合位置向量和问题向量,使每个词引入一定的位置信息,得到带位置信息的问题向量同理得到带位置信息的答案向量
(2.2)创建三个c,k,v矢量:初始化三个变量Wc,Wk,Wv∈Rl×l,分别与问题向量进行点乘:
(2.3)计算自注意力:计算问题文本中第一个词的自我关注,第一个得分score=c1·k1,第二个得分score=c1·k2,以此类推第Lq个得分将使梯度保持稳定,其中bk为k的维度;
(2.4)Key Masking:对k进行求和为key_mask,记录key_mask为0时的索引,根据步骤(2.3)输出的score在相同索引处替换为小数字,保持关注的词或字的值不变并淹没不相关的词或字;
(2.5)输出自我关注向量:通过softmax将步骤(2.4)输出的分数标准化,softmax分数即此词在该位置表达的程度,由softmax分数乘以v为z1(即第一个词的编码向量),以此类推问题文本的自我关注向量同理得答案文本的自我关注向量
作为优选,所述步骤(2)还包括:
(2.6)采用多头自注意力机制,将步骤(2.1)输出的Qp和Ap输入到步骤(2.2)、步骤(2.3)、步骤(2.4)和步骤(2.5)中重复多次,经过测试,重复8次效果最佳,得到
初始化权重WO∈R(l×8)×l,分别乘以Q'attention和A'attention对多头自注意力向量进行压缩,输出问题文本的自我关注向量和答案文本的自我关注向量扩展模型关注不同位置的能力。
作为优选,所述步骤(3)具体包括:
(3.1)获取问题-答案视图:将步骤(2)输出的问题文本的自我关注向量与答案文本的自我关注向量相乘,得到问题-答案矩阵Q·A;
(3.2)从不同的视角理解问题及输出问题向量:将步骤(3.1)输出的问题-答案矩阵Q·A对行进行max-pooling或mean-pooling或alignment-based pooling操作,得到问题向量表示
作为优选,所述的max-pooling是基于单词对另一文本序列的最大贡献来提取特征;mean-pooling是计算其对整个句子的贡献;alignment-based pooling是另一种协同注意力机制,它将语义相似的子短语对齐在一起;因此,可以选择任意一种、任意两种的组合或者三种组合,不同的pooling操作提供了不同的问题视角。
作为优选,若选择任意两种的组合或者三种组合,最后将不同视角下的问题向量结果拼接,即可得到多视角问题向量。
作为优选,所述步骤(4)具体如下:
(4.1)学习序列依赖表示:使用标准的LSTM在Qpool和Qattention之间共享权重,得到新的问题向量表示和其中Llstm为隐含层维度;
(4.2)优化问题的自我学***均损失加速梯度下降,即利用协同注意力得到的高质量表示来加速自我学习能力,得到预训练模型MQ·A;
(4.3)用户意图识别:保留预训练模型MQ·A的自注意力层和lstm层,舍弃协同注意力层得到新的模型MQ,将用户输入的文本进行预处理操作并输入到模型MQ中预测分类,识别出用户意图,实现文本的分类。
一种基于注意力机制的司法文本分类***,包括:数据采集模块、特征提取模块、特征微调模块、网络训练模块;所述的数据采集模块用于采集司法领域的问答数据,并对采集得到的问题与答案进行数据清洗、分词与去停用词预处理操作,形成答案数据集和问题数据集;特征提取模块,采用自注意力机制提取问题数据特征和答案数据特征;特征微调模块采用协同注意力机制根据答案特征对问题特征进行微调,更新问题特征;网络训练模块采用lstm长短记忆网络进行分类训练,获得最终的分类模型。
本发明的有益效果在于:(1)本发明采用字向量与词向量共存的方法,同时保留了字与词的特征信息,从而能够获得更全面的文本特征;(2)本发明采用自注意力机制(self-attention)和协同注意力机制(co-attention),提供了不同的视角去审视用户的输入文本,消除词级上存在的一词多义问题,用以学习高质量的向量表示,同时节约了时间成本;(3)本发明采用多头自注意力机制,扩展模型关注不同位置的能力,解决多主题和中文文本深层语义表达不够全面的问题,使得中文文本所表示的语义信息更加准确和丰富。
附图说明
图1是本发明的方法流程示意图;
图2是本发明的协同注意力结构示意图;
图3是本发明的意图识别流程示意图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:
实施例:一种基于注意力机制的司法文本分类***,包括数据采集模块、特征提取模块、特征微调模块、网络训练模块;所述的数据采集模块用于采集司法领域的问答数据,并对采集得到的问题与答案进行数据清洗、分词与去停用词预处理操作,形成答案数据集和问题数据集;特征提取模块,采用自注意力机制提取问题数据特征和答案数据特征;特征微调模块采用协同注意力机制根据答案特征对问题特征进行微调,更新问题特征;网络训练模块采用lstm长短记忆网络进行分类训练,获得最终的分类模型。
如图1所示,一种基于注意力机制的司法文本分类方法,包括如下步骤:
(1)司法文本数据预处理:
(1.1)收集司法文本数据:收集司法相关问答数据共计10万,其中问题作为训练数据,答案作为辅助数据,根据专家经验将司法问答数据打上类别标签与司法案由的类别一致,司法案由根据国家法律法规确定,如《民事案由规定》等。
(1.2)司法文本数据预处理:将收集的司法问答数据进行分词处理(保留单字),同时去停用词(数字、日期、标点符号等干扰信息)得到词级与字符级共存的司法问题数据Eq和答案数据Ea。
(1.3)司法文本构建词汇表:将步骤1.2输出的司法数据Eq和Ea中的字与词整理成集合,给每个词或者字赋予一个id作为数据中所用的词汇表C={unk:0,eos:1,受伤:2,…,酒驾:vocab_size},其中unk为未知词,eos为结束标识,vocab_size=10000为词汇表大小。
(1.4)文本嵌入(数据向量化):根据步骤1.3输出的词汇表C,假设一个司法问答数据预处理后,问题为其中Lq=50为问题固定的句长度,答案(answer)为其中La=200为答案固定的句长度,则根据步骤1.3输出的词汇表C构造司法文本矩阵,问题矩阵为答案矩阵为利用WordEmbedding矩阵给每个字符分配一个固定长度为l=200的向量表示,得到问题向量答案向量
(2)利用自注意力机制进行自我学习:
(2.1)添加词位置标识:根据步骤1.4输出的问题向量,分别给每个词的位置赋予一个位置向量,通过结合位置向量和问题向量,使每个词引入一定的位置信息,得到带位置信息的问题向量同理得带位置信息的答案向量
(2.2)创建三个c,k,v矢量:初始化三个变量Wc,Wk,Wv∈Rl×l,分别与问题向量进行点乘:
(2.3)计算自注意力:首先计算问题文本中第一个词的自我关注,第一个得分score=c1·k1,第二个得分score=c1·k2,以此类推第Lq个得分将(其中bk为k的维度)使梯度保持稳定;
(2.4)Key Masking:对k进行求和为key_mask,记录key_mask为0时的索引,根据步骤2.3输出的score在相同索引处替换为小数字,保持关注的词或字的值不变并淹没不相关的词或字;
(2.5)输出自我关注向量:通过softmax将步骤2.4输出的分数标准化,softmax分数即此词在该位置表达的程度,由softmax分数乘以v为z1(即第一个词的编码向量),以此类推问题文本的自我关注向量同理得答案文本的自我关注向量(其中答案和问题的权重Wc,Wk,Wv共享)。
(2.6)本实施例采用多头自注意力机制,根据步骤2.1输出的Qp和Ap输入到步骤2.2、步骤2.3、步骤2.4和步骤2.5中重复多次,经过测试,重复8次效果最佳,得到
初始化权重WO∈R(l×8)×l,分别乘以Q'attention和A'attention对多头自注意力向量进行压缩,输出和扩展模型关注不同位置的能力,解决多主题和中文文本深层语义表达不够全面的问题,使得中文文本所表示的语义信息更加准确和丰富。
(3)co-attention协同注意力机制明确问题的意图;其中,协同注意力结构如图2所示:
(3.1)获取问题-答案视图:将步骤2输出的问题的多头自我关注向量与答案的自我关注向量相乘,得到问题-答案矩阵Q·A;
(3.2)从不同的视角理解问题:将步骤3.1输出的问题-答案矩阵Q·A分别对行进行max-pooling,mean-pooling和alignment-based pooling操作,分别得到问题表示
则
其中max-pooling是基于单词对另一文本序列的最大贡献来提取特征;mean-pooling是计算其对整个句子的贡献;alignment-basedpooling是另一种协同注意力机制,它将语义相似的子短语对齐在一起。因此,可以选择任意一种、任意两种的组合或者三种组合,不同的pooling操作提供了不同的问题视角。
(3.3)输出问题向量:若选择前述任意一种pooling操作,直接得到对应的问题向量表示;若选择任意两种的组合或者三种组合,最后将不同视角下的问题向量结果拼接,即可得到多视角问题向量。本实施例通过max-pooling,mean-pooling和alignment-basedpooling操作获取不同视角的问题向量,经过测试将步骤3.2输出的Qmax、Qmean、Qalignment进行拼接得到多视角问题向量可以学习到高质量的向量表示,同时节约了时间成本。
(4)利用lstm训练文本分类模型:
(4.1)学习序列依赖表示:使用标准的LSTM在Qpool和Q”attention之间共享权重,得到新的问题向量表示和其中Llstm=1200为隐含层维度。关键思想是LSTM编码器通过使用非线性变换作为门控函数来学习表示序列依赖性的表示。因此,在该层之前注意力作为特征的关键思想是它为LSTM编码器提供了带有信息的提示,例如长期和全局句子知识和句子对(问题和答案)之间的知识。
(4.2)优化问题的自我学***均损失加速梯度下降,即利用协同注意力得到的高质量表示来加速自我学习能力,得到预训练模型MQ·A;
(4.3)用户意图识别:如图3所示,保留预训练模型的自注意力层和lstm层,舍弃协同注意力层得到新的模型MQ,根据步骤4.2输出的预训练模型MQ·A,加载模型的自我关注层,lstm层权重,将用户输入的文本进行预处理操作,输入到模型MQ中预测分类,识别出用户意图,实现文本的分类。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。
Claims (10)
1.一种基于注意力机制的司法文本分类方法,其特征在于,包括如下步骤:
(1)对收集得到的司法文本数据进行数据预处理,对预处理后的数据进行整理构建得到词汇表,并进行数据向量化;
(2)基于步骤(1)的结果,利用自注意力机制进行自我学习,得到自我关注向量,其中所述的自我关注向量包括问题文本的自我关注向量和答案文本的自我关注向量;
(3)利用co-attention协同注意力机制明确问题的意图,其中包括获取问题—答案视图、从不同的视角理解问题及输出问题向量;
(4)利用lstm神经网络对文本分类模型进行训练,基于训练得到的文本分类模型实现司法文本的快速分类。
2.根据权利要求1所述的一种基于注意力机制的司法文本分类方法,其特征在于:所述步骤(1)具体如下:
(1.1)收集司法文本数据:收集司法相关问答数据,其中问题作为训练数据,答案作为辅助数据,根据专家经验将司法问答数据打上类别标签,类别标签与司法案由一致;
(1.2)司法文本数据预处理:将收集的司法问答数据进行分词处理,同时去除停用词,得到词级与字符级共存的司法问题数据Eq和答案数据Ea;
(1.3)司法文本构建词汇表:将司法数据Eq和Ea中的字与词整理成集合作为数据中所用的词汇表C={unk:0,eos:1,…,c:vocab_size},其中,unk为未知词,eos为结束标识,vocab_size为词汇表大小,c为司法数据Eq和Ea中的词或字;
(1.4)文本嵌入:根据输出词汇表C构造司法文本矩阵,并用向量表示。
3.根据权利要求2所述的一种基于注意力机制的司法文本分类方法,其特征在于:所述步骤(1.4)具体包括:假设一个司法问答数据预处理后,问题为其中Lq为问题固定的句长度,答案为其中La为答案固定的句长度,则根据输出的词汇表C构造司法文本矩阵,问题矩阵为答案矩阵为并利用WordEmbedding矩阵给每个字符分配一个固定长度为l的向量表示,得到问题向量答案向量
4.根据权利要求1所述的一种基于注意力机制的司法文本分类方法,其特征在于:所述步骤(2)具体如下:
(2.1)添加词位置标识:根据步骤(1)输出的问题向量分别给每个词的位置赋予一个位置向量,通过结合位置向量和问题向量,使每个词引入一定的位置信息,得到带位置信息的问题向量同理得到带位置信息的答案向量
(2.2)创建三个c,k,v矢量:初始化三个变量Wc,Wk,Wv∈Rl×l,分别与问题向量进行点乘:
(2.3)计算自注意力:计算问题文本中第一个词的自我关注,第一个得分score=c1·k1,第二个得分score=c1·k2,以此类推第Lq个得分将使梯度保持稳定,其中bk为k的维度;
(2.4)Key Masking:对k进行求和为key_mask,记录key_mask为0时的索引,根据步骤(2.3)输出的score在相同索引处替换为小数字,保持关注的词或字的值不变并淹没不相关的词或字;
(2.5)输出自我关注向量:通过softmax将步骤(2.4)输出的分数标准化,softmax分数即此词在该位置表达的程度,由softmax分数乘以v为z1(即第一个词的编码向量),以此类推问题文本的自我关注向量同理得答案文本的自我关注向量
5.根据权利要求1所述的一种基于注意力机制的司法文本分类方法,其特征在于:所述步骤(2)还包括:
(2.6)采用多头自注意力机制,将步骤(2.1)输出的Qp和Ap依次输入到步骤(2.2)、步骤(2.3)、步骤(2.4)和步骤(2.5)中并重复多次,重复次数优选为8次,得到
初始化权重WO∈R(l×8)×l,分别乘以Q'attention和A'attention对多头自注意力向量进行压缩,输出问题文本的自我关注向量和答案文本的自我关注向量扩展模型关注不同位置的能力。
6.根据权利要求1所述的一种基于注意力机制的司法文本分类方法,其特征在于:所述步骤(3)具体包括:
(3.1)获取问题-答案视图:将步骤(2)输出的问题文本的自我关注向量与答案文本的自我关注向量相乘,得到问题-答案矩阵Q·A;
(3.2)从不同的视角理解问题及输出问题向量:将步骤(3.1)输出的问题-答案矩阵Q·A对行进行max-pooling或mean-pooling或alignment-based pooling操作,得到问题向量表示
7.根据权利要求6所述的一种基于注意力机制的司法文本分类方法,其特征在于:所述的max-pooling是基于单词对另一文本序列的最大贡献来提取特征;mean-pooling是计算其对整个句子的贡献;
alignment-based pooling是另一种协同注意力机制,它将语义相似的子短语对齐在一起;因此,可以选择任意一种、任意两种的组合或者三种组合,不同的pooling操作提供了不同的问题视角。
8.根据权利要求7所述的一种基于注意力机制的司法文本分类方法,其特征在于:若选择任意两种的组合或者三种组合,最后将不同视角下的问题向量结果拼接,即可得到多视角问题向量。
9.根据权利要求1所述的一种基于注意力机制的司法文本分类方法,其特征在于:所述步骤(4)具体如下:
(4.1)学习序列依赖表示:使用标准的LSTM在Qpool和Qattention之间共享权重,得到新的问题向量表示和其中Llstm为隐含层维度;
(4.2)优化问题的自我学***均损失加速梯度下降,即利用协同注意力得到的高质量表示来加速自我学习能力,得到预训练模型MQ·A;
(4.3)用户意图识别:保留预训练模型MQ·A的自注意力层和lstm层,舍弃协同注意力层得到新的模型MQ,将用户输入的文本进行预处理操作并输入到模型MQ中预测分类,识别出用户意图,实现文本的分类。
10.一种基于注意力机制的司法文本分类***,其特征在于,包括:数据采集模块、特征提取模块、特征微调模块、网络训练模块;所述的数据采集模块用于采集司法领域的问答数据,并对采集得到的问题与答案进行数据清洗、分词与去停用词预处理操作,形成答案数据集和问题数据集;特征提取模块,采用自注意力机制提取问题数据特征和答案数据特征;特征微调模块采用协同注意力机制根据答案特征对问题特征进行微调,更新问题特征;网络训练模块采用lstm长短记忆网络进行分类训练,获得最终的分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910666514.3A CN110413783B (zh) | 2019-07-23 | 2019-07-23 | 一种基于注意力机制的司法文本分类方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910666514.3A CN110413783B (zh) | 2019-07-23 | 2019-07-23 | 一种基于注意力机制的司法文本分类方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110413783A true CN110413783A (zh) | 2019-11-05 |
CN110413783B CN110413783B (zh) | 2021-12-03 |
Family
ID=68362695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910666514.3A Active CN110413783B (zh) | 2019-07-23 | 2019-07-23 | 一种基于注意力机制的司法文本分类方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413783B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956044A (zh) * | 2019-12-02 | 2020-04-03 | 北明软件有限公司 | 一种基于注意力机制的司法场景用文案输入识别分类方法 |
CN111125334A (zh) * | 2019-12-20 | 2020-05-08 | 神思电子技术股份有限公司 | 一种基于预训练的搜索问答*** |
CN111507102A (zh) * | 2020-03-09 | 2020-08-07 | 杭州电子科技大学 | 基于局部自注意力机制和分割树的多准则中文分词方法 |
CN111552807A (zh) * | 2020-04-17 | 2020-08-18 | 银江股份有限公司 | 一种短文本多标签分类方法 |
CN112199472A (zh) * | 2020-10-12 | 2021-01-08 | 山东山大鸥玛软件股份有限公司 | 一种基于迁移学习的主观题智能评卷方法、***及设备 |
CN112784047A (zh) * | 2021-01-25 | 2021-05-11 | 重庆邮电大学 | 一种基于自注意力机制的可控可解释司法文本分类方法 |
CN112925908A (zh) * | 2021-02-19 | 2021-06-08 | 东北林业大学 | 一种基于Attention的图注意力网络的文本分类方法及*** |
CN113239190A (zh) * | 2021-04-27 | 2021-08-10 | 天九共享网络科技集团有限公司 | 文档分类方法、装置、存储介质及电子设备 |
CN113761928A (zh) * | 2021-09-09 | 2021-12-07 | 深圳市大数据研究院 | 一种基于词频打分算法获取法律文书案件地点的方法 |
CN116452073A (zh) * | 2023-06-19 | 2023-07-18 | 中电投工程研究检测评定中心有限公司 | 一种工程质量司法鉴定原因力智能诊断方法及*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000322438A (ja) * | 1999-05-13 | 2000-11-24 | Nippon Telegr & Teleph Corp <Ntt> | サイバー図鑑データ分類方法及びこの方法を記録した記録媒体 |
CN109189894A (zh) * | 2018-09-20 | 2019-01-11 | 科大讯飞股份有限公司 | 一种答案抽取方法及装置 |
CN109766427A (zh) * | 2019-01-15 | 2019-05-17 | 重庆邮电大学 | 一种基于堆叠Bi-LSTM网络和协同注意力的虚拟学习环境智能问答方法 |
-
2019
- 2019-07-23 CN CN201910666514.3A patent/CN110413783B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000322438A (ja) * | 1999-05-13 | 2000-11-24 | Nippon Telegr & Teleph Corp <Ntt> | サイバー図鑑データ分類方法及びこの方法を記録した記録媒体 |
CN109189894A (zh) * | 2018-09-20 | 2019-01-11 | 科大讯飞股份有限公司 | 一种答案抽取方法及装置 |
CN109766427A (zh) * | 2019-01-15 | 2019-05-17 | 重庆邮电大学 | 一种基于堆叠Bi-LSTM网络和协同注意力的虚拟学习环境智能问答方法 |
Non-Patent Citations (2)
Title |
---|
YI TAY等: "Multi-Cast Attention Networks for Retrieval-based Question Answering and Response Prediction", 《ARXIV》 * |
韩萍: "基于情感融合和多维自注意力机制的微博文本情感分析", 《计算机应用》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956044A (zh) * | 2019-12-02 | 2020-04-03 | 北明软件有限公司 | 一种基于注意力机制的司法场景用文案输入识别分类方法 |
CN111125334A (zh) * | 2019-12-20 | 2020-05-08 | 神思电子技术股份有限公司 | 一种基于预训练的搜索问答*** |
CN111125334B (zh) * | 2019-12-20 | 2023-09-12 | 神思电子技术股份有限公司 | 一种基于预训练的搜索问答*** |
CN111507102A (zh) * | 2020-03-09 | 2020-08-07 | 杭州电子科技大学 | 基于局部自注意力机制和分割树的多准则中文分词方法 |
CN111552807A (zh) * | 2020-04-17 | 2020-08-18 | 银江股份有限公司 | 一种短文本多标签分类方法 |
CN111552807B (zh) * | 2020-04-17 | 2023-05-30 | 银江技术股份有限公司 | 一种短文本多标签分类方法 |
CN112199472A (zh) * | 2020-10-12 | 2021-01-08 | 山东山大鸥玛软件股份有限公司 | 一种基于迁移学习的主观题智能评卷方法、***及设备 |
CN112784047B (zh) * | 2021-01-25 | 2023-02-28 | 重庆邮电大学 | 一种基于自注意力机制的可控可解释司法文本分类方法 |
CN112784047A (zh) * | 2021-01-25 | 2021-05-11 | 重庆邮电大学 | 一种基于自注意力机制的可控可解释司法文本分类方法 |
CN112925908A (zh) * | 2021-02-19 | 2021-06-08 | 东北林业大学 | 一种基于Attention的图注意力网络的文本分类方法及*** |
CN113239190A (zh) * | 2021-04-27 | 2021-08-10 | 天九共享网络科技集团有限公司 | 文档分类方法、装置、存储介质及电子设备 |
CN113239190B (zh) * | 2021-04-27 | 2024-02-20 | 天九共享网络科技集团有限公司 | 文档分类方法、装置、存储介质及电子设备 |
CN113761928A (zh) * | 2021-09-09 | 2021-12-07 | 深圳市大数据研究院 | 一种基于词频打分算法获取法律文书案件地点的方法 |
CN116452073A (zh) * | 2023-06-19 | 2023-07-18 | 中电投工程研究检测评定中心有限公司 | 一种工程质量司法鉴定原因力智能诊断方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN110413783B (zh) | 2021-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413783A (zh) | 一种基于注意力机制的司法文本分类方法及*** | |
CN106295796B (zh) | 基于深度学习的实体链接方法 | |
US9779085B2 (en) | Multilingual embeddings for natural language processing | |
CN107818164A (zh) | 一种智能问答方法及其*** | |
CN107608999A (zh) | 一种适用于自动问答***的问句分类方法 | |
CN110119765A (zh) | 一种基于Seq2seq框架的关键词提取方法 | |
CN109284506A (zh) | 一种基于注意力卷积神经网络的用户评论情感分析***及方法 | |
CN108595708A (zh) | 一种基于知识图谱的异常信息文本分类方法 | |
CN107273913B (zh) | 一种基于多特征融合的短文本相似度计算方法 | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、***及存储介质 | |
CN107291699A (zh) | 一种句子语义相似度计算方法 | |
CN111460820A (zh) | 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置 | |
CN108073576A (zh) | 智能搜索方法、搜索装置以及搜索引擎*** | |
CN106055675A (zh) | 一种基于卷积神经网络和距离监督的关系抽取方法 | |
CN109002473A (zh) | 一种基于词向量与词性的情感分析方法 | |
CN112231472A (zh) | 融入领域术语词典的司法舆情敏感信息识别方法 | |
CN107656920B (zh) | 一种基于专利的科技人才推荐方法 | |
CN110110087A (zh) | 一种基于二分类器的用于法律文本分类的特征工程方法 | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
Tianxiong et al. | Identifying chinese event factuality with convolutional neural networks | |
CN109446334A (zh) | 一种实现英文文本分类的方法及相关设备 | |
CN112749566B (zh) | 一种面向英文写作辅助的语义匹配方法及装置 | |
Lin et al. | Text classification feature extraction method based on deep learning for unbalanced data sets | |
CN115204140A (zh) | 一种基于注意力机制与知识图谱的法律条文预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province Applicant after: Yinjiang Technology Co.,Ltd. Address before: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province Applicant before: ENJOYOR Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |