CN109753660A - 一种基于lstm的中标网页命名实体抽取方法 - Google Patents
一种基于lstm的中标网页命名实体抽取方法 Download PDFInfo
- Publication number
- CN109753660A CN109753660A CN201910013185.2A CN201910013185A CN109753660A CN 109753660 A CN109753660 A CN 109753660A CN 201910013185 A CN201910013185 A CN 201910013185A CN 109753660 A CN109753660 A CN 109753660A
- Authority
- CN
- China
- Prior art keywords
- bid
- word
- acceptance
- lstm
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及一种中标数据的命名实体识别方法,包括如下步骤:对中标网页的文本数据进行清洗,得到中标文本;利用Lattice‑LSTM作为编码层得到文本数据的语义信息特征;利用LSTM作为解码层对每个字进行实体标注,标记出语句序列中的实体信息;进行规则的校正和格式化处理;最后输出识别出的中标网页的命名实体。本发明基于Lattice‑LSTM‑LSTM模型,能够高效的识别招标网站的中标项目详情页面中的命名实体。
Description
技术领域
本发明涉及命名实体识别技术领域,具体涉及一种基于LSTM的中标网页 命名实体抽取方法。
背景技术
命名实体识别是自然语言处理的一个基础任务。其目的是识别语料中人名、 地名、组织机构名等命名实体。由于这些命名实体数量不断增加,通常不可能在 词典中穷尽列出,且其构成方法具有各自的一些规律性,因而,通常把对这些词 的识别从词汇形态处理(如汉语切分)任务中独立处理,称为命名实体识别。
作为自然语言处理的一个基础任务,命名实体识别的相关研究吸引了越多越 多专家和学者的密切关注,并提出了一些优化算法和模型。有学者提出一种基于 层叠HMM模型的命名实体识别算法,首先对人名和地名进行识别,然后作为特 征进行高层的机构名识别;有学者提出一种基于条件随机场的中文命名实体识别 算法,并得到基于字,边界,词性和实体字典作为特征可以取到很好的效果;有 学者提出一种基于bootstrapping的方法,利用bootstrapping技术扩大种子词表解 决人工标注数据不足的问题;有学者提出一种基于BLSTM的神经网络结构的命 名实体识别算法,该方法不再直接依赖于人工特征和领域知识,而是利用基于上 下文的词向量和基于字的词向量,前者表达命名实体的上下文信息,后者表达构 成命名实体的前缀、后缀和领域信息;有学者提出一种基于BLSTM-CRF模型的命名实体识别算法,对句子进行序列标注时,词之间的label不是独立的,而是 考虑前面词的标签信息进而结合词的信息再标记当前词的tag,CRF取代使用 softmax从该层输出,产生每个单词的最终预测;有学者提出一种基于堆叠式自 编码分类器的深层神经网络模型,解决了从中文文本序列到模型输入向量的转化 问题,提出了便于工程实现的向量化前向-后向传播公式。
目前多数的命名实体识别算法都是对人名,地名,机构名进行识别,没有对 其进行进一步的划分,且对长实体的识别效果不好。
发明内容
有鉴于此,本发明的目的在于提供一种基于LSTM的中标网页命名实体抽 取方法,能快速有效的识别招标网站的中标项目详情页面中的命名实体。
为实现上述目的,本发明采用如下技术方案:
一种基于LSTM的中标网页命名实体抽取方法,具体包括以下步骤:
步骤A:对待抽取中标网页的文本数据进行清洗,得到中标文本;
步骤B:以Lattice-LSTM模型作为编码层,并将中标文本作为编码层的输 入,得到中标文本的语义信息特征;
步骤C:以LSTM模型作为解码层,并将得到的中标文本的语义信息特征作 为解码层的输入,对中标文本中的每个字进行标注;
步骤D:对得到的带标注的中标文本进行规则校正和格式化处理;
步骤E:输出识别的命名实体。
进一步的,所述步骤B具体为:
步骤B1:将中标文本中的字转化为字向量;
其中,对于中标文本中的第j个字cj,转化为字向量计算公式如下:
其中,ec表示字符向量映射表。
步骤B2:将中标文本中的词转换为词向量;
步骤B3:将词向量输入Lattice-LSTM模型,利用Lattice-LSTM模型得到中 标文本的语义信息特征。
进一步的,所述步骤B2具体为:
步骤B21:根据大规模语料库利用Tire树构造词表D;
步骤B22:初始化一个空的中标文本的匹配词集合P;
步骤B23:将中标文本的第一个字作为当前字开始遍历,执行步骤B24;
步骤B24:将词表D中匹配以当前字为词首字的词加入到集合P中;
其中,b表示词的第一个字在句中的位置,e表示词的最后一个字在句中的 位置;
步骤B25:将当前字的下一个字符作为当前字,迭代执行步骤B24,直到中 标文本的最后一个字符结束;
步骤B26:遍历结束后将集合P中的转换为词向量计算公式如下所 示:
其中,ew为词向量映射表。
进一步的,所述步骤B3具体如下:
对于文本中的每个句子,依次输入步骤B1得到的字向量序列和步骤B2得到的词向量序列到Lattice-LSTM模型中,输出每个字 在上下文的语义信息的向量表示序列,具体计算公式如下所示:
是句中的第j个字的字向量,是句中以第j个字为结尾的词的词向量,为j时刻的输出;为词语级LSTM的权重矩阵, 为词语级LSTM的偏置项;是词语级LSTM在j时刻的遗忘门;是 词语级LSTM在j时刻的输入门;是词语级LSTM在j时刻的候选记忆向量; 是词语级LSTM在j时刻的记忆向量;为字符级LSTM的权重矩阵,为字符级LSTM的偏置项;是字 符级LSTM在j时刻的输入门;是词语级LSTM在j时刻的候选记忆向量;是词语级LSTM在j时刻的记忆向量;是词语级LSTM在j时刻的输出门; 是计算时的权重。
进一步的,所述步骤C具体为:
步骤C1:针对中标网页的命名实体识别任务,将数据中的字分为两类;
其中,第一类代表与实体无关的字,用标签“O”来表示;第二类代表与实 体相关的字,这一类字的标签由三部分组成:
步骤C2:将步骤B得到的可以表示文本的语义信息的隐藏状态信息输入 到解码层的LSTM模型中,计算每个字符在上下文字符的影响下的输出状态, 具体计算公式如下所示:
其中为标签向量;
步骤C3:将标签向量输入到Softmax分类器中,对其进行归一化操作,计 算文本中每个字被标记为各类标签的概率,具体公式如下所示:
其中Wy为权重矩阵,by为偏置项,Nt为标签的种类数;
步骤C4:以对数似然函数为损失函数,通过随机梯度下降优化方法,利用 反向传播迭代更新模型参数,以最小化损失函数来训练模型,具体计算公式如下 所示:
其中,D表示训练集的大小,Lj是句子x的长度,是字符t在句子xj的标 签,是归一化后的概率,Θ代表模型参数,I(O)是一个选择函数,以区分标 签‘O’的损失与可指示实体的标签的损失,具体计算公式如下所示:
进一步的,所述命名实体包括招标机构、中标机构、招标机构所处地区、中 标金额、招标机构联系人、招标项目名称,中标时间。
进一步的,所述步骤D具体为:
步骤D1:对步骤C得到的带标注数据进行规则的校正处理;
步骤D2:将校正处理后的数据进行格式化处理。
进一步的,所述步骤D1具体为:
步骤D11:对于中标金额,采用正则表达式的方式判断实体是否存在***数 字或中文大写数字,如果不存在则认为不是中标金额并舍弃。
步骤D12:对于中标时间,判断不是日期组成方式的进行舍弃。
步骤D13:对于项目名称,由于项目名称实体的字符串长度通常较长,基本 不会出现只有两三个字组成的情况,因此舍弃识别到的项目名称的字符串长度小 于4的实体。
步骤D14:对于一条中标数据同一种类别出现多次时只保留字符串长度最长 的命名实体。
进一步的,所述步骤D2中,对命名实体进行格式化处理,具体包括以下步 骤:
步骤D21:对于中标金额,判断实体是否包含单位“百”,“佰”,“千”,“仟”, “万”,“萬”,“亿”,“億”,“美元”,“日元”,如果包含则进行单位换算;
步骤D22:对于中标时间,以日期格式YYYY-MM-DD的形式进行转换。
本发明与现有技术相比具有以下有益效果:
本发明基于Lattice-LSTM-LSTM模型,能够高效的识别招标网站的中标 项目详情页面中的命名实体,且能很好对长实体的识别。
附图说明
图1是本发明方法流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于LSTM的中标网页命名实体抽取方法,具 体包括以下步骤:
步骤A:对待抽取中标网页的文本数据进行清洗,得到中标文本;
步骤B:以Lattice-LSTM模型作为编码层,并将中标文本作为编码层的输 入,得到中标文本的语义信息特征;
步骤B1:将中标文本中的字转化为字向量;
其中,对于中标文本中的第j个字cj,转化为字向量计算公式如下:
其中,ec表示字符向量映射表。
步骤B2:将中标文本中的词转换为词向量;
步骤B21:根据大规模语料库利用Tire树构造词表D;
步骤B22:初始化一个空的中标文本的匹配词集合P;
步骤B23:将中标文本的第一个字作为当前字开始遍历,执行步骤B24;
步骤B24:将词表D中匹配以当前字为词首字的词加入到集合P中;
其中,b表示词的第一个字在句中的位置,e表示词的最后一个字在句中的 位置;
步骤B25:将当前字的下一个字符作为当前字,迭代执行步骤B24,直到中 标文本的最后一个字符结束;
步骤B26:遍历结束后将集合P中的转换为词向量计算公式如下所 示:
其中,ew为词向量映射表。
步骤B3:将词向量输入Lattice-LSTM模型,利用Lattice-LSTM模型得到中 标文本的语义信息特征。
对于文本中的每个句子,依次输入步骤B1得到的字向量序列和步骤B2得到的词向量序列到Lattice-LSTM模型中,输出每个字 在上下文的语义信息的向量表示序列,具体计算公式如下所示:
是句中的第j个字的字向量,是句中以第j个字为结尾的词的词向量, 为j时刻的输出;为词语级LSTM的权重矩阵, 为词语级LSTM的偏置项;是词语级LSTM在j时刻的遗忘门;是词语级LSTM在j时刻的输入门;是词语级LSTM在j时刻的候选记忆向量; 是词语级LSTM在j时刻的记忆向量;为字符级LSTM的权重矩阵,为字符级LSTM的偏置项;是字 符级LSTM在j时刻的输入门;是词语级LSTM在j时刻的候选记忆向量;是词语级LSTM在j时刻的记忆向量;是词语级LSTM在j时刻的输出门; 是计算时的权重。
步骤C:以LSTM模型作为解码层,并将得到的中标文本的语义信息特征作 为解码层的输入,对中标文本中的每个字进行标注;
步骤C1:针对中标网页的命名实体识别任务,将数据中的字分为两类;
其中,第一类代表与实体无关的字,用标签“O”来表示;第二类代表与实 体相关的字,这一类字的标签由三部分组成:
步骤C2:将步骤B得到的可以表示文本的语义信息的隐藏状态信息输入 到解码层的LSTM模型中,计算每个字符在上下文字符的影响下的输出状态, 具体计算公式如下所示:
其中为标签向量;
步骤C3:将标签向量输入到Softmax分类器中,对其进行归一化操作,计 算文本中每个字被标记为各类标签的概率,具体公式如下所示:
其中Wy为权重矩阵,by为偏置项,Nt为标签的种类数;
步骤C4:以对数似然函数为损失函数,通过随机梯度下降优化方法,利用 反向传播迭代更新模型参数,以最小化损失函数来训练模型,具体计算公式如下 所示:
其中,D表示训练集的大小,Lj是句子x的长度,是字符t在句子xj的标 签,是归一化后的概率,Θ代表模型参数,I(O)是一个选择函数,以区分标 签‘O’的损失与可指示实体的标签的损失,具体计算公式如下所示:
步骤D:对得到的带标注的中标文本进行规则校正和格式化处理;
步骤D1:对步骤C得到的带标注数据进行规则的校正处理;
步骤D11:对于中标金额,采用正则表达式的方式判断实体是否存在***数 字或中文大写数字,如果不存在则认为不是中标金额并舍弃。
步骤D12:对于中标时间,判断不是日期组成方式的进行舍弃。
步骤D13:对于项目名称,由于项目名称实体的字符串长度通常较长,基本 不会出现只有两三个字组成的情况,因此舍弃识别到的项目名称的字符串长度小 于4的实体。
步骤D14:对于一条中标数据同一种类别出现多次时只保留字符串长度最长 的命名实体。
步骤D2:将校正处理后的数据进行格式化处理。
步骤D21:对于中标金额,判断实体是否包含单位“百”,“佰”,“千”,“仟”, “万”,“萬”,“亿”,“億”,“美元”,“日元”,如果包含则进行单位换算;
步骤D22:对于中标时间,以日期格式YYYY-MM-DD的形式进行转换。
步骤E:输出识别的招标机构、中标机构、招标机构所处地区、中标金额、 招标机构联系人、招标项目名称,中标时间的命名实体。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变 化与修饰,皆应属本发明的涵盖范围。
Claims (9)
1.一种基于LSTM的中标网页命名实体抽取方法,其特征在于,具体包括以下步骤:
步骤A:对待抽取中标网页的文本数据进行清洗,得到中标文本;
步骤B:以Lattice-LSTM模型作为编码层,并将中标文本作为编码层的输入,得到中标文本的语义信息特征;
步骤C:以LSTM模型作为解码层,并将得到的中标文本的语义信息特征作为解码层的输入,对中标文本中的每个字进行标注;
步骤D:对得到的带标注的中标文本进行规则校正和格式化处理;
步骤E:输出识别的命名实体。
2.根据权利要求1所述的一种基于LSTM的中标网页命名实体抽取方法,其特征在于:所述步骤B具体为:
步骤B1:将中标文本中的字转化为字向量;
其中,对于中标文本中的第j个字cj,转化为字向量计算公式如下:
其中,ec表示字符向量映射表;
步骤B2:将中标文本中的词转换为词向量;
步骤B3:将词向量输入Lattice-LSTM模型,利用Lattice-LSTM模型得到中标文本的语义信息特征。
3.根据权利要求2所述的一种基于LSTM的中标网页命名实体抽取方法,其特征在于,所述步骤B2具体为:
步骤B21:根据大规模语料库利用Tire树构造词表D;
步骤B22:初始化一个空的中标文本的匹配词集合P;
步骤B23:将中标文本的第一个字作为当前字开始遍历,执行步骤B24;
步骤B24:将词表D中匹配以当前字为词首字的词加入到集合P中;
其中,b表示词的第一个字在句中的位置,e表示词的最后一个字在句中的位置;
步骤B25:将当前字的下一个字符作为当前字,迭代执行步骤B24,直到中标文本的最后一个字符结束;
步骤B26:遍历结束后将集合P中的转换为词向量计算公式如下所示:
其中,ew为词向量映射表。
4.根据权利要求2所述的一种基于LSTM的中标网页命名实体抽取方法,其特征在于,所述步骤B3具体如下:
对于文本中的每个句子,依次输入步骤B1得到的字向量序列和步骤B2得到的词向量序列到Lattice-LSTM模型中,输出每个字在上下文的语义信息的向量表示序列,具体计算公式如下所示:
是句中的第j个字的字向量,是句中以第j个字为结尾的词的词向量,为j时刻的输出;为词语级LSTM的权重矩阵, 为词语级LSTM的偏置项;是词语级LSTM在j时刻的遗忘门;是词语级LSTM在j时刻的输入门;是词语级LSTM在j时刻的候选记忆向量;是词语级LSTM在j时刻的记忆向量;为字符级LSTM的权重矩阵,为字符级LSTM的偏置项;是字符级LSTM在j时刻的输入门;是词语级LSTM在j时刻的候选记忆向量;是词语级LSTM在j时刻的记忆向量;是词语级LSTM在j时刻的输出门; 是计算时的权重。
5.根据权利要求4所述的一种基于LSTM的中标网页命名实体抽取方法,其特征在于,所述步骤C具体为:
步骤C1:针对中标网页的命名实体识别任务,将数据中的字分为两类;
其中,第一类代表与实体无关的字,用标签“O”来表示;第二类代表与实体相关的字,这一类字的标签由三部分组成:
步骤C2:将步骤B得到的可以表示文本的语义信息的隐藏状态信息输入到解码层的LSTM模型中,计算每个字符在上下文字符的影响下的输出状态,具体计算公式如下所示:
其中为标签向量;
步骤C3:将标签向量输入到Softmax分类器中,对其进行归一化操作,计算文本中每个字被标记为各类标签的概率,具体公式如下所示:
其中Wy为权重矩阵,by为偏置项,Nt为标签的种类数;
步骤C4:以对数似然函数为损失函数,通过随机梯度下降优化方法,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型,具体计算公式如下所示:
其中,D表示训练集的大小,Lj是句子x的长度,是字符t在句子xj的标签,是归一化后的概率,Θ代表模型参数,I(O)是一个选择函数,以区分标签‘O’的损失与可指示实体的标签的损失,具体计算公式如下所示:
6.根据权利要求1所述的一种基于LSTM的中标网页命名实体抽取方法,其特征在于:所述命名实体包括招标机构、中标机构、招标机构所处地区、中标金额、招标机构联系人、招标项目名称,中标时间。
7.根据权利要求6所述的一种基于LSTM的中标网页命名实体抽取方法,其特征在于,所述步骤D具体为:
步骤D1:对步骤C得到的带标注数据进行规则的校正处理;
步骤D2:将校正处理后的数据进行格式化处理。
8.根据权利要求7所述的一种基于LSTM的中标网页命名实体抽取方法,其特征在于,所述步骤D1具体为:
步骤D11:对于中标金额,采用正则表达式的方式判断实体是否存在***数字或中文大写数字,如果不存在则认为不是中标金额并舍弃。
步骤D12:对于中标时间,判断不是日期组成方式的进行舍弃。
步骤D13:对于项目名称,由于项目名称实体的字符串长度通常较长,基本不会出现只有两三个字组成的情况,因此舍弃识别到的项目名称的字符串长度小于4的实体。
步骤D14:对于一条中标数据同一种类别出现多次时只保留字符串长度最长的命名实体。
9.根据权利要求1所述的一种基于LSTM的中标网页命名实体抽取方法,其特征在于,所述步骤D2中,对命名实体进行格式化处理,具体包括以下步骤:
步骤D21:对于中标金额,判断实体是否包含单位“百”,“佰”,“千”,“仟”,“万”,“萬”,“亿”,“億”,“美元”,“日元”,如果包含则进行单位换算;
步骤D22:对于中标时间,以日期格式YYYY-MM-DD的形式进行转换。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910013185.2A CN109753660B (zh) | 2019-01-07 | 2019-01-07 | 一种基于lstm的中标网页命名实体抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910013185.2A CN109753660B (zh) | 2019-01-07 | 2019-01-07 | 一种基于lstm的中标网页命名实体抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109753660A true CN109753660A (zh) | 2019-05-14 |
CN109753660B CN109753660B (zh) | 2023-06-13 |
Family
ID=66404567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910013185.2A Active CN109753660B (zh) | 2019-01-07 | 2019-01-07 | 一种基于lstm的中标网页命名实体抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109753660B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334300A (zh) * | 2019-07-10 | 2019-10-15 | 哈尔滨工业大学 | 面向舆情分析的文本辅助阅读方法 |
CN110738182A (zh) * | 2019-10-21 | 2020-01-31 | 四川隧唐科技股份有限公司 | 一种用于高精度识别中标金额的lstm模型单元训练方法及装置 |
CN110738319A (zh) * | 2019-11-11 | 2020-01-31 | 四川隧唐科技股份有限公司 | 一种基于crf识别中标单位的lstm模型单元训练方法及装置 |
CN111078978A (zh) * | 2019-11-29 | 2020-04-28 | 上海观安信息技术股份有限公司 | 一种基于网站文本内容的网贷网站实体识别方法及*** |
CN111738002A (zh) * | 2020-05-26 | 2020-10-02 | 北京信息科技大学 | 基于Lattice LSTM的古文领域命名实体识别方法和*** |
CN111737969A (zh) * | 2020-07-27 | 2020-10-02 | 北森云计算有限公司 | 一种基于深度学习的简历解析方法和*** |
CN112017016A (zh) * | 2019-10-29 | 2020-12-01 | 河南拓普计算机网络工程有限公司 | 招投标公告中标金额清洗方法 |
CN112948588A (zh) * | 2021-05-11 | 2021-06-11 | 中国人民解放军国防科技大学 | 一种用于情报快速整编的中文文本分类方法 |
CN112990845A (zh) * | 2021-01-04 | 2021-06-18 | 江苏省测绘地理信息局信息中心 | 测绘市场项目智能化获取方法 |
CN112989807A (zh) * | 2021-03-11 | 2021-06-18 | 重庆理工大学 | 一种基于连续数字压缩编码的长数字实体抽取方法 |
JP2021111416A (ja) * | 2020-01-15 | 2021-08-02 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | コアエンティティのタグ付け方法、コアエンティティのタグ付け装置、電子機器、記憶媒体及びコンピュータプログラム |
CN114048750A (zh) * | 2021-12-10 | 2022-02-15 | 广东工业大学 | 一种融合信息高级特征的命名实体识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100082331A1 (en) * | 2008-09-30 | 2010-04-01 | Xerox Corporation | Semantically-driven extraction of relations between named entities |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN107832400A (zh) * | 2017-11-01 | 2018-03-23 | 山东大学 | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 |
CN108416058A (zh) * | 2018-03-22 | 2018-08-17 | 北京理工大学 | 一种基于Bi-LSTM输入信息增强的关系抽取方法 |
CN108509423A (zh) * | 2018-04-04 | 2018-09-07 | 福州大学 | 一种基于二阶hmm的中标网页命名实体抽取方法 |
-
2019
- 2019-01-07 CN CN201910013185.2A patent/CN109753660B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100082331A1 (en) * | 2008-09-30 | 2010-04-01 | Xerox Corporation | Semantically-driven extraction of relations between named entities |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN107832400A (zh) * | 2017-11-01 | 2018-03-23 | 山东大学 | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 |
CN108416058A (zh) * | 2018-03-22 | 2018-08-17 | 北京理工大学 | 一种基于Bi-LSTM输入信息增强的关系抽取方法 |
CN108509423A (zh) * | 2018-04-04 | 2018-09-07 | 福州大学 | 一种基于二阶hmm的中标网页命名实体抽取方法 |
Non-Patent Citations (1)
Title |
---|
唐敏: "基于深度学习的中文实体关系抽取方法研究", 《万方数据学位论文库》, 19 December 2018 (2018-12-19), pages 1 - 75 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334300A (zh) * | 2019-07-10 | 2019-10-15 | 哈尔滨工业大学 | 面向舆情分析的文本辅助阅读方法 |
CN110738182A (zh) * | 2019-10-21 | 2020-01-31 | 四川隧唐科技股份有限公司 | 一种用于高精度识别中标金额的lstm模型单元训练方法及装置 |
CN112017016A (zh) * | 2019-10-29 | 2020-12-01 | 河南拓普计算机网络工程有限公司 | 招投标公告中标金额清洗方法 |
CN110738319A (zh) * | 2019-11-11 | 2020-01-31 | 四川隧唐科技股份有限公司 | 一种基于crf识别中标单位的lstm模型单元训练方法及装置 |
CN111078978A (zh) * | 2019-11-29 | 2020-04-28 | 上海观安信息技术股份有限公司 | 一种基于网站文本内容的网贷网站实体识别方法及*** |
CN111078978B (zh) * | 2019-11-29 | 2024-02-27 | 上海观安信息技术股份有限公司 | 一种基于网站文本内容的网贷网站实体识别方法及*** |
JP2021111416A (ja) * | 2020-01-15 | 2021-08-02 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | コアエンティティのタグ付け方法、コアエンティティのタグ付け装置、電子機器、記憶媒体及びコンピュータプログラム |
JP7110416B2 (ja) | 2020-01-15 | 2022-08-01 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | コアエンティティのタグ付け方法、コアエンティティのタグ付け装置、電子機器、記憶媒体及びコンピュータプログラム |
CN111738002A (zh) * | 2020-05-26 | 2020-10-02 | 北京信息科技大学 | 基于Lattice LSTM的古文领域命名实体识别方法和*** |
CN111737969A (zh) * | 2020-07-27 | 2020-10-02 | 北森云计算有限公司 | 一种基于深度学习的简历解析方法和*** |
CN112990845A (zh) * | 2021-01-04 | 2021-06-18 | 江苏省测绘地理信息局信息中心 | 测绘市场项目智能化获取方法 |
CN112989807A (zh) * | 2021-03-11 | 2021-06-18 | 重庆理工大学 | 一种基于连续数字压缩编码的长数字实体抽取方法 |
CN112989807B (zh) * | 2021-03-11 | 2021-11-23 | 重庆理工大学 | 一种基于连续数字压缩编码的长数字实体抽取方法 |
CN112948588A (zh) * | 2021-05-11 | 2021-06-11 | 中国人民解放军国防科技大学 | 一种用于情报快速整编的中文文本分类方法 |
CN114048750A (zh) * | 2021-12-10 | 2022-02-15 | 广东工业大学 | 一种融合信息高级特征的命名实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109753660B (zh) | 2023-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109753660A (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN108984526B (zh) | 一种基于深度学习的文档主题向量抽取方法 | |
CN110083831B (zh) | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 | |
CN104834747B (zh) | 基于卷积神经网络的短文本分类方法 | |
CN110555084B (zh) | 基于pcnn和多层注意力的远程监督关系分类方法 | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN109241283A (zh) | 一种基于多角度胶囊网络的文本分类方法 | |
CN110083700A (zh) | 一种基于卷积神经网络的企业舆情情感分类方法及*** | |
CN109117472A (zh) | 一种基于深度学习的维吾尔文命名实体识别方法 | |
CN109902177A (zh) | 基于双通道卷积记忆神经网络的文本情感分析方法 | |
CN113220876B (zh) | 一种用于英文文本的多标签分类方法及*** | |
CN108536800A (zh) | 文本分类方法、***、计算机设备和存储介质 | |
CN110297889B (zh) | 一种基于特征融合的企业情感倾向分析方法 | |
CN110188175A (zh) | 一种基于BiLSTM-CRF模型的问答对抽取方法、***及存储介质 | |
CN110750646B (zh) | 一种旅店评论文本的属性描述提取方法 | |
CN111966825A (zh) | 一种基于机器学习的电网设备缺陷文本分类方法 | |
CN110851593B (zh) | 一种基于位置与语义的复值词向量构建方法 | |
CN111177383A (zh) | 一种融合文本语法结构和语义信息的文本实体关系自动分类方法 | |
CN109840328A (zh) | 深度学习商品评论文本情感倾向分析方法 | |
CN108932229A (zh) | 一种金融新闻倾向性分析方法 | |
CN115114926A (zh) | 一种中文农业命名实体识别方法 | |
CN110134950A (zh) | 一种字词结合的文本自动校对方法 | |
CN113488196A (zh) | 一种药品说明书文本命名实体识别建模方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |