CN109858041A - 一种半监督学习结合自定义词典的命名实体识别方法 - Google Patents
一种半监督学习结合自定义词典的命名实体识别方法 Download PDFInfo
- Publication number
- CN109858041A CN109858041A CN201910172675.7A CN201910172675A CN109858041A CN 109858041 A CN109858041 A CN 109858041A CN 201910172675 A CN201910172675 A CN 201910172675A CN 109858041 A CN109858041 A CN 109858041A
- Authority
- CN
- China
- Prior art keywords
- model
- training
- custom dictionaries
- lstm
- semi
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种半监督学习结合自定义词典的命名实体识别方法,包括如下步骤:S1、用未标注数据预训练Bi‑LSTM语言模型;S2、在Embedding层采用字向量模型将每个字符向量化;S3、采用两层的双向LSTM作为序列标注模型,所述序列标注模型采用标注数据训练;S4、加入用户自定义词典;S5、使用维特比解码求出序列中的最大概率路径。本发明将预训练的语言模型的输出和第一层双向LSTM的输出作拼接,并作为第二层双向LSTM的输入可以减少标注语料的使用,同时在切换领域时可以只更换新领域的标注语料。另外,在预测的时候通过自定义词典的设置,可以更改进入维特比解码的发射矩阵,从而达到自定义词典的效果。
Description
技术领域
本发明涉及数据处理领域,面向命名实体识别技术应用,具体涉及一种半监督学习结合自定义词典的命名实体识别方法。
背景技术
命名实体识别(Named Entity Recognition,后文简称NER)是指从文本中识别具有特定类别的实体(通常是名词),例如人名、地名、机构名、专有名词等。NER是信息检索、查询分类、自动问答等问题的基础任务,其效果直接影响后续处理的效果,因此是自然语言处理研究的一个基础问题。
半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。半监督学习的基本思想是利用数据分布上的模型假设建立学习器对未标签样例进行标签。它的形式化描述是给定一个来自某未知分布的样例集S=LU,其中L是已标签样例集L={(x1,y1),(x2,y2),…,(x|L|,y|L|)},U是一个未标签样例集U={xc1,xc2,…,xc|U|},希望得到函数f:XyY可以准确地对样例x预测其标签y。其中xi,xc1均为d维向量,ytIY为样例xi的标签,|L|和|U|分别为L和U的大小,即所包含的样例数,半监督学习就是在样例集S上寻找最优的学习器。如果S=L,那么问题就转化为传统的有监督学习;反之,如果S=U,那么问题是转化为传统的无监督学习。如何综合利用已标签样例和未标签样例,是半监督学习需要解决的问题。
自定义词典是基于用户需求的产物,不同领域和行业的用户对实体有不同的定义和理解,因此有的词在某些用户看来是实体,而对其他用户来说,可能不是实体。因此用户自定义词典是很有必要的,通过词典可以提高命名实体识别的准确率,使其更符合用户的需求。
发明内容
针对现有技术的不足,本发明旨在提供一种半监督学习结合自定义词典的命名实体识别方法。
为了实现上述技术目的,本发明采用如下技术方案:
一种半监督学习结合自定义词典的命名实体识别方法,包括如下步骤:
S1、用未标注数据预训练Bi-LSTM语言模型;
S2、在Embedding层采用字向量模型将每个字符向量化;
S3、采用两层的双向LSTM作为序列标注模型,所述序列标注模型采用标注数据训练;
序列标注模型的训练过程中,将序列标注模型的第一层双向LSTM的输出向量与步骤S1中预训练得到的Bi-LSTM语言模型的输出作拼接,然后将拼接的向量经过一个全连接层后作为序列标注模型的第二层双向LSTM的输入;
S4、加入用户自定义词典:
经过序列标注模型的两层双向LSTM之后会得到发射矩阵X,经过CRF层,通过最大似然概率得到转移矩阵Y,然后根据用户自定义词典调整发射矩阵的概率,得到调整后的发射矩阵X;
S5、使用维特比解码求出序列中的最大概率路径:
将步骤S4中得到的根据用户自定义词典调整后的发射矩阵X和转移矩阵Y输入到CRF层的维特比解码,得到序列标注,即正确的命名实体识别结果。
进一步地,步骤S2中,所述字向量模型为word2vec模型。
更进一步地,步骤S2中,具体采用Skip-gram方法进行字向量模型训练。
再进一步地,采用Skip-gram方法进行字向量模型训练的具体步骤为:
(1)首先收集应用领域相关的均衡语料;
(2)针对步骤(1)收集的语料数据作预处理,包括过滤掉垃圾数据、停低频字和无意义符号,以及整理成训练数据的格式,得到训练数据;
(3)将训练数据送给Skip-gram模型,训练得到字向量模型。
本发明的有益效果在于:基于预训练语言模型(Pretrained Language Model)、字符嵌入(char embeddings)技术、自定义词典技术、半监督训练(Semi-SupervisedLearning)、双向LSTM(Long Short Term Memory,长短时记忆模型)网络、CRF(ConditionalRandom Field,条件随机场)模型等,来实现半监督学习的NER训练。通过以上方法和特殊的网络结构将预训练的语言模型的输出和第一层双向LSTM的输出作拼接,并作为第二层双向LSTM的输入。通过此方法,可以减少标注语料的使用,同时在切换领域时可以只更换新领域的标注语料。另外,在预测的时候通过自定义词典的设置,可以更改进入维特比解码的发射矩阵,从而达到自定义词典的效果。
附图说明
图1为本发明实施例的方法流程示意图;
图2为本发明实施例中Bi-LSTM语言模型的网络示意图;
图3为本发明实施例中常用的word2vec训练模型CBOW示意图;
图4为本发明实施例中常用的word2vec训练模型skip-gram模型示意图;
图5为本发明实施例中字向量模型训练的流程示意图;
图6为本发明实施例中序列标注模型示意图。
具体实施方式
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
以下对本实施例涉及的专业术语作简单解释:
命名实体识别:从给定文本数据中识别出特定专有名词,如人名、地名、机构名、时间词、产品名等。
Word2vec:是***公司开发的算法,通过无监督训练,将词变成一个几百维的向量,这种向量可以捕捉词语之间的语义相关性。也叫词向量或者词嵌入。
Tensorflow:Tensorflow是***开源的深度学***台(CPU、GPU、HADOOP)和分布式支持、可视化监控。
Skip-gram:Google用来在大数据上训练Wordvec采用方法,它通过当前词预测周围的词得到训练目标函数。
LSTM:LSTM(Long Short-Term Memory)长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。其通过“记忆门”和“忘记门”来控制历史信息的去留,有效解决了传统循环神经网络长路径依赖问题。
CRF:CRF(Conditional Random Field)条件随机场是近几年自然语言处理领域常用的算法之一,常用于句法分析、命名实体识别、词性标注等。CRF采用马尔科夫链作为隐含变量的概率转移模型,通过可观测状态判别隐含变量,属于判别模型。
半监督学习:半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。
自定义词典:用户自定义词典是在进行NER提取的时候,用户希望提取的特殊实体,通过设置词典的方式,确保其会提取出来。
本实施例提供一种半监督学习结合自定义词典的命名实体识别方法,包括如下步骤:
S1、用未标注数据预训练Bi-LSTM语言模型;
采用预训练的Bi-LSTM语言模型有以下优点:
1)减少标注语料的需求量,语言模型的主要作用就是特征的自动抽取,采用未标注数据进行预训练,提前得到每个字符的语义信息。
2)减少了模型的训练时间,由于提前进行的预训练,减少了用标注数据进行训练的时间。
本发明采用Bi-LSTM模型来进行语言模型的训练,是无监督学习的方法,不需要人工标注语料就可以训练模型。模型的网络结构如图2所示。
Bi-LSTM(双向LSTM)可以结合前后文的信息来给出字符的语义信息,通过前向的LSTM对于每个字符可以得到一个语义向量,然后再通过后向的LSTM的到另外一个语义向量。在输出层将两个语义向量进行拼接得到最终的输出。由于此语言模型的训练是无监督的形式,因此需求的数据量是越大越好的。
从图2中可以看出,本实施例中采用的Bi-LSTM,前向和后向并不进行参数共享。两层LSTM都采用不同的参数进行训练,也就是说两层LSTM是独立的。
S2、在Embedding层采用word2vec模型将每个字符向量化。
在本实施例中,具体采用Skip-gram方法训练得到字向量模型。
word2vec模型能够将每个字变成一个低维空间中的向量,通常几百维。这样字符之间的语义相关性可以用向量的距离来近似描述。相对于常用的词向量,基于字符的向量化技术能够带来以下优势:
1)能够表征更细粒度的字符特征;
2)由于字符数量远小于单词数量,得到的模型占用空间极小,极大提高了模型加载速度;
3)随着时间的推移,新词会不断涌现,之前所训练的词向量模型会出现越来越严重的特征命中率下滑问题,而基于字符的向量则有效避免了此问题,因为每年被创造出来的新字符相对很少。
因此本实施例选择基于字符的向量化技术。
本实施例采用的word2vec模型是无监督学习方法,即不需要人工标注语料就可以训练模型,常见的有两种训练方法为CBOW和Skip-gram,如图3-4所示。
CBOW是根据上下文预测中心的字,根据字符w(t)周围的字符w(t-2),w(t-1),w(t+1),w(t+2)预测,将这些词的向量做连接,这样能充分保留上下文信息,如图3所示。Skip-gram方法正好相反,使用w(t)去预测周围的词w(t-2),w(t-1),w(t+1),w(t+2),如图4所示。在大数据量条件下,适合采用Skip-gram方法。
如图5所示,在本实施例中,采用Skip-gram方法训练模型的具体步骤为:
(1)首先收集相关的均衡语料(因为要做无监督学习,数据量越大越好,无需标注),这些语料主要针对相应的应用领域,并且尽量涵盖该场景的大部分数据类型;
(2)针对步骤(1)收集的语料数据作预处理,包括过滤掉垃圾数据、停低频字和无意义符号,以及整理成训练数据的格式,即表示输入和输出,得到训练数据;
(3)将训练数据送给Skip-gram模型,训练得到字向量模型。
S3、采用两层的双向LSTM作为序列标注模型,并采用标注数据训练所述序列标注模型;
在本实施例中,采用BIO标注法对训练数据进行标注。例如:
标签B-PER则代表人名的开始,I-ORG代表组织机构名的中间,O则代表其它。
本实施例的序列标注模型采用两层的双向LSTM,由于是采用少量的标注数据进行训练,所以考虑通过增加模型的复杂度来更好的拟合数据。同时为了减少对标注数据量级的需求,本实施例在序列标注模型的两层双向LSTM之间引入了预训练的语言模型向量,具体的模型如图6所示。
具体地,在序列标注模型的训练过程中,将序列标注模型的第一层双向LSTM的输出向量与Bi-LSTM语言模型的输出作拼接,然后将拼接的向量经过一个全连接层后作为序列标注模型的第二层双向LSTM的输入。
从具体的实现来看,首先进入序列标注模型的第一层双向LSTM的运算过程,前向LSTM和后向LSTM,前向LSTM的输出为hft,后向LSTM的输出为hbt,二者进行拼接后,得到ht1=[hft,hbt],其中前向输出hft表征了历史上下文信息,而后向输出hbt则表征了未来的上下文信息。然后将Bi-LSTM语言模型的输出hlm与第一层双向LSTM的输出进行拼接后,得到ht=[hlm,ht1]。之后经过一个全连接层后,将结果输入到序列标注模型的第二层双向LSTM中。
循环神经网络(RNN)目前被广泛的运用到自然语言处理领域中。对于任意输入文本序列(x1,x2,…,xn),RNN返回针对此序列的输出值集合(h1,h2,…,hn)。由于传统的RNN在进行最优化求解的过程中会产生梯度消失的问题,使得在预测的时候对于长文本并不能记录远距离的语义信息。而LSTM模型采用不同的gate来控制历史信息的输入和输出,同时,双向的LSTM不仅可以参考过去的历史信息,也可以参考未来的语义信息。
S4、加入用户自定义词典;
经过序列标注模型的两层双向LSTM之后会得到发射矩阵X,经过CRF层,通过最大似然概率得到转移矩阵Y,然后根据用户自定义词典调整发射矩阵的概率,得到调整后的发射矩阵X。
S5、使用维特比解码求出序列中的最大概率路径。
具体地,将根据用户自定义词典调整后的发射矩阵X和转移矩阵Y输入到CRF层的维特比解码,得到序列标注,即正确的命名实体识别结果。
在本发明中CRF层作为最后一层主要的作用就是进行维特比解码找到最优的路径。条件随机场(conditional random fields,简称CRF,或CRFs),是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。条件随机场模型既具有判别式模型的优点,又具有产生式模型考虑到上下文标记间的转移概率,以序列化形式进行全局参数优化和解码的特点,解决了其他判别式模型(如最大熵马尔科夫模型)难以避免的标记偏置问题。
而条件随机场则使用一种概率图模型,具有表达长距离依赖性和交叠性特征的能力,能够较好地解决标注(分类)偏置等问题的优点,而且所有特征可以进行全局归一化,能够求得全局的最优解。这里主要用到的就是条件随机场的预测算法:维特比算法(Viterbialgorithm,一种动态规划算法)。
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。
Claims (4)
1.一种半监督学习结合自定义词典的命名实体识别方法,其特征在于,包括如下步骤:
S1、用未标注数据预训练Bi-LSTM语言模型;
S2、在Embedding层采用字向量模型将每个字符向量化;
S3、采用两层的双向LSTM作为序列标注模型,所述序列标注模型采用标注数据训练;
序列标注模型的训练过程中,将序列标注模型的第一层双向LSTM的输出向量与步骤S1中预训练得到的Bi-LSTM语言模型的输出作拼接,然后将拼接的向量经过一个全连接层后作为序列标注模型的第二层双向LSTM的输入;
S4、加入用户自定义词典:
经过序列标注模型的两层双向LSTM之后会得到发射矩阵X,经过CRF层,通过最大似然概率得到转移矩阵Y,然后根据用户自定义词典调整发射矩阵的概率,得到调整后的发射矩阵X;
S5、使用维特比解码求出序列中的最大概率路径:
将步骤S4中得到的根据用户自定义词典调整后的发射矩阵X和转移矩阵Y输入到CRF层的维特比解码,得到序列标注,即正确的命名实体识别结果。
2.根据权利要求1所述的一种半监督学习结合自定义词典的命名实体识别方法,其特征在于,步骤S2中,所述字向量模型为word2vec模型。
3.根据权利要求2所述的一种半监督学习结合自定义词典的命名实体识别方法,其特征在于,步骤S2中,具体采用Skip-gram方法进行字向量模型训练。
4.根据权利要求3所述的一种半监督学习结合自定义词典的命名实体识别方法,其特征在于,采用Skip-gram方法进行字向量模型训练的具体步骤为:
(1)首先收集应用领域相关的均衡语料;
(2)针对步骤(1)收集的语料数据作预处理,包括过滤掉垃圾数据、停低频字和无意义符号,以及整理成训练数据的格式,得到训练数据;
(3)将训练数据送给Skip-gram模型,训练得到字向量模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910172675.7A CN109858041B (zh) | 2019-03-07 | 2019-03-07 | 一种半监督学习结合自定义词典的命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910172675.7A CN109858041B (zh) | 2019-03-07 | 2019-03-07 | 一种半监督学习结合自定义词典的命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109858041A true CN109858041A (zh) | 2019-06-07 |
CN109858041B CN109858041B (zh) | 2023-02-17 |
Family
ID=66900199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910172675.7A Active CN109858041B (zh) | 2019-03-07 | 2019-03-07 | 一种半监督学习结合自定义词典的命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109858041B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598203A (zh) * | 2019-07-19 | 2019-12-20 | 中国人民解放军国防科技大学 | 一种结合词典的军事想定文书实体信息抽取方法及装置 |
CN111062215A (zh) * | 2019-12-10 | 2020-04-24 | 金蝶软件(中国)有限公司 | 基于半监督学习训练的命名实体识别方法和装置 |
CN111079437A (zh) * | 2019-12-20 | 2020-04-28 | 深圳前海达闼云端智能科技有限公司 | 一种实体识别方法、电子设备及存储介质 |
CN111079418A (zh) * | 2019-11-06 | 2020-04-28 | 科大讯飞股份有限公司 | 命名体识别方法、装置、电子设备和存储介质 |
CN111079405A (zh) * | 2019-11-29 | 2020-04-28 | 微民保险代理有限公司 | 文本信息识别方法、装置、存储介质和计算机设备 |
CN111274817A (zh) * | 2020-01-16 | 2020-06-12 | 北京航空航天大学 | 一种基于自然语言处理技术的智能化软件成本度量方法 |
CN111274814A (zh) * | 2019-12-26 | 2020-06-12 | 浙江大学 | 一种新型的半监督文本实体信息抽取方法 |
CN111291550A (zh) * | 2020-01-17 | 2020-06-16 | 北方工业大学 | 一种中文实体提取方法及装置 |
CN111985240A (zh) * | 2020-08-19 | 2020-11-24 | 腾讯云计算(长沙)有限责任公司 | 命名实体识别模型的训练方法、命名实体识别方法及装置 |
CN112464645A (zh) * | 2020-10-30 | 2021-03-09 | 中国电力科学研究院有限公司 | 一种半监督学习方法、***、设备和存储介质及语义解析方法 |
CN113761215A (zh) * | 2021-03-25 | 2021-12-07 | 中科天玑数据科技股份有限公司 | 一种基于反馈自学习的动态字典库生成方法 |
WO2022022421A1 (zh) * | 2020-07-29 | 2022-02-03 | 北京字节跳动网络技术有限公司 | 语言表示模型***、预训练方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133220A (zh) * | 2017-06-07 | 2017-09-05 | 东南大学 | 一种地理学科领域命名实体识别方法 |
CN107797992A (zh) * | 2017-11-10 | 2018-03-13 | 北京百分点信息科技有限公司 | 命名实体识别方法及装置 |
CN108388560A (zh) * | 2018-03-17 | 2018-08-10 | 北京工业大学 | 基于语言模型的gru-crf会议名称识别方法 |
CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
WO2018218705A1 (zh) * | 2017-05-27 | 2018-12-06 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CN109284400A (zh) * | 2018-11-28 | 2019-01-29 | 电子科技大学 | 一种基于Lattice LSTM和语言模型的命名实体识别方法 |
-
2019
- 2019-03-07 CN CN201910172675.7A patent/CN109858041B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018218705A1 (zh) * | 2017-05-27 | 2018-12-06 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CN107133220A (zh) * | 2017-06-07 | 2017-09-05 | 东南大学 | 一种地理学科领域命名实体识别方法 |
CN107797992A (zh) * | 2017-11-10 | 2018-03-13 | 北京百分点信息科技有限公司 | 命名实体识别方法及装置 |
CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
CN108388560A (zh) * | 2018-03-17 | 2018-08-10 | 北京工业大学 | 基于语言模型的gru-crf会议名称识别方法 |
CN109284400A (zh) * | 2018-11-28 | 2019-01-29 | 电子科技大学 | 一种基于Lattice LSTM和语言模型的命名实体识别方法 |
Non-Patent Citations (1)
Title |
---|
CHRISTOPHER CLARK等: "Deep contextualized word representations", 《HTTPS://ARXIV.ORG/PDF/1802.05365.PDF》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598203A (zh) * | 2019-07-19 | 2019-12-20 | 中国人民解放军国防科技大学 | 一种结合词典的军事想定文书实体信息抽取方法及装置 |
CN111079418B (zh) * | 2019-11-06 | 2023-12-05 | 科大讯飞股份有限公司 | 命名体识别方法、装置、电子设备和存储介质 |
CN111079418A (zh) * | 2019-11-06 | 2020-04-28 | 科大讯飞股份有限公司 | 命名体识别方法、装置、电子设备和存储介质 |
CN111079405A (zh) * | 2019-11-29 | 2020-04-28 | 微民保险代理有限公司 | 文本信息识别方法、装置、存储介质和计算机设备 |
CN111062215B (zh) * | 2019-12-10 | 2024-02-13 | 金蝶软件(中国)有限公司 | 基于半监督学习训练的命名实体识别方法和装置 |
CN111062215A (zh) * | 2019-12-10 | 2020-04-24 | 金蝶软件(中国)有限公司 | 基于半监督学习训练的命名实体识别方法和装置 |
CN111079437A (zh) * | 2019-12-20 | 2020-04-28 | 深圳前海达闼云端智能科技有限公司 | 一种实体识别方法、电子设备及存储介质 |
CN111274814A (zh) * | 2019-12-26 | 2020-06-12 | 浙江大学 | 一种新型的半监督文本实体信息抽取方法 |
CN111274814B (zh) * | 2019-12-26 | 2021-09-24 | 浙江大学 | 一种新型的半监督文本实体信息抽取方法 |
CN111274817A (zh) * | 2020-01-16 | 2020-06-12 | 北京航空航天大学 | 一种基于自然语言处理技术的智能化软件成本度量方法 |
CN111291550A (zh) * | 2020-01-17 | 2020-06-16 | 北方工业大学 | 一种中文实体提取方法及装置 |
CN111291550B (zh) * | 2020-01-17 | 2021-09-03 | 北方工业大学 | 一种中文实体提取方法及装置 |
WO2022022421A1 (zh) * | 2020-07-29 | 2022-02-03 | 北京字节跳动网络技术有限公司 | 语言表示模型***、预训练方法、装置、设备及介质 |
CN111985240A (zh) * | 2020-08-19 | 2020-11-24 | 腾讯云计算(长沙)有限责任公司 | 命名实体识别模型的训练方法、命名实体识别方法及装置 |
CN111985240B (zh) * | 2020-08-19 | 2024-02-27 | 腾讯云计算(长沙)有限责任公司 | 命名实体识别模型的训练方法、命名实体识别方法及装置 |
CN112464645A (zh) * | 2020-10-30 | 2021-03-09 | 中国电力科学研究院有限公司 | 一种半监督学习方法、***、设备和存储介质及语义解析方法 |
CN113761215A (zh) * | 2021-03-25 | 2021-12-07 | 中科天玑数据科技股份有限公司 | 一种基于反馈自学习的动态字典库生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109858041B (zh) | 2023-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109858041A (zh) | 一种半监督学习结合自定义词典的命名实体识别方法 | |
CN110334354B (zh) | 一种中文关系抽取方法 | |
CN110287481B (zh) | 命名实体语料标注训练*** | |
CN108460013B (zh) | 一种基于细粒度词表示模型的序列标注模型及方法 | |
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
CN110929030B (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN107168945B (zh) | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 | |
CN107330032B (zh) | 一种基于递归神经网络的隐式篇章关系分析方法 | |
CN111046179B (zh) | 一种面向特定领域开放网络问句的文本分类方法 | |
CN110532557B (zh) | 一种无监督的文本相似度计算方法 | |
CN109003601A (zh) | 一种针对低资源土家语的跨语言端到端语音识别方法 | |
CN109871538A (zh) | 一种中文电子病历命名实体识别方法 | |
CN110569508A (zh) | 融合词性和自注意力机制的情感倾向性分类方法及*** | |
CN114239585B (zh) | 一种生物医学嵌套命名实体识别方法 | |
CN111222318B (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
CN110263325A (zh) | 中文分词*** | |
CN113761893B (zh) | 一种基于模式预训练的关系抽取方法 | |
CN109189862A (zh) | 一种面向科技情报分析的知识库构建方法 | |
CN114492441A (zh) | 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法 | |
CN111914556A (zh) | 基于情感语义转移图谱的情感引导方法及*** | |
Li et al. | UD_BBC: Named entity recognition in social network combined BERT-BiLSTM-CRF with active learning | |
CN112183064A (zh) | 基于多任务联合学习的文本情绪原因识别*** | |
CN110210036A (zh) | 一种意图识别方法及装置 | |
CN110287482A (zh) | 半自动化分词语料标注训练装置 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100081 No.101, 1st floor, building 14, 27 Jiancai Chengzhong Road, Haidian District, Beijing Applicant after: Beijing PERCENT Technology Group Co.,Ltd. Address before: 100081 16 / F, block a, Beichen Century Center, building 2, courtyard 8, Beichen West Road, Chaoyang District, Beijing Applicant before: BEIJING BAIFENDIAN INFORMATION SCIENCE & TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |