CN108268444A - 一种基于双向lstm、cnn和crf的中文分词方法 - Google Patents
一种基于双向lstm、cnn和crf的中文分词方法 Download PDFInfo
- Publication number
- CN108268444A CN108268444A CN201810021528.5A CN201810021528A CN108268444A CN 108268444 A CN108268444 A CN 108268444A CN 201810021528 A CN201810021528 A CN 201810021528A CN 108268444 A CN108268444 A CN 108268444A
- Authority
- CN
- China
- Prior art keywords
- vector
- character
- cnn
- obtains
- chinese word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于双向LSTM、CNN和CRF的中文分词方法,基于深度学习算法对传统中文分词的改进优化。该方法具体步骤如下:对初始语料进行预处理,提取语料字符特征信息和字符对应的拼音特征信息;利用卷积神经网络得到字符的拼音特征信息向量;利用word2vec模型得到文本的字符特征信息向量;将拼音特征向量和字符特征向量进行拼接,得到上下文信息向量,放入双向LSTM神经网络中;利用线性链条件随机场对双向LSTM的输出进行解码,得到分词标注序列;对分词标注序列进行解码得到分词结果。本发明利用深度神经网络提取文本字符特征和拼音特征并结合条件随机场进行解码,可以有效提取中文文本特征并且能够在中文分词任务上取得很好的效果。
Description
技术领域
本发明涉及一种基于双向LSTM、CNN和CRF的中文分词方法,属于自然语言处理领域。
背景技术
中文分词是自然语言处理(Natural LanguageProcessing,NLP)的一个基础任务。其目的是将输入的汉字序列切分成一个一个单独的词。
在中文分词领域,传统的技术可以分为两类,一类是基于词典和规则的方法,按照一定的方式遍历汉字串与词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。另一种是基于统计的方法,相关方法有,条件随机场(CRF),隐马尔可夫模型(HMM),最大熵模型(Maximum Entropy),其中条件随机场近年来广泛应用于中文分词领域。
上述基于词典和规则的方法依赖于词典和规则的构造,匹配速度慢,在处理新词和流行词方面有很大的局限性;上述基于统计模型的方法依赖于人工标注,对于特征选取需要大量专业知识和工程经验,同时还需要花费大量人力和时间。深度学习方法在特征提取方面有很好效果,能够更好的提取字符,词组和句子信息,相关的模型有卷积神经网络,循环神经网络以及深度模型融合方法等。
发明内容
针对上述现有技术的不足,本发明提供一种基于双向LSTM、CNN和CRF的中文分词方法,该方法有效解决了实际应用中传统中文分词的速度慢、准确率低的问题。
本发明为解决上述技术问题采用以下技术方案:
本发明提供一种基于双向LSTM、CNN和CRF的中文分词方法,具体步骤如下:
步骤1,对初始语料进行预处理,提取语料的字符特征信息及对应的拼音特征信息,并对初始语料进行标注,得到带标注的文本、标注表、字符表和字母表;
步骤2,将步骤1中字母表中的每个字母随机初始化为向量形式,利用卷积神经网络CNN对字母向量进行特征提取,得到拼音特征信息向量;
步骤3,对步骤1中的字符特征信息,利用word2vec模型进行预训练,得到字符特征信息向量;
步骤4,将步骤2得到的拼音特征信息向量和步骤3得到的字符特征信息向量进行拼接,得到上下文信息向量;
步骤5,将步骤4得到的上下文信息向量输入双向LSTM神经网络中进行训练,得到语义信息特征;
步骤6,利用线性链条件随机场对步骤5中得到的语义信息特征进行标注,得到中文分词标注序列;
步骤7,对步骤6中得到的中文分词标注序列进行解码,得到中文分词结果。
作为本发明的进一步技术方案,步骤1具体为:
1.1,提取初始语料中的单个字符信息作为语料的字符特征信息,并对每个字符按序进行编号构成字符表;
1.2,将步骤1.1中的每个字符转换为相应的拼音形式作为语料的拼音特征信息,并对拼音中的字母去重后按序编号构成字母表;
1.3,采用BMEO标注集以对初始语料进行标注,得到带标注的文本;并对BMEO标注集按序编号,构成标注表。
作为本发明的进一步技术方案,步骤2具体为:
2.1,将步骤1字母表中的每个字母随机初始化为向量形式;
2.2,每个字符对应的拼音向量矩阵为:其中,cl为字符对应的拼音中第l个字母对应的向量;L为预设固定值;
2.3,将步骤2.2得到的拼音向量矩阵输入卷积神经网络CNN中进行特征提取,得到拼音特征信息向量,其中,卷积神经网络CNN包括一个大小为3×3的卷积核构成的卷积层和一个2×2的池化层。
作为本发明的进一步技术方案,步骤2.2中:若字符对应的拼音长度L'小于L,则将对应拼音向量矩阵中的第L'+1~L行元素置零。
作为本发明的进一步技术方案,步骤4具体为:将步骤2得到的拼音特征信息向量xc和步骤3得到的字符特征信息向量xp进行拼接,得到上下文信息向量x=[xc,xp]。
作为本发明的进一步技术方案,步骤5具体为:
5.1,将上下文信息向量x作为前向LSTM的输入;
5.2,对于前向LSTM神经网络,t时刻的遗忘机制的计算如下:
ft=σ(Wf·[ht-1,xt]+bf)
其中,ft为t时刻的遗忘门层的输出,σ(·)为sigmoid函数,ht-1表示t-1时刻的隐藏层向量,xt表示t时刻的输入,Wf表示在f状态下对于输入xt的权重矩阵,bf表示f状态下的偏置向量。
5.3,对于前向LSTM神经网络,t时刻的更新机制的计算如下:
it=σ(Wi·[ht-1,xt]+bi)
其中,it为t时刻的更新门层的输出,Wi表示在i状态下对于输入xt的权重矩阵,bi表示i状态下的偏置向量,WC表示在C状态下对于输入xt的权重矩阵,bC表示C状态下的偏置向量,为t时刻生成的候选向量,Ct-1为t-1时刻的状态向量,Ct为t时刻的状态向量。
5.4,对于前向LSTM神经网络,t时刻的输出机制计算如下:
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*Tanh(Ct)
其中,ot为t时刻的输出,ht为t时刻隐藏层的向量,Wo表示在o状态下对于输入xt的权重矩阵,bo表示o状态下的偏置向量。
5.5,将上下文信息向量x作为后向LSTM的输入,根据步骤5.2-5.4的方法得到后向隐藏层向量gt,将ht和gt进行级联得到双向LSTM最终的输出。
作为本发明的进一步技术方案,步骤6具体为:
6.1,将步骤5的输出作为条件随机场CRF的输入序列Z={z1,z2,...,zN},其中,N为输入序列的长度,Y={y1,y2,...,yN}为Z对应的输出标签序列;
6.2,对于给定的输入序列Z取值为z的条件下,在标注序列Y上取值为y的条件概率为p(y|z),具体公式如下:
其中,n=1,2,…,N,tk(·)和sl(·)是特征函数,λk和μl分别是tk(·)和sl(·)对应的权值,S(z)是规范化因子;
6.3,在训练阶段,使用最大似然估计计算最优标注序列,训练集的似然对数为通过训练选取最终能够得到最高条件概率的y来对输入序列进行标注:
作为本发明的进一步技术方案,步骤7中对步骤6中得到的中文分词标注序列,根据BMEO标注集的标注方式进行解码,得到中文分词结果。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1.本发明提供了一种基于双向LSTM、CNN和CRF的中文分词方法,首先采用卷积神经网络对拼音向量提取特征,将拼音向量结合预训练过的字符向量作为数据输入到一个双向LSTM中进一步提取特征。将双向LSTM的输出作为CRF的输入计算最优标签序列完成序列标注。对序列标注进行解码完成中文分词。相比于传统中文分词的方法,本发明降低了特征提取的工作量,简化了信息处理过程,明显提高分词效率并且降低了大量人力标注成本;
2.本发明将中文拼音特征和字符特征转化为固定长度向量,相比于传统的one-hot向量,本发明中的拼音特征向量和字符向量能够更好挖掘文本关系并且降低了句子特征维度,不仅能大大减少存储空间而且提高模型效率;
3.本发明采用CNN、双向LSTM神经网络结合传统CRF,应用场景广泛,能够解决不同领域的中文分词问题,拥有很强的模型泛化能力。
附图说明
图1是本发明实施例采用的基于双向LSTM、CNN和CRF的中文分词的工作流程图。
图2是本发明实施例采用的CNN模型训练结构示意图。
图3是本发明实施例采用的双向LSTM的网络结构示意图。
图4是本发明实例采用的CRF模型结构示意图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
实施例:
本实施例提供了一种基于双向LSTM、CNN和CRF的中文分词方法,所述方法的流程图如图1所示,包括以下步骤:
步骤一:
对初始语料进行预处理提取单个字符信息作为语料的字符特征信息,针对相应字符将字符转化为拼音形式作为语料的拼音特征信息。对文本进行标注,得到带标签文本并构造字符表、字母表和标签标注表。
本步骤中,我们采用BMEO标注集对文本进行标注,即标注集中包含{B,M,E,O},跟后面字符构成词且自身是第一个字符的,我们标注为B。在成词的中间的字符,标注为M。在词尾的字符,标注为E。对于单独字符,不跟前后构成词的,我们标注为O。
以初始语料“市民要求对农贸市场进行整治。”为例,字符特征信息为“市”、“民”、“要”、“求”、“对”、“农”、“贸”、“市”、“场”、“进”、“行”、“整”、“治”、“。”,拼音特征信息为“shi”、“min”、“yao”、“qiu”、“dui”、“nong”、“mao”、“shi”、“chang”、“jin”、“xing”、“zheng”、“zhi”、“。”,标注为BEBEOBMMEBEBEO,字符表、字母表和标注表分别如表1、2和3所示,其中,字母表在编号前需要进行去重处理。
表1字符表
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 |
市 | 民 | 要 | 求 | 对 | 农 | 贸 | 市 | 场 | 进 | 行 | 整 | 治 | 。 |
表2字母表
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 |
s | h | i | m | n | y | a | o | q | u | d | u | g | c | g | j | x | z | e |
表3标注表
1 | 2 | 3 | 4 |
B | M | E | O |
步骤二:将步骤一中字母表中的每个字母随机初始化为向量形式,得到每个字符对应的拼音向量矩阵其中,cl为字符对应的拼音中第l个字母对应的向量;L为预设固定值。一般来说字符对应的拼音的最大长度为6,因此L=6;且若字符对应的拼音长度L'小于L,则将对应拼音向量矩阵中的第L+1~L行元素置零;例如,“市”对应的拼音“shi”长度为3,则其对应的拼音向量矩阵中的第4-6行全部置零。
将拼音特征向量矩阵作为卷积神经网路CNN的输入对字符进行编码,得到一个固定大小的拼音特征信息向量xc。所述卷积神经网络CNN的结构如图2所示,包括一个大小为3×3的卷积核构成的卷积层和一个2×2的池化层。
步骤三:将步骤一中提取出来的字符特征信息,利用word2vec模型进行预训练,得到字符特征信息向量xp。
本步骤中,利用word2vec训练得到的字符特征信息向量能够有效包含句子上下文信息,每个向量代表一个中文字符,每个字符特征信息向量的维度可以根据语料大小进行调整,一般可选的维度为50,100,200等。
步骤四:将步骤二中得到的拼音特征信息向量和步骤三中得到的字符特征信息向量根据维度进行拼接,得到上下文特征向量x=[xc,xp]。
步骤五:将步骤四中得到的上下文特征向量x传入双向LSTM神经网络进行训练,得到输入文本的语义信息特征。
本步骤中,所述双向LSTM神经网络结构示意图如图3所示,拥有一个输入层、两个隐含层和一个输出层。其中,两个隐含层由前向和后向LSTM神经网络组成,每个隐含层拥有固定大小的LSTM内核。
本步骤中,所述双向LSTM神经网络中的LSTM内核是对传统RNN(Recurrent NeuralNetwork)的一种改进,通过增加遗忘和保存机制来选择性的遗忘和保留输入信息,能有效避免RNN引发的长期依赖问题。LSTM网络包含一个输入层、两个隐藏层和一个softmax层,通过反向传播算法进行学习,其具体公式描述如下:
ft=σ(Wf·[ht-1,xt]+bf)
it=σ(Wi·[ht-1,xt]+bi)
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*Tanh(Ct)
其中,it、ft、ot分别为上述的遗忘机制,保存机制和输出机制。bi、bf、bo分别表示相应机制的偏置向量。t表示当前时刻,t-1表示上一时刻。w和h表示相应的权重,ct和ht分别表示当前时刻激活函数的输出和当前时刻的输出。
其中遗忘机制能够读取ht-1和xt-1,输入到相应σ函数中,得到一个0到1之间的数值,0表示完全舍弃,1表示完全保留。遗忘机制可以控制文本上下文对当前词组的影响,避免词组距离当前词越远影响力越小使得神经网络无法提取文本信息。
其中保存机制包含两个部分,第一部分在sigmoid层决定需要更新的信息,另一部分在tanh层创建新的候选值向量并加入当前状态。将保存机制的状态与遗忘机制ft相乘来更新需要保存的信息。
步骤六:将步骤五中双向LSTM的输出输入线性链条件随机场CRF,计算输入文本对应的最优输出序列。
本步骤中,所述条件随机场结构示意图如图4所示,包含输入向量Z={z1,z2,...,zN},模型输出标签序列Y={y1,y2,...,yN},N为输入序列的长度。
对于给定的输入序列Z取值为z的条件下,在标签序列Y上取值为y的条件概率为p(y|z),具体公式如下:
其中,n=1,2,…,N,tk(·)和sl(·)是特征函数,λk和μl分别是tk(·)和sl(·)对应的权值。p(y|z)是表示取值为z的情况下标注为y的概率,S(z)是规范化因子,为了将输出归一化为一个0到1的数值。
本步骤中计算最优标签序列我们使用最大似然估计,训练集的似然对数为通过训练选取最终能够得到最高条件概率的y来对序列进行标注:
步骤七:所述序列解码是将步骤6中字符标签序列根据BMEO标注方式进行词语标注从而得到分词结果。
本步骤中,所述序列解码是将标注好的词组标识在原文本中,然后根据B,M,E,O的序列将原句进行分词。针对句子“市民要求对农贸市场进行整治。”的标注以及分词结果如表4所示:
表4标注以及分词结果
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (8)
1.一种基于双向LSTM、CNN和CRF的中文分词方法,其特征在于,具体步骤如下:
步骤1,对初始语料进行预处理,提取语料的字符特征信息及对应的拼音特征信息,并对初始语料进行标注,得到带标注的文本、标注表、字符表和字母表;
步骤2,将步骤1中字母表中的每个字母随机初始化为向量形式,利用卷积神经网络CNN对字母向量进行特征提取,得到拼音特征信息向量;
步骤3,对步骤1中的字符特征信息,利用word2vec模型进行预训练,得到字符特征信息向量;
步骤4,将步骤2得到的拼音特征信息向量和步骤3得到的字符特征信息向量进行拼接,得到上下文信息向量;
步骤5,将步骤4得到的上下文信息向量输入双向LSTM神经网络中进行训练,得到语义信息特征;
步骤6,利用线性链条件随机场对步骤5中得到的语义信息特征进行标注,得到中文分词标注序列;
步骤7,对步骤6中得到的中文分词标注序列进行解码,得到中文分词结果。
2.根据权利要求1所述的一种基于双向LSTM、CNN和CRF的中文分词方法,其特征在于,步骤1具体为:
1.1,提取初始语料中的单个字符信息作为语料的字符特征信息,并对每个字符按序进行编号构成字符表;
1.2,将步骤1.1中的每个字符转换为相应的拼音形式作为语料的拼音特征信息,并对拼音中的字母去重后按序编号构成字母表;
1.3,采用BMEO标注集以对初始语料进行标注,得到带标注的文本;并对BMEO标注集按序编号,构成标注表。
3.根据权利要求1所述的一种基于双向LSTM、CNN和CRF的中文分词方法,其特征在于,步骤2具体为:
2.1,将步骤1字母表中的每个字母随机初始化为向量形式;
2.2,每个字符对应的拼音向量矩阵为:其中,cl为字符对应的拼音中第l个字母对应的向量;L为预设固定值;
2.3,将步骤2.2得到的拼音向量矩阵输入卷积神经网络CNN中进行特征提取,得到拼音特征信息向量,其中,卷积神经网络CNN包括一个大小为3×3的卷积核构成的卷积层和一个2×2的池化层。
4.根据权利要求3所述的一种基于双向LSTM、CNN和CRF的中文分词方法,其特征在于,步骤2.2中:若字符对应的拼音长度L'小于L,则将对应拼音向量矩阵中的第L'+1~L行元素置零。
5.根据权利要求1所述的一种基于双向LSTM、CNN和CRF的中文分词方法,其特征在于,步骤4具体为:将步骤2得到的拼音特征信息向量xc和步骤3得到的字符特征信息向量xp进行拼接,得到上下文信息向量x=[xc,xp]。
6.根据权利要求1所述的一种基于双向LSTM、CNN和CRF的中文分词方法,其特征在于,步骤5具体为:
5.1,将上下文信息向量x作为前向LSTM的输入;
5.2,对于前向LSTM神经网络,t时刻的遗忘机制的计算如下:
ft=σ(Wf·[ht-1,xt]+bf)
其中,ft为t时刻的遗忘门层的输出,σ(·)为sigmoid函数,ht-1表示t-1时刻的隐藏层向量,xt表示t时刻的输入,Wf表示在f状态下对于输入xt的权重矩阵,bf表示f状态下的偏置向量;
5.3,对于前向LSTM神经网络,t时刻的更新机制的计算如下:
it=σ(Wi·[ht-1,xt]+bi)
其中,it为t时刻的更新门层的输出,Wi表示在i状态下对于输入xt的权重矩阵,bi表示i状态下的偏置向量,WC表示在C状态下对于输入xt的权重矩阵,bC表示C状态下的偏置向量,为t时刻生成的候选向量,Ct-1为t-1时刻的状态向量,Ct为t时刻的状态向量;
5.4,对于前向LSTM神经网络,t时刻的输出机制计算如下:
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*Tanh(Ct)
其中,ot为t时刻的输出,ht为t时刻隐藏层的向量,Wo表示在o状态下对于输入xt的权重矩阵,bo表示o状态下的偏置向量;
5.5,将上下文信息向量x作为后向LSTM的输入,根据步骤5.2-5.4的方法得到后向隐藏层向量gt,将ht和gt进行级联得到双向LSTM最终的输出。
7.根据权利要求1所述的一种基于双向LSTM、CNN和CRF的中文分词方法,其特征在于,步骤6具体为:
6.1,将步骤5的输出作为条件随机场CRF的输入序列Z={z1,z2,...,zN},其中,N为输入序列的长度,Y={y1,y2,...,yN}为Z对应的输出标签序列;
6.2,对于给定的输入序列Z取值为z的条件下,在标注序列Y上取值为y的条件概率为p(y|z),具体公式如下:
其中,n=1,2,…,N,tk(·)和sl(·)是特征函数,λk和μl分别是tk(·)和sl(·)对应的权值,S(z)是规范化因子;
6.3,在训练阶段,使用最大似然估计计算最优标注序列,训练集的似然对数为通过训练选取最终能够得到最高条件概率的y来对输入序列进行标注:
8.根据权利要求1所述的一种基于双向LSTM、CNN和CRF的中文分词方法,其特征在于,步骤7中对步骤6中得到的中文分词标注序列,根据BMEO标注集的标注方式进行解码,得到中文分词结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810021528.5A CN108268444B (zh) | 2018-01-10 | 2018-01-10 | 一种基于双向lstm、cnn和crf的中文分词方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810021528.5A CN108268444B (zh) | 2018-01-10 | 2018-01-10 | 一种基于双向lstm、cnn和crf的中文分词方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108268444A true CN108268444A (zh) | 2018-07-10 |
CN108268444B CN108268444B (zh) | 2021-11-02 |
Family
ID=62773367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810021528.5A Active CN108268444B (zh) | 2018-01-10 | 2018-01-10 | 一种基于双向lstm、cnn和crf的中文分词方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108268444B (zh) |
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086267A (zh) * | 2018-07-11 | 2018-12-25 | 南京邮电大学 | 一种基于深度学习的中文分词方法 |
CN109117472A (zh) * | 2018-11-12 | 2019-01-01 | 新疆大学 | 一种基于深度学习的维吾尔文命名实体识别方法 |
CN109120613A (zh) * | 2018-08-08 | 2019-01-01 | 北京云中轮科技咨询有限公司 | 通讯数据的监控方法和*** |
CN109165384A (zh) * | 2018-08-23 | 2019-01-08 | 成都四方伟业软件股份有限公司 | 一种命名实体识别方法及装置 |
CN109213997A (zh) * | 2018-08-16 | 2019-01-15 | 昆明理工大学 | 一种基于双向长短时记忆网络模型的中文分词方法 |
CN109344391A (zh) * | 2018-08-23 | 2019-02-15 | 昆明理工大学 | 基于神经网络的多特征融合中文新闻文本摘要生成方法 |
CN109388806A (zh) * | 2018-10-26 | 2019-02-26 | 北京布本智能科技有限公司 | 一种基于深度学习及遗忘算法的中文分词方法 |
CN109460473A (zh) * | 2018-11-21 | 2019-03-12 | 中南大学 | 基于症状提取和特征表示的电子病历多标签分类方法 |
CN109492202A (zh) * | 2018-11-12 | 2019-03-19 | 浙江大学山东工业技术研究院 | 一种基于拼音的编码与解码模型的中文纠错方法 |
CN109492217A (zh) * | 2018-10-11 | 2019-03-19 | 平安科技(深圳)有限公司 | 一种基于机器学习的分词方法及终端设备 |
CN109545190A (zh) * | 2018-12-29 | 2019-03-29 | 联动优势科技有限公司 | 一种基于关键词的语音识别方法 |
CN109657229A (zh) * | 2018-10-31 | 2019-04-19 | 北京奇艺世纪科技有限公司 | 一种意图识别模型生成方法、意图识别方法及装置 |
CN109710930A (zh) * | 2018-12-20 | 2019-05-03 | 重庆邮电大学 | 一种基于深度神经网络的中文简历解析方法 |
CN109787699A (zh) * | 2018-10-18 | 2019-05-21 | 国网江苏省电力有限公司信息通信分公司 | 一种基于混合深度模型的无线传感器网络路由链路状态预测方法 |
CN109800310A (zh) * | 2018-12-03 | 2019-05-24 | 国网浙江省电力有限公司杭州供电公司 | 一种基于结构化表达的电力运维文本分析方法 |
CN109829159A (zh) * | 2019-01-29 | 2019-05-31 | 南京师范大学 | 一种古汉语文本的一体化自动词法分析方法及*** |
CN109918681A (zh) * | 2019-03-29 | 2019-06-21 | 哈尔滨理工大学 | 一种基于汉字-拼音的融合问题语义匹配方法 |
CN110162789A (zh) * | 2019-05-13 | 2019-08-23 | 北京一览群智数据科技有限责任公司 | 一种基于汉语拼音的词表征方法及装置 |
CN110163772A (zh) * | 2019-04-19 | 2019-08-23 | 杭州电子科技大学 | 一种基于BiLSTM-CRF的旅游行程路线生成方法 |
CN110222329A (zh) * | 2019-04-22 | 2019-09-10 | 平安科技(深圳)有限公司 | 一种基于深度学习的中文分词方法和装置 |
CN110222337A (zh) * | 2019-05-28 | 2019-09-10 | 浙江邦盛科技有限公司 | 一种基于transformer和CRF的中文地址分词方法 |
CN110286778A (zh) * | 2019-06-27 | 2019-09-27 | 北京金山安全软件有限公司 | 一种中文深度学习输入法、装置及电子设备 |
CN110348023A (zh) * | 2019-07-18 | 2019-10-18 | 北京香侬慧语科技有限责任公司 | 一种中文文本分词的方法、装置、存储介质及电子设备 |
CN110442720A (zh) * | 2019-08-09 | 2019-11-12 | 中国电子技术标准化研究院 | 一种基于lstm卷积神经网络的多标签文本分类方法 |
CN110750965A (zh) * | 2019-09-16 | 2020-02-04 | 平安科技(深圳)有限公司 | 英文文本序列标注方法、***及计算机设备 |
CN110969681A (zh) * | 2019-11-29 | 2020-04-07 | 山东浪潮人工智能研究院有限公司 | 一种基于gan网络的手写体书法文字生成方法 |
CN111062206A (zh) * | 2018-10-16 | 2020-04-24 | 株式会社理光 | 一种子词单元的拆分方法、装置及计算机可读存储介质 |
CN111368526A (zh) * | 2020-03-03 | 2020-07-03 | 支付宝(杭州)信息技术有限公司 | 一种序列标注方法和*** |
CN111932413A (zh) * | 2020-09-14 | 2020-11-13 | 平安国际智慧城市科技股份有限公司 | 案件要素提取方法、装置、设备及介质 |
CN112528657A (zh) * | 2020-12-23 | 2021-03-19 | 中移(杭州)信息技术有限公司 | 基于双向lstm的文本意图识别方法及装置、服务器和介质 |
CN112560478A (zh) * | 2020-12-16 | 2021-03-26 | 武汉大学 | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 |
CN112634858A (zh) * | 2020-12-16 | 2021-04-09 | 平安科技(深圳)有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
CN112633079A (zh) * | 2020-12-02 | 2021-04-09 | 山东山大鸥玛软件股份有限公司 | 一种手写英文单词识别方法及*** |
CN113051913A (zh) * | 2021-04-09 | 2021-06-29 | 中译语通科技股份有限公司 | 藏文分词信息处理方法、***、存储介质、终端及应用 |
WO2022073333A1 (zh) * | 2020-10-10 | 2022-04-14 | 苏州大学 | 基于多级词典的分词方法、装置、设备及可读存储介质 |
CN114510946A (zh) * | 2022-04-21 | 2022-05-17 | 山东师范大学 | 基于深度神经网络的中文命名实体识别方法及*** |
CN114757184A (zh) * | 2022-04-11 | 2022-07-15 | 中国航空综合技术研究所 | 实现航空领域知识问答的方法和*** |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
-
2018
- 2018-01-10 CN CN201810021528.5A patent/CN108268444B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
Non-Patent Citations (3)
Title |
---|
XUEZHE MA 等: ""End-to-end sequence Labeling via Bi-directional LSTM-CNNs-CRF"", 《ARXIV:1603.01354V5》 * |
张子睿 等: ""基于BI-LSTM-CRF模型的中文分词法"", 《长春理工大学学报(自然科学版)》 * |
黄积杨: ""基于双向LSTMN神经网络的中文分词研究分析"", 《中国优秀硕士论文学位论文全文数据库(电子期刊)信息科技辑》 * |
Cited By (62)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086267A (zh) * | 2018-07-11 | 2018-12-25 | 南京邮电大学 | 一种基于深度学习的中文分词方法 |
CN109120613A (zh) * | 2018-08-08 | 2019-01-01 | 北京云中轮科技咨询有限公司 | 通讯数据的监控方法和*** |
CN109213997A (zh) * | 2018-08-16 | 2019-01-15 | 昆明理工大学 | 一种基于双向长短时记忆网络模型的中文分词方法 |
CN109213997B (zh) * | 2018-08-16 | 2021-11-19 | 昆明理工大学 | 一种基于双向长短时记忆网络模型的中文分词方法 |
CN109344391A (zh) * | 2018-08-23 | 2019-02-15 | 昆明理工大学 | 基于神经网络的多特征融合中文新闻文本摘要生成方法 |
CN109165384A (zh) * | 2018-08-23 | 2019-01-08 | 成都四方伟业软件股份有限公司 | 一种命名实体识别方法及装置 |
CN109344391B (zh) * | 2018-08-23 | 2022-10-21 | 昆明理工大学 | 基于神经网络的多特征融合中文新闻文本摘要生成方法 |
CN109492217A (zh) * | 2018-10-11 | 2019-03-19 | 平安科技(深圳)有限公司 | 一种基于机器学习的分词方法及终端设备 |
CN111062206B (zh) * | 2018-10-16 | 2023-11-21 | 株式会社理光 | 一种子词单元的拆分方法、装置及计算机可读存储介质 |
CN111062206A (zh) * | 2018-10-16 | 2020-04-24 | 株式会社理光 | 一种子词单元的拆分方法、装置及计算机可读存储介质 |
CN109787699A (zh) * | 2018-10-18 | 2019-05-21 | 国网江苏省电力有限公司信息通信分公司 | 一种基于混合深度模型的无线传感器网络路由链路状态预测方法 |
CN109787699B (zh) * | 2018-10-18 | 2020-09-08 | 国网江苏省电力有限公司信息通信分公司 | 一种基于混合深度模型的无线传感器网络路由链路状态预测方法 |
CN109388806A (zh) * | 2018-10-26 | 2019-02-26 | 北京布本智能科技有限公司 | 一种基于深度学习及遗忘算法的中文分词方法 |
CN109388806B (zh) * | 2018-10-26 | 2023-06-27 | 北京布本智能科技有限公司 | 一种基于深度学习及遗忘算法的中文分词方法 |
CN109657229A (zh) * | 2018-10-31 | 2019-04-19 | 北京奇艺世纪科技有限公司 | 一种意图识别模型生成方法、意图识别方法及装置 |
CN109117472A (zh) * | 2018-11-12 | 2019-01-01 | 新疆大学 | 一种基于深度学习的维吾尔文命名实体识别方法 |
CN109492202A (zh) * | 2018-11-12 | 2019-03-19 | 浙江大学山东工业技术研究院 | 一种基于拼音的编码与解码模型的中文纠错方法 |
CN109492202B (zh) * | 2018-11-12 | 2022-12-27 | 浙江大学山东工业技术研究院 | 一种基于拼音的编码与解码模型的中文纠错方法 |
CN109460473A (zh) * | 2018-11-21 | 2019-03-12 | 中南大学 | 基于症状提取和特征表示的电子病历多标签分类方法 |
CN109800310A (zh) * | 2018-12-03 | 2019-05-24 | 国网浙江省电力有限公司杭州供电公司 | 一种基于结构化表达的电力运维文本分析方法 |
CN109800310B (zh) * | 2018-12-03 | 2021-11-09 | 国网浙江省电力有限公司杭州供电公司 | 一种基于结构化表达的电力运维文本分析方法 |
CN109710930A (zh) * | 2018-12-20 | 2019-05-03 | 重庆邮电大学 | 一种基于深度神经网络的中文简历解析方法 |
CN109545190A (zh) * | 2018-12-29 | 2019-03-29 | 联动优势科技有限公司 | 一种基于关键词的语音识别方法 |
CN109829159A (zh) * | 2019-01-29 | 2019-05-31 | 南京师范大学 | 一种古汉语文本的一体化自动词法分析方法及*** |
CN109829159B (zh) * | 2019-01-29 | 2020-02-18 | 南京师范大学 | 一种古汉语文本的一体化自动词法分析方法及*** |
CN109918681B (zh) * | 2019-03-29 | 2023-01-31 | 哈尔滨理工大学 | 一种基于汉字-拼音的融合问题语义匹配方法 |
CN109918681A (zh) * | 2019-03-29 | 2019-06-21 | 哈尔滨理工大学 | 一种基于汉字-拼音的融合问题语义匹配方法 |
CN110163772A (zh) * | 2019-04-19 | 2019-08-23 | 杭州电子科技大学 | 一种基于BiLSTM-CRF的旅游行程路线生成方法 |
WO2020215694A1 (zh) * | 2019-04-22 | 2020-10-29 | 平安科技(深圳)有限公司 | 一种基于深度学习的中文分词方法、装置、存储介质及计算机设备 |
CN110222329B (zh) * | 2019-04-22 | 2023-11-24 | 平安科技(深圳)有限公司 | 一种基于深度学习的中文分词方法和装置 |
JP7178513B2 (ja) | 2019-04-22 | 2022-11-25 | 平安科技(深▲せん▼)有限公司 | ディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器 |
CN110222329A (zh) * | 2019-04-22 | 2019-09-10 | 平安科技(深圳)有限公司 | 一种基于深度学习的中文分词方法和装置 |
JP2022530447A (ja) * | 2019-04-22 | 2022-06-29 | 平安科技(深▲せん▼)有限公司 | ディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器 |
CN110162789B (zh) * | 2019-05-13 | 2023-07-21 | 北京一览群智数据科技有限责任公司 | 一种基于汉语拼音的词表征方法及装置 |
CN110162789A (zh) * | 2019-05-13 | 2019-08-23 | 北京一览群智数据科技有限责任公司 | 一种基于汉语拼音的词表征方法及装置 |
CN110222337A (zh) * | 2019-05-28 | 2019-09-10 | 浙江邦盛科技有限公司 | 一种基于transformer和CRF的中文地址分词方法 |
CN110222337B (zh) * | 2019-05-28 | 2022-12-02 | 浙江邦盛科技股份有限公司 | 一种基于transformer和CRF的中文地址分词方法 |
CN110286778A (zh) * | 2019-06-27 | 2019-09-27 | 北京金山安全软件有限公司 | 一种中文深度学习输入法、装置及电子设备 |
CN110286778B (zh) * | 2019-06-27 | 2023-08-15 | 北京金山安全软件有限公司 | 一种中文深度学习输入法、装置及电子设备 |
CN110348023A (zh) * | 2019-07-18 | 2019-10-18 | 北京香侬慧语科技有限责任公司 | 一种中文文本分词的方法、装置、存储介质及电子设备 |
CN110442720A (zh) * | 2019-08-09 | 2019-11-12 | 中国电子技术标准化研究院 | 一种基于lstm卷积神经网络的多标签文本分类方法 |
CN110750965A (zh) * | 2019-09-16 | 2020-02-04 | 平安科技(深圳)有限公司 | 英文文本序列标注方法、***及计算机设备 |
CN110750965B (zh) * | 2019-09-16 | 2023-06-30 | 平安科技(深圳)有限公司 | 英文文本序列标注方法、***及计算机设备 |
WO2021051574A1 (zh) * | 2019-09-16 | 2021-03-25 | 平安科技(深圳)有限公司 | 英文文本序列标注方法、***及计算机设备 |
CN110969681B (zh) * | 2019-11-29 | 2023-08-29 | 山东浪潮科学研究院有限公司 | 一种基于gan网络的手写体书法文字生成方法 |
CN110969681A (zh) * | 2019-11-29 | 2020-04-07 | 山东浪潮人工智能研究院有限公司 | 一种基于gan网络的手写体书法文字生成方法 |
CN111368526B (zh) * | 2020-03-03 | 2023-04-25 | 支付宝(杭州)信息技术有限公司 | 一种序列标注方法和*** |
CN111368526A (zh) * | 2020-03-03 | 2020-07-03 | 支付宝(杭州)信息技术有限公司 | 一种序列标注方法和*** |
CN111932413B (zh) * | 2020-09-14 | 2021-01-12 | 平安国际智慧城市科技股份有限公司 | 案件要素提取方法、装置、设备及介质 |
CN111932413A (zh) * | 2020-09-14 | 2020-11-13 | 平安国际智慧城市科技股份有限公司 | 案件要素提取方法、装置、设备及介质 |
WO2022073333A1 (zh) * | 2020-10-10 | 2022-04-14 | 苏州大学 | 基于多级词典的分词方法、装置、设备及可读存储介质 |
CN112633079A (zh) * | 2020-12-02 | 2021-04-09 | 山东山大鸥玛软件股份有限公司 | 一种手写英文单词识别方法及*** |
CN112634858A (zh) * | 2020-12-16 | 2021-04-09 | 平安科技(深圳)有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
CN112560478A (zh) * | 2020-12-16 | 2021-03-26 | 武汉大学 | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 |
CN112634858B (zh) * | 2020-12-16 | 2024-01-23 | 平安科技(深圳)有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
CN112560478B (zh) * | 2020-12-16 | 2024-03-12 | 武汉大学 | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 |
CN112528657A (zh) * | 2020-12-23 | 2021-03-19 | 中移(杭州)信息技术有限公司 | 基于双向lstm的文本意图识别方法及装置、服务器和介质 |
CN113051913A (zh) * | 2021-04-09 | 2021-06-29 | 中译语通科技股份有限公司 | 藏文分词信息处理方法、***、存储介质、终端及应用 |
CN114757184A (zh) * | 2022-04-11 | 2022-07-15 | 中国航空综合技术研究所 | 实现航空领域知识问答的方法和*** |
CN114757184B (zh) * | 2022-04-11 | 2023-11-10 | 中国航空综合技术研究所 | 实现航空领域知识问答的方法和*** |
CN114510946B (zh) * | 2022-04-21 | 2022-08-23 | 山东师范大学 | 基于深度神经网络的中文命名实体识别方法及*** |
CN114510946A (zh) * | 2022-04-21 | 2022-05-17 | 山东师范大学 | 基于深度神经网络的中文命名实体识别方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN108268444B (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108268444A (zh) | 一种基于双向lstm、cnn和crf的中文分词方法 | |
CN109657239B (zh) | 基于注意力机制和语言模型学习的中文命名实体识别方法 | |
CN108763284B (zh) | 一种基于深度学习和主题模型的问答***实现方法 | |
CN108628823B (zh) | 结合注意力机制和多任务协同训练的命名实体识别方法 | |
CN107644014A (zh) | 一种基于双向lstm和crf的命名实体识别方法 | |
CN111832292B (zh) | 文本识别处理方法、装置、电子设备和存储介质 | |
CN108460013B (zh) | 一种基于细粒度词表示模型的序列标注模型及方法 | |
CN107145483B (zh) | 一种基于嵌入式表示的自适应中文分词方法 | |
CN108415977A (zh) | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 | |
CN107145484A (zh) | 一种基于隐多粒度局部特征的中文分词方法 | |
CN106126507A (zh) | 一种基于字符编码的深度神经翻译方法及*** | |
CN106569998A (zh) | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 | |
CN107924680A (zh) | 口语理解*** | |
CN107729311B (zh) | 一种融合文本语气的中文文本特征提取方法 | |
CN111125333B (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
CN113435211B (zh) | 一种结合外部知识的文本隐式情感分析方法 | |
CN110263325A (zh) | 中文分词*** | |
CN109284361A (zh) | 一种基于深度学习的实体抽取方法及*** | |
CN110188175A (zh) | 一种基于BiLSTM-CRF模型的问答对抽取方法、***及存储介质 | |
CN108647191A (zh) | 一种基于有监督情感文本和词向量的情感词典构建方法 | |
Zhang et al. | A BERT fine-tuning model for targeted sentiment analysis of Chinese online course reviews | |
CN110069611B (zh) | 一种主题增强的聊天机器人回复生成方法及装置 | |
CN113488196B (zh) | 一种药品说明书文本命名实体识别建模方法 | |
Chi et al. | Enhancing joint entity and relation extraction with language modeling and hierarchical attention | |
CN110532555A (zh) | 一种基于强化学习的语言评价生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |