CN109558569A - 一种基于BiLSTM+CRF模型的老挝语词性标注方法 - Google Patents
一种基于BiLSTM+CRF模型的老挝语词性标注方法 Download PDFInfo
- Publication number
- CN109558569A CN109558569A CN201811531266.3A CN201811531266A CN109558569A CN 109558569 A CN109558569 A CN 109558569A CN 201811531266 A CN201811531266 A CN 201811531266A CN 109558569 A CN109558569 A CN 109558569A
- Authority
- CN
- China
- Prior art keywords
- lstm
- speech
- bilstm
- word
- crf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 239000004744 fabric Substances 0.000 claims description 2
- 238000011160 research Methods 0.000 abstract description 4
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 241000283073 Equus caballus Species 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/221—Parsing markup language streams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于BiLSTM+CRF模型的老挝语词性标注方法,它属于自然语言处理和机器学习技术领域。BiLSTM是基于LSTM结构,BiLSTM可以利用上下文信息来进行词性标注。将一句待词性标注的句子输入到BiLSTM中,BiLSTM通过计算可以输出句中每个词的词性概率分布,传统的做法可以挑选每个分布的最大概率词性,来作为词性标注结果。但这样没有考虑到词性之间的影响,比如:量词后不能接动词等。因此引入CRF模型来解决这个问题,可以将CRF模型接到BiLSTM的输出层。利用基于BiLSTM与CRF的老挝语词性标注模型,可以有效的对老挝语进行词性标注,因此本发明具有一定的研究意义。
Description
技术领域
本发明涉及一种基于BiLSTM+CRF模型的老挝语词性标注方法,属于自然语言处理和机器学习技术领域。
背景技术
词性标注就是为句中每个词,确定其最佳词性的过程。词性标注是很多自然语言处理任务的预处理步骤之一,它是为后续更重要的工作做准备,例如:语法分析、信息提取等。早期研究使用的技术是基于规则的,但是规则制定非常繁琐。因此基于统计的方法得以发展,早期统计方法研究使用的模型有隐马科夫模型、条件随机场(CRF)模型与最大熵模型。由于深度学习的兴起,研究开始转向用深度学习来进行词性标注的研究,取得了不错的成果。但目前这个技术思想没有在老挝语词性标注中研究过,而且模型也是自己搭建。
发明内容
本发明的目的是提供一种基于BiLSTM+CRF模型的老挝语词性标注方法,通过对深度学习的双向长短时记忆循环神经网络BiLSTM技术与传统统计方法条件随机场CRF进行研究,将其使用于老挝语词性标注中,在实验中并取得了不错的效果。
本发明采用的技术方案是:一种基于BiLSTM+CRF模型的老挝语词性标注方法,包括如下步骤:
Step1、BiLSTM+CRF模型的构建
基于BiLSTM与CRF的老挝语词性标注模型,其包括五层:输入层、前向LSTM层、后向LSTM层、全连接层与CRF层;
(1)输入层:
输入层接收的数据是具有n个词的老挝句子W1…Wt…Wn,词在进入BiLSTM前需要转换为数字的形式才能进行计算,因此在输入层构建一个词向量矩阵,每个老挝词都可以在词向量矩阵中找到其对应的词向量,词向量的值代表该词的特征,词向量也将代表词输入到前向LSTM 层、后向LSTM层中对应的LSTM,进行计算词信息;
(2)前向LSTM层:
前向LSTM层由LSTM构成,LSTM决定信息的保留、输出与删除,来自输入层老挝句子中每个词的词向量将按序输入到对应的LSTM中,LSTM按输入顺序正向连接,每个LSTM输出两部分词信息:前向状态信息FS及前向输出信息FH,信息都以矩阵的形式呈现,前向状态信息会一直在该层传递下去,参与下一个LSTM的计算,而前向输出信息将输出到全连接层计算词性概率分布;
(3)后向LSTM层:
后向LSTM层也是由LSTM构成,来自输入层老挝句子中每个词的词向量按序输入到对应的LSTM中,但LSTM按输入顺序逆向连接,每个LSTM输出两部分词信息:后向状态信息BS及后向输出信息BH,后向状态信息将一直在该层传递下去,参与下一个LSTM的计算,而后向输出信息将输出到全连接层计算词性概率分布;
(4)全连接层:
全连接层由简单的神经网络单元构成,每个单元接收的数据是由前、后向LSTM层输出的前向输出信息FH、后向输出信息BH,FH与BH在单元里经过计算,将得到词性概率分布;
(5)CRF层:
全连接层得到每个词的概率分布后,CRF模型利用这些分布为句子计算出最佳词性标注序列,CRF层在保证从每个分布中挑选较大概率词性的同时,也将考虑词性之间的相互影响;
Step2、BiLSTM+CRF模型的训练
训练BiLSTM+CRF模型使用的是老挝语篇章词性标注语料,即:多篇被标注词性的老挝语文章,训练首先使用基于句子级别的对数似然函数,来计算全连接层得到的词性概率分布与老挝语篇章词性标注语料中词性真实分布的差距,然后使用Adam算法来减小差距,以此训练 BiLSTM+CRF模型的参数,直到模型达到稳定,即差距值接近0,模型达到稳定后,就可以得到基于BiLSTM与CRF的老挝语词性标注模型,将需要词性标注的句子输入到老挝语词性标注模型的输入层,CRF层就会输出句子中每个词的词性。
本发明的有益效果是:
1、本发明采用了深度学习的BiLSTM结构,BiLSTM结构对学习句子前后信息有着不错的效果。
2、本发明使用CRF模型,CRF模型可以考虑词性间的相互影响,接在BiLSTM结构的最后一层,对词性的选择非常有效。
3、本发明实验结果表明,本发明提出老挝语词性标注模型的词性标注准确率高于所有传统的统计模型。
附图说明
图1为本发明中的总体流程图;
图2为基于实例的BiLSTM+CRF模型。
具体实施方式
为了更详细的描述本发明和便于本领域人员的理解,下面结合附图以及实施例对本发明做进一步的描述,本部分的实施例用于解释说明本发明,便于理解的目的,不以此来限制本发明。
实施例1:如图1-2所示,一种基于BiLSTM+CRF模型的老挝语词性标注方法,具体步骤如下:
Step1、BiLSTM+CRF模型
由图2所示,使用了有3个词的老挝句子(财政部说),对BiLSTM+CRF模型及工作流程进行讲解。
(1)输入层:
输入层用来输入句子的3个词,每个词都会进入词向量矩阵中,找到自己的词向量。3 个词的词向量也将输入到前向、后向LSTM层中对应的LSTM结构中,进行计算词信息;
(2)前向LSTM层:
前向LSTM层由3个LSTM(L)构成。句子(财政部说) 中的每个词的词向量都会进入对应的L单元计算词信息:前向状态信息(FS)及前向输出信息(FH)。以L1为例,句子首个词(金库)的词向量进入L1中计算得到:前向状态信息(FS1)及前向输出信息(FH1)。前向状态信息(FS1)会一直在该层传递下去,参与下一个LSTM(L2)的计算,而前向输出信息(FH1)将输出到全连接层计算词性概率分布;
(3)后向LSTM层:
后向LSTM层由3个LSTM(R)构成。工作方法与前向LSTM层相同,但LSTM按输入顺序逆向连接;
(4)全连接层:
全连接层由3个简单的神经网络单元(Cell)构成,每个Cell接收前、后向输出信息(FH 与BH)作为输入。以Cell2为例,讲解该层的计算及输出信息内容:Cell2接收来自后向LSTM 层的BH2与来自前向LSTM层的FH2作为输入值,在Cell2中经过计算将得到词(宣称)的词性概率分布,将输入到CRF层;
(5)CRF层:
由全连接可以得到句子(财政部说)中的每个词的概率分布,需要将这些集合输入到CRF层。CRF层会保证从每个分布中挑选较大概率词性同时,也将考虑词性之间的相互影响;
Step2、BiLSTM+CRF模型的训练
训练BiLSTM+CRF模型使用的是老挝语篇章词性标注语料,即:多篇被标注词性的老挝语文章,训练首先使用基于句子级别的对数似然函数,来计算全连接层得到的词性概率分布与老挝语篇章词性标注语料中词性真实分布的差距,然后使用Adam算法来减小差距,以此训练 BiLSTM+CRF模型的参数,直到模型达到稳定,即差距值接近0,模型达到稳定后,就可以得到基于BiLSTM与CRF的老挝语词性标注模型,将需要词性标注的句子输入到老挝语词性标注模型的输入层,CRF层就会输出句子中每个词的词性。
本实施例中,老挝语篇章词性标注语料是多篇被标注词性的老挝语文章,以文章中一段句子为例:(美国没有公布广告费用)。
BiLSTM是基于LSTM结构,LSTM结构是时间递归神经网络,适合用于处理时间序列中间隔比较长的任务,例如:机器翻译、图像识别、词性标注等。由于LSTM结构是时间递归的,因此使用单向的LSTM结构在对句子进行词性标注任务时,不能利用上下文信息,只能利用单方向的信息。而BiLSTM的引进就是解决这个问题,可以利用上下文信息来进行词性标注。将一句待词性标注的句子输入到BiLSTM中,BiLSTM通过计算可以输出句中每个词的词性概率分布,传统的做法可以挑选每个分布的最大概率词性,来作为词性标注结果。但这样没有考虑到词性之间的影响,比如:量词后不能接动词等。因此引入CRF模型来解决这个问题,可以将CRF模型接到BiLSTM的输出层。利用基于BiLSTM与CRF的老挝语词性标注模型,可以有效的对老挝语进行词性标注,因此本发明具有一定的研究意义。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (1)
1.一种基于BiLSTM+CRF模型的老挝语词性标注方法,其特征在于:包括如下步骤:
Step1、BiLSTM+CRF模型的构建
基于BiLSTM与CRF的老挝语词性标注模型,其包括五层:输入层、前向LSTM层、后向LSTM层、全连接层与CRF层;
(1)输入层:
输入层接收的数据是具有n个词的老挝句子W1…Wt…Wn,词在进入BiLSTM前需要转换为数字的形式才能进行计算,因此在输入层构建一个词向量矩阵,每个老挝词都可以在词向量矩阵中找到其对应的词向量,词向量的值代表该词的特征,词向量也将代表词输入到前向LSTM层、后向LSTM层中对应的LSTM,进行计算词信息;
(2)前向LSTM层:
前向LSTM层由LSTM构成,LSTM决定信息的保留、输出与删除,来自输入层老挝句子中每个词的词向量将按序输入到对应的LSTM中,LSTM按输入顺序正向连接,每个LSTM输出两部分词信息:前向状态信息FS及前向输出信息FH,信息都以矩阵的形式呈现,前向状态信息会一直在该层传递下去,参与下一个LSTM的计算,而前向输出信息将输出到全连接层计算词性概率分布;
(3)后向LSTM层:
后向LSTM层也是由LSTM构成,来自输入层老挝句子中每个词的词向量按序输入到对应的LSTM中,但LSTM按输入顺序逆向连接,每个LSTM输出两部分词信息:后向状态信息BS及后向输出信息BH,后向状态信息将一直在该层传递下去,参与下一个LSTM的计算,而后向输出信息将输出到全连接层计算词性概率分布;
(4)全连接层:
全连接层由简单的神经网络单元构成,每个单元接收的数据是由前、后向LSTM层输出的前向输出信息FH、后向输出信息BH,FH与BH在单元里经过计算,将得到词性概率分布;
(5)CRF层:
全连接层得到每个词的概率分布后,CRF模型利用这些分布为句子计算出最佳词性标注序列,CRF层在保证从每个分布中挑选较大概率词性的同时,也将考虑词性之间的相互影响;
Step2、BiLSTM+CRF模型的训练
训练BiLSTM+CRF模型使用的是老挝语篇章词性标注语料,即:多篇被标注词性的老挝语文章,训练首先使用基于句子级别的对数似然函数,来计算全连接层得到的词性概率分布与老挝语篇章词性标注语料中词性真实分布的差距,然后使用Adam算法来减小差距,以此训练BiLSTM+CRF模型的参数,直到模型达到稳定,即差距值接近0,模型达到稳定后,就可以得到基于BiLSTM与CRF的老挝语词性标注模型,将需要词性标注的句子输入到老挝语词性标注模型的输入层,CRF层就会输出句子中每个词的词性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811531266.3A CN109558569A (zh) | 2018-12-14 | 2018-12-14 | 一种基于BiLSTM+CRF模型的老挝语词性标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811531266.3A CN109558569A (zh) | 2018-12-14 | 2018-12-14 | 一种基于BiLSTM+CRF模型的老挝语词性标注方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109558569A true CN109558569A (zh) | 2019-04-02 |
Family
ID=65870089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811531266.3A Pending CN109558569A (zh) | 2018-12-14 | 2018-12-14 | 一种基于BiLSTM+CRF模型的老挝语词性标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109558569A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489750A (zh) * | 2019-08-12 | 2019-11-22 | 昆明理工大学 | 基于双向lstm-crf的缅甸语分词及词性标注方法及装置 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN113468890A (zh) * | 2021-07-20 | 2021-10-01 | 南京信息工程大学 | 基于nlp信息萃取与词性规则的沉积学文献挖掘方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN107622050A (zh) * | 2017-09-14 | 2018-01-23 | 武汉烽火普天信息技术有限公司 | 基于Bi‑LSTM和CRF的文本序列标注***及方法 |
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
US20180225281A1 (en) * | 2017-02-06 | 2018-08-09 | Thomson Reuters Global Resources Unlimited Company | Systems and Methods for Automatic Semantic Token Tagging |
-
2018
- 2018-12-14 CN CN201811531266.3A patent/CN109558569A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
US20180225281A1 (en) * | 2017-02-06 | 2018-08-09 | Thomson Reuters Global Resources Unlimited Company | Systems and Methods for Automatic Semantic Token Tagging |
CN107622050A (zh) * | 2017-09-14 | 2018-01-23 | 武汉烽火普天信息技术有限公司 | 基于Bi‑LSTM和CRF的文本序列标注***及方法 |
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
Non-Patent Citations (1)
Title |
---|
ZHIHENG HUANG ET.AL: "Bidirectional LSTM-CRF Models for Sequence Tagging", 《ARXIV:1508,01991V1》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489750A (zh) * | 2019-08-12 | 2019-11-22 | 昆明理工大学 | 基于双向lstm-crf的缅甸语分词及词性标注方法及装置 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN113468890A (zh) * | 2021-07-20 | 2021-10-01 | 南京信息工程大学 | 基于nlp信息萃取与词性规则的沉积学文献挖掘方法 |
CN113468890B (zh) * | 2021-07-20 | 2023-05-26 | 南京信息工程大学 | 基于nlp信息萃取与词性规则的沉积学文献挖掘方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110222349B (zh) | 一种深度动态上下文词语表示的方法及计算机 | |
CN108460013B (zh) | 一种基于细粒度词表示模型的序列标注模型及方法 | |
WO2021155699A1 (zh) | 面向中文长文本自动摘要的全局编码方法 | |
CN109086270B (zh) | 基于古诗词语料向量化的自动作诗***及其方法 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及*** | |
CN110457661B (zh) | 自然语言生成方法、装置、设备及存储介质 | |
CN109558569A (zh) | 一种基于BiLSTM+CRF模型的老挝语词性标注方法 | |
CN112183058B (zh) | 基于bert句子向量输入的诗词生成方法及装置 | |
Chen et al. | Delving deeper into the decoder for video captioning | |
CN108491386A (zh) | 自然语言理解方法及*** | |
CN110188175A (zh) | 一种基于BiLSTM-CRF模型的问答对抽取方法、***及存储介质 | |
CN111222338A (zh) | 基于预训练模型和自注意力机制的生物医学关系抽取方法 | |
CN107679225A (zh) | 一种基于关键词的回复生成方法 | |
CN110188348A (zh) | 一种基于深度神经网络的中文语言处理模型及方法 | |
Dethlefs | Domain transfer for deep natural language generation from abstract meaning representations | |
CN109933773A (zh) | 一种多重语义语句解析***及方法 | |
CN109508457A (zh) | 一种基于机器阅读到序列模型的迁移学习方法 | |
CN112287106A (zh) | 一种基于双通道混合神经网络的在线评论情感分类方法 | |
CN110334196A (zh) | 基于笔画和自注意力机制的神经网络中文问题生成*** | |
CN114444481B (zh) | 一种新闻评论的情感分析与生成方法 | |
CN112883722A (zh) | 一种基于云数据中心分布式文本摘要方法 | |
Zhang et al. | Performance comparisons of Bi-LSTM and Bi-GRU networks in Chinese word segmentation | |
CN111832302A (zh) | 一种命名实体识别方法和装置 | |
Zhang et al. | Keyword-driven image captioning via Context-dependent Bilateral LSTM | |
Wen et al. | Visual prompt tuning for few-shot text classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190402 |
|
RJ01 | Rejection of invention patent application after publication |