CN113111654B - 一种基于分词工具共性信息和部分监督学习的分词方法 - Google Patents
一种基于分词工具共性信息和部分监督学习的分词方法 Download PDFInfo
- Publication number
- CN113111654B CN113111654B CN202110381471.1A CN202110381471A CN113111654B CN 113111654 B CN113111654 B CN 113111654B CN 202110381471 A CN202110381471 A CN 202110381471A CN 113111654 B CN113111654 B CN 113111654B
- Authority
- CN
- China
- Prior art keywords
- word segmentation
- model
- data
- sentence
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于分词工具共性信息和部分监督学习的分词方法。本发明步骤如下:(1)使用大量无标注数据和BiLSTM神经网络预训练一个具有多种分词工具共性信息的BiLSTM模块,获得训练好的BiLSTM神经网络模块;(2)使用少量标注数据训练初始分词模型,得到基于卷积神经网络和多种分词工具共性信息的初始分词模型M0。(3)利用M0对大量无标注数据集进行标注,得到大量伪标签数据。修改M0中的损失函数,利用少量标注数据和大量伪标签数据共同训练损失函数修改后的M0,得到基于多种分词工具共性信息和部分监督学习的中文分词模型M1。(4)迭代步骤(3)n次,得到最终分词模型Mn。本发明提高跨领域中文分词的准确率。
Description
技术领域
本发明涉及中文分词任务,具体来讲是一种基于分词工具共性信息和部分监督学习的分词方法,属于自然语言处理技术领域。
背景技术
近几年,基于神经网络的中文分词模型在分词准确率上取得了非常好的效果。然而,现有的中文分词方法和分词工具在特殊领域的分词准确率往往会急剧下降,跨领域分词成为中文分词的难点。针对缺乏标注数据领域的中文分词问题,提出了一种融合分词工具共性信息和部分监督学习的分词方法。它将少量目标领域标注数据的直接监督和大量目标领域无标注数据的训练相结合,通过迭代训练逐步优化模型,提高分词模型的领域适应性。该方法在跨领域的多个数据集上进行实验,实验结果表明,该方法在多个数据集的评价指标均优于对比模型,证明了本文方法的有效性。
发明内容
本发明针对现有中文分词标注数据不足和领域适应性问题,公开一种融合多种分词工具共性信息和部分监督学习的跨域中文分词方法,提高跨领域分词的准确率。
本发明解决其技术问题所采用的技术方案包括以下步骤:
一种基于分词工具共性信息和部分监督学习的分词方法。按照如下步骤进行:
步骤(1)使用大量无标注数据和BiLSTM神经网络预训练一个具有多种分词工具共性信息的BiLSTM模块,获得训练好的BiLSTM神经网络模块;所述的BiLSTM神经网络模块是初始分词模型的一部分。
步骤(2)使用少量标注数据训练初始分词模型,得到一个基于卷积神经网络和多种分词工具共性信息的初始分词模型M0。
步骤(3)利用初始分词模型M0对大量无标注数据集进行标注,得到大量伪标签数据。修改初始分词模型M0中的损失函数,利用少量标注数据和大量伪标签数据共同训练损失函数修改后的分词模型M0,得到基于多种分词工具共性信息和部分监督学习的中文分词模型M1。
步骤(4)迭代步骤(3),直到n次,得到最终分词模型Mn。
进一步的,步骤(1)具体为:
1-1用现有的四种分词工具(Jieba,THULAC,SnowNLP和Stanford)分别对大量无标注数据进行标注,并在句子的首尾加上准则标记。
1-2使用步骤1-1获得的标注数据作为输入,BiLSTM神经网络作为特征提取层,预训练一个富含多种分词工具共性信息的BiLSTM神经网络模块。
1-3BiLSTM神经网络模块以字符嵌入为输入,输出含有多个分词工具共性信息的上下文表示:
进一步的,步骤(2)具体为:
2-3将特征提取层的输出输入到CRF层解码。
对于输入句子x=[c1,c2...cn],通过初始分词模型M0可以获得一个预测标签序列y=[y1,y2...yn],这个预测标签序列打分的公式如下:
其中,Yx表示句子x所有可能的标注序列集合,y'表示随机的一个标注序列损失函数的公式如下:
其中,xi是第i个训练句子,yi是这个句子正确的标签序列,Nl是训练集中标注句子的数量,θ是初始分词模型的所有参数。
进一步的,步骤(3)具体为:
3-1.使用初始分词模型M0对大量无标注数据进行标注,获得伪标签数据集PUL。
3-2.利用少量标注数据和步骤3-1获得的伪标签数据集PUL共同训练初始分词模型M0,伪标签标注数据的损失函数被定义为:
其中,θt-1是第t-1次迭代学习到的模型参数,Nu为伪标签数据集中句子的数量,p(yi|xi;θt-1)是根据上一轮迭代的模型θt-1对伪标签句子xi生成标签yi的概率分布。
进一步的,步骤(4)具体为:
按照步骤(3)的流程迭代的训练模型。此时,模型的更新既基于标注数据,也基于无标注数据。在第t次迭代,模型更新的目标函数为:
其中,θt是第t次迭代学习到的模型参数,l(θt)是标注数据的损失函数,lUL(θt)是伪标注数据的损失函数,λ是一个可训练的参数。
本发明由于采取以上技术方案,具有如下优点:本发明融合多种分词工具共性信息和部分监督学习缓解特定领域标注数据不足的问题,提高跨领域中文分词的准确率。在同等标注数据的情况下,融合多种分词工具共性信息可以将分词模型的准确率提升约3.2%,融合无标注数据进行迭代训练后可进一步提升约2.8%。标注数据越少,本文方法相对于其他方法的优势越明显。
附图说明
图1是本发明的整体实施流程图;
图2是融入无标注数据的训练流程图;
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种基于分词工具共性信息和部分监督学习的分词方法。按照如下步骤进行:
步骤(1)使用大量无标注数据和BiLSTM神经网络预训练一个具有多种分词工具共性信息的BiLSTM模块,获得训练好的BiLSTM神经网络模块;所述的BiLSTM神经网络模块是初始分词模型的一部分。
步骤(2)使用少量标注数据训练初始分词模型,得到一个基于卷积神经网络和多种分词工具共性信息的初始分词模型M0。
步骤(3)利用初始分词模型M0对大量无标注数据集进行标注,得到大量伪标签数据。修改初始分词模型M0中的损失函数,利用少量标注数据和大量伪标签数据共同训练损失函数修改后的分词模型M0,得到基于多种分词工具共性信息和部分监督学习的中文分词模型M1。
步骤(4)迭代步骤(3),直到n次,得到最终分词模型Mn。
进一步的,步骤(1)具体为:
1-1用现有的四种分词工具(Jieba,THULAC,SnowNLP和Stanford)分别对大量无标注数据进行标注,并在句子的首尾加上准则标记。
1-2使用步骤1-1获得的标注数据作为输入,BiLSTM神经网络作为特征提取层,预训练一个富含多种分词工具共性信息的BiLSTM神经网络模块。
1-3BiLSTM神经网络模块以字符嵌入为输入,输出含有多个分词工具共性信息的上下文表示:
进一步的,步骤(2)具体为:
2-3将特征提取层的输出输入到CRF层解码。
对于输入句子x=[c1,c2...cn],通过初始分词模型M0可以获得一个预测标签序列y=[y1,y2...yn],这个预测标签序列打分的公式如下:
其中,Yx表示句子x所有可能的标注序列集合,y'表示随机的一个标注序列损失函数的公式如下:
其中,xi是第i个训练句子,yi是这个句子正确的标签序列,Nl是训练集中标注句子的数量,θ是初始分词模型的所有参数。
进一步的,步骤(3)具体为:
3-1使用分词模型1对无标注数据进行标注,获得伪标签数据集PUL。
3-2融合无标注数据来训练神经网络分词模型,无标注数据的损失函数被定义为:
其中,θt-1是第t-1次迭代学习到的模型参数,Nu为无标注句子的数量,p(yi|xi;θt-1)是根据上一轮迭代的模型θt-1对无标注句子xi生成标签yi的概率分布。
进一步的,步骤(4)具体为:
按照步骤(3)的流程迭代的训练模型。此时,模型的更新既基于标注数据,也基于无标注数据。在第t次迭代,模型更新的目标函数为:
其中,θt是第t次迭代学习到的模型参数,l(θt)是标注数据的损失函数,lUL(θt)是伪标注数据的损失函数,λ是一个可训练的参数。
Claims (4)
1.一种基于分词工具共性信息和部分监督学习的分词方法,其特征在于包括如下步骤:
步骤(1)使用大量无标注数据和BiLSTM神经网络预训练一个具有多种分词工具共性信息的BiLSTM模块,获得训练好的BiLSTM神经网络模块;所述的BiLSTM神经网络模块是初始分词模型的一部分;
步骤(2)使用少量标注数据训练初始分词模型,得到一个基于卷积神经网络和多种分词工具共性信息的分词模型M0;
步骤(3)利用分词模型M0对大量无标注数据集进行标注,得到大量伪标签数据;修改分词模型M0中的损失函数,利用少量标注数据和大量伪标签数据共同训练损失函数修改后的分词模型M0,得到基于多种分词工具共性信息和部分监督学习的中文分词模型M1;
步骤(4)迭代步骤(3),直到n次,得到最终分词模型Mn;
步骤(2)具体为:
2-3.将特征提取层的输出输入到CRF层解码;
对于输入句子x=[c1,c2...cn],通过初始分词模型M0可以获得一个预测标签序列y=[y1,y2...yn],这个预测标签序列打分的公式如下:
其中,Yx表示句子x所有可能的标注序列集合,y′表示随机的一个标注序列;
损失函数的公式如下:
其中,xi是第i个训练句子,yi是这个句子正确的标签序列,Nl是训练集中标注句子的数量,θ是初始分词模型的模型参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110381471.1A CN113111654B (zh) | 2021-04-09 | 2021-04-09 | 一种基于分词工具共性信息和部分监督学习的分词方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110381471.1A CN113111654B (zh) | 2021-04-09 | 2021-04-09 | 一种基于分词工具共性信息和部分监督学习的分词方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113111654A CN113111654A (zh) | 2021-07-13 |
CN113111654B true CN113111654B (zh) | 2022-03-08 |
Family
ID=76715169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110381471.1A Active CN113111654B (zh) | 2021-04-09 | 2021-04-09 | 一种基于分词工具共性信息和部分监督学习的分词方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113111654B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591488A (zh) * | 2021-08-04 | 2021-11-02 | 山西长河科技股份有限公司 | 一种语义分析方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
CN111507103A (zh) * | 2020-03-09 | 2020-08-07 | 杭州电子科技大学 | 一种利用部分标注集的自训练神经网络分词模型 |
CN111581964A (zh) * | 2020-04-24 | 2020-08-25 | 西安交通大学 | 一种汉语古籍的主题分析方法 |
WO2021043015A1 (zh) * | 2019-09-05 | 2021-03-11 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置、神经网络训练方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145483B (zh) * | 2017-04-24 | 2018-09-04 | 北京邮电大学 | 一种基于嵌入式表示的自适应中文分词方法 |
-
2021
- 2021-04-09 CN CN202110381471.1A patent/CN113111654B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
WO2021043015A1 (zh) * | 2019-09-05 | 2021-03-11 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置、神经网络训练方法及装置 |
CN111507103A (zh) * | 2020-03-09 | 2020-08-07 | 杭州电子科技大学 | 一种利用部分标注集的自训练神经网络分词模型 |
CN111581964A (zh) * | 2020-04-24 | 2020-08-25 | 西安交通大学 | 一种汉语古籍的主题分析方法 |
Non-Patent Citations (1)
Title |
---|
面向少量标注数据的中文命名实体识别技术研究;孔玲玲;《中国优秀硕士学位论文全文数据库》;20190815;I138-1414 * |
Also Published As
Publication number | Publication date |
---|---|
CN113111654A (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444721B (zh) | 一种基于预训练语言模型的中文文本关键信息抽取方法 | |
CN108959252B (zh) | 基于深度学习的半监督中文命名实体识别方法 | |
CN110059185B (zh) | 一种医学文档专业词汇自动化标注方法 | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN110008469B (zh) | 一种多层次命名实体识别方法 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN109543181B (zh) | 一种基于主动学习和深度学习相结合的命名实体模型和*** | |
CN111694924A (zh) | 一种事件抽取方法和*** | |
CN106980609A (zh) | 一种基于词向量表示的条件随机场的命名实体识别方法 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN110837736B (zh) | 一种基于字结构的中文医疗记录的命名实体识别方法 | |
CN111581970B (zh) | 一种网络语境的文本识别方法、装置及存储介质 | |
CN111460824A (zh) | 一种基于对抗迁移学习的无标注命名实体识别方法 | |
CN114756681B (zh) | 一种基于多注意力融合的评教文本细粒度建议挖掘方法 | |
CN115510864A (zh) | 一种融合领域词典的中文农作物病虫害命名实体识别方法 | |
CN112434686B (zh) | 针对ocr图片的端到端含错文本分类识别仪 | |
CN115034218A (zh) | 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法 | |
CN114386417A (zh) | 一种融入词边界信息的中文嵌套命名实体识别方法 | |
CN113111654B (zh) | 一种基于分词工具共性信息和部分监督学习的分词方法 | |
CN111444720A (zh) | 一种英文文本的命名实体识别方法 | |
CN113312918B (zh) | 融合部首向量的分词和胶囊网络法律命名实体识别方法 | |
CN114417872A (zh) | 一种合同文本命名实体识别方法及*** | |
CN116776876A (zh) | 一种基于InterFormer-BERT模型和***特殊标记的中文命名实体识别方法 | |
CN114970537B (zh) | 基于多层标注策略的跨境民族文化实体关系抽取方法及装置 | |
CN116166768A (zh) | 一种基于规则的文本知识抽取方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |