CN108090070B - 一种中文实体属性抽取方法 - Google Patents

一种中文实体属性抽取方法 Download PDF

Info

Publication number
CN108090070B
CN108090070B CN201611031896.5A CN201611031896A CN108090070B CN 108090070 B CN108090070 B CN 108090070B CN 201611031896 A CN201611031896 A CN 201611031896A CN 108090070 B CN108090070 B CN 108090070B
Authority
CN
China
Prior art keywords
data
entry
training
page
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611031896.5A
Other languages
English (en)
Other versions
CN108090070A (zh
Inventor
赫中翮
王志超
周忠诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Sifang Tianjian Information Technology Co., Ltd
Original Assignee
Hunan Sifang Tianjian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Sifang Tianjian Information Technology Co Ltd filed Critical Hunan Sifang Tianjian Information Technology Co Ltd
Priority to CN201611031896.5A priority Critical patent/CN108090070B/zh
Publication of CN108090070A publication Critical patent/CN108090070A/zh
Application granted granted Critical
Publication of CN108090070B publication Critical patent/CN108090070B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种中文实体属性抽取方法,该方法包括提取百度百科词条页面的文本、使用词条标签对页面过滤、使用剩余页面中信息框的数据进行远程标注获得训练数据、对训练数据进行分词和泛化、将泛化后的训练数据转化为词向量,然后经过分类器后得到分类结果,并填充到对应类别的属性槽中;本中文实体属性抽取方法,不需要人工定义特征以及其他的额外资源,得益于双向LSTM模型能从句子正反两个方向利用以前信息和未来信息进行特征学习的特性,在实体属性抽取任务中具有更高的准确率。

Description

一种中文实体属性抽取方法
技术领域
本发明涉及信息抽取技术领域,具体为一种中文实体属性抽取方法。
背景技术
随着互联网的飞速发展,通过网络获取的数据也呈指数级增长,如何从这些海量数据中快速、准确地分析出真正有用的信息,显得尤为关键和紧迫。而这正是信息抽取这一研究领域力图解决的问题。实体属性、关系抽取是信息抽取任务之一,目的是从非结构化文本中抽取实体属性以及实体之间的关系。该任务是基于命名实体识别的一种更深层次的研究,能够为事件抽取,自动问答,机器翻译以及自然语言处理相关领域的研究提供前提保障。
目前,中文实体属性抽取算法主要有两种,第一种是基于规则匹配的方法,对于开放网页文本结构不固定、数据源格式众多的特点,该方法不仅要定义大量的规则,而且匹配效率很低,不利于工程推广。第二种是一个是基于传统机器学***面,从而将各样本的特征划分到不同的类别中。最大熵原理认为,学习概率模型时,在所有可能的概率模型中,熵值最大的模型是最好的模型。也就是说,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。然而对于自然语言的语义分析任务,传统的机器学习算法,对训练数据有极强的依赖性,需要人工标注大量数据,而且只能使用浅层的特征对数据分类,致使抽取性能较差。
机器对中文句子进行语义理解一直以来是NLP中的一个难题,但随着人工神经网络(ANN)对数据的理解逐渐加深,人们开始使用人工神经网络来解决这一难题,并且针对不同的任务出现了不同种类神经网络模型。但是,这些网络模型对于句子的语义理解依旧存在“梯度的爆发与消失”问题。
在基于机器学习的知识抽取过程中,还有一大难题是如何得到足够数量的训练数据集。现阶段,权威的人工标注数据集的数量较少,而自行构建一个人工标注数据集既费时又费力。
发明内容
本发明的目的在于提供一种中文实体属性抽取方法,不需要人工定义特征以及其他的额外资源,得益于双向LSTM模型能从句子正反两个方向利用以前信息和未来信息进行特征学习的特性,在实体属性抽取任务中具有更高的准确率,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种中文实体属性抽取方法,包括以下抽取步骤:
S1:提取百度百科词条页面的文本,从中获得百科信息框、词条标签等信息;
S2:使用词条标签对页面过滤,保留与目标类标签相关的词条页面;
S3:将过滤后的词条页面中信息框的数据作为输入,使用远距离监督方式抽取出自动标注的训练数据;
S4:对训练数据进行分词和泛化;
S5:使用Word2Vec工具,将泛化后的训练数据转化为词向量;
S6:将处理后的词向量作为抽取分类器的训练集,迭代训练双向LSTM深度学习网络分类器;
S7:对自由文本重复步骤S4的方法进行分词和泛化,然后经过分类器得到分类结果,并填充到类别对应的属性槽中。
优选的,所述步骤S1包括以下提取过程:
S1-1:假设待爬取URL集合
Figure GDA0001178536920000031
已爬URL集合
Figure GDA0001178536920000032
选择种子页面集合P,则W=P;
S1-2:从W中选择一个URL,p,爬取页面提取出其中的标签、信息框数据,以及网页中所有的百科和百度域名下的锚文本集合L,则A=A∪CL L∩A,W=W-{p}+CL L∩A
S1-3:循环上述S1-2过程,直至
Figure GDA0001178536920000033
S1-4:若数据集不够,则选择新的种子,重复S1-2过程到S1-3过程;
S1-5:否则,停止爬取。
优选的,所述步骤S3包括以下提取过程:
S3-1:假设当前输入词条是d,读取词条信息框中每个属性对集合Q;
S3-2:对于每一个属性对q,读取属性标签pi以及对应的属性值vi,在互联网中搜索同时包含d和vi的句子s;
S3-3:句子s作为训练语句,pi作为该句子所属的类别,共同构成标注数据,并将其加入至训练集中;
S3-4:循环步骤S3-2和步骤S3-3,直到
Figure GDA0001178536920000041
优选的,所述步骤S4对训练数据进行分词和泛化,包括以下过程:
S4-1:假设标注数据集为D,读取一条标注数据di;
S4-2:使用HanLP工具对di分词;
S4-3:依照分词结果中的词性标记,将词性相同的几个连续词合并,用词性代替;
S4-4:依照词性标记,将名词用n替换,动词用v替换,命名实体用ner替换,数词用num替换;
S4-5:重复S4-2过程到S4-4过程,直到所有数据标注完成。
优选的,所述LSTM网络模型最后添加有dropout层,且比例设置为40%,batch大小设置为32,迭代次数设置为10次。
与现有技术相比,本发明的有益效果是:本中文实体属性抽取方法,通过使用一个双向LSTM神经网络来学习实体之间的关系特征,与以往的方法比,这种方法不需要人工定义特征以及其他的额外资源,得益于双向LSTM模型能从句子正反两个方向利用以前信息和未来信息进行特征学习的特性,采用本方法得到的抽取模型较之其他用传统方法生成的模型在实体属性抽取任务中具有更高的准确率。
附图说明
图1为本发明的原理框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行亲楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种技术方案:一种中文实体属性抽取方法,包括以下抽取步骤:
第一步:提取百度百科词条页面的文本,从中获得百科信息框、词条标签等信息;其中,假设待爬取URL集合
Figure GDA0001178536920000051
待爬和已爬URL集合
Figure GDA0001178536920000052
选择种子页面集合P,则W=P;再从W中选择一个URL,p,爬取页面提取出其中的标签、信息框数据,以及网页中所有的百科和百度域名下的锚文本集合L,则A=A∪CL L∩A,W=W-{p}+CL L∩A;循环上述过程,直至
Figure GDA0001178536920000053
若数据集不够,则选择新的种子,重复上述提取过程,直至
Figure GDA0001178536920000054
否则,停止爬取;并对百度百科数据的提取和保存,在这里至少要对每个页面提取出信息框(class=”basic-info”)和词条标签(id=”open-tag-item”)上的信息,前者是自动标注语料的来源,后者是特定类实体过滤的字段。
第二步:使用词条标签对页面过滤,去掉有关人物传记、影视人物、游戏人物等虚拟人物和与人物不相关的实体页面;比如百度百科中的张小凡(仙侠小说《诛仙》男主人公),其标签为虚拟人物,文化人物,动漫形象,人物虽然标签中带着人物,但是却并不属于***所需的真实人物类实体,因此只需保留与目标类标签相关的词条页面。
第三步:将过滤后的词条页面中信息框的数据作为输入,使用远距离监督方式抽取出自动标注的训练数据;其中,具体过程为假设当前输入词条是d,读取词条信息框中每个属性对集合Q,对于每一个属性对q,读取属性标签pi以及对应的属性值vi,在互联网中搜索同时包含d和vi的句子s,句子s作为训练语句,pi作为该句子所属的类别,将标注结果加入训练集中,再循环操作,直到
Figure GDA0001178536920000061
为止。
第四步:对训练数据进行分词和泛化;其中,具体过程为假设标注数据集为D,读取一条标注数据di,使用HanLP工具对di分词,依照分词结果中的词性标记,将词性相同的两个连续词合并,用词性代替,并依照词性进行标记,将名词用n替换,动词用v替换,命名实体用ner替换,数词用num替换;再重复操作过程,直到所有数据标注完成。
第五步:使用Word2Vec工具,将泛化后的训练数据转化为词向量,其中Word2Vec工具为谷歌的开源项目。
第六步:将处理后的词向量作为抽取分类器的训练集,迭代训练双向LSTM神经网络分类器;其中,将向量化的标注数据作为输入数据,训练双向LSTM分类器,双向LSTM分类器的构建可以使用Keras框架以及GPU加速,且在LSTM网络模型最后添加有dropout层,比例设置为40%,batch大小设置为32,迭代次数设置为10次,以避免抽取器训练过程中产生过拟合的现象。
第七步:对自由文本重复步骤S4的方法进行分词和泛化,然后经过分类器得到分类结果,并填充到属性槽中。
综上所述:本发明使用了一个深度学习模型来解决中文实体属性抽取的问题,该模型使用一个双向LSTM神经网络来学习实体之间的关系特征;与以往的方法比,这种方法不需要人工定义特征以及其他的额外资源,得益于双向LSTM模型能从句子正反两个方向利用以前信息和未来信息进行特征学习的特性,采用本方法得到的抽取模型较之其他用传统方法生成的模型在实体属性抽取任务中具有更高的准确率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (4)

1.一种中文实体属性抽取方法,其特征在于,包括以下抽取步骤:
Sl:提取百度百科词条页面的文本,从中获得百科信息框、词条标签信息;
S2:使用词条标签对页面过滤,保留与目标类标签相关的词条页面;
S3:将过滤后的词条页面中信息框的数据作为输入,使用远距离监督方式抽取出自动标注的训练数据;
S4:对训练数据进行分词和泛化;
S5:使用Word2Vec工具,将泛化后的训练数据转化为词向量;
S6:将处理后的词向量作为抽取分类器的训练集,迭代训练双向LSTM深度学习网络分类器;
S7:对自由文本重复步骤S4的方法进行分词和泛化,然后经过分类器得到分类结果,并填充到类别对应的属性槽中;
所述步骤Sl包括以下提取过程:
Sl-1:假设待爬取URL集合
Figure FDA0003155117490000011
已爬URL集合
Figure FDA0003155117490000012
选择种子页面集合P,则W=P;
Sl-2:从W中选择一个URL,p,爬取页面提取出其中的标签、信息框数据,以及网页中所有的百科和百度域名下的锚文本集合L,则A=A∪CLL∩A,W=W-{p}+CLL∩A;
Sl-3:循环上述Sl-2过程,直至
Figure FDA0003155117490000013
Sl-4:若数据集不够,则选择新的种子,重复Sl-2过程到Sl-3过程;
Sl-5:否则,停止爬取。
2.根据权利要求1所述的一种中文实体属性抽取方法,其特征在于,所述步骤S3包括以下提取过程:
S3-1:假设当前输入词条是d,读取词条信息框中每个属性对集合Q;
S3-2:对于每一个属性对q,读取属性标签pi以及对应的属性值vi,在互联网中搜索同时包含d和vi的句子S;
S3-3:句子s作为训练语句,pi作为该句子所属的类别,共同构成标注数据,并将其加入至训练集中;
S3-4:循环步骤S3-2和步骤S3-3,直到
Figure FDA0003155117490000014
3.根据权利要求1所述的一种中文实体属性抽取方法,其特征在于,所述步骤S4对训练数据进行分词和泛化,包括以下过程:
S4-1:假设标注数据集为D,读取一条标注数据di;
S4-2:使用HanLP工具对di分词;
S4-3:依照分词结果中的词性标记,将词性相同的几个连续词合并,用词性代替;
S4-4:依照词性标记,将名词用n替换,动词用v替换,命名实体用ner替换,数词用num替换;
S4-5:重复S4-2过程到S4-4过程,直到所有数据标注完成。
4.根据权利要求1所述的一种中文实体属性抽取方法,其特征在于,所述LSTM网络模型最后添加有dropout层,且比例设置为40%,batch大小设置为32,迭代次数设置为10次。
CN201611031896.5A 2016-11-22 2016-11-22 一种中文实体属性抽取方法 Active CN108090070B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611031896.5A CN108090070B (zh) 2016-11-22 2016-11-22 一种中文实体属性抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611031896.5A CN108090070B (zh) 2016-11-22 2016-11-22 一种中文实体属性抽取方法

Publications (2)

Publication Number Publication Date
CN108090070A CN108090070A (zh) 2018-05-29
CN108090070B true CN108090070B (zh) 2021-08-24

Family

ID=62169677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611031896.5A Active CN108090070B (zh) 2016-11-22 2016-11-22 一种中文实体属性抽取方法

Country Status (1)

Country Link
CN (1) CN108090070B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062937B (zh) * 2018-06-15 2019-11-26 北京百度网讯科技有限公司 训练描述文本生成模型的方法、生成描述文本的方法及装置
CN110728148B (zh) * 2018-06-29 2023-07-14 富士通株式会社 实体关系抽取方法和装置
CN110874534B (zh) * 2018-08-31 2023-04-28 阿里巴巴集团控股有限公司 数据处理方法和数据处理装置
CN109614482B (zh) * 2018-10-23 2022-06-03 北京达佳互联信息技术有限公司 标签的处理方法、装置、电子设备及存储介质
CN109657207B (zh) * 2018-11-29 2023-11-03 爱保科技有限公司 条款的格式化处理方法和处理装置
CN109710725A (zh) * 2018-12-13 2019-05-03 中国科学院信息工程研究所 一种基于文本分类的中文表格列标签恢复方法和***
CN109726404B (zh) * 2018-12-29 2023-11-10 安徽省泰岳祥升软件有限公司 端到端模型的训练数据增强方法、装置及介质
CN109919175B (zh) * 2019-01-16 2020-10-23 浙江大学 一种结合属性信息的实体多分类方法
CN110472235A (zh) * 2019-07-22 2019-11-19 北京航天云路有限公司 一种面向中文文本的端到端实体关系联合抽取方法
CN111475641B (zh) * 2019-08-26 2021-05-14 北京国双科技有限公司 一种数据抽取方法、装置、存储介质及设备
CN111680127A (zh) * 2020-06-11 2020-09-18 暨南大学 一种面向年报的公司名称和关系抽取方法
CN112182346B (zh) * 2020-10-26 2024-07-19 上海蜜度数字科技有限公司 一种对突发事件的实体信息进行抽取的方法与设备
CN112883191B (zh) * 2021-02-05 2023-03-24 山东麦港数据***有限公司 一种农业实体自动识别的分类方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933164A (zh) * 2015-06-26 2015-09-23 华南理工大学 互联网海量数据中命名实体间关系提取方法及其***
CN105244020A (zh) * 2015-09-24 2016-01-13 百度在线网络技术(北京)有限公司 韵律层级模型训练方法、语音合成方法及装置
CN105740349A (zh) * 2016-01-25 2016-07-06 重庆邮电大学 一种结合Doc2vec和卷积神经网络的情感分类方法
CN105740226A (zh) * 2016-01-15 2016-07-06 南京大学 使用树形神经网络和双向神经网络实现中文分词
CN105930413A (zh) * 2016-04-18 2016-09-07 北京百度网讯科技有限公司 相似度模型参数的训练方法、搜索处理方法及对应装置
CN106095749A (zh) * 2016-06-03 2016-11-09 杭州量知数据科技有限公司 一种基于深度学习的文本关键词提取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933164A (zh) * 2015-06-26 2015-09-23 华南理工大学 互联网海量数据中命名实体间关系提取方法及其***
CN105244020A (zh) * 2015-09-24 2016-01-13 百度在线网络技术(北京)有限公司 韵律层级模型训练方法、语音合成方法及装置
CN105740226A (zh) * 2016-01-15 2016-07-06 南京大学 使用树形神经网络和双向神经网络实现中文分词
CN105740349A (zh) * 2016-01-25 2016-07-06 重庆邮电大学 一种结合Doc2vec和卷积神经网络的情感分类方法
CN105930413A (zh) * 2016-04-18 2016-09-07 北京百度网讯科技有限公司 相似度模型参数的训练方法、搜索处理方法及对应装置
CN106095749A (zh) * 2016-06-03 2016-11-09 杭州量知数据科技有限公司 一种基于深度学习的文本关键词提取方法

Also Published As

Publication number Publication date
CN108090070A (zh) 2018-05-29

Similar Documents

Publication Publication Date Title
CN108090070B (zh) 一种中文实体属性抽取方法
CN110866117B (zh) 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN111104510B (zh) 一种基于词嵌入的文本分类训练样本扩充方法
CN107506472B (zh) 一种学生浏览网页分类方法
CN107391565B (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
CN112256939A (zh) 一种针对化工领域的文本实体关系抽取方法
Zhang et al. Image-enhanced multi-level sentence representation net for natural language inference
CN112541337A (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及***
CN108763192B (zh) 用于文本处理的实体关系抽取方法及装置
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN114970523B (zh) 一种基于文本语义增强的主题提示式关键词提取方法
CN114840677A (zh) 面向多粒度需求的短文本分类与智能分析***
Anandika et al. A study on machine learning approaches for named entity recognition
CN114881043A (zh) 基于深度学习模型的法律文书语义相似度评估方法及***
Desai et al. Automatic text summarization using supervised machine learning technique for Hindi langauge
CN112711666B (zh) 期货标签抽取方法及装置
TWI636370B (zh) Establishing chart indexing method and computer program product by text information
CN114996455A (zh) 一种基于双知识图谱的新闻标题短文本分类方法
CN109597879B (zh) 一种基于“引文关系”数据的业务行为关系抽取方法及装置
CN115481240A (zh) 一种数据资产质量检测方法和检测装置
Shahade et al. Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining
Kalaiarasu et al. Sentiment analysis using improved novel convolutional neural network (SNCNN)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200701

Address after: 410000 room 1301, building 8, Xincheng science and Technology Park, 588 yueluxi West Avenue, Changsha high tech Development Zone, Changsha City, Hunan Province

Applicant after: Hunan Sifang Tianjian Information Technology Co., Ltd

Address before: 100055, room 1, building 248, 1401 Guang'an Avenue, Xicheng District, Beijing

Applicant before: BEIJING GAODIG INFORMATION TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant