CN107291708A - 一种基于文本的自动识别文献研究的方法 - Google Patents

一种基于文本的自动识别文献研究的方法 Download PDF

Info

Publication number
CN107291708A
CN107291708A CN201610191091.0A CN201610191091A CN107291708A CN 107291708 A CN107291708 A CN 107291708A CN 201610191091 A CN201610191091 A CN 201610191091A CN 107291708 A CN107291708 A CN 107291708A
Authority
CN
China
Prior art keywords
data
mark
model
marked
manually
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610191091.0A
Other languages
English (en)
Inventor
贺惠新
刘丽娟
曹宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
" Academic Magazine (cd-Rom) " Co Ltd Of E-Magazine Society
Original Assignee
" Academic Magazine (cd-Rom) " Co Ltd Of E-Magazine Society
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by " Academic Magazine (cd-Rom) " Co Ltd Of E-Magazine Society filed Critical " Academic Magazine (cd-Rom) " Co Ltd Of E-Magazine Society
Priority to CN201610191091.0A priority Critical patent/CN107291708A/zh
Publication of CN107291708A publication Critical patent/CN107291708A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文本的自动识别文献研究的方法,包括首先基于CRF模型对已经标注少量的数据建模,然后对未标注数据进行预测,再从大部分预测标注集合中挑选尽量少的部分数据进行人工标注,接着将标注后的结果在加入到原有语料中重新建模,适当迭代该过程得到最终模型,而此模型即可用于对科技文献的研究对象进行抽取,步骤一,获取科技文献标题,并做初次标注,步骤二,对数据进行标准化处理,步骤三,模型特征化提取,步骤四,训练数据,步骤五,提取部分未标注数据,并进行标记,步骤六,对模型准确率评估,在机器学习模型中优化的引入人工评定,可有效提高学习模型的改进效果的同时,能够尽量节省人工标注的成本。

Description

一种基于文本的自动识别文献研究的方法
技术领域
本发明涉及人工智能技术领域,具体为一种基于文本的自动识别文献研究的方法。
背景技术
科学论文是由作者通过书面撰写,总结提炼研究工作的展现形式,科学论文一般包括不同的研究元素,如研究背景、研究对象、研究过程、研究方法、研究结论等,其中研究对象是指论文主要研究目标的核心主体,能高效清晰定位出对应文章的关注面,包括客观事物、理论、事件、过程、关系等属性实例,研究对象的提取能够将论文的主要研究目标以直观的形式展现出来,有助于研究者快速掌握这一对象的相关信息,方便的检索和对比相关研究内容,已有的处理方法有很多,其中有基于规则的方法,此方法取得了一定的效果,但由于自然语言句式的多样性,导致该方法并不能覆盖研究对象提取中的所有规则,遗漏太多,且不能实时更新,灵活性差,而采用统计学习方法的提取过程常常引入不确定因素,导入查全率高而准确率低,因而,单纯的规则或者统计的实用性都很有限。
发明内容
本发明的目的在于提供一种基于文本的自动识别文献研究的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于文本的自动识别文献研究的方法,包括首先基于CRF模型对已经标注少量的数据建模,然后对未标注数据进行预测,再从大部分标注集合中挑选尽量少的部分数据进行人工标注,接着将标注后的结果在加入到原有语料中重新建模,适当迭代该过程得到最终模块,而此模型即可用于对科技文献的研究对象进行抽取,具体为以下步骤:
步骤一:获取科技文献标题,并做初次标注
获取大量的科技文献的标题集合S,提取出少量科技文献的标题S1(S1的总量大于2000)并由人工在这些标题上做标注,标出对应的标题中提及的研究对象,标出后数据记为SD1,提取出少量科技文献的标题S2(S2的总量大于4000)并由人工在这些标题上做标注,标出对应的标题中提及的研究对象,标出后数据记为SD2,S中去除S1数据和S2数据后,剩下的部分记为S3;
步骤二:对数据进行标准化处理
由于科技文献本身涉及的对象复杂,研究对象中存在英文字母数字符号等,需要对句子进行预处理去掉这些东西,此处即根据正则表达式对原始文本进行标准化清洗,此步骤对S涉及的所有标题都进行标准化,而SD1标准化后记为SP1,SD2标准化后记为SP2,S3标准化后记为SP3;
步骤三:模型特征化提取
对数据SP1、SP2和SP3进行特征化,提取为可供模型直接使用的样本输入,对应的特征化后,SP1的特征化提取结果记为Fa,SP2的特征化提取结果记为Fb,SP3的特征化提取结果记为Fc;
步骤四:训练数据
对数据Fa用CRF模型在标注后的数据进行训练,得到训练好的模型M0,运用模型M0对数据Fb进行准确率测试,得到模型准确率P0;
步骤五:提取部分未标注数据,并进行标记
运用模型M0对数据Fc进行自动标注,各样本的各个字符对应有被分为不同类别标签的概率值,记E=标签的概率最大值-次大值其中从中选取对应不同E范围的样本,随机选择一部分交给人工进行标注,将标注后的得到的数据记为D0,进而做标准化和特征化,得到FD0;
步骤六:对模型准确率评估
将FD0加入Fa中得到Fa1,在Fa1上重新建模,得到模型M1,并再次Fb中进行准确率测试,准确率为P1;
步骤七:判断R值是否最优
观察两次准确率之差值ΔP=P1-P0,ΔP>0则该E区间数据否对模型有效,为了节省人工标注成本,须尽可能的减少人工标注的成本,即筛选出进行人工标注的数据量N应尽可能的少,引入如下判别公式:R=arg maxE(△P/N),其中,E=标签的概率最大值-次大值,△P=P2-P1=f(E)表示前后两次模型准
确率的差值,N=g(E)为添加的人工标记的数据的数量;
步骤八:分析数据量增加方法
重复步骤五、步骤六和步骤七过程;
步骤九:迭代标引,生成最终模型
(1)将当前所有已标好结果的数据作为训练数据,生成训练模型,(2)用当前的训练模型对不带标号的数据进行预测,(3)从中选出判定结果符合Ebest值的数据,随机抽取少量让人工标注,(4)将此时增加的人工标注后的数据加入已有的标注中,(5)重复此(1)到(4)的迭代过程,人为设定迭代次数,将最终得到的所有标注后的数据作为训练数据,生成最终训练模型,此模型即可用以对未知数据进行标注,对一篇新的科技文献,先获取此文献的标题,并将此标题做标准化,提取特征后置入最终模型中,即可得到对应输出,即可评判得到此文献的研究对象。
优选的,在步骤五中,不断调整的大小,通常是以相同间隔递增的数列,如0.1,0.2,0.3,0.4,...,1,越大,筛选的数据越多,计算每次在原来数据基础上加入重新人工标注的新数据ai重新建模,计算前后两次准确率差值△P=Pi-P(i-1),最后计算对应的R值,不断循环迭代,寻找最优R值,当△E越大,N越小时,越能添加尽量少的数据,得到最好的实验效果,即当R值越大时,这时的E是最优解Ebest,则在E∈[0,Ebest]时,能添加最少的数据(节省人工标注成本),得到最好的实验效果。
与现有技术相比,本发明的有益效果是:该本发明基于将文章碎片化为背景、目的、研究对象、研究内容、研究方法和研究结论等元数据,在机器学习模型中优化的引入人工评定,可有效提高学习模型的改进效果的同时,能够尽量节省人工标注的成本,而最终得到的模型可直接用于实际工程实践,结合人的分析智能和统计学习的计算能力,在最小人工的劳动量的补充要求下,产生的模型可有效的提高研究对象的标引能力,最终模型可直接用以对未知数据进行预测,实用性强,方法简单。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不限于此。
实施例
一种基于文本的自动识别文献研究对象的方法,包括首先基于CRF模型对已经标注少量的数据建模,然后对未标注数据进行预测,再从大部分标注集合中挑选尽量少的部分数据进行人工标注,接着将标注后的结果在加入到原有语料中重新建模,适当迭代该过程得到最终模块,而此模型即可用于对科技文献的研究对象进行抽取,具体为以下步骤:
步骤一:获取科技文献标题,并做初次标注
获取大量的科技文献的标题集合S,提取出少量科技文献的标题S1(S1的总量大于2000)并由人工在这些标题上做标注,标出对应的标题中提及的研究对象,标出后数据记为SD1,提取出少量科技文献的标题S2(S2的总量大于4000)并由人工在这些标题上做标注,标出对应的标题中提及的研究对象,标出后数据记为SD2,S中去除S1数据和S2数据后,剩下的部分记为S3;
步骤二:对数据进行标准化处理
由于科技文献本身涉及的对象复杂,研究对象中存在英文字母数字符号等,需要对句子进行预处理去掉这些东西,此处即根据正则表达式对原始文本进行标准化清洗,此步骤对S涉及的所有标题都进行标准化,而SD1标准化后记为SP1,SD2标准化后记为SP2,S3标准化后记为SP3;
步骤三:模型特征化提取
对数据SP1、SP2和SP3进行特征化,提取为可供模型直接使用的样本输入,对应的特征化后,SP1的特征化提取结果记为Fa,SP2的特征化提取结果记为Fb,SP3的特征化提取结果记为Fc;
步骤四:训练数据
对数据Fa用CRF模型在标注后的数据进行训练,得到训练好的模型M0,运用模型M0对数据Fb进行准确率测试,得到模型准确率P0;
步骤五:提取部分未标注数据,并进行标记
运用模型M0对数据Fc进行自动标注,各样本的各个字符对应有被分为不同类别标签的概率值,记E=标签的概率最大值-次大值其中从中选取对应不同E范围的样本,随机选择一部分交给人工进行标注,将标注后的得到的数据记为D0,进而做标准化和特征化,得到FD0,不断调整的大小,通常是以相同间隔递增的数列,如0.1,0.2,0.3,0.4,...,1,越大,筛选的数据越多,计算每次在原来数据基础上加入重新人工标注的新数据ai重新建模,计算前后两次准确率差值△P=Pi-P(i-1),最后计算对应的R值,不断循环迭代,寻找最优R值,当△E越大,N越小时,越能添加尽量少的数据,得到最好的实验效果,即当R值越大时,这时的E是最优解Ebest,则在E∈[0,Ebest]时,能添加最少的数据(节省人工标注成本),得到最好的实验效果;
步骤六:对模型准确率评估
将FD0加入Fa中得到Fa1,在Fa1上重新建模,得到模型M1,并再次Fb中进行准确率测试,准确率为P1;
步骤七:判断R值是否最优
观察两次准确率之差值ΔP=P1-P0,ΔP>0则该E区间数据否对模型有效,为了节省人工标注成本,须尽可能的减少人工标注的成本,即筛选出进行人工标注的数据量N应尽可能的少,引入如下判别公式:R=arg maxE(△P/N),其中,E=标签的概率最大值-次大值,△P=P2-P1=f(E)表示前后两次模型准
确率的差值,N=g(E)为添加的人工标记的数据的数量;
步骤八:分析数据量增加方法
重复步骤五、步骤六和步骤七过程;
步骤九:迭代标引,生成最终模型
(1)将当前所有已标好结果的数据作为训练数据,生成训练模型,(2)用当前的训练模型对不带标号的数据进行预测,(3)从中选出判定结果符合Ebest值的数据,随机抽取少量让人工标注,(4)将此时增加的人工标注后的数据加入已有的标注中,(5)重复此(1)到(4)的迭代过程,人为设定迭代次数,将最终得到的所有标注后的数据作为训练数据,生成最终训练模型,此模型即可用以对未知数据进行标注,对一篇新的科技文献,先获取此文献的标题,并将此标题做标准化,提取特征后置入最终模型中,即可得到对应输出,即可评判得到此文献的研究对象,该本发明基于将文章碎片化为背景、目的、研究对象、研究内容、研究方法和研究结论等元数据,在机器学习模型中优化的引入人工评定,可有效提高学习模型的改进效果的同时,能够尽量节省人工标注的成本,而最终得到的模型可直接用于实际工程实践,结合人的分析智能和统计学习的计算能力,在最小人工的劳动量的补充要求下,产生的模型可有效的提高研究对象的标引能力,最终模型可直接用以对未知数据进行预测,实用性强,方法简单。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (2)

1.一种基于文本的自动识别文献研究的方法,其特征在于:包括首先基于CRF模型对已经标注少量的数据建模,然后对未标注数据进行预测,再从大部分标注集合中挑选尽量少的部分数据进行人工标注,接着将标注后的结果在加入到原有语料中重新建模,适当迭代该过程得到最终模型,而此模型即可用于对科技文献的研究对象进行抽取,具体为一下步骤:
步骤一:获取科技文献标题,并做初次标注
获取大量的科技文献的标题集合S,提取出少量科技文献的标题S1(S1的总量大于2000)并由人工在这些标题上做标注,标出对应的标题中提及的研究对象,标出后数据记为SD1,提取出少量科技文献的标题S2(S2的总量大于4000)并由人工在这些标题上做标注,标出对应的标题中提及的研究对象,标出后数据记为SD2,S中去除S1数据和S2数据后,剩下的部分记为S3;
步骤二:对数据进行标准化处理
由于科技文献本身涉及的对象复杂,研究对象中存在英文字母数字符号等,需要对句子进行预处理去掉这些东西,此处即根据正则表达式对原始文本进行标准化清洗,此步骤对S涉及的所有标题都进行标准化,而SD1标准化后记为SP1,SD2标准化后记为SP2,S3标准化后记为SP3;
步骤三:模型特征化提取
对数据SP1、SP2和SP3进行特征化,提取为可供模型直接使用的样本输入,对应的特征化后,SP1的特征化提取结果记为Fa,SP2的特征化提取结果记为Fb,SP3的特征化提取结果记为Fc;
步骤四:训练数据
对数据Fa用CRF模型在标注后的数据进行训练,得到训练好的模型M0,运用模型M0对数据Fb进行准确率测试,得到模型准确率P0;
步骤五:提取部分未标注数据,并进行标记
运用模型M0对数据Fc进行自动标注,各样本的各个字符对应有被分为不同类别标签的概率值,记其中 从中选取对应不同E范围的样本,随机选择一部分交给人工进行标注,将标注后的得到的数据记为D0,进而做标准化和特征化,得到FD0;
步骤六:对模型准确率评估
将FD0加入Fa中得到Fa1,在Fa1上重新建模,得到模型M1,并再次Fb中进行准确率测试,准确率为P1;
步骤七:判断R值是否最优
观察两次准确率之差值ΔP=P1-P0,ΔP>0则该E区间数据否对模型有效,为了节省人工标注成本,须尽可能的减少人工标注的成本,即筛选出进行人工标注的数据量N应尽可能的少,引入如下判别公式:R=arg max*△P/N,其中,E=标签的概率最大值-次大值,△P=P2-P1(fE)表示前后两次模型准确率的差值,N=g(E)为添加的人工标记的数据的数量,E为参数大小;
步骤八:分析数据量增加方法
重复步骤五、步骤六和步骤七过程;
步骤九:迭代标引,生成最终模型
(1)将当前所有已标好结果的数据作为训练数据,生成训练模型,(2)用当前的训练模型对不带标号的数据进行预测,(3)从中选出判定结果符合Ebest值的数据,随机抽取少量让人工标注,(4)将此时增加的人工标注后的数据加入已有的标注中,(5)重复此(1)到(4)的迭代过程,人为设定迭代次数,将最终得到的所有标注后的数据作为训练数据,生成最终训练模型,此模型即可用以对未知数据进行标注,对一篇新的科技文献,先获取此文献的标题,并将此标题做标准化,提取特征后置入最终模型中,即可得到对应输出,即可评判得到此文献的研究对象。
2.根据权利要求1所述的一种基于文本的自动识别文献研究结论的方法,其特征在于:在步骤五中,不断调整的大小,通常是以相同间隔递增的数列,如0.1,0.2,0.3,0.4,...,1,越大,筛选的数据越多,计算每次在原来数据基础上加入重新人工标注的新数据αi重新建模,计算前后两次准确率差值△P=Pi-P(i-1),最后计算对应的R值,不断循环迭代,寻找最优R值,当△E越大,N越小时,越能添加尽量少的数据,得到最好的实验效果,即当R值越大时,这时的E是最优解Ebest,则在E∈[0,Ebest]时,能添加最少的数据(节省人工标注成本),得到最好的实验效果。
CN201610191091.0A 2016-03-30 2016-03-30 一种基于文本的自动识别文献研究的方法 Pending CN107291708A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610191091.0A CN107291708A (zh) 2016-03-30 2016-03-30 一种基于文本的自动识别文献研究的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610191091.0A CN107291708A (zh) 2016-03-30 2016-03-30 一种基于文本的自动识别文献研究的方法

Publications (1)

Publication Number Publication Date
CN107291708A true CN107291708A (zh) 2017-10-24

Family

ID=60087070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610191091.0A Pending CN107291708A (zh) 2016-03-30 2016-03-30 一种基于文本的自动识别文献研究的方法

Country Status (1)

Country Link
CN (1) CN107291708A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009589A (zh) * 2017-12-12 2018-05-08 腾讯科技(深圳)有限公司 样本数据处理方法、装置和计算机可读存储介质
CN108491389A (zh) * 2018-03-23 2018-09-04 杭州朗和科技有限公司 点击诱饵标题语料识别模型训练方法和装置
CN109753976A (zh) * 2017-11-01 2019-05-14 中国电信股份有限公司 语料标注装置和方法
CN110069602A (zh) * 2019-04-15 2019-07-30 网宿科技股份有限公司 语料标注方法、装置、服务器及存储介质
CN110245346A (zh) * 2018-03-09 2019-09-17 北京国双科技有限公司 事件信息分析方法及装置
CN110555472A (zh) * 2019-08-27 2019-12-10 安徽心之声医疗科技有限公司 基于主动学习的心电信号数据标注方法
CN110738303A (zh) * 2018-07-18 2020-01-31 科沃斯机器人股份有限公司 机器模型更新方法、设备、***及存储介质
CN111008706A (zh) * 2019-12-09 2020-04-14 长春嘉诚信息技术股份有限公司 一种自动标注、训练、预测海量数据的处理方法
CN111475641A (zh) * 2019-08-26 2020-07-31 北京国双科技有限公司 一种数据抽取方法、装置、存储介质及设备
CN112395528A (zh) * 2019-08-13 2021-02-23 阿里巴巴集团控股有限公司 文本标签判别方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314507A (zh) * 2011-09-08 2012-01-11 北京航空航天大学 一种中文命名实体识别歧义消解方法
CN104408093A (zh) * 2014-11-14 2015-03-11 中国科学院计算技术研究所 一种新闻事件要素抽取方法与装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314507A (zh) * 2011-09-08 2012-01-11 北京航空航天大学 一种中文命名实体识别歧义消解方法
CN104408093A (zh) * 2014-11-14 2015-03-11 中国科学院计算技术研究所 一种新闻事件要素抽取方法与装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贺惠新等: "主动学习的科技文献研究对象标引体系研究", 《现代图书情报技术》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753976B (zh) * 2017-11-01 2021-03-19 中国电信股份有限公司 语料标注装置和方法
CN109753976A (zh) * 2017-11-01 2019-05-14 中国电信股份有限公司 语料标注装置和方法
CN108009589A (zh) * 2017-12-12 2018-05-08 腾讯科技(深圳)有限公司 样本数据处理方法、装置和计算机可读存储介质
CN110245346A (zh) * 2018-03-09 2019-09-17 北京国双科技有限公司 事件信息分析方法及装置
CN108491389A (zh) * 2018-03-23 2018-09-04 杭州朗和科技有限公司 点击诱饵标题语料识别模型训练方法和装置
CN108491389B (zh) * 2018-03-23 2021-10-08 杭州朗和科技有限公司 点击诱饵标题语料识别模型训练方法和装置
CN110738303A (zh) * 2018-07-18 2020-01-31 科沃斯机器人股份有限公司 机器模型更新方法、设备、***及存储介质
CN110069602B (zh) * 2019-04-15 2021-11-19 网宿科技股份有限公司 语料标注方法、装置、服务器及存储介质
CN110069602A (zh) * 2019-04-15 2019-07-30 网宿科技股份有限公司 语料标注方法、装置、服务器及存储介质
CN112395528A (zh) * 2019-08-13 2021-02-23 阿里巴巴集团控股有限公司 文本标签判别方法、装置、电子设备及存储介质
CN112395528B (zh) * 2019-08-13 2022-10-21 阿里巴巴集团控股有限公司 文本标签判别方法、装置、电子设备及存储介质
CN111475641A (zh) * 2019-08-26 2020-07-31 北京国双科技有限公司 一种数据抽取方法、装置、存储介质及设备
CN110555472A (zh) * 2019-08-27 2019-12-10 安徽心之声医疗科技有限公司 基于主动学习的心电信号数据标注方法
CN110555472B (zh) * 2019-08-27 2023-02-03 安徽心之声医疗科技有限公司 基于主动学习的心电信号数据标注方法
CN111008706A (zh) * 2019-12-09 2020-04-14 长春嘉诚信息技术股份有限公司 一种自动标注、训练、预测海量数据的处理方法
CN111008706B (zh) * 2019-12-09 2023-05-05 长春嘉诚信息技术股份有限公司 一种自动标注、训练、预测海量数据的处理方法

Similar Documents

Publication Publication Date Title
CN107291708A (zh) 一种基于文本的自动识别文献研究的方法
Wang et al. A two-stage parsing method for text-level discourse analysis
CN106649597B (zh) 一种基于图书内容的图书书后索引自动构建方法
CN107301244A (zh) 一种商标分卡处理的方法、装置、***及商标存储器
CN102750316B (zh) 基于语义共现模型的概念关系标签抽取方法
CN107526967A (zh) 一种风险地址识别方法、装置以及电子设备
CN110598203A (zh) 一种结合词典的军事想定文书实体信息抽取方法及装置
CN105868184A (zh) 一种基于循环神经网络的中文人名识别方法
CN104951469B (zh) 优化语料库的方法和装置
CN106709032A (zh) 抽取电子表格文档中结构化信息的方法及装置
CN107004141A (zh) 对大样本组的高效标注
CN115048316B (zh) 一种半监督的软件代码缺陷检测方法及装置
CN108959566A (zh) 一种基于Stacking集成学习的医疗文本去隐私方法和***
CN105095196B (zh) 文本中新词发现的方法和装置
CN106845496B (zh) 精细目标识别方法和***
CN107346327A (zh) 基于监督转移的零样本哈希图片检索方法
CN102024150A (zh) 图形识别方法及图形识别装置
CN110348017B (zh) 一种文本实体检测方法、***及相关组件
CN105159917B (zh) 一种电子病历的非结构化信息转化为结构化的泛化方法
CN109993216B (zh) 一种基于k最近邻knn的文本分类方法及其设备
CN110119510A (zh) 一种基于传递依存关系和结构助词的关系抽取方法及装置
CN112132186A (zh) 一种存在部分缺失和未知类别标记的多标记分类方法
CN111008530A (zh) 一种基于文档分词的复杂语义识别方法
CN107247755A (zh) 一种基于上下文序列记忆网络的个性化图像字幕生成方法
CN112329767A (zh) 基于联合预训练的合同文本图像关键信息提取***和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171024