CN110298033A - 关键词语料标注训练提取工具 - Google Patents

关键词语料标注训练提取工具 Download PDF

Info

Publication number
CN110298033A
CN110298033A CN201910455064.3A CN201910455064A CN110298033A CN 110298033 A CN110298033 A CN 110298033A CN 201910455064 A CN201910455064 A CN 201910455064A CN 110298033 A CN110298033 A CN 110298033A
Authority
CN
China
Prior art keywords
keyword
corpus
model
algorithm
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910455064.3A
Other languages
English (en)
Other versions
CN110298033B (zh
Inventor
崔莹
代翔
黄细凤
王侃
杨拓
余博
朱宇涛
李超
李源源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Electronic Technology Institute No 10 Institute of Cetc
Original Assignee
Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Electronic Technology Institute No 10 Institute of Cetc filed Critical Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority to CN201910455064.3A priority Critical patent/CN110298033B/zh
Publication of CN110298033A publication Critical patent/CN110298033A/zh
Application granted granted Critical
Publication of CN110298033B publication Critical patent/CN110298033B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开的一种关键词语料标注训练提取工具,旨在提供一种可降低人工标注过程繁复度,并能提高海量关键词语料标注效率和准确率的标注训练工具。本发明通过下述技术方案予以实现:关键词语料标注准备模块对不同来源的海量语料数据进行区分,半自动化语料关键词标注模块创建关键词标注任务,自主选择适配算法并开展基于算法模型的自动标注,通过集成CHI、LDA、TEXTRANK、TFIDF中至少一种关键词抽取算法,对待标注文本语料数据进行预标注处理,并对多种算法标注结果进行融合,当标注任务完成后,反馈式关键词标注模型学习训练模块对关键词标注算法模型进行训练;关键词标注模型效果评估模块对模型指标量化标注效果进行自动评估。

Description

关键词语料标注训练提取工具
技术领域
本发明涉及文本挖掘技术领域,尤其涉及关键词语料半自动化标注训练提取工具。
背景技术
在自然语言处理领域,处理海量的文本文件最关键的是要把用户最关心的问题提取出来。而无论是对于长文本还是短文本,往往可以通过几个关键词窥探整个文本的主题思想。与此同时,不管是基于文本的推荐还是基于文本的搜索,对于文本关键词的依赖也很大,关键词提取的准确程度直接关系到推荐***或者搜索***的最终效果。因此,关键词提取在文本挖掘领域是一个很重要的部分。网络的飞速发展为人们提供了简便的信息获取途径,网页、邮件、电子书籍等电子文档的数量越来越多。但这种***式增长的信息资源缺乏内容的结构化,使人们在获得了大量信息的同时,也不得不花大量的时间束阅读和整理这些信息,大大降低了人们的检索效率。因此,如何将庞杂无序的资源组织起来,提高利用信息的效率,使人们简便、快捷、准确地获取这些文本的关键信息就变得异常重要。关键词自动抽取在各个方面的应用广泛。尤其在知识挖掘、信息检索、文本聚类、文本分类等等领域,关键词自动标引更是基础和核心技术。而在相关反馈、自动过滤、事件检测与跟踪等领域,关键词自动标引技术也是起到了比较关键的作用。可以说,关键词自动标引技术是进行所有文本自动分析处理的基础工作,在很多文本分析的工作中都是必不可少的。关键词抽取在自动文摘、信息检索、文本分类、文本聚类等方面具有十分重要的作用。如何智能、快速、有效地从互联网上获取信息已经成为当前计算机领域中一个迫切需要解决的问题。关键词抽取是实现对互联网上信息快速和精确获取的重要手段。关键词具有一些特性,关键词一般都是名词或者名词短语;,关键词一般不会以停用词开始或者结束;关键词的长度一般不会太长。关键词特征选择时要考虑的问题在关键词抽取的工作中,特征的开发和选取是一个重点也是一个难点,特征选得好与坏直接关系到关键词的判定。
近年来,伴随大数据采集获取手段的高速发展,网络上文本信息的***式增长,使得获取需要的信息的难度日益增大。从数据中挖掘最大化价值变得尤为急迫,这对大数据的智能化分析提出了全新需求。为了处理高速膨胀的信息资源,手工处理方法变得不切合实际,因此需要采用自动化处理方法帮助人们有效地管理、组织信息,以解决信息丰富知识贫乏问题。在此背景下,机器学习、深度学习等技术在大数据应用上迅猛发展并获得了巨大成功,其技术底层使用的模型算法更多需要依赖于大量的数据标注语料作为基础训练支撑。目前多数关键词抽取算法是利用词的统计信息判断词的重要性,并选取超过一定阈值的词作为文章的关键词。但是统计方法计算量过大,并且需要大量的统计语料。基于这种方法提出了多个关键词衡量函数,包括TF/IDF、熵函数、分布系数等。许多机器学习算法也应用于关键词抽取中,例如CHI、TFIDF既可以作为特征选取也可以作为权重计算的方法,不同之处在于TFIDF可以用于任意文本集合,而CHI则需要文本有分类标签的标记才能计算。TextRank最初是作为关键词抽取方法提出来的,后来也有人尝试作为权重计算方法,但是TextRank的计算复杂度很高。
海量数据语料标注工作对算法模型的训练有着重要影响,同时作为大数据分析过程中的基础性工作,主要支撑了大数据日常研发、算法调优、演示验证等环节,是大数据挖掘分析的核心基础。关键词是对表述文本主要内容有实质意义的词汇,是为了满足文本标引或者检索工作而从题名、摘要和正文中选取出来的词或词组。关键词提取是通过对核心词语的统计和语义分析,从单个文本或者一个文本集中选择合适的、能够完全表达主题内容的特征项集的过程。由于关键词是表示文本主题意义的最基本单位,所以在自动摘要、信息检索、文本聚类、自动问答、话题跟踪等自然语言处理和中文信息处理领域通常都要先进行关键词提取,而且关键词提取对于信息监测和跟踪也有着重要的线索价值。词性是通过分词、语法分析后得到的结果。现有的关键词中,绝大多数关键词为名词或者动名词。一般情况下,词出现的位置对于词来说有着很大的价值。例如,标题、摘要本身就是作者概括出的文章的中心思想,因此出现在这些地方的词具有一定的代表性,更可能成为关键词。但是,因为每个作者的习惯不同,写作方式不同,关键句子的位置也会有所不同,所以这也是一种很宽泛的得到关键词的方法,一般情况下不会单独使用。判断一个词在一篇文章中是否重要,一个容易想到的衡量指标就是词频,重要的词往往会在文章中多次出现。但另一方面,不是出现次数多的词就一定重要,因为有些词在各种文章中都频繁出现,那它的重要性肯定不如那些只在某篇文章中频繁出现的词重要性强。词频表示一个词在文本中出现的频率。一般我们认为,如果一个词在文本中出现的越是频繁,那么这个词就越有可能作为文章的核心词。词频简单地统计了词在文本中出现的次数,但是,只依靠词频所得到的关键词有很大的不确定性,对于长度比较长的文本,这个方法会有很大的噪音。基于统计特征的关键词的重点在于特征量化指标的计算,不同的量化指标得到的结果也不尽相同。同时,不同的量化指标也有其各自的优缺点,在实际应用中,通常是采用不同的量化指标相结合的方式得到Topk个词作为关键词。关键词提取在文本挖掘领域具有很广阔的应用,现有的方法也存在一定的问题。现有技术基于统计以及机器学习的方法,机器学习的方法效果更多依赖于人工标注语料,即根据观测到的数据(标注好的语料)对模型参数进行训练,在分词阶段再通过模型计算各种分词出现的概率,将概率大的分词结果作为终结果。基于机器学习方法能够实施的前提是要建立数据量足够大的知识库或者训练库。由于目前知识学习的问题尚未从根本上解决,知识库的更新很慢,跟不上目前的科学发展。已标注的数据集所提供的信息有限,而样本的人工标注费时费力,进行大规模的标注消耗太大。容易获得的未标注样本(如互联网上的网页)数量相对于已标注样本较多,并且也接近整个样本空间上的数据分布。提供尽量多的标注样本需要艰苦而缓慢的人工劳动,影响了整个***的构建,这就产生了一个标注瓶颈的问题。基于统计特征的关键词抽取算法的思想是利用文档中词语的统计信息抽取文档的关键词。通常将文本经过预处理得到候选词语的集合,然后采用特征值量化的方式从候选集合中得到关键词。常见的序列标注模型有HMM和CRF。这类分词算法能很好处理歧义和未登录词问题,效果比前一类效果好,但是需要大量的人工标注数据,以及较慢的分词速度。有监督的关键词抽取算法是将关键词抽取算法看作是二分类问题,判断文档中的词或者短语是或者不是关键词。既然是分类问题,就需要提供已经标注好的训练语料,利用训练语料训练关键词提取模型,根据模型对需要抽取关键词的文档进行关键词抽取。
传统的关键词抽取方法分为两种,分别为无监督方法和有监督方法。其中无监督方法包括TF-IDF、Chi-squared、TextRank、LDA等方法,而有监督方法将关键词抽取问题转换为判断每个词是否为关键词的二分类问题,在之前曾有人通过NaiveBayes和决策树C4.5等有监督方法进行关键词抽取。无监督方法和有监督方法各有其优势和劣势:无监督方法不需要人工标注训练集合,因此更加快捷,但由于无法综合利用多种信息对候选词排序,所以效果上可能不如有监督方法;而有监督方法可以通过训练学***台来解决以上问题。
发明内容
本发明的发明目的是着眼于解决上述关键词语料标注及训练过程中使用语料存在的弊端,提供一种可降低人工标注过程繁复度,减轻人力工作成本,并能提高海量关键词语料标注效率和准确率的半自动化关键词语料标注训练工具。
本发明的上述目的可以通过下述技术方案予以实现:一种关键词语料标注训练提取工具,包括:关键词语料标注准备模块、半自动化语料关键词标注模块、反馈式关键词标注模型学习训练模块和关键词标注模型效果评估模块,其特征在于:关键词语料标注准备模块对不同来源的海量语料数据进行区分,针对不同用途的关键词语料,对关键词语料来源选择,将其设置为用于不同用途的待标注语料,即生语料;半自动化语料关键词标注模块首先创建关键词标注任务,针对不同标注使用需求及语料特点,自主选择适配算法并开展基于算法模型的自动标注,通过集成CHI、LDA、基于图排序的关键词提取算法、TEXTRANK、TFIDF中至少一种关键词抽取算法,对待标注文本语料数据进行单一关键词的预标注处理,同时可通过基于业务规则自动对待标注文本语料数据进行单一关键词的预标注处理,也可同时选取多种关键词提取算法进行关键词标注,并对多种算法标注结果进行融合,融合后的标注结果通过人工按照关键词标注业务标准进一步干预判证,将标注结果保存为熟语料,通过关键词语料标注准备模块进行管理,供标注算法模型训练时使用,提供统一的关键词模型接入标准完成语料关键词标注工作;当标注任务完成后,反馈式关键词标注模型学习训练模块针对内部已集成的关键词标注算法模型和外部深度增强标注算法模型,通过关键词算法模型参数设置,提供算法模型的学习和训练、使用已标注的关键词语料对关键词标注算法模型进行重新训练,反馈模型完善更新,通过模型更新与语料标注之间的不断迭代,自动反馈调整完成新的关键词标注任务;关键词标注模型效果评估模块根据关键词的评估指标标准构建关键词评测指标,基于关键词指标规则对评测指标完成量化,建立标注算法综合评估模型,对模型指标量化标注效果进行自动评估,为后续关键词标注任务自动推荐最优标注模型。
本发明相比于现有技术具有如下有益效果:
可降低人工标注过程繁复度,减轻人力工作成本。本发明采用主要由关键词语料标注准备、半自动化语料关键词标注、反馈式关键词标注模型学习训练、关键词标注模型效果评估四部分模块组成***,可针对不同标注使用需求及语料特点,提供基于自主选择适配算法和多算法融合的自动标注方式,多算法融合自动标注采用投票方法对多算法结果进行融合处理,在忽略相关性的条件下,集成方法的性能优于单一方法,通过该方法进行的预标注工作可降低人工标注过程繁复度,减轻人力工作成本,具有一定的灵活性和较高的自动化处理能力。
关键词语料标注效率高。本发明通过对不同来源的数据进行区分,实现对关键词语料的管理;通过支持实时后台集成CHI、LDA、TEXTRANK、TFIDF等关键词抽取算法,针对不同关键词语料,在标注过程中提供适用的标注算法CHI、LDA、TEXTRANKRANK、TFIDF等关键词抽取的训练模型库可选择,对待标注语料数据进行单一关键词方法的预标注处理或多关键词方法融合的预标注处理,引入人工判证环节,***支持实时后台关键词算法模型的自动反馈调整完成新的关键词标注任务,可大大缩短获取信息的时间,提高信息获取的效率,大幅提高语料标注效率。
本发明针对不同标注使用需求及语料特点,自主选择适配算法并开展自动标注,通过集成CHI、LDA、TEXTRANK、TFIDF中至少一个关键词抽取算法,对待标注文本语料数据进行单一关键词的预标注处理或多关键词融合的预标注处理,提供统一的关键词模型接入标准完成语料关键词标注工作;当标注任务完成后,使用标注语料对关键词模型进行重新训练。通过建立标注算法综合评估模型对模型标注效果进行评估,反馈关键词模型学习训练,使模型达到最好效果,提升关键词标注模型的准确率,后续新增标注任务,通过模型更新与语料标注之间的不断迭代提高语料关键词标注质量和算法模型效果,减少了关键词标注的错误率。最后通过人工判证环节实现标注结果的干预判证,用人工确认环节对关键词标注语料进行修改、确认、提交,完成语料关键词标注工作,大幅提高了关键词提取的准确率和准确精度;经过实验,证明了该关键词标注训练提取工具应用于标注关键词语料的有效性。
本发明简化用户标注操作流程,支持通过友好的人机交互式标注界面,支持外部模型的导入、训练和使用。
附图说明
图1是本发明关键词语料标注训练提取工具原理示意图。
图2是图1的关键词模型训练处理流程图。
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
具体实施方式
参阅图1。在以下描述的优选实施例中,一种关键词语料标注训练提取工具,包括:关键词语料标注准备模块、半自动化语料关键词标注模块、反馈式关键词标注模型学习训练模块和关键词标注模型效果评估模块,其中:关键词语料标注准备模块对不同来源的海量语料数据进行区分,针对不同用途的关键词语料,对关键词语料来源选择,将其设置为用于不同用途的待标注语料,即生语料;半自动化语料关键词标注模块首先创建关键词标注任务,进一步针对不同标注使用需求及语料特点,自主选择适配算法并开展基于算法模型的自动标注,通过集成CHI、LDA、基于图排序的关键词提取算法、TEXTRANK、TFIDF中至少一个关键词抽取算法,对待标注文本语料数据进行单一关键词的预标注处理,同时可通过基于业务规则的自动标注对待标注文本语料数据进行单一关键词的预标注处理,也可同时选取多种关键词提取算法进行关键词标注,并对多种算法标注结果进行融合,融合后的标注结果通过人工按照关键词标注业务标准进一步干预判证,将标注结果保存为熟语料,通过关键词语料标注准备模块进行管理,供标注算法模型训练时使用,提供统一的关键词模型接入标准完成语料关键词标注工作;当标注任务完成后,反馈式关键词标注模型学习训练模块针对内部已集成的关键词标注算法模型和外部深度增强标注算法模型,通过关键词算法模型参数设置,提供算法模型的学习和训练、使用已标注的关键词语料对关键词标注算法模型进行重新训练,反馈模型完善更新,通过模型更新与语料标注之间的不断迭代,自动反馈调整完成新的关键词标注任务;关键词标注模型效果评估模块根据针对关键词的评估指标标准构建关键词评测指标,基于关键词指标规则对评测指标完成量化,建立标注算法综合评估模型,对模型指标量化标注效果进行自动评估,为后续关键词标注任务自动推荐最优标注模型。
本实施例提供文本语料标注准备模块完成对待标注语料按来源或主题进行管理,为标注任务提供准备;半自动化语料关键词标注模块针对不同标注使用需求及语料特点,自主选择适配算法并开展自动标注,通过人工判证环节实现标注结果的干预判证,具体步骤如下:
半自动化语料关键词标注模块根据不同来源语料创建关键词标注任务;针对每一类标注任务选择效果适配的算法模型,诸如在关键词标注任务中可以选择CHI、LDA、TEXTRANK、TFIDF等关键词抽取算法完成自动标注,具体标注算法可以根据语料自动标注效果进行配置,半自动化语料关键词标注模块会根据关键词标注模型效果评估模块结果自动推荐默认的标注算法;半自动化语料关键词标注模块首先创建关键词标注任务,进一步针对不同标注使用需求及语料特点,自主选择适配算法并开展基于算法模型的自动标注,通过集成CHI、LDA、基于图排序的关键词提取算法TEXTRANK、TFIDF中至少一个关键词抽取算法,对待标注文本语料数据进行单一关键词的预标注处理,同时可通过基于业务规则的自动标注对待标注文本语料数据进行单一关键词的预标注处理。半自动化语料关键词标注模块针对特殊标注任务创建业务标注规则,并对标注业务规则进行管理,这里标注业务规则主要包括业务字典和用来匹配字符串的正则表达式,如:关键日期时间:关键地理。直接将正则表达式定义为变量如reg,dim reg as expreg,勾选Microsoft scripting runtime后,直接设置将字典对象定义为变量,dim d as dictionary。正则表达式的大致匹配过程是:依次拿出表达式和文本中的字符比较,如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败。标注人员采用标注业务规则对语料进行自动标注;对基于算法模型的自动标注结果和基于业务规则的自动标注结果进行融合处理,也可同时选取多种关键词提取算法进行关键词标注,并对多种算法标注结果进行融合,融合后的标注结果通过人工按照关键词标注业务标准进一步干预判证、修改、确认和保存,将标注结果保存为熟语料,通过关键词语料标注准备模块进行管理,供标注算法模型训练时使用,提供统一的关键词模型接入标准完成语料关键词标注工作。
参阅图2。反馈式关键词标注模型学***台中用于关键词标注的模型进行更新,完成新的关键词标注任务。在关键词模型更新中,反馈式模型学习训练模块启动关键词服务,选择预更新的关键词算法,如果选择的关键词算法是不可训练的算法,则结束;根据选择的CHI、LDA、TEXTRANK、TFIDF等可训练算法,通过解析配置文件中更新关键词的开关来判断是否更新关键词模型,否,结束。是则根据关键词模型名称和关键词训练模型表,读取指定关键词模型文件,并对读取的关键词模型文件进行反序列化,完成关键词模型的加载,结束程序。
标注模型效果评估模块提供模型评估指标构建标注、构建规则、指标量化等方法,支持通过自动构建标注算法综合评估模型对模型标注效果进行评估,具体步骤如下:标注模型效果评估模块根据指标标准设置单一指标算法;按照指标计算规则对指标进行量化,根据不同标注任务采用组织相应指标构建标注算法综合评估模型;完成指标综合值计算,对标注模型效果进行反馈。
关键词提取的质量和评价标准在国内外尚未有统一的评价方法,因为文本数据的选择带有较大的主观性,所以本发明采用机器定量分析和人工主观判断两种方式来进行关键词提取的质量和评价标准。机器定量分析的指标最常见的仍然是准确率P(Precision)、召回率R(Recall)、调和关键词提取准确率和召回率的平均值F、根据应用该需求,对关键词提取准确率和召回率进行加权的考量值E,其中,
准确率和召回率一般称反比的关系。通过某些方法提高准确率,会导致召回率下降,反之亦然。为了定义应用***对于准确率和召回率的不同需求,可以给出一个权重值对其进行加权的考量,从而得到对关键词提取准确率和召回率进行加权的考量值E:其中,b为加入的权重,b越大,则表示E值的考量中准确率的权重越大,反之则召回率的权重越大。
除此之外,还有两个常见指标参考基准值binarypreferencemeasure(Bpref)和对搜索算法进行评价的机制评价指标MRR(meanreciprocalrank平均倒数排名)。参考基准值Bpref是考虑排序顺序的评测指标。对于一个文档,如果在M个抽取的关键词中有R个是标准答案,其中的准确抽取的用r表示,错误抽取的用n表示,那么参考基准值Bpref通过以下公式计算:
搜索算法评价机制评价指标MRR用来度量每个文档第一个被准确推荐的关键词的排名情况,是一个针对文档集的评价指标。对于一个文档d,用rankd来表示第一个被准确推荐关键词的排名位置,那么评价指标MRR定义为:
其中,D是进行关键词抽取测试的文档集合。
通过对待标注语料按来源或主题进行管理,为标注任务提供准备;通过集成CHI、LDA、TEXTRANK、TFIDF等关键词抽取算法,完成关键词语料的半自动化标注,在标注过程中提供适用的标注算法可选择,对待标注语料数据进行关键词预标注处理;最后通过人工确认环节对标注语料进行修改、确认和提交,完成语料标注工作。当标注任务完成后,使用标注语料对模型进行重新训练。通过建立标注算法综合评估模型对模型标注效果进行评估,反馈模型学习训练使模型达到最好效果,用于后续新增标注任务,通过模型更新与语料标注之间的不断迭代提高语料标注质量和算法模型效果。
以上所述为本发明较佳实施例,应该注意的是上述实施例对本发明进行说明,然而本发明并不局限于此,并且本领域技术人员在脱离所附权利要求的范围情况下可设计出替换实施例。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (10)

1.一种关键词语料标注训练提取工具,包括:关键词语料标注准备模块、半自动化语料关键词标注模块、反馈式关键词标注模型学习训练模块和关键词标注模型效果评估模块,其特征在于:关键词语料标注准备模块对不同来源的海量语料数据进行区分,针对不同用途的关键词语料,对关键词语料来源选择,将其设置为用于不同用途的待标注语料,即生语料;半自动化语料关键词标注模块首先创建关键词标注任务,针对不同标注使用需求及语料特点,自主选择适配算法并开展基于算法模型的自动标注,通过集成CHI、LDA、基于图排序的关键词提取算法、TEXTRANK、TFIDF中至少一种关键词抽取算法,对待标注文本语料数据进行单一关键词的预标注处理,或同时选取上述多种关键词提取算法进行关键词标注,并对多种算法标注结果进行融合,当标注任务完成后,反馈式关键词标注模型学习训练模块针对内部已集成的关键词标注算法模型和外部深度增强标注算法模型,通过关键词算法模型参数设置,提供算法模型的学习和训练、使用已标注的关键词语料对关键词标注算法模型进行重新训练,反馈模型完善更新,通过模型更新与语料标注之间的不断迭代,自动反馈调整完成新的关键词标注任务;关键词标注模型效果评估模块根据关键词的评估指标标准构建关键词评测指标,基于关键词指标规则对评测指标完成量化,建立标注算法综合评估模型,对模型指标量化标注效果进行自动评估,为后续关键词标注任务自动推荐最优标注模型。
2.如权利要求1所述的关键词语料标注训练提取工具,其特征在于:融合后的标注结果通过人工按照关键词标注业务标准进一步干预判证,将标注结果保存为熟语料,通过关键词语料标注准备模块进行管理,供标注算法模型训练时使用,提供统一的关键词模型接入标准完成语料关键词标注工作。
3.如权利要求1所述的关键词语料标注训练提取工具,其特征在于:半自动化语料关键词标注模块针对特殊标注任务创建业务标注规则,并对标注业务规则进行管理,这里标注业务规则主要包括业务字典和用来匹配字符串的正则表达式。
4.如权利要求1所述的关键词语料标注训练提取工具,其特征在于:反馈式关键词标注模型学习训练模块读取已标注的用于训练的语料,选择关键算法训练,针对不可训练算法,无训练过程并结束,使用已标注语料数据对CHI、LDA、TEXTRANK、TFIDF可训练算法进行离线训练,调用统一训练模型接口Train,生成关键词模型序列文件Kryo,使模型准确度达到最佳。
5.如权利要求3所述的关键词语料标注训练提取工具,其特征在于:生成关键词模型序列文件Kryo后,反馈式关键词标注模型学***台中用于关键词标注的模型进行更新,完成新的关键词标注任务。
6.如权利要求4所述的关键词语料标注训练提取工具,其特征在于:在关键词模型更新中,反馈式模型学习训练模块启动关键词服务,选择预更新的关键词算法,如果选择的关键词算法是不可训练的算法,则结束;根据选择的CHI、LDA、TEXTRANK、TFIDF可训练算法,通过解析配置文件中更新关键词的开关来判断是否更新关键词模型,否,结束,是则根据关键词模型名称和关键词训练模型表,读取指定关键词模型文件,并对读取的关键词模型文件进行反序列化,完成关键词模型的加载,结束程序。
7.如权利要求1所述的关键词语料标注训练提取工具,其特征在于:标注模型效果评估模块根据指标标准设置单一指标算法;按照指标计算规则对指标进行量化,根据不同标注任务采用组织相应指标构建标注算法综合评估模型;完成指标综合值计算,对标注模型效果进行反馈。
8.如权利要求1所述的关键词语料标注训练提取工具,其特征在于:采用机器定量分析和人工主观判断两种方式来进行关键词提取的质量和评价标准。
9.如权利要求7所述的关键词语料标注训练提取工具,其特征在于:机器定量分析的指标是准确率P(Precision)、召回率R(Recall)、F值、E值,其中:
准确率
召回率
调和关键词提取准确率和召回率的平均值
10.如权利要求1所述的关键词语料标注训练提取工具,其特征在于:准确率和召回率一般称反比的关系。通过某些方法提高准确率,为了定义应用***对于准确率P和召回率R的不同需求,给出一个权重值对其准确率P和召回率R进行加权的考量,从而得到召回率进行加权的考量值E:
其中,b为加入的权重,b越大,则表示E值的考量中准确率的权重越大,反之则召回率的权重越大。
CN201910455064.3A 2019-05-29 2019-05-29 关键词语料标注训练提取*** Active CN110298033B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910455064.3A CN110298033B (zh) 2019-05-29 2019-05-29 关键词语料标注训练提取***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910455064.3A CN110298033B (zh) 2019-05-29 2019-05-29 关键词语料标注训练提取***

Publications (2)

Publication Number Publication Date
CN110298033A true CN110298033A (zh) 2019-10-01
CN110298033B CN110298033B (zh) 2022-07-08

Family

ID=68027297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910455064.3A Active CN110298033B (zh) 2019-05-29 2019-05-29 关键词语料标注训练提取***

Country Status (1)

Country Link
CN (1) CN110298033B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781290A (zh) * 2019-10-10 2020-02-11 南京摄星智能科技有限公司 一种长篇章结构化文本摘要提取方法
CN110968695A (zh) * 2019-11-18 2020-04-07 罗彤 基于弱监督技术主动学***台
CN111125312A (zh) * 2019-12-24 2020-05-08 深圳视界信息技术有限公司 一种文本标注方法及***
CN111143577A (zh) * 2019-12-27 2020-05-12 北京百度网讯科技有限公司 数据标注方法、装置和***
CN111476034A (zh) * 2020-04-07 2020-07-31 同方赛威讯信息技术有限公司 基于规则和模型结合的法律文书信息抽取方法及***
CN111859854A (zh) * 2020-06-11 2020-10-30 第四范式(北京)技术有限公司 一种数据标注方法、装置、设备及计算机可读存储介质
CN111859872A (zh) * 2020-07-07 2020-10-30 中国建设银行股份有限公司 一种文本标注方法和装置
CN112269877A (zh) * 2020-10-27 2021-01-26 维沃移动通信有限公司 数据标注方法及装置
CN112307175A (zh) * 2020-12-02 2021-02-02 龙马智芯(珠海横琴)科技有限公司 一种文本处理方法、装置、服务器及计算机可读存储介质
CN112365159A (zh) * 2020-11-11 2021-02-12 福建亿榕信息技术有限公司 一种基于深度神经网络的后备干部推荐方法及***
CN112395395A (zh) * 2021-01-19 2021-02-23 平安国际智慧城市科技股份有限公司 文本关键词提取方法、装置、设备及存储介质
CN112508376A (zh) * 2020-11-30 2021-03-16 中国科学院深圳先进技术研究院 一种指标体系构建方法
CN112632284A (zh) * 2020-12-30 2021-04-09 上海明略人工智能(集团)有限公司 用于未标注文本数据集的信息抽取方法及***
CN112862458A (zh) * 2021-03-02 2021-05-28 岭东核电有限公司 核电试验工序监管方法、装置、计算机设备和存储介质
CN113536783A (zh) * 2021-07-14 2021-10-22 福建亿榕信息技术有限公司 一种基于模型的新词发现方法
CN115511668A (zh) * 2022-10-12 2022-12-23 金华智扬信息技术有限公司 一种基于人工智能的案件监督方法、装置、设备和介质
CN118095251A (zh) * 2024-04-23 2024-05-28 北京国际大数据交易有限公司 一种文本数据的离线评估方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997344A (zh) * 2017-03-31 2017-08-01 成都数联铭品科技有限公司 关键词抽取***
CN108197098A (zh) * 2017-11-22 2018-06-22 阿里巴巴集团控股有限公司 一种关键词组合策略的生成及关键词扩展方法、装置和设备
CN108268447A (zh) * 2018-01-22 2018-07-10 河海大学 一种藏文命名实体的标注方法
US20180196870A1 (en) * 2017-01-12 2018-07-12 Microsoft Technology Licensing, Llc Systems and methods for a smart search of an electronic document
CN108595460A (zh) * 2018-01-05 2018-09-28 中译语通科技股份有限公司 关键词自动抽取的多路评测方法及***、计算机程序
CN108763213A (zh) * 2018-05-25 2018-11-06 西南电子技术研究所(中国电子科技集团公司第十研究所) 主题特征文本关键词提取方法
CN108960338A (zh) * 2018-07-18 2018-12-07 苏州科技大学 基于注意力反馈机制的图像自动语句标注方法
CN109710728A (zh) * 2018-11-26 2019-05-03 西南电子技术研究所(中国电子科技集团公司第十研究所) 新闻话题自动发现方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180196870A1 (en) * 2017-01-12 2018-07-12 Microsoft Technology Licensing, Llc Systems and methods for a smart search of an electronic document
CN106997344A (zh) * 2017-03-31 2017-08-01 成都数联铭品科技有限公司 关键词抽取***
CN108197098A (zh) * 2017-11-22 2018-06-22 阿里巴巴集团控股有限公司 一种关键词组合策略的生成及关键词扩展方法、装置和设备
CN108595460A (zh) * 2018-01-05 2018-09-28 中译语通科技股份有限公司 关键词自动抽取的多路评测方法及***、计算机程序
CN108268447A (zh) * 2018-01-22 2018-07-10 河海大学 一种藏文命名实体的标注方法
CN108763213A (zh) * 2018-05-25 2018-11-06 西南电子技术研究所(中国电子科技集团公司第十研究所) 主题特征文本关键词提取方法
CN108960338A (zh) * 2018-07-18 2018-12-07 苏州科技大学 基于注意力反馈机制的图像自动语句标注方法
CN109710728A (zh) * 2018-11-26 2019-05-03 西南电子技术研究所(中国电子科技集团公司第十研究所) 新闻话题自动发现方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HANGFENG HE等: "A Unified Model for Cross-Domain and Semi-Supervised Named Entity Recognition in Chinese Social Media,Jinseok Nam Semi-Supervised Neural Networks for Nested Named Entity Recognition", 《AAAI》 *
MATTHEW E. PETERS等: "Semi-supervised sequence tagging with bidirectional language models", 《ARXIV》 *
冯浩哲等: "面向 3D CT 影像处理的无监督推荐标注算法", 《计算机辅助设计与图形学学报》 *
刘晓娟等: "国外知识抽取***研究", 《情报科学》 *
王敏等: "教学视频的文本语义镜头分割和标注", 《数据采集与处理》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781290A (zh) * 2019-10-10 2020-02-11 南京摄星智能科技有限公司 一种长篇章结构化文本摘要提取方法
CN110968695A (zh) * 2019-11-18 2020-04-07 罗彤 基于弱监督技术主动学***台
CN111125312A (zh) * 2019-12-24 2020-05-08 深圳视界信息技术有限公司 一种文本标注方法及***
CN111143577A (zh) * 2019-12-27 2020-05-12 北京百度网讯科技有限公司 数据标注方法、装置和***
CN111143577B (zh) * 2019-12-27 2023-06-16 北京百度网讯科技有限公司 数据标注方法、装置和***
US11860838B2 (en) 2019-12-27 2024-01-02 Beijing Baidu Netcom Science And Teciinology Co., Ltd. Data labeling method, apparatus and system, and computer-readable storage medium
CN111476034A (zh) * 2020-04-07 2020-07-31 同方赛威讯信息技术有限公司 基于规则和模型结合的法律文书信息抽取方法及***
CN111859854A (zh) * 2020-06-11 2020-10-30 第四范式(北京)技术有限公司 一种数据标注方法、装置、设备及计算机可读存储介质
CN111859872A (zh) * 2020-07-07 2020-10-30 中国建设银行股份有限公司 一种文本标注方法和装置
CN112269877A (zh) * 2020-10-27 2021-01-26 维沃移动通信有限公司 数据标注方法及装置
CN112365159A (zh) * 2020-11-11 2021-02-12 福建亿榕信息技术有限公司 一种基于深度神经网络的后备干部推荐方法及***
CN112508376A (zh) * 2020-11-30 2021-03-16 中国科学院深圳先进技术研究院 一种指标体系构建方法
CN112307175A (zh) * 2020-12-02 2021-02-02 龙马智芯(珠海横琴)科技有限公司 一种文本处理方法、装置、服务器及计算机可读存储介质
CN112632284A (zh) * 2020-12-30 2021-04-09 上海明略人工智能(集团)有限公司 用于未标注文本数据集的信息抽取方法及***
CN112395395A (zh) * 2021-01-19 2021-02-23 平安国际智慧城市科技股份有限公司 文本关键词提取方法、装置、设备及存储介质
CN112395395B (zh) * 2021-01-19 2021-05-28 平安国际智慧城市科技股份有限公司 文本关键词提取方法、装置、设备及存储介质
CN112862458A (zh) * 2021-03-02 2021-05-28 岭东核电有限公司 核电试验工序监管方法、装置、计算机设备和存储介质
CN113536783A (zh) * 2021-07-14 2021-10-22 福建亿榕信息技术有限公司 一种基于模型的新词发现方法
CN115511668A (zh) * 2022-10-12 2022-12-23 金华智扬信息技术有限公司 一种基于人工智能的案件监督方法、装置、设备和介质
CN115511668B (zh) * 2022-10-12 2023-09-08 金华智扬信息技术有限公司 一种基于人工智能的案件监督方法、装置、设备和介质
CN118095251A (zh) * 2024-04-23 2024-05-28 北京国际大数据交易有限公司 一种文本数据的离线评估方法及装置
CN118095251B (zh) * 2024-04-23 2024-06-18 北京国际大数据交易有限公司 一种文本数据的离线评估方法及装置

Also Published As

Publication number Publication date
CN110298033B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN110298033A (zh) 关键词语料标注训练提取工具
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN103049435B (zh) 文本细粒度情感分析方法及装置
CN110502621A (zh) 问答方法、问答装置、计算机设备及存储介质
US8676815B2 (en) Suffix tree similarity measure for document clustering
CN104216913B (zh) 问题回答方法、***和计算机可读介质
CN110298032A (zh) 文本分类语料标注训练***
CN109829104A (zh) 基于语义相似度的伪相关反馈模型信息检索方法及***
CN110287481A (zh) 命名实体语料标注训练***
CN100595760C (zh) 一种获取口语词条的方法、装置以及一种输入法***
CN105045875B (zh) 个性化信息检索方法及装置
CN105528437B (zh) 一种基于结构化文本知识提取的问答***构建方法
CN103678576A (zh) 基于动态语义分析的全文检索***
CN103838833A (zh) 基于相关词语语义分析的全文检索***
CN110287482B (zh) 半自动化分词语料标注训练装置
CN110175585B (zh) 一种简答题自动批改***及方法
CN105393263A (zh) 计算机-人交互式学习中的特征完成
CN112307153B (zh) 一种产业知识库自动构建方法、装置及存储介质
CN102184262A (zh) 基于web的文本分类挖掘***及方法
CN109145260A (zh) 一种文本信息自动提取方法
CN103324700A (zh) 一种基于Web信息的本体概念属性学习方法
CN112051986B (zh) 基于开源知识的代码搜索推荐装置及方法
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
CN114090861A (zh) 一种基于知识图谱的教育领域搜索引擎构建方法
CN101556596A (zh) 一种输入法***及智能组词的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant