CN1940915B - 训练语料扩充***和方法 - Google Patents

训练语料扩充***和方法 Download PDF

Info

Publication number
CN1940915B
CN1940915B CN200510108065A CN200510108065A CN1940915B CN 1940915 B CN1940915 B CN 1940915B CN 200510108065 A CN200510108065 A CN 200510108065A CN 200510108065 A CN200510108065 A CN 200510108065A CN 1940915 B CN1940915 B CN 1940915B
Authority
CN
China
Prior art keywords
corpus
sample seed
seed
new
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200510108065A
Other languages
English (en)
Other versions
CN1940915A (zh
Inventor
郭宏蕾
张俐
裘照明
沈丽琴
郭志立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN200510108065A priority Critical patent/CN1940915B/zh
Priority to US11/511,750 priority patent/US20070073534A1/en
Publication of CN1940915A publication Critical patent/CN1940915A/zh
Priority to US12/138,139 priority patent/US7805288B2/en
Application granted granted Critical
Publication of CN1940915B publication Critical patent/CN1940915B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种通过扩充新的样本种子来自动扩充训练语料的***和方法。其中使用样本种子收集训练语料;基于已有的样本种子和被收集的训练语料,产生新的样本种子;基于收集训练语料时所使用过的所有样本种子和新的样本种子确定训练语料扩充策略;按照训练语料扩充策略调整新的样本种子,使用调整后的新的样本种子再次收集训练语料,重复上述步骤直到达到预定的条件。本发明能够以较低的成本方便地从网络或者其它资源中自动扩充训练语料,提高训练语料的覆盖面。

Description

训练语料扩充***和方法
技术领域
本发明涉及由机器学习进行信息抽取、知识挖掘以及自然语言处理领域,尤其涉及对于作为机器学习的训练语料(corpus)进行扩充的训练语料扩充***和方法。
背景技术
通常,通过机器学习的方式,由机器对于通过人工或者自动收集的方式所收集到的训练语料进行统计和分析,来生成某个类别的分类模型,以供将来进行信息抽取、知识挖掘以及其它自然语言处理。
在进行特定任务(task-oriented)或者特定领域(domain-oriented)的自然语言处理中,例如在特定领域的信息抽取、命名实体识别(named entity recognition)中,收集覆盖面尽量多的训练语料和对所收集到的训练语料进行标注成为影响机器识别准确度的重要因素。
现在已经有一些自动地进行训练语料收集和标注的方法。在这些方法中,通过使用搜索引擎和一些样本种子(sample seed,以下也简单称为样本)从网络或者其它外部资源收集训练语料。但是,在这些已有的方法中,训练语料的覆盖面完全取决于有限的初始样本种子。因此,要求能够基于更多的样本种子收集到覆盖面更广的训练语料。
发明内容
为了解决现有技术的上述问题,本发明的一个目的是提供一种通过扩充新的样本种子来自动扩充训练语料的***和方法。
为了实现上述目的,本发明提供一种训练语料扩充***,包括:训练语料收集单元,使用样本种子收集训练语料;样本种子扩充单元,基于训练语料收集单元以往收集训练语料时所使用的样本种子和被收集的训练语料,产生新的样本种子;均衡单元,基于训练语料收集单元所使用过的所有样本种子和新的样本种子确定训练语料扩充策略;调整装置,按照训练语料扩充策略调整新的样本种子。
本发明还提供一种训练语料扩充方法,包括:使用样本种子收集训练语料;基于已有的样本种子和被收集的训练语料,产生新的样本种子;基于收集训练语料时所使用过的所有样本种子和新的样本种子确定训练语料扩充策略;按照训练语料扩充策略调整新的样本种子,使用调整后的新的样本种子再次收集训练语料,重复上述步骤直到达到预定的条件。
通过采用本发明,能够以较低的成本方便地从网络或者其它资源中自动扩充训练语料。
通过采用本发明,可以提高训练语料的覆盖面。
通过采用本发明,可以将自动扩充得到的样本种子用于语料的自动标注,因此能够提高对于训练语料进行预标注的质量。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显.
附图说明
图1示出根据本发明的第一实施例的训练语料扩充***的概略结构图。
图2示出根据本发明的第一实施例的进行训练语料扩充过程的总流程图。
图3示出根据本发明的第一实施例的样本种子扩充单元的结构图。
图4示出根据本发明的第一实施例进行样本种子扩充的操作过程的流程图。
图5是根据本发明的第一实施例的基于语言学结构的样本种子扩充单元的操作过程的流程图。
图6是下面描述基于命名实体识别器的样本种子扩充单元的操作过程的流程图。
图7示出根据本发明的第一实施例判断是否对某类下的样本种子进行扩充的处理的流程图。
图8示出根据本发明的第一实施例得到需要被删除的候选样本种子的信息的处理的流程图。
图9示出根据本发明的第一实施例调整新样本种子的操作过程的流程图。
具体实施方式
下面,以命名实体识别为例,说明本发明提出的方法和***。但是,本领域的技术人员将能够理解,根据本发明的方法和***可以扩展应用到其他类似的领域,例如,名词性实体识别、关系识别、信息抽取等领域。
首先对于本发明中使用的一些术语进行解释。
特定领域:是进行训练语料收集时所针对的具体领域,例如金融领域、体育领域、娱乐领域等。
特定领域的命名实体类(以下简称为类):是针对特定领域进行训练语料收集时对特定领域所定义的实际上有意义的类别,例如将银行领域下的类分为银行名称类别、银行行长姓名类别、城市名称类别等。
命名实体,是特定领域的各类下的实体名等有实际意义的词语,例如具体的银行名、人名、地名。
样本种子:是特定领域的命名实体的样例,例如某个银行名、人名、地名。进行训练语料收集时使用样本种子进行资源搜索。
训练语料:包含一个或者多个样本种子的一个自然语言表达片断,例如是一篇文章或者一段文字。
生训练语料:未经任何标注的训练语料。
训练语料收集条件:收集训练语料时所要求的条件,只有符合条件的训练语料才有可能被收集。例如,条件包括领域类别,是金融类、体育类或是其它某个类别等;文本类型,是WORD文件、PDF文件还是其它某个类型的文件等;训练语料采用的语言;训练语料个数的最大值;训练语料是片断和/或整篇文章;训练语料的URL限制等等。
样本种子列表:将特定领域的各类别下的相似的样本种子关联地进行存储.例如同属于金融领域的银行类下的多个具体的银行名属于相似的样本种子.这些样本种子形成一个样本种子列表,列表中的每个条目信息包括样本种子及其类别.根据本发明,样本种子列表是初次进行训练语料收集时所使用的样本种子和根据本发明所扩充出来的新的样本种子构成的列表,即进行训练语料收集所使用过的所有样本种子的列表.
新候选样本种子列表:根据本发明所扩充出来的未被均衡和调整的新的样本种子的列表。
新样本种子列表:根据本发明所扩充出来的已经被均衡和调整的新的样本种子的列表。根据本发明,在每次进行训练语料收集的时候,使用新样本种子列表中的样本种子进行资源搜索。
训练语料扩充策略:对于当前所收集到的训练语料,在进行扩充时应采取的策略。例如特定领域下哪个类下的训练语料应继续扩充;例如对于所收集到的新的样本种子,哪个样本种子需要被舍弃等。
下面的描述以以下假设为前提,即对于特定领域进行训练语料的扩充和样本种子的扩充。
第一实施例
图1示出根据本发明的第一实施例的训练语料扩充***的概略结构图。
根据本发明的训练语料扩充***包括训练语料扩充装置1和存储装置2。其中训练语料扩充装置1包括训练语料收集单元101,样本种子扩充单元110,均衡单元120,调整单元130,判断单元145。存储装置2包括生训练语料存储单元105,新候选样本种子列表存储单元115,新样本种子列表存储单元125,训练语料扩充策略存储单元135,训练语料收集条件存储单元140,和样本种子列表存储单元155。
其中,在生训练语料存储单元105中存储训练语料收集单元101所收集的所有生训练语料,即未经任何标注的训练语料。
在新候选样本种子列表存储单元115中存储样本种子扩充单元110所产生的新候选样本种子列表。
在新样本种子列表存储单元125中存储调整单元130对于新候选样本种子进行调整后得到的新样本种子的列表。在***初始化时该新样本种子列表存储单元125中存储第一次进行训练语料收集时所使用的样本种子。在训练语料扩充策略存储单元135中存储均衡单元120所产生的训练语料扩充策略。
在训练语料收集条件存储单元140中存储训练语料收集条件。***初始化时以及在随后的训练语料扩充操作时,可以通过人工输入本次进行训练语料收集时使用的训练语料收集条件。在样本种子列表存储单元155中存储根据本发明被扩充后的所有样本种子的列表。在***初始化时该样本种子列表存储单元155中存储第一次进行训练语料收集时所使用的样本种子。在以后每次扩充了新的样本种子后,被扩充的新的样本种子被添加到样本种子列表存储单元155中。
以下通过描述根据本发明进行训练语料扩充的过程来介绍上述训练语料扩充***的各组成结构的功能。
图2示出根据本发明进行训练语料扩充过程的总流程图。
首先,在步骤S201,训练语料收集单元101从网络或者其它外部资源,按照新样本种子列表存储单元125中所存储的初始样本种子和训练语料收集条件存储单元140中所存储的初始训练语料收集条件,使用已有的技术收集初始的训练语料,并将其存储在生训练语料存储单元105中.所收集的生训练语料中样本种子未被标注.
收集训练语料的方法可以是:将新样本种子作为查询关键词提交到互联网搜索引擎或其他外部资源的搜索***,查询结果列出包含查询词的自然语言片断或文章的存储地址(例如,URL),根据训练语料收集条件对查询结果进行过滤,将满足条件的自然语言片断和/或整篇文章下载至本地,存储在生训练语料存储单元105中。
在步骤S205,样本种子扩充单元110按照后述的方法,从生训练语料存储单元105中所存储的当前可用的所有生训练语料中抽取新候选样本种子,并将所抽取的新候选样本种子按照特定领域的各类关联起来形成一个列表,存储在新候选样本种子列表存储单元115中。
在步骤S210,均衡单元120按照后述的方法,分析样本种子列表存储单元155和新候选样本种子列表存储单元125中的样本种子的分布状态,形成训练语料扩充策略,存储在训练语料扩充策略存储单元135中。
在步骤S215,调整单元130按照后述的方法,按照训练语料扩充策略存储单元135中的训练语料扩充策略调整新候选样本种子列表存储单元115中存储的候选样本种子,生成新样本种子列表并存储在新样本种子列表存储单元125中,并将新的样本种子添加到样本种子列表存储单元155中。
在步骤S220,判断单元145判断是否达到预定的训练语料收集结束条件。如果达到了,则前进到步骤S230,训练语料收集单元停止进行训练语料的扩充。否则前进到步骤S225。该预定条件例如是当样本种子扩充单元110没有扩充更多的样本种子,例如新的样本种子的个数与上一次进行训练语料扩展的样本种子的个数的比值小于一个特定的值,或者当生训练语料存储单元105中所存储的生训练语料的数量已经达到某个预定值等。
在步骤S225,训练语料收集单元101使用新样本种子列表存储单元125中的扩充后的新样本种子以及训练语料收集条件存储单元140中的训练语料收集条件收集新的训练语料,并将所收集的新的训练语料与已经存储在训练语料存储单元105中的生训练语料进行合并后再存储在生训练语料存储单元105中。
然后返回到步骤S205继续进行处理。
下面描述样本种子扩充单元110的处理。
图3示出根据本发明的样本种子扩充单元110的结构图。
在图3中,与图1中相同的内容标以相同的附图标记。样本种子扩充单元110包括基于语言学结构的样本种子扩充单元301,基于命名实体识别器的样本种子扩充单元305,和新候选样本种子合并单元310。
图4示出根据本发明的样本种子扩充单元110进行样本种子扩充的操作过程。
在步骤S401,基于语言学结构的样本种子扩充单元301进行样本种子扩充,生成新候选样本种子,将生成的新候选样本种子提供给新候选样本种子合并单元310。
在步骤S405,基于命名实体识别器的样本种子扩充单元305进行样本种子扩充,生成新候选样本种子,将生成的新候选样本种子提供给新候选样本种子合并单元310。
在步骤S410,新候选样本种子合并单元310将在步骤S401和步骤S405得到的新候选样本种子合并,形成新候选样本种子列表,存储到新候选样本种子列表存储单元115中.
下面以一个生训练语料为例描述基于语言学结构的样本种子扩充单元301的操作过程。
如图5所示,在步骤S501,用标签使用生训练语料存储单元105中的所有已经收集的未经标注的生训练语料标注初始样本种子。其中初始样本种子是样本种子列表存储单元155中存储的样本种子。
标注后的训练语料存储在未图示的存储单元中。
在步骤S505,使用已有的语言学规则库,从该标注后的训练语料中抽取包含初始样本种子的所有并列语法结构。例如,可以基于并列语法规则从训练语料的句子中抽取具有连接词“和”、“例如”、“等”或者顿号等并列语法结构。该并列语法结构例如是包含初始样本种子以及其左右的一段内容的片断。
在步骤S510,基于已有的语言学规则库,从所抽取的并列语法结构的组成中抽取所有新的候选样本种子。
在步骤S515,使用与包含在所抽取的并列语法结构的组成中的初始样本种子的标签相同的标签对于已经被标注的训练语料中所抽取的新的候选样本种子再次进行标记。
在步骤S520,将所抽取的新的候选样本种子提供给新候选样本种子合并单元310。下面描述基于命名实体识别器的样本种子扩充单元305的操作过程。
如图6所示,首先,在步骤S601,使用命名实体识别器(seedannotator),对于训练语料收集单元101所收集的所有生训练语料,自动标注其中的样本种子。
标注后的训练语料存储在未图示的存储单元中。
命名实体识别器可以是已有的一个独立存在的能够自动标识生训练语料中出现的命名实体的装置,也可以是基于目前收集到的训练语料,通过机器学习的方法,得到的一个命名实体识别器。在后一种方法中,步骤S601可以这样进行:首先,用标签对于生训练语料存储单元105中的未经标注的生训练语料标注初始样本种子,其中初始样本种子是样本种子列表存储单元155中存储的样本种子;然后,将已标注的训练语料送入已有的进行命名实体识别的机器学习模块,通过训练得到一个命名实体识别器;最后,利用训练得到的命名实体识别器对生训练语料进行识别,识别的结果就是带标注的训练语料。
在步骤S605,从被自动标注的训练语料中抽取所有的被标注的样本种子。
在步骤S610,从所抽取的被标注的样本种子中抽取在样本种子列表存储单元155的样本种子之外的那些样本种子,作为新候选样本种子。
本领域的技术人员可以理解,上述命名实体识别器的识别结果与用样本种子列表存储单元155中存储的样本种子会有所不同。
在步骤S615,将所抽取的新候选样本种子提供给新候选样本种子合并单元310。
通过以上图4-6的处理,能够有效地扩充样本种子。
下面描述根据本发明对于新候选样本种子进行调整和对于训练语料扩充策略进行调整的操作。
对于训练语料来说,如果训练语料的分布不均衡,将对于机器学习造成很多不良影响,例如将降低分类的性能和准确度。本发明通过使用均衡单元120和调整单元130实现样本种子评价,基于样本种子的分布提供进一步的训练语料扩充策略,调整新样本种子。
图7示出根据本发明的均衡单元120判断是否对某类下的样本种子进行扩充的处理的流程图。
假设某个特殊领域共有N类{C1,C2,...Cn}命名实体;其中样本种子数分别是{m1,m2,...mn};阈值Mt表示各类下的样本种子的最少个数;ri(1≤i≤n)表示各类下的样本种子的数目相对于其它类下的样本种子树数目之和的比例;阈值R表示各类下的样本种子的数目相对于其它类下的样本种子树数目之和的比例需要达到的值。
首先,在步骤S700,基于在样本种子列表存储单元155中所存储的样本种子和在新候选样本种子列表存储单元115中所存储的新候选样本种子,统计在特殊领域的各类{C1,C2,...Cn}下的样本种子数{m1,m2,...mn}。
在步骤S701,设i等于1。
在步骤S705,判断是否满足mi≤Mt
当满足时,前进到步骤S710,将Ci类下的样本种子需要被扩充这个信息作为一条类扩充策略存储在训练语料扩充策略存储单元135。
如果不满足上述关系,则前进到步骤S715,令
Figure G2005101080659D00091
在步骤S720,判断是否满足ri<R。当满足的时候,前进到步骤S710,将Ci类下的样本种子需要被扩充这个信息作为一条类扩充策略存储在训练语料扩充策略存储单元135。
如果不满足上述关系,则前进到步骤S725,令i=i+1。
在步骤S730,判断是否满足关系i≤N,如果不满足,则结束处理。
否则,返回到步骤S705,继续进行下一个类的均衡处理。
通过上述操作,将样本种子数目需要被扩充的类的情况存储在训练语料扩充策略存储单元135中,以便进行候选样本种子调整时使用。
但是,仅仅把需要被扩充的类找出进行训练语料扩充依然不能充分解决机器学习的性能变坏的问题,这是因为在特征空间上在被找出的类下的被扩充出来的新候选样本种子可能与其它类下的样本种子有重叠,这种重叠会导致机器学习性能的变坏。因此本发明进而对于需要被扩充的类下的新候选样本种子进行进一步的调整,以得到下一次进行训练语料收集时所使用的新样本种子。
现在仍然假设一个特殊领域共有N类{C1,C2,...Cn}命名实体,其中样本种子数是{m1,m2,...mn};并且假设通过上述图7的方法发现Ck类下的训练语料需要被扩充。
通过下述图8所示的处理,得到需要被删除的候选样本种子的信息。如图8所示,首先在步骤S801,令i等于1。
在步骤S805,判断是否Ci不等于Ck。当两者相等时,前进到步骤S840。否则前进到步骤S810。
在步骤S810,按照如下公式计算Ci类下的在样本种子列表存储单元155中的样本种子的重心Si
S i = 1 m i Σ x ∈ C i V x
其中,x表示属于Ci类的各个已有样本种子,Vx表示样本种子x的特征矢量值。然后,在步骤S815,计算各样本种子x与Si之间的距离 d i = 1 cos ( V x , S i ) .
在步骤S820,从所计算出的di,获得最大距离dmax,即dmax=max(di).
然后,在步骤S825,设y表示属于Ck类的新候选样本种子,Vy表示样本种子y的特征矢量值。计算y与Si之间的距离 d k = 1 cos ( V y , S i ) .
在步骤S830,将dk与dmax进行比较,当dk<dmax时,确定为y是需要被从类Ck下的新候选样本种子中删除的新候选样本种子,并将该应当被删除的新候选样本种子的信息作为一条新样本种子扩充策略存储到训练语料扩充策略存储单元135中。
然后在步骤S835,判断Ck类的新候选样本种子是否全部都被进行了处理。如果没有全部被处理,则返回到步骤S825。反复进行上述步骤S825和S830,直到Ck类的新候选样本种子全部被进行处理。
当全部被处理后,前进到步骤S840,令i=i+1。
在步骤S845,判断是否满足关系i≤N,如果满足,则返回到步骤S805,使用下一个类Ci,继续对于需要被扩充的Ck类下的新候选样本种子进行进一步的均衡。
否则,结束处理。
对于通过图7的处理存储在训练语料扩充策略存储单元135中的需要被扩充的类的信息,分别进行以上图8的处理,得到对于在图7中所得到的需要被进行扩充的Ck类,哪些新候选样本种子不能作为新样本种子。
图9示出调整单元130根据通过图7和图8的处理存储在训练语料扩充策略存储单元135中的新样本种子扩充策略,调整新样本种子的操作过程。
首选,在步骤S901,调整单元130基于训练语料扩充策略存储单元135中所存储的类扩充策略,从新候选样本种子列表存储单元中删除不需要进行扩充的那些类下的新候选样本种子,形成类扩充后新候选样本种子列表。在步骤S905,调整单元130基于训练语料扩充策略存储单元135中所存储的新样本种子扩充策略,从类扩充后新候选样本种子列表中删除在图8所选出的应删除的新候选样本种子,形成新样本种子列表。
在步骤S910,将新样本种子列表存储到新样本种子列表存储单元125中,将新样本种子列表中的新样本种子添加到样本种子列表存储单元155中。
此外,将新候选样本种子列表存储单元115中的内容删除以供下次进行训练语料收集时存储新候选样本种子。将训练语料扩充策略存储单元135中的内容删除,以便下次形成新的训练语料扩充策略时使用。
另外,关于新样本种子列表存储单元125,在训练语料收集单元101每次收集了训练语料后,删除该新样本种子列表存储单元125中的内容。
另外,关于训练语料收集条件存储单元140中的内容,可以在训练语料收集单元101每次收集训练语料之前,由人工通过未图示的输入装置调整需要保留哪些训练语料收集条件供收集训练语料的时候使用。
通过以上的处理,样本种子和训练语料都被进行了扩充。
其它实施例
在上述实施例中,(新)候选样本种子列表存储单元和训练语料扩充策略存储单元作为临时的存储单元存储中间数据,本领域的技术人员将能够理解,当然也可以由前一级的处理单元直接将中间数据传递给相应的下一级的处理单元进行处理,而省略这些临时存储单元。
另外,可以使用存储在样本种子列表存储单元155中的扩充后的样本种子进行信息抽取使用、知识挖掘或者其它自然语言处理应用来使用。
另外,还可以由已有的命名实体识别器使用存储在样本种子列表存储单元155中被扩充后的样本种子,对生训练语料存储单元105中的生训练语料进行预标注,或者对于其它来源的训练语料进行预标注,从而改善预标注质量。进而,还可以将标注后的训练语料进行存储,以供进行信息抽取使用、指示挖掘或者其它自然语言处理应用来使用。
另外,根据本发明的训练语料扩充装置可以由处理器运行程序来实现,或者由相应的逻辑电路来实现,后者由程序和逻辑电路结合的方式来实现。
另外,根据本发明的存储装置可以以可读写的RAM等已有的存储设备来实现。
另外,上述各操作过程可以以存储在各种介质中的计算机可以执行的程序的方式实现或者以通过通信网络下载到客户计算机由CPU可以处理的程序的方式来实现。这些介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质。
应该注意的是,上面所描述的实施方式只是用于说明本发明,并不构成对本发明的限制。
虽然结合附图详细描述了本发明的实施例,但是对于本领域的技术人员来说,仍可以对上述实施方式作出各种修改和变更而不改变本发明的实质和范围。因此,本发明的范围仅由所附权利要求限定。

Claims (13)

1.一种训练语料扩充***,包括:
训练语料收集单元,使用样本种子收集训练语料;
样本种子扩充单元,基于训练语料收集单元以往收集训练语料时所使用的样本种子和被收集的训练语料,产生新的样本种子;
均衡单元,基于训练语料收集单元所使用过的所有样本种子的分布和新的样本种子的分布确定训练语料扩充策略;
调整装置,按照训练语料扩充策略调整新的样本种子,
所述训练语料扩充策略包括以下信息中的至少一个:特定领域中需要进行样本种子扩充的类的信息;所述新的样本种子中需要被删除的样本种子的信息。
2.根据权利要求1所述的训练语料扩充***,其中,
还包括样本种子存储单元,存储训练语料收集单元所使用过的所有样本种子;
所述训练语料收集单元使用调整后的新的样本种子收集训练语料;
所述调整装置,将所述调整后的新的样本种子添加到样本种子存储单元中。
3.根据权利要求1或2所述的训练语料扩充***,其中,所述样本种子扩充单元包括以下单元的至少一个,
基于语言学结构的样本种子扩充单元,用于按照语言学结构特征生成新的样本种子;
基于命名实体识别器的样本种子扩充单元,用于使用已有的命名实体识别器生成新的样本种子。
4.根据权利要求3所述的训练语料扩充***,还包括,训练语料存储单元,用于存储训练语料收集单元所收集到的训练语料。
5.根据权利要求3所述的训练语料扩充***,其中,
当达到预定的条件时,所述训练语料收集单元停止收集训练语料。
6.根据权利要求1所述的训练语料扩充***,其中,
当达到预定的条件时,所述训练语料收集单元停止收集训练语料。
7.根据权利要求5所述的训练语料扩充***,其中,
所述预定的条件是当训练语料的个数到达一个特定的值;或者新的样本种子的个数与上一次进行训练语料扩展的样本种子的个数的比值小于一个特定的值。
8.一种训练语料扩充方法,包括:
使用样本种子收集训练语料;
基于已有的样本种子和被收集的训练语料,产生新的样本种子;
基于收集训练语料时所使用过的所有样本种子的分布和新的样本种子的分布确定训练语料扩充策略;
按照训练语料扩充策略调整新的样本种子,
使用调整后的新的样本种子再次收集训练语料,
重复上述步骤直到达到预定的条件,
所述训练语料扩充策略包括以下信息中的至少一个:特定领域中需要进行样本种子扩充的类的信息;所述新的样本种子中需要被删除的样本种子的信息。
9.根据权利要求8所述的训练语料扩充方法,其中,
还包括存储训练语料收集时所使用过的所有样本种子的步骤。
10.根据权利要求8或9所述的训练语料扩充方法,其中,所述产生新的样本种子的步骤包括以下步骤中的至少一个,
按照语言学结构特征生成新的样本种子;
使用已有的命名实体识别器生成新的样本种子。
11.根据权利要求10所述的训练语料扩充方法,还包括存储所收集到的训练语料的步骤。
12.根据权利要求8所述的训练语料扩充方法,其中,
所述预定的条件是当训练语料的个数到达一个特定的值;或者新的样本种子的个数与上一次进行训练语料扩展的样本种子的个数的比值小于一个特定的值。
13.根据权利要求11所述的训练语料扩充方法,其中,
所述预定的条件是当训练语料的个数到达一个特定的值;或者新的样本种子的个数与上一次进行训练语料扩展的样本种子的个数的比值小于一个特定的值。
CN200510108065A 2005-09-29 2005-09-29 训练语料扩充***和方法 Expired - Fee Related CN1940915B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN200510108065A CN1940915B (zh) 2005-09-29 2005-09-29 训练语料扩充***和方法
US11/511,750 US20070073534A1 (en) 2005-09-29 2006-08-29 Corpus expansion system and method thereof
US12/138,139 US7805288B2 (en) 2005-09-29 2008-06-12 Corpus expansion system and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200510108065A CN1940915B (zh) 2005-09-29 2005-09-29 训练语料扩充***和方法

Publications (2)

Publication Number Publication Date
CN1940915A CN1940915A (zh) 2007-04-04
CN1940915B true CN1940915B (zh) 2010-05-05

Family

ID=37895261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200510108065A Expired - Fee Related CN1940915B (zh) 2005-09-29 2005-09-29 训练语料扩充***和方法

Country Status (2)

Country Link
US (2) US20070073534A1 (zh)
CN (1) CN1940915B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073653B (zh) * 2009-11-20 2013-06-19 富士通株式会社 信息抽取方法和装置
EP2638481A1 (en) * 2010-11-10 2013-09-18 Hewlett-Packard Development Company, L.P. Seed set expansion
CN102831131B (zh) * 2011-06-16 2015-02-11 富士通株式会社 构建标注网页语料库的方法及装置
CN104346406B (zh) * 2013-08-08 2018-05-22 北大方正集团有限公司 训练语料扩充装置和训练语料扩充方法
US9754207B2 (en) 2014-07-28 2017-09-05 International Business Machines Corporation Corpus quality analysis
US9348806B2 (en) * 2014-09-30 2016-05-24 International Business Machines Corporation High speed dictionary expansion
US10339135B2 (en) * 2015-11-06 2019-07-02 International Business Machines Corporation Query handling in search systems
US10229188B2 (en) 2015-12-04 2019-03-12 International Business Machines Corporation Automatic corpus expansion using question answering techniques
CN107004000A (zh) * 2016-06-29 2017-08-01 深圳狗尾草智能科技有限公司 一种语料生成装置和方法
KR102630668B1 (ko) 2016-12-06 2024-01-30 한국전자통신연구원 입력 텍스트를 자동으로 확장하는 시스템 및 방법
CN107342079A (zh) * 2017-07-05 2017-11-10 谌勋 一种基于互联网的真实人声的采集***
CN107798080B (zh) * 2017-10-13 2020-05-22 中国科学院信息工程研究所 一种面向钓鱼url检测的相似样本集构造方法
CN108154234A (zh) * 2017-12-04 2018-06-12 盈盛资讯科技有限公司 一种基于模板的知识学习方法和***
CN108446321B (zh) * 2018-02-10 2021-03-30 武汉市灯塔互动文化传播有限公司 一种基于深度学习的自动问答方法
US11488055B2 (en) * 2018-07-26 2022-11-01 International Business Machines Corporation Training corpus refinement and incremental updating
CN109785856A (zh) * 2019-03-01 2019-05-21 深圳市伟文无线通讯技术有限公司 一种多通道远近场语料采集方法及装置
US11069346B2 (en) * 2019-04-22 2021-07-20 International Business Machines Corporation Intent recognition model creation from randomized intent vector proximities
CN110309280B (zh) * 2019-05-27 2021-11-09 重庆小雨点小额贷款有限公司 一种语料扩容方法及相关设备
CN110188204B (zh) * 2019-06-11 2022-10-04 腾讯科技(深圳)有限公司 一种扩展语料挖掘方法、装置、服务器及存储介质
CN110704590B (zh) * 2019-09-27 2022-04-12 支付宝(杭州)信息技术有限公司 扩充训练样本的方法和装置
CN111291560B (zh) * 2020-03-06 2023-05-23 深圳前海微众银行股份有限公司 样本扩充方法、终端、装置及可读存储介质
CN111460117B (zh) * 2020-03-20 2024-03-08 平安科技(深圳)有限公司 对话机器人意图语料生成方法、装置、介质及电子设备
CN111914936B (zh) * 2020-08-05 2023-05-09 平安科技(深圳)有限公司 语料数据的数据特征增强方法、装置及计算机设备
CN114328921B (zh) * 2021-12-27 2024-04-09 湖南大学 一种基于分布校准的小样本实体关系抽取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
CN1369830A (zh) * 2001-01-31 2002-09-18 微软公司 歧义消除语言模型
US20020169596A1 (en) * 2001-05-04 2002-11-14 Brill Eric D. Method and apparatus for unsupervised training of natural language processing units
CN1570923A (zh) * 2003-07-22 2005-01-26 中国科学院自动化研究所 口语会话中句子边界识别方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5787422A (en) * 1996-01-11 1998-07-28 Xerox Corporation Method and apparatus for information accesss employing overlapping clusters
US5926811A (en) * 1996-03-15 1999-07-20 Lexis-Nexis Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching
US6038557A (en) * 1998-01-26 2000-03-14 Xerox Corporation Method and apparatus for almost-constant-time clustering of arbitrary corpus subsets
US6418445B1 (en) * 1998-03-06 2002-07-09 Perot Systems Corporation System and method for distributed data collection and storage
US6101492A (en) * 1998-07-02 2000-08-08 Lucent Technologies Inc. Methods and apparatus for information indexing and retrieval as well as query expansion using morpho-syntactic analysis
US6453312B1 (en) * 1998-10-14 2002-09-17 Unisys Corporation System and method for developing a selectably-expandable concept-based search
US6321222B1 (en) * 1999-06-09 2001-11-20 William Soederstroem Gert Peter Method for multiple task searching
US6631369B1 (en) * 1999-06-30 2003-10-07 Microsoft Corporation Method and system for incremental web crawling
US6886129B1 (en) * 1999-11-24 2005-04-26 International Business Machines Corporation Method and system for trawling the World-wide Web to identify implicitly-defined communities of web pages
US7308464B2 (en) * 2003-07-23 2007-12-11 America Online, Inc. Method and system for rule based indexing of multiple data structures
US20050044067A1 (en) * 2003-08-22 2005-02-24 Jameson Kevin Wade Collection processing system
US7593929B2 (en) * 2003-10-22 2009-09-22 International Business Machines Corporation Context sensitive term expansion with dynamic term expansion

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
CN1369830A (zh) * 2001-01-31 2002-09-18 微软公司 歧义消除语言模型
US20020169596A1 (en) * 2001-05-04 2002-11-14 Brill Eric D. Method and apparatus for unsupervised training of natural language processing units
CN1570923A (zh) * 2003-07-22 2005-01-26 中国科学院自动化研究所 口语会话中句子边界识别方法

Also Published As

Publication number Publication date
US7805288B2 (en) 2010-09-28
CN1940915A (zh) 2007-04-04
US20070073534A1 (en) 2007-03-29
US20080250015A1 (en) 2008-10-09

Similar Documents

Publication Publication Date Title
CN1940915B (zh) 训练语料扩充***和方法
CN106815297B (zh) 一种学术资源推荐服务***与方法
CN104750844B (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN104376406B (zh) 一种基于大数据的企业创新资源管理与分析方法
CN1871597B (zh) 利用一套消歧技术处理文本的***和方法
WO2021184674A1 (zh) 文本关键词提取方法、电子设备及计算机可读存储介质
CN101446940A (zh) 为文档集自动生成摘要的方法及装置
CN1629838A (zh) 电子文档的处理、浏览以及信息提取的方法、装置及***
US20050138079A1 (en) Processing, browsing and classifying an electronic document
CN100511214C (zh) 一种对文档集进行批量单文档摘要的方法及***
CN110008309A (zh) 一种短语挖掘方法及装置
CN108170678A (zh) 一种文本实体抽取方法与***
CN111625624A (zh) 基于bm25+albert模型的伪相关反馈信息检索方法、***及存储介质
CN110502742A (zh) 一种复杂实体抽取方法、装置、介质及***
CN113505196B (zh) 基于词性的文本检索方法、装置、电子设备及存储介质
CN101377770B (zh) 中文组块分析的方法及***
CN117574858A (zh) 一种基于大语言模型的类案检索报告自动生成方法
CN111309866B (zh) 一种利用语义模糊搜索对写作素材进行智能检索的***及方法
Masumura et al. Training a Language Model Using Webdata for Large Vocabulary Japanese Spontaneous Speech Recognition.
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
CN106997345A (zh) 基于词向量和词统计信息的关键词抽取方法
CN113780832B (zh) 舆情文本评分方法、装置、计算机设备和存储介质
US8862459B2 (en) Generating Chinese language banners
CN109189915A (zh) 一种基于深度相关匹配模型的信息检索方法
Eghbalzadeh et al. Persica: A Persian corpus for multi-purpose text mining and Natural language processing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100505

Termination date: 20100929