CN103678436A

CN103678436A - 信息处理***和信息处理方法

Info

Publication number: CN103678436A
Application number: CN201310322481.3A
Authority: CN
Inventors: 柳濑利彦; 今一修
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2012-09-18
Filing date: 2013-07-29
Publication date: 2014-03-26
Anticipated expiration: 2033-07-29
Also published as: JP5881048B2; JP2014059754A; CN103678436B

Abstract

本发明提供一种信息处理***和信息处理方法。在文献的机器学习中降低人力成本和设备成本。信息处理***在输入特征类型的情况下，根据所输入的特征类型和各教师数据，生成通过数值矢量表示与各教师数据有关的特征的各教师数据的特征矢量，根据各教师数据的特征矢量生成教师数据的图表，根据教师数据的图表，选择用于生成最适于传播教师数据的标签的第1图表的特征类型，进而输出第1图表，根据第1图表和无标签数据，选择应该传播赋予在教师数据中的标签的无标签数据，进而，通过在第1图表中包含选择出的无标签数据，生成第2图表，通过第2图表，将赋予在教师数据中的标签向选择出的无标签数据传播。

Description

信息处理***和信息处理方法

技术领域

本发明涉及信息处理***。

背景技术

近年来，很多企业灵活运用被称为大数据的大量的电子数据。这是因为，由于Apache Hadoop等的开源软件的出现，使用一般的PC服务器进行分散并列计算的技术得到普及。通过这种技术的普及，在短时间内处理大量数据所需要的计算机资源等的成本大幅降低。

作为针对大数据的数据处理内容，具有大量数值数据的累计处理、以及计算机从电子文档数据中自动提取用户有用的模式的处理等。作为使计算机执行这种原本由人类进行的智慧处理的一个方法，使用机器学习。在机器学习、特别是有教师学习中，将人类生成的数据作为教师数据，计算机学习教师数据的模式，从而能够由计算机代替执行人类的智慧处理。

教师数据需要由人类制作，所以，在计算机进行有教师学习的情况下，产生人力成本。特别地，在从专业文档中提取信息的情况下，需要通过该领域的专家（领域专家）来制作教师数据，所以，人力成本特别大。

例如，为了进行从法令文档中提取信息这样的智慧处理，在计算机进行机器学习之前，律师或司法代书人等的法律专家需要生成应该提取的信息的例子。并且，为了进行从与知识产权有关的文档中提取信息这样的智慧处理，代理人或企业的知识产权负责人需要准备应该提取的信息的例子。

一般地，教师数据越多，越能够提高学习结果。但是，生成教师数据需要人力成本，所以，很难准备大量的教师数据。在大量处理大数据中包含的多种数据的今天，用于生成教师数据的人力成本成为应用有教师学习时的问题。

作为与用于生成教师数据的人力成本有关的问题的一个解决策略，尝试在学习中灵活运用没有教师信息（标签）的数据（无标签数据）。除了教师数据以外还在学习中使用无标签数据的机器学习被称为半有教师学习（例如参照专利文献1和2）。

在专利文献1和2中提出了如下方法：为了从文档群中提取包含有害单词的文档，使用半有教师学习。

在半有教师学习中，从计算效率方面看，非专利文献1所述的基于图表的半有教师学习特别受到关注。基于图表的半有教师学习例如应用于评判分析、语义暧昧性消除或词类估计等。

并且，提出了如下方法：根据基于某个观点而提取出的少数单词，提取基于同样观点的其他单词（例如参照专利文献3）。

并且，提出了如下方法：在对针对检索询问的文档的关联度赋予标签的问题中，从赋予了标签的文档向未赋予标签的文档传播关联度（例如参照专利文献4）。

这里，机器学习中的图表意味着如下的数学图表：将一个数据（例如单词）作为一个节点，将数据间即节点间的相似度作为节点间的边缘的权重进行定量。在该图表中，相似的数据在较大权重的边缘连接。因此，通过使用边缘的权重来传播标签信息，能够对无标签数据分配标签。

例如，以从电子文档中提取人名信息的处理为例，以下示出标签信息的传播。在该处理中，利用表情文字将文档分解为标记并判定各标记是否是人名，作为二值的识别问题进行处理。

在提取人名信息的处理的例子中，计算机将识别对象即标记作为节点，计算各标记间的相似度作为边缘的权重。并且，根据词类或字符串长等的标记自身的信息以及与相邻标记之间的共用信息等的信息，计算标记的相似度。具体而言，通过对所述标记的信息进行数值矢量化，使用数值矢量计算距离，从而求出标记的相似度。而且，由此求出包含各标记的图表。

在使用这样求出的图表传播标签的情况下，相似的上下文中使用的相似的标记在更大权重的边缘连接，所以，容易分配相同的标签。

在基于图表的半有教师学习中，图表的构筑方法对学习精度造成很大影响。此前，以提高构筑图表的精度和实现计算高速化为目的，进行了边缘的修剪（不需要边缘的删除）。

例如，提出了通过k-附近图表或b-匹配图表来近似原来图表的方法（例如参照非专利文献2）。这里，k-附近图表、b-匹配图表分别是仅包含通过k-附近法或b-匹配法生成的相似度的上位k件的边缘的图表。

进而，提出了在进行边缘的修剪的情况下不生成边缘集中的节点的边缘生成方法（例如参照非专利文献3）。

在这些文献中，为了生成图表，需要预先确定用于对节点的信息进行数值矢量化的特征（属性）。而且，该特征需要由领域专家、且熟悉机器学习处理的人来确定。

并且，在对机器学习的性能进行评价的情况下，可能进行实验结果的再次验证，所以，多使用已公开的共同的教师数据和无标签数据。但是，在用户实际对要处理的文档进行处理的情况下，无标签数据常常成为庞大的量，为了在现实的时间内进行学习，需要从无标签数据中选择有用的无标签数据。

现有技术文献

专利文献

专利文献1：日本特开2011-039576号公报

专利文献2：日本特开2011-039575号公报

专利文献3：日本特开2010-257406号公报

专利文献4：日本特表2009-528628号公报

非专利文献

非专利文献1：Learning from Labeled and Unlabeled Data withLabel Propagation,Technical Report CMU-CALD-02-107,2002年

非专利文献2：半教師あり語義曖昧性解消のためのグラフスパース化,信息处理学会研究报告,2010年

非专利文献3：ハブを作らないグラフ構築法を用いた半教師あり語義曖昧性解消,信息处理学会研究报告,2010年

非专利文献4：Efficient Graph-Based Semi-Supervised Learning ofStructured Tagging Models,Proceedings of the2010Conference onEmpirical Methods in Natural Language Processing,pp.167-176,2010年

发明内容

发明要解决的课题

在基于图表的半有教师学习中，为了求出最优的图表构造，需要具有对象领域（作为处理对象的文档的内容所属的技术领域）和机器学习双方的专业知识的人，人力成本较大。

以图表构造的优化即特征的优化为目的，考虑通过对象领域的专业知识对进行机器学习处理后的最终输出结果进行评价的方法。但是，在使用该方法的情况下，也需要领域专家的评价，需要更多人力成本。具体而言，这是因为，为了根据机器学习处理对图表构造进行评价，领域专家需要通过手动作业来生成评价用的教师数据，人力成本较大。

进而，在图表构造的优化中，需要执行与图表构造的模式数成比例增加的次数的机器学习处理。在反复进行多次机器学习的情况下，需要大量计算时间，需要庞大的设备成本。

这样，产生人力成本和计算机的设备成本增加等的问题。

本发明的目的在于，提供降低人力成本和计算机的设备成本并对文档进行适当的机器学习的***。

用于解决课题的手段

本发明的代表性的一例如下所示。即，信息处理***对多个文献数据进行机器学习，其中，所述信息处理***具有：初始化部，取得赋予了标签的多个文献数据即多个教师数据、未赋予所述标签的文献数据即无标签数据、以及表示提取与所述各文献数据有关的特征的方法的多个特征类型；特征矢量生成部，在输入所述取得的特征类型中的至少一个所述特征类型的情况下，根据所述输入的特征类型和所述取得的各教师数据，生成通过数值矢量表示与所述各教师数据有关的特征的所述各教师数据的特征矢量；图表构筑部，根据由所述特征矢量生成部生成的各教师数据的特征矢量，生成所述教师数据的图表；特征选择部，根据由所述图表构筑部生成的教师数据的图表，从由所述初始化部取得的特征类型中选择用于生成最适于传播所述教师数据的标签的第1图表的特征类型，进而，输出由所述图表构筑部生成的所述第1图表；数据选择部，根据所述第1图表和所述无标签数据，选择应该传播赋予在所述教师数据中的标签的所述无标签数据，进而，通过在所述第1图表中包含所述选择出的无标签数据，生成第2图表；以及机器学习部，通过所述第2图表，将赋予在所述教师数据中的标签向所述选择出的无标签数据传播。

发明效果

根据本发明的一个实施方式，能够降低机器学习中的人力成本和设备成本。

附图说明

图1是示出本实施例1的信息提取***的物理结构的框图。

图2是示出本实施例1的信息提取***的逻辑结构的框图。

图3A是示出本实施例1的文献数据库的说明图。

图3B是示出本实施例1的标签数据库的说明图。

图3C是示出本实施例1的特征类型数据库的说明图。

图4是示出本实施例1的未进行特征类型的优化和无标签数据的选择的情况下的机器学习的功能框图。

图5是示出本实施例1的信息提取***进行文献的机器学习之前的数据流的概要的功能框图。

图6A是示出本实施例1的教师数据列表L的说明图。

图6B是示出本实施例1的无标签数据列表U的说明图。

图7是示出本实施例1的特征选择部进行的处理流程的流程图。

图8A是示出本实施例1的教师数据的特征矢量的说明图。

图8B是示出本实施例1的无标签数据的特征矢量的说明图。

图9A是示出本实施例1的仅通过不同标签连接得分而计算出的图表的评价值的说明图。

图9B是示出本实施例1的通过相同标签连接得分和不同标签连接得分而计算出的图表的评价值的说明图。

图10是示出本实施例1的数据选择部的处理的流程图。

图11A是示出本实施例1的图表g2和无标签数据的说明图。

图11B是示出本实施例1的在提取距离最大值的数据的情况下提取出的无标签数据的说明图。

图11C是示出本实施例1的未分散的无标签数据的说明图。

图12是示出本实施例5的信息提取***进行文献的机器学习之前的数据流的概要的功能框图。

图13是示出本实施例5的机器学习的评价较低的情况下的特征选择部的处理的流程图。

标号说明

110：处理器；120：存储器；130：本地文件***；140：输入装置；150：输出装置；160：网络器件；170：总线；200：信息提取用计算机；210：局域网（LAN）；220：文献数据库；225：标签数据库；230：特征数据库；290：标签生成用计算机。

具体实施方式

在以下的实施例中，在言及要素的数量等的情况下，除了特别指定的情况和原理上明显确定的情况以外，不限于该确定的数量，可以是确定的数量以上，也可以是确定的数量以下。

进而，在以下的实施例中可知，除了特别指定的情况和原理上明显需要的情况以外，其结构要素不是必须的。并且，同样，在以下的实施例中，在言及结构要素的形状和位置关系时，除了特别明示的情况和认为原理上明显不是那样的情况以外，实质上包含与该形状等近似或相似的形状等。其在上述数值和范围中也同样。

【实施例1】

图1是示出本实施例1的信息提取***所具有的计算机100的物理结构的框图。

本实施例的信息提取***所具有的计算机100是图1所示的通用计算机。信息提取***所具有的计算机100例如也可以是PC服务器。

计算机100具有处理器110、存储器120、本地文件***130、输入装置140、输出装置150、网络器件160、总线170。处理器110、存储器120、本地文件***130、输入装置140、输出装置150、网络器件160通过总线170连接。

处理器110例如是中央运算装置（Central Processing Unit；CPU），可以具有多个核心处理器。存储器120是用于存储程序和数据的存储装置。

输入装置140是键盘或鼠标等的装置，是用于受理由用户输入的数据的装置。输出装置150是显示器或打印机等的装置，是用于对用户输出信息的装置。另外，在经由网络从遥控器操作计算机100的情况下，计算机100可以不具有输入装置140和输出装置150。

本地文件***130是能够由计算机100进行改写的存储装置。本地文件***130可以是内置于计算机100中的存储装置，也可以是设置在计算机100的外部并与计算机100连接的存储装置。本地文件***130例如是硬盘驱动、固体电路驱动或RAM盘等的存储装置。

网络器件160是用于供计算机100连接到网络的装置。

图2是示出本实施例1的信息提取***所具有的各计算机的逻辑结构的框图。

本实施例的信息提取***具有信息提取用计算机200和标签生成用计算机290。信息提取用计算机200和标签生成用计算机290分别具有图1所示的计算机100的物理结构。

并且，本实施例的信息提取***具有文献数据库220、标签数据库225、特征类型数据库230、局域网（LAN）210。各计算机和各数据库通过LAN210连接。

作为处理部，信息提取用计算机200具有初始化部235、特征矢量生成部237、特征选择部240、数据选择部255、图表构筑部270、多目的优化部275、机器学习部280。

初始化部235是将文献等的数据转换为用于进行机器学习的数据的处理部。特征矢量生成部237是生成特征矢量的处理部。

特征选择部240是进行特征优化的处理部。特征选择部240具有特征评价部245和特征选择收敛判定部250。

数据选择部255是选择从教师数据传播标签的无标签数据的处理部。数据选择部255具有数据评价部260和数据选择收敛判定部265。图表构筑部270是通过求出节点和边缘而生成图表的处理部。多目的优化部275是在根据多个目的来改变评价值的情况下选择用于得到最优评价值的解候选的处理部。机器学习部280是进行机器学习的处理部。

信息提取用计算机200的各处理部可以通过程序来实现，也可以通过用于实现各功能的物理装置来实现。以下，假设信息提取用计算机200的各处理部通过程序来实现，通过处理器110在存储器120中读出相当于各处理部的程序，实现各处理部的功能。

并且，信息提取用计算机200的各处理部可以通过一个处理部来实现多个处理部的功能。并且，图2所示的一个处理部中包含的多个处理可以通过多个处理部来实现。

标签生成用计算机290具有标签生成部295。标签生成部295根据用户的指示而生成要存储在标签数据库225中的数据。然后，标签生成部295将所生成的数据存储在标签数据库225中。并且，标签生成部295根据用户的指示而从标签数据库225中删除数据。

因此，在使用预先确定的标签数据库225的数据的情况下，本实施例的信息提取***也可以省略标签生成用计算机290。

文献数据库220是用于存储作为本实施例的机器学习的对象的文献的数据的数据库。标签数据库225是用于存储教师数据的数据库。特征类型数据库230是用于存储表示用于生成图表的特征的类型的数据的数据库。

另外，信息提取用计算机200可以内置文献数据库220、标签数据库225和特征类型数据库230的各数据库、以及标签生成部295。在信息提取用计算机200内置全部数据库和标签生成部295的情况下，信息提取***可以省略LAN210。

图2所示的信息提取***所具有的数据库可以使用任意的数据存储库机构来实现。并且，最简单地，信息提取***所具有的数据库可以作为仅记述文本文件的1行作为1个记录的数据库来实现。并且，信息提取***所具有的数据库也可以使用相关数据库、键值存储库等的数据库管理***来实现。

进而，为了得到高速性和短应答时间，连接信息提取用计算机200、标签生成用计算机290、文献数据库220、标签数据库225、特征类型数据库230的网络（图2中为LAN210）可以设置在一个数据中心内。

并且，信息提取***的各计算机和各数据库等的各结构要素也可以设置在各个不同的数据中心内。

对本实施例的信息提取***的起动步骤进行说明。用户接通信息提取用计算机200的电源，起动信息提取用计算机200所具有的OS（操作***）。进而，用户接通文献数据库220、标签数据库225、特征类型数据库230和标签生成用计算机290的电源。进而，用户接通LAN210的电源，使信息提取用计算机200、文献数据库220、标签数据库225、特征类型数据库230、标签生成用计算机290和LAN210成为相互能够进行通信的状态。此后，信息提取***的各计算机和各数据库例如根据IP地址和主机名进行通信。

图3A是示出本实施例1的文献数据库220的说明图。

文献数据库220是存储作为本实施例的信息提取***进行机器学习的对象的文献的信息的数据库。

文献数据库220保持文献ID2201和正文2202。文献ID2201包含唯一表示文献的标识符，用于区分各文献的目的。正文2202表示文献ID2201所示的文献中包含的字符串。

图3B是示出本实施例1的标签数据库225的说明图。

标签数据库225是表示各文献中确定的标签的数据库。标签数据库225包含标签ID2251、文献ID2252和标签2253。

标签ID2251包含唯一表示标签的标识符。文献ID2252表示赋予了标签ID2251所示的标签的文献，相当于文献数据库220的文献ID2201的标识符。

标签2253表示赋予了标签的数据出现在文献的哪个位置。例如，记录2254表示在文献ID2252“1”的文献中，赋予了“1”这样的标签的节点的开始文字位置为“10”，结束文字位置为“14”。而且，记录2254表示对该文献ID2252“1”的文献中的标签“1”分配标签ID2251“1”。

另外，例如在赋予了标签的数据是每个标记的情况下，标签数据库225也可以保持通过标记数量来表示开始位置和结束位置等、基于赋予标签的目的的数据。

图3C是示出本实施例1的特征类型数据库230的说明图。

特征类型数据库230是表示针对节点取得的特征的模式的数据库。特征类型数据库230包括特征ID2301和特征名2302。特征ID2301是唯一表示特征模式的标识符。

特征名2302是表示特征模式的字符串。特征名2302表示将文献数据数值化为特征矢量所使用的方法。

例如，图3C所示的特征ID2301“1”的特征名2302“token_surface_0”表示取得节点的字符串本身的字符串作为特征。并且，图3C所示的特征ID2301“2”的特征名2302“token_surface_1”表示取得对象的字符串的后一个字符串作为特征。

特征类型数据库230中存储的特征类型是用户预先确定的特征类型。

图4示出相当于图2所示的处理部的功能块在实施例1的处理中输入输出的数据流。

首先，标签生成用计算机290的标签生成部295将用户指定的标签存储在标签数据库225中。另外，在特征类型数据库230中存储有用户预先指定的特征类型。

初始化部235从特征类型数据库230中取得任意的特征类型f，根据标签数据库225和文献数据库220生成教师数据列表。并且，初始化部235根据文献数据库220生成无标签数据列表。初始化部235将包含特征类型f、教师数据列表和无标签数据列表的数据30输出到图表构筑部270。

图表构筑部270根据特征类型f、教师数据列表和无标签数据列表生成图表。另外，在生成图表时，图表构筑部270使特征矢量生成部237根据教师数据列表和无标签数据列表生成教师数据的特征矢量和无标签数据的特征矢量。

另外，特征矢量是如下的数值矢量：根据特征类型f，通过数值矢量来表现与各数据和各数据前后的数据有关的信息，从而定量地示出各文献中包含的数据。

以下示出特征矢量生成部237进行的特征矢量的生成处理和图表构筑部270中的图表的生成处理的例子。在以下的例子中，特征矢量生成部237通过表情文字将文献中包含的数据分割为标记，将各标记作为节点而生成特征矢量。

作为对文献中包含的标记的信息进行数值矢量化的具体例，存在特征矢量生成部237使用信息与数值矢量的维数的对应表的方法。例如，作为词类名与数值矢量的维数的对应表，特征矢量生成部237预先保持“名词：1、动词：2、助词：3、…”，根据该对应表对标记的词类进行数值矢量化。

具体而言，在所述例子中，在标记的词类为名词的情况下，特征矢量生成部237生成数值矢量（1,0,0,…）。并且，在标记的词类为助词的情况下，特征矢量生成部227生成数值矢量（0,0,1,…）。特征矢量生成部237对标记匹配的对应表的要素分配“1”，对标记不匹配的要素分配“0”。

通过同样的步骤，特征矢量生成部237能够针对标记的表记和原型、活用形式和活用型、以及与辞典项目之间的匹配等生成数值矢量。

进而，通过同样的步骤，特征矢量生成部237能够使用与生成数值矢量的对象的标记相邻的标记的信息。具体而言，在特征类型f表示使用对象的标记的前一个标记作为特征的情况下，特征矢量生成部237对作为对象的标记的前一个标记的词类信息进行数值矢量化。然后，特征矢量生成部237通过在作为对象的标记的数值矢量中追加作为对象的标记的前一个标记的数值矢量，生成作为对象的标记的数值矢量。

并且，除了在与信息和数值矢量的维数的对应表匹配的情况下使数值矢量的要素的值为“1”的方法以外，作为表示相邻的两个标记的共用信息的值，特征矢量生成部237也可以使用自相关信息量的值、文档全体中与辞典匹配的次数等。

关于生成特征矢量的对象的标记，在生成全部数值矢量的情况下，特征矢量生成部237按照预先确定的顺序对所生成的数值矢量进行结合，生成表示标记的一个特征矢量。这里，数值矢量的结合是指，生成具有各矢量的全部要素作为自身要素的矢量，例如，矢量v（v1,v2,v3）和矢量w（w1,w2）的结合x为（v1,v2,v3,w1,w2）。

接着，图表构筑部270例如计算两个标记的数值矢量的距离作为标记的相似度。这里，数值矢量的距离具有欧几里得距离或余弦距离等，适用于每个任务或数据的距离不同。

图表构筑部270针对各标记间的边缘确定基于计算出的距离的权重。例如，图表构筑部270可以针对计算出的距离较小的标记间的边缘确定较小的权重。图表构筑部270通过确定标记间的边缘的权重，生成图表g。在本实施例中，在通过确定了用户指定的规定值以上的权重的边缘连接节点间的情况下，记载为节点间被连接。

图表构筑部270将包含图表g的数据31输入到机器学习部280。机器学习部280在输入了包含图表g的数据31的情况下，使用图表g，向在边缘连接的无标签数据传播教师数据的标签。然后，机器学习部280输出标签传播的处理结果作为最终输出32。

这里，最终输出32的形式根据机器学习部280的算法而不同。例如，在公知的算法即CRF的情况下是CRF的模型参数。并且，在标签传播算法的情况下，赋予在无标签数据中的标签是最终输出32。

下面，对本实施例的机器学习部280的机器学习算法进行简单说明。

作为使用图表的机器学习的代表例，举出非专利文献1中提出的标签传播法。在使用非专利文献1所记载的标签传播法的算法中，首先，机器学习部280使N个教师数据和M个无标签数据排列成一维排列D。

并且，各个教师数据和无标签数据对应着K个标签中的任意一方。机器学习部280使与教师数据和无标签数据对应的标签排列成一维排列E。

接着，机器学习部280计算概率迁移行列T。行列T的（i，j）要素是排列D的第i个数据与排列E的第j个数据的相似度。接着，机器学习部280计算行列Y。行列Y的（i，j）要素是排列D的第i个数据取排列E的第j个标签的概率。

在计算出行列T和行列Y后，机器学习部280反复进行下面的步骤A1～步骤A3这三个步骤，直到行列Y收敛为止。

（步骤A1）计算行列T与行列Y之积，确定为新的Y

（步骤A2）对新的行列Y的行进行标准化

（步骤A3）利用标签信息覆盖标准化的行列Y的要素中的与教师数据对应的要素

在所述标签传播法的算法中，作为机器学习的结果，输出赋予在无标签数据中的标签或可能赋予在无标签数据中的标签以及表示赋予的可能性的概率值。

关于标签传播法的步骤，除了非专利文献1中举出的步骤以外，还存在很多变化。

并且，为了进行标签传播，存在使用图表作为有教师学习的辅助信息的算法。例如，如非专利文献4那样举出如下的算法的例子：在条件随机场（Conditional Random Field；CRF）的学习中使用无标签数据，所以采用图表构造。

该情况下，机器学习部280对无标签数据赋予伪标签，再次学习CRF。然后，机器学习部280根据之前学习的CRF的得分和图表上传播标签而决定的得分，决定伪标签。

在该算法的情况下，作为学习结果，机器学习部280得到与通常的CRF相同的CRF的模型参数。因此，在以后给出任意文档时，机器学习部280能够与通常的CRF同样，利用维特比算法等高速进行识别。这样，虽然是具有与非专利文献1的标签传播法不同的特征的算法，但是，在赋予伪标签时传播标签信息这点是相同的，能够与非专利文献1的标签传播法同样地应用本发明。

另外，如果输入图表g，则以下所示的本实施例的机器学习部280通过标签传播法的某些变化也能够进行标签传播。

用户（领域专家）对最终输出32进行评价，在评价结果较差的情况下，使用标签生成部295追加标签。并且，在评价结果较差的情况下，领域专家新确定特征类型f’，将特征类型f’作为特征类型f输入到初始化部235。

这里，根据图4所示的处理，为了选择最优的特征类型f，本实施例的信息提取***需要使机器学习部280反复进行标签传播处理。

进而，在图表g中包含有文献数据库220中包含的所有数据。因此，在文献数据库220中包含的数据量较多的情况下，由于计算数据彼此的距离的处理，信息提取用计算机200的资源可能紧迫。

因此，在以下所示的实施例1的处理中，本实施例的信息提取***在基于机器学习部280的处理之前执行基于特征选择部240的特征类型的优化。并且，本实施例的信息提取***通过数据选择部255适当选择输入到机器学习部280的图表中包含的数据（无标签数据）。

图5示出相当于图2所示的处理部的功能块在实施例1的处理中输入输出的数据流。

首先，与图4所示的标签生成部295相同，标签生成用计算机290的标签生成部295将用户指定的标签存储在标签数据库225中。

接着，信息提取用计算机200的初始化部235使用文献数据库220、标签数据库225和特征类型数据库230中存储的数据进行初始化处理。具体而言，作为初始化处理，初始化部235根据文献数据库220和标签数据库225生成教师数据列表L601和无标签数据列表U602。并且，作为初始化处理，初始化部235从特征类型数据库230中提取所有的特征类型，生成包含提取出的特征类型的特征类型F。

另外，特征类型F、无标签数据列表U602和教师数据列表L601也可以由用户指定。

图6A是示出本实施例1的教师数据列表L601的说明图。

教师数据列表L601是包含教师数据的文献的列表。初始化部235从标签数据库225中提取标签ID2251和文献ID2252，将提取出的数据包含在教师数据列表L601中。

教师数据列表L601具有标签ID6011和文献ID6012。标签ID6011相当于标签ID2251，文献ID6012相当于文献ID2252。

图6B是示出本实施例1的无标签数据列表U602的说明图。

无标签数据列表U602是不包含教师数据的文献的列表。初始化部235从文献数据库220的文献ID2201的标识符中提取除了标签数据库225的文献ID2252以外的标识符。然后，初始化部235将提取出的标识符包含在无标签数据列表U602中。

无标签数据列表U602包括ID6021和文献ID6022。在ID6021中存储有包含无标签数据的文献在无标签数据列表U602中的连续编号。文献ID6022包含有包含无标签数据的文献的标识符。

初始化处理的结果，初始化部235将特征类型F和教师数据列表L601作为数据300输入到特征选择部240。

特征选择部240在被输入数据300的情况下，与图4所示的特征选择部240相同，使用特征矢量生成部237和图表构筑部270生成与教师数据有关的图表g1。这里，为了生成图表g1，特征选择部240从特征类型F中选择最优的特征类型。然后，特征选择部240输出选择出的特征类型作为特征类型f1。

特征选择部240将所生成的图表g1、教师数据的特征矢量和特征类型f1作为数据310输入到数据选择部255。并且，初始化部235将无标签数据列表U602作为数据320输入到数据选择部255。

数据选择部255在被输入数据310和数据320的情况下，根据图表g1、教师数据的特征矢量、无标签数据的特征矢量，选择适于传播标签的无标签数据。然后，数据选择部255输出选择出的数据作为无标签数据u2。并且，数据选择部255生成在图表g1中加上无标签数据u2而得到的图表g2。

图表g2是将无标签数据u2的数据作为节点而追加到图表g1中的图表。图表g2的初始值为图表g1。

数据选择部255将图表g2、教师数据的特征矢量和无标签数据u2的特征矢量作为数据330输入到机器学习部280。

机器学习部280在被输入数据330的情况下，根据数据330进行机器学习，生成作为机器学习的结果的最终输出340。机器学习部280通过与图4所示的机器学习部280相同的方法对图表g2进行机器学习，由此进行标签传播。

图7是示出本实施例1的特征选择部240进行的处理流程的流程图。

图7所示的处理示出在图2中从初始化部235输入数据300的情况下由特征选择部240执行的处理。

特征选择部240从特征类型F中选择图表构筑中使用的至少一个特征类型（400）。将步骤400中选择出的特征类型记载为特征类型f1。步骤400中选择出的特征类型的数量为用户的任意值。

在步骤400之后，特征选择部240将特征类型f1和教师数据列表L601输入到特征矢量生成部237。

特征矢量生成部237根据所输入的特征类型f1、教师数据列表L601、文献数据库220和标签数据库225生成特征矢量710（410）。在步骤410中，特征矢量生成部237通过与图4所示的处理中生成特征矢量的方法相同的方法生成特征矢量。

图8A是示出本实施例1的教师数据的特征矢量710的说明图。

特征矢量710是教师数据的特征矢量。特征矢量710的各行表示与一个教师数据有关的特征矢量。

在特征矢量710的各行的开头包含有赋予在教师数据中的标签的值。在各行中包含有表示与对象的数据有关的各特征的要素，通过分隔符等的划分文字对各要素进行划分。

例如，关于“1：0.5”这样表现的要素，“：”左侧的数值表示特征的维数“1”，“：”右侧表示特征的值“0.5”。

特征的维数是根据文献所记载的内容的语法而分配给单词的数值，例如，是通过数值来表现助词或形容词等的值。特征的值是文献中的特征本身的值。例如，在特征的维数表示形容词的情况下，特征的值为“高速的”等。

进而，在图8A中，包含要素“1：0.5”、要素“2：0.8”、要素“5：-0.1”的行表示（0.5、0.8、0、0、-0.1）这样的特征矢量。

图8B是示出本实施例1的无标签数据的特征矢量700的说明图。

在数据选择部255的后述处理中，无标签数据列表U602也被转换为特征矢量700。

特征矢量700是无标签数据的特征矢量。特征矢量700的各行表示与一个无标签数据有关的特征矢量。

特征矢量700包含与特征矢量710相同的数值矢量。但是，特征矢量700与特征矢量710的不同之处在于，在特征矢量700的各行中未赋予标签。

在步骤410中，特征矢量生成部237以使教师数据列表L601的1行与特征矢量710的1行对应的方式，将特征的维数和特征的值的组存储在特征矢量710中。然后，特征矢量生成部237确定具有与教师数据列表L601的标签ID6011对应的标签ID2251的标签数据库225的行，从确定的行的标签2253中提取标签的值。然后，特征矢量生成部237将提取出的标签的值存储在特征矢量710的各行的开头。

如上所述，特征矢量生成部237根据特征类型f1和教师数据列表L601生成特征矢量710。

在步骤410之后，图表构筑部270将步骤410中生成的特征矢量710转换为图表g1（420）。具体而言，由于特征矢量710的各行与节点对应，所以，图表构筑部270使用特征矢量计算各行的距离，对节点间的边缘确定基于计算出的距离的权重。由此，图表构筑部270将教师数据的特征矢量710转换为图表g1。

在步骤420之后，特征评价部245根据特征评价函数计算图表g1的评价值（Score_merge）（430）。这里，特征评价函数可以针对一个图表返回两个以上的评价值。

特征评价部245例如使用式1计算特征评价函数中的一个评价值即交叉标签错误（Err_diff）。交叉标签错误是表示图表内以何种程度包含不同标签的评价值。

【数学式1】

{Err}_{diff} (G) = \frac{Σ_{(i, j) &Element; E} W_{ij} 1 [l (i) &NotEqual; l (j)]}{Σ_{(i, j)} W_{i, j}}

(式1)

式1中的记号G是表示图表的记号。记号E表示图表中包含的所有的边缘。记号W是针对节点间的边缘确定的权重。记号1是标签的值。节点i和j表示节点。函数1[l（i）≠l（j）]是在节点i和节点j的标签的值不同的情况下返回1的函数。因此，式1所示的交叉标签错误是标签的值不同的节点间的权重的总和（分子）除以节点间的权重的总和（分母）而得到的值。

进而，特征评价部245例如使用式2计算不同标签连接得分（Score_diff）。通过对交叉标签错误乘以负1来计算不同标签连接得分。

【数学式2】

Score_diff(G)=-Errdiff(G) (式2)

在非专利文献2中也使用交叉标签错误，是用于对图表中具有不同标签的节点在边缘连接的比例进行评价的值。具有不同标签的节点彼此在较大权重的边缘连接的图表无法准确传播标签。因此，通过将交叉标签错误作为评价指标来对图表进行评价，特征评价部245能够对连接不同标签间的边缘进行罚分。

进而，特征评价部245例如使用式3计算相同标签连接得分（Score_same）。相同标签连接得分是表示图表内以何种程度包含相同标签的评价值。即，是用于对图表中连接具有相同标签的节点彼此的比例进行评价的评价值。

【数学式3】

{Score}_{same} (G) = \frac{Σ_{(i, j) &Element; E} W_{ij} 1 [l (i) = l (j)]}{Σ_{(i, j)} W_{i, j}}

(式3)

函数1[l（i）=l（j）]是在节点i和节点j的标签的值相同的情况下返回1的函数。因此，式3所示的相同标签连接得分是标签的值相同的节点间的权重的总和（分子）除以节点间的权重的总和（分母）而得到的值。

实施例1的特征评价部245使用相同标签连接得分和不同标签连接得分计算图表g1的评价值。然后，特征评价部245存储各图表g1的评价值（不同标签连接得分和相同标签连接得分）。

图9A所示的图表的评价值是仅通过不同标签连接得分而计算出的评价值。图9A所示的黑圆点表示图表的评价值。图9A示出评价值90和评价值91。

评价值90是如图9A所示的图表900那样节点在边缘连接的情况下针对图表900计算出的评价值。并且，评价值91是如图表910或图表911那样节点在边缘连接的情况下针对图表910或图表911计算出的评价值。并且，图9A的横轴是不同标签连接得分。图9A所示的各图表是根据不同的特征类型f1而生成的图表。

图表900、图表910和图表911所示的四边形和圆形表示赋予了标签的节点即教师数据。相同图形所示的节点是赋予了相同标签的节点。

图表900是仅具有不同标签的节点在边缘连接的情况下的图表。图表910是仅具有相同标签的节点在边缘连接的情况下的图表。图表911是任意节点均不在边缘连接的情况下的图表。

这里，关于图表910和图表911，任意一方的不同标签连接得分为“0”（不同标签连接得分的最大值），计算相同的不同标签连接得分。但是，关于图表911，任意的节点均不在边缘连接，所以，不能说是适于传播标签的图表。

具体而言，这是因为，在图表911中追加了无标签数据的情况下，成为过度疏远的图表，妨碍标签传播的可能性大，所以，本实施例的信息提取***可能无法适当地向无标签数据传播标签。

因此，仅通过不同标签连接得分来选择图表911的方法是不适当的，并且，仅通过不同标签连接得分来评价图表的方法是不适当的。

图9B示出通过相同标签连接得分和不同标签连接得分计算图表的评价值的情况下的图表的评价值。图9B的横轴表示不同标签连接得分，图9B的纵轴表示相同标签连接得分。图9B示出评价值92、评价值93、评价值94和评价值95。

评价值92是针对图表920而计算出的评价值，评价值93是针对图表930而计算出的评价值，评价值94是通过图表940计算出的评价值，评价值95是通过图表950计算出的评价值。图9B所示的各图表是根据不同的特征类型f1而生成的图表。

越靠近图9B的右侧示出评价值，不同标签连接得分越大，越靠近图9B的上侧示出评价值，相同标签连接得分越大。某个评价值的左下方区域所示的评价值意味着，不同标签连接得分、相同标签连接得分或其双方比位于右上方的评价值差。

例如，由于评价值94位于评价值93的左下方，所以，不同标签连接得分和相同标签连接得分均比评价值93差。另一方面，越靠近右上方，评价值越高，可以说是有助于传播标签的图表。

这样，在具有两个以上的目的（图9B中为相同标签连接得分和不同标签连接得分）的情况下，按照与自身评价值相比在右上方示出评价值的图表从少到多的顺序对各图表进行排序，由此，能够对各图表进行评价。

在步骤430之后，特征选择收敛判定部250通过对由特征评价部245计算出的评价值和过去执行的步骤430中计算出的评价值进行比较，判定由特征评价部245计算出的评价值是否收敛（440）。

这里，特征选择收敛判定部250可以在判定为由特征评价部245计算出的评价值低于过去计算出的评价值、或它们为相同程度的情况下，判定为评价值收敛。并且，特征选择收敛判定部250也可以在判定为计算出的评价值低于过去计算出的评价值、或它们为相同程度后，反复进行用户预先指定的规定次数的步骤450、步骤410、步骤420和步骤430的结果判定为计算出的评价值未大幅变化的情况下，判定为评价值收敛。

在特征选择收敛判定部250判定为评价值收敛的情况下，特征选择收敛判定部250输出步骤430中计算出的评价值最高的图表g1、由于生成图表g1的特征类型f1、教师数据的特征矢量710。然后，特征选择部240结束图7所示的处理。

在由特征选择收敛判定部250判定为评价值未收敛的情况下，多目的优化部275根据步骤430中计算出的评价值和特征类型f1，选择新的特征类型f1（450）。

下面，示出基于多目的优化部275的新的特征类型f1的选择方法的具体例。

基于根据图9B所示的评价值对图表进行排序的方法，作为将进化论的计算手法应用于两个以上的目的（在所述例子中为不同标签连接得分和相同标签连接得分）的优化的例子，公知有NSGA-II等的进化论的多目的优化。在步骤450中，多目的优化部275能够使用这种进化论的多目的优化。

在NSGA-II中，使用所述排序方法排列解候选（通过特征类型f1生成的图表）的方法被称为Non-Dominated Sort。作为本实施例1的进化论的多目的优化，下面对NSGA-II进行说明。

在执行步骤400后首次执行步骤450的情况下，多目的优化部275对解候选集团P和子解候选集团Q进行初始化。具体而言，多目的优化部275通过特征类型f1对解候选集团P进行初始化。进而，多目的优化部275利用空的列表对子解候选集团Q进行初始化。

然后，多目的优化部275每当执行步骤450时反复进行以下步骤B1～步骤B5，由此，求出子解候选集团Q即作为最优评价值的图表和用于生成该图表的特征类型。另外，设要寻求的解候选的总数为3。

（步骤B1）多目的优化部275生成结合了解候选集团P和子解候选集团Q而得到的列表R，通过Non-Dominated Sort排列列表R。然后，多目的优化部275按照基于Non-Dominated Sort的顺序进行群组化。另外，根据步骤430中计算出的评价值来确定基于Non-Dominated Sort的顺序。

（步骤B2）多目的优化部275计算各群组内的解候选彼此的接近度（Crowding Distance）。

（步骤B3）多目的优化部275生成新的解候选集团P，将新的解候选集团P初始化为空的列表。然后，多目的优化部275在新的解候选集团P的要素数小于S时，反复使解候选以群组单位从列表R移动到新的解候选集团P。

（步骤B4）多目的优化部275使列表R的顺序较高的群组按照Crowding Distance从大到小的顺序移动到新的解候选集团P，直到新的解候选集团P的要素数等于S为止。

（步骤B5）多目的优化部275根据新的解候选集团P进行选择、交叉或突然变异等的遗传操作，生成子解候选集团Q。然后，多目的优化部275返回步骤1。

反复进行步骤B1～步骤B5直到满足结束条件为止。多目的优化部275保持步骤B4中生成的解候选集团P和步骤B5中生成的子解候选集团Q，在处理返回步骤B1的情况下，使用所保持的解候选集团P和子解候选集团Q。

然后，在满足步骤B1～步骤B5的结束条件的情况下，多目的优化部275将通过步骤B5生成的子解候选集团Q作为下一个特征类型f1输入到特征矢量生成部237，结束步骤450。

步骤450中的步骤B1～步骤B5的结束条件是反复进行了用户指定的规定次数的步骤450的情况、或解不能改善的情况。解不能改善的情况例如有如下情况：即使反复进行步骤450，基于Non-DominatedSort的顺序中最上位的群组中包含的解候选的数量也没有变化。

并且，解不能改善的情况例如有如下情况：即使反复进行步骤450，包括基于Non-Dominated Sort的顺序中最上位的群组中包含的解候选的评价值和包含各评价轴（图9B所示的横轴和纵轴）的面在内的区域的体积（超体积）也不增加。

这里，具有两个以上的目的的情况下的最优解不是必须在一点求出，也可以求出在某个点的右上方没有其他点的多个点的集合（帕累托最优解）。具体而言，在步骤B5中，可以求出多个最优的特征类型f1。该情况下，作为步骤450的结果，多目的优化部275可以输出多个特征类型f1。然后，步骤410中的特征矢量生成部237可以根据多个特征类型f1生成多个特征矢量。

帕累托最优解的优点在于，在优化结束时，从重视不同标签连接得分的情况到重视相同标签连接得分的情况得到各种解候选。因此，如果在一个解候选中机器学习的性能不能提高的情况下，通过逐次尝试帕累托最优解，也能够得到重新选择后的学习结果。

另外，由于不同标签连接得分和相同标签连接得分存在折中关系，所以，即使利用与不同标签连接得分和相同标签连接得分不同的指标来置换某一个得分，也能够实现同样的功能。例如，代替相同标签连接得分，可以将总边缘数用作用于计算图表的评价值的得分。该情况下，使用如下的评价值的计算方法：总边缘数得分具有增加边缘数的效果，与此相对，不同标签连接得分对标签不同的边缘加上罚分，所以，其结果，增加了同一标签间的边缘，抑制了标签不同的边缘。

这样，使用不同标签连接得分和相同标签连接得分这两个目的的方法是一例，可以使用任意数量的其他具有相同效果的指标。

通过图7所示的处理，特征选择部240能够生成特征类型不同的多个图表，针对所生成的各图表计算评价值。而且，根据评价值，能够选择用于生成最适于向无标签数据传播标签的图表的特征类型f1和通过特征类型f1生成的图表。其结果，通过特征选择部240的处理，图表g1被优化。

图10是示出本实施例1的数据选择部255的处理的流程图。

在对数据选择部255输入图表g1、特征类型f1、教师数据的特征矢量710和无标签数据列表U602的情况下，数据选择部255对特征矢量生成部237输入无标签数据列表U602和特征类型f1。然后，特征矢量生成部237根据特征类型f1将无标签数据列表U602转换为图8B所示的无标签数据的特征矢量700（1090）。

这里，特征矢量生成部237针对无标签数据列表U602的文献ID6022所示的文献中包含的所有数据，根据特征类型f1生成特征矢量700。因此，特征矢量700的各行对应于各文献中包含的所有节点。

在步骤1090之后，数据评价部260根据无标签数据的特征矢量700和教师数据的特征矢量710，计算无标签数据的节点与图表g1中包含的节点之间的距离。然后，将各无标签数据的节点与图表g2中包含的节点之间的距离的最小值蓄积在存储器120中（1100）。

具体而言，例如，计算无标签数据的节点A与图表g1中包含的节点（节点B～节点D）之间的距离，在节点A与节点D之间的距离比节点A与其他任意节点之间的距离短的情况下，作为节点A与图表g1之间的距离，数据评价部260仅将节点A与节点D之间的距离蓄积在存储器120中。然后，数据评价部260通过该距离的计算处理，计算所有的无标签数据的节点与图表g1之间的距离。

在步骤1100之后，数据评价部260从所蓄积的多个距离中选择与图表g1（在执行步骤1130之后为图表g2）之间的距离最长的数据d’。然后，数据评价部260将选择出的数据d’作为节点而追加到图表g1（在执行步骤1130之后为图表g2）中。将在图表g1中追加了数据d’后的图表g1记载为图表g2。

进而，数据评价部260从无标签数据的特征矢量700中删除与数据d’对应的行。并且，数据评价部260将追加到图表g2中的数据d’和数据d’的特征矢量追加到无标签数据u2中（1110）。

在步骤1110之后，数据选择收敛判定部265根据步骤1110中追加到图表g2中的数据d’的数量或数据d’的距离等，判定数据d’的追加处理是否收敛（1120）。

具体而言，数据选择收敛判定部265可以由用户预先指定要追加的数据d’的数量或要追加的数据d’与图表g2之间的距离的最小值。然后，在步骤1120中，数据选择收敛判定部265可以在将指定数量的数据d’追加到图表g2中的情况下，判定为数据d’的追加处理收敛。并且，数据选择收敛判定部265也可以在步骤1110中选择出的数据d’的距离比指定的数据d’的距离的最小值短的情况下，判定为数据d’的追加处理收敛。

在判定为数据d’的追加处理收敛的情况下，数据选择部255结束图10所示的处理，输出图表g2、教师数据的特征矢量710和无标签数据u2的特征矢量700。

在判定为数据d’的追加处理未收敛的情况下，数据评价部260根据无标签数据的特征矢量700和教师数据的特征矢量710，计算无标签数据的特征矢量700中包含的无标签数据与步骤1110中追加到图表g2中的数据d’之间的距离。然后，数据评价部260根据计算出的距离，对无标签数据与属于图表g2的数据之间的距离的最小值进行更新（1130）。在步骤1130之后，数据评价部260返回步骤1110，选择数据d’。

下面，对通过所述步骤1110～步骤1130而提取出的数据d’进行说明。

图11A是示出本实施例1的图表g2和无标签数据的说明图。

图11A所示的数据10～数据14表示无标签数据。并且，数据20～数据22表示教师数据和追加到图表g2中后的无标签数据。

数据10～数据12在特征矢量中位于相互接近的位置，与图表g2之间的距离大致相等。数据10、数据13、数据14在特征矢量中位于相互分开的位置。

图11B是示出本实施例1的选择了与图表g2之间的距离最长的无标签数据的情况下的图表的说明图。

这里，作为步骤1120中的收敛判定所使用的要追加的数据d’的数量，假设在数据选择收敛判定部265中预先指定“三个”。

在图10所示的处理开始的情况下，在步骤1100中，数据评价部260例如蓄积数据14与数据22之间的距离，作为无标签数据即数据14与图表g2之间的最小值。并且，数据评价部260例如蓄积数据11与数据20之间的距离，作为数据11与图表g2之间的最小值。

进而，在步骤1110中，数据评价部260从所蓄积的多个距离中选择与图表g1（图表g2）之间的距离最长的数据d’。因此，数据评价部260通过反复执行步骤1110，选择数据10、数据13和数据14作为追加到图表g2中的数据d’。

这里，为了生成用于向无标签数据传播标签的新的图表，如图11B那样，优选所选择的无标签数据在特征矢量中分散。但是，在仅根据距离的最大值选择无标签数据的情况下，数据评价部260从密集的无标签数据中选择数据d’，有时无法从分散的无标签数据中选择数据d’。

图11C是示出本实施例1的选择了与图表1之间的距离最长的无标签数据的情况下的图表的说明图。

假设数据11与图表g2之间的距离和数据12与图表g2之间的距离大于数据13与图表g2之间的距离和数据14与图表g2之间的距离，在数据评价部260选择了与图表g1之间的距离最大的无标签数据的情况下，如图11C的黑色三角所示，步骤1110中选择出的数据d’是数据10～数据12。

但是，在步骤1130中，实施例1的数据评价部260对所蓄积的距离进行更新。例如，在步骤1110中提取出数据10的情况下，在步骤1130中，根据数据11与数据10之间的距离对数据11与图表g2之间的距离进行更新。因此，在下一次的步骤1110中，不会选择数据11作为数据d’。

即，实施例1的数据评价部260通过进行步骤1130，在下一次的步骤1110中，能够选择分散的无标签数据。然后，本发明的数据选择部255通过从节点的密度较小的部分中选择无标签数据，能够生成数据的偏差较少的图表。

然后，通过图10所示的数据选择部255的处理，能够将包含最优的无标签数据的图表g2输入到机器学习部280。

另外，在实施例1中，作为选择无标签数据的观点，使用数据的密度，但是，数据选择部255也可以在该选择方法中追加新的指标，与特征选择部240中的特征选择同样，作为多目的优化问题来选择数据。

这里，从数据数量的观点来估计特征选择部240中的处理所需要的时间计算量。设教师数据数量为N、无标签数据数量为M。1次的不同标签连接得分的评价、即式1和式2所需要的时间计算量为○（N*N）。并且，相同标签连接得分的评价、即式3所需要的时间计算量为○（N*N）。

不使用本实施例1的特征选择部240，在机器学习中使用单纯的标签传播法的情况下，即执行图4所示的处理的情况下，机器学习部280为了选择最优的特征而反复进行机器学习的时间计算量为○（（N+M）*（N+M）*t）。t表示标签传播法的重复次数。

在本发明中，假设了难以得到教师数据且无标签数据丰富这样的前提，所以，数据数量N远远小于数据数量M。另一方面，特征选择部240中的处理的时间计算量如所述时间计算量○（N*N）那样，是不依赖于数据数量M的时间计算量。因此，与依赖于数据数量M的机器学习部280中的处理相比，本实施例的特征选择部240能够大幅缩短用于选择特征的时间。

进而，估计数据选择部255中的处理所需要的时间计算量。设追加到图表g2中的无标签数据u2的要素的个数（提取出的数据d’的数量）为M_u。步骤1100中的距离计算所需要的时间计算量为○（N*M）。

并且，第1次的步骤1130的时间计算量为○（M-1），第2次的步骤1130的时间计算量为○（M-2）。而且，反复进行M_u-1次的步骤1130，所以，用于执行所有步骤1130的时间计算量为○（（M-1）+（M-2）+…+（M-（M_u-1）））=○（M（M_u-1）-M_u*M_u+M_u）。

不使用本实施例1的数据选择部255，在机器学习中使用单纯的标签传播法的情况下，即执行图4所示的处理的情况下，不进行数据选择的标签传播法为○（（N+M）*（N+M）*t）。另一方面，基于数据选择部255的数据选择和数据选择后的标签传播法的计算时间相加成为○（M（M_u-1）-M_u*M_u+M_u（N+M_u）*（N+M_u）*t）。

由于数据数量M大于数据数量N和数据数量M_u，所以，当关注数据数量M时，在数据选择部255不进行数据选择的情况下，时间计算量为○（tM^2+tNM），与M^2（M的平方）成比例。另一方面，在本实施例1的数据选择部255进行数据选择的情况下，时间计算量是与○（（M_u-1）M）和M成比例的时间。其表示，通过本实施例1的数据选择部255进行处理时，无标签数据的数量M越多，越能够大幅缩短计算时间。

根据实施例1，能够发挥以下效果。

第一个效果是，实施例1的信息提取用计算机200进行特征类型的优化和无标签数据的优化，由此，图表构造被优化，所以，能够削减需要领域专家进行选择的教师数据的数量，能够抑制人力成本。

第二个效果是，实施例1的特征选择部240为了进行特征类型的优化而使用客观的特征评价函数，所以，在图表的评价中不需要领域专家或机器学习的专家的评价。由此，能够抑制人力成本。进而，通过机器学习的自动化，能够提高机器学习的速度，能够降低设备成本。

第三个效果是，实施例1的特征评价函数是相同标签的节点容易连接、不同标签的节点难以连接的评价函数，所以，能够提高学习的精度。

第四个效果是，在机器学习部280执行机器学习之前计算实施例1的特征评价函数，所以，在图表优化中不需要机器学习的结果，能够以较少的计算时间得到适合于传播标签的图表构造。

第五个效果是，实施例1的数据选择部255不执行机器学习而选择大量无标签数据中的对机器学习造成优良影响的数据，所以，能够提高机器学习的速度，能够降低设备成本。

【实施例2】

实施例2的信息提取***采用与图2所示的实施例1的信息提取***相同的结构。但是，实施例2的信息提取***与实施例1的信息提取***的不同之处在于，在数据选择部255中不需要具有数据评价部260和数据选择收敛判定部265。

在实施例1中，与特征的优化一起，对传播标签的对象的无标签数据进行了优化。这是因为，在无标签数据非常多的情况下，必要的计算机资源和必要的学习时间增加，所以，需要限制无标签数据的数量。但是，假设在无标签数据数量较少的情况下或计算机资源丰富的情况下，即使使用所有的无标签数据进行机器学习，也不会产生计算机资源紧迫和学习时间过度增加等的问题。

该情况下，实施例2的信息提取***省略数据选择部255中的无标签数据的选择处理（图10）。

例如，在用户希望向所有无标签数据传播教师数据的标签的情况下，用户经由输入装置140对信息提取用计算机200指示图表g2包含所有的无标签数据。然后，该情况下，数据选择部255代替图10所示的处理，通过将所有的无标签数据追加到图表g1中，生成图表g2。

然后，数据选择部255输出所生成的图表g2、所有的无标签数据的特征矢量和教师数据的特征矢量作为数据330。由此，图5中的数据选择部255的处理时间缩短，图5所示的处理全体实现高速化。

并且，例如，在用户仅希望向一部分无标签数据传播教师数据的标签的情况下，用户经由输入装置140对信息提取用计算机200指示图表g2中应该包含的无标签数据。然后，该情况下，数据选择部255代替图10所示的处理，通过仅将用户指示的无标签数据追加到图表g1中，生成图表g2。

【实施例3】

实施例3的信息提取***采用与实施例1的信息提取***相同的结构。但是，实施例3的信息提取***与实施例1的信息提取***的不同之处在于，不需要具有特征评价部245和特征选择收敛判定部250。

在实施例1中，与作为标签传播目的地的无标签数据的优化一起，进行了特征（即特征类型）的优化。这是因为，一般很难选择在标签传播中应该使用哪个特征，需要由领域专家进行作业。

但是，根据数据的种类和学习对象的文献，有时特征类型被唯一确定。该情况下，省略特征选择部240进行的图7所示的处理，能够实现图5所示的处理全体的高速化。

例如，在用户经由输入装置140对信息提取用计算机200指示唯一确定的特征类型的情况下，特征选择部240省略图7所示的处理。

在省略图7所示的处理的情况下，特征选择部240代替图7所示的处理，对特征矢量生成部237输入教师数据列表L601和唯一确定的特征类型，使特征矢量生成部237生成教师数据的特征矢量710。进而，特征选择部240使图表构筑部270根据所生成的特征矢量710生成图表g1。然后，特征选择部240输出所生成的图表g1、唯一确定的特征类型、教师数据的特征矢量710作为数据310。

关于特征类型唯一确定的情况，例如考虑在针对电子文档的词类分类中应用机器学习的情况等。该情况下，特征的选择范围只是对相邻的标记的数量进行变更等的自由度。相邻的标记的数量由计算时间和精度的折中确定，所以，根据要使用的计算机的性能和要寻求的精度的外部要因唯一确定特征。

词类分类是与电子文档有关的一般任务，所以，能够用作无标签数据的数据数量庞大，需要缩小数据以使得能够在现实的时间内进行学习。在实施例3中，假设这种情况，能够高效选择数据。

【实施例4】

实施例4的信息提取***的结构与实施例1的信息提取***相同。但是，实施例4的信息提取***与实施例1的信息提取***的不同之处在于，多目的优化部275由后述单一目的优化部代替。

在实施例1中，通过多目的优化部275选择特征类型，但是，实施例4的特征选择部240通过单一目的优化部对特征类型进行优化。作为特征选择部240中的特征评价函数，使用式4。

在步骤450中，实施例4的单一目的优化部使用通过式1～式3计算出的不同标签连接得分和相同标签连接得分以及式4，计算图表的评价值（Score_merge）。

【数学式4】

Score_merge(G)=λScore_diff(G)+(1-λ)Score_same(g) (式4)

式4是不同标签连接得分与相同标签连接得分的线性和。权重λ意味着不同标签连接得分和相同标签连接得分各自的得分的权重，是由用户任意确定的0～1的实数。通过式4计算出的图表的评价值是图表内标签不同的节点越多且标签相同的节点越少、则越低的值，是图表内标签不同的节点越少且标签相同的节点越多、则越高的值。

在实施例4中，实施例1的多目的优化部275被置换为单一目的优化部。在步骤450中，实施例4的单一目的优化部根据过去选择出的特征类型f1和过去计算出的评价值（Score_merge）生成新的特征类型f1。实施例4的单一目的优化部使用遗传算法或退火法等的公知方法。例如，在单一目的优化部使用单纯的遗传算法的情况下，选出图表的评价值较高的两个特征类型，通过相互替换这两个特征列表的要素，选择新的特征类型f1。

实施例4的单一目的优化部适用于帕累托最优解确定为一点的情况。进而，单一目的优化部不需要保持多个解候选，所以，能够降低计算机的存储器资源。

【实施例5】

实施例5的信息提取***与实施例1的信息提取***相同。

在实施例1中，特征评价函数（式1～式3）不使用机器学习的结果来确定。但是，根据数据（文献）的种类，根据机器学习的结果而求出的评价值和特征评价函数可能产生乖离。因此，如图12所示，实施例5的信息提取***对机器学习的结果进行反馈，改善特征评价函数。

图12示出相当于图2所示的处理部的功能块在实施例5的处理中输入输出的数据流。

标签生成部295中的处理、文献数据库220、标签数据库225和特征类型数据库230与实施例1相同。

实施例5的初始化部235使教师数据中包含的任意一部分分离，作为测试数据1310。具体而言，初始化部235复制教师数据中包含的任意一部分作为测试数据1310，从教师数据中删除与所复制的测试数据1310相同的数据。另外，用户预先指定要从教师数据中分离的测试数据1310的数量等。

初始化部235中分离出的测试数据1310不用作图表构筑和机器学习中的教师数据，仅用于基于机器学习部280的机器学习的评价。实施例5的初始化部235将测试数据1310输入到机器学习部280。

实施例5的数据选择部255在输入到机器学习部280的数据330中追加特征类型f1。

对实施例5的机器学习部280中的机器学习进行具体说明。

在输入数据330和测试数据1310的情况下，机器学习部280对特征矢量生成部237输入测试数据1310和特征类型f1。机器学习部280通过特征类型f1将所输入的测试数据1310转换为测试数据的特征矢量。测试数据的特征矢量与图8B所示的无标签数据的特征矢量相同，未附加标签。

然后，在对所输入的数据330进行单纯的标签传播的情况下，实施例5的机器学习部280将测试数据的特征矢量施加给数据330中包含的无标签数据的特征矢量700中。然后，机器学习部280使用数据330执行标签传播。

进而，实施例5的机器学习部280对通过标签传播而估计出的测试数据的标签和测试数据的真正标签进行比较，由此，计算再现率和适合率等中的至少一个值作为评价值。

另一方面，在初始化部235的处理之后，在特征选择部240最初执行处理时，与实施例1相同，特征选择部240根据式1～式3的特征评价函数选择特征类型。然后，机器学习部280针对包含数据选择部255的处理后得到的帕累托最优解的图表和测试数据的数据330进行机器学习。

如果机器学习部280中的机器学习的第1次的评价结果未达到用户期待的程度的评价，则表示不满足机器学习部280要求的精度，特征选择部240执行第2次特征选择。

图13是示出本实施例5的机器学习的评价较低的情况下的特征选择部240的处理的流程图。

特征选择部240根据上次之前的图表的特征评价函数的值和基于机器学习部280的机器学习的评价值，进行评价函数的近似（1400）。具体而言，特征选择部240设特征评价函数的值为x1、x2、x3…，设对应的基于机器学习部280的机器学习的评价值为y1、y2、y3…进行回归分析，由此，求出当输入特征评价函数的值x时返回基于机器学习部280的机器学习的评价值的估计值y的近似函数r。

这里，在回归分析中，除了线性回归以外，还可以使用SupportVector Regression（SVR）等。

步骤1400之后执行的步骤400、步骤410和步骤420与实施例1的步骤400、步骤410和步骤420相同。

在步骤420之后，特征评价部245将图表g1的基于特征评价函数的评价值输入到近似函数r中。然后，特征评价部245决定通过近似函数r计算出的结果作为评价值（1410）。步骤1410之后执行的步骤440和步骤450与实施例1的步骤440和步骤450相同。

这样，通过机器学习对由新的特征类型优化的图表进行评价，反复进行图13所示的特征选择部240中的处理、基于数据选择部255的处理、基于机器学习部280的机器学习的评价，直到满足用户期待的精度为止。另外，除了特征选择部240得到表示用户设定的精度的评价值的情况以外，在反复进行特征选择部240、数据选择部255和机器学习部280的处理的次数超过预先指定的上限值的情况下、机器学习的精度的改善比例低于上次执行处理时的情况下、机器学习的精度差于上次执行处理时的情况下等，也可以停止特征选择部240、数据选择部255和机器学习部280的处理。

实施例5与实施例1不同，需要进行多次的机器学习。但是，通过将机器学习的执行对象仅限定为近似函数r的评价较高的部分，能够抑制计算成本较大的机器学习的执行次数。

另外，在实施例5中，也可以执行实施例2的信息提取***中的处理。即，实施例5的数据选择部255可以不具有数据评价部260和数据选择收敛判定部265。

并且，在实施例5中，也可以执行实施例4的信息提取***中的处理。即，实施例5的多目的优化部275可以置换为单一目的优化部。

以上根据实施方式对本发明人完成的发明进行了具体说明，但是，本发明不限于所述实施方式，能够在不脱离其主旨的范围内进行各种变更。

【产业上的可利用性】

本发明的分散计算***是适用于从电子文档数据中提取信息的特别有益的技术，不限于此，能够广泛应用于包含基于图表的机器学习处理的全部数据处理。

Claims

1.一种信息处理***，对多个文献数据进行机器学习，其特征在于，所述信息处理***具有：

初始化部，取得赋予了标签的多个文献数据即多个教师数据、未赋予所述标签的文献数据即无标签数据、以及表示提取与所述各文献数据有关的特征的方法的多个特征类型；

特征矢量生成部，在输入所述取得的特征类型中的至少一个所述特征类型的情况下，根据所述输入的特征类型和所述取得的各教师数据，生成通过数值矢量表示与所述各教师数据有关的特征的所述各教师数据的特征矢量；

图表构筑部，根据由所述特征矢量生成部生成的各教师数据的特征矢量，生成所述教师数据的图表；

特征选择部，根据由所述图表构筑部生成的教师数据的图表，从由所述初始化部取得的特征类型中选择用于生成最适于传播所述教师数据的标签的第1图表的特征类型，进而，输出由所述图表构筑部生成的所述第1图表；

数据选择部，根据所述第1图表和所述无标签数据，选择应该传播赋予在所述教师数据中的标签的所述无标签数据，进而，通过在所述第1图表中包含所述选择出的无标签数据，生成第2图表；以及

机器学习部，通过所述第2图表，将赋予在所述教师数据中的标签向所述选择出的无标签数据传播。

2.如权利要求1所述的信息处理***，其特征在于，

所述图表构筑部根据所述生成的各教师数据的特征矢量计算所述各教师数据间的距离，

所述图表构筑部通过在所述各教师数据间确定基于所述计算出的各教师数据间的距离的权重，生成所述教师数据的图表，

所述特征选择部具有：

特征评价部，对所述生成的教师数据的图表进行评价；

特征选择收敛判定部，在所述特征评价部对所述教师数据的图表的评价结果满足第1规定条件的情况下，输出所述教师数据的图表作为所述第1图表；以及

特征优化部，在所述特征评价部对所述教师数据的图表的评价结果不满足所述第1规定条件的情况下，根据所述教师数据的图表的评价结果，从由所述初始化部取得的特征类型中选择新的所述特征类型，对所述特征矢量生成部输入所述选择出的特征类型，

所述特征评价部使用在赋予了不同的所述标签的所述教师数据间确定的权重越小则对所述教师数据的图表评价越高、且在赋予了相同的所述标签的所述教师数据间确定的权重越大则对所述教师数据的图表评价越高的特征评价函数，对所述教师数据的图表进行评价。

3.如权利要求1或2所述的信息处理***，其特征在于，

所述特征矢量生成部根据生成所述第1图表的所述特征类型和由所述初始化部取得的多个无标签数据，生成通过数值矢量表示与所述各无标签数据有关的特征的所述无标签数据的特征矢量，

所述数据选择部具有数据评价部，该数据评价部根据所述各教师数据的特征矢量和所述各无标签数据的特征矢量，计算所述第1图表中包含的各教师数据与所述各无标签数据之间的距离的最小值，作为所述第1图表与所述各无标签数据之间的距离，

所述数据评价部保持所述计算出的第1图表与各无标签数据之间的距离，

所述数据评价部选择所述保持的第1图表与各无标签数据之间的距离中的最大距离的所述无标签数据，

所述数据评价部将所述选择出的无标签数据变更为所述第1图表中包含的文献数据，

所述数据评价部计算所述第1图表中包含的各文献数据与所述各无标签数据之间的距离的最小值，

所述数据评价部根据所述计算出的各文献数据与各无标签数据之间的距离，对所述保持的第1图表与各无标签数据之间的距离进行更新。

4.如权利要求2所述的信息处理***，其特征在于，

所述初始化部通过对赋予了所述标签的多个文献数据进行分割，取得所述教师数据和测试数据，

所述特征评价部使用所述特征评价函数计算特征评价值，

所述特征矢量生成部根据生成所述第2图表的所述特征类型和所述取得的测试数据，生成通过数值矢量表示与所述测试数据有关的特征的所述测试数据的特征矢量，

所述机器学习部在所述选择出的无标签数据的特征矢量中包含所述测试数据的特征矢量，

所述机器学习部根据所述选择出的无标签数据的特征矢量和所述教师数据的特征矢量，通过所述第2图表将赋予在所述教师数据中的标签向所述选择出的无标签数据传播，

所述机器学习部通过对向所述选择出的无标签数据中包含的所述测试数据传播的标签和赋予在所述测试数据中的标签进行比较，计算机器学习的评价值，

所述特征评价部在所述机器学习的评价值不满足第2规定条件的情况下，根据所述机器学习的评价值和所述计算出的特征评价值求出回归函数，

所述特征评价部使用所述求出的回归函数和所述特征评价函数对所述教师数据的图表进行评价。

5.如权利要求2所述的信息处理***，其特征在于，

所述信息处理***还具有从用户接受指示的输入装置，

在从所述用户经由所述输入装置指示了第1图表中包含的无标签数据的情况下，所述数据选择部选择由所述用户指示的无标签数据作为应该在所述第1图表中追加的无标签数据。

6.如权利要求1所述的信息处理***，其特征在于，

所述信息处理***还具有从用户接受指示的输入装置，

在从所述用户经由所述输入装置指示了用于生成最适于传播所述教师数据的标签的图表的特征类型的情况下，所述特征选择部选择由所述用户指示的特征类型作为用于生成所述第1图表的特征类型。

7.一种信息处理方法，用于对多个文献数据进行机器学习的信息处理***，其特征在于，

所述信息处理***具有处理器和存储器，

所述方法包括以下步骤：

初始化步骤，所述处理器取得赋予了标签的多个文献数据即多个教师数据、未赋予所述标签的文献数据即无标签数据、以及表示提取与所述各文献数据有关的特征的方法的多个特征类型；

特征矢量生成步骤，在输入所述取得的特征类型中的至少一个所述特征类型的情况下，所述处理器根据所述输入的特征类型和所述取得的各教师数据，生成通过数值矢量表示与所述各教师数据有关的特征的所述各教师数据的特征矢量；

图表构筑步骤，所述处理器根据由所述特征矢量生成步骤生成的各教师数据的特征矢量，生成所述教师数据的图表；

特征选择步骤，所述处理器根据由所述图表构筑步骤生成的教师数据的图表，从由所述初始化步骤取得的特征类型中选择用于生成最适于传播所述教师数据的标签的第1图表的特征类型，进而，输出由所述图表构筑步骤生成的所述第1图表；

数据选择步骤，所述处理器根据所述第1图表和所述无标签数据，选择应该传播赋予在所述教师数据中的标签的所述无标签数据，进而，通过在所述第1图表中包含所述选择出的无标签数据，生成第2图表；以及

机器学习步骤，所述处理器通过所述第2图表，将赋予在所述教师数据中的标签向所述选择出的无标签数据传播。

8.如权利要求7所述的信息处理方法，其特征在于，

所述图表构筑步骤包括以下步骤：

所述处理器根据所述生成的各教师数据的特征矢量计算所述各教师数据间的距离的步骤，

所述处理器通过在所述各教师数据间确定基于所述计算出的各教师数据间的距离的权重来生成所述教师数据的图表的步骤，

所述特征选择步骤包括以下步骤：

特征评价步骤，所述处理器对所述生成的教师数据的图表进行评价；

特征选择收敛判定步骤，在所述特征评价步骤对所述教师数据的图表的评价结果满足第1规定条件的情况下，所述处理器输出所述教师数据的图表作为所述第1图表；以及

特征优化步骤，在所述特征评价步骤对所述教师数据的图表的评价结果不满足所述第1规定条件的情况下，所述处理器根据所述教师数据的图表的评价结果，从由所述初始化步骤取得的特征类型中选择新的所述特征类型，在所述特征矢量生成步骤中输入所述选择出的特征类型，

所述特征评价步骤还包括如下步骤：所述处理器使用在赋予了不同的所述标签的所述教师数据间确定的权重越小则对所述教师数据的图表评价越高、且在赋予了相同的所述标签的所述教师数据间确定的权重越大则对所述教师数据的图表评价越高的特征评价函数，对所述教师数据的图表进行评价。

9.如权利要求7或8所述的信息处理方法，其特征在于，

所述特征矢量生成步骤包括以下步骤：所述处理器根据生成所述第1图表的所述特征类型和由所述初始化步骤取得的无标签数据，生成通过数值矢量表示与所述各无标签数据有关的特征的所述无标签数据的特征矢量，

所述数据选择步骤具有如下的数据评价步骤：所述处理器根据所述各教师数据的特征矢量和所述各无标签数据的特征矢量，计算所述第1图表中包含的各教师数据与所述各无标签数据之间的距离的最小值，作为所述第1图表与所述各无标签数据之间的距离，

所述数据评价步骤包括以下步骤：

所述处理器在所述存储器中存储所述计算出的第1图表与各无标签数据之间的距离的步骤；

所述处理器选择所述存储器中存储的第1图表与各无标签数据之间的距离中的最大距离的所述无标签数据的步骤；

所述处理器将所述选择出的无标签数据变更为所述第1图表中包含的文献数据的步骤；

所述处理器计算所述第1图表中包含的各文献数据与所述各无标签数据之间的距离的最小值的步骤；以及

所述处理器根据所述计算出的各文献数据与各无标签数据之间的距离，对所述存储器中存储的第1图表与各无标签数据之间的距离进行更新的步骤。

10.如权利要求8所述的信息处理方法，其特征在于，

所述初始化步骤包括以下步骤：所述处理器通过对赋予了所述标签的多个文献数据进行分割，取得所述教师数据和测试数据，

所述特征评价步骤包括以下步骤：所述处理器使用所述特征评价函数计算特征评价值，

所述特征矢量生成步骤包括以下步骤：所述处理器根据生成所述第2图表的所述特征类型和所述取得的测试数据，生成通过数值矢量表示与所述测试数据有关的特征的所述测试数据的特征矢量，

所述机器学习步骤包括以下步骤：

所述处理器在所述选择出的无标签数据的特征矢量中包含所述测试数据的特征矢量的步骤；

所述处理器根据所述选择出的无标签数据的特征矢量和所述教师数据的特征矢量，通过所述第2图表将赋予在所述教师数据中的标签向所述选择出的无标签数据传播的步骤；

所述处理器通过对向所述选择出的无标签数据中包含的所述测试数据传播的标签和赋予在所述测试数据中的标签进行比较，计算机器学习的评价值的步骤；

在所述特征评价步骤中，当所述机器学习的评价值不满足第2规定条件的情况下，所述处理器根据所述机器学习的评价值和所述计算出的特征评价值求出回归函数的步骤；以及

所述处理器使用所述求出的回归函数和所述特征评价函数对所述教师数据的图表进行评价的步骤。

11.如权利要求8所述的信息处理方法，其特征在于，

所述信息处理***还具有从用户接受指示的输入装置，

所述数据选择步骤包括如下步骤：在从所述用户经由所述输入装置指示了第1图表中包含的无标签数据的情况下，所述处理器选择由所述用户指示的无标签数据作为应该在所述第1图表中追加的无标签数据。

12.如权利要求7所述的信息处理方法，其特征在于，

所述信息处理***还具有从用户接受指示的输入装置，

所述特征选择步骤包括如下步骤：在从所述用户经由所述输入装置指示了用于生成最适于传播所述教师数据的标签的图表的特征类型的情况下，所述处理器选择由所述用户指示的特征类型作为用于生成所述第1图表的特征类型。