CN104376034A

CN104376034A - 信息处理设备,信息处理方法和程序

Info

Publication number: CN104376034A
Application number: CN201410382233.2A
Authority: CN
Inventors: 宫原正典; 荒木一宪; 金本胜吉; 中桥亮; 吉山和树; 高木友博
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2013-08-13
Filing date: 2014-08-06
Publication date: 2015-02-25
Anticipated expiration: 2034-08-06
Also published as: CN104376034B; JP2015036892A; US20150052140A1; US10380151B2

Abstract

本发明涉及信息处理设备，信息处理方法和程序。所述信息处理设备包括语句提取单元，特征提取单元，聚类单元，关联语句提取单元和输出单元。语句提取单元从多个文档中提取多个语句。特征提取单元在相互区分具有相同文字表示的语句的同时，提取所提取的各个语句的特征量。聚类单元在相互区分具有相同文字表示的语句的同时，把提取的各个语句聚类在一起，并计算把各个语句相对于2个或更多的各个聚类的归属度作为分量的归属度向量。关联语句提取单元在相互区分具有相同文字表示的语句的同时，提取归属度向量与提供的输入语句的归属度向量类似的关联语句。输出单元输出关联语句和用于识别关联语句的识别信息。

Description

信息处理设备,信息处理方法和程序

相关申请的引用

本申请要求2013年8月13日提交的日本专利申请JP2013-168259的优先权，该申请的整个内容在此引为参考。

技术领域

本技术涉及信息处理设备，信息处理方法和程序，尤其涉及搜索关联语句的信息处理设备，信息处理方法和程序。

背景技术

在现有技术中，已知根据赋予内容的元数据，搜索和推荐适合于用户的偏好的内容的技术(例如，参见日本专利申请公开No.2007-026425)。在这种推荐技术中，根据表示各个语句的特征的特征量向量的相似性，搜索与包含在元数据中的语句相关的关联语句(related expression)。

发明内容

然而，在现有技术中，文字表示(notation)相同的语句被视为一个语句，即使它们具有多种含义。于是，在作为与元数据相关的语句而搜索的关联语句包括适合于用户的偏好的含义，和不适合于用户的偏好的含义的情况下，难以相互区分地处理关联语句。

鉴于以上情况，理想的是改善处理关联语句的搜索结果的便利性。

按照本技术的实施例的信息处理设备包括语句提取单元，特征提取单元，聚类单元，关联语句提取单元和输出单元。语句提取单元被配置成从多个文档中提取多个语句。特征提取单元被配置成在相互区分具有相同文字表示的语句的同时，提取所提取的各个语句的特征量。聚类单元被配置成在相互区分具有相同文字表示的语句的同时，把提取的各个语句聚类在一起，并计算把各个语句相对于2个或更多的各个聚类的归属度(assignment degree)作为分量的归属度向量。关联语句提取单元被配置成在相互区分具有相同文字表示的语句的同时，提取归属度向量与提供的输入语句的归属度向量类似的关联语句。输出单元被配置成输出关联语句和用于识别关联语句的识别信息。

输出单元还输出关联语句的归属度向量和/或表示关联语句与输入语句之间在归属度向量方面的相似性的分数。

信息处理设备还包括同义词提取单元，所述同义词提取单元被配置成把具有相同文字表示的关联语句的分数相加，并提取其分数较高的关联语句，作为输入语句的同义词。

同义词提取单元可按照分数，加权并相加具有相同文字表示的关联语句的归属度向量，当提取的同义词的归属度向量具有规定阈值以上的分量时，对于对应于规定阈值以上的分量的每个聚类，把同义词分成多个部分。

信息处理设备还包括推荐单元，所述推荐单元被配置成向用户推荐项目。关联语句提取单元可提取与推荐项目相关的关键词的关联语句，推荐单元可把关键词的关联语句连同推荐项目一起呈现给用户。

推荐单元可把关键词的关联语句的特征量连同推荐项目一起呈现给用户。

信息处理设备还可包括被配置成向用户推荐项目的推荐单元。关联语句提取单元可提取包含在用户的特征量或者项目的特征量中的关键词的关联语句，推荐单元可把关键词的关联语句追加到用户的特征量或项目的特征量中。

推荐单元还把关键词的关联语句的特征量追加到用户的特征量或项目的特征量中。

当提供多个输入语句时，关联语句提取单元可提取语句作为关联语句，所述语句具有与通过把多个输入语句的归属度向量加在一起而获得的向量，或者通过对于每个分量把多个输入语句的归属度向量相乘而获得的向量类似的归属度向量。

识别信息可表示从中提取关联语句的文档以及文档中的位置。

语句的特征量可包括从从中提取语句的文档中的语句的附近提取的语句。

按照本技术的另一个实施例的信息处理方法包括：从多个文档中提取多个语句；在相互区分具有相同文字表示的语句的同时，提取所提取的各个语句的特征量；在相互区分具有相同文字表示的语句的同时，把提取的各个语句聚类在一起，并计算把各个语句相对于2个或更多的各个聚类的归属度作为分量的归属度向量；在相互区分具有相同文字表示的语句的同时，提取归属度向量与提供的输入语句的归属度向量类似的关联语句；和输出关联语句和用于识别关联语句的识别信息。

按照本技术的另一个实施例的程序使计算机执行处理，所述处理包括：从多个文档中提取多个语句；在相互区分具有相同文字表示的语句的同时，提取所提取的各个语句的特征量；在相互区分具有相同文字表示的语句的同时，把提取的各个语句聚类在一起，并计算把各个语句相对于2个或更多的各个聚类的归属度作为分量的归属度向量；在相互区分具有相同文字表示的语句的同时，提取归属度向量与提供的输入语句的归属度向量类似的关联语句；和输出关联语句和用于识别关联语句的识别信息。

在本技术的实施例中，从多个文档中提取多个语句，在相互区分具有相同文字表示的语句的同时，提取所提取的各个语句的特征量，在相互区分具有相同文字表示的语句的同时，把提取的各个语句聚类在一起，并计算把各个语句相对于2个或更多的各个聚类的归属度作为分量的归属度向量，在相互区分具有相同文字表示的语句的同时，提取归属度向量与提供的输入语句的归属度向量类似的关联语句，并输出关联语句和用于识别关联语句的识别信息。

按照本技术的实施例，能够在相互区分具有相同文字表示的语句的同时，搜索关联语句。结果，改善了处理关联语句的搜索结果的便利性。

根据如在附图中图解说明的本公开的最佳实施例的以下详细说明，本公开的这些和其它目的、特征和优点将变得更明显。

附图说明

图1是表示本技术适用于的信息处理设备的实施例的方框图；

图2是说明语句数据收集处理的流程图；

图3是表示文档的例子的示图；

图4是表示语句特征量DB的结构例子的示图；

图5是表示聚类结果DB的结构例子的示图；

图6是说明关联语句搜索处理的第一实施例的流程图；

图7是表示关联语句的搜索结果的例子的示图；

图8是说明关联语句搜索处理的第二实施例的流程图；

图9是说明关联语句搜索处理的第三实施例的流程图；

图10是表示合并具有相同文字表示的关联语句的例子的示图；

图11是说明同义词提取处理的流程图；

图12是说明同义词提取处理的具体例子的示图；

图13是说明推荐处理的流程图；

图14是说明推荐处理的具体例子的示图；

图15是说明特征量扩充处理的流程图；

图16是说明推荐处理的例子的示图；

图17是说明特征量扩充处理的具体例子的示图；

图18是表示计算机的结构例子的方框图。

具体实施方式

下面说明实现本技术的实施例(下面称为实施例)。注意，将按照以下顺序进行说明。

1.实施例

2.变形例

1.实施例

(信息处理设备11的结构例子11)

图1是表示本技术适用于的信息处理设备11的实施例的方框图。

信息处理设备11把从包括多个文档的文档组中提取的多个语句聚类在一起，以便保留。另外，信息处理设备11从保留的语句中，搜索与给定的输入语句相关的关联语句。此外，信息处理设备11利用关联语句的搜索结果，进行各种处理。

注意，由信息处理设备11处理的语句是由字符、符号等构成的语句，每个语句不仅包括单个词，而且包括把多个词结合在一起的短语，等等。

信息处理设备11包括搜索处理单元21和应用单元22。

搜索处理单元21把从文档组中提取的语句聚类在一起，以便保留，从保留的语句中搜索与输入语句相关的关联语句，并把搜索结果输出给应用单元22。

搜索处理单元21包括语句提取单元31，特征提取单元32，语句特征量数据库(DB)33，聚类单元34，聚类结果数据库(DB)35，关联语句提取单元36和输出单元37。

语句提取单元31提取包含在文档组中的语句，并把语句的提取结果和作为提取源的文档组提供给特征提取单元32。注意，尽管语句提取单元31从中提取语句的文档没有特别的限制，不过所述文档可包括例如因特网网站等上的在可访问状态下，向公众公开的各种文档。

特征提取单元32计算利用语句提取单元31提取的各个语句的特征量，并把各个语句和特征量保存在语句特征量DB 33中。

聚类单元34把保存在语句特征量DB 33中的各个语句聚类在一起。随后，聚类单元34计算由各个语句相对于2个或者更多的指定聚类的归属度构成的归属度向量，并将其保存在聚类结果DB 35中。

关联语句提取单元36利用聚类结果DB 35，提取与输入语句或包括多个输入语句的输入语句组相关的关联语句，并将其提供给输出单元37。

输出单元37把提取的包括关联语句组的关联语句的搜索结果，输出给应用单元22。

注意如后所述，搜索处理单元21的各个单元在相互区分具有相同文字表示的语句的同时，作为不同语句地处理所述具有相同文字表示的语句。

如后所述，应用单元22利用关联语句的搜索结果和语句特征量DB33，进行各种处理。应用单元22包括同义词提取单元41和推荐单元42。

同义词提取单元41根据关联语句的搜索结果，提取某些语句的同义词，并将其登记在同义词词典中。

推荐单元42通过诸如因特网(未图示)之类的网络，向用户操作的客户端推荐项目。另外，通过利用搜索处理单元21搜索的关联语句的结果，推荐单元42提供关联的关键词，以及推荐的项目，或者扩充项目和用户的特征量。

注意，推荐单元42推荐的项目并不局限于特定种类的项目。例如，设想诸如运动图像、静止图像、书籍、文档、歌曲、电视节目、软件、新闻消息、博客消息、微博句子和信息之类的各种内容和商品，社区网站中的用户，和社区网站中的社区。

(信息处理设备11的处理)

下面，说明信息处理设备11的处理。注意为了易于理解，将说明其中信息处理设备11处理的各个语句基本上由单个词构成的情况。

(语句数据收集处理)

首先，参考图2的流程图，说明信息处理设备11进行的语句数据收集处理。注意，所述处理是定期离线进行的。

在步骤S1，语句提取单元31从文档组中提取语句。具体地，语句提取单元31从各个地方获得多个文档。图3表示利用语句提取单元31获得的文档的例子。

语句提取单元31利用指定方法，从获得的文档组中提取语句。注意，诸如语素分析之类的任何方法可用于提取语句。

另外，语句提取单元31按照指定规则，缩减提取的语句。例如，语句提取单元31从提取的语句中，除去特定语音单元的语句，和从搜索目标中排除的诸如停止词之类的语句。语句提取单元31把语句的提取结果和文档组，提供给特征提取单元32。

在步骤S2，特征提取单元32提取各个语句的特征量(下面称为语句特征量)。例如，在从中提取了作为特征量的提取目标的语句(下面称为提取目标语句)的文档中，特征提取单元32提取在提取目标语句附近的语句，作为语句特征量。更具体地，例如，在从从中提取了提取目标语句的文档中提取的语句之中，在提取目标语句之前和之后为n(例如，n＝10)的范围中的2n个语句被提取为提取目标语句的语句特征量。另一方面，例如，从和提取目标语句相同的文档中提取的所有语句可作为提取目标语句的语句特征量被处理。

此外，可采用表示各个语句的特征，作为提取源的文档的特征，从中提取了各个语句的单元的上下文的特征等的任何其它特征量，作为语句特征量。例如，可以采用文档的作者、种类、标题，文档的存在地点，阅览过所述文档的用户(的用户ID)等，作为语句特征量。注意，下面将说明其中在上述各个语句附近的语句被提取为语句特征量的情况。

在步骤S3，特征提取单元32把各个语句和特征量(语句特征量)保存在语句特征量DB 33中。

图4表示语句特征量DB 33的结构例子。语句特征量DB 33包括语句出现位置ID，语句和语句特征量等3个项目(字段)。

在语句出现位置ID字段中，登记作为根据语句的出现位置识别各个语句的识别信息项目的语句出现位置ID。即，利用语句出现位置ID，能够识别各个语句出现于其中的文档以及在文档中的位置。另外，利用语句出现位置ID，能够在相互区分语句的同时，作为不同的语句地处理具有相同文字表示的语句。

在语句字段中，登记各个语句的具体内容。

在语句特征量字段中，登记各个语句的语句特征量的具体内容。

在图4的例子中，“drama”，“actor”，“TV”等被登记为语句出现位置ID“12454”的语句“Michael”的语句特征量，“star”，“perform”，“character”等被登记为语句出现位置ID“15635”的语句“Mike”的语句特征量。另外，具有相同文字表示的语句(例如，“Michael”和“Mike”)被相互区分，并被登记为不同的语句。

在步骤S4，聚类单元34把各个语句聚类在一起，并计算各个语句相对于各个聚类的归属度。具体地，通过利用软聚类方法，比如模糊c均值方法和PLSA(概率潜在语义分析)方法，聚类单元34根据各个语句的语句特征量，计算各个语句相对于指定的两个或更多聚类的归属度。注意，聚类的数目或种类是按照实验等预先设定的。

随后，聚类单元34计算其中各个语句相对于各个聚类的归属度被向量化的归属度向量。即，归属度向量是把各个语句相对于各个聚类的归属度作为分量的向量。另外，例如，各个归属度向量被归一化，以致通过把各个分量的值加在一起而获得的值变为1。

在步骤S5，聚类单元34把聚类结果保存在聚类结果DB 35中。即，聚类单元34把各个语句的归属度向量保存在聚类结果DB 35中。

图5表示聚类结果DB 35的结构例子。聚类结果DB 35包括语句出现位置ID，语句，和语句特征量等3个项目(字段)。

在语句出现位置ID字段中，与图4的语句特征量DB 33中一样，登记语句出现位置ID。

在语句字段中，和图4的语句特征量DB 33中一样，登记各个语句的具体内容。

在语句特征量字段中，登记各个语句的归属度向量。注意在本例中，用粗体指示各个归属度向量的分量之中的值最大的分量。

在图5的例子中，(0.62,0.05,0.12,等)被登记为语句出现位置ID“15816”的语句“stadium”的归属度向量，(0.74,0.02,0.17,等)被登记为语句出现位置ID“73525”的语句“Michael”的归属度向量。另外，具有相同文字表示的语句(例如，“Michael”)被相互区分，并被登记为不同的语句。

之后，结束语句数据收集处理。

(关联语句搜索处理的第一实施例)

下面参考图6的流程图，说明信息处理设备11执行的关联语句搜索处理的第一实施例。注意，当为其搜索关联语句的输入语句被提供给关联语句提取单元36时，开始该处理。

在步骤S101，关联语句提取单元36计算输入语句的归属度向量。具体地，关联语句提取单元36从聚类结果DB 35中，提取其中登记具有与输入语句相同的文字表示的语句的记录。关联语句提取单元36通过把包含在提取的记录中的归属度向量加在一起，并使相加的向量归一化，以便具有为1的大小，来计算输入语句的归属度向量。即，计算的归属度向量是通过求具有和输入语句相同的文字表示的语句的归属度向量的平均值而获得的向量。

在步骤S102，关联语句提取单元36利用输入语句进行指定的过滤，以提取候选关联语句。具体地，例如，关联语句提取单元36提取从与文字表示和输入语句相同的语句相同的文档中提取的语句，作为候选关联语句。另一方面，例如，关联语句提取单元36从语句特征量DB 33中，提取把文字表示和输入语句相同的语句包含在其语句特征量中的语句，作为候选关联语句。随后，关联语句提取单元36从聚类结果DB 35中，提取其中记录提取的候选关联语句的记录。

在步骤S103，关联语句提取单元36根据与输入语句的相似性，计算各个候选关联语句的分数。例如，关联语句提取单元36计算各个候选关联语句的归属度向量和输入语句的归属度向量的内积，作为各个候选关联语句和输入语句之间的相似性，并将其设定为各个候选关联语句的分数。

图7的上部区域表示当输入语句为“Michael”时，利用归属度向量的内积计算各个候选关联语句的分数的例子。例如，语句出现位置ID“15816”的候选关联语句“stadium”的分数为0.21，语句出现位置ID“74789”的候选关联语句“Mike”的分数为0.26。

在步骤S104，关联语句提取单元36根据计算的分数，提取关联语句。例如，关联语句提取单元36从候选关联语句中，提取分数均等于或大于规定阈值的语句，作为关联语句。另一方面，例如，关联语句提取单元36从候选关联语句中，提取按分数的降序排列的规定数目的语句，作为关联语句。随后，关联语句提取单元36把关联语句的提取结果提供给输出单元37。提取结果例如包括输入语句，关联语句，关联语句的语句出现位置ID，归属度向量，和分数。

例如，图7的下部区域表示根据以上分数的计算结果提取的关联语句的例子。具体地，语句出现位置ID“92467”的语句“Mike”，语句出现位置ID“16357”的语句“drama”，语句出现位置ID“28479”的语句“Mike”，语句出现位置ID“74789”的语句“Mike”，和语句出现位置ID“25736”的语句“actor”被提取为关联语句。另外，各个关联语句的分数和归属度向量被包含在搜索结果中。

在步骤S105，输出单元37输出关联语句。即，输出单元37把输入语句和各个关联语句的语句出现位置ID、归属度向量和分数，连同利用关联语句提取单元36提取的关联语句一起输出给应用单元22。

之后，结束关联语句搜索处理。

按照上述方式，可以搜索与输入语句相关的关联语句。另外，在被相互区分时，具有相同文字表示的关联语句可作为不同的语句被搜索。在利用关联语句的搜索结果的后续***(例如，应用单元22)中，这导致利用搜索结果的便利性的改善。例如，能够作为不同语句或相同语句地处理具有相同文字表示的关联语句。另外，例如，能够在利用归属度向量和语句特征量，区分使用各个关联语句的上下文的同时，处理各个关联语句。结果，可增大后续***的处理的变化，可提高处理的精度。

(关联语句搜索处理的第二实施例)

下面参考图8的流程图，说明由信息处理设备11执行的关联语句搜索处理的第二实施例。第二实施例被配置成能够提取包括多个语句的输入语句组的关联语句。

注意，当输入的语句组被提供给关联语句提取单元36时，开始该处理。

在步骤S131，关联语句提取单元36计算各个输入语句的归属度向量。即，关联语句提取单元36利用和图6的步骤S101相同的处理，对包含在输入语句组中的各个输入语句，计算归属度向量。

在步骤S132，关联语句提取单元36计算输入语句组的归属度向量。例如，关联语句提取单元36通过把在步骤S131的处理中计算的各个输入语句的归属度向量加在一起，随后使其归一化，来计算输入语句组(即，所有的输入语句)的归属度向量。归属度向量是特别表示输入语句组的任意语句的特征的向量。

另一方面，例如，关联语句提取单元36通过把对于每个对应分量，在步骤S131的处理中计算的各个输入语句的归属度向量一起相乘，随后使其归一化，来计算输入语句组(即，所有的输入语句)的归属度向量。所述归属度向量是特别表示为输入语句组的所有语句所共有的特征的向量。

在步骤S133，关联语句提取单元36利用输入语句组，进行指定的过滤，以提取候选关联语句。具体地，例如，关联语句提取单元36提取和与输入语句组的任意语句具有相同文字表示的语句提取自相同文档的语句，作为候选关联语句。另一方面，例如，关联语句提取单元36提取把和输入语句组中的任意语句具有相同文字表示的语句包含在其语句特征量中的语句，作为候选相关语句。随后，关联语句提取单元36从聚类结果DB 35中，提取其中登记提取的候选关联语句的记录。

在步骤S134，关联语句提取单元36根据与输入语句组的相似性，计算各个候选关联语句的分数。例如，关联语句提取单元36计算各个候选关联语句的归属度向量和输入语句组的归属度向量的内积，作为各个候选关联语句和输入语句组之间的相似性，并将其设定为各个候选关联语句的分数。

在步骤S135和S136，执行和图6的步骤S104和S105相同的处理。

之后，结束关联语句搜索处理。

按照上述方式，可以搜索与多个输入语句相关的关联语句。另外，在被相互区分时，具有相同文字表示的关联语句可作为不同的语句被搜索。

(关联语句搜索处理的第三实施例)

下面参考图9的流程图，说明信息处理设备11执行的关联语句搜索处理的第三实施例。第三实施例被配置成能够以合并的状态输出具有相同文字表示的关联语句。

注意，当输入语句被提供给关联语句提取单元36时，开始该处理。

在步骤S161-S164，执行和图6的步骤S101-S104相同的处理。从而，提取输入语句的关联语句。

在步骤S165，输出单元37合并(integrate)具有相同文字表示的关联语句。具体地，通过把提取的关联语句之中的具有相同文字表示的关联语句的分数加在一起，输出单元37计算具有该文字表示的所有关联语句的分数(下面称为组合分数)。

另外，通过加权并相加提取的关联语句之中的具有相同文字表示的关联语句的归属度向量的各个分量，输出单元37产生具有该文字表示的所有关联语句的归属度向量(下面称为组合归属度向量)。

图10表示具有相同文字表示的关联语句的合并结果的例子。在图10中，图10的分数的计算结果和关联语句的搜索结果与图7的相同，关联语句的搜索结果包括具有相同文字表示(即，“Mike”)的3个语句。

因而，这3个“Mike”语句被合并成一个语句。即，通过相加3个“Mike”语句的分数而获得的值(0.34+0.29+0.26＝0.89)被计算为所有“Mike”语句的组合分数。另外，通过按照分数，加权并相加3个“Mike”语句的归属度向量的各个分量，产生所有“Mike”语句的组合归属度向量。例如，所有“Mike”语句的组合归属度向量的第一个分量的值为0.30(＝0.34×0.12+0.29×0.16+0.26×0.82)。从而，如在图10的右下部区域中所示，可以获得其中3个“Mike”语句被合并成一个语句的关联语句的搜索结果。

在步骤S166，输出单元37输出关联语句。即，连同具有相同文字表示的语句被合并成的关联语句一起，输出单元37把输入语句，和各个关联语句的语句出现位置ID、归属度向量(或组合归属度向量)和分数(或组合分数)输出给应用单元22。

之后，结束关联语句搜索处理。

按照上述方式，也能够以合并的状态输出具有相同文字表示的关联语句，而不相互区分它们。

注意，即使在图8的关联语句搜索处理中，也能够以合并的状态输出具有相同文字表示的关联语句。

下面，说明利用关联语句的搜索结果的处理。

(同义词提取处理)

首先参考图11的流程图，说明信息处理设备11执行的同义词提取处理。

注意，当对其搜索同义词的输入语句被提供给关联语句提取单元36时，开始该处理。另外，在该处理中，同义词是包括相近用语的概念，不仅包括单个词，而且包括把多个词组合在一起的短语。

在步骤S201，执行上面参考图6或8说明的关联语句搜索处理，以搜索输入语句的关联语句。随后，输入语句的关联语句的搜索结果从输出单元37被提供给应用单元22的同义词提取单元41。

在步骤S202，利用和图9的步骤S165相同的处理，同义词提取单元41合并具有相同文字表示的关联语句。从而，计算具有相同文字表示的所有关联语句的组合分数和组合归属度向量。随后，在之后的处理中，在具有相同文字表示的关联语句被合并成一个语句的状态下，提取同义词。

注意，当在步骤S201中，已利用图9的关联语句搜索处理，合并具有相同文字表示的关联语句时，可以省略步骤S202的处理。

在步骤S203，同义词提取单元41根据分数，从关联语句提取同义词。具体地，例如，同义词提取单元41提取分数(或者就其中合并具有相同文字表示的关联语句而论的组合分数)等于或大于规定值的关联语句，作为输入语句的同义词。

例如，图12表示其中提取输入语句“Michael”的同义词的情况的例子。注意，在图12的上部区域中的关联语句的合并结果和图10的例子中的相同。在这个例子中，分数或组合分数等于或大于规定值的语句“Mike”被提取为输入语句“Michael”的同义词。

在步骤S204，根据归属度向量的分量值，同义词提取单元41把提取的同义词分成多个部分。具体地，对提取的同义词来说，同义词提取单元41判定对应的归属度向量(就其中合并具有相同文字表示的语句的同义词而论，组合归属度向量)是否具有规定阈值以上的多个分量。随后，就归属度向量或组合归属度向量具有规定阈值以上的多个分量的同义词来说，同义词提取单元41对于与阈值以上的各个分量对应的各个聚类，把该同义词分成多个部分。即，同义词提取单元41区分属于提取的同义词的多个聚类的可能性高的同义词，作为对每个聚类来说不同的同义词。

例如，在图12的例子中，两个分量显示作为输入语句“Michael”的同义词提取的语句“Mike”的组合归属度向量中的较高值(0.30和0.43)。例如，当对应于这两个分量的聚类指示棒球和电影时，同义词“Michael”可被分成棒球运动员“Mike”和演员“Mike”这两个同义词。

在步骤S205，同义词提取单元41把提取的同义词登记在同义词词典(未图示)中。即，同义词提取单元41把提取的同义词作为输入语句的同义词，登记在同义词词典中。在这种时候，在步骤S204的处理中分割的具有相同文字表示的同义词被登记为不同的同义词。

之后，结束同义词提取处理。

按照上述方式，输入语句的同义词被提取，并被登记在同义词词典中。另外，具有相同文字表示并且属于不同类别的同义词(例如，含意彼此不同的同义词)被提取为不同的同义词。

(推荐处理)

下面参考图13，说明信息处理设备11执行的推荐处理。

注意，当推荐项目的命令被输入应用单元22的推荐单元42时，开始该处理。

在步骤S231，推荐单元42提取待推荐给用户的项目。注意，任何方法可用作提取推荐项目的方法。

在步骤S32，信息处理设备11搜索与推荐项目相关的关键词的关联语句。具体地，推荐单元42把用于提取推荐项目的关键词，作为输入语句提供给关联语句提取单元36。

关键词例如是作为提取推荐项目的条件，由用户明确提供的关键词。另一方面，关键词例如是在推荐项目的提取处理中，作为表示用户的偏好的关键词而提取的关键词。注意，关键词的数目可以为1个，或者2个或更多。另外，各个关键词可包括单个词，或者把多个词结合在一起的短语。

随后，当提供的关键词的数目为1时，执行上面参考图6说明的关联语句搜索处理。另一方面，当提供的关键词的数目为2个或者更多时，执行上面参考图8说明的关联语句搜索处理。从而，搜索提供的关键词的关联语句，搜索结果从输出单元37被提供给应用单元22的推荐单元42。

在步骤S233，推荐单元42呈现推荐项目以及关键词的关联语句。例如，推荐单元42从语句特征量DB 33，读取搜索的关键词的关联语句的语句特征量(即，作为关联语句的提取源的文档中的在关联语句附近的语句)。随后，推荐单元42根据读取的语句特征量，从搜索的关联语句中提取接近于用户的偏好的语句。另外，推荐单元42把包括推荐项目，关键词，提取的关联语句，和关联语句的语句特征量的信息传送给例如由用户操作的客户端(未图示)。

例如，如图14中所示，提取的关联语句及其语句特征量，连同推荐项目一起被呈现给由用户操作的客户端。注意，图14的左侧区域表示其中向喜欢演员Michael的用户A推荐电视节目的呈现屏幕的例子，图14的右侧区域表示其中向喜欢棒球运动员Michael的用户B推荐电视节目的提示屏幕的例子。

即，与演员Michael相关的电视节目被推荐给用户A。另外，作为用户A可能感兴趣的关键词和作为推荐理由，呈现演员Michael的关联语句“Mike”及其语句特征量。

另一方面，与棒球运动员Michael相关的电视节目被提供给用户B。另外，作为用户B可能感兴趣的关键词和作为推荐理由，呈现棒球运动员Michael的关联语句“Mike”及其语句特征量。

如上所述，由于允许信息处理设备11相互区分地处理具有相同文字表示的关联语句，因此能够不仅呈现具有相同文字表示的关联语句“Mike”，而且能够按照各个用户的偏好，呈现表示“Mike”的含意、上下文等的其它关键词。

注意，可以只呈现关键词的多个关联语句，而不呈现关键词的关联语句的语句特征量。即，在图14的例子中，可呈现关键词“Michael”的多个关联语句。在这种情况下，由于可以相互区分地处理具有相同文字表示的关键词，因此也能够按照用户的偏好，呈现具有相同文字表示的关键词的不同关联语句。

(特征量扩充处理)

下面参考图15的流程图，说明信息处理设备11执行的特征量扩充处理。

当向用户推荐项目时，例如，如图16中所示，计算表示用户的偏好的UP(用户偏好)和表示各个项目的特征的CP(内容简介)之间的相似性，并推荐相似性较高的项目之一。这里，图16的UP和CP的各个方形物指示特征量，各个特征量由关键词等构成。该处理目的在于利用关联语句，扩充构成CP或UP的特征量的关键词。

在步骤S261，信息处理设备11搜索关键词的关联语句。具体地，推荐单元42选择待扩充的UP或CP的特征量之一。另外，推荐单元42选择包含在UP或CP的所选特征量中的一个或多个关键词，并把选择的关键词作为输入语句，提供给关联语句提取单元36。

当提供的关键词的数目为1时，执行上面参考图6说明的关联语句搜索处理。另一方面，当提供的关键词的数目为2或更大时，执行上面参考图8说明的关联语句搜索处理。从而，搜索提供的关键词的关联语句，搜索结果从输出单元37被提供给应用单元22的推荐单元42。

在步骤S262，推荐单元42扩充特征量。例如，推荐单元42从语句特征量DB 33中，读取搜索的关键词的关联语句的语句特征量(即，作为关联语句的提取源的文档中的在关联语句附近的语句)。

之后，当扩充UP时，推荐单元42根据读取的语句特征量，从搜索的关联语句中，提取与用户的偏好相近的语句。另一方面，当扩充CP时，推荐单元42根据读取的语句特征量，从搜索的关联语句中，提取与项目的特征相近的语句。

随后，推荐单元42把提取的关联语句及其语句特征量追加到UP或CP中。

在图17的例子中，首先搜索包含在UP或CP的特征量中的关键词“Michael”的关联语句。之后，读取搜索的关联语句的语句特征量。然后，根据提取特征量，从搜索的关联语句中提取待追加到UP或CP中的关联语句。随后，提取的关联语句及其语句特征量被追加到UP或CP中，从而扩充UP或CP。之后，对待扩充的UP或CP的所有特征量，执行该处理，从而扩充UP或CP。

例如，在现有技术中，对于相同的关键词，只把相同的关联语句追加到UP或CP中。另一方面，信息处理设备11可相互区分具有相同文字表示的关联语句，从具有相同文字表示的关联语句中选择适当的关联语句，并把该关联语句及其语句特征量添加到UP或CP中。因而，信息处理设备11可更有效和广泛地扩充UP或CP。结果，信息处理设备11可提高推荐项目的准确性。

注意，也可只把多个关联语句追加到UP或CP中，而不追加关联语句的语句特征量。在这种情况下，由于可相互区分地处理具有相同文字表示的关键词，因此也能够按照UP或CP的特征，对具有相同文字表示的关键词，追加不同的关联语句。

2.变形例

下面，说明本技术的以上实施例的变形例。

上面的说明表示其中连同关联语句一起，从输出单元37输出输入语句，和各个关联语句的语句出现位置ID、归属度向量和分数，作为关联语句的搜索结果的例子。不过，当在后续处理中不使用输入语句、归属度向量和分数时，也可适当地省略它们。

另外，例如，代替归属度向量，可以输出指示与具有等于或大于规定阈值的分量的归属度分量对应的聚类的信息，即，指示关联语句很可能属于的聚类的信息。

另外，例如，可从输出单元37输出关联语句的语句特征量。

此外，搜索处理单元21和应用单元22不一定需要被设置在相同设备中，可被设置在不同设备中。

尽管上面说明了其中处理英语文档的情况的例子，不过，本技术也可适用于其中处理任何其它语言，比如日语文档的情况。

(计算机的结构例子)

上面一系列处理不仅可用硬件执行，而且可用软件执行。当用软件执行所述一系列处理时，构成所述软件的程序被安装在计算机中。这里，计算机的例子包括并入专用硬件中的计算机，和能够利用安装在其中的各种程序，执行各种功能的通用个人计算机。

图18是表示利用程序，执行上述一系列处理的计算机的硬件结构例子的方框图。

在计算机中，CPU(中央处理器)201、ROM(只读存储器)202和RAM(随机存取存储器)203通过总线204互连。

总线204还连接到输入/输出接口205。输入/输出接口205连接到输入单元206、输出单元207、存储单元208、通信单元209和驱动器210。

输入单元206包括键盘、鼠标、麦克风等。输出单元207包括显示器、扬声器等。存储单元208包括硬盘驱动器、非易失性存储器等。通信单元209包括网络接口等。驱动器210驱动诸如磁盘、光盘、磁光盘和半导体存储器之类的可拆卸介质211。

在这样构成的计算机中，当CPU 201通过输入/输出接口205和总线204，把保存在存储单元208中的程序载入RAM 203中，并执行所述程序时，执行上面的一系列处理。

例如，可记录在作为套装介质等的可拆卸介质211上地提供由计算机(CPU 201)执行的程序。另外，可通过有线或无线传输介质，比如局域网、因特网和数字卫星广播，提供程序。

在计算机中，当把可拆卸介质211装入驱动器210中时，通过输入/输出接口205，程序可被安装在存储单元208中。另外，可通过有线或无线传输介质，利用通信单元209接收程序，并安装在存储单元208中。此外，可预先把程序安装在ROM 202或存储单元208中。

注意，计算机执行的程序可以是按照说明书中记载的顺序，时序地执行的程序，或者可以是并行地或者在适当时(比如当程序被调用时)执行的程序。

另外，在本说明书中，***表示一组多个组件(比如设备或模块(单元))，所有的组件可不被设置在相同的机壳中。因而，分别容纳在不同的机壳中，并通过网络互连的多个设备，和具有容纳在一个机壳中的多个模块的设备被定义为***。

此外，本技术的实施例不限于上述实施例，可按各种方式修改，而不脱离本技术的要旨。

例如，本技术可以具有其中通过网络，在多个设备之间分担并且协同地处理某种功能的云计算的结构。

另外，在上面的流程图中说明的各个步骤可由一个设备执行，或者可由多个设备分担地执行。

此外，当一个步骤包括多个处理时，包含在该步骤中的多个处理可由一个设备执行，或者可由多个设备分担地执行。

此外，本技术可以采取例如以下结构。

(1)一种信息处理设备，包括：

语句提取单元，所述语句提取单元被配置成从多个文档中提取多个语句；

特征提取单元，所述特征提取单元被配置成在相互区分具有相同文字表示的语句的同时，提取所提取的各个语句的特征量；

聚类单元，所述聚类单元被配置成

在相互区分具有相同文字表示的语句的同时，把提取的各个语句聚类在一起，和

计算把各个语句相对于2个或更多的各个聚类的归属度作为分量的归属度向量；

关联语句提取单元，所述关联语句提取单元被配置成在相互区分具有相同文字表示的语句的同时，提取归属度向量与提供的输入语句的归属度向量类似的关联语句；和

输出单元，所述输出单元被配置成输出关联语句和用于识别关联语句的识别信息。

(2)按照(1)所述的信息处理设备，其中

输出单元被配置成还输出关联语句的归属度向量和/或表示关联语句与输入语句之间在归属度向量方面的相似性的分数。

(3)按照(2)所述的信息处理设备，还包括

同义词提取单元，所述同义词提取单元被配置成

把具有相同文字表示的关联语句的分数相加，和

提取其分数较高的关联语句，作为输入语句的同义词。

(4)按照(3)所述的信息处理设备，其中

同义词提取单元被配置成

按照分数，加权并相加具有相同文字表示的关联语句的归属度向量，和

当提取的同义词的归属度向量具有规定阈值以上的分量时，对于对应于规定阈值以上的分量的每个聚类，把同义词分成多个部分。

(5)按照(1)-(4)任意之一所述的信息处理设备，还包括

推荐单元，所述推荐单元被配置成向用户推荐项目，其中

关联语句提取单元被配置成提取与推荐项目相关的关键词的关联语句，和

推荐单元被配置成把关键词的关联语句连同推荐项目一起呈现给用户。

(6)按照(5)所述的信息处理设备，其中

推荐单元被配置成把关键词的关联语句的特征量，连同推荐项目一起呈现给用户。

(7)按照(1)-(6)任意之一所述的信息处理设备，还包括

被配置成向用户推荐项目的推荐单元，其中

关联语句提取单元被配置成提取包含在用户的特征量或者项目的特征量中的关键词的关联语句，

推荐单元被配置成把关键词的关联语句追加到用户的特征量或项目的特征量中。

(8)按照(7)所述的信息处理设备，其中

推荐单元被配置成还把关键词的关联语句的特征量追加到用户的特征量或项目的特征量中。

(9)按照(1)-(8)任意之一所述的信息处理设备，其中

当提供多个输入语句时，关联语句提取单元被配置成提取语句作为关联语句，

所述语句具有与通过把多个输入语句的归属度向量加在一起而获得的向量，或者通过对于每个分量，把多个输入语句的归属度向量相乘而获得的向量类似的归属度向量。

(10)按照(1)-(9)任意之一所述的信息处理设备，其中

识别信息表示从中提取关联语句的文档，以及文档中的位置。

(11)按照(1)-(10)任意之一所述的信息处理设备，其中

语句的特征量包括从从中提取语句的文档中的语句的附近提取的语句。

(12)一种信息处理方法，包括：

从多个文档中提取多个语句；

在相互区分具有相同文字表示的语句的同时，提取所提取的各个语句的特征量；

在相互区分具有相同文字表示的语句的同时，把提取的各个语句聚类在一起，并计算把各个语句相对于2个或更多的各个聚类的归属度作为分量的归属度向量；

在相互区分具有相同文字表示的语句的同时，提取归属度向量与提供的输入语句的归属度向量类似的关联语句；和

输出关联语句和用于识别关联语句的识别信息。

(13)一种使使计算机执行处理的程序，所述处理包括：

从多个文档中提取多个语句；

输出关联语句和用于识别关联语句的识别信息。

本领域的技术人员应明白，根据设计要求和其它因素，可以产生各种修改、组合、子组合和变更，只要它们在所附的权利要求或其等同物的范围之内。

Claims

1.一种信息处理设备，包括：

聚类单元，所述聚类单元被配置成

2.按照权利要求1所述的信息处理设备，其中

3.按照权利要求2所述的信息处理设备，还包括

同义词提取单元，所述同义词提取单元被配置成

把具有相同文字表示的关联语句的分数相加，和

提取其分数较高的关联语句，作为输入语句的同义词。

4.按照权利要求3所述的信息处理设备，其中

同义词提取单元被配置成

5.按照权利要求1所述的信息处理设备，还包括

推荐单元，所述推荐单元被配置成向用户推荐项目，其中

6.按照权利要求5所述的信息处理设备，其中

推荐单元被配置成把关键词的关联语句的特征量连同推荐项目一起呈现给用户。

7.按照权利要求1所述的信息处理设备，还包括

被配置成向用户推荐项目的推荐单元，其中

8.按照权利要求7所述的信息处理设备，其中

9.按照权利要求1所述的信息处理设备，其中

当提供多个输入语句时，关联语句提取单元被配置成提取语句作为关联语句，所述语句具有与通过把多个输入语句的归属度向量加在一起而获得的向量，或者通过对于每个分量把多个输入语句的归属度向量相乘而获得的向量类似的归属度向量。

10.按照权利要求1所述的信息处理设备，其中

识别信息表示从中提取关联语句的文档以及文档中的位置。

11.按照权利要求1所述的信息处理设备，其中

12.一种信息处理方法，包括：

从多个文档中提取多个语句；

输出关联语句和用于识别关联语句的识别信息。

13.一种使使计算机执行处理的程序，所述处理包括：

从多个文档中提取多个语句；

输出关联语句和用于识别关联语句的识别信息。