CN1327334C

CN1327334C - 文件分组装置

Info

Publication number: CN1327334C
Application number: CNB02151836XA
Authority: CN
Inventors: 武并佳则
Original assignee: Association For Advancement Of Information Processing; Sumitomo Electric Industries Ltd
Current assignee: Association For Advancement Of Information Processing; Sumitomo Electric Industries Ltd
Priority date: 2001-11-08
Filing date: 2002-11-08
Publication date: 2007-07-18
Anticipated expiration: 2022-11-08
Also published as: CN1432908A

Abstract

对多个文件进行分组并在短时间内简单进行决定各组代表文件的处理。文件分组装置(102)包含：存储文件组的文件组存储部(118)；从文件组提取关键词的关键词提取部(18)；计算全部文件间相似度的相似度信息检索部(20)；存储相似度的相似度图表(30)；根据相似度的分布偏差进行分组的分组部(22)；计算各个组的代表文件的代表文件计算部(112)；形成并存储关于各组的信息的分组信息形成部(114)以及分组信息存储部(120)。装置(102)还可以包含：将追加文件与各组的特征文件进行比较分类的文件分类部(116)。

Description

文件分组装置

技术领域

本发明涉及文件分组装置，特别是涉及根据存储的故障记录单来支持FAQ(Frequently Asked Questions)的制订，将相似的文件进行分组的文件分组装置。

背景技术

对于拥有众多客户的企业·事业者来说，如何满足客户的需求是重要的课题。通过快捷、准确地回答客户的质问和抱怨，可以提高客户满足度，并使其价格性能比最佳化，这些等作为直接左右事业成功与否的课题，已成为共识。

以往，在将从接到客户的质问·抱怨到回答的信息作为故障记录单存储的援助服务台***中，制成了由频繁提问的典型质问和与之相对应的回答组成的质问·回答集的FAQ。当接受客户的质问·抱怨时，首先参照该FAQ进行回答处理，提高了对应客户的效率。

然而，通常FAQ的形成是以存储的故障记录单为基础手工作业完成的。因此，当存储的故障记录单数量较大时，FAQ的形成需要非常多的劳动力。并且，成功地抓住隐藏在客户质问和抱怨中的客户需求的提示，对于企业·事业者是重要的，然而，当故障记录单数量大时，其分析是困难的。

发现这种数据分析及其意义的作业，不仅仅是根据故障记录单来形成FAQ的作业。另外，也通过对每天的经济活动、学术活动制订的文件组进行分析，经常进行发现其中包含的价值的作业。因此，必须进行将文件组分类(分组)为相似的组的作业，希望有一个不需要很多劳动力并能在尽可能短的时间完成该项作业的***。

(日本)特开平5-205058号公报公开了这样一种***。在该公报记载的***中，根据分类后的各组的数据要素数和数据的分散，确定在分类为最佳组数时取得最小值的分组状态评价量，按照该分组状态评价量为最小值的组数，进行数据的分类。

但是，特开平5-205058号公报披露的***存在难于决定分组状态评价量的问题。该***还存在不可能按指定的组数进行分类处理的问题。并且，在一旦对数据分类后再追加其他数据时，必须执行再次分组，存在需要进行长时间处理的问题。

发明内容

本发明用以解决上述课题，其目的是提供一种支持对相似文件进行分组处理的文件分组装置。

本发明的另一个目的是提供一种能够在短时间执行对相似文件进行分组处理的文件分组装置。

本发明的再一目的是提供一种能够在短时间将随时追加的文件分组到适当的组的文件分组装置。

本发明的文件分组装置包含：相似度计算部件，计算文件组的各文件之间相似度；相似度阈值计算部件，与所述相似度计算部件连接，根据所述各文件之间相似度的分布偏差，计算用于对所述文件组进行分组的相似度阈值；以及分组部件，与所述相似度阈值计算部件和所述相似度计算部件连接，根据所述相似度阈值和所述各文件之间的相似度，对所述文件组进行分组，所述相似度阈值计算部件包含：相似度阈值-组数关系计算部件，根据所述各文件之间的相似度，求任意的相似度阈值和使用该任意的相似度阈值通过所述分组部件进行分组时的组数之间的关系；以及计算部件，与所述相似度阈值-组数关系计算部件连接，根据在所述相似度阈值和所述组数关系中出现的所述文件之间相似度的分布偏差，计算相似度阈值。

利用由文件间的相似度分布偏差确定的相似度阈值，即可根据文件间的相似度对文件组进行分组。这样，可以容易地将文件组中的文件自动地分组到适合的组。

理想的相似度阈值计算部件包含：根据各文件间的相似度，求出任意的相似度阈值与使用该任意相似度阈值由分组部件进行分组时的组数的关系的相似度阈值-组数关系计算部件；与相似度阈值-组数关系计算部件连接，根据在相似度阈值和组数关系中出现的文件间的相似度偏差，计算相似度阈值的部件。

在相似度阈值和组数关系中，根据相似度分布的偏差，可以计算适合于分组的相似度阈值。这样，能够自动地计算最合适的相似度阈值。

相似度阈值计算部件最好还包含：与相似度阈值-组数关系计算部件连接，由分组部件按照操作者指定的组数计算对文件组进行分组的最佳相似度阈值。

不仅是根据自动进行分组的组数，还可以按照操作者指定的组数，计算分组为指定组数的新的相似度阈值，执行再分组。这样，即可将文件组分类为所希望的组数。

文件分组装置最好还包括存储由相似度计算部件计算的文件间相似度的相似度存储部件，相似度阈值计算部件和分组部件利用相似度存储部件存储的相似度，分别执行相似度的计算处理和分组处理。

一旦存储了计算的相似度分布，可以使反复进行相似度计算和分组时的处理高速化。

理想的文件分组装置还包含：计算由分组部件分组的各组的特征文件的特征文件计算部件；根据未分组的追加文件与各组的特征文件之间的相似度，对追加文件进行分组的追加分组部件。

最初的分组处理后，在进一步追加作为分组对象的文件时，可以根据各组的特征文件和追加文件的相似度对追加的文件进行分组。由于不必从最初重复进行分组处理，则能够高速执行追加的分组处理。

追加分组部件最好还包含：计算追加的文件与各组的特征文件之间的相似度最大值的部件；判定最大值是否满足规定条件的部件；当判定最大值满足规定条件时，将追加的文件分类到设定了最大值的组的部件。

在将追加的文件分类到原有组的情况下，当与原有的组之间的相似度不满足任何一个规定条件时，则将追加的文件分类到任一个组都是不恰当的。因此，仅在满足规定条件的情况下，将追加的文件分类到设定了最大相似度的组，可以避免不恰当的分类。

理想的追加分组部件还包含：当判定最大值不满足规定条件时，将追加的文件分类到特定的未分类组的部件。

通过将分类到任一个组都不恰当的文件分类到特定的未分类组，可以将与原有的任一个组都不相似的文件集中起来。

追加分组部件最好还包含：对被分类到未分类组的追加文件数满足规定条件进行响应，对分类到未分类组的追加文件执行分组处理的部件。

当分类到未分类组的追加文件数满足规定条件时，对这些文件组执行分组处理。由于这些文件与原有的任一个组都不相似，则追加该分组处理的结果将是追加新的组。不必反复进行对全部文件的分组处理，仅对分类到未分类组的文件执行分组处理，其结果是能在短时间内对包含追加文件的全部文件进行恰当的分组。

本发明的文件分组装置包含：求出文件组的各文件之间相似度的相似度计算部件；接收操作者的组数输入的组数接收部件；与相似度计算部件和组数接收部件连接，根据预定的相似度阈值和相似度的分布偏差，对文件组进行分组的分组部件；与组数接收部件和分组部件连接，判断分组结果的组数是否与组数接收部件接收的来自操作者的组数一致的组数一致判断部件；与组数接收部件、组数一致判断部件和分组部件连接，根据组数一致判断部件的输出，变更预定的相似度阈值并供给分组部件的相似度阈值变更部件。

与操作者指定的组数相适应，自动地确定恰当的相似度阈值，并自动地执行分组。不必使用各种相似度阈值反复进行分组，即可按照所希望的组数执行恰当的分组处理。

文件分组装置最好还包含：从由分组部件分组的对象中，将包含的文件在由规定方法确定的数量以下的组除外的部件。

将包含的文件较少的组除外再进行分组，可以提高分组的精度。

文件分组装置最好还包含存储由相似度计算部件计算的文件间相似度的相似度存储部件，分组部件在相似度存储部件存储最新相似度的情况下，使用在相似度存储部件中存储的相似度执行分组处理。

一旦存储了计算的相似度，则在以后分组时不必再进行相似度的计算，可使重复进行分组时的处理高速化。

附图的简单说明

图1是表示本发明第1实施例的FAQ形成支持***构成的方框图。

图2是表示FAQ形成支持主画面的例图。

图3是按多个关键词指定方式的FAQ形成处理的流程图。

图4是表示通过条件检索的压缩画面的例图。

图5是表示关键词提取画面的例图。

图6是通过指定相似度阈值的FAQ形成处理的流程图。

图7是表示制表面板“相似度阈值指定”的例图。

图8是按相似度阈值的分组处理流程图。

图9是通过指定组数的FAQ形成处理的流程图。

图10是表示制表面板“组数指定”的例图。

图11是通过组数指定的分组处理流程图。

图12是通过组数指定的分组处理流程图。

图13是自动形成FAQ的处理流程图。

图14是自动分组处理的流程图。

图15是表示相似度阈值-组数关联图表的例图。

图16是本发明第2实施例的文件分组***方框图。

图17是表示第2实施例***的分组作业一般顺序的流程图。

图18是第2实施例***的分组作业中，初始处理的流程图。

图19是第2实施例***的未分组文件的分类处理流程图。

发明的实施例

[第1实施例]

参照图1，本发明第1实施例的FAQ制成支持***2包含：服务器计算机40；在与服务器计算机40连接的显示器(未图示)等的画面上表示的GUI(Graphical User Interface)12。GUI 12图示了一个程序组，用户通过使用计算机中设置的显示器、键盘、指点器、以及这些设备驱动器，可对计算机进行任何指令或数据输入，或者计算机对利用者进行信息提示。

服务器计算机40包含：存储故障记录单的故障记录单存储部28；与故障记录单存储部28连接，检索满足操作者指定的规定条件的故障记录单的条件检索部16；与故障记录单存储部28连接，从故障记录单存储部28提取关键词的关键词提取部18；与故障记录单存储部28连接，计算有关所有组合的故障记录单之间相似度的相似度信息检索部(相似度计算部)20；与相似度信息检索部20连接，以图表形式存储计算的相似度的相似度图表30；与相似度图表30连接，根据故障记录单之间的相似度对故障记录单进行分组的分组部22。分组部22，在相似度图表30存储最新相似度时，不再进行相似度的计算，根据相似度图表30存储的相似度执行分组处理。

服务器计算机40还包含：与分组部22连接，存储表示进行分组时使用的相似度阈值和组数关系的“相似度阈值-组数关系数据”的相似度阈值-组数关系数据存储部32；与分组部22和相似度阈值-组数关系数据存储部32连接，对已分组的多个组的每个组，计算代表该组的故障记录单的代表故障记录单计算部24；与条件检索部16连接，存储已条件检索的故障记录单的FAQ存储部34；与FAQ存储部34连接，根据FAQ存储部34存储的故障记录单制成FAQ，并存储在FAQ存储部34的FAQ制成部26；与GUI 12、条件检索部16、关键词提取部18、相似度信息检索部20、分组部22、代表故障记录单计算部24和FAQ制成部26连接，控制服务器计算机40各部分，并起与GUI 12之间的接口作用的处理控制部14。

所谓“相似度阈值”，是在判定是否将某故障记录单分类到某组时的相似度阈值。具体地说，求出某个故障记录单和某个组内的全部故障记录单的相似度平均，若该相似度平均在相似度阈值以上，则将该故障记录单分类在该组。若相似度平均不足相似度阈值，则不将该故障记录单分类在该组。本实施例中，某个故障记录单和各组的故障记录单的相似度平均不足任何一个相似度阈值，则制成包含该故障记录单的新的组。

本实施例中，可按(1)多个关键词指定方式、(2)参数指定方式以及(3)自动分组方式等3种方式制成FAQ。操作者通过GUI 12来进行3种方式的选择。以下，详细说明各方式的处理。

[(1)多个关键词指定方式]

在操作者使用的GUI 12中表示图2所示的FAQ制成支持主画面。

以下，主要参照图2和图3，说明按多个关键词指定方式的FAQ的形成。

首先，从故障记录单存储部28存储的故障记录单中检索作为FAQ形成处理对象的故障记录单(S2)。称该处理为条件检索或关键词检索。为了进行条件检索，将故障记录单的对象名、故障记录单制成的时日等予以输入。具体地说，按下图2的按钮60“进行条件检索压缩...”时，显示图4的画面。在图4的画面上，通过输入故障记录单的对象名、故障记录单制成的时日等，进行压缩。将压缩结果的故障记录单一览显示在显示栏68“分组对象故障记录单”上。

操作者为了从已进行了条件检索的故障记录单中进一步进行压缩，按下按钮64“关键词提取”。这样，即显示图5所示的关键词提取画面，按词典顺序显示从故障记录单中提取的关键词。操作者从其中选择所希望的多个关键词，按下“OK”按钮。选择关键词以后，按下按钮66“压缩”，在显示栏68显示的故障记录单中，再压缩出具有与关键词一致的文章的故障记录单，显示在显示栏68(S4)。不按下按钮64，通过操作者直接将关键词输入到输入栏62“关键词指定”，再按下按钮66，当然也可以进行压缩。

操作者选择无线传送按钮72“不进行分组”，按下按钮52“FAQ侯选”。这时，在显示栏68显示的故障记录单作为1个组，显示在FAQ侯选栏80。从显示的1个组的FAQ侯选中选择组时，该组包含的故障记录单显示在组内故障记录单显示栏82。操作者从其中指定代表组的故障记录单(以下称“代表故障记录单”)(S6)。

S4处理的关键词提取，可以利用词素分析等已有技术。所谓词素分析，是根据词典和词形变化规则等的词汇知识以及有关与单词为相同类别的图形的知识，将文章分解为词素，决定其词类的处理。通过词素分析，识别输入文章的单词列，即可压缩各个单词的词类的侯选。

按照以上处理，由操作者指定多个关键词，提取与该关键词一致的故障记录单，代表故障记录单作为FAQ。

[(2)参数指定方式]

参数指定方式是：由操作者指定各种参数，进行故障记录单的分组，寻求每个组的代表故障记录单，作为FAQ。

参照图6，说明由操作者指定相似度阈值，执行故障记录单的分组，求出FAQ的方法。

首先，执行条件检索处理(S2)。条件检索处理与参照图3的说明是一样的。因此，这里不再重复该说明。

接着，操作者输入用于分组的相似度阈值(S12)。首先，按下图2的制表78时，显示图7所示的制表面板。操作者将根据经验确定的适当的相似度阈值输入到该相似度阈值栏。相似度具有0～100的值，这里可将指定的阈值设为1～99的值。

此后，操作者按压无线传送按钮70“分组”，当按下按钮52时，执行根据输入的相似度阈值的故障记录单的分组处理(S14)。这里，作为对象的故障记录单是由S2的条件检索提取的故障记录单。后面将详述S14处理。

分类在组的故障记录单，显示在FAQ侯选栏80。当从分类在被显示的多个组的故障记录单中选择组时，将该组包含的故障记录单被显示在组内的故障记录单显示栏82。操作者从其中选择该组的代表故障记录单。这样一来，将该故障记录单作为FAQ进行登记(S16)。

以下，参照图8，详细说明S14处理。

将1代入表示故障记录单号码的变量n(S42)，将1代入表示组号码的变量K(S44)。形成第n个故障记录单所属的组K(S46)。即，在此形成第1个故障记录单所属的组1。

使变量n增加1(S48)。将1设定到表示作为与第n个故障记录单进行比较的比较对象的组且的变量i中1(S50)。即，当前，作为第n个故障记录单的比较对象，设定组1。

将0代入在第n个故障记录单和属于组i的各故障记录单之间的相似度平均值内的表示最大一个的变量max_相似度(S52)，将i代入表示此时的组的变量max_组(S54)。

求出第n个故障记录单与属于组i的各故障记录单之间的相似度平均值(S56)。对相似度平均值和变量max_相似度的值进行比较(S58)。若相似度平均值大于变量max_相似度值(S58“是”)，则将相似度平均值代入变量max_相似度(S60)，将变量i的值代入变量max_组(S62)。

S62之后，或者在相似度平均值是max_相似度以下的情况下(S58“否”)，使变量i的值增加1(S64)。对变量i的值和变量K的值进行比较(S66)。即，对于第n个故障记录单，判断与全部组之间是否执行从S56到S64的一系列处理(S66)。在有未处理组的情况下(i＜＝K)(S66“否”)，返回S56。

当全部组的处理结束时(i＞K)(S66“是”)，比较变量max_相似度值和预先设定的阈值simThre-shold(S68)。

当变量max_相似度值是阈值simThreshold以上时(S68“是”)，将第n个故障记录单分类在max_组的组(S70)。

当变量max_相似度值未达到阈值simThreshold时(S68“否”)，将表示组总数的变量K增加1(S72)，制成第n个故障记录单所属的组K，将该故障记录单分类在组K(S74)。S70或S74的处理之后，将表示当前故障记录单的变量n的值增加1(S76)。

对当前故障记录单的值n和故障记录单的总数N进行比较(S78)。当注意的故障记录单的值n是记录单总数N(n＜N)以下时(S78“否”)，由于存在未分组的未处理故障记录单n，则返回S50。当注意的故障记录单n的值大于记录单的总数N(n＞N)时(S78“是”)，由于全部故障记录单n都分组到其中一个组，则结束处理。

如上所述，通过操作者指定相似度阈值，执行故障记录单的分组，即可求出FAQ。

以下，参照图9，说明通过操作者指定组数代替相似度阈值，执行故障记录单的分组，求得FAQ的方法。

首先，执行条件检索处理(S2)。条件检索处理与参照图3说明的情况一样。因此，不再重复该说明。

接着，操作者在对已条件检索的故障记录单进行分组时，进行最后的组数指定(S22)。首先，按下图2的制表76时，显示图10所示的制表面板。操作者将希望的组数输入到该组数栏。这里，可指定的组数是从2到进行了条件检索的故障记录单的最大数。

此后，按无线传送按钮70“分组”，当按下按钮52时，按指定组数执行故障记录单的分组处理(S24)。这里，作为对象的故障记录单是S2条件检索提取的故障记录单。以后将详述S24处理。

将分类到组的故障记录单显示在FAQ侯选栏80，进行S16处理。由此，将代表故障记录单作为FAQ进行登记。S16处理与参照图6的说明一样。因此，不再重复其详细说明。

以下，参照图11详细说明S24处理。

首先，作为分组时使用的阈值simThreshold，对用故障记录单总数除指定的组数再乘以常数K1的值进行设定(S82)。常数k1，采用例如2.0值。

根据阈值simThreshold，执行参照图8说明的S14处理(S14)。此后，对S14的处理执行后的组数和指定的组数进行比较(S86)。当处理执行后的组数和指定的组数相等时(S86“是”)，结束处理。

当处理执行后的组数大于指定的组数时(S88“是”)，从阈值simThreshold减去常数K2(S90)。此后，对在上次的S88的判定时，处理后的组数是否大于指定的组数也进行判断(S92)。当上次处理后的组数大于指定的组数，或者本次是首次执行S88的处理时(S92“是”)，则返回S14，根据新的阈值simThreshold再次执行分组处理。

当处理执行后的组数是指定的组数以下时(S88“否”)，在阈值simThreshold中加上常数K2(S94)。此后，对在上次的S88的判定时，处理后的组数是否在指定的组数以下(S96)也进行判断。当上次处理后的组数是在指定的组数以下，或者本次是首次执行S88的处理时(S96“是”)，则返回S14，根据新的阈值simThreshold再次执行分组处理。

当上次处理后的组数与指定的组数的比较结果和本次处理的组数与指定的组数的比较结果不同时(S92“否”，S96“否”)，则处理后的组数收敛在指定的组数中。这样，将用2.0除常数K2的值作为新的常数K2(S98)，常数K2与规定常数K3(例如K3是0.01)进行比较(S100)。若常数K2是常数K3以上(S100“否”)，则返回S14，根据新的阈值simThreshold再次进行分组。

在常数K2未达到常数K3的阶段(S100“是”)，中断处理，将以不超过指定组数的最大组数进行的分组作为结果予以输出。

如上所述，通过操作者指定组数，执行故障记录单的分组，即可求得FAQ。

作为一种通过指定组数，执行故障记录单分组，以求得FAQ的方法，也可以采用二分搜索(二分检索)法。以下，说明采用二分搜索法的分组处理。

参照图12，将0.0代入搜索区间左端的阈值leftSimThres，1.0代入右端的阈值righSimThres(S142)。

根据curSimThres＝(leftSimThres+righSimThres)/2.0，求出相似度阈值curSimThres(S144)。根据相似度阈值curSimThres，执行与上述同样的分组处理(S14)。当分组处理的结果是组数与用户指定的组数相等时(S146“是”)，结束处理。

当分组处理的结果是组数与指定的组数不同时(S146“否”)，检查搜索区间的幅度(righSimThres-leftSimThres)是否未达到规定的阈值simThresDiff，当未达到阈值simThresDiff时(S148“是”)，结束处理。

在阈值simThresDiff以上的情况下，检查组数是否大于指定的组数(S150)，当大于指定的组数时(S150“是”)，为了变更搜索范围，将阈值curSimThres代入表示搜索范围右端的阈值rightsimThres(S152)。

当小于指定的组数时(S150“否”)，将阈值curSimThres代入表示搜索范围左端的阈值leftSimThres(S154)。S152或S154的处理后，返回S144。

采用这种二分搜索法，可以高速执行分组处理。

[(3)自动分组方式]

自动分组方式中，操作者不指定各种参数，自动地确定适当的相似度阈值进行故障记录单的分组，求得各个组的代表故障记录单，作为FAQ。

参照图13，执行条件检索处理(S2)。条件检索处理与参照图3的说明是一样的。因此，这里不再重复该说明。

然后，进行自动分组的操作(S32)。首先，按下制表74，再按下无线传送按钮70“分组”。此后，当按下按钮52时，即自动执行故障记录单的分组处理(S32)。这里，作为分组对象的故障记录单是经S2的条件检索处理提取的故障记录单。后面将详述S32处理。

分类在组的故障记录单，显示在FAQ侯选栏80，进行S16的处理。将代表故障记录单作为FAQ予以登记。S16处理与参照图6的说明是一样的。因此，这里不再重复该说明。

以下，参照图14，详细说明S32处理。

相似度图表30中，预先计算对所有故障记录单组合的相似度并加以存储。分组部22，参照相似度图表30，制成表示如图15所示曲线图表示的相似度阈值和与其对应的组数关系的相似度阈值-组数关联图表(S112)。该曲线图表示使相似度阈值变化时，组数如何变化。可以一边改变相似度阈值simThreshold一边反复进行图8所示处理，来制成该图表。

以下处理是自动搜索相对于相似度阈值变化的组数变化最少部分、即对图15所示曲线图的最平坦处进行自动搜索处理。通过寻求该部位可对故障记录单恰当地分组。以下简单说明其理由。

作为典型的例子，假定故障记录单组被分类到M个组，并且各组包含N个故障记录单。这时，一个组内的故障记录单之间相似度simIn值比较大(例如simIn＝0.8)。另一方面，由于属于各自组的故障记录单含有本质上相互不同的内容，因此这些故障记录单之间相似度simEx值与simIn比较应当是相当小的值(例如simEx＝0.2)。因此，相似度集中在比较大的值和比较小的值2个部位，形成不平衡分布。

作为相似度阈值simThreshold，若采用了满足simIn＜sirmThreshold＜simEx的值，则认为可恰当地进行分组，作为结果得到的组数为M个。这时，由于simIn和simEx的值之间存在很大差别，则稍微前后改变一些simThreshold值，作为结果得到的组数几乎不变化。因此，若采用图15所示曲线的斜度最缓慢处附近的相似度阈值进行分组，则恰当地分组为M个组的可能性较高。即，根据相似度分布，可以决定将相互相似的故障记录单和相互不相似的故障记录单分类到各自组的相似度阈值。

上例是典型的例子，但当文件间相似度的差别更大时，则在相似度阈值和用它得到的组数之间，也存在与上述大致同样的关系。因此，在图15所示曲线上，找到最平坦部位，可以采用此时的相似度为相似度阈值。

因此，本实施例的***中，可如下所述，在图15所示曲线上找到最平坦部位。即，一边移动组范围一边进行求得对应于一定范围的组数(以下称该范围为“组范围”)的相似度阈值的上限和下限的处理。在图15所示曲线的纵轴的全范围移动组范围时，在对应的相似度阈值的上限和下限之差最小的组范围，判定为曲线斜度最缓慢，采用对应于该组范围中心的组数的相似度阈值。称组范围中的最大组数为“组最大值”，最小组数为“组最小值”。

作为表示在以下处理中使用的组范围大小的值，确定为用常数K5(例如10)除最大组数的值(S114)。这里，所谓“最大组数”不同于“组最大值”，它是作为分组处理结果形成的组数可以容许的最大数。最大组数通常是2以上，而且是作为分组对象的文件数以下。该值在自动分组处理起动时由利用者指定。在该输入之前，可以将根据规定计算式计算的数作为错误的最大组数首先予以表示。例如，可以考虑提取对象文件数的对数，将超过该值的最小整数作为缺省的最大组数等的方法。也可以简单地将用常数除对象文件数的数作为缺省的最大组数。

作为表示在以下处理中使用的“组增量”的值，确定为用常数K6(例如20)除上述最大组数的值(S116)。本实施例中，沿图15的纵轴从下到上移动组范围，所谓组增量即移动组范围时的增量值。

下面，代入1作为组最小值(S118)。一边仅按组增量移动组最小值一边重复进行以下处理。

该重复处理中，首先，求出在组最小值中加上表示组范围大小的值的值(S120)。据此，求出作为现在研究对象的组范围的组最大值。然后，再求出对应于由此时的组最小值和组最大值包围的区域的相似度阈值的最小值和最大值。

具体地说，首先对组最大值和最大组数进行比较(S122)。这里的判定是为了了解是否能在整个范围内结束移动组范围。当组最大值大于最大组数时(S122“否”)，组范围到达图15纵轴的最上部，由于超过最上部，结束重复处理，控制进入S128。当组最大值是最大组数以下时(S122“是”)，求出在该组最小值和组最大值之间的区域包含的相似度阈值的范围(S124)。然后，使组最小值按组增量增加(S126)，返回到S120。这样，一边移动组范围，一边求出对应于各种情况的相似度阈值范围。

当组最大值大于最大组数时(S122“否”)，控制进入S128。在S128，在S124求出的相似度阈值范围的值中，求出得到最大值时(即图15所示曲线最平坦时)的组最小值和组最大值(S128)，将求出的组最小值和组最大值的平均作为求得的组数(S130)。即，对应于一定组范围的相似度阈值范围最宽阔的部分，是图15所示组数缓慢变化的部分，所以这时的组数确定为恰当的组数。

根据相似度阈值-组数关联图表，求出与在S130求得的组数对应的相似度阈值，将该值作为阈值simThreshold(S132)。然后，再根据阈值simThreshold，执行参照图8说明的S14处理(S14)，结束处理。

如上所述，即使操作者不指定参数，也可以执行故障记录单的分组，求出FAQ。根据全部故障记录单之间相似度的分布，自动确定这时的相似度阈值，作为能最好地分离组的值。

上述第1实施例的自动分组处理中，为了求出相似度阈值，在相似度阈值-组数关系曲线的纵轴上，进行移动组范围的重复处理，确定相似度阈值。然而，确定相似度阈值的处理并不限定于这种方法。例如，用多项式(例如4次多项式)近似相似度阈值-组数关系曲线，进行微分，也可以决定曲线斜度最缓慢的相似度阈值。

[第2实施例]

上述第1实施例中，对于分组对象的全部故障记录单，求出与其他全部故障记录单的相似度。为此，分组的计算量按故障记录单数的二次方增加。计算所必须的存储区域的大小，也按故障记录单数的二次方增加。因此，当作为对象的故障记录单数增大时，则存在硬件负担按二次方增加，计算时间也按二次方增大的问题。为了用手持硬件在实时处理时间内结束处理，必须在分组处理之前，使作为处理对象的故障记录单数减少到一定程度。

为此，通过第1实施例所述的条件检索或关键词检索，必须预先压缩处理对象的故障记录单。然而，由于预先压缩了作为处理对象的故障记录单，则不能进行适当的分组，有在最后得到的FAQ内容中产生不完备的危险。

这种问题不限于故障记录单，即使在企业内日常生产的文件一般分组处理中也会产生。另外，分组处理不是一次即可完成，在进行一次分组后，追加文件时，必须再次进行分组处理。因此，由于原封不动地沿袭上述第1实施例的方法，每当执行分组处理时需要很多时间，而且该时间按二次方增加，所以文件数量多时是不现实的。

第2实施例中，即使作为处理对象的文件数较多，也不要求过大的硬件，可用现实的处理时间进行分组处理。在一旦执行文件分组处理后，追加应进行分组的文件时，也不要求过大的处理时间即可执行恰当的分组处理。

以下，说明本发明第2实施例的文件分组***，在以下说明中使用的附图，对于与第1实施例的***具有同样功能的部件赋予相同参照号码和名称，不再重复其详细说明。并且，在以下说明中，由于并未将假设分组对象限定于故障记录单，所以一般地称为“文件”。

参照图16，第2实施例的文件分组***100包含：用计算机或计算机组执行的文件分组***的服务器102；在与服务器102连接的显示器(未图示)等画面上显示的GUI 12。

文件分组***服务器102包含：存储文件的文件组存储部118；从文件组存储部118存储的文件组中，检索并提取具有操作者指定的规定属性的文件的属性检索部110；与文件组存储部118连接，从文件组存储部118存储的文件组提取关键词的关键词提取部18；与文件组存储部118连接，计算有关由属性检索部110提取的文件组中文件的所有组合(文件对)的相似度的相似度信息检索部(相似度计算部)20；与相似度信息检索部20连接，以图表的形式存储计算的相似度的相似度图表30；与相似度图表30连接，根据文件间相似度对文件进行分组的分组部22。

文件分组***服务器102还包含：相似度阈值-组数关系数据存储部32；与分组部22和相似度阈值-组数关系数据存储部32连接，对已分组的各个组，计算代表该组的文件的代表文件计算部112；与属性检索部110连接，存储由属性检索部110提取的文件和后述的分组信息的分组信息存储部120；从分组信息存储部120存储的文件制成分组信息，并存储在分组信息存储部120的分组信息制成部114；与文件组存储部118和分组信息存储部120连接，将作为最初分组处理对象的文件以外的文件，分类在由最初分组处理得到的组，并在必要时制成新的组的文件分类部116；与GUI 12、属性检索部110、关键词提取部18、相似度信息检索部20、分组部22、代表文件计算部112、分组信息制成部114和文件分类部116连接，控制文件分组***服务器102各部分，并具有起到与GUI 12之间的接口作用的处理控制部104。

文件组存储部118相当于第1实施例的故障记录单存储部28。属性检索部110相当于第1实施例的条件检索部16。代表文件计算部112相当于第1实施例的代表故障记录单计算部24。分组信息制成部114相当于第1实施例的FAQ制成部26。分组信息存储部120相当于第1实施例的FAQ存储部34。

分组信息制成部114，从包含在分组处理结果的各组中的文件组提取关键词组，在各关键词赋予重要度作为各组的特征文件。关键词重要度，可以根据用途采用关键词提取时的得分、各关键词包含在组内文件的频度、对各关键词预先赋予的重要度等各种尺度。

本实施例中，设定各组的特征文件＝“代表文件(由代表文件计算部112计算的文件)+关键词组”。在本实施例的装置中，用户使用GUI 12可以对自动制成并存储在分组信息存储部120的各组的关键词组进行追加、削除、变更的编辑处理。例如可利用一般的编辑程序容易地实现编辑处理。并且，也可以准备用于该目的的特定应用程序，从业者容易编制这样的应用程序。

第1实施例中没有而该第2实施例的装置包含的是文件分类部116。文件分类部116，一旦在分组处理后，就具有将未作为分组处理对象的文件(包含在最初的文件组中但未作为属性检索部110的检索对象的文件，以及在最初未包含在文件组中而以后追加到文件组中的文件)按照后述的方法分类到已有组的功能。文件分类部116还具有以下功能：将不可能分类到已有组的文件分类到“未分类”组，同时在规定条件满足时根据分类到“未分类”的文件组制成新的组并存储在分组信息存储部120。

处理控制部104具有与图1的处理控制部14同样的功能，但追加了控制后述的初始处理和由文件分类部116进行的文件分类处理的功能。

参照图17，控制本第2实施例的文件分组***服务器102动作的程序构造，概略说明如下。作为前提，设定文件组存储部118已存储了相当数量的分组对象的文件。首先，在步骤140，作为初始处理，对文件组存储部118存储的文件进行分组处理，制成分组信息并存储在分组信息存储部120。该初始处理140进行的处理将参照图18以后说明，其内容本质上与在第1实施例***进行的FAQ制成处理相同。

这样，对最初的文件组，一次制成分组信息。然后，重新考虑将文件追加到文件组存储部118的情况。伴随着企业活动，每天都追加这种文件是经常的情况。当然，追加的文件均未分组。称这种未分组的文件为“未分组文件”。

在步骤142，利用文件分类部116对追加的未分组文件进行分类处理。该处理将在后面详述。概略地说，文件分类部116，利用相似信息检索部(相似度计算部)20，对未分组文件和各组的特征文件进行比较计算其相似度。然后，将该未分组文件分类在计算的相似度最高的组。这里，设分类时的相似度为某一定的阈值以上，最高相似度小于该阈值时，将未分组文件分类在“未分类”组。作为阈值，可考虑采用初始处理中形成组时指定的阈值。

在步骤142以后，判断作为步骤142处理结果的分类在未分类组的文件数是否超过规定数，例如1000个(步骤144)。未超过1000个时，控制返回到步骤142，超过1000个时，控制前进到步骤146。

在步骤146，对于分类到未分类组的文件(本实施例是1000个文件)，执行与第1实施例和初始处理步骤140同样的分组处理。其结果是形成新的组，该新组追加到最初的组组。该步骤146的结果是更新最初形成的组组，对于以后追加的文件，追加仅由不属于最初制成的任何一个组的文件构成的新的组。以后，利用更新的组组，重复步骤142～146的处理。

参照图18，说明在图17的初始处理步骤140执行的处理。首先，考虑在文件组存储部118存储的文件数量，由利用者判定是否必要从文件组中提取用于形成最初组组的必要文件(160)。例如，当文件组包含的文件过多时，为了在某个时间内完成分组处理，必须压缩文件数。

在必须提取的情况下，在步骤162利用随机数进行一定数量文件的提取。

接着，在步骤164，将在步骤162提取的文件组作为对象，或者在步骤160判断为不必提取的情况下以全部文件作为对象，执行初始组的形成处理(分组处理)(164)。该处理与在第1实施例已说明的故障记录单的自动分组处理实质上一样，但细节不同，以后参照图19予以说明。本处理，使用图16所示相似信息检索部(相似度计算部)20以及分组部22。

然后，在步骤168，对于由初始组形成处理制成的各组，确定作为特征文件一部分的代表文件。该处理与在第1实施例说明中图13的S16进行的处理实质上一样。

在步骤168中，由关键词提取部18在每一组自动提取作为特征文件另一部分的关键词，替代各个重要度赋予各组。图中未表示，但该处理后利用者可以追加、削除或变更该关键词，并据此调整各组的特征。

以上，完成了初始组的形成处理。如果还有未分组的文件，则利用文件分类部116进行分类处理(170)。如果没有未分组的文件，则结束初始处理。当在步骤160判断不必要提取时，对全部文件执行分组处理，所以在步骤170没有剩余作为分类处理对象的未分组文件，因而不执行步骤170的处理。

以下，详细说明实现在图18的步骤170执行的分类处理的程序的控制构造。该处理如图19所示，与按照第1实施例图8所示相似度阈值的分组处理是同样的处理。但是，图19所示的分类处理与图8处理的不同是：当某个文件与整个组的特征文件进行比较得到的相似度最大值不足规定阈值时，将该文件分类在未分类组，形成包含该文件的新组(S74)。

以下说明图19。

参照图19，首先，将0代入表示分组对象的文件号码的变量n(190)。接着，在处理过程中将0代入表示相似度最大值的变量max_相似度。再使变量n加1(194)，判定变量n是否大于处理对象的文件(即，在图8的步骤162进行提取时提取出的文件，未进行提取时的处理对象的全部文件)数(196)。变量n大于处理对象的文件数时处理结束。变量n在文件数以下时控制进入步骤198。

在步骤198，将0代入表示组号码的变量i。接着，在步骤200使变量i加1。判断该结果即变量i的值是否超过组数(202)。对于变量i的值超过组数的情况，将在后面说明。当变量i的值是组数以下时，控制进入步骤204。

在步骤204，利用相似度信息检索部(相似度计算部)20计算第n个文件与组i(第i个组)的特征文件之间的相似度。如果得到的相似度大于变量max_相似度，则将在步骤204计算的相似度值代入变量max_相似度，控制返回步骤200。若计算的相似度是变量max_相似度以下，则不进行任何操作，控制返回步骤200。

在步骤202的处理中，当判定变量i的值大于组数时，控制进入步骤220。在步骤220，判定变量max_相似度的值是否在预先指定的相似度阈值以上。若变量max_相似度值在预先指定的相似度阈值以上，则在步骤222将第n个文件分类在得到了与max_相似度一致的相似度的组，控制返回步骤192。若变量max_相似度值不足预先指定的相似度阈值，则判定第n个文件不属于已有的任一个组，分类在“未分类”组(步骤224)，控制返回步骤192。

以上是在图18的步骤170执行的处理的详细控制构造。

图17的步骤142进行的处理对应于图19所示步骤198～224的处理，从业者是可以理解的。

第2实施例中，对未分组文件进行分组时，可以将包含的文件少的组除外进行分组。这样，除去干扰，可以提高分组的精度。作为判定是否从分组对象中除去组的基准，可以根据组包含的文件的绝对数是否在规定数以下，或者组包含的文件数相对于全部文件数是否在规定比例以下等使用情况适当决定。此外，也可以指定用于文件数或比例等除外的参数。

上述第2实施例的文件分组***100动作如下。与第1实施例同样动作的部分不再重复说明，仅说明与图17～图19所示处理相关的部分。

参照图17，最初进行初始处理170。

初始处理中，参照图18，利用者首先根据处理对象的文件数，判断是否必要将作为初始处理对象的文件压缩到一定数量(160)。若文件数本来就不多，则不进行文件压缩，若文件数较多，则进行步骤162的提取处理，对文件数量进行压缩。

接着，对已压缩的文件进行初始组的制作处理(164)。该处理与第1实施例已说明的情况相同，不再重复其详细说明。这里，从对象文件组自动形成组，并且各文件被分组到各组。

然后，在步骤166、168进行各组代表文件的决定以及关键词的提取、替换和赋予。此后，根据情况利用者进行关键词的编辑。

在初始处理开始时执行文件压缩的情况下，对于在步骤170剩余的文件(未分组文件)，进行分类到初始组或“未分类”组的处理。

参照图19，在步骤170处理中，首先将0代入表示文件号码的变量n和变量max_相似度(1 90，192)。接着，使变量n加1(194)。判定该变量n是否大于文件数(196)，第1次判断时该结果一般为否，该结果处理进入步骤198。

在步骤198将0代入变量i后，使变量i加1(200)。然后，判定变量i的值(＝1)是否超过由初始组形成处理(图18的步骤164)形成的组数(202)。一般组数是多数，控制进入步骤204。在步骤204，计算第1个文件与第1个组的特征文件之间的相似度。

在步骤206，判定在步骤204计算的相似度是否大于变量max_相似度。现在，变量max_相似度的值是在步骤192设定的0。通常，由于第1个文件与第1个组的特征文件之间的相似度比0大比1小，所以这里的判定结果为“是”，在步骤208将在步骤204计算的相似度值代入变量max_相似度，控制返回到步骤200。这时，在表示得到了最大相似度的组的变量中存储变量i的值(现在说明的情况是i＝1)。

在步骤200，使变量i加1，其结果是变量i的值为2。以下步骤202～208的处理在第1个文件和第2个组的特征文件之间执行。再设定变量i＝3，4，5...，计算第1个文件与全部组的特征文件的相似度，其中最大的相似度存储在变量max_相似度中。并存储赋予该值的组的号码。

这样，当计计算第1个文件与全部组的特征文件的相似度时，在步骤202的判定结果为““是””，控制进入步骤220。在步骤220，判定变量max_相似度的值是否在预先指定的相似度阈值以上。若判定结果是““是””，则第1个文件被分类到赋予最大相似度的组(222)；若不是这样，则第1个文件被分类到“未分类”组。“未分类”组不是步骤200～208的处理对象。

然后，控制返回步骤192，0再次代入到变量max_相似度，使n加1变为2，对第2个文件执行与上述第1个文件相同的处理。

这样，通过对全部文件执行分类处理，未分组的各个文件，通常都分类到一个初始组，在与任何一个都不相似的情况下，分类到“未分类”组。若全部文件分类结束，则结束初始处理(图17的步骤140)。

再参照图17，追加某个文件时或每隔一定期间执行步骤142以下的处理。

当追加某个文件时，执行步骤142的处理。该处理如前所述，与图19的步骤198～224所示处理相同。其结果是该文件通常都能分类在初始组中的一个，当与任一个组的特征文件都不相似时，分类在“未分类”组。

这样，每当追加文件时都进行该文件的分类处理，但在步骤144判定“未分类”组内的文件数超过1000时，则在步骤146以该“未分类”组中的文件为对象，进行与图18的“初始组形成”同样的处理。该处理中，新形成的组追加登记在已有组中。

这样，步骤146的处理结果是在初始组中追加了新的组，“未分类”组内的全部文件都分类到其中一个组。

以下，重复步骤142～146的处理。通过重复这些处理，即使分组对象的文件数量较多，追加的文件数量较多，也能不以过大的硬件为必要条件，用现实的时间进行分组和文件的分类。

以上说明主要讲述了对文件进行分组的方法。但是如从业者容易理解那样，本实施例不仅对于文件分类，而且不管何种数据，都可用于对数据的分组。特别是当分组对象的数据多而且经常进行数据追加时，可以高效率地进行数据的分组和分类。

从以上说明可见，本发明的***可以用一般的计算机及其软件来实现。当然，用专用硬件也可以实现。

本次公开的实施例在所有方面都是例示而不应该认为是限制性的。本发明的范围不是上述说明而是权利要求的范围，包括在与权利要求范围同等意义和范围内的所有变更。

Claims

1.一种文件分组装置，其特征在于，包含：

相似度计算部件，计算文件组的各文件之间相似度；

相似度阈值计算部件，与所述相似度计算部件连接，根据所述各文件之间相似度的分布偏差，计算用于对所述文件组进行分组的相似度阈值；以及

分组部件，与所述相似度阈值计算部件和所述相似度计算部件连接，根据所述相似度阈值和所述各文件之间的相似度，对所述文件组进行分组，

所述相似度阈值计算部件包含：

相似度阈值-组数关系计算部件，根据所述各文件之间的相似度，求任意的相似度阈值和使用该任意的相似度阈值通过所述分组部件进行分组时的组数之间的关系；以及

计算部件，与所述相似度阈值-组数关系计算部件连接，根据在所述相似度阈值和所述组数关系中出现的所述文件之间相似度的分布偏差，计算相似度阈值。

2.如权利要求1记载的文件分组装置，其特征在于，所述相似度阈值计算部件还包含以下部件：与所述相似度阈值-组数关系计算部件连接，由所述分组部件按照操作者指定的组数计算用于对所述文件组进行分组的恰当的相似度阈值。

3.如权利要求1记载的文件分组装置，其特征在于，

还包含存储由所述相似度计算部件计算的文件之间相似度的相似度存储部件；

所述相似度阈值计算部件和所述分组部件在所述相似度存储部件存储最新相似度的情况下，利用所述相似度存储部件存储的相似度分别执行相似度阈值的计算处理和分组处理。

4.如权利要求1记载的文件分组装置，其特征在于还包含：

计算由所述分组部件分组的各所述组的特征文件的特征文件计算部件；

根据未分组的追加文件与各所述组的特征文件之间的相似度，对所述追加的文件进行分组的追加分组部件。

5.如权利要求4记载的文件分组装置，其特征在于所述追加分组部件包含：

计算所述追加的文件与各所述组的特征文件之间的相似度最大值的部件；

判定所述最大值是否满足规定条件的部件；

当判定所述最大值满足所述规定条件时，将所述追加的文件分类在赋予所述最大值的组的部件。

6.如权利要求5记载的文件分组装置，其特征在于所述追加分组部件还包含：当判定所述最大值不满足所述规定条件时，将所述追加的文件分类在特定的未分类组的部件。

7.如权利要求6记载的文件分组装置，其特征在于所述追加分组部件还包含：响应分类在所述未分类组的追加的文件数满足规定条件，对分类在所述未分类组的追加的文件执行所述分组处理的部件。

8.一种文件分组装置，其特征在于，包含：

相似度计算部件，求出文件组的各文件之间相似度；

组数接受部件，接受来自操作者的组数输入；

分组部件，与所述相似度计算部件和所述组数接受部件连接，根据预先确定的相似度阈值和所述相似度的分布偏差，对所述文件组进行分组；

组数一致判断部件，与所述组数接受部件和所述分组部件连接，判断分组结果的组数是否与由所述组数接受部件接受的来自所述操作者的组数一致；以及

相似度阈值变更部件，与所述组数接受部件、所述组数一致判断部件和所述分组部件连接，根据所述组数一致判断部件的输出，变更所述预先确定的相似度阈值，并供给所述分组部件。

9.如权利要求1或权利要求8记载的文件分组装置，其特征在于，还包含：将含有的文件数为按规定方法确定的文件数以下的组从由所述分组部件分组的对象中除去的部件。

10.如权利要求8记载的文件分组装置，其特征在于，

所述分组部件，在所述相似度存储部件存储最新相似度的情况下，使用所述相似度存储部件存储的相似度执行分组处理。