CN107025216A

CN107025216A - 句子提取方法及***

Info

Publication number: CN107025216A
Application number: CN201610809405.9A
Authority: CN
Inventors: 郑在弼; 金在润
Original assignee: Uberple Ltd
Current assignee: Uberple; Uberple Ltd
Priority date: 2015-09-09
Filing date: 2016-09-07
Publication date: 2017-08-08
Also published as: US20170068654A1; JP6272417B2; US20200004790A1; JP2017054509A; JP6646030B2; JP2018081702A; JP6905098B2; US10430468B2; JP2020057438A; KR101656245B1

Abstract

本发明一实施例的一种文档概述方法，包括下列步骤：接收关键词；分析包含多个句子的文档后识别包含在上述文档的各句子；组成下列图形，该图形把上述各句子作为顶点(Vertex)并且把上述各句子之间的相似度作为边(Edge)的加权值(Weight)；在上述图形适用变形的佩奇等级算法(PageRank algorithm)算出上述各句子的重要度，上述变形的佩奇等级算法则变形以便把基于和上述关键词的关联度的加权值加以反映；及以上述算出来的重要度为基准从上述文档提取重要句子。

Description

句子提取方法及***

技术领域

本发明涉及一种文档概述方法及***，更详细地说，本发明涉及一种算出包含在文档的各句子的重要度并且以算出来的各句子的重要度为基础从文档中提取重要句子的方法及其***。

背景技术

文档概述(Document summarization)用来创建出能代表文档的简缩文本。为了从信息洪水正确快速地获取所需信息而需要进行文档概述。

文档概述方法可以分为提取(extraction)概述方法与抽象(abstraction)概述方法。抽象概述方法虽然可以比提取并概述方法更有效地简缩原文，但无法保障其与原文之间的一贯性及概述的正确性。

提取并概述的方法从文档提取重要句子并且利用所提取的重要句子组成摘要。但，一般的提取并概述算法没有考虑到读者(Reader)的观点、关注事项或意图地从文档提取被判定为绝对重要的句子。

因此，根据一般的提取并概述算法所提取的重要句子虽然对于第一读者来说可能是提供关注事项的信息的重要句子，但是对于第二读者却可能是提供非必要信息的句子而已。因此人们要求下列解决方案，亦即，考虑文档读者各自的偏好度并且提取对任何读者都能判定为重要的句子。

发明内容

【解决的技术课题】

本发明需要解决的技术课题为，提供一种以文档读者(reader)各自的偏好度为基础算出包含在文档的各句子的重要度并且以算出来的各句子的重要度为基础从文档中提取重要句子的方法及其***。

本发明需要解决的另一个技术课题为，提供一种以提取自文档的重要句子为基础把文档概述的方法及其***。

本发明需要解决的再一个技术课题为，提供一种以提取自文档的重要句子为基础供应搜索服务及去噪(noise filtering)的方法及***。

本发明需要解决的再一个技术课题为，提供一种以提取自文档的重要句子为基础进行聚类(clustering)的内容聚类方法及***。

本发明需要解决的技术课题不限于前述课题，本领域所属领域中具备通常知识者可以在下面的记载中明确地了解到前面没有提到的其它课题。

【技术解决方案】

为了解决上述技术课题的本发明一实施例的一种文档概述方法，包括下列步骤：接受关键词；分析包含多个句子的文档后识别包含在上述文档的各句子；组成下列图形，该图形把上述各句子作为顶点(Vertex)并且把上述各句子之间的相似度作为边(Edge)的加权值(Weight)；在上述图形适用变形的佩奇等级算法(PageRank algorithm)算出上述各句子的重要度，上述变形的佩奇等级算法则变形以便把基于和上述关键词的关联度的加权值加以反映；及以上述算出来的重要度为基准从上述文档提取重要句子。

在一实施例中，上述佩奇等级算法以邻接第一顶点的诸多顶点的相对重要度为基础算出上述第一顶点的重要度，在邻接上述第一顶点的各顶点的相对重要度上反映加权值，该加权值则和邻接上述第一顶点的各顶点的句子是否包含上述关键词有关。

为了解决上述技术课题的本发明另一实施例的一种文档概述方法，包括下列步骤：从用户终端接收不包含用来提取文档的重要句子的关键词的文档概述请求；以上述用户终端的用户资料为基准选定反映了上述用户偏好度的关键词；反映上述选定的关键词而从上述文档提取重要句子；及以上述所提取的重要句子为基础生成上述文档的摘要。

为了解决上述技术课题的本发明再一实施例的一种文档概述方法，包括下列步骤：接收第一关键词及第二关键词；反映上述第一关键词而从包含多个句子的文档提取k个重要句子；以上述k个重要句子为基础生成第一摘要；反映上述第二关键词而从第一摘要提取m个重要句子；及以上述m个重要句子为基础生成第二摘要。

为了解决上述技术课题的本发明又一实施例的一种文档概述方法，包括下列步骤：接收第一关键词及不同于上述第一关键词的第二关键词；反映上述第一关键词而从包含多个句子的文档提取第一重要句子；反映上述第二关键词而从上述文档提取第二重要句子；及生成包含上述第一重要句子与上述第二重要句子的摘要；上述第一重要句子与上述第二重要句子是相异的句子。

为了解决上述技术课题的本发明一实施例的一种搜索服务提供方法，包括下列步骤：从用户终端接收搜索用关键词；利用上述收到的搜索用关键词进行预搜索；作为进行上述预搜索的结果，从搜索的文档提取重要句子；及把上述所提取的重要句子是否包含上述搜索用关键词加以反映地把上述预搜索结果重新配置而组成最终搜索结果。

为了解决上述技术课题的本发明一实施例的一种内容聚类方法，包括下列步骤：接收包括第一文档及第二文档的多个文档；接收包含群组关键词的内容聚类请求；利用上述群组关键词从第一文档提取第一重要句子；利用上述群组关键词从第二文档提取第二重要句子；算出上述第一重要句子与上述第二重要句子之间的相似度；及以上述算出来的相似度为基础决定上述第一文档与上述第二文档能否包含在一个群组。

为了解决上述技术课题的本发明再一实施例的一种重要句子选定方法，其从由多个句子组成的文本选定重要句子，包括下列步骤：反映第一关键词而从上述文本选定第一重要句子；反映不同于上述第一关键词的第二关键词而从上述文本选定不同于上述第一重要句子的第二重要句子；及作为对应于上述第一关键词及上述第二关键词的上述文本的概述结果，把包含上述第一重要句子及上述第二重要句子的上述文本的概述数据发送给用户终端。

为了解决上述技术课题的本发明一实施例的一种文档概述装置，包括：网络接口；一个以上的处理器；把上述处理器所执行的电脑程序载入(load)的内存；及储存一个以上的文件的存儲器；上述电脑程序包括下列操作：接收关键词；分析包含多个句子的文档后识别包含在上述文档的各句子；组成把上述各句子作为顶点而把上述各句子之间的相似度作为边的加权值的图形；在上述图形适用变形的佩奇等级算法算出上述各句子的重要度，上述变形的佩奇等级算法则变形以便把基于和上述关键词的关联度的加权值加以反映；及以上述算出来的重要度为基准从上述文档提取重要句子；上述佩奇等级算法以邻接第一顶点的诸多顶点的相对重要度为基础算出上述第一顶点的重要度，在邻接上述第一顶点的各顶点的相对重要度上反映加权值，该加权值则和邻接上述第一顶点的各顶点的句子是否包含上述关键词有关。

【有益效果】

根据如前所述的本发明，在提取用来生成摘要的重要句子时考虑读者的偏好度，从而得以生成符合读者观点、关注事项或意图的定制型摘要。

而且，利用根据读者偏好度提取的重要句子重新组成关键词搜索结果，从而得以提供针对各个读者进行了定制化的搜索服务。

更进一步，利用根据读者偏好度提取的重要句子把内容加以聚类而得以完成对各个读者实现了定制化的聚类。

本发明的效果不限于前面提到的效果，本领域所属领域中具备通常知识者可以在下面的记载中明确地了解到前面没有提到的其它效果。

附图说明

图1是用来说明根据本发明的一个实施例的文档概述的概念的图形。

图2是用来说明根据本发明的一个实施例的文档概述***的图形。

图3是用来说明根据本发明的一个实施例的搜索服务***的图形。

图4是用来说明根据本发明的一个实施例的内容聚类***(contents clusteringsystem)的图形。

图5是用来说明根据本发明的一个实施例的文档概述过程的概念图。

图6是用来说明根据本发明的一个实施例的文档概述方法的顺序图。

图7是用来说明根据本发明的一个实施例的文档概述方法的图形创建过程的图形。

图8是用来说明根据本发明的一个实施例的文档概述方法的变形等级算法适用过程的图形。

图9是用来说明根据本发明另一个实施例的文档概述过程的概念图。

图10是用来说明根据本发明另一个实施例的文档概述方法的顺序图。

图11是用来说明根据本发明的一个实施例的搜索服务提供过程的概念图。

图12是用来说明根据本发明的一个实施例的搜索服务提供方法的顺序图。

图13是用来说明根据本发明的一个实施例的内容聚类过程的概念图。

图14是用来说明根据本发明的一个实施例的内容聚类方法的顺序图。

图15是根据本发明的一个实施例的文档概述装置的逻辑结构的块图。

图16是根据本发明的一个实施例的文档概述装置的硬件架构图。

具体实施方式

下面，参照附图，对本发明的优选实施例进行详细说明。参照附图以及详细地后述的实施例，本发明的优点及特性，以及实现这些的方法将会变得明确。但是，本发明并不限定于以下所公开的实施例，而是可以以彼此不同的多种方式实现，本实施例只是为了使本发明的公开变得完整，并且为了向本发明所属技术领域的技术人员完整地告知本发明的范围而提供的，本发明仅由权利要求的范围定义。在说明书全文中相同的附图标记指相同的结构要素。

如果没有其他定义，则在本说明书中所使用的所有术语(包括技术术语及科技术语)能够以本发明所属技术领域的技术人员共同理解的含义使用。另外，在通用的词典中定义的术语只要没有被明确地特别定义，就不理想地或过度地解释。本说明书中所使用的术语用于说明实施例，并不限制本发明。在本说明书中，只要在句子中未特别提及，则单数形式可以包括复数形式。

在说明本发明之前，先对本说明书所使用的若干术语进行说明。

图形(Graph)是一种由具备一个以上的顶点(Vertex)的有限集合和作为这些顶点对的边(Edge)的有限集合所组成的数据结构(Data structure)。图形应该至少包含一个顶点(Vertex)，但不限定于此。

图形可以分成无向图(Undirected graph)与有向图(Directed graph)。无向图没有设定代表各边的顶点对(Vertex pair)的顺序。亦即，无向图的各边不具备方向性。而且，有向图中代表各边的顶点对的顺序是已定的。亦即，有向图的各边具备方向性。

完全图(Complete graph)是一种包含在图形的顶点为n时连接顶点的边的数量为n(n-1)/2个的图形。亦即，完全图是包含在图形的所有顶点互相通过边连接的图形。

除非另外给予不同的定义，否则此处所使用的一切术语(包括技术或科学术语)所表示的意义和本发明所属技术领域中具有一般知识的人们通常了解的意义相同。除非在本申请中明确地给予定义，否则不得异常地或过度地解释一般辞典中有所定义的术语的意义。本说明书所使用的术语用来说明实施例而不是用来限制本发明。在本说明书中，除非在文章中特别提及，否则单数表现方式也包括复数的情形。

而且，本说明书所使用的“包括(comprises)”及/或“包括的(comprising)”并不排除所言及的构成要素、步骤、动作及/或零件以外另外添加一个以上的其它构成要素、步骤、动作及/或零件或其存在。

下面结合附图详细说明本发明。图1是用来说明根据本发明的一个实施例在提取重要句子时的概念的图形。

请参阅图1，根据本发明的一个实施例在提取重要句子时算出包含在文档(10)的各句子(11、12、13、14、15或16)的重要度并且以算出来的重要度为基础从文档(10)提取重要句子。

例如，文档(10)包含句子A(11)、句子B(12)、句子C(13)、句子D(14)、句子E(15)及句子F(16)时，根据本发明的一个实施例在提取重要句子时针对包含在文档(10)的句子A(11)、句子B(12)、句子C(13)、句子D(14)、句子E(15)及句子F(16)算出重要度并且从算出来的重要度最大的句子起按照上述重要度降低的顺序提取句子C(13)及句子E(15)。在这种情况下，句子C(13)及句子E(15)相当于从文档(10)提取的重要句子。

尤其是，根据本发明的一个实施例在提取重要句子时，从文档(10)提取重要句子时可以考虑文档(10)读者各自的偏好度。亦即，根据本发明的一个实施例在提取重要句子时，能以文档(10)读者各自的偏好度为基础算出包含在文档(10)的各句子(11、12、13、14、15或16)的重要度并且以算出来的重要度为基础从文档(10)提取重要句子。

因此，根据本发明的一个实施例在提取重要句子时，从文档(10)提取的重要句子可以根据读者的偏好度而不同。

下面结合图2到图4说明根据本发明的一个实施例提取重要句子及利用所提取的重要句子的若干服务***。

图2是用来说明根据本发明的一个实施例的文档概述***的图形。图2所示文档概述***的构成要素是根据功能加以区分的功能要素，在实际物理环境下可以由一个以上的构成要素互相统合地实现。

请参阅图2，根据本发明的一个实施例的文档概述***可以包括文档概述装置(100)、内容仓库(200)、应用服务器(300)及用户终端(400)地组成。

下面说明各构成要素。文档概述装置(100)是一种把文档(10)概述后生成摘要的装置。具体地说，文档概述装置(100)能以读者各自的偏好度为基础算出包含在文档(10)的各句子的重要度。文档概述装置(100)能以算出来的各句子的重要度为基础从文档(10)提取重要句子。而且，文档概述装置(100)能以所提取的重要句子为基础生成摘要。

此时，作为文档概述对象的文档(10)可以包括韩文、英文、数字、空格字符、特殊字符之类的文本，但不限定于此，作为文档概述对象的文档(10)也可以包括图像(image)、图表(chart)或OLE(Object Linking and Embedding)客体(object)。

文档概述装置(100)可以从应用服务器(300)或用户终端(400)接收文档(10)概述请求。文档概述装置(100)可以向内容仓库(200)请求作为文档概述对象的文档(10)。文档概述装置(100)可以从内容仓库(200)接收作为文档概述对象的文档(10)。文档概述装置(100)能以读者各自的偏好度为基础从收到的文档(10)提取重要句子后生成摘要。而且，文档概述装置(100)可以把生成的摘要发送给用户终端(400)、内容仓库(200)或应用服务器(300)。

根据本发明的一个实施例的文档概述装置(100)可以是服务器(Server)、工作站(Workstation)或台式电脑(Desktop)之类的固定式运算装置，但不限定于此。

关于如前所述的根据本发明的一个实施例的文档概述装置(100)的文档概述方法，后文将结合图5到图8进一步具体说明。而且，关于根据本发明的一个实施例的文档概述装置(100)的结构，后文将结合图15与图16进一步具体说明。

接着，内容仓库(200)是一种用来保管各种类型的内容的仓库。具体地说，内容仓库(200)可以把作为文档概述对象的文档(10)加以保存。而且，内容仓库(200)可以保存用来提供搜索服务的内容或作为聚类对象的内容。

内容仓库(200)可以根据文档概述装置(100)或应用服务器(300)的请求提取作为文档概述对象的文档(10)。而且，内容仓库(200)可以把所提取的文档(10)发送给文档概述装置(100)。

内容仓库(200)可以根据应用服务器(300)的请求提取基于搜索用关键词的内容。而且，内容仓库(200)可以把包含所提取的内容的搜索结果发送给应用服务器(300)。

而且，内容仓库(200)可以根据应用服务器(300)的请求提取基于群组(cluster)关键词的作为聚类对象的内容。而且，内容仓库(200)可以把作为聚类对象的内容发送给应用服务器(300)。

接着，应用服务器(200)是一种以储存在内容仓库(200)的内容及文档概述装置(100)所生成的摘要为基础供应各种服务的服务器。

具体地说，应用服务器(200)能从用户终端(400)接收搜索用关键词。应用服务器(200)可以向内容仓库(200)请求基于搜索用关键词的搜索结果。应用服务器(200)能从内容仓库(200)接收搜索结果。

当收自内容仓库(200)的搜索结果中存在着包含多个句子的文档(10)时，应用服务器(200)可以向文档概述装置(100)请求文档(10)概述。应用服务器(300)可以从文档概述装置(100)接收文档(10)的摘要。

应用服务器(200)能以所收到的摘要为基础重新组成搜索结果。例如，应用服务器(300)可以在搜索用关键词没有被包含在摘要时从搜索结果排除作为摘要的原本的文档后重新组成搜索结果。而且，应用服务器(300)可以从搜索结果把摘要之间的相似度相对较低的文档排除后重新组成搜索结果，但不限定于此。而且，应用服务器(200)可以把重新组成的搜索结果发送给用户终端(400)。

而且，应用服务器(200)可以从用户终端(400)接收群组(cluster)关键词。应用服务器(200)可以向内容仓库(200)请求作为基于群组关键词的聚类对象的内容。应用服务器(200)可以从内容仓库(200)接收作为聚类对象的内容。

当作为聚类对象的内容中存在着包含多个句子的文档(10)时，应用服务器(200)可以向文档概述装置(100)请求文档(10)概述。应用服务器(300)能从文档概述装置(100)接收文档(10)的摘要。

应用服务器(300)以收自文档概述装置(100)的摘要为基础，能把作为聚类对象的内容加以聚类。例如，应用服务器(200)算出作为聚类对象的内容的摘要之间的相似度并且以算出来的相似度为基础确定能否被包含在一个群组(cluster)，但不限定于此。而且，应用服务器(300)可以把聚类结果发送给用户终端(400)。

接着，用户终端(400)是一种能够请求文档概述、关键词搜索或内容聚类的装置。具体地说，用户终端(400)可以向文档概述装置(100)请求文档(10)概述。而且，用户终端(400)可以从文档概述装置(100)接收摘要后输出。

用户终端(400)可以向应用服务器(300)传输搜索用关键词后请求关键词搜索。而且，用户终端(400)可以从应用服务器(300)接收搜索结果后输出。

而且，用户终端(400)可以向应用服务器(300)传输群组关键词并且请求内容聚类。而且，用户终端(400)可以从应用服务器(300)接收聚类结果后输出。

只要是能通过网络收发数据的装置，根据本发明的一个实施例的用户终端(400)就不限制其必须是何种装置。例如，根据本发明的一个实施例的用户终端(400)可以是智能手机(Smart Phone)、便携式电脑(Laptop)、平板电脑(Tablet)、平板手机(Phablet)或PDA(Personal Digital Assistants)之类的移动运算装置或台式电脑、服务器或工作站之类的固定式运算装置中的某一个装置，但不限定于此，用户终端(400)也可以是智能眼镜(Smart glasses)、智能手环(Smart band)、智能手表(Smart watch)或智能戒指(Smartring)之类的可穿戴式运算装置中的某一个。

最后，网络(Network)是一种让文档概述装置(100)、内容仓库(200)、应用服务器(300)及用户终端(400)得以收发数据的基础设施(infrastructure)。根据本发明的一个实施例的网络可以是以太网(Ethernet)、xDSL(x Digital Subscriber Line)、HFC(HybridFiber Coax)或FTTH(Fiber To The Home)之类的有线通信网；CDMA(Code DivisionMultiple Access)、WCDMA(Wideband CDMA)、GSM(Global System for Mobilecommunication)、HSPA(High Speed Packet Access)或LTE(Long Term Evolution)之类的移动通信网；或WiFi、全球微波互联接入(Wimax)、无线宽带接入(Wibro)、蓝牙(Bluetooth)或紫蜂协议(Zigbee)之类的近距离无线通信网；中的一个以上组合而成的形态，但不限定于此。

图3是用来说明根据本发明的一个实施例的搜索服务***的图形。请参阅图3，根据本发明的一个实施例的搜索服务***可以由统合了文档概述服务器(100)、内容仓库(200)及应用服务器(300)并且提供搜索服务的单一装置实现。

搜索服务器(310)是一种用来提供搜索服务的装置。如前所述的搜索服务器(310)可以包括搜索器(311)、文档概述器(312)及搜索结果输出器(313)地组成。

搜索器(311)可以从用户终端(400)接收包含搜索用关键词的关键词搜索请求。搜索器(311)可以根据所收到的搜索用关键词搜索内容。在这种情况下，搜索器(311)也可以通过网络搜索保存在外部仓库的内容。而且，搜索器(311)还能生成包含所搜索的内容的搜索结果。

当搜索器(311)所生成的搜索结果中存在着包含多个句子的文档(10)时，文档概述器(312)能以收自用户终端(400)的搜索用关键词为基础算出包含在文档(10)的各句子的重要度。文档概述器(312)能以算出来的各句子的重要度为基础从文档(10)提取重要句子。文档概述器(312)能以所提取的重要句子为基础生成摘要。

搜索结果输出器(313)能以文档概述器(312)所生成的摘要为基础重新组成搜索器(311)所生成的搜索结果。例如，搜索结果输出器(313)在搜索用关键词没有包含在摘要时可以从搜索结果排除作为摘要的原本的文档后重新组成搜索结果。而且，搜索结果输出器(313)也可以从搜索结果排除摘要之间的相似度相对较低的文档后重新组成搜索结果，但不限定于此。而且，搜索结果输出器(313)可以把重新组成的搜索结果发送给用户终端(400)。

图4是用来说明根据本发明的一个实施例的内容聚类***的图形。请参阅图4，根据本发明的一个实施例的内容聚类***可以由统合了文档概述服务器(100)及应用服务器(300)并且进行聚类的单一装置实现。

内容聚类服务器(320)是用来进行聚类的装置。前述内容聚类服务器(320)可以包括文档概述器(321)及聚类模块(322)地组成。

文档概述器(321)可以从内容仓库(200)或用户终端(400)接收包含群组关键词的内容聚类请求。当作为聚类对象的内容中存在着包含多个句子的文档(10)时，文档概述器(321)能以所收到的群组关键词为基础算出包含在文档(10)的各句子的重要度。文档概述器(321)能以算出来的各句子的重要度为基础从文档(10)提取重要句子。而且，文档概述器(321)能以所提取的重要句子为基础生成摘要。

聚类模块(322)能以文档概述器(321)所生成的摘要为基础把作为聚类对象的内容加以聚类。例如，聚类模块(322)算出作为聚类对象的内容的摘要之间的相似度并且以算出来的相似度为基础确定能否被包含在一个群组(cluster)，但不限定于此。而且，聚类模块(322)可以把聚类结果发送给内容群组仓库(210)。

综上所述，根据本发明的一个实施例的文档概述***在提取用来生成摘要的重要句子时考虑读者的偏好度而得以生成符合读者观点、关注事项或意图的定制型摘要。而且，搜索服务***利用根据读者偏好度提取的重要句子重新组成关词搜索结果而得以提供针对各个读者进行了定制化的搜索服务。更进一步，内容聚类***利用根据读者偏好度提取的重要句子把内容加以聚类而得以完成对各个读者实现了定制化的聚类。

亦即，上述文档概述***可以反映第一关键词而从上述文本选定第一重要句子并且作为对应于上述第一关键词的上述文本的概述结果而把上述第一重要句子的数据发送给用户终端，反映不同于上述第一关键词的第二关键词而从上述文本选定不同于上述第一重要句子的第二重要句子并且作为对应于上述第二关键词的上述文本的概述结果而把上述第二重要句子的数据发送给用户终端。现有的重要句子选定(sentence extraction)技术在选定重要句子时无法反映出个人化后的重要度，本发明则以关键词的形态反映出经过个人化的重要度，从其结果得知，适用了第一关键词的重要句子选定结果与适用了第二关键词的重要句子选定结果得以不同地输出。

下面结合图5到图8说明根据本发明的一个实施例的文档概述装置(100)的文档概述方法。图5是用来说明根据本发明的一个实施例的文档概述过程的概念图。

请参阅图5，文档概述装置(100)从内容仓库(200)接收作为文档概述对象的文档(10)。文档概述装置(100)所收到的文档(10)可以包括一个以上的句子(11、12、13、14、15及16)。

文档概述装置(100)从内容仓库(200)或用户终端(400)接收一个以上的关键词。此时，关键词是一种从文档(10)提取重要句子时用来适用读者各自的偏好度的词语。因此，关键词可以是能够呈现出文档(10)读者各自的观点、关注事项或意图等的词语。

文档概述装置(100)分析所收到的文档(10)后识别包含在文档(10)的句子A(11a)、句子B(12a)、句子C(13a)、句子D(14a)、句子E(15a)及句子F(16a)。

文档概述装置(100)组成图形，该图形把所识别的句子A(11b)、句子B(12b)、句子C(13b)、句子D(14b)、句子E(15b)及句子F(16b)作为顶点并且把各句子之间的相似度作为边的加权值。文档概述装置(100)所组成的图形可以是无向图，但不限定于此。

文档概述装置(100)在所组成的图形适用变形的佩奇等级算法后算出各句子的重要度。

此时，变形的佩奇等级算法(PageRank algorithm)以邻接第一顶点的诸多顶点的相对重要度为基础算出第一顶点的重要度，在邻接第一顶点的各顶点的相对重要度上反映了加权值，该加权值则和邻接第一顶点的各顶点的句子是否包含上述关键词有关。亦即，变形的佩奇等级算法能算出包含在图形的各顶点的相对重要度，但考虑各顶点与关键词之间的关联度后算出相对重要度。

文档概述装置(100)从算出来的重要度最大的句子起按照上述重要度降低的顺序提取包含在文档(10)的句子A(11c)、句子B(12c)、句子C(13c)、句子D(14c)、句子E(15c)及句子F(16c)中相当于重要句子的句子C(13d)及句子E(15d)。文档概述装置(100)拟提取的重要句子的数量可以在文档概述装置(100)事先设定(preset)或者由请求了文档(10)摘要的用户终端(400)指定。

而且，文档概述装置(100)以重要句子在文档(10)内的位置为基础把相当于重要句子的句子C(13d)及句子E(15d)重新排列后生成摘要。

请参阅图6，文档概述装置(100)从内容仓库(200)接收作为文档概述对象的文档(10)并且从内容仓库(200)或用户终端(400)接收一个以上的关键词(S110)。

此时，作为文档概述对象的文档(10)可以包含韩文、英文、数字、空格字符、特殊字符之类的文本，但不限定于此，作为文档概述对象的文档(10)也可以包含图像、图表或OLE客体(object)。而且，关键词是一种从文档(10)提取重要句子时用来适用读者各自的偏好度的词语。因此，关键词可以是能够呈现出文档(10)读者各自的观点、关注事项或意图等的词语。

文档概述装置(100)分析所收到的文档(10)后识别包含在文档(10)的各句子(S120)。具体地说，文档概述装置(100)可以识别包含在文档(10)的终结词尾并且以所识别的终结词尾为基础识别包含在文档(10)的各句子。但不限定于此，文档概述装置(100)也可以识别包含在文档(10)的句号、问号、逗号之类的符号并且以所识别的符号为基础识别包含在文档(10)的各句子。

文档概述装置(100)组成一种把所识别的各句子作为顶点并且把各句子之间的相似度作为边的加权值(Weight)的图形(S130)。文档概述装置(100)所组成的图形可以是无向图，但不限定于此。

根据本发明的一个实施例的文档概述装置(100)可以从完全图删除若干边后组成图形。

具体地说，文档概述装置(100)组成了把所识别的各句子作为顶点而所有的顶点则互相通过边连接的完全图。而且，文档概述装置(100)算出各句子之间的相似度。

根据本发明的一个实施例的文档概述装置(100)可以利用杰卡德系数(JaccardCoefficient)或汉明距离(Hamming Distance)中的某一个算出句子之间的相似度。但不限定于此，文档概述装置(100)也可以利用谷本相似度(Tanimoto Similarity)或余弦相似度(Cosine Similarity)中的某一个算出句子之间的相似度。

文档概述装置(100)把算出来的相似度作为把顶点之间连接起来的边的加权值地赋予。而且，文档概述装置(100)在图形中除掉被赋予了低于阈值的加权值的边。

此时，阈值是一种用来显示具连贯关系的两个句子之间所存在的最小相似度的值。例如，可以把阈值设定为1，但不限定于此。而且，阈值可以在文档概述装置(100)事先设定(preset)或者由请求了文档(10)摘要的用户终端(400)指定。

根据本发明另一个实施例的文档概述装置(100)可以在仅由顶点组成的图形上赋予若干边后组成图形。

具体地说，文档概述装置(100)组成了以所识别出来的各句子为顶点的图形。文档概述装置(100)分析各句子后识别重要标记(Token)。此时，标记是用来表现各句子所含词语的实质意义的部分。例如，标记可以是包含在各句子的词根或词干，但不限定于此。

当包含在图形上的两顶点的句子含有同一标记时文档概述装置(100)为两顶点之间赋予边。而且，当包含在图形上的两顶点的句子所包含的标记全部不相同时，文档概述装置(100)不会为两顶点之间赋予边。关于根据本发明的一个实施例的文档概述装置(100)的图形创建过程，后文将结合图7更具体说明。

文档概述装置(100)在所组成的图形适用变形的佩奇等级算法后算出各句子的重要度(S140)。此时，变形的佩奇等级算法以邻接第一顶点的诸多顶点的相对重要度为基础算出第一顶点的重要度，但在邻接第一顶点的各顶点的相对重要度上反映了加权值，该加权值则和邻接第一顶点的各顶点的句子是否包含关键词有关。亦即，变形的佩奇等级算法算出包含在图形的各顶点的相对重要度，但考虑各顶点与关键词之间的关联度后算出相对重要度。

具体地说，佩奇等级算法以引用了第一文档的其它文档的重要度为基础算出第一文档的重要度。如前所述的佩奇等级算法可以由下列数学式1表示。

【数学式1】

在此，T_n是引用文档A的其它文档。PR(T_n)是T_n文档上适用佩奇等级算法后算出来的重要度。亦即，PR(T_n)是T_n的佩奇等级值。C(T_n)是引用T_n的再一个其它文档的数量。而且，d是读者或网页浏览者不满足于文档A而寻找其它文档的概率。d发挥出damping factor的作用，可以设定为0.85。

而且，文档概述装置(100)为了算出句子A的重要度PR_w(A)而适用下列数学式2，该数学式2把上述佩奇等级算法予以变形。

【数学式2】

在此，T_n是相当于句子A的顶点上所连接的其它顶点。PR_w(T_n)是针对T_n顶点适用了变形的佩奇等级算法后算出来的重要度。亦即，PR_w(T_n)是T_n顶点的佩奇等级值。根据本发明的一个实施例的文档概述装置(100)可以在PR_w(T_n)的初始值代入任意数(Arbitrarynumber)并且反复(iterative)执行变形的佩奇等级算法直到PR_w(T_n)收敛到一定值为止，但根据本发明另一个实施例的文档概述装置(100)可以在PR_w(T_n)的初始值代入w(T_n)并且反复(iterative)执行变形的佩奇等级算法直到PR_w(T_n)收敛到一定值为止。在这种情况下，文档概述装置(100)比较少执行变形的佩奇等级算法也能算出PR_w(T_n)。

C(T_n)是附属于T_n顶点的边的数量。而且，d是读者不满足于句子A而寻找其它句子的概率。d发挥出damping factor的作用，可以设定为0.85，但不限定于此。

而且，w(T_n)是加权值，该加权值则基于相当于T_n顶点的句子和关键词的关联度。根据本发明的一个实施例的文档概述装置(100)可以根据关键词在相当于T_n顶点的句子内出现的频度确定w(T_n)。例如，文档概述装置(100)在相当于T_n顶点的句子中关键词的出现频度越大时越能把w(T_n)设定为较大值，相当于T_n顶点的句子中关键词的出现频度越小时越能把w(T_n)设定为较小值。而且，根据本发明另一个实施例的文档概述装置(100)可以根据相当于T_n顶点的句子中关键词的出现位置确定w(T_n)。例如，当相当于T_n顶点的句子中总共有20个标记并且关键词出现在从句子前面算起的第4个位置时，文档概述装置(100)可以把w(T_n)设定为相当于上位20％的值。而且，文档概述装置(100)可以根据相当于T_n顶点的句子和关键词之间的关联度而线性确定w(T_n)，但不限定于此，也可以根据相当于T_n顶点的句子和关键词之间的关联度而非线性地确定。

关于根据本发明的一个实施例的文档概述装置(100)的变形的佩奇等级算法适用过程，后文将结合图8具体说明。

文档概述装置(100)以算出来的重要度为基础从文档(10)提取重要句子(S150)。具体地说，文档概述装置(100)能从文档(10)提取重要度最高的一个重要句子。而且，文档概述装置(100)能从算出来的重要度最大的句子起按照上述重要度降低的顺序从文档(10)提取k个重要句子。此时，文档概述装置(100)拟提取的重要句子的数量(k)可以在文档概述装置(100)事先设定或者由请求了文档(10)摘要的用户终端(400)指定。

而且，文档概述装置(100)利用所提取的重要句子生成摘要(S160)。具体地说，文档概述装置(100)从文档(10)提取一个重要句子时，可以选择通过边连接到所提取的一个重要句子顶点的其它顶点的句子。而且，文档概述装置(100)可以利用所提取的一个重要句子及选定的其它顶点的句子生成摘要。

文档概述装置(100)能以句子的重要度、相似度或句子长度中的某一个以上为基础在通过边连接到一个重要句子顶点的其它顶点句子中选择用于生成摘要的句子。例如，文档概述装置(100)能在通过边连接到一个重要句子顶点的其它顶点句子中从适用了变形的佩奇等级算法后算出来的重要度最大的句子起按照上述重要度降低的顺序选择k个句子。文档概述装置(100)能在通过边连接到一个重要句子顶点的其它顶点句子中按照和重要句子的相似度高的顺序选择k个句子。而且，文档概述装置(100)能在通过边连接到一个重要句子顶点的其它顶点句子中按照句子长度较长的顺序选择k个句子。

而且，文档概述装置(100)在从文档(10)提取k个重要句子时能以重要句子在文档(10)内的位置为基础重新排列所提取的k个重要句子后生成摘要。

图7是用来说明根据本发明的一个实施例的文档概述方法的图形创建过程的图形。图7所示图形创建过程假设以图1所示文档(10)为基础创建图形。

请参阅图7，文档概述装置(100)组成了把包含在文档(10)的句子A(11b)、句子B(12b)、句子C(13b)、句子D(14b)、句子E(15b)及句子F(16b)作为顶点并且所有的顶点互相通过边连接的完全图。

文档概述装置(100)算出句子A(11b)、句子B(12b)、句子C(13b)、句子D(14b)、句子E(15b)及句子F(16b)之间的相似度。文档概述装置(100)所算出来的相似度如下述表1所示。

【表1】

文档概述装置(100)把算出来的相似度各自作为把顶点之间连接起来的边的加权值地赋予。

文档概述装置(100)在图形中删除被赋予了低于阈值1的加权值的边(A，F)、(A，D)、(B，F)、(D，F)及(E，F)。

图8是用来说明根据本发明的一个实施例的文档概述方法的变形等级算法适用过程的图形。图8所示变形的等级算法适用过程假设在图7所示图形适用变形的等级算法后算出顶点C的重要度。

请参阅图8，文档概述装置(100)可以根据下列数学式3算出顶点C的重要度。

【数学式3】

基于顶点A、B、D及E和关键词的关联度的加权值w(T_n)、适用变形的佩奇等级后算出来的重要度PR_w(T_n)及附属于顶点的边的数量C(T_n)如下列表2所示，文档概述装置(100)可以如下列数学式4所示地算出顶点C的重要度为0.4。此时假设d为0.8。

【表2】

【数学式4】

下面结合图9及图10说明根据本发明另一个实施例的文档概述装置(100)的文档概述方法。图9是用来说明根据本发明另一个实施例的文档概述过程的概念图。

请参阅图9，文档概述装置(100)从内容仓库(200)接收作为文档概述对象的文档(10)。文档概述装置(100)所收到的文档(10)可以包含一个以上的句子(11、12、13、14、15及16)。

文档概述装置(10)从用户终端(400)接收关于用户资料。此时，关于用户资料(Profile)可以包含用户终端(400)的用户的年龄、性别、位置信息、登入纪录或搜索历史等，但不限定于此。

文档概述装置(100)以关于用户资料为基准选定第一关键词及第二关键词。此时，第一关键词及第二关键词是从文档(10)提取重要句子时用来适用用户终端(400)用户的偏好度的词语。因此，第一关键词及第二关键词可以是能够表现出用户终端(400)用户的观点、关注事项或意图等的词语。而且，第一关键词与第二关键词可以是相异的词语，但不限定于此。

文档概述装置(10)反映所选定的第一关键词后从文档(10)提取相当于重要句子的句子B(12d)、句子C(13d)及句子E(15d)。

文档概述装置(10)反映所选定的第二关键词后从文档(10)提取相当于重要句子的句子A(11d)、句子C(13d)、句子E(15d)及句子F(16d)。

文档概述装置(100)在根据第一关键词提取的句子B(12d)、句子C(13d)及句子E(15d)与根据第二关键词提取的句子A(11d)、句子C(13d)、句子E(15d)及句子F(16d)中识别出相当于同一重要句子的句子C(13d)及句子E(15d)。

而且，文档概述装置(100)以重要句子在文档(10)内的位置为基础把所识别的相当于同一重要句子的句子C(13d)及句子E(15d)重新排列后生成摘要。

请参阅图10，文档概述装置(100)以关于用户终端(400)用户资料为基准选定第一关键词及第二关键词(S210)。此时，第一关键词及第二关键词是用来适用用户终端(400)用户的偏好度的词语。因此，第一关键词及第二关键词可以是能够表现出用户终端(400)用户的观点、关注事项或意图等的词语。而且，第一关键词与第二关键词可以是相异的词语，但不限定于此。

文档概述装置(100)反映所选定的第一关键词而从文档(10)提取k个重要句子(S220)。而且，文档概述装置(100)反映所选定的第二关键词而从文档(10)提取m个重要句子(S230)。文档概述装置(100)拟提取的重要句子的数量(k及l)可以在文档概述装置(100)事先设定或者由请求了文档(10)摘要的用户终端(400)指定。

而且，文档概述装置(100)在根据第一关键词提取的k个重要句子及根据第二关键词提取的m个重要句子中识别出同一重要句子。而且，文档概述装置(100)以重要句子在文档(10)内的位置为基础把识别出来的同一重要句子重新排列后生成摘要(S240)。

综上所述，文档概述装置(100)根据能够适用读者偏好度的多个关键词提取各自的重要句子并且只利用所提取的重要句子中重复的句子生成摘要。因此，文档概述装置(100)在读者关注多个领域时可以生成下列摘要，该摘要仅由和读者所关注的全部领域有关的重要句子组成。

下面说明根据本发明的再一个实施例的文档概述方法。

文档概述装置(100)从用户终端(400)接收第一关键词及第二关键词。此时，第一关键词及第二关键词是用来适用用户终端(400)的用户偏好度的词语。第一关键词与第二关键词可以是相异的词语。而且，用户终端(400)的用户对于第一关键词与第二关键词的偏好度可以互不相同，但不限定于此。

文档概述装置(100)反映所收到的第一关键词而从文档(10)提取k个重要句子。而且，文档概述装置(100)以重要句子在文档(10)内的位置为基础把根据第一关键词提取的k个重要句子重新排列后生成第一摘要。

文档概述装置(100)反映所收到的第二关键词而从第一摘要提取m个重要句子。而且，文档概述装置(100)以重要句子在第一摘要内的位置为基础把根据第二关键词提取的m个重要句子重新排列后生成第二摘要。

综上所述，文档概述装置(100)在读者对多个关键词的偏好度不同时可以根据第一关键词简缩文档(10)生成第一摘要并且根据第二关键词简缩第一摘要后生成第二摘要。因此，即使读者对多个领域的关注程度不同，文档概述装置(100)也能反映读者的关注程度后生成摘要。

下面结合图11及12说明根据本发明的一个实施例的搜索服务器(310)的搜索服务提供方法。图11是用来说明根据本发明的一个实施例的搜索服务提供过程的概念图。

请参阅图11，用户终端(400)的用户输入了搜索用关键词(20)后，用户终端(400)把包含着所输入的搜索用关键词(20)的关键词搜索请求传输给搜索服务器(310)。

搜索服务器(310)从用户终端(400)接收包含搜索用关键词(20)的关键词搜索请求。搜索服务器(310)根据所收到的搜索用关键词(20)搜索文档A(30a)、文档B(30b)及文档C(30c)。

搜索服务器(310)从搜索的文档A(30a)、文档B(30b)及文档C(30c)提取各自相当于重要句子的重要句子A(40a)、重要句子B(40b)及重要句子C(40c)。

搜索服务器(310)在搜索结果把所提取的重要句子A(40a)、重要句子B(40b)及重要句子C(40c)中不包含搜索用关键词(20)的重要句子B(40b)排除后重新组成搜索结果。

请参阅图12，搜索服务器(310)从用户终端(400)接收包含搜索用关键词(20)的关键词搜索请求(S310)。而且，搜索服务器(310)搜索基于所收到的搜索用关键词(20)的文档(10)(S320)。

搜索服务器(310)从搜索的文档(10)提取重要句子(S330)。具体地说，搜索服务器(310)可以从搜索的文档(10)反映搜索用关键词地提取重要句子。但不限定于此，搜索服务器(310)可以不受搜索用关键词的影响地从搜索的文档(10)提取重要句子。

而且，搜索服务器(310)可以从搜索的m个文档(10)各自提取一个重要句子。搜索服务器(310)可以从搜索的一个文档(10)提取k个重要句子。而且，搜索服务器(310)可以从搜索的m个文档(10)各自提取k个重要句子。搜索服务器(310)从搜索的文档(10)提取k个重要句子时，可以从重要度最大的句子起按照上述重要度降低的顺序提取k个重要句子。搜索服务器(310)可以把所提取的重要句子是否包含搜索用关键词(20)加以反映后组成搜索结果(S340)。具体地说，根据本发明的一个实施例的搜索服务器(310)能以下列方式组成搜索结果，亦即，让重要句子中包含搜索用关键词(20)的文档(10)优先于重要句子中不包含搜索用关键词(20)的文档(10)地输出。例如，搜索服务器(310)能以下列方式组成搜索结果，亦即，让重要句子中包含搜索用关键词(20)的文档(10)配置到重要句子中不包含搜索用关键词(20)的文档(10)的上端。在这种情况下，用户终端(400)的用户能够优先查看重要句子中包含搜索用关键词(20)的文档(10)，然后查看重要句子中不包含搜索用关键词(20)的文档(10)。

从文档(10)提取的k个重要句子中丝毫不包含搜索用关键词(20)时，根据本发明另一个实施例的搜索服务器(310)可以从搜索结果排除提取了k个重要句子的文档(10)后组成搜索结果。

从用户终端(400)进一步接收过滤用关键词并且从文档(10)提取的k个重要句子包含过滤用关键词时，根据本发明的再一个实施例的搜索服务器(310)可以从搜索结果排除提取了k个重要句子的文档(10)后组成搜索结果。

根据本发明的再一个实施例的搜索服务器(310)算出从m个文档(10)各自提取的重要句子之间的相似度，如果包括有算出来的相似度低于阈值的重要句子，则可以从搜索结果中把提取了相似度低于阈值的句子的文档(10)排除后组成搜索结果。

根据本发明的再一个实施例的搜索服务器(310)可以利用杰卡德系数或汉明距离中的某一个算出重要句子之间的相似度。但不限定于此，搜索服务器(310)也可以利用谷本相似度或余弦相似度中的某一个算出重要句子之间的相似度。而且，阈值是一种用来指示具连贯关系的两个句子之间所存在的最小相似度的值。阈值在文档概述装置(100)事先设定或者由请求了文档(10)摘要的用户终端(400)指定。

而且，搜索服务器(310)把组成的搜索结果传输给用户终端(400)(S350)。

综上所述，搜索服务器(310)可以把基于搜索用关键词的搜索结果中不符合读者关注事项的文档从搜索结果排除。而且，即使是符合读者关注事项的文档，搜索服务器(310)也可以把包含过滤用关键词的文档从搜索结果排除。更进一步，搜索服务器(310)可以从搜索结果把符合读者关注事项的文档中相似度较低的文档排除。因此，搜索服务器(310)能够提供符合读者关注事项的定制型搜索服务。

下面结合图13及图14说明根据本发明的一个实施例的内容聚类服务器(320)的内容聚类方法。图13是用来说明根据本发明的一个实施例的内容聚类过程的概念图。

请参阅图13，内容聚类服务器(320)从内容仓库(200)或用户终端(400)接收包含群组关键词的内容聚类请求。而且，内容聚类服务器(320)从内容仓库(200)接收作为聚类对象的文档D(30d)、文档E(30e)及文档F(30f)。

内容聚类服务器(320)以聚类关键词为基础从文档D(30d)、文档E(30e)及文档F(30f)提取相当于重要句子的重要句子D(40d)、重要句子E(40e)及重要句子F(40f)。

内容聚类服务器(320)算出所提取的重要句子D(40d)、重要句子E(40e)及重要句子F(40f)之间的相似度。而且，内容聚类服务器(320)以算出来的重要句子D(40d)、重要句子E(40e)及重要句子F(40f)之间的相似度为基础组成包含文档D(30d)及文档E(30e)的群组A(60a)并且组成包含文档F(30f)的群组B(60b)。

图14是用来说明根据本发明的一个实施例的聚类方法的顺序图。图14所示聚类方法假设作为聚类对象的多个文档中包含第一文档与第二文档。

请参阅图14，内容聚类服务器(320)从用户终端(400)收到包含群组关键词的内容聚类请求时，从内容仓库(200)接收作为聚类的对象的多个文档(S410)。

内容聚类服务器(320)以聚类关键词为基础从所收到的多个文档各自提取重要句子(S420)。具体地说，内容聚类服务器(320)可以从包含在多个文档的第一文档提取第一重要句子而从第二文档则提取第二重要句子。

内容聚类服务器(320)算出所提取的重要句子之间的相似度(S430)。根据本发明的一个实施例的内容聚类服务器(320)可以利用杰卡德系数或汉明距离中的某一个算出重要句子之间的相似度。但不限定于此，内容聚类服务器(320)也可以利用谷本相似度或余弦相似度中的某一个算出重要句子之间的相似度。

而且，内容聚类服务器(320)以算出来的相似度为基础把包含在多个文档的文档加以聚类(S440)。具体地说，内容聚类服务器(320)能以算出来的相似度为基础决定包含在多个文档的第一文档与第二文档是否能够被一个群组包括。

综上所述，内容聚类服务器(320)不是单纯地以多个文档的相似度为基础而是以符合读者关注事项的重要句子的相似度为基础把多个文档加以聚类。因此，内容聚类服务器(320)能够根据读者的关注事项把内容加以分类。

前文结合图5到图14说明的根据本发明若干实施例的方法可以通过下列方式进行，亦即，由电脑可读的编码所实现的电脑程序执行。电脑程序可以通过互联网之类的网络从第一运算装置传输到第二运算装置并且安装在第二运算装置后在第二运算装置使用。在此，第一运算装置及第二运算装置可以包括台式电脑、服务器或工作站之类的固定式运算装置；智能手机、平板电脑、平板手机或便携式电脑之类的移动运算装置；及智能手表、智能眼镜或智能手环之类的可穿戴式运算装置。

上述电脑程序可以用来执行下列步骤：接收关键词；分析包含多个句子的文档后识别包含在上述文档的各句子；组成把上述各句子作为顶点而把上述各句子之间的相似度作为边的加权值的图形；在上述图形适用变形的佩奇等级算法算出上述各句子的重要度，上述变形的佩奇等级算法则适用下列加权值地反映，该加权值则基于和上述关键词的关联度；及以上述算出来的重要度为基准从上述文档提取重要句子。

上述电脑程序可以用来执行下列步骤：从用户终端接收文档概述请求；以上述用户终端的用户资料为基准选定反映了上述用户偏好度的关键词；反映上述选定的关键词而从上述从文档提取重要句子；及以上述所提取的重要句子为基础生成上述文档的摘要。

而且，上述电脑程序可以用来执行下列步骤：接收第一关键词及第二关键词；反映上述第一关键词而从包含多个句子的文档提取k个重要句子；以上述k个重要句子为基础生成第一摘要；反映上述第二关键词而从第一摘要提取m个重要句子；及以上述m个重要句子为基础生成第二摘要。

如前所述的电脑程序可以记录在CD-ROM、DVD-ROM、MO(Magnetic Optical)、ZIP、SD card或Flash memory之类的可读媒体。

下面结合图15及图16说明根据本发明的一个实施例的文档概述装置(100)的结构。图15是根据本发明的一个实施例的文档概述装置(100)的逻辑结构的块图。

请参阅图15，文档概述装置(100)可以包含通信单元(105)、句子识别单元(110)、图形创建单元(115)、重要度核定单元(120)及摘要生成单元(125)地组成。

下面说明各构成要素，通信单元(105)可以让文档概述装置(100)和外部装置收发数据。具体地说，通信单元(105)可以通过网络从用户终端(400)接收关键词并且传递给句子识别单元(110)。此时，关键词是一种从文档(10)提取重要句子时用来适用读者各自的偏好度的词语。因此，关键词可以是能够呈现出文档(10)读者各自的观点、关注事项或意图等的词语。

通信单元(105)从内容仓库(200)接收文档(10)并且传递给句子识别单元(110)。通信单元(105)所收到的文档(10)可以包含韩文、英文、数字、空格字符、特殊字符之类的文本，但不限定于此，作为文档概述对象的文档(10) 也可以包含图像、图表或OLE客体(object)。

而且，通信单元(105)可以把摘要生成单元(125)所生成的摘要发送给内容仓库(200)、应用服务器(300)或用户终端(400)。

根据本发明的一个实施例的通信单元(105)可以利用以太网、xDSL、HFC或FTTH之类的有线通信网；CDMA、WCDMA、GSM、HSPA或LTE之类的移动通信网；或wi-fi、全球微波互联接入、无线宽带接入、蓝牙或紫蜂协议之类的近距离无线通信网；中的一个以上收发数据。

接着，句子识别单元(110)分析通过通信单元(105)收到的文档(10)后识别包含在文档(10)的各句子。具体地说，句子识别单元(110)可以识别包含在文档(10)的终结词尾并且以所识别的终结词尾为基础识别包含在文档(10)的各句子。但不限定于此，句子识别单元(110)也可以识别包含在文档(10)的句号、问号、逗号之类的符号并且以所识别的符号为基础识别包含在文档(10)的各句子。

接着，图形创建单元(115)组成了把通过句子识别单元(110)识别的各句子作为顶点而把各句子之间的相似度作为边的加权值的图形。图形创建单元(115)所组成的图形可以是无向图，但不限定于此。

根据本发明的一个实施例的图形创建单元(115)可以在完全图除掉若干边后组成图形。

具体地说，图形创建单元(115)组成了把通过句子识别单元(110)识别的各句子作为顶点而所有的顶点则互相通过边连接的完全图。图形创建单元(115)算出各句子之间的相似度。

根据本发明的一个实施例的图形创建单元(115)可以利用杰卡德系数或汉明距离中的某一个算出句子之间的相似度。但不限定于此，图形创建单元(115)可以利用谷本相似度或余弦相似度中的某一个算出句子之间的相似度。

图形创建单元(115)把算出来的相似度作为把顶点之间连接起来的边的加权值地赋予。而且，图形创建单元(115)在图形中除掉被赋予了低于阈值的加权值的边。此时，阈值是一种用来显示具连贯关系的两个句子之间所存在的最小相似度的值。虽然可以作为一例地把阈值设定为1，但不限定于此。而且，阈值可以在文档概述装置(100)事先设定或者由请求了文档(10)摘要的用户终端(400)指定。

根据本发明另一个实施例的图形创建单元(115)可以在仅由顶点组成的图形上赋予若干边后组成图形。

具体地说，图形创建单元(115)组成了以所识别出来的各句子为顶点的图形。图形创建单元(115)分析各句子后识别重要标记。此时，标记是用来表现各句子所含词语的实质意义的部分。例如，标记可以是包含在各句子的词根或词干，但不限定于此。

当包含在图形上的两顶点的句子含有同一标记时，图形创建单元(115)为两顶点之间赋予边。而且，当包含在图形上的两顶点的句子所包含的标记全部不相同时，图形创建单元(115)不会为两顶点之间赋予边。

接着，重要度核定单元(120)在通过图形创建单元(115)组成的图形上适用变形的佩奇等级算法后算出各句子的重要度。此时，变形的佩奇等级算法以邻接第一顶点的诸多顶点的相对重要度为基础算出第一顶点的重要度，在邻接第一顶点的各顶点的相对重要度上反映了加权值，该加权值则和邻接第一顶点的各顶点的句子是否包含上述关键词有关。亦即，变形的佩奇等级算法算出包含在图形的各顶点的相对重要度，但考虑各顶点与关键词之间的关联度后算出相对重要度。

具体地说，重要度核定单元(120)为了算出句子A的重要度PR_w(A)而适用下列数学式5，该下列数学式5把佩奇等级算法加以变形。

【数学式5】

在此，T_n是相当于句子A的顶点上所连接的其它顶点。PR_w(T_n)是针对T_n顶点适用了变形的佩奇等级算法后算出来的重要度。亦即，PR_w(T_n)是T_n顶点的佩奇等级值。根据本发明的一个实施例的重要度核定单元(120)可以在PR_w(T_n)的初始值代入任意数(Arbitrarynumber)并且反复(iterative)执行变形的佩奇等级算法直到PR_w(T_n)收敛到一定值为止。但根据本发明另一个实施例的重要度核定单元(120)也可以在PR_w(T_n)的初始值代入w(T_n)并且反复(iterative)执行变形的佩奇等级算法直到PR_w(T_n)收敛到一定值为止。在这种情况下，文档概述装置(100)比较少执行变形的佩奇等级算法也能算出PR_w(T_n)。

而且，w(T_n)是加权值，该加权值则基于相当于T_n顶点的句子和关键词之间的关联度。根据本发明的一个实施例的重要度核定单元(120)可以根据关键词在相当于T_n顶点的句子内出现的频度确定w(T_n)。例如，重要度核定单元(120)在相当于T_n顶点的句子中关键词出现的频度越大时越能把w(T_n)设定为较大值，相当于T_n顶点的句子中关键词的出现频度越小越能把w(T_n)设定为较小值。而且，根据本发明另一个实施例的重要度核定单元(120)可以根据相当于T_n顶点的句子中关键词的出现位置确定w(T_n)。例如，当相当于T_n顶点的句子中总共有20个标记并关键词出现在从句子前面算起的第4个位置时，文档概述装置(100)可以把w(T_n)设定为相当于上位20％的值。而且，重要度核定单元(120)可以根据相当于T_n顶点的句子和关键词之间的关联度而线性确定w(T_n)，但不限定于此，也可以根据相当于T_n顶点的句子和关键词之间的关联度非线性地确定w(T_n)。

最后，摘要生成单元(125)以通过重要度核定单元(120)算出来的重要度为基础生成摘要。具体地说，摘要生成单元(125)能以算出来的重要度为基础从文档(10)提取重要度最高的一个重要句子。摘要生成单元(125)能选择通过边连接到所提取的一个重要句子的顶点的其它顶点的句子。而且，摘要生成单元(125)可以利用所提取的一个重要句子及选定的其它顶点的句子生成摘要。

摘要生成单元(125)能以句子的重要度、相似度或句子长度中的某一个以上为基础在通过边连接到一个重要句子顶点的其它顶点句子中选择用于生成摘要的句子。例如，摘要生成单元(125)能在通过边连接到一个重要句子顶点的其它顶点句子中从适用变形的佩奇等级算法算出来的重要度最大的句子起按照上述重要度降低的顺序选择k个句子。摘要生成单元(125)能在通过边连接到一个重要句子顶点的其它顶点句子中按照和重要句子的相似度高的顺序选择k个句子。而且，摘要生成单元(125)能在通过边连接到一个重要句子顶点的其它顶点句子中按照句子长度较长的顺序选择k个句子。

而且，摘要生成单元(125)能从算出来的重要度最大的句子起按照上述重要度降低的顺序从文档(10)提取k个重要句子。摘要生成单元(125)拟提取的重要句子的数量(k)可以在文档概述装置(100)事先设定或者由请求了文档(10)摘要的用户终端(400)指定。而且，摘要生成单元(125)能以重要句子在文档(10)内的位置为基础把所提取的k个重要句子重新排列后生成摘要。

目前为止，图15的各构成要素可以意味着软件(Software)或FPGA(Field-Programmable Gate Array)或ASIC(Application-Specific Integrated Circuit)之类的硬件(hardware)。然而，上述构成要素并不限定于软件或硬件，也可以配置成位于能够寻址(Addressing)的存储介质，也可以配制成执行一个或一个以上的处理器。在上述构成要素内所供应的功能可以通过进一步细分的构成要素实现，也可以通过把多个构成要素结合成执行特定功能的一个构成要素来实现。

图16是根据本发明的一个实施例的文档概述装置(100)的硬件架构图。请参阅图16，文档概述装置(100)可以包括处理器(155)、内存(160)、网络接口(165)、数据总线(170)及存儲器(175)地组成。

处理器(155)可由用来进行运算的一个以上的CPU(Central Processing Unit)组成。内存(160)可以载入用来执行根据本发明的一个实施例的文档概述方法的软件(180a)。网络接口(165)可以和内容仓库(200)、应用服务器(300)或用户终端(400)中的某一个进行数据收发。数据总线(170)可以连接到处理器(155)、内存(160)、网络接口(165)及存儲器(175)后发挥出在各构成要素之间传递数据的移动通路作用。

而且，存储器(175)可以保存用来执行根据本发明的一个实施例的文档概述方法的软件(180b)。而且，存儲器(175)可以保存API(Application Programming Interface)、库(Library)或资源(Resource)文件等，其在实行用来执行上述文档概述方法的软件(180b)时需要。

更具体地说，存储器(175)可以保存包括下列诸多操作的电脑程序：接收关键词；分析包含多个句子的文档后识别包含在上述文档的各句子；组成下列图形，该图形把上述各句子作为顶点并且把上述各句子之间的相似度作为边的加权值；在上述图形适用变形的佩奇等级算法算出上述各句子的重要度，上述变形的佩奇等级算法则变形以便把基于和上述关键词的关联度的加权值加以反映；及以上述算出来的重要度为基准从上述文档提取重要句子。

存储器(175)可以保存包括下列诸多操作的电脑程序：从用户终端接收文档概述请求；以上述用户终端的用户资料为基准选定反映了上述用户偏好度的关键词；反映上述选定的关键词而从上述文档提取重要句子；及以上述所提取的重要句子为基础生成上述文档的摘要。

而且，存储器(175)可以保存包括下列诸多操作的电脑程序：接收第一关键词及第二关键词；反映上述第一关键词而从包含多个句子的文档提取k个重要句子；以上述k个重要句子为基础生成第一摘要；反映上述第二关键词而从第一摘要提取m个重要句子；及以上述m个重要句子为基础生成第二摘要。

Claims

1.一种文档概述方法，其特征在于，

包括下列步骤：

接收关键词；

分析包含多个句子的文档后识别包含在上述文档的各句子；

组成下列图形，该图形把上述各句子作为顶点(Vertex)并且把上述各句子之间的相似度作为边(Edge)的加权值(Weight)；

在上述图形适用变形的佩奇等级算法(PageRank algorithm)算出上述各句子的重要度，上述变形的佩奇等级算法则变形以便把基于和上述关键词的关联度的加权值加以反映；及

以上述算出来的重要度为基准从上述文档提取重要句子；

上述佩奇等级算法以邻接第一顶点的诸多顶点的相对重要度为基础算出上述第一顶点的重要度，在邻接上述第一顶点的各顶点的相对重要度上反映加权值，该加权值则和邻接上述第一顶点的各顶点的句子是否包含上述关键词有关。

2.根据权利要求1所述的文档概述方法，其特征在于，

组成图形的上述步骤包括下列步骤：

组成以上述各句子作为顶点的图形，上述图形是所有的顶点全部通过边连接起来的完全图；

算出上述各句子之间的相似度，把算出来的相似度作为把上述顶点之间连接起来的边的加权值地赋予；及

在上述图形中删除被赋予了低于既定阈值的加权值的边。

3.根据权利要求1所述的文档概述方法，其特征在于，

上述提取重要句子的步骤包括下列步骤：

从上述文档提取既定的k个重要句子，上述k个重要句子则从上述重要度最大的句子起按照上述重要度降低的顺序提取；及

以上述重要句子在上述文档内的位置为基础把上述k个重要句子重新排列后生成摘要。

4.根据权利要求1所述的文档概述方法，其特征在于，

上述提取重要句子的步骤包括下列步骤：

从上述文档提取一个重要句子；

在通过边连接到上述所提取的重要句子顶点的其它顶点句子中选择用于生成摘要的句子；及

利用上述所提取的重要句子及上述所选择的用于生成摘要的句子生成摘要。

5.一种文档概述方法，其特征在于，

包括下列步骤：

从用户终端接收不包含用来提取文档的重要句子的关键词的文档概述请求；

以上述用户终端的用户资料为基准选定反映了上述用户偏好度的关键词；

反映上述选定的关键词而从上述文档提取重要句子；及

以上述所提取的重要句子为基础生成上述文档的摘要。

6.根据权利要求5所述的文档概述方法，其特征在于，

上述选定关键词的步骤包括下列步骤：

选择反映了上述用户的偏好度的第一关键词及第二关键词；

上述提取重要句子的步骤包括下列步骤：

反映上述第一关键词而从上述文档提取既定的k个重要句子；及

反映上述第二关键词而从上述文档提取既定的m个重要句子；

上述生成摘要的步骤包括下列步骤：

以上述根据第一关键词提取的k个重要句子及上述根据第二关键词提取的m个重要句子中的同一句子为基础生成上述摘要。

7.一种文档概述方法，其特征在于，

包括下列步骤：

接收第一关键词及第二关键词；

反映上述第一关键词而从包含多个句子的文档提取k个重要句子；

以上述k个重要句子为基础生成第一摘要；

反映上述第二关键词而从第一摘要提取m个重要句子；及

以上述m个重要句子为基础生成第二摘要。

8.一种文档概述方法，其特征在于，

包括下列步骤：

接收第一关键词及不同于上述第一关键词的第二关键词；

反映上述第一关键词而从包含多个句子的文档提取第一重要句子；

反映上述第二关键词而从上述文档提取第二重要句子；及

生成包含上述第一重要句子与上述第二重要句子的摘要；

上述第一重要句子与上述第二重要句子是相异的句子。

9.一种搜索服务提供方法，其特征在于，

包括下列步骤：

从用户终端接收搜索用关键词；

利用上述收到的搜索用关键词进行预搜索；

作为进行上述预搜索的结果，从搜索的文档提取重要句子；及

把上述所提取的重要句子是否包含上述搜索用关键词加以反映地把上述预搜索结果重新配置而组成最终搜索结果。

10.根据权利要求9所述的搜索服务提供方法，其特征在于，

上述提取重要句子的步骤包括下列步骤：

从上述文档提取既定的k个重要句子，上述k个重要句子则从句子重要度最大的句子起按照上述重要度降低的顺序提取；

组成上述最终搜索结果的步骤包括下列步骤：

上述k个重要句子丝毫不包含上述搜索用关键词时，组成排除了上述文档的上述最终搜索结果。

11.根据权利要求9所述的搜索服务提供方法，其特征在于，

还包括下列步骤：从上述用户终端接收过滤用关键词；

上述提取重要句子的步骤包括下列步骤：

组成上述最终搜索结果的步骤包括下列步骤：

上述过滤用关键词被包含在上述k个重要句子时，组成排除了上述文档的上述最终搜索结果。

12.根据权利要求9所述的搜索服务提供方法，其特征在于，

上述提取重要句子的步骤包括下列步骤：从既定的m个文档各自提取重要句子，上述m个文档则是根据上述搜索用关键词搜索的文档；

组成上述最终搜索结果的步骤包括下列步骤：

算出上述所提取的重要句子之间的相似度；及

从上述最终搜索结果把拟提取上述相似度低于既定阈值的重要句子的文档加以排除。

13.一种内容聚类方法，其特征在于，

包括下列步骤：

接收包括第一文档及第二文档的多个文档；

接收包含群组关键词的内容聚类请求；

利用上述群组关键词从第一文档提取第一重要句子；

利用上述群组关键词从第二文档提取第二重要句子；

算出上述第一重要句子与上述第二重要句子之间的相似度；及

以上述算出来的相似度为基础决定上述第一文档与上述第二文档能否包含在一个群组。

14.一种重要句子选定方法，其从由多个句子组成的文本选定重要句子，其特征在于，

包括下列步骤：

反映第一关键词而从上述文本选定第一重要句子；

反映不同于上述第一关键词的第二关键词而从上述文本选定不同于上述第一重要句子的第二重要句子；及

作为对应于上述第一关键词及上述第二关键词的上述文本的概述结果，把包含上述第一重要句子及上述第二重要句子的上述文本的概述数据发送给用户终端。

15.一种文档概述装置，其特征在于，

包括：

网络接口；

一个以上的处理器；

把上述处理器所执行的电脑程序载入(load)的内存；及

储存一个以上的文件的存儲器；

上述电脑程序包括下列操作：

接收关键词；

分析包含多个句子的文档后识别包含在上述文档的各句子；

组成把上述各句子作为顶点而把上述各句子之间的相似度作为边的加权值的图形；

在上述图形适用变形的佩奇等级算法算出上述各句子的重要度，上述变形的佩奇等级算法则变形以便把基于和上述关键词的关联度的加权值加以反映；及

以上述算出来的重要度为基准从上述文档提取重要句子；