CN100444194C - 文章标题及关联信息的自动抽取装置和抽取方法 - Google Patents

文章标题及关联信息的自动抽取装置和抽取方法 Download PDF

Info

Publication number
CN100444194C
CN100444194C CNB200510116866XA CN200510116866A CN100444194C CN 100444194 C CN100444194 C CN 100444194C CN B200510116866X A CNB200510116866X A CN B200510116866XA CN 200510116866 A CN200510116866 A CN 200510116866A CN 100444194 C CN100444194 C CN 100444194C
Authority
CN
China
Prior art keywords
title
article
candidate sentence
information
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB200510116866XA
Other languages
English (en)
Other versions
CN1955979A (zh
Inventor
张正操
孙茂松
刘绍明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to CNB200510116866XA priority Critical patent/CN100444194C/zh
Publication of CN1955979A publication Critical patent/CN1955979A/zh
Application granted granted Critical
Publication of CN100444194C publication Critical patent/CN100444194C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种自动且高精度地抽取文章标题的标题抽取装置。文章标题抽取装置包括:从由文章输入部(30)输入的文本文章中抽取多个标题候选句的标题候选句抽取部(32);抽取所抽取出的多个标题候选句的各自的特征量的候选句标题判定用特征量抽取部(34);根据所抽取的特征量从多个标题候选句中判定标题的标题判定部(36);输出抽取结果的输出部(38)。特征量至少包含作为标题候选句与文章中的多个句子的相似度的函数值的相似度信息。

Description

文章标题及关联信息的自动抽取装置和抽取方法
技术领域
本发明涉及从通过扫描仪等读取的文章中自动抽取出文章标题的文章标题抽取装置。
背景技术
通过使用光学扫描仪等读入纸质原稿,从被电子化后的图像数据中抽取文章标题的装置已逐渐被实用化。例如,在专利文献1中,涉及到把文章转换为图像数据时而得到的文章图像中抽取文章标题的标题抽取装置,根据该标题抽取装置,将外接于文章图像内的黑色像素所连接的矩形区域作为字符矩形而抽取出,而且,合并相邻的多个字符矩形,将与这些字符矩形外接的矩形区域作为字符串矩形而抽取出,接着,根据各字符串矩形的下划线属性、带框属性、表格属性等属性,以及文章图像内的字符串矩形的位置和相互位置关系,计算各字符串矩形为标题的得分,将获得高分的字符串矩形作为标题而抽取出来。
专利文献2涉及如下的标题抽取装置,该标题抽取装置对于从文章图像中切出的字符串矩形,进行该字符串矩形内的字符码的识别,通过字符码识别的可信度、对与自然语言标题的相仿度进行解析的自然语言解析单元、词尾的统计信息、居中/下划线/特定的字体、字符矩形的大小等方法,来抽取标题。
非专利文献1公开了如下的技术:可使用正规表达式抽取技术论文的地址、城市名、URL、时间,并可将论文开始部分中未被抽取的部分作为作者和标题而抽取出来。
非专利文献2公开了如下的技术:以文章开始部分为对象,以语言特征(单词数、行的位置、单词与非单词的比率、首字母为大写和小写的比率、数字的比率)等作为特征量,利用SVM(Support Vector Machines,支持向量机)来判定标题。
专利文献1日本特开平9-134406号
专利文献2日本特开2000-148788
非专利文献1 E Berkowitz,M Elkhadiri,T Sahouri and MAbraham.2004.Intelligent Content Based Title and Author NameExtraction from Formatted Documents.Proceedings Fifteenth MidwestArtificial Intelligence and Cognitive Science Conference.Pages119-124.
非专利文献2 Hui Han,C Giles,E Manavoglu,Hongyuan Zha,Zhenyue Zhang and E Fox.2003.  Automatic Document MetadataExtraction using Support Vector Machines.ACM/IEEE Joiht Conferenceon Digital Libraries.Pages36-48.
然而,因为专利文献1的标题抽取装置的对象是非格式化的文章,所以使用行区域的版面信息(layout)特征来进行标题抽取,所以存在抽取率不充分的问题。专利文献2虽然使用几个标题的属性来评定标题,但对于具有多个短字符串矩形的文章,因为具有标题属性的短字符串矩形较多,所以存在容易发生误判的问题。
另外,在非专利文献1和非专利文献2中公开的技术存在如下问题:因为依赖于文章的结构,所以难以适用于技术论文以外的文章,并且,在文章的开始信息较少的情况下,不能进行正确的标题抽取。
发明内容
本发明是为了解决上述现有问题而提出的,其目的在于提供一种标题抽取装置、抽取方法和抽取程序,其不必一定依赖于文章的版面和内容范围,而是充分地有效利用语言知识,将标题候选句的长度、候选句与其它句的相似度的排名、作者、机构名、标题关键字串、候选句与作者的距离、标题禁用关键字串、邮政编码、标点符号等信息作为标题候选句的特征量,利用分类装置(例如,SVM)判定该特征量是否是标题,从而能够最大限度地利用标题独特的属性,用灵活的判定方式高精度地抽取文章标题及其关联信息。
本发明的文章标题抽取装置包括:标题候选句抽取单元,其从文章中抽取多个标题候选句;特征量抽取单元,其抽取所抽取出的多个标题候选句的各自的特征量;判定单元,其根据所抽取的特征量从多个标题候选句中判定文章标题;以及输出单元,其输出判定结果,特征量至少包含相似度信息,该相似度信息是标题候选句与文章中的多个句子的相似度的函数值。
优选相似度信息包含表示标题候选句与文章中的多个句子的相似度大小的排名信息。使用从标题候选句所选择的子字符串的向量信息和从文章中的句子所选择的子字符串的向量信息来计算相似度信息。根据从标题候选句所选择的N(N是大于等于2的自然数)元串的出现频率和从文章中句子所选择的N元串的出现频率来计算向量信息。通过使用这种相似度信息,不使用分词分析,即可有效地利用语言信息、实现高精度的文章标题的抽取和判定。
而且,在根据N元串的出现频率计算向量信息时,在包含有预先规定的禁止使用的N元串的情况下,修正该向量信息。通过除去不能成为标题的字符串或成为标题的可能性小的字符串,可提高文章标题的判定以及抽取的精度。
另外,可以通过标题候选句与文章中的句子的编辑距离来计算相似度信息,也可以通过标题候选句与文章中的句子的最大共同字符串的长度来计算。
而且,在标题候选句中包含预先规定的标题关键字串的情况下,特征量包含表示该关键字串的位置和出现频率的标题关键字串信息,在标题候选句中包含预先规定的禁止使用标题关键字串的情况下,特征量包含表示该禁止使用标题关键字串的位置和出现频率的禁止使用标题关键字串信息。因此,标题候选句的特征量包含各种特征,这可以提高标题的判定精度。
判定文章标题的判定单元根据标题候选句的特征量,抽取最佳的标题候选句。优选利用SVM(支持向量机)对特征量进行分类、判定。输出单元例如包括显示器等显示装置,输出已判定的标题句和关联信息。关联信息是作者和机构名等。
文章标题抽取装置还包括:输入单元,其用于输入图像文章;以及文本数据抽取单元,其从输入的图像文章中抽取文本数据,标题候选句抽取单元也可以从所抽取的文本数据中抽取标题候选句。用于输入图像文章的输入单元包括光学读取扫描仪,从通过扫描仪读取的图像文章数据中,用OCR(光学字符识别装置)等抽取文本数据。优选使标题候选句抽取单元从文本数据的开头开始,在一定的候选对象范围内抽取标题候选句。这是因为能成为标题的文章大多被包含在开头部分。
特征量也可以包含从输入的图像文章所得到的版面信息。通过利用这些信息,提高了文章标题的判定精度。
本发明的文章标题抽取方法包括如下步骤:从文章中抽取多个标题候选句的步骤;针对所有的标题候选句抽取特征量的步骤,该特征量包含标题候选句与文章中的多个句子的相似度信息;根据所抽取的特征量,从多个标题候选句中判定文章标题的步骤;以及输出判定结果的步骤。而且本发明的文章标题抽取程序包括:从文章中抽取多个标题候选句的步骤;针对所有的标题候选句抽取特征量的步骤,该特征量包含标题候选句与文章中的多个句子的相似度信息;根据所抽取的特征量,从多个标题候选句中判定文章标题的步骤;以及输出判定结果的步骤。
根据本发明的文章标题抽取装置,抽取标题候选句的各自的特征量,该特征量包含作为表示标题候选句与文章中的多个句子的相似度的函数值的相似度信息,所以,不一定依赖于文章的版面、图像信息和内容范围,可以通过充分有效地利用了语言知识的灵活的判定方式,高精度地抽取文章标题和关联信息。使用SVM的抽取方法,可减少判别规则的不完全性、OCR的误识别所产生的影响,所以最适合于已扫描的文本数据(实施了OCR的文本数据)的标题及其关联信息的自动抽取。通过使用SVM,经过学习,可提高***的抽取性能(抽取范围的扩大、抽取精度)。
附图说明
图1是实现本发明的实施例的文章标题抽取装置的硬件结构图。
图2是本实施例的文章标题抽取装置的功能块图。
图3是标题候选句抽取部的动作流程图。
图4是从日语文章中抽取的标题候选句的示例图。
图5是通过候选句相似度特征量抽取部所抽取的特征量的说明图。
图6是特征量求法的说明图。
图7是日语姓氏字典的一例。
图8是2元串向量特征量的计算流程图。
图9是2元串频率#’(x)的计算方法的说明图。
图10是本发明的第2实施例的文章标题抽取装置的功能块图。
图11是中国人的姓氏以及名字的字典。
图12是中国的机构名的字典。
图13是中文的2元串标题关键字串字典和2元串标题禁用关键字串字典。
图14中的图14(a)表示中文样本文章的标题候选句,图14(b)表示标题候选句的特征量。
图15是通过SVM对图14所示的标题候选句的特征量进行分类后的结果。
符号说明
10:文章标题抽取装置;12:输入装置;14:显示装置;16:主存储装置;18:存储装置;20:CPU;30:文章输入部;32:标题候选句抽取部;34:候选句标题判定特征量抽取部;36:标题判定部;38:抽取结果输出部;60:图像文章输入部;62:版面和图像信息抽取部;64:文本文章抽取部。
具体实施方式
下面,参照附图对本发明的最佳实施方式进行说明。
(实施例)
图1是表示本发明的实施例的文章标题抽取装置的结构图。标题抽取装置10包括输入装置12、显示装置14、主存储装置16、存储装置18、中央处理装置(CPU)20以及连接这些装置的总线22。
输入装置12包括通过键盘操作来输入信息的键盘、光学读取记载于原稿中的文章等的光学式读取装置(扫描仪)、输入来自外部装置或外部存储器等的数据的输入接口等。显示装置14包括用于显示从文章中抽取的标题及其关联信息等的显示器等。主存储装置16包括ROM或RAM,存储程序和被运算处理的数据等,所存储的程序用于从文章中抽取标题候选句,或抽取标题候选句的特征量,或判定文章标题。存储装置18例如包括硬盘等大容量存储装置,存储被扫描仪光学读取的图像文章数据或在特征量抽取时使用的各种字典数据库等。CPU(Central ProcessingUnit:中央处理单元)20按照存储在主存储装置16中的程序来控制各部。
图2是功能性地示出了文章文本抽取装置的框图。文章输入部30输入文章的文本句子。文本句子例如可以是通过输入接口所接收到的文本数据,或者,也可以是从扫描仪光学读取的图像文章数据中通过OCR(字符识别装置)所抽取的文本数据。当然,也可以是通过除此之外的方法而得到的文本数据。
标题候选句抽取部32从输入的文本句子中抽取可能成为标题的标题候选部分。标题候选句抽取部把从输入的文本文章的开头开始的规定范围作为候选对象范围,从包含在候选对象范围内的文本句子中,将被特定的标记以及换行标记切分的部分作为标题候选句。
图3表示标题候选句抽取部32的动作流程。标题候选句抽取部32将从输入文章的开头开始的α%的部分设定为候选对象范围(步骤S101)。α是整数,例如是50。接着,标题候选句抽取部从包含在候选对象范围内的文本句子中,将被标记(;.?!=~@#$%^&*_|¥n;。?!...)和换行标记所切分的部分作为标题候选句(步骤S102)。最后,将被切分的标题候选句集合,存储在存储装置中(步骤S103)。
图4表示以日语文章为输入文章的示例。该图(a)是通过扫描仪等读取的文本句子的输入文章,该图(b)是将从输入文章的开头开始的50%的部分设为候选对象范围而进行抽取的示例,该图(c)表示了候选对象范围内被标记和换行标记所切分的标题候选句的集合。
再返回图2,所抽取的标题候选句被提供给候选句标题判定用特征量抽取部34。候选句标题判定用特征量抽取部34从所有的标题候选句中抽取出用于判定标题候选句的特征量。如图5所示,特征量由候选句的长度40、相似度的排名信息41、作者信息42、机构名信息43、标题关键字串信息44、作者的位置信息45、标题禁用关键字串46、邮政编码47以及标点符号数量48这9个要素构成。
图6是构成特征量的各部分信息的计算方法的说明图。“候选句的长度”40是标题候选句的长度,单位是字节。例如,用候选句的长度(字节)/150(常数)的值来表示。
“相似度的排名信息”41首先是计算标题候选句与文章中的其它的句子间的相似度,把相似度为最高的相似度作为该标题候选句的相似度。对于所有的标题候选,按相似度的升序对其进行排序,将排名1到M(M是标题候选句的数量)赋予给所有的标题候选。用相似度的排名信息=1/相似度的排名来表示。
相似度能够通过下面的方法求得。
方法1:使用标题候选句的VSM向量特征量,求得句子之间的相似度(或者句子之间的距离)的方法。VSM向量特征量可以使用单词的TF(TF/IDF)、TF(term frequency)和IDF(inverse document frequency)的函数值。另外,也可以将字符串切分成N元串,作为N元串的TF(TF/IDF),或者,TF和IDF的函数值。而且,也可以使用已经公开的向量之间的相似度、距离的计算方法。
方法2:使用字符串之间的编辑距离求得句子之间的距离。
方法3:使用2个字符串之间的最大共同字符串的长度求得句子之间的相似度。
方法4:其它已经公开的任意的方法。
在本实施例中,如后述所示,将字符串切分成2元串,计算2元串向量特征量之间的相似度。
关于“作者信息”42,当在标题候选句中包含有作者时,“作者信息”42的标记被设为“1”,其它情况下被设为“0”。例如,可以使用已经公开的专名抽取技术,或者人名抽取技术。图7是按顺序示出了登载于电话本等中的日本人的姓氏及其件数的姓氏字典。也可以比较标题候选句与图7的姓氏字典,如果命中,将“作者信息”42的标记设为“1”,如果未命中设为“0”。另外,与姓氏字典一样,也可以准备日本人的名字字典,将标题候选句与名字字典进行比较,如果命中,将标记设为“1”,如果未命中,设为“0”。另外,也可以仅在姓氏和名字双方都命中时将标记设为“1”。关于是否命中,不仅是字符串完全一致的情况,也可以是前方一致、后方一致等部分一致的情况。
关于“机构名信息”43,在标题候选句中包含有机构名信息的情况下,“机构名信息”43的标记被设为“1”,其它情况下被设为“0”。例如,将预先登记了机构名的机构名字典与标题候选句进行比较,在机构名命中了的情况下,将标记设为“1”,在未命中的情况下,设为“0”。关于是否命中,不仅是字符串完全一致的情况,也可以是前方一致、后方一致等部分一致的情况。
“标题关键字串信息”44是表示在标题候选句中是否包含有预先设定的标题关键字串的信息,是集中了标题关键字串的位置和标题关键字串的出现的频率的信息。标题关键字串例如作为标题关键字串字典进行预先登记。“作者位置信息”45,按标题候选句在文章中出现的前后顺序从1开始赋予标题候选句编号。假设,在第i个标题候选句中第一次出现作者。则从编号1到编号i+3的标题候选句的“作者的位置信息”=1,其它的候选句的“作者的位置信息”=“0”。
“标题禁用关键字串信息”46是表示在标题候选句中是否包含有预先规定的标题禁止使用关键字串的信息,是集中了标题禁用关键字串的位置和标题禁用关键字串的出现的频率的信息。关于标题禁用关键字串,将不在标题中使用的字符串或者使用可能性小的字符串预先登记到字典中,检查是否与其对应。
“邮政编码”47把连续的6位数字作为邮政编码。在标题候选句中包含邮政编码的情况下,把标记设为“1”,其它情况下设为“0”。“标点符号的数量”48是包含在标题候选句中的“,”、“.”、“;”的数量。
再有,如图5所示,示出了候选句相似度用特征量由9个要素构成的示例,但不限于此。在标题抽取上,只要至少包含第2个“相似度排名信息”即可,也可以把“相似度排名信息”与其它信息适当组合。例如,可以将“相似度排名信息”和第5个的“标题关键字串信息”作为特征量,或者将“相似度排名信息”和第7个的“标题禁用关键字串信息”作为特征量。当然,也可以追加其它的语言信息。例如,也可以追加住址信息等。而且,如果是用扫描仪读取图像文章,则可以得到文章的版面信息(候选句的位置关系等)和图像信息(字符的大小、颜色、字符的种类等),也可以将这些作为特征量的信息进行追加。
再返回到图2,把通过候选句标题判定用特征量抽取部34所抽取的所有的标题候选句的特征量提供给标题判定部36。标题判定部36由通过学习而构成的判定分类部构成。分类部可以使用已经公开的任意的分类技术。例如,作为具体例,可以使用SVM(Support Vector Machine)的分类技术。可参照例如被记载于论文“Support Vector Machineによるテキスト分類”,1998,自然语言处理,128-24等中的SVM引擎。
当通过标题判定部36抽取了标题时,将该抽取结果提供给抽取结果输出部38。抽取结果输出部38在显示装置14上显示已抽取出的标题。同时,也可以显示作者等关联信息。
下面,说明特征量的相似度的计算方法。首先,从标题候选句的左边开始向右抽取出所有连续的2个字符的字符串(2元串)。例如,如果标题候选句是“知识产权”,则以“知识”、“识产”、“产权”的方式,切分出2元串的字符串。用A=(β1、β2、…βN)表示标题候选句的2元串向量特征量。用B=(β’1、β’2、…β’N)表示文章中的其它句子的2元串向量特征量。用下面的公式,计算标题候选句与文章中的其它句子之间的所有的相似度sim(A,B)。
[公式1]
sim ( A , B ) = Σ i ∈ N β i · β i ′ Σ i ∈ N β i 2 Σ i ∈ N β i ′ 2
图8示出了计算2元串向量特征量时的流程。从标题候选句的左边开始向右抽取出所有的连续的2字符的字符串(2元串)(步骤S201)。接着,求出所有的2元串的出现频率#(x)(步骤S202)。下一步,参照作为禁止使用而预先登记了2元串的禁用2元串字典50,如果标题候选句包含禁用2元串,则修正向量特征量的维数(步骤S203)。最后,使用修正后的2元串频率#’(x),生成向量特征量A、B(步骤S204)。
图9表示了2元串频率#’(x)的计算方法。
MI(x,y):2元串x,y的互信息量;
#(x)是2元串X在本文章中出现的次数;
N,所有的2元串出现的次数;
#(x,y):在本文章中X和Y共现的次数;
这样,本实施例的文章标题抽取装置从标题候选句中抽取标题判定用特征量,根据该特征量来抽取/判定文章标题,因此,通过语言信息和基于统计的判别标准的融合,可以高精度地抽取出文章标题和关联信息。因为完全根据文章的内容来抽取标题和关联信息,所以,不必依赖于文章的版面、图像信息以及内容范围,可以抽取通用性高的文章标题。因为不必非得需要论文的关键字串信息、概要内容、专业领域的关联信息,所以标题抽取范围不依赖于领域。而且,具有如下特征:不使用分词分析,而抽取从标题候选句中所选定的2字符的子字符串,将存在于句子中的所有的2字符字符串之间的互信息量作为该句子的向量,将向量之间的Cos值(余弦值)作为句子之间的相似度,由此,仅OCR的极少量的误识别很难影响到标题的判定,适用于被扫描的图像文章的标题抽取。将标题候选句的长度、相似度的排名、作者、机构名、标题关键字串、候选句与作者的距离、标题禁用关键字串、邮政编码、标点符号等信息作为该句的特征量,利用分类装置(例如SVM)来判定是否是标题,由此,可高精度地抽取标题。
图10是表示本发明的文章标题抽取装置的第2实施例的框图。第2实施例是把图2所示的文章输入部30进行了变形的例子。图像文章输入部60输入图像文章,将输入的图像文章数据输出到版面和图像信息抽取部62。例如可使用扫描仪等来进行输入。版面和图像信息抽取部62从图像文章数据中抽取版面信息和图像信息。版面信息例如包含标题候选句的位置关系等信息,图像信息包含字符的大小、颜色、字体等信息。版面信息以及图像信息的抽取可使用公知的技术,例如,公开在特开平9-134406号和特开平2000-148788号等中的技术。
接着,文本信息抽取部64例如通过OCR,从图像信息中抽取文本信息。OCR可以使用公知的技术或在市场出售的OCR。所抽取的文本信息被提供给标题候选句抽取部32。另外,在第2实施例中,在候选句标题判定用特征量抽取部34中,在抽取标题候选句的特征量时,可包含在版面和图像信息抽取部62得到的版面信息和图像信息。
第2实施例中,可以通过扫描仪等读入图像文章,从读入的图像文章中自动地抽取文章标题。同时,通过将包含于图像文章数据中的版面信息添加到标题候选句的特征量中,可进一步提高文章标题的判定精度。
下面,说明对中文文章实施本发明的文章标题抽取装置时的例子。对于中文文章,也如图2所示,通过文章输入部30输入文本文章,通过标题候选句抽取部32从文章中抽取标题候选句。候选句标题判定用特征量抽取部34,如以下所示,在中文的特征量中,对作者名称以及机构名等进行最佳化。
图11示出了中国人的姓氏用字字典和名字用字字典。这里的方法只限定于中国人名。作者抽取方法由中国人名的姓氏识别以及名字识别构成,可使用如下的判断标准。
因为中国人名超过4个字符的情况很少,所以,如果标题候选句的字符串超过4个字符,则判断为不是人名。
在中国人名中,因为2字符的姓氏非常少,所以,判断标题候选句的字符串的开头2个字是否是2字符姓氏。如果是2字符姓氏,则可判定为本候选字符串是姓氏。
计算人名判定值。首先,准备具有出现频率的、出现于中国人姓氏中的字符的列表(称为姓氏用字字典)和出现于名字中的字符的列表(称为名字用字字典)。姓氏用字字典和名字用字字典按字符的出现频率的高低顺序被排序。而且,将姓氏用字字典分为A、B、C的3个组。
A组:在姓氏用字字典中从头开始扫描,如果出现频率的累计被包含至全体的95%,则将扫描过的字符的集合设为A组。
B组:在姓氏用字字典中从头开始扫描,如果出现频率的累计被包含至全体的99%,则将扫描过的字符的集合设为B组。
C组:在姓氏用字字典中把所有的字符的集合设为C组。即,如果符合剩余的1%,则成为A、B以外的C组。
同样,将名字用字字典分为D、E、F的3个组。姓氏和名字的判定值分别用M和N表示。
假如候选字符串的开头部分是包含于A集合中的姓氏,则M=SA;
假如候选字符串的开头部分是包含于B集合中的姓氏,则M=SB;
假如候选字符串的开头部分是包含于C集合中的姓氏,则M=SC;
假如候选字符串的开头部分不是包含于C集合中的姓氏,则M=0;
假如候选字符串的最后部分是包含于D集合中的名字用字,则N=SD;
假如候选字符串的最后部分是包含于E集合中的名字用字,则N=SE;
假如候选字符串的最后部分是包含于F集合中的名字用字,则N=SF;
假如候选字符串的最后部分不是包含于F集合中的名字用字,则N=0;
假如M+N>阀值,则判定为候选字符串是人名。并且,SA、SB、SC、SD、SE、SF是常数。具有SA>SB>SC,SD>SE>SF的关系。
下面,对机构名的抽取方法进行说明。这里,可使用公开的专业名称抽取技术,或者机构名抽取技术,使用如下的判定标准。
长度测定。假如所输入的字符串的长度小于等于4个字符,则认为标题候选部分不是机构名,结束处理。
检查标题候选句的字符串是否包含机构名。图12是表示中文的机构名字典的一例。假如标题候选部分包含字典中的机构名,则设判定值为+A。
判断标题候选句的字符串是否是机构的全称。假如是全称,则设判定值为+B。这也通过与机构名字典对照来进行。
检查标题候选句的字符串是否包含机构名关键字串。假如包含,则设判定值为+C。这通过进行在字符串的特定位置(例如,句尾)是否包含机构名关键字串(例如“大学”)的对照来进行。
根据上面所述,如果满足判定值>阀值,则将标题候选句的字符串判定为机构名。并且,A、B、C是常数。
图13示出了中文的2元串标题关键字串字典和2元串标题禁用关键字串字典。在抽取标题候选句的特征量的标题关键字串信息44以及标题禁用关键字串信息46(参照图5)时,参照2元串标题关键字串字典和2元串标题禁用关键字串字典。例如,在标题禁用关键字串的开头所表示的“本病”,判定为这种字符串不会在文章标题中使用。
下面,说明从中文的样本文章中抽取标题候选句的例子。图14(a)表示了从中文的样本文章中抽取的标题候选句。图14(b)表示了关于这些标题候选句的特征量。图中,“:”前的数字表示特征量的维度编号(是图5中所示的特征量的9个要素,1是候选句的长度,2是相似度的排名信息,3是作者信息,4是机构名信息,5是标题关键字串信息,6是作者的位置信息,7是标题禁用关键字串信息,8是邮政编码,9是标点符号的数量),“:”后面的数字表示对应的维度值。“#”的后面的文章是对应的标题候选句。
例如,在从上开始的第2个标题候选句中,第2维的相似度的排名是“1”,即,表示与文章的其它标题候选句的2元串向量的相似度最高,第5维的标题关键字串信息是“1”,则表示包含标题关键字串。
这样得到的标题候选句特征量通过SVM进行分类。图15是将图14(b)的特征量通过SVM进行了分类时的结果,第1列用虚线包围起来的数据表示离正例分类面的距离。从上述的结果可知,离正例分类面最近的是“工务段计量工作管理初探”,该候选句被抽取出作为文章标题。
以上,对本发明的优选实施方式进行了详述,但不限定于本发明的特定的实施方式,在权利要求的范围内所述的本发明的要旨的范围内,可进行种种变形/变更。
本发明的文章标题抽取装置作为利用语言知识的文章信息抽取方法,可用于各种语言的文章标题的抽取。而且,将纸质原稿以拷贝的感觉实时地进行电子化,不依赖于纸质原稿的版面、图像信息、内容范围,可自动地进行索引,因此,最适合于通用的扫描索引***。

Claims (23)

1.一种文章标题抽取装置,其特征在于,包括:
标题候选句抽取单元,其从文章中抽取多个标题候选句;
特征量抽取单元,其从所述多个标题候选句中抽取用于判定所述多个标题候选句的各自的特征量;
判定单元,其根据所抽取的特征量,从多个标题候选句中抽取标题;以及
输出单元,其输出所抽取的标题,
所述特征量至少包含相似度信息,该相似度信息是标题候选句和文章中的多个句子的相似度的函数值。
2.根据权利要求1所述的文章标题抽取装置,其特征在于,
所述相似度信息包含表示标题候选句与文章中的多个句子的相似度大小的排名信息。
3.根据权利要求1或2所述的文章标题抽取装置,其特征在于,
使用从标题候选句所选择的子字符串的向量信息和从文章中的句子所选择的子字符串的向量信息来计算所述相似度信息。
4.根据权利要求3所述的文章标题抽取装置,其特征在于,
根据从标题候选句所选择的N元串的出现频率和从文章中的句子所选择的N元串的出现频率来计算所述向量信息,其中N是大于等于2的自然数。
5.根据权利要求4所述的文章标题抽取装置,其特征在于,
在根据所述N元串的出现频率计算向量信息时,在包含有预先规定的禁止使用的N元串的情况下,修正该向量信息。
6.根据权利要求1所述的文章标题抽取装置,其特征在于,
通过标题候选句与文章中的句子的编辑距离来计算所述相似度信息。
7.根据权利要求1所述的文章标题抽取装置,其特征在于,
通过标题候选句与文章中的句子的最大共同字符串的长度来计算所述相似度信息。
8.根据权利要求1所述的文章标题抽取装置,其特征在于,
在标题候选句中包含预先规定的标题关键字串的情况下,使所述特征量包含表示该关键字串的位置和出现频率的标题关键字串信息。
9.根据权利要求1所述的文章标题抽取装置,其特征在于,
在标题候选句中包含预先规定的禁止使用标题关键字串的情况下,使所述特征量包含表示该禁止使用标题关键字串的位置和出现频率的禁止使用标题关键字串信息。
10.根据权利要求1所述的文章标题抽取装置,其特征在于,
所述判定单元通过支持向量机对各标题候选句的特征量进行分类,根据分类结果抽取最佳的标题候选句。
11.根据权利要求1所述的文章标题抽取装置,其特征在于,
所述输出单元输出已判定的标题句和关联信息。
12.根据权利要求1所述的文章标题抽取装置,其特征在于,
文章标题抽取装置进一步包括:输入单元,其用于输入图像文章;和文本数据抽取单元,其从所输入的图像文章中抽取文本数据,标题候选句抽取单元从所抽取的文本文章中抽取标题候选句。
13.根据权利要求12所述的文章标题抽取装置,其特征在于,
所述标题候选句抽取单元从文本数据的开头开始,在一定的候选对象范围内抽取标题候选句。
14.根据权利要求13所述的文章标题抽取装置,其特征在于,
所述文章标题抽取装置进一步包括从图像文章中抽取版面信息的单元,所述特征量包含所抽取的版面信息。
15.一种文章标题抽取方法,从文章中抽取标题,其特征在于,包括如下步骤:
从文章中抽取多个标题候选句的步骤;
从所述多个标题候选句中抽取用于判定所述多个标题候选句的特征量的步骤,该特征量包含作为标题候选句与文章中的多个句子的相似度的函数值的相似度信息;
根据所抽取的特征量,从多个标题候选句中抽取文章标题的步骤;以及
输出所抽取的文章标题的步骤。
16.根据权利要求15所述的文章标题抽取方法,其特征在于,
所述相似度信息包含表示标题候选句与文章中的多个句子的相似度大小的排名信息。
17.根据权利要求15或16所述的文章标题抽取方法,其特征在于,
使用从标题候选句所选择的子字符串的向量信息和从文章中的句子所选择的子字符串的向量信息来计算所述相似度信息。
18.根据权利要求17所述的文章标题抽取方法,其特征在于,
根据从标题候选句所选择的N元串的出现频率和从文章中的句子所选择的N元串的出现频率来计算所述向量信息,其中N是大于等于2的自然数。
19.根据权利要求18所述的文章标题抽取方法,其特征在于,
在根据所述N元串的出现频率计算向量信息时,在包含有预先规定的禁止使用的N元串的情况下,修正该向量信息。
20.根据权利要求15所述的文章标题抽取方法,其特征在于,
通过标题候选句和文章中的句子的编辑距离来计算所述相似度信息。
21.根据权利要求15所述的文章标题抽取方法,其特征在于,
通过标题候选句和文章中的句子的最大共同字符串的长度来计算所述相似度信息。
22.根据权利要求15所述的文章标题抽取方法,其特征在于,
在标题候选句中包含有预先规定的标题关键字串的情况下,所述特征量包含表示该关键字串的位置和出现频率的标题关键字串信息。
23.根据权利要求15所述的文章标题抽取方法,其特征在于,
在标题候选句中包含有预先规定的禁止使用标题关键字串的情况下,所述特征量包含表示该禁止使用关键字串的位置和出现频率的禁止使用标题关键字串信息。
CNB200510116866XA 2005-10-27 2005-10-27 文章标题及关联信息的自动抽取装置和抽取方法 Expired - Fee Related CN100444194C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB200510116866XA CN100444194C (zh) 2005-10-27 2005-10-27 文章标题及关联信息的自动抽取装置和抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB200510116866XA CN100444194C (zh) 2005-10-27 2005-10-27 文章标题及关联信息的自动抽取装置和抽取方法

Publications (2)

Publication Number Publication Date
CN1955979A CN1955979A (zh) 2007-05-02
CN100444194C true CN100444194C (zh) 2008-12-17

Family

ID=38063295

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200510116866XA Expired - Fee Related CN100444194C (zh) 2005-10-27 2005-10-27 文章标题及关联信息的自动抽取装置和抽取方法

Country Status (1)

Country Link
CN (1) CN100444194C (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102595214A (zh) * 2012-03-06 2012-07-18 浪潮(山东)电子信息有限公司 一种数字电视节目关联推荐的方法
CN106502985B (zh) * 2016-10-20 2020-01-31 清华大学 一种用于生成标题的神经网络建模方法及装置
CN108388872B (zh) * 2018-02-28 2021-10-22 北京奇艺世纪科技有限公司 一种基于字体颜色的新闻标题识别方法及装置
CN116187307B (zh) * 2023-04-27 2023-07-14 吉奥时空信息技术股份有限公司 一种政务文章标题关键字提取方法、设备及存储设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108888A (ja) * 2000-09-29 2002-04-12 Nippon Telegraph & Telephone East Corp ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体
CN1365080A (zh) * 1995-09-06 2002-08-21 富士通株式会社 用于从文档图象抽取标题的标题抽取装置及其方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1365080A (zh) * 1995-09-06 2002-08-21 富士通株式会社 用于从文档图象抽取标题的标题抽取装置及其方法
JP2002108888A (ja) * 2000-09-29 2002-04-12 Nippon Telegraph & Telephone East Corp ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
CN1955979A (zh) 2007-05-02

Similar Documents

Publication Publication Date Title
JP3292388B2 (ja) 文書画像の復号なしに文書を要約するための方法と装置
JP3289968B2 (ja) 電子的文書処理のための装置および方法
US6907431B2 (en) Method for determining a logical structure of a document
US9514216B2 (en) Automatic classification of segmented portions of web pages
US6178417B1 (en) Method and means of matching documents based on text genre
US8005300B2 (en) Image search system, image search method, and storage medium
US7797622B2 (en) Versatile page number detector
US7756871B2 (en) Article extraction
JP3232144B2 (ja) 文章中の単語文節の出現頻度を求めるための装置
El et al. Authorship analysis studies: A survey
US8510312B1 (en) Automatic metadata identification
JPH05282423A (ja) 文書画像を復号することなく文書内の単語の出現頻度を調べるための方法
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
JP2007172077A (ja) 画像検索システム及び方法及びプログラム
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
CN108197119A (zh) 基于知识图谱的纸质档案数字化方法
CN100444194C (zh) 文章标题及关联信息的自动抽取装置和抽取方法
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
WO2007070010A1 (en) Improvements in electronic document analysis
Lim et al. Automatic genre detection of web documents
Couasnon et al. Making handwritten archives documents accessible to public with a generic system of document image analysis
Déjean et al. On tables of contents and how to recognize them
CN116822634A (zh) 一种基于布局感知提示的文档视觉语言推理方法
CN112560849B (zh) 基于神经网络算法的文理分割方法及***
JPH10198683A (ja) 文書画像分類方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20081217

Termination date: 20171027