CN102576358A - 单词对取得装置、单词对取得方法及其程序 - Google Patents

单词对取得装置、单词对取得方法及其程序 Download PDF

Info

Publication number
CN102576358A
CN102576358A CN2010800400339A CN201080040033A CN102576358A CN 102576358 A CN102576358 A CN 102576358A CN 2010800400339 A CN2010800400339 A CN 2010800400339A CN 201080040033 A CN201080040033 A CN 201080040033A CN 102576358 A CN102576358 A CN 102576358A
Authority
CN
China
Prior art keywords
word
mentioned
pattern
class
storage part
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800400339A
Other languages
English (en)
Other versions
CN102576358B (zh
Inventor
史蒂恩·德萨哲
鸟泽健太朗
风间淳一
黑田航
村田真树
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Publication of CN102576358A publication Critical patent/CN102576358A/zh
Application granted granted Critical
Publication of CN102576358B publication Critical patent/CN102576358B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

以往,未能恰当地取得具有规定关系的单词对。一种单词对取得装置,具备:单词类信息存储部,可存储确定单词的类的单词类信息;类对良好度存储部,可存储表示两个类的良好程度的类对良好度;种子模式存储部,可存储一个以上的种子模式,该种子模式用于取得具有规定关系的两个单词对;单词对取得部,从一个以上的文章群中,取得与种子模式同现的一个以上的单词对;类对良好度取得部,取得与一个以上的单词对对应的类对良好度;分数决定部,使用类对良好度,决定各单词对的分数;单词对选择部,取得一个以上的单词对,该单词对的分数高到满足预先决定的条件;单词对输出部,输出由单词对选择部取得的一个以上的单词对。

Description

单词对取得装置、单词对取得方法及其程序
技术领域
本发明涉及一种取得具有规定关系的两个单词对的单词对取得装置等。
背景技术
以往,具有一种给出少量想要取出的单词对(Word Pair)而从该单词对取得模式的单词对取得装置。而且,以往的单词对取得装置取得与该取得的模式同现的单词对(例如,参照非专利文献1)。
非专利文献1:P.Pantel and M.Pennacchiotti.Espresso:Leveraging genericpatterns for automatically harvesting semantic relations.In Proceedings of the 21stInternational Conference on Computational Linguistics and 44th Annual Meeting ofthe Association for Computational Linguistics(COLINGACL-06),pages 113-120,2006.
发明内容
发明所要解决的课题
但是,以往的单词对取得装置,无法恰当地取得具有规定关系的单词对。解决课题的方法
本第一发明的单词对取得装置,具备:文章群存储部,可存储一个以上的文章群;单词类信息存储部,可存储两个以上的单词类信息,该单词类信息是将一个以上单词与用于识别一个以上单词所属的类的类标识符关联起来而拥有的信息;类对(Class pair)良好度存储部,可存储类对良好度,该类对良好度是表示两个类的良好程度的指标;单词对(Word Pair)存储部,可存储一个以上的由两个单词构成的单词对;类对良好度取得部,从类对良好度存储部取得存储在单词对存储部中的一个以上单词对拥有的各单词所属的两个类的类对良好度;分数决定部,使用由类对良好度取得部取得的类对良好度,决定单词对存储部中的各单词对的分数;单词对选择部,取得一个以上的单词对,该单词对具有由分数决定部决定的分数满足预先决定的条件的高分数;单词对输出部,输出由单词对选择部取得的一个以上的单词对。
根据所述构成,能够利用类对良好度,恰当取得具有规定关系的单词对。
而且,本第二发明的单词对取得装置,相对于第一发明,进一步具备:种子模式(Seed pattern)存储部,可存储一个以上的种子模式,该种子模式是为了取得具有规定关系的两个单词对而利用的模式;类对良好度算出部,以如下方式算出类对良好度,即,当分别属于两个类的单词对,在文章群存储部中的一个以上的文章群中与一个以上的种子模式同现的次数或比例越多,则类对良好度越大;而且,由类对良好度算出部算出的两个类的类对良好度是,存储在类对良好度存储部中的类对良好度。
根据所述构成,能够恰当地算出类对良好度,并利用该类对良好度,恰当地取得具有规定关系的单词对。
而且,本第三发明的单词对取得装置,相对于第一或第二发明,进一步具备:模式存储部,可存储一个以上的模式,该模式是不同于种子模式的模式,是为了取得具有规定关系的两个单词对而利用的模式;模式相似度存储部,能够按照每个模式,对在模式存储部中存储的一个以上的各模式与种子模式之间的相似度进行存储;单词对取得部,取得在种子模式存储部中存储的一个以上种子模式及在模式存储部中存储的一个以上模式中的任一个,并且从存储在文章群存储部中的一个以上文章群中,取得与种子模式或模式同现的一个以上的单词对;分数决定部还使用在模式相似度存储部中存储的一个以上的各模式与种子模式之间的相似度,决定由单词对取得部取得的各单词对的分数。
根据所述构成,能够利用种子模式与模式的相似度,更加恰当地取得具有规定关系的单词对。
而且,本第四发明的单词对取得装置,相对于第三发明,进一步具备模式相似度算出部,该模式相似度算出部以如下方式算出相似度,即与一个以上种子模式同现的单词对所对应的类对,和与存储在模式存储部中的一个以上的各模式同现的单词对所对应的类对之间的交叠越大,相似度就越大;模式相似度算出部算出的相似度是,存储在模式相似度存储部中的相似度。
根据所述构成,能够恰当地算出种子模式与模式的相似度,并利用相似度,更加恰当地取得具有规定关系的单词对。
而且,本第五发明的单词对取得装置,相对于第一至第四的任一发明,进一步具备亲和度信息存储部,该亲和度信息存储部可存储亲和度信息,该亲和度信息是有关一个以上的各单词对与一个以上的各模式之间的亲和度的信息;分数决定部还使用亲和度信息存储部中的亲和度信息,决定由单词对取得部取得的各单词对的分数。
根据所述构成,能够利用模式与单词对的亲和度,进一步恰当地取得具有规定关系的单词对。
而且,本第六发明的单词对取得装置,相对于第五发明,进一步具备亲和度信息算出部,该亲和度信息算出部以如下方式算出亲和度信息,即,单词对取得部取得的一个以上的单词对与一个以上的各模式同现的次数或比例越多,亲和度信息则越大;而且,亲和度信息存储部的亲和度信息是由亲和度信息算出部算出的亲和度信息。
根据所述构成,能够恰当地算出模式与单词对的亲和度,并利用该亲和度,进一步恰当地取得具有规定关系的单词对。
而且,本第七发明的单词对取得装置,相对于第六发明,分数决定部将类对良好度、种子模式与模式之间的相似度及亲和度信息的乘积为最大的种子模式或模式的分数,决定为各单词对的分数。
根据所述构成,能够高精度地算出单词对的分数,其结果,非常适当地取得具有规定关系的单词对。
而且,本第八发明的单词对取得装置,相对于第三至第七中的任一发明,进一步具备模式取得部,该模式取得部对于存储在文章群存储部中的一个以上文章群的每个语句,进行词素解析及依存关系解析,并将第一个名词或名词子句作为起点,将第二个名词或名词子句作为终点,而且将自起点至终点的词素连接关系作为模式取得,或者还将自起点的词素连接关系与自终点的词素连接关系相连的词素,作为模式取得;而且,模式存储部中的模式是,由模式取得部取得的模式。
根据所述构成,能够从文章群中恰当取得模式,并利用该模式,恰当取得具有规定关系的单词对。
而且,本第九发明的单词对取得装置,相对于第一至第八中的任一发明,进一步具备:排除类对存储部,可存储一个以上排除类对,该排除类对是用于识别与最终不输出的单词对对应的类对的两个类标识符;单词对排除部,从输出的单词对中排除与一个以上的排除类对对应的单词对。
根据所述构成,能够降低输出不当单词对的可能性,其结果,更恰当地取得具有规定关系的单词对。
而且,本第十发明的单词对取得装置,相对于第九发明,进一步具备:类出现频率信息存储部,可按照每个类存储类出现频率信息,该类出现频率信息成对地拥有一个以上文章群中属于各类的单词的平均出现频率以及类标识符;排除类对积蓄部,将平均出现频率具有预先决定的阈值以上的差的两个类的类标识符作为排除类对,而积蓄在排除类对存储部中。
根据所述构成,能够降低输出不恰当单词对的可能性,其结果,更恰当地取得具有规定关系的单词对。
而且,本第十一发明的单词对取得装置,相对于第一至第十中的任一发明,进一步具备单词类信息取得部,该单词类信息取得部使用文章群存储部中的一个以上的文章群,并以如下方式取得一个以上的单词类信息,即,使与同一动词、或与同一动词和助词同现的次数或比例多的单词属于同一类;而且,单词类信息存储部中的单词类信息是,由单词类信息取得部取得的单词类信息。
根据所述构成,能够更恰当地取得单词类信息。
发明效果
根据本发明涉及的单词对取得装置,能够恰当地取得具有规定关系的单词对。
附图说明
图1是包含实施方式1涉及的单词对取得装置1的单词取得***的概念图。
图2是该单词对取得装置的、着眼于进行取得单词对处理的构成要素的框图。
图3是该单词对取得装置的、着眼于进行取得单词对处理之前进行准备工作的构成要素的框图。
图4是表示该字符串的依存关系解析结果的示意图。
图5是表示该字符串的依存关系解析结果的示意图。
图6是用于说明该单词对取得装置动作的流程图。
图7是表示该单词类信息管理表的示意图。
图8是表示该类出现频率信息管理表的示意图。
图9是表示该单词对等的输出例的示意图。
图10是表示在该实验1中各方法的精确度的曲线图。
图11是表示该单词对等的输出例的示意图。
图12是表示在该实验2中各方法的精确度的曲线图。
图13是表示该单词对等的输出例的示意图。
图14是表示在该实验3中各方法的精确度的曲线图。
图15是表示该概率分布管理表的示意图。
图16是该计算机***的概观图。
图17是该计算机***的框图。
具体实施方式
下面,参照附图说明单词对取得装置等的实施方式。还有,由于在实施方式中赋予了相同附图标记的构成要素进行相同动作,故省略再次说明。
实施方式1
在本实施方式中,说明取得具有规定关系的两个单词对的单词对取得装置。本单词对取得装置,将单词对所属的类对的好坏程度(后述的类对良好度)作为衡量指标,而选择单词对。而且,本单词对取得装置,将提取单词对时利用的模式的好坏程度(后述的相似度)作为衡量指标,而选择单词对。进一步,本单词对取得装置,使用模式与单词对的亲和度(后述的亲和度信息),而选择单词对。
图1是包含实施方式涉及的单词对取得装置1的单词取得***的概念图。单词取得***包括,单词对取得装置1和一个以上的文章群存储装置2。文章群存储装置2是存储有文章群的服务器装置。文章群存储装置2例如是网络上的服务器装置,存储有一个以上的网页。这种情况下,文章群为网页。而且,单词对取得装置1从一个以上的文章群存储装置2中取得文章群,并至少暂存该文章群。
图2及图3是本实施方式涉及的单词对取得装置1的框图。图2是在单词对取得装置1的构成要素中,主要着眼于进行取得单词对处理的构成要素的框图。图3是在单词对取得装置1的构成要素中,主要着眼于进行取得单词对处理之前进行准备工作的构成要素的框图。但是,图2、图3是将单词对取得装置1分离的构成的一例而已。
单词对取得装置1具备,文章群存储部101、单词对存储部102、单词类信息存储部103、种子模式存储部104、模式存储部105、类对良好度存储部106、模式相似度存储部107、亲和度信息存储部108、排除类对存储部109、类出现频率信息存储部110、单词对取得部111、单词对积蓄部112、单词类信息取得部113、单词类信息积蓄部114、模式取得部115、模式积蓄部116、类对良好度算出部117、类对良好度积蓄部118、模式相似度算出部119、模式相似度积蓄部120、亲和度信息算出部121、亲和度信息积蓄部122、类对良好度取得部123、模式相似度取得部124、亲和度信息取得部125、分数决定部126、单词对选择部127、单词对输出部128、单词对排除部129、排除类对积蓄部130、类出现频率信息算出部131。
文章群存储部101可存储一个以上的文章群。文章群例如是网页。但是,文章群不限于此。文章群也可以是文本数据、规定的数据库等,不限其构造。文章群存储部101中的文章群优选是,通过通信手段或广播接收手段等取得的文章群。文章群存储部101优选为非易失性记录介质,但是易失性记录介质也可以实现。在文章群存储部101中存储文章群的过程不限。例如,也可以通过记录介质将文章群存储在文章群存储部101中,也可以通过通信线路等将文章群存储在文章群存储部101中,或者也可以将通过输入设备输入的文章群存储在文章群存储部101中。
单词对存储部102可存储一个以上的单词对。单词对是具有规定关系的两个单词。在此,单词通常为名词或名词子句。但是,也可以将形容词等其它词类认为是单词。另外,规定关系是指,例如,原因与结果的关系、原材料与产品的关系、现象与该现象的防止手段的关系等。规定关系为原因与结果的关系时,例如,单词对为“病毒”与“感冒”等。单词对存储部102优选为非易失性记录介质,但是易失性记录介质也可以实现。在单词对存储部102中存储单词对的过程不限。但是,通常由单词对积蓄部112将单词对取得部111取得的单词对积蓄在单词对存储部102中。
单词类信息存储部103可存储两个以上的单词类信息。单词类信息是指,将一个以上单词与用于识别一个以上单词所属类的类标识符关联起来而拥有的信息。类是指,将经常与同一动词同现的单词(通常为名词)作为属于同一类的单词。而且,也可以将经常与同一动词及助词同现的单词(通常为名词)作为属于同一类的单词。在此,经常同现是指,以预先决定的次数(频率)或比例以上,与同一动词或与同一动词及助词同现的情况。单词类信息也可以是具有类标识符及用于识别一个以上单词的一个以上单词标识符的信息。单词类信息存储部103优选为非易失性记录介质,但是易失性记录介质也可以实现。在单词类信息存储部103中存储单词类信息的过程不限。但是,通常由单词类信息积蓄部114将单词类信息取得部113取得的单词类信息积蓄在单词类信息存储部103中。
种子模式存储部104可存储一个以上的种子模式。种子模式是指,为了取得具有规定关系的两个单词对而利用的模式。种子模式是预先被赋予的模式。种子模式是用于取得单词对或新模式的基本模式。另外,模式是包含两个单词和表达模式的文字列。模式例如是,“X引起Y”、“X引起的Y”等。在此,置换到X与Y的两个单词为单词对。也就是说,X或Y是所谓变数。变数中可以包括字符串。还有,存储在种子模式存储部104中的种子模式,例如为10或20等的模式。种子模式存储部104优选为非易失性记录介质,但是易失性记录介质也可以实现。
在种子模式存储部104中存储种子模式的过程不限。但是,种子模式通常通过用户手动输入而积蓄在种子模式存储部104中。
模式存储部105可存储一个以上的模式。模式是,不同于种子模式的模式,是为了取得具有规定关系的两个单词对而利用的模式。但是,模式中也可以包含种子模式。模式存储部105优选为非易失性记录介质,但是易失性记录介质也可以实现。在模式存储部105中存储模式的过程不限。但是,通常由模式积蓄部116将模式取得部115取得的模式积蓄在模式存储部105中。还有,模式也可以通过用户手动作业进行积蓄。
类对良好度存储部106可存储表示两个类的良好程度的指标的类对良好度。在此,将两个类称为类对。而且,表示两个类的良好程度的指标是指,属于两个类的单词对常与种子模式同现的程度。属于两个类的单词对越经常与种子模式同现,则称为好的类对。类对良好度是数值。而且,越是好的类对,类对良好度值越大。在类对良好度存储部106中通常存储有一个以上的类对良好度信息,该类对良好度信息将两个类的类标识符与类对良好度成对而拥有。而且,使用表示类对不好的指标,也与使用类对良好度具有相同的含义。当类对良好度表示类对不好的指标时,例如,类对良好度越大,则表示类对不好。还有,当类对良好度表示类对不好的指标时,在后述的公式中,例如,类对良好度认为是倒数而计算。类对良好度存储部106优选为非易失性记录介质,但是易失性记录介质也可以实现。在类对良好度存储部106中存储类对良好度的过程不限。但是,通常由类对良好度积蓄部118将类对良好度算出部117算出的类对良好度积蓄在类对良好度存储部106中。
模式相似度存储部107可按照每个模式对存储在模式存储部105中的一个以上的各模式与种子模式的相似度进行存储。模式相似度存储部107,例如,将用于识别模式的模式标识符与相似度关联起来而拥有。而且,模式相似度存储部107也可以例如将模式与相似度关联起来而拥有。模式与种子模式的相似度的算出方法不限。相似度的具体算出方法后述。模式相似度存储部107优选为非易失性记录介质,但是易失性记录介质也可以实现。在模式相似度存储部107中存储相似度的过程不限。但是,通常由模式相似度积蓄部120将模式相似度算出部119算出的模式相似度积蓄在模式相似度存储部107中。
亲和度信息存储部108可存储亲和度信息,该亲和度信息是有关一个以上的各单词对与一个以上的各模式之间的亲和度的信息。亲和度信息是,通常表示单词对与模式之间的亲和度程度的数值。亲和度信息越大,表示单词对与模式之间的亲和度程度越高。亲和度信息存储部108,例如,将模式标识符或模式、单词对或单词对的标识符(也可以是两个单词标识符)与亲和度信息关联起来而拥有。而且,亲和度信息也可以表示单词对与模式之间亲和度低的程度。这种情况下,亲和度信息越小,表示单词对与模式之间的亲和度程度越高。亲和度信息存储部108优选为非易失性记录介质,但是易失性记录介质也可以实现。在亲和度信息存储部108中存储亲和度信息的过程不限。但是,通常由亲和度信息积蓄部122将亲和度信息算出部121算出的亲和度信息积蓄在亲和度信息存储部108中。
排除类对存储部109可存储一个以上的排除类对。排除类对是指,表示与最终不会输出的单词对对应的类对的信息。排除类对是通常具有两个类标识符的信息。但是,排除类对也可以是单词对等能够取得两个类标识符的基本信息。排除类对存储部109优选为非易失性记录介质,但是易失性记录介质也可以实现。在排除类对存储部109中存储排除类对的过程不限。但是,通常将被排除类对积蓄部130排除的排除类对积蓄在排除类对存储部109中。但是,也可以通过用户手动输入,将排除类对积蓄在排除类对存储部109中。
类出现频率信息存储部110可按照每个类存储类出现频率信息。类出现频率信息是指,将在一个以上文章群内属于各类的单词的平均出现频率与类标识符成对而拥有的信息。平均出现频率由未图示的类出现频率信息取得部,例如通过下面处理而取得。类出现频率信息取得部取得属于各类的所有单词在一个以上文章群内出现的频率(f1、f2、...fn)。其次,类出现频率信息取得部,按照每个类算出,类内所有单词的平均出现频率((f1+f2+...+fn)/n)。类出现频率信息存储部110优选为非易失性记录介质,但是易失性记录介质也可以实现。在类出现频率信息存储部110中存储类出现频率信息的过程不限。但是,通常将由类出现频率信息算出部131算出的类出现频率信息积蓄在类出现频率信息存储部110中。但是,也可以通过用户手动输入,将类出现频率信息积蓄在类出现频率信息存储部110中。
单词对取得部111取得种子模式存储部104中存储的一个以上种子模式中的任一个,并从存储在文章群存储部101中的一个以上文章群中,取得与取得的种子模式同现的一个以上单词对。单词对与种子模式等模式同现是指,在句子中存在模式(除了单词对的字符串),且在句子中出现构成单词对的两个单词的情况。例如,模式为“X引起Y”时,所谓单词“X”和“Y”与模式“X引起Y”同现。当种子模式为“X引起Y”时,单词对取得部111,从一个以上文章群中的句子“病毒引发感冒”中取得“病毒”和“感冒”。而且,种子模式为“X引起的Y”,当一个以上文章群中的句子为“关于交通事故引起的经济性的损失”(交通事故による経済的な損害に関して)时,单词对取得部111进行如下处理而取得单词对“交通事故”和“损失”。也就是说,单词对取得部111通过模式匹配等语言处理技术识别在“关于交通事故引起的经济性的损失”中存在“引起的”。其次,单词对取得部111对一个以上文章群中的句子“关于交通事故引起的经济性的损失”进行词素解析,从而获得“关于|交通事故|引起|的|经济性|的|损失”及各词素的词类。而且,其次,单词对取得部111进行依存关系解析,从而获得如图4所示的词素之间的依存关系信息(箭头所示信息)。之后,单词对取得部111取得与“引起的”相连的名词“交通事故”和自“引起的”相连的名词“损失”。该“交通事故”与“损失”是单词对。作为进行上述词素解析的技术,存在JUMAN(参照URL:http://nlp.kuee.kyoto-u.ac.jp/nl-resource/juman.html),或ChaSen(参照URL:http://chasen.naist.jp/hiki/ChaSen)等,属于公知技术。而且,作为进行依存关系解析的技术,有日语语法分析***KNP(参照URL:http://nlp.kuee.kyoto-u.ac.jp/nl-resource/knp.html)等,属于公知技术。
单词对取得部111更优选利用存储在种子模式存储部104中的一个以上种子模式及存储在模式存储部105中的一个以上模式中的任一个(通常为全部),取得单词对。也就是说,更优选单词对取得部111依次取得一个以上种子模式和一个以上模式中的任一个,并从存储在文章群存储部101中的一个以上文章群中,取得与种子模式或模式同现的一个以上单词对。
而且,单词对取得部111取得单词对时也可以不使用种子模式或模式。也就是说,单词对取得部111也可以从一个以上文章群中的各句子中,取得两个单词(通常名词)的对。这种情况,单词对取得部111取得在一个句子中同现的一个以上的单词对。
单词对取得部111通常可通过MPU或存储器等实现。单词对取得部111的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件(专用回路)实现。
单词对积蓄部112将由单词对取得部111取得的一个以上的单词对积蓄在单词对存储部102中。单词对积蓄部112通常可通过MPU或存储器等实现。单词对积蓄部112的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件(专用回路)实现。
单词类信息取得部113使用文章群存储部101中的一个以上文章群,取得一个以上单词类信息。单词类信息取得部113,例如对一个以上文章群中的各句子进行词素解析,从而取得所有动词与助词的组合或所有动词。而且,单词类信息取得部113,例如对一个以上文章群中的各句子进行词素解析,从而取得所有名词(包括名词子句)。然后,单词类信息取得部113,按照每个名词,算出各名词与各动词和助词的组合或各动词同现的次数或比例。其次,单词类信息取得部113,按照每个名词,取得将与各动词和助词的组合或各动词同现的次数或比例作为要素的向量。其次,单词类信息取得部113,将每个名词的向量大于等于预先决定的相似度的名词集合作为属于一个类,并取得单词类信息。还有,单词类信息是拥有一个以上单词和类标识符的信息。而且,类的数目是,例如,数百或数千等大数量。
单词类信息取得部113通常可通过MPU或存储器等实现。单词类信息取得部113的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件(专用回路)实现。
单词类信息积蓄部114将由单词类信息取得部113取得的两个以上的单词类信息积蓄在单词类信息存储部103中。单词类信息积蓄部114通常可通过MPU或存储器等实现。单词类信息积蓄部114的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件(专用回路)实现。
模式取得部115从存储在文章群存储部101中的一个以上文章群中的各句子中取得模式。具体地说,例如,模式取得部115对于存储在文章群存储部101中的一个以上文章群的各句子,进行词素解析及依存关系解析,并且将第一个名词(包括名词子句)作为起点,以第二个名词作为终点,而将自起点至终点的词素连接关系作为模式取得。而且,模式取得部115更优选还将连接自起点的词素连接关系与自终点的词素连接关系的词素作为模式取得。例如,当一个以上文章群中的句子为“关于交通事故引起的经济性的损失”(交通事故による経済的な損害に関して)时,模式取得部115,对该句子进行词素解析,从而获得“关于|交通事故|引起|的|经济性|的|损失”(交通事故|に|よる|経済的|な|損害|に|関して)。而且,根据词素解析,模式取得部115检测出第一个名词“交通事故”和第二个名词“损失”为名词。而且,根据依存关系解析,模式取得部115获得图4的依存关系信息。其次,模式取得部115,将第一个名词“交通事故”作为起点,将第二个名词“损失”作为终点,并将自起点至终点的词素连接关系“X引起的Y”作为模式取得。还有,在此,从模式删除与第二个名词“损失”关联的词素群“经济性的”。而且,例如,当一个以上的文章群的句子为“关于交通事故引起的经济损失”时,模式取得部115,对该句子进行依存关系解析,从而获得“关于|交通事故|引起|的|经济|损失”(交通事故|に|よる|経済|の|損害|に|関して)。模式取得部115检测出第一个名词“交通事故”、第二个名词“经济”和第三个名词“损失”为名词。然后,根据依存关系解析,模式取得部115获得图5的依存关系信息。其次,模式取得部115,还将连接第一个名词“交通事故”的自起点的词素连接关系与第二个名词“损失”的自终点的词素连接关系的词素“损失”作为模式取得。在此,模式取得部115,将“X引起的Y损失”作为模式取得。并将自起点至终点的词素连接关系“X引起的Y”作为模式取得。
而且,模式取得部115也可以使用给出的两个名词(名词对)取得模式。也就是说,例如,给出两个名词“交通事故”和“损失”时,模式取得部115检测出在“关于交通事故引起的经济性的损失”中包含“交通事故”和“损失”。然后,模式取得部115对“关于交通事故引起的经济损失”进行词素解析,且进行依存关系解析,从而获得图4的依存关系信息。其次,模式取得部115,将第一个名词“交通事故”作为起点,第二个名词“损失”作为终点,并将自起点至终点的词素连接关系“X引起的Y”作为模式取得。
模式取得部115通常可通过MPU或存储器等实现。模式取得部115的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件(专用回路)实现。
模式积蓄部116将由模式取得部115取得的一个以上模式积蓄在模式存储部105中。模式积蓄部116通常可通过MPU或存储器等实现。模式积蓄部116的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件(专用回路)实现。
类对良好度算出部117以如下方式算出类对良好度,即,属于两个各类的单词对,在文章群存储部101中的一个以上的文章群中,与一个以上的种子模式同现的次数或比例越多则类对良好度越大。类对良好度(CScore(ci,cj,P))例如通过下面的公式1算出。还有,在公式1中,由于类对良好度表示类对的良好程度,所以当类对良好度为表示类对的不好程度的指标时,CScore(ci,cj,P)为,例如,在公式1中算出结果的倒数。
【公式1】
CScore ( ci , cj , P ) =
Σ ( ni , nj ) ∈ ci × cj | | ( ni , P , nj ) | | Σ ( ni , nj ) ∈ ci × cj | | ( ni , * , mj ) | | if conditionαholds 0 otherwise
在此,ni和nj为名词(单词)。ci或cj为类。而且,P为种子模式的集合。*表示任一模式。另外,||(ni,P,nj||为,名词ni和nj与种子模式的集合同现的频率。也就是说,“||(ni,P,nj)||=∑p∈P ||(ni,P,nj)||”。另外,||(ni,*,nj||为,名词ni和nj,在一个以上的文章群M中,与任一模式同现的频率。也就是说,“||(ni,*,nj)||=∑(ni,p,nj)∈M||(ni,P,nj)||”。所以,||(ni,*,nj||等于名词ni和nj同现的频率。
另外,α表示条件。而且,α是必须与规定数的不同种子模式同现的条件。而且,α的例为公式2。在公式2中,表示ni或nj与β(例如3)以上的不同种子模式同现的情况。也就是说,公式2的条件为α时,只与2以下的种子模式同现的单词对(ni或nj)的类对良好度为0。
【公式2】
| | { ( p ∈ P | ∃ ( ni , nj ) ∈ ci × cj , ( ni , p , nj ) ∈ M } | | ≥ β
在公式2中,M为一个以上的文章群。
另外,在公式1中,作为算出式的一例,表示属于两个各类的单词与一个以上的种子模式同现的次数或比例越多时,类对良好度CScore(ci,cj,P)程度越大。而且,在公式1中,作为算出式的一例,各属于两个类的单词与种子模式以外的模式同现次数或比例越多时其程度越小。
还有,取代类对良好度,而使用类对不好程度时,各属于两个类的单词与一个以上的种子模式同现次数或比例越多时其程度越小。此时,与属于两个各类的单词与一个以上的种子模式同现的次数或比例越多时类对良好度越大地算出类对良好度具有相同含义。
类对良好度算出部117通常可通过MPU或存储器等实现。类对良好度算出部117的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件(专用回路)实现。
类对良好度积蓄部118将由类对良好度算出部117算出的类对良好度积蓄在类对良好度存储部106中。类对良好度积蓄部118通常可通过MPU或存储器等实现。类对良好度积蓄部118的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件(专用回路)实现。
模式相似度算出部119算出一个以上的种子模式与存储在模式存储部105中的各模式之间的相似度。模式相似度算出部119通常以如下方式算出相似度,即与一个以上的种子模式同现的单词对对应的类对和与一个以上的各模式同现的单词对对应的类对之间的交叠越大,种子模式与模式的相似度越大。
模式相似度算出部119,将种子模式与模式的相似度,例如,通过公式3、公式4、公式5、公式6或公式7算出。也就是说,相似度是Para1(Pci×cj,P)、Para2(Pci×cj,P)、Para3(Pci×cj,P)、Para4(Pci×cj,P)或Para5(Pci×cj,P)等。在公式3至7中,P为种子模式的集合,p为任一模式。通常p也可以是种子模式。
【公式3】
Para 1 ( p ci × cj , P ) = | | I ( p ci × cj ) ∩ I ( P ci × cj ) | | | | I ( p ci × cj ) ∪ I ( P ci × cj ) | |
在公式3中,种子模式与模式的相似度为Para1(Pci×cj,P)。而且,“I(Pci ×cj)”表示,某一模式p与属于类ci和类cj的单词ni和nj同现的实例(instance)的集合。“I(Pci×cj)”为{ni,nj)∈ci×cj|(ni,p,nj)∈M}。而且,“(Pci×cj)”表示,任一种子模式与属于类ci和类cj的单词ni和nj同现的实例。而且,“I
Figure BDA0000141727480000142
”。而且,||I(Pci×cj)∩I(Pci×cj)||为,“I(Pci ×cj)”与“(Pci×cj)”交叠的实例数。而且,||I(Pci×cj)∪I(Pci×cj)||为,“I(Pci×cj)”与“(Pci×cj)”并集的实例数。
Para1作为Jaccard系数而算出,该Jaccard系数是,属于与模式p同现的类ci和类cj的单词ni和nj,与属于种子模式的集合P同现的类ci和类cj的单词ni和nj之间的系数。根据Para1,从作为类依存关系的使用模式p而生成的多个单词对“Pci×cj”中,可选择恰当的类。
如果使用公式3,则算出的相似度,与一个以上的种子模式同现的单词对对应的类对,和与一个以上的各模式同现的单词对对应的类对之间的交叠越大,种子模式与模式的相似度越大。而且,如果使用公式3,则算出的相似度,“I(Pci×cj)”与“(Pci×cj)”并集的实例的数越多,相似度越小。
另外,模式相似度算出部119,例如使用公式3算出种子模式与模式的相似度时,优选除去和“I(Pci×cj)”与“(Pci×cj)”不交叠的模式(||I(Pci ×cj)∩I(Pci×cj)||=0的模式)。由此,可实现高速化处理。
另外,作为公式3的变形,也可以如下的算出种子模式与模式的相似度Para3′
也就是说,对于p构成向量Vp,该向量Vp将与p同现的单词对作为向量元素、与模式p同现的单词对个数作为该单词对的向量元素的值。而且,对于P构成向量Vp,该向量Vp将与种子模式P同现的单词对作为向量维、与P同现的单词对的个数作为该单词对的向量维的值。但是,由于种子模式P为集合,所以对于P的各p创建向量,并且将该向量总和作为P的向量。
然后,算出这些向量的距离或角度。距离可根据|Vp-VP|(Vp、VP的各向量元素值的差的平方和的平方根)算出。角度可根据Vp·VP/|Vp|/|VP|算出。还有,Vp·VP为内积(Vp、VP的各向量元素值的乘积和),|Vp|为向量大小(Vp的各向量元素值的平方和的平方根)。
这是向量Vp与向量VP的相似度越大,种子模式与模式的相似度也越大,换言之,如上所述,和与一个以上的各模式同现的单词对对应的类对交叠越大,则种子模式与模式的相似度也越大。
【公式4】
Para 2 ( p ci × cj , P ) = Para 1 ( p ci × cj , P ) · | | I ( p ) ∩ I ( P ) | | | | I ( p ) ∪ I ( P ) | |
在公式4中,在相似度的算出中也采用独立于类的模式。而且,公式4是使用了公式3的“Para1(Pci×cj,P)”的变形例。稀有的类结合,存在仅包含少数实例的问题(稀疏性问题)。公式4用于解决该稀疏性问题。在公式4中的“I(p)”为,在文章群M中,与模式p同现的单词对的实例集合。“I(P)”为,与种子模式P同现的单词对的实例集合。而且,||I((p)∩I(P)||为,“I(p)”与“I(P)”交叠的实例数。而且,||I(p)∪I(P)||为,“I(p)”与“I(P)”并集的实例数。还有,公式4是类对中的Jaccard系数的补充。也就是说,在公式4中,并不仅限于包含于类中的单词对,对所有单词对进行计算。
公式4与公式3同样,以如下方式算出相似度,即与一个以上的种子模式同现的单词对对应的类对,和与一个以上的各模式同现的单词对对应的类对之间的交叠越大,种子模式与模式的相似度越大。而且,算出的相似度,“I(Pci×cj)”与“(Pci×cj)”并集的实例数越多,相似度越小。另外,如果使用公式4,则算出的相似度,“I(p)”与“I(P)”交叠的实例数越多,种子模式与模式的相似度越大。进一步,如果使用公式4,则算出的相似度,“I(p)”与“I(P)”并集的实例数越多,相似度越小。
【公式5】
Para 3 ( p ci × cj . P ) = 2 · | | I ( p ci × cj ) ∩ I ( P ci × cj ) | | | | I ( p ci × cj ) | | + | | I ( P ci × cj ) | |
在公式5中,||I(Pci×cj)||+||I(Pci×cj)||为,某一模式p与属于类ci和类cj的单词ni和nj同现的实例的集合数,与种子模式P与属于类ci和类cj的单词ni和nj同现的实例的集合数之和。还有,作为公式的变形,也可以将Para3的分母||I(Pci×cj)||+||I(Pci×cj)||变更为||I(Pci×cj)||×||I(Pci×cj)||等。而且,关于Para3的分母,也可以进行||I(Pci×cj)||和||I(Pci×cj)||的加权,进行和算或累计。也就是说,公式5是,只要将||I(Pci×cj)||和||I(Pci×cj)||作为参数的递减函数即可。而且,公式5是,只要将||I(Pci×cj)∩I(Pci×cj)||作为参数的递增函数即可。
【公式6】
Para 4 ( p ci × cj , P ) = | | I ( p ci × cj ) ∩ I ( P ci × cj ) | | ma × ( | | I ( p ci × cj ) | | , | | I ( P ci × cj ) | | )
在公式6中,max||I(Pci×cj)||、||I(Pci×cj)||为,与属于类ci和类cj的单词ni和nj同现的实例的集合数,和种子模式P与属于类ci和类cj的单词ni和nj同现的实例的集合数中较大的数。在公式6中,只要将||I(Pci×cj)∩I(Pci×cj)||作为参数的递增函数即可。
【公式7】
Para 5 ( p ci × cj , P ) = 1 2 ( D KL ( p 1 | | p 1 + p 2 2 ) + D KL ( p 2 | | p 1 + p 2 2 ) )
另外,在公式7中,DKL(p1||p2)如公式8所示。公式8中的DKL(p1||p2)为,概率分布p1和p2的库尔贝克-莱布勒差异(也称为KL差异)。关于库尔贝克-莱布勒差异,在“風間淳一,De Saeger,Stijn,烏澤健太郎,村田真樹“係り受けの確率的クラスタリングを用いた大規模類似語リストの作成”言語処理学会第15回年次大会(NLP2009)”等中有说明。库尔贝克-莱布勒差异属于公知,故省略详细说明。
【公式8】
D KL ( p 1 | | p 2 ) = Σ ( ni , nj ) p 1 ( ni , nj ) log 2 p 1 ( ni , nj ) p 2 ( ni , nj )
在公式7、8中,p1和p2是属于类对ci×cj的单词对(ni、nj)与Pci×cj同现的概率分布。p2是属于类对ci×cj的单词对(ni、nj)与P同现的概率分布。
而且,相对于p创建向量Vp,该向量Vp是,将与模式p同现的单词对除以向量维的值,以及将与p同现的单词对的个数除以p的总出现数的值,作为该单词对的向量维的值。而且,该各向量元素(ni、nj)的值为p1(ni、nj)。
而且,相对于P创建向量VP,该向量VP是,将与种子模式P同现的单词对除以向量维的值、并将与P同现的单词对的个数除以P的总出现数的值,作为该单词对的向量维的值。而且,该各向量元素(ni、nj)的值为p2(ni、nj)。
还有,KL差异也是采用向量的相似度大的指标。也就是说,在KL差异中,例如,p1和p2相同时,DKL的p1/p2为1,log2p1/p2为0,KL差异也为0。而且,p1和p2不同值时,最终的KL差异值为正数。
模式相似度算出部119通常可通过MPU或存储器等实现。模式相似度算出部119的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件(专用回路)实现。
模式相似度积蓄部120将由模式相似度算出部119算出的模式相似度,按照每个模式积蓄在模式相似度存储部107中。
模式相似度积蓄部120通常可通过MPU或存储器等实现。模式相似度积蓄部120的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件(专用回路)实现。
亲和度信息算出部121算出单词对与模式的亲和度信息。亲和度信息算出部121优选以如下方式算出亲和度信息,即,单词对取得部111取得的一个以上的单词对与一个以上的各模式同现次数或比例越多,亲和度信息越大。亲和度信息算出部121例如根据公式9或公式10算出单词对与模式的亲和度。
在公式9中,亲和度信息(Assoc1)为常数1,所以在后述的分数计算中,等于未考虑亲和度信息。
在公式10中,||(n,p,n′)||为,单词对(n、n′)与模式p同现的频率。也就是说,亲和度信息算出部121算出亲和度信息时,这种频率越大,该亲和度信息越大。而且,||(n,*,n′)||为,单词对(n、n′)与任一模式同现的频率。进一步,||(*,p,*)||为,模式p的出现频率。也就是说,单词对(n、n′)与任一模式同现的频率越高,亲和度信息值越小。而且,模式p的出现频率越高值,亲和度信息的值越小。
【公式9】
Assoc1(n,p,n′)=1
【公式10】
Assoc 2 ( n , p . n ′ ) = log | | ( n , p . n ′ ) | | | | ( n , * , n ′ ) | | | | ( * , p , * ) | |
亲和度信息算出部121通常可通过MPU或存储器等实现。亲和度信息算出部121的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件(专用回路)实现。
亲和度信息积蓄部122将由亲和度信息算出部121算出的亲和度信息积蓄在亲和度信息存储部108中。亲和度信息积蓄部122通常将单词对与模式的亲和度信息相关联地积蓄在亲和度信息存储部108中。亲和度信息积蓄部122通常可通过MPU或存储器等实现。亲和度信息积蓄部122的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件(专用回路)实现。
类对良好度取得部123从类对良好度存储部106中取得两个类的类对良好度,该两个类是,由单词对取得部111取得的一个以上的单词对所拥有的各单词所属的类。在此,通常,类对良好度取得部123从单词类信息存储部103中取得作为两个类的两个类标识符的类对标识符(两个类标识符),并从类对良好度存储部106中取得与该类对标识符对应的类对良好度。类对良好度取得部123通常可通过MPU或存储器等实现。类对良好度取得部123的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件(专用回路)实现。
模式相似度取得部124从模式相似度存储部107中取得种子模式与模式的相似度。模式相似度取得部124,例如从模式相似度存储部107中取得与用于识别分数算出对象的模式的模式标识符对应的相似度。模式相似度取得部124通常可通过MPU或存储器等实现。模式相似度取得部124的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件(专用回路)实现。
亲和度信息取得部125从亲和度信息存储部108取得亲和度信息。亲和度信息取得部125,例如从亲和度信息存储部108取得与分数算出对象的模式及分数算出对象的单词对对应的亲和度信息。亲和度信息取得部125通常可通过MPU或存储器等实现。亲和度信息取得部125的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件(专用回路)实现。
分数决定部126使用类对良好度取得部123取得的类对良好度,决定由单词对取得部111取得的各单词对的分数。分数决定部126根据将类对良好度作为递增函数的运算式来决定分数。而且,分数决定部126还优选使用存储在模式相似度存储部107中的一个以上的各模式与种子模式的相似度,决定由单词对取得部111取得的各单词对的分数。此时,分数决定部126根据将相似度作为递增函数的运算式来决定分数。而且,分数决定部126也优选使用亲和度信息存储部108中的亲和度信息,决定由单词对取得部111取得的各单词对的分数。此时,分数决定部126根据将亲和度信息作为递增函数的运算式来决定分数。
而且,公式11所示,分数决定部126优选将类对良好度、种子模式与模式的相似度、及亲和度信息的乘积最大的种子模式或模式的分数决定为各单词对的分数。
【公式11】
Score ( ni , nj , P ) = ci ∈ classes ( ni ) , cj ∈ classes ( nj ) , ( ni , p , nj ) ∈ M max {
CScore ( ci , cj , P ) · Para ( p ci × cj , P ) · Assoc ( ni , p , nj ) }
而且,分数决定部126,例如,对于公式11中的Para,可适用上述Para1至Para5中的任一个。而且,分数决定部126,对于公式11中的Assoc,可适用上述Assoc1或Assoc2中的任一个。也就是说,公式11更具体地说也可以是下面公式12或公式13或公式14等。在公式12至公式14中,省略了参数及运算符“max”。还有,根据公式12算出分数的方法称为Class DependentI(CD-I)。而且,根据公式13算出分数的方式称为Class Dependent II(CD-II)。进一步,根据公式14算出分数的方式称为Class Dependent III(CD-III)。
【公式12】
Score=CScore·Para1·Assoc1
【公式13】
Score=CScore·Para1·Assoc2
【公式14】
Score=CScore·Para2·Assoc2
在公式11至公式14中,分数通过Cscore、Para及Assoc三个数的乘积算出。但是,分数也可以通过三个数之和算出,分数也可以通过Cscore2×Para×Assoc算出。也就是说,分数只要将Cscore、Para及Assoc作为参数而算出即可。而且,分数值,通常Cscore越大而越大,Para越大而越大,Assoc越大而越大。
分数决定部126通常可通过MPU或存储器等实现。分数决定部126的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件(专用回路)实现。
单词对选择部127取得一个以上的单词对,该单词对的分数高到由分数决定部126决定的分数满足预先决定的条件。单词对选择部127,通常根据分数排序单词对,并取得例如分数大于等于阈值的单词对。或者,单词对选择部127,也可以根据分数排序单词对,并取得分数处于自上位规定数(例如1000)的单词对等。而且,单词对选择部127,也可以根据分数排序单词对,例如使单词对输出部128从分数上位以降序输出所有单词对。这种情况下,单词对选择部127取得一个以上的单词对,而单词对输出部128也输出一个以上的单词对。
单词对选择部127通常可通过MPU或存储器等实现。单词对选择部127的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件(专用回路)实现。
单词对输出部128输出由单词对选择部127取得的一个以上的单词对。在此,输出是包含显示在显示器上、使用投影仪投影、打印机打印、声音输出、传送给外部装置、积蓄在记录介质中、向其它处理装置或其它程序等提交处理结果等的概念。单词对输出部128也可以认为包含或不包含显示器或扬声器等输出设备。单词对输出部128可以通过输出设备的驱动软件,或输出设备的驱动软件和输出设备等实现。
单词对排除部129从输出的单词对中排除与存储在排除类对存储部109中的一个以上的任一排除类对对应的单词对。而且,单词对输出部128通常不输出被单词对排除部129排除的单词对。在此,排除通常为删除的意思。但是,排除也可以包含降低分数或降低该单词对的排行(例如作为最下位)等含义。单词对排除部129通常可通过MPU或存储器等实现。单词对排除部129的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件(专用回路)实现。
排除类对积蓄部130将平均出现频率具有预先决定的阈值以上之差的两个类的类标识符,作为排除类对积蓄在排除类对存储部109中。阈值例如为25倍。排除类对积蓄部130通常可通过MPU或存储器等实现。排除类对积蓄部130的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件(专用回路)实现。
其次,参照图6的流程图说明单词对取得装置1的动作。说明在图6的流程图中,在单词对存储部102、单词类信息存储部103、种子模式存储部104、模式存储部105、类对良好度存储部106、模式相似度存储部107、亲和度信息存储部108及排除类对存储部109的构成要素中,存储由各构成要素可存储的信息之后,输出具有规定关系的单词对的处理。
步骤S601,分数决定部126向计数器i代入1。
步骤S602,分数决定部126判断,在单词对存储部102中的单词对中或由单词对取得部111取得的单词对中,是否存在第i位的单词对。如果存在第i位的单词对则转到步骤S603,如果不存在第i位的单词对则转到步骤S618。
步骤S603,分数决定部126取得第i位的单词对。
步骤S604,分数决定部126取得对于第i位单词对的类对。在此,类对也可以是两个类标识符。
步骤S605,分数决定部126判断,在步骤S604中取得的类对是否为存储在排除类对存储部109中的排除类对。如果是排除类对则转到步骤S617,如果不是排除类对则转到步骤S606。
步骤S606,分数决定部126从类对良好度存储部106中取得与在步骤S604中取得的类对对应的类对良好度。
步骤S607,分数决定部126向计数器j代入1。
步骤S608,分数决定部126判断,在模式存储部105或种子模式存储部104中是否存在第j位的模式。如果存在第j位的模式则转到步骤S609,如果不存在则转到步骤S615。
步骤S609,分数决定部126从模式存储部105或种子模式存储部104中取得第j位的模式。
步骤S610,分数决定部126从模式相似度存储部107中取得与第j位的模式对应的相似度。
步骤S611,分数决定部126从亲和度信息存储部108中取得与第i位单词对及与第j位模式对应的亲和度信息。
步骤S612,分数决定部126使用在步骤S606中取得的类对良好度、在步骤S610中取得的相似度及在步骤S611中取得的亲和度信息,算出与第i位单词对及与第j位模式对应的分数。
步骤S613,分数决定部126将与在步骤S612中算出的第j位模式对应的分数,暂存在缓冲存储器中。
步骤S614,分数决定部126将计数器j增1。返回步骤S608。
步骤S615,分数决定部126从在步骤S613中暂存在缓冲存储器中的分数中取得最大分数。
步骤S616,分数决定部126将在步骤S615中取得的分数与第i位的单词对相关联地进行积蓄。
步骤S617,分数决定部126将计数器i增1。返回步骤S602。
步骤S618,单词对选择部127将在步骤S616中积蓄的分数为基础,对单词对进行排序。
步骤S619,单词对选择部127取得在步骤S618中排序的单词对中分数高到满足预先条件的一个以上的单词对。
步骤S620,单词对输出部128输出在步骤S619中取得的一个以上的单词对,并结束处理。
还有,在图6的流程图中虽然未说明,但是单词对存储部102中的单词对、单词类信息存储部103中的单词类信息、种子模式存储部104中的种子模式、模式存储部105中的模式、类对良好度存储部106中的类对良好度、模式相似度存储部107中的相似度、亲和度信息存储部108中的亲和度信息及排除类对存储部109中的排除类对,分别通过上述处理被存储。
而且,在图6的流程图中,从处理除去与排除类对对应的单词对的过程,在步骤S605中进行。但是,从输出的单词对中除去属于排除类对的单词对的处理,也可以在其它时机(例如在输出之前等)进行。
下面,说明关于本实施方式的单词对取得装置1的具体动作。现在,文章群存储部101中存储有网站上的一个以上网页。而且,单词对存储部102存储有多个从一个以上网页取得的作为名词的单词对。
而且,单词类信息存储部103中保持有例如图7所示的单词类信息管理表。图7所示的单词类信息管理表仅示出类标识符“C290”及“C471”的单词类信息。而且,一个单词也可以属于多个类中。还有,本单词类信息管理表为,例如单词类信息取得部113通过上述处理而取得的信息。
而且,类出现频率信息存储部110中保持有图8所示的类出现频率信息管理表。类出现频率信息管理表为具有“类”和“平均出现频率”的记录。“类”为类标识符。“平均出现频率”为属于被类标识符识别的类中的单词对的平均出现频率。
在这种情况下,进行了三个实验。实验1为取得原因与结果的单词对的实验。实验2为取得产品与材料的单词对的实验。实验3为取得现象与防止手段的单词对的实验。
而且,在三个实验中,进行了将四个基线法与由本申请的单词对取得装置1的方法进行比较的实验。在四个基线法中的第一个方法,称为Espresso(ESP)的方法(参照非专利文献1)。如上所述,ESP给出少量想要取出的单词对,而从该单词对取得模式。而且,以往的单词对取得装置取得与所取得模式同现的单词对。另外,ESP是重复的自助法(bootstrap method)。
另外,在四个基线法中的第二个方法,与单词对取得装置1不同,不使用类。也就是说,该第二个方法称为单类(Single Class,SC)的方法,根据公式15算出单词对的分数。
【公式15】
Score ( n , n ′ , P ) = ( n , p , n ′ ) ∈ M max {
| | I ( p ) ∩ I ( P ) | | | | I ( p ) ∪ I ( P ) | | · Assoc 2 ( n , p , n ′ ) }
在公式15中,“I(p)”为与模式p同现的单词对的实例(instance),“I(P)”为与种子模式P同现的单词对的实例。而且,||I(p)∩I(P)||为与“I(p)”和“I(P)”交叠(差集)的实例数。而且,||I(p)∪I(P)||为,“I(p)”与“I(P)”并集的实例数。
另外,在四个基线法中的第三个方法及第四各方法是随机基线方法(random baseline method)。第三个方法称为“R-I”。R-I是从一个以上的文章群中取得与模式p同现的单词对的方法。第四个方法称为“R-II”。RII是从一个以上的文章群中取得与种子模式P同现的单词对的方法。
另外,根据单词对取得装置1的方法有三个,即上述的CD-I、CD-II、CD-III。
而且,在三个各实验中,在所有方法中给予的种子模式都相同。但是,当然在三个实验中利用的种子模式不同。而且,由三名判断者判断用各方法输出的单词对是否准确。
另外,在各方法中,将作为输出的被排名的单词对集合划分成段。段是指,例如,上位5000、上位5000至15000、上位15000至35000及上位35000至75000。而且,在各方法中,从各段随机取得了100个单词对样品。然后,算出了在所有段中单词对为具有规定关系的单词对的准确率(以下称为精确度)。还有,在实验中,适用了两个评价标准。第一个为,只有三名都认为准确时判断为单词对准确的“严格(strict)标准”,第二个为,过半数(两名)认为准确时判断为单词对准确的“宽松(lenient)标准”。而且,为了评价,使用了500个单词对的停用词表(stop word list)。如此,能够从各方法的输出中排除代词对、名词化的对及停用词对。
实验1
实验1是取得原因和结果的单词对的实验。在实验1中,在种子模式存储部104中存储了例如“X引起Y”、“X是Y的原因”等20个种子模式。
单词对取得装置1根据CD-III的方法,获得了如图9所示的单词对的输出。在图9中,表示类对、排名及单词对。排名是根据分数排列的顺序。当使用CD-III时,从Web(一个以上的文章群)取得了意外的单词对。这表示从Web能够取得未知且有用的单词对(结果和原因的单词对)。图10是表示在实验1中各方法的精确度的曲线图。在图10中,横轴(Samples Ranked byScore)表示根据分数排名的样品(单词对),纵轴(Precision(%))表示单词对的准确率。根据图10,在单词对取得装置1的CD-III的方法(宽松(lenient)标准)中,排前的60000个单词对的精确度为70%以上。排前的30000个单词对的精确度为80%以上。这表示与ESP或SC相比,CD-III的精确度极高。进一步,在排前的5000个段中,CD-II(宽松(lenient)标准)精确度达到了93%左右。从上述可知,使用CD-II或CD-III类的方法,非常有效。
还有,当使用所谓“X引起Y”、“X是Y的原因”的种子模式时,在单词对取得装置1中,取得了32213个单词对(除去20687个停用词)。而且,单词被分入1282个类中。还有,停用词是需要从输出排除的词。
而且,在反复进行8次的Espresso中,采用了“X引起的Y”的模式,从而取得了1520662个单词对。
而且,在R-I(完全随机的基线法)中,从100个随机取得的(n,p,n′)组中未能取得具有原因和结果关系的单词对。而且,在R-II的方法中,从与种子模式同现的20678个组中随机选择100个组时,严格(strict)标准的精确度为46%,宽松(lenient)标准的精确度为71%。这些均低于单词对取得装置1的方法。
实验2
实验2是取得产品和材料的单词对的实验。在实验2中,在种子模式存储部104中存储了例如“Y由X制作”、“X是Y的材料”等14个种子模式。
而且,使用单词对取得装置1,获得了例如图11所示的单词对的输出。而且,单词对取得装置1的单词对取得部111取得了11471个单词对(除去8633个停用词之后)。而且,单词对取得装置1取得了620个类对。
而且,图12是表示在实验2中各方法的精确度的曲线图。在图12中,单词对取得装置1的CD-III的方法(宽松(lenient)标准),在排前的30000个样品(段)中,表示具有80%以上精确度。另外,在Espresso(宽松(lenient)标准)中具有50%左右的精确度,CD-III方法与Espresso比较,高30%以上。
而且,在所谓类依存关系方法的CD-I、CD-II中,如果看看上位排名的段,则表示非常好的结果。但是,在CD-I、CD-II中,在下位排名中,精确度急剧下降。还有,Espresso(宽松(lenient)标准)相对于CD-I(宽松(lenient)标准)的低排名(30000左右)优越。
进一步,在R-I中,没能取得正确的单词对。而且,在R-II中,严格(strict)标准时以59%精确度、宽松(lenient)标准时以72%的精确度,取得了单词对。
实验3
实验3时取得现象和防止手段的单词对的实验。在实验3中,在种子模式存储部104中存储了例如“通过X防止Y”、“用于防止Y的X”等20个种子模式。
在根据单词对取得装置1的方法中,获得了例如图13所示的单词对等的输出。而且,单词对取得装置1的单词对取得部111取得了18512个单词对(除去9946个停用词之后)。而且,单词对取得装置1取得了1161个类对。
而且,图14是表示在实验3中各方法的精确度的曲线图。在图12中,单词对取得装置1的CD-III的方法,在排前的两个段(排前的5000个及5000至15000个)中,与Espresso和SC相比更优越。在该实验3中,仅评价了根据单词对取得装置1的方法中的CD-III。而且,在该实验3中,也使用扩展CD-III方法的方法(CD-IIIa、CD-IIIb)来评价了单词对取得装置1。使用扩展方法的原因是,由于在通过包含种子模式的模式而取得的单词对中,包含有具体防止手段之外,还包含表示防止该自身的行为的单词。例如,由单词对取得装置1取得的单词对中,与模式“用于防止Y的X”对应地具有在“用于防止空腹的手段”或“用于防止泄漏的机制”中的“空腹”和“手段”、“泄漏”和“机制”等单词对。“手段”或“机制”等,作为不适当而排除。这相当于使用排除类对存储部109中的排除类对来决定不采用单词对的情况等。
CD-IIIa与CD-III类似,但是除去与排除类对存储部109中的排除类对对应的单词对的这一点不同。在CD-IIIa中,将平均出现频率具有预先决定的阈值以上之差的两个类的类标识符作为排除类对。在此,阈值为25倍。利用排除类对的原因是,由于属于出现频率非常高的单词所属类的单词,很难成为构成具有固定关系的良好单词对的单词。还有,使用图8的平均出现频率管理表时,类9和类49的平均出现频率之差为25倍以上(约135倍),所以类9和类49属于排除类对。
而且,CD-IIIb也与CD-IIIa同样,与CD-III类似,但是除去与排除类对存储部109中的排除类对对应的单词对的这一点不同。在CD-IIIb中,通过手动作业给出了9个类对。实验者检查CD-III输出而决定了9个排除类对。根据图14,CD-IIIb表现出大致良好的结果。
进一步,在R-I中,严格(strict)及宽松(lenient)标准,都未能从100个样品中取得正确单词对。而且,在R-II中,严格(strict)标准时以59%精确度、宽松(lenient)标准时以68%精确度取得了单词对。
以上,根据本实施方式,能够取得精确度高的具有规定关系的单词对。
还有,在本实施方式中,也可以只利用类对良好度来算出单词对的分数。这种情况下,例如,分数也可以与类对良好度相一致。而且,该单词对取得装置1具备:文章群存储部,可存储一个以上的文章群;单词类信息存储部,可存储两个以上的单词类信息,该单词类信息是将一个以上单词与用于识别一个以上单词所属类的类标识符关联起来拥有;类对良好度存储部,可存储类对良好度,该类对良好度是表示两个类的良好程度的指标;种子模式存储部,可存储一个以上的种子模式,该种子模式是为了取得具有规定关系的两个单词对而利用的模式;单词对取得部,在上述种子模式存储部中存储的一个以上的种子模式中取得任一个,并且从存储在上述文章群存储部中的一个以上的文章群中,取得与上述种子模式同现的一个以上的单词对;类对良好度取得部,从上述类对良好度存储部中取得两个类的类对良好度,该类是上述单词对取得部取得的一个以上单词对所拥有的各单词所属的类;分数决定部,使用由上述类对良好度取得部取得的类对良好度,决定由上述单词对取得部取得的各单词对的分数;单词对选择部,取得一个以上的高分数的单词对,即上述分数决定部决定的分数满足预先决定的条件;单词对输出部,输出由上述单词对选择部取得的一个以上的单词对。
而且,在本实施方式中,单词类信息存储部103也可以对于每个单词存储概率分布信息。概率分布信息是指,术语属于一个以上的各类中的概率分布(集合)信息。概率分布信息可构成向量。类是指,拥有一个以上名词的信息群,或者拥有一个以上抽象化名词的信息群。类是指,例如,容易与相同动词或相同动词和助词的组合同现的名词集合。类适宜称为隐藏类。还有,这种情况,单词类信息存储部103所拥有的单词类信息如图15所示。图15是表示该概率分布管理表的示意图。还有,概率分布管理表中的各数据是,按照每个单词具有所属各类的概率的向量,但是该向量也是单词类信息的一种,该单词类信息是将一个以上的单词与该一个以上单词所属类的类标识符关联起来而拥有的信息。还有,图15中,类标识符由向量内的要素号码决定。
而且,单词类信息取得部113也可以使用文章群存储部101中的一个以上文章群,构筑如图15所示的概率分布管理表。也就是说,例如,使用1000000个名词子句与100000个动词和助词的集,从一个以上的文章群(Shinzato等发表的下面的网络语料库“K.Shinzato,D.Kawahara,C.Hashimoto and S.Kurohashi.2008.A Large-Scale Web Data Collection as A Natural LanguageProcessing Infrastructure.In the 6th In ternational Conference on LanguageResources and Evaluation(LREC).”取得概率“P(<v,rel>|n))”。还有,<v,rel>组的附有发生条件的概率“P(<v,rel>|n))”是可以根据下面公式16算出。“P(<v,rel>|n))”是名词n的语法语境下的概率分布。还有,v为动词、rel为助词、n为名词(包含名词子句)。还有,名词相当于单词。另外,由名词n和助词rel构成句节修饰包含动词v的句节时,认为“名词n与<v,rel>同现”。
【公式16】
P ( < v , rel > | n ) = log ( f ( < v , rel , n > ) ) + 1 &Sigma; < v , rel > &Element; D log ( f ( < v , rel , n > ) + 1 if f ( < v , rel , n > ) > 0 ,
而且,公式16中使用了log,但也可以不使用log。因此,公式16也可以是“P(<v,rel>|n)=(f(<v,rel,n>)+1)/(∑f(<v,rel,n>)+1)。
在公式16中,“f(<v,rel,n>)”是<v,rel,n>的出现频率。而且,D是作为{<v,rel>|f(<v,rel,n>)>0}而定义的集。而且,“f(<v,rel,n>)=0”时,“P(<v,rel>|n)”为“0”。
而且,单词类信息取得部113也可以根据称为“EM-based clustering”的类分类方法来分类名词。也就是说,单词类信息取得部113算出下面公式17所示的<v,rel,n>组的出现概率。
【公式17】
P ( < v , rel , n > )
= &Sigma; a &Element; A def P ( < v , rel > | a ) P ( n | a ) P ( a ) ,
在公式17中,“a”表示“<v,rel>组及”n“的隐藏类。在公式17中,不能直接算出概率“P(<v,rel>|a)”、“P(n |a)”及“P(a)”。这是由于从给出的语料库不能取得隐藏类“a”。
“EM-based clustering”从给出的语料库(一个以上的文章群)推测这些概率(“P(<v,rel>|a)”、“P(n |a)”及“P(a)”。“EM-based clustering”由“E步骤”和“M步骤”的两个步骤构成。在“E步骤”中,算出概率“P(<v,rel>|a)”。在“M步骤”中,使用在“E步骤”中的结果,更新“P(<v,rel>|a)”、“P(n |a)”及“P(a)”,直至达到最大似然率。
通过上述处理,对于各<v,rel>、n及a,算出概率“P(<v,rel>|a)”、“P(n |a)”及“P(a)”。
而且,“P(a |n)”根据下面公式18算出。
【公式】
P ( a | n ) = P ( n | a ) P ( a ) &Sigma; a &Element; A P ( n|a ) P ( a ) .
“P(a|n)”是为了决定n的类而使用。例如,具有最大“P(a|n)”的类是n所属的类。与类似的<v,rel>组同现的名词子句倾向于属于相同类。
而且,在本说明书中记载的类对,优选总结成如下。也就是说,通过未图示的装置或上述的任一构成要素(发明特定事项),从文章群存储部101中的文章群,取出与种子模式同现的单词对,而该单词限定在预先决定的数(阈值预先存储)以上存在的类对。然后,使用被限定的类对或被限定类对的单词对,进行上述处理(单词对的取得处理、类对良好度算出、模式相似度算出以及分数算出等)。由此,可实现高速化处理。
另外,本说明书中记载的各种公式,也可以在反映技术思想的范围内,实施一些变形。
进一步,本实施方式中的处理,也可以由软件实现。而且,该软件也可以通过下载软件等进行发布。而且,该软件也可以记录在CD-ROM等记录介质上进行传播。还有,这些也适用于本说明书中的其它实施方式。还有,实现本实施方式中的信息处理装置的软件是如下程序。也就是说,该程序在记录介质上存储有:一个以上的文章群;将一个以上的单词与用于识别该一个以上单词所属类的类标识符关联起来而拥有的两个以上的单词类信息;作为表示两个类的良好程度的指标的类对良好度;一个以上的将作为用于取得具有规定关系的两个单词对的模式的种子模式;而且使计算机作为如下结构而发挥作用,单词对取得部,在上述记录介质中存储的一个以上种子模式中取得任一个,并且从存储在上述记录介质中的一个以上的文章群中,取得与上述取得的种子模式同现的一个以上的单词对;类对良好度取得部,从上述记录介质中取得两个类的类对良好度,该类是上述单词对取得部取得的一个以上单词对所拥有的各单词所属的类;分数决定部,使用由上述类对良好度取得部取得的类对良好度,决定上述单词对取得部取得的各单词对的分数;单词对选择部,取得一个以上的单词对,该单词对是,上述分数决定部决定的分数满足预先决定的条件;单词对输出部,输出由上述单词对选择部取得的一个以上的单词对。
而且,在上述程序中,优选使计算机进一步作为类对良好度算出部而发挥作用,该类对良好度算出部以如下方式算出类对良好度,即,分别属于两个类的单词对,在上述文章群存储部中的一个以上文章群中,与上述一个以上的种子模式同现的次数或比例越多,类对良好度越大,而且,上述类对良好度算出部算出的两个类的类对良好度是存储在记录介质中的类对良好度。
而且,在上述程序中,在记录介质中按照每个模式存储,不同于种子模式且为了取得具有上述规定关系的两个单词对而利用的一个以上模式,及上述一个以上的各模式和上述种子模式之间的相似度,而且使计算机作为如下结构而发挥作用:上述单词对取得部,在上述记录介质中存储的一个以上种子模式及在上述记录介质中存储的一个以上模式中取得任一个,并且从存储在上述记录介质中的一个以上文章群中,取得与上述种子模式或上述模式同现的一个以上的单词对;上述分数决定部,使用存储在上述记录介质中的上述一个以上各模式和上述种子模式之间的相似度,决定上述单词对取得部取得的各单词对的分数。
而且,在上述程序中,优选使计算机进一步具备模式相似度算出部,该模式相似度算出部以如下方式算出相似度,即,与上述一个以上的种子模式同现的单词对所对应的类对,和与存储在上述记录介质中的一个以上的各模式同现的单词对所对应的类对交叠越大,相似度越大,上述模式相似度算出部算出的相似度是,存储在上述记录介质中的相似度。
而且,在上述程序中,优选在记录介质中进一步存储作为一个以上各单词对与一个以上各模式之间的亲和度有关信息的亲和度信息,而且使计算机作为上述分数决定部而发挥作用,该上述分数决定部,使用上述记录介质的亲和度信息,决定上述单词对取得部取得的各单词对的分数。
而且,在上述程序中,优选使计算机进一步作为亲和度信息算出部而发挥作用,该亲和度信息算出部以如下方式算出亲和度信息,即,上述单词对取得部取得的一个以上的单词对与上述一个以上的各模式同现的次数或比例越多,亲和度信息越大,而且,上述记录介质中的亲和度信息是所述亲和度信息算出部算出的亲和度信息。
而且,在上述程序优选使计算机作为上述分数决定部而作用,该分数决定部,将上述类对良好度、上述种子模式与模式的相似度及上述亲和度信息的乘积越大的种子模式或模式的分数,作为各单词对的分数而决定。
而且,在上述程序中,优选使计算机作为模式取得部而发挥作用,该模式取得部,对于存储在上述记录介质中的一个以上文章群的每个语句,进行词素解析及依存关系解析,并将第一个名词或名词子句作为起点,将第二个名词或名词子句作为终点,而且将自上述起点至上述终点的词素连接关系作为模式取得,或者还将连接自上述起点的词素的连接关系与自上述终点的词素的连接关系的词素也作为模式取得。
而且,在上述程序中,优选在记录介质中存储一个以上的排除类对,该排除类是用于识别最终不输出的单词对所对应的类对的两个类标识符,而且使计算机进一步作为单词对排除部而发挥作用,该单词对排除部从输出的单词对中排除与上述一个以上的排除类对对应的单词对。
而且,在上述程序中,优选在记录介质中按照每个类存储类出现频率信息,该类出现频率信息成对拥有在上述一个以上文章群中属于各类的单词的平均出现频率和类标识符,而且使计算机作为排除类对积蓄部而发挥作用,该排除类对积蓄部,将上述平均出现频率具有预先决定的阈值以上之差的两个类的类标识符作为排除类对,积蓄在上述排除类对存储部中。
而且,图16是表示执行本说明书中所述的程序从而实现上述实施方式的单词对取得装置1等的计算机外观图。上述实施方式可通过计算机硬件及在其上运行的计算机程序实现。图16是该计算机***340的概观图,图17是表示计算机***340的内部构成的示意图。
在图16中,计算机***340包括:计算机341,其包括FD驱动器3411、CD-ROM驱动器3412;键盘342;鼠标343;显示器344。
在图17中,计算机341除了FD驱动器3411和CD-ROM驱动器3412之外,还包括:MPU3413;总线3414,与CD-ROM驱动器3412及FD驱动器3411连接;ROM3415,用于存储开机程序等程序;RAM3416,与MPU3413连接,临时存储应用程序命令的同时提供临时存储空间;硬盘3417,用于存储应用程序、***程序及数据。在此,虽然未图示,计算机341也可以进一步包括网卡,提供与LAN的连接。
在计算机***340中,使上述实施方式的单词对取得装置1等执行功能的程序,也可以存储在CD-ROM3501或FD3502上,并***在CD-ROM驱动器3412或FD驱动器3411中,从而进一步转送到硬盘3417中。取而代之,程序也可以通过未图示的网络传送给计算机341,并存储在硬件3417中。程序在执行时被加载到RAM3416。程序也可以直接从CD-ROM3501、FD3502或网络加载。
在中,程序不一定包含使计算机341执行上述实施方式的单词对取得装置1等的功能的操作***(OS)或第三方程序等。程序只要包含以被控制模式呼出适合功能(模块)从而能够获得所需结果的命令部分即可。计算机***340如何动作众所周知,故省略详细说明。
而且,执行上述程序的计算机也可以是单个,也可以是多个。即,也可以进行集中处理,或也可以进行分散处理。
而且,在上述各实施方式中,各处理(各功能)也可以通过单个装置(***)的集中处理来实现,或者也可以通过多个装置的分散处理来实现。
本发明并不限定于上述实施方式,可以进行多种变更,更不必说这些都包含于本发明的保护范围内。
工业上的可利用性
如上所述,本发明涉及的单词对取得装置,具有能够恰当取得具有规定关系的单词对的效果,作为单词对取得装置等而有用。

Claims (13)

1.一种单词对取得装置,其具备:
文章群存储部,可存储一个以上的文章群;
单词类信息存储部,可存储两个以上的单词类信息,该单词类信息是将一个以上单词与用于识别该一个以上单词所属的类的类标识符关联起来而拥有的信息;
类对良好度存储部,可存储类对良好度,该类对良好度是表示两个类的良好程度的指标;
单词对存储部,可存储一个以上的由两个单词构成的单词对;
类对良好度取得部,从上述类对良好度存储部中取得存储在上述单词对存储部中的一个以上单词对所拥有的各单词所属的两个类的类对良好度;
分数决定部,使用由上述类对良好度取得部取得的类对良好度,决定上述单词对存储部中的各单词对的分数;
单词对选择部,取得一个以上的单词对,该单词对具有由分数决定部决定的分数满足预先决定的条件的高分数;
单词对输出部,输出由上述单词对选择部取得的一个以上的单词对。
2.根据权利要求1所述的单词对取得装置,进一步具备:
种子模式存储部,可存储一个以上的种子模式,该种子模式是为了取得具有规定关系的两个单词对而利用的模式;
类对良好度算出部,其以如下方式算出类对良好度,即,当分别属于两个类的单词对,在上述文章群存储部中的一个以上的文章群中,与上述一个以上的种子模式同现的次数或比例越多,则类对良好度越大;
由上述类对良好度算出部算出的两个类的类对良好度是,存储在上述类对良好度存储部中的类对良好度。
3.根据权利要求1所述的单词对取得装置,进一步具备:
模式存储部,可存储一个以上的模式,该模式是不同于种子模式,是为了取得具有上述规定关系的两个单词对而利用的模式;
模式相似度存储部,能够按照每个模式,对在上述模式存储部中存储的一个以上各模式与上述种子模式之间的相似度进行存储;
单词对取得部,取得在上述种子模式存储部中存储的一个以上种子模式及在上述模式存储部中存储的一个以上模式中的任一个,并且从存储在上述文章群存储部中的一个以上的文章群中,取得与上述种子模式或上述模式同现的一个以上的单词对;
上述分数决定部还使用存储在上述模式相似度存储部中的上述一个以上的各模式与上述种子模式之间的相似度,决定由上述单词对取得部取得的各单词对的分数。
4.根据权利要求3所述的单词对取得装置,
进一步具备模式相似度算出部,该模式相似度算出部以如下方式算出相似度,即与上述一个以上种子模式同现的单词对所对应的类对,和与存储在上述模式存储部中的一个以上的各模式同现的单词对所对应的类对之间的交叠越大,相似度就越大;
上述模式相似度算出部算出的相似度是,存储在上述模式相似度存储部中的相似度。
5.根据权利要求1所述的单词对取得装置,
进一步具备亲和度信息存储部,该亲和度信息存储部可存储亲和度信息,该亲和度信息是有关一个以上的各单词对与一个以上的各模式之间的亲和度的信息,
上述分数决定部还使用上述亲和度信息存储部中的亲和度信息,决定由上述单词对取得部取得的各单词对的分数。
6.根据权利要求5所述的单词对取得装置,
进一步具备亲和度信息算出部,该亲和度信息算出部以如下方式算出亲和度信息,即,上述单词对取得部取得的一个以上单词对与上述一个以上的各模式同现的次数或比例越多,亲和度信息越大,
上述亲和度信息存储部中的亲和度信息是,由上述亲和度信息算出部算出的亲和度信息。
7.根据权利要求6所述的单词对取得装置,其特征在于,
上述分数决定部,将上述类对良好度、上述种子模式与模式之间的相似度及上述亲和度信息的乘积为最大的种子模式或模式的分数,决定为各单词对的分数。
8.根据权利要求3所述的单词对取得装置,
进一步具备模式取得部,该模式取得部对于存储在上述文章群存储部中的一个以上文章群的每个语句,进行词素解析及依存关系解析,并将第一个名词或名词子句作为起点,将第二个名词或名词子句作为终点,而且将自上述起点至上述终点的词素的连接关系,作为模式而取得,或者还将自上述起点的词素连接关系与自上述终点的词素连接关系相连的词素,作为模式取得,
上述模式存储部中的模式是,由上述模式取得部取得的模式。
9.根据权利要求1所述的单词对取得装置,进一步具备:
排除类对存储部,可存储一个以上排除类对,该排除类对是用于识别与最终不输出的单词对对应的类对的两个类标识符;
单词对排除部,从输出的单词对中排除与上述一个以上的排除类对对应的单词对。
10.根据权利要求9所述的单词对取得装置,进一步具备:
类出现频率信息存储部,可按照每个类存储类出现频率信息,该类出现频率信息成对地拥有上述一个以上的文章群中属于各类的单词的平均出现频率以及类标识符;
排除类对积蓄部,将上述平均出现频率具有预先决定的阈值以上的差的两个类的类标识符作为排除类对,而积蓄在上述排除类对存储部中。
11.根据权利要求1所述的单词对取得装置,
进一步具备单词类信息取得部,该单词类信息取得部使用上述文章群存储部中的一个以上的文章群,并以如下方式取得一个以上的单词类信息,即,使与同一动词、或与同一动词和助词同现的次数或比例多的单词属于同一类,
上述单词类信息存储部中的单词类信息是,由上述单词类信息取得部取得的单词类信息。
12.一种单词对取得方法,在记录介质中存储有:
一个以上的文章群;
两个以上的单词类信息,该单词类信息将一个以上单词与用于识别该一个以上单词所属的类的类标识符关联起来而拥有;
作为表示两个类的良好程度的指标的类对良好度;
一个以上的种子模式,该种子模式是用于取得具有规定关系的两个单词对的模式;
而且,上述单词对取得方法通过单词对取得部、类对良好度取得部、分数决定部、单词对选择部及单词对输出部实现,并执行如下步骤:
单词对取得步骤,通过上述单词对取得部,取得在上述记录介质中存储的一个以上种子模式中的任一个,并且从存储在上述记录介质中的一个以上的文章群中,取得与上述取得的种子模式同现的一个以上的单词对;
类对良好度取得步骤,通过上述类对良好度取得部从上述记录介质中取得两个类的类对良好度,该两个类是在上述单词对取得步骤中取得的一个以上单词对所拥有的各单词所属的类;
分数决定步骤,使用在上述类对良好度取得步骤中取得的类对良好度,通过上述分数决定部,决定在上述单词对取得步骤中取得的各单词对的分数;
单词对选择步骤,通过上述单词对选择部,取得一个以上的单词对,该单词对具有在上述分数决定步骤中决定的分数满足预先决定的条件的高分数;
单词对输出步骤,通过上述单词对输出部,输出在上述单词对选择步骤中取得的一个以上的单词对。
13.一种程序,在记录介质上存储有:
一个以上的文章群;
两个以上的单词类信息,该单词类信息将一个以上单词与用于识别该一个以上单词所属的类的类标识符关联起来而拥有;
作为表示两个类的良好程度的指标的类对良好度;
一个以上的种子模式,该种子模式是用于取得具有规定关系的两个单词对的模式;
而且,上述程序使计算机作为如下结构而发挥作用:
单词对取得部,取得在上述记录介质中存储的一个以上种子模式中的任一个,并且从存储在上述记录介质中的一个以上的文章群中,取得与上述取得的种子模式同现的一个以上单词对;
类对良好度取得部,从上述记录介质中取得两个类的类对良好度,该两个类是上述单词对取得部取得的一个以上单词对所拥有的各单词所属的类;
分数决定部,使用由上述类对良好度取得部取得的类对良好度,决定上述单词对取得部取得的各单词对的分数;
单词对选择部,取得一个以上的单词对,该单词对具有上述分数决定部决定的分数满足预先决定的条件的高分数;
单词对输出部,输出由上述单词对选择部取得的一个以上的单词对。
CN201080040033.9A 2009-09-09 2010-09-07 单词对取得装置、单词对取得方法及其程序 Expired - Fee Related CN102576358B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009-207944 2009-09-09
JP2009207944A JP5382651B2 (ja) 2009-09-09 2009-09-09 単語対取得装置、単語対取得方法、およびプログラム
PCT/JP2010/065308 WO2011030752A1 (ja) 2009-09-09 2010-09-07 単語対取得装置、単語対取得方法、およびプログラム

Publications (2)

Publication Number Publication Date
CN102576358A true CN102576358A (zh) 2012-07-11
CN102576358B CN102576358B (zh) 2014-10-15

Family

ID=43732424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080040033.9A Expired - Fee Related CN102576358B (zh) 2009-09-09 2010-09-07 单词对取得装置、单词对取得方法及其程序

Country Status (6)

Country Link
US (1) US9037586B2 (zh)
EP (1) EP2477125A4 (zh)
JP (1) JP5382651B2 (zh)
KR (1) KR101715432B1 (zh)
CN (1) CN102576358B (zh)
WO (1) WO2011030752A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106104519A (zh) * 2013-12-20 2016-11-09 国立研究开发法人情报通信研究机构 短语对收集装置以及用于其的计算机程序

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510308B1 (en) * 2009-06-16 2013-08-13 Google Inc. Extracting semantic classes and instances from text
JP5594225B2 (ja) * 2011-05-17 2014-09-24 富士通株式会社 知識獲得装置、知識取得方法、及びプログラム
JP5254402B2 (ja) * 2011-06-07 2013-08-07 株式会社東芝 注目評価対象抽出装置及びプログラム
US8832655B2 (en) 2011-09-29 2014-09-09 Accenture Global Services Limited Systems and methods for finding project-related information by clustering applications into related concept categories
JP5491478B2 (ja) * 2011-10-24 2014-05-14 ヤフー株式会社 検索クエリ関連単語出力装置、検索クエリ関連単語出力方法および検索補助システム
JP5597653B2 (ja) * 2012-01-05 2014-10-01 日本電信電話株式会社 単語抽出装置及び方法及びプログラム
US9037452B2 (en) * 2012-03-16 2015-05-19 Afrl/Rij Relation topic construction and its application in semantic relation extraction
US10289678B2 (en) 2013-12-16 2019-05-14 Fairwords, Inc. Semantic analyzer for training a policy engine
US11501068B2 (en) 2013-12-16 2022-11-15 Fairwords, Inc. Message sentiment analyzer and feedback
US10120859B2 (en) 2013-12-16 2018-11-06 Fairwords, Inc. Message sentiment analyzer and message preclusion
US10305831B2 (en) * 2013-12-16 2019-05-28 Fairwords, Inc. Compliance mechanism for messaging
JP5904559B2 (ja) 2013-12-20 2016-04-13 国立研究開発法人情報通信研究機構 シナリオ生成装置、及びそのためのコンピュータプログラム
JP5907393B2 (ja) 2013-12-20 2016-04-26 国立研究開発法人情報通信研究機構 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム
EP3113034A4 (en) * 2014-02-28 2017-07-12 Rakuten, Inc. Information processing system, information processing method and information processing program
JP6410455B2 (ja) * 2014-04-04 2018-10-24 日本放送協会 意味関係抽出装置およびプログラム
WO2015187129A1 (en) * 2014-06-03 2015-12-10 Hewlett-Packard Development Company, L.P. Document classification based on multiple meta-algorithmic patterns
US9678947B2 (en) 2014-11-21 2017-06-13 International Business Machines Corporation Pattern identification and correction of document misinterpretations in a natural language processing system
US10409909B2 (en) 2014-12-12 2019-09-10 Omni Ai, Inc. Lexical analyzer for a neuro-linguistic behavior recognition system
WO2016090625A1 (en) * 2014-12-12 2016-06-16 Hewlett-Packard Development Company, L.P. Scalable web data extraction
US10409910B2 (en) * 2014-12-12 2019-09-10 Omni Ai, Inc. Perceptual associative memory for a neuro-linguistic behavior recognition system
JP6437892B2 (ja) * 2015-07-13 2018-12-12 日本電信電話株式会社 ソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラム
US10062084B2 (en) 2015-10-21 2018-08-28 International Business Machines Corporation Using ontological distance to measure unexpectedness of correlation
JP2017174009A (ja) * 2016-03-22 2017-09-28 日本電気株式会社 事態間知識抽出装置、事態間知識抽出方法、及びプログラム
EP3449473A4 (en) * 2016-04-26 2019-10-23 Ponddy Education Inc. COMPUTER-BASED LEARNING SYSTEM BASED ON AFFINITY KNOWLEDGE
US11023475B2 (en) 2016-07-22 2021-06-01 International Business Machines Corporation Testing pairings to determine whether they are publically known
JP6721179B2 (ja) * 2016-10-05 2020-07-08 国立研究開発法人情報通信研究機構 因果関係認識装置及びそのためのコンピュータプログラム
KR20180089183A (ko) 2017-01-31 2018-08-08 동국대학교 산학협력단 뇌파를 이용한 게임 장치 및 방법
JP7014230B2 (ja) * 2017-11-10 2022-02-01 日本電気株式会社 情報処理装置、情報処理方法及びプログラム
WO2019126224A1 (en) 2017-12-19 2019-06-27 Visa International Service Association Hyper-graph learner for natural language comprehension

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1281191A (zh) * 1999-07-19 2001-01-24 松下电器产业株式会社 信息检索方法和信息检索装置
JP2003256447A (ja) * 2002-02-26 2003-09-12 Kyoji Umemura 関連語抽出方法および装置
CN1916889A (zh) * 2005-08-19 2007-02-21 株式会社日立制作所 语料库制作装置及其方法
CN101361066A (zh) * 2005-10-27 2009-02-04 弗兰霍菲尔运输应用研究公司 用于量化文本表达相似性的自动的、基于计算机的相似性计算***

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5267345A (en) * 1992-02-10 1993-11-30 International Business Machines Corporation Speech recognition apparatus which predicts word classes from context and words from word classes
JPH0689302A (ja) * 1992-09-08 1994-03-29 Hitachi Ltd 辞書メモリ
US5787422A (en) * 1996-01-11 1998-07-28 Xerox Corporation Method and apparatus for information accesss employing overlapping clusters
US6236987B1 (en) * 1998-04-03 2001-05-22 Damon Horowitz Dynamic content organization in information retrieval systems
JP4803709B2 (ja) * 2005-07-12 2011-10-26 独立行政法人情報通信研究機構 単語用法差異情報取得プログラム及び同装置
US20080208566A1 (en) * 2007-02-23 2008-08-28 Microsoft Corporation Automated word-form transformation and part of speech tag assignment
KR101465770B1 (ko) * 2007-06-25 2014-11-27 구글 인코포레이티드 단어 확률 결정
US8280886B2 (en) * 2008-02-13 2012-10-02 Fujitsu Limited Determining candidate terms related to terms of a query
JP5184195B2 (ja) * 2008-04-24 2013-04-17 日本放送協会 言語処理装置およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1281191A (zh) * 1999-07-19 2001-01-24 松下电器产业株式会社 信息检索方法和信息检索装置
JP2003256447A (ja) * 2002-02-26 2003-09-12 Kyoji Umemura 関連語抽出方法および装置
CN1916889A (zh) * 2005-08-19 2007-02-21 株式会社日立制作所 语料库制作装置及其方法
CN101361066A (zh) * 2005-10-27 2009-02-04 弗兰霍菲尔运输应用研究公司 用于量化文本表达相似性的自动的、基于计算机的相似性计算***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106104519A (zh) * 2013-12-20 2016-11-09 国立研究开发法人情报通信研究机构 短语对收集装置以及用于其的计算机程序

Also Published As

Publication number Publication date
KR20130038179A (ko) 2013-04-17
WO2011030752A1 (ja) 2011-03-17
JP5382651B2 (ja) 2014-01-08
EP2477125A4 (en) 2016-09-21
CN102576358B (zh) 2014-10-15
US9037586B2 (en) 2015-05-19
KR101715432B1 (ko) 2017-03-22
EP2477125A1 (en) 2012-07-18
US20120179682A1 (en) 2012-07-12
JP2011059917A (ja) 2011-03-24

Similar Documents

Publication Publication Date Title
CN102576358A (zh) 单词对取得装置、单词对取得方法及其程序
Hill et al. Quantifying the impact of dirty OCR on historical text analysis: Eighteenth Century Collections Online as a case study
Panichella et al. How can i improve my app? classifying user reviews for software maintenance and evolution
US7529748B2 (en) Information classification paradigm
CN102227724B (zh) 对于音译的机器学习
CN111639177B (zh) 文本提取方法和装置
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
CN103593431A (zh) 网络舆情分析方法和装置
CN109522412A (zh) 文本情感分析方法、装置及介质
CN109657064A (zh) 一种文本分类方法及装置
KR101593371B1 (ko) 텍스트 데이터에 대한 성향 분류 장치 및 이를 이용한 의사 결정 지원 시스템
Siklósi Using embedding models for lexical categorization in morphologically rich languages
US8862586B2 (en) Document analysis system
Silva et al. Automatic expansion of a social judgment lexicon for sentiment analysis
US20200073889A1 (en) Database creation apparatus and search system
Curtotti et al. Machine learning for readability of legislative sentences
Al Mostakim et al. Bangla content categorization using text based supervised learning methods
Khemani et al. A review on reddit news headlines with nltk tool
Hong Relation extraction using support vector machine
CN106055614A (zh) 基于多个语义摘要的内容相似性分析方法
CN112487181B (zh) 关键词确定方法和相关设备
CN108021595B (zh) 检验知识库三元组的方法及装置
CN109871429B (zh) 融合Wikipedia分类及显式语义特征的短文本检索方法
US20210182549A1 (en) Natural Language Processing (NLP) Pipeline for Automated Attribute Extraction
Larsson Classification into readability levels: implementation and evaluation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141015

Termination date: 20200907