CN103119585B - 知识获取装置及方法 - Google Patents

知识获取装置及方法 Download PDF

Info

Publication number
CN103119585B
CN103119585B CN201080069243.0A CN201080069243A CN103119585B CN 103119585 B CN103119585 B CN 103119585B CN 201080069243 A CN201080069243 A CN 201080069243A CN 103119585 B CN103119585 B CN 103119585B
Authority
CN
China
Prior art keywords
lattice
case frame
model
sentence
knowledge acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201080069243.0A
Other languages
English (en)
Other versions
CN103119585A (zh
Inventor
徐金安
孟凡东
陈恰
潘栩
达珍
孟庆辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Publication of CN103119585A publication Critical patent/CN103119585A/zh
Application granted granted Critical
Publication of CN103119585B publication Critical patent/CN103119585B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种知识获取装置及方法,其中,该装置包括:格位框架特征抽取单元,用于抽取输入语句中谓语成分的格位框架要素及其属性信息;模型库,用于存储任意格模型;任意格判定单元,用于对所述格位框架特征抽取单元的抽取结果及所述任意格模型进行模式匹配,确定所述谓语成分的格位框架中的任意格信息。本发明实现对该谓语成分的格位框架进行必须格和任意格的自动获取和有效区分,提高自然语言处理的结构消歧和语义消歧的能力。

Description

知识获取装置及方法
技术领域
本发明涉及自然语言处理研究领域,具体涉及一种知识获取装置及方法。
背景技术
网络技术的发展催生了信息大***,自然语言处理技术作为信息处理的重要技术,在给人们带来便利的同时,依然遭遇诸多的技术难题。特别是在诸如信息检索、语音识别及机器翻译等方面,语言知识的自动获取技术自语料库诞生以来,已经成为自然语言理解关联研究的重要基础研究课题之一。
要使计算机具有高性能的自然语言理解能力,一般而言,需要实现赋予***大量的知识。如为了解决自然语言处理研究中的语义消歧问题,需要赋予***相应的语义消歧规则、实例或统计模型。一个简单的例子是英语单词“plant”有“植物”和“工场”两种语义,当句子中“plant”和“life”或者“eat”同时出现时,语义为“植物”概率要远远大于“工场”;但是当句子中“plant”和“manufacturing”同时出现是,其语义则以“工场”为主。如果赋予计算机相应的语义分析知识,计算机则具备相应的语义消歧能力。
在自然语言处理研究领域中,作为语义消歧的基本技术之一,广为人知的一种语法结构被称格语法,它是一种以“格位框架”表现语言结构的形式语法模型(参照《自然语言处理的形式模式》,冯志伟著,中国科技大学出版社,第293页,2010年1月第一版)。格语法最早由美国语言学家C.Fillmore提出,并定义了施事格(agentive)、经验格(patient)、工具格(instrumental)、客体格(objective)、处所格(locative)、承受格(dative)、使成格(factitive)、受益格(benefactive)、时间格(time)、源点格(Source)、终点格(goal)、伴随格(comitative)等。每一个格位框架以动词或形容词为中心词,并拥有相应的格槽(caseslot),格槽具有相应的属性特征,如表现动作的行为人的施事格(句子的主语)、对象格(句子的宾语),以及表示时间场所、工具等信息的属性等等。
众所周知,由于语言的多样性和复杂性,消歧是自然语言处理研究的根本任务之一,消歧任务几乎遍布自然语言处理的各个研究领域,在诸如分词、词性标注、句法结构分析、语义分析、目标语言生成等,在机器翻译、语音识别、对话***和信息检索等领域也都必须解决消歧问题。消歧问题中,句法结构消歧的任务十分艰巨,尤其是在机器翻译领域中,动词等谓语成分的句法结构往往是源语言分析到目标语言生成时的桥梁,关系到生产语言的正确性和流程程度,是机器翻译研究的关键技术之一。
句法结构消歧还是语义消歧的前提和关键因素之一。句法结构消歧的困难在于同一个动词拥有多数的不同结构,体现在动词格位框架的多样性上。动词格位框架的复杂程度越高,句法结构消歧时分析的难度也越大。传统的自然语言处理***往往采用人工方式构筑动词的格位框架,但是由于格位框架的模式数量庞大,全部由人工构筑需要花费大量的人力资源。
因而,从大量的语料中自动抽取动词的格位框架技术得到了一定的发展,如专利文献1提出了一种基于概率依存图的机器学习方法来实现格位框架的定格化处理。非专利文献1和非专利文献2提出的基于WEB的大规模格位框架构建方法。
【专利文献1】日本国专利第3353578号;
【非专利文献1】河原大輔,黒橋禎夫.高性能計算環境を用いたWebからの大規模格フレーム構築;
日本国情報処理学会自然言語処理研究会171-12,pp.67-73,2006;
【非专利文献2】河原大輔,黒橋禎夫:格フレーム辞書の漸次的自動構築,日本国自然言語処理学会志,Vol.12,No.2,pp.109-131,2005。
但是,上述传统技术文献中,仅仅解决了动词的格位框架自动抽取问题,没有对抽取的动词格位框架进行进一步的处理,得到的动词格位框架的复杂度较高,动词格位框架的数量不精简,使得在实际运用过程中会造成增加句法结构消歧和语义消歧的难度等问题。
因而,如何简化动词格位框架的复杂程度,减少动词格位框架的数量,提高动词格位框架的抽象程度和质量,是一个必须解决的高难度研究课题。成功地解决这一难题,将会降低句法结构消歧和语义消歧的难度,提高句法结构分析和语义分析的精度,提高机器翻译、信息检索以及语音识别等应用***的精度。
发明内容
本发明的第一目的是提出一种高效的知识获取装置。
本发明的第二目的是提出一种高效的知识获取方法。
为实现上述第一目的,本发明提供了一种知识获取装置,包括:格位框架特征抽取单元,用于抽取输入语句中谓语成分的格位框架要素及其属性信息;模型库,用于存储任意格模型;任意格判定单元,用于对格位框架特征抽取单元的抽取结果及任意格模型进行模式匹配,确定谓语成分的格位框架中的任意格信息。
为实现上述第二目的,本发明提供了一种知识获取方法,包括:抽取输入语句中谓语成分的格位框架要素及其属性信息;对抽取结果及存储的任意格模型进行模式匹配,确定谓语成分的格位框架中的任意格信息。
本发明各个实施例中,通过根据存储的任意格模型与谓语成分的格位框架进行模式匹配,进而实现对该谓语成分的格位框架进行必须格和任意格的自动获取和有效区分,提高自然语言处理的结构消歧和语义消歧的能力。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一并用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明的知识获取方法的实施例一流程图;
图2为本发明的知识获取方法的实施例二流程图;
图3为本发明的知识获取方法的实施例三流程图;
图4为本发明的知识获取装置的实施例一结构图;
图5为本发明的知识获取装置的实施例二结构图;
图6为日语句子的句法结构分析示意图;
图7为抽取的动词格位框架特征示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明各个实施例,主要基于区分谓语成分的格位框架中的任意格的思路,比如:日语中的句子:
1.彼は自転車で図書館へ行く;
2.自転車で彼は図書館へ行く;
3.彼は図書館へ自転車で行く;
4.彼は図書館へ行く,自転車で.
根据背景技术中的传统技术方法从上述句子抽取动词[行く]的格位框架时,其结果将会是复数个,而不是一个;而实际上,在上述句子中,[自転車で]的[で]表示的是使用交通工具的道具格,属于任意格。任意格的特点是可以在动词[行く]的格位框架中可有可无,可以在句子中任意移动,而句子所表达的意思不会改变。上述句子中的[彼は]的[は]属于施事格,是句子的主语,为必须格;[図書館へ]的[へ]属于处所格,是句子的宾语,为必须格。所谓必须格为动词格位框架中必不可少的格,而任意格则是在动词的格位框架中可有可无的格。如果按照必须格和任意格进行划分,对上述句子进行动词格位框架进行抽取处理时,得到的动词格位框架将是唯一的。由此可以见,对句子中动词等谓语成分的格位框架进行自动抽取时,对动词格位框架要素进行必须格和任意格的区分处理,会大大减少动词格位框架的数量,简化动词格位框架结构,降低在机器翻译、对话***等自然语言理解为核心的应用***中的句子分析、句法结构消歧和语义消歧的难度。
方法实施例
图1为本发明的知识获取方法的实施例一流程图。如图1所示,本实施例包括:
步骤102:抽取输入语句中谓语成分的格位框架要素及其属性信息;
步骤104:对抽取结果及存储的任意格模型进行模式匹配,确定谓语成分的格位框架中的任意格信息。
本实施例通过根据存储的任意格模型与谓语成分的格位框架进行模式匹配,进而实现对该谓语成分的格位框架进行必须格和任意格的自动获取和有效区分,提高自然语言处理的结构消歧和语义消歧的能力。
图2为本发明的知识获取方法的实施例二流程图。本实施例利用日语的动词格位框架的必须格和任意格的关系判定为例来解释说明,本领域技术人员可以理解,本发明各实施例不限于日语,可适用于其他任何语言。如图2所示,本实施例包括:
步骤201,接收输入语句,如接收句子[彼は自転車で図書館へ行く],具体操作时,还可以将接收的句子读入内存;
步骤202,对输入语句进行词法和句法分析,具体如:
首先,进行词法分析,包括分词和词的属性特征的获取等两个步骤,分词是对句子的单词进行分割,如上述句子可以分割为[彼/は/自転車/で/図書館/へ/行く],词的属性特征的赋予可以从机读词典中获取,如词性、动词的活用形等等;
其次,进行句法分析处理,句法分析的任务是分析出句子的结构,图6为日语句子[彼は自転車で図書館へ行く]的句法结构分析结果,根据图6所示的分析结果,可以得出句子的中心词为动词[行く],句子的主语为日语代名词[彼],宾语为表示场所的名词[図書館];
再次,在完成了词法句法分析处理之后,记忆分析结果;本领域技术人员可以理解,进行词法及句法分析的方法为现有技术,不再赘述;
步骤203,对输入语句进行格位框架特征抽取;具体如:
首先,将知识库的信息读入内存;
其次,对于步骤202的分析结果,从读取的知识库信息中获取关键词的语义和概念信息;具体在进行动词等谓语成份的格位框架的特征提取时,需要事先确定需要提取的谓语词的特征要素,如词、词性、语义、概念、适用的领域等,然后根据制定的特征要素的每一个成分,从步骤202的分析结果和知识库中提取相应的特征要素的属性值;如句子[彼は自転車で図書館へ行く],可以分别以[彼]、[自転車]、[図書館]、[行く]为关键词,对读入内存中的知识库信息进行检索,从中分别获取[彼]、[自転車]、[図書館]的语义、概念等属性特征(或称为属性信息);如从日语句子[彼は自転車で図書館へ行く]抽取的动词[行く]的格位框架如图7所示;
具体地,从知识库中可以得到[彼]的属性[人/动物]、[自転車]的属性[交通工具/物品]、[図書館]的属性[建筑物/场所]等;本领域技术人员可以理解,知识库的具体实例可以根据输入的语言种类和选取的特征来选定,当输入语言是日语时,可以使用日本情报通信机构研发的EDR词典,英语可以使用WordNet,中文可以使用HowNet等等;
步骤204,将模式库中存储的任意格模型与步骤203所抽取的谓语词的格位框架进行模式匹配,确定该谓语词的格位框架中的任意格信息;简述如下,具体可参见图3的解释说明;
如:从日语句子[彼は自転車で図書館へ行く]的抽取的格位框架如图7所示时,句子中的词[自転車]可以从上述知识库中获取语义信息[交通手段],符合模型库中[交通手段で]为任意格的判定模型,则可以得知[自転車で]为任意格;
步骤205,输出步骤204的确定结果;优选地,还可以将确定结果输送给知识库,以用于格框架特征抽取单元的处理,以提高***的知识获取的性能和效率;
具体操作时,输出的数据可以根据需要,以一定的格式进行组合,输出的形式可以是文件,也可以直接存入数据库,如对应于上述步骤204的确定结果,可以是[自転車で],也可以是[交通手段で],即确定结果可以为任意格的短语,或包含语义信息和特定格助词的片段;还可以为了方便信息处理以及简化动词格位框架的处理,把句子中判定出的任意格模式和句子中的谓语成分一起进行输出,或者输出任意格抽取以后的任意格短语和去除任意格短语的句子。
本实施例通过对句子中动词等谓语成分的格位框架与任意格的关系的判定,实现对格位框架中必须格和任意格的正确区分,使得动词等谓语成分的结构简洁,从而大大提高动词格位框架的覆盖率,并提高句法结构分析和语义分析中的结构消歧和语义消歧的精准度,为信息检索、机器翻译、对话***等自然语言理解研究领域提供高效可信的知识获取方法。
图3为本发明的知识获取方法的实施例三流程图。其主要用于说明根据机器学习方法构建模型库的过程,本领域技术人员可以理解,该模型库可以根据各种机器学习方法基于学习数据而建立,以下以支持向量机SVM为例对使用机器学习方法建立模型库予以解释说明。如图3所示,本实施例包括:
步骤301,特征提取;支持向量机的理论算法可以参考如下的非专利文献:
【非专利文献3】方瑞明,支持向理机理论及其应用分析;中国电力出版社,2007年10月1日,ISBN:9787508360379.
【非专利文献4】邓乃扬,田英杰,支持向量机:理论、算法与拓展,科学出版社,2009年8月1日,ISBN:9787030250315.
目前,支持向量机的机器学习模块有很多开放源代码,如参见
【非专利文献5】
http://www.cs.cornell.edu/People/tj/svm_light/old/svm_light_v4.00.html
【非专利文献6】http://www.csie.ntu.edu.tw/~cjlin/libsvm/
根据支持向量机的理论算法原理,使用不同的核函数可以解决数据的线性分类或非线性分类问题,一般可以使用多项式核函数、RBF(RadialBasisFunction)核函数、Sigmoid核函数等等,上述【非专利文献5】和【非专利文献6】提供的模块中,可以通过对所使用学习模块的命令,如SVMLight的svm_learning学习命令,通过预先设定该命令的参数进行核函数的选定;同时,使用支持向量机时,还涉及特征向量空间的生成、特征选择和特征权重的计算方法等问题;特征向量空间可以根据使用的学习数据,如对文本文件进行单词分割处理,计算词频或词的概率,或N元模型的出现频率或概率,并进行去除部分高频词部分等工作完成特征选择;特征权重的计算方法有很多,如布尔权重、绝对词频(TF)、倒排文档频度(IDF)、TF-IDF、TFC、ITC、熵权重以及TF-IWF等等;
另外,使用SVM分类器时,需要对学习数据进行预处理,预处理除了上述的特征向量空间的生成、特征选择和特征权重的计算方法的选取等工作之外,还需要事先对学习数据进行分类,如正确的事例标识为类+1,错误的事例标识为类-1;除此以外,还需要根据特征向量空间的各个元素对学习数据中所有的正例和负例进行数据化的格式转换,进行格式转换工作时,一般可以使用特征向量空间集合中各个特征元素的行号来代替学习数据中的词或短语;例如:
正例:彼は自転車で図書館へ行く
自転車で彼は図書館へ行く
彼は図書館へ自転車で行く
彼は図書館へ行く,自転車で
……
负例:この本は後で読む
みんなで楽しい旅をする
……
按上述思路,统计词频,假设得到表1所示的状态向量空间(即提取的特征),为例举,不应做限定解释;
表1
如果以布尔权重对上述正例和负例进行格式转换,可以得到以下的数据形式:
正例:1:13:110:16:111:12:17:1+1
10:16:11:13:111:12:17:1+1
1:13:111:12:110:16:17:1+1
1:13:111:12:17:112:110:16:1+1
……
负例:8:14:13:15:16:19:1-1
13:16:114:115:116:117:1-1
……
步骤302,根据上述提取的特征及机器学习方法,进行建模;如上所述,如使用SVMLight时,可以使用把上述svm_learning完成机器学习任务,得到基于SVM的模型库,得到的模型库中的模型如:
11:14:17:112:12:18:1+0.92411687
……
本领域技术人员可以理解,当使用SVM模型,任意格判定单元的处理的实质即使用SVMLight的svm_classify模块对新数据(输入语句)在基于相应的特征向量集合(必要时可以进行格式转换)时进行分类,以判断是否含有任意格;如果对分类结果的权重给予适当的阈值,即可以判定句子中是否含有任意格,如对句子[この学生は自転車で学校へ行く]中的[自転車で]的部分判定为任意格;同理,若特征向量空间中包含[自転車]的语义信息[交通手段],可以推论,当学习数据充分时,可以获取诸如[交通手段で]为任意格的模型,并能够对新数据进行判定。
需要说明的是,图2中步骤203所抽取的谓语词的特征要素和模型库之间存在匹配关系,即抽取的特征要素要符合模型库中的模型的构成要素的要求;如使用SVM分类器构建的模型库时,当学习数据经过上述格位框架特征抽取单元的处理,从知识库中获取了句子中词或短语的概念、语义等信息时,用于SVM学习的特征向量空间应包含知识库中的语义、概念、适用的领域等。同时,对学习数据以及待分类的数据,可以根据需要进行适当的格式转换,然后分别完成学习数据的机器学习任务和待分类数据的分类任务。详细方法可以参考【非专利文献3】、【非专利文献4】、【非专利文献5】和【非专利文献6】。
本实施例基于词和布尔加权的SVM学习方法进行解释说明,具体操作时还可以使用其他方法,如监督学习方法、无监督学习方法以及半监督学习方法、聚类算法、相关算法、复杂特征集和合一运算、概率上下文无关文法、N元模型、隐马尔可夫模型HMM、朴素的贝叶斯、决策树模型、最大熵模型、基于错误驱动的转换方法、神经元网络、条件随机场(CRF)、bootstrapping、Co-Training等方法中的至少一种。
装置实施例
图4为本发明的知识获取装置的实施例一结构图。图1-3所示的各方法实施例均可适用于本实施例。本实施例包括:格位框架特征抽取单元420,用于抽取输入语句中谓语成分的格位框架要素及其属性信息;模型库4020,用于存储任意格模型;任意格判定单元430,用于对格位框架特征抽取单元的抽取结果及任意格模型进行模式匹配,确定谓语成分的格位框架中的任意格信息。
具体操作时,还可以包括输入语句记忆单元400,词法句法分析单元410,知识库4010和输出单元440。本实施例中的各模块及各单元与图2、图3及图4中的各模块及各单元对应,如图2中的知识库对应于本实施例中的知识库4010。各单元具体解释如下:
输入语句记忆单元400,用于接收输入语句,具体操作时可以利用各种通用输入模块,如键盘、定点装置、手写字符识别、光学字符读取器、语音输入识别进行语句的输入,或通过文本文件或数据库形式进行输入;输入语句记忆单元400可以为现有各种能够执行处理用于获得语言信息的输入语句的单元;
词法句法分析单元410,用于对输入语句进行分词处理和句法结构分析;其中,分词处理包括对输入的句子进行切分,并对每一个词赋予词性等相关属性特征;句法结构分析包括对输入的句子的结构,例如对中文句子进行句法结构分析判断出句子的主语、谓语、宾语、定语、状语和补语等部分;
知识库4010用于给出词法句法分析单元410的输出结果中,即句子的各个构成要素的词或短语的语义、概念等属性特征;例如英语的WordNet、中文的HowNet等;增加语义和概念属性特征的目的在于对抽取的格位框架进行抽象化处理;比如日语句子[彼は自転車で図書館へ行く]的施事格[彼は]的属性可以代表人称,工具格[自転車で]可以是交通工具,处所格[図書館へ]可以是场所等等;
格位框架特征抽取单元420用于针对词法句法分析单元410的输出结果、以及从知识库4010中获取的语义、概念等属性特征,抽取对象动词的格位框架的特征,为任意格判定单元430和模型库4020之间进行的模式匹配处理提供数据条件和依据;格位框架特征抽取单元420的特征选取方法有很多,一般可以使用基于文档频率的特征提取方法,信息增益法,x2统计方法和互信息方法等等。特征权重的计算方法也有很多,如布尔权重、绝对词频(TF)、倒排文档频度(IDF)、TF-IDF、TFC、ITC、熵权重、TF-IWF等;
模型库4020可以根据统计方法使用学习数据获得,用于为格位框架特征抽取单元420抽取的格位框架特征进行判断,从而判定和区分出动词等谓语成分的格框架要素中的必须格和任意格。模型库中的模型可以使用学习数据由统计机器学习方法获得,如支持向量机、决策树等算法;
任意格判定单元430用于对格位框架特征抽取单元420抽取的动词格位框架特征和模型库4020之间进行的模式匹配,对动词等谓语成分的格框架的要素进行判定,区分出必须格和任意格;具体如使用支持向量机SVM建立的模型库4020,当模型库4020中存在诸如[交通手段で]的任意格模型时,句子[彼は汽車で会社に行く]中的词[汽車]可以从知识库中获取语义信息[交通手段],符合模型库4020中[交通手段で]为任意格的判定模型,则可以得知[汽車で]为任意格;
输出单元440用于对任意格判定单元的结果进行输出,输出的形式多种多样,可以是文件输出,也可以是显示器输出等;对应于上述任意格判定单元430处理的输入语句,输出可以是[汽車で],或者[汽車で]和[彼は会社に行く]等,此外也可以根据用户的需要进行输出。
优选地,输出单元440将其输出结果写入知识库4010,直接用于格框架特征抽取单元420的处理,以提高***的知识获取的性能和效率。
本实施例通过任意格判定单元430可以成功地将动词的格位框架中的格要素划分为必须格和任意格,并把动词的任意格从动词格位框架中分离出来,达到简化动词的格位框架,压缩格位框架的数量之目的,同时,还可以降低句法结构消歧和语义消歧的难度,提高句法分析和语义分析的精准度,对机器翻译、信息检索以及语音识别等相关研究和应用领域起到良好的促进和改善作用。
图5为本发明的知识获取装置的实施例三结构图。图1-3所示的各方法实施例均可适用于本实施例。如图5所示,本实施例的构成单元及连接关系与图5所示的知识获取装置大体相同,不同点在于:增加了用于存储学习数据的数据库5030(如大规模语料库)及机器学习单元510,该机器学习单元510可以采用如支持向量机、决策树等方法,使用学习用数据库5030中的数据进行机器学习,从而构建模型库4020,详细参见图3的解释说明。
最后应说明的是:以上仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种知识获取装置,其特征在于,包括:
格位框架特征抽取单元,用于抽取输入语句中谓语成分的格位框架要素及其属性信息;
模型库,用于存储任意格模型,所述任意格在谓语成分的格位框架中可有可无,可以在句子中任意移动,而句子所表达的意思不变;
任意格判定单元,用于对所述格位框架特征抽取单元的抽取结果及所述任意格模型进行模式匹配,确定所述谓语成分的格位框架中的任意格信息。
2.根据权利要求1所述的知识获取装置,其特征在于,还包括:
数据库,用于存储预设的学习数据;
机器学习单元,用于从所述数据库获取所述学习数据,并根据预设的机器学习方法基于所述学习数据训练学习得到所述任意格模型,以及将所述任意格模型发送至所述模型库。
3.根据权利要求1或2所述的知识获取装置,其特征在于,还包括:
知识库,用于存储语句构成要素的属性信息,为所述格位框架特征抽取单元提供所述谓语成分的格位框架要素的属性信息。
4.根据权利要求3所述的知识获取装置,其特征在于,还包括:
输出单元,用于输出所述任意格判定单元的确定结果,并将所述确定结果发送至所述知识库。
5.根据上述权利要求4所述的知识获取装置,其特征在于,还包括:
词法句法分析单元,用于所述输入语句进行词法分析及句法结构分析,并将分析结果发送至所述格位框架特征抽取单元。
6.根据上述权利要求5所述的知识获取装置,其特征在于,还包括:
输入语句记忆单元,用于接收所述输入语句,并将所述输入语句转发至所述词法句法分析单元。
7.一种知识获取方法,其特征在于,包括:
抽取输入语句中谓语成分的格位框架要素及其属性信息;
对所述抽取结果及存储的任意格模型进行模式匹配,确定所述谓语成分的格位框架中的任意格信息,所述任意格在谓语成分的格位框架中可有可无,可以在句子中任意移动,而句子所表达的意思不变。
8.根据权利要求7所述的知识获取方法,其特征在于,在所述对所述抽取结果及存储的任意格模型进行模式匹配的步骤之前包括:
根据预设的机器学习方法基于预设的学习数据训练学习得到所述任意格模型;
存储所述任意格模型。
9.根据权利要求7或8所述的知识获取方法,其特征在于,在所述确定所述谓语成分的格位框架中的任意格信息的步骤之后还包括:
输出所述确定结果,并将所述确定结果发送至知识库,所述知识库用于存储语句构成要素的属性信息,并提供所述谓语成分的格位框架要素的属性信息。
10.根据权利要求8所述的知识获取方法,其特征在于,所述预设的机器学习方法包括:监督学习方法、无监督学习方法、半监督学习方法、聚类算法、相关算法、复杂特征集和合一运算、概率上下文无关文法、N元模型、隐马尔可夫模型、朴素的贝叶斯、支持向量机、决策树模型、最大熵模型、基于错误驱动的转换方法、神经网络、条件随机场中的至少一种。
CN201080069243.0A 2010-12-17 2010-12-17 知识获取装置及方法 Active CN103119585B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2010/079937 WO2012079245A1 (zh) 2010-12-17 2010-12-17 知识获取装置及方法

Publications (2)

Publication Number Publication Date
CN103119585A CN103119585A (zh) 2013-05-22
CN103119585B true CN103119585B (zh) 2015-12-02

Family

ID=46243987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080069243.0A Active CN103119585B (zh) 2010-12-17 2010-12-17 知识获取装置及方法

Country Status (2)

Country Link
CN (1) CN103119585B (zh)
WO (1) WO2012079245A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714053B (zh) * 2013-11-13 2017-05-10 北京中献电子技术开发中心 一种面向机器翻译的日语动词识别方法
CN108959240A (zh) * 2017-05-26 2018-12-07 上海醇聚信息科技有限公司 一种专有本体自动生成***及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070005343A1 (en) * 2005-07-01 2007-01-04 Xerox Corporation Concept matching
CN101390091A (zh) * 2006-02-27 2009-03-18 日本电气株式会社 语言处理设备、语言处理方法、以及语言处理程序
JP2009223373A (ja) * 2008-03-13 2009-10-01 Nippon Hoso Kyokai <Nhk> 曖昧性評価装置およびプログラム
CN101887443A (zh) * 2009-05-13 2010-11-17 华为技术有限公司 一种文本的分类方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1332340C (zh) * 1997-03-04 2007-08-15 石仓博 语言分析***及方法
JP4186992B2 (ja) * 2006-01-31 2008-11-26 株式会社豊田中央研究所 応答生成装置、方法及びプログラム
JP5337020B2 (ja) * 2007-03-27 2013-11-06 富士通株式会社 電子文書の秘匿化プログラム
KR100956794B1 (ko) * 2008-08-28 2010-05-11 한국전자통신연구원 다단계 용언구 패턴을 적용한 번역장치와 이를 위한적용방법 및 추출방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070005343A1 (en) * 2005-07-01 2007-01-04 Xerox Corporation Concept matching
CN101390091A (zh) * 2006-02-27 2009-03-18 日本电气株式会社 语言处理设备、语言处理方法、以及语言处理程序
JP2009223373A (ja) * 2008-03-13 2009-10-01 Nippon Hoso Kyokai <Nhk> 曖昧性評価装置およびプログラム
CN101887443A (zh) * 2009-05-13 2010-11-17 华为技术有限公司 一种文本的分类方法及装置

Also Published As

Publication number Publication date
CN103119585A (zh) 2013-05-22
WO2012079245A1 (zh) 2012-06-21

Similar Documents

Publication Publication Date Title
CN106776562B (zh) 一种关键词提取方法和提取***
US11501082B2 (en) Sentence generation method, sentence generation apparatus, and smart device
CN108536677A (zh) 一种专利文本相似度计算方法
CN110263177B (zh) 用于事件预测的知识图构建方法与事件预测方法
US20080221863A1 (en) Search-based word segmentation method and device for language without word boundary tag
CN103314369B (zh) 机器翻译装置和方法
Ojha et al. Training & evaluation of POS taggers in Indo-Aryan languages: a case of Hindi, Odia and Bhojpuri
CN110717045A (zh) 一种基于信访信件概况的信件要素自动提取方法
CN115357719A (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN111400449A (zh) 一种正则表达式抽取方法及装置
Anjum et al. Exploring Humor in Natural Language Processing: A Comprehensive Review of JOKER Tasks at CLEF Symposium 2023.
CN101271448A (zh) 汉语基本名词短语的识别及其规则的生成方法和装置
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
Belay et al. Impacts of homophone normalization on semantic models for amharic
CN103119585B (zh) 知识获取装置及方法
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
CN114626367A (zh) 基于新闻文章内容的情感分析方法、***、设备及介质
CN111859910B (zh) 一种用于语义角色识别的融合位置信息的词特征表示方法
Shams et al. Intent Detection in Urdu Queries Using Fine-Tuned BERT Models
Khoufi et al. Chunking Arabic texts using conditional random fields
Kaur Development of an approach for disambiguating ambiguous Hindi postposition
Dandapat Part-of-Speech tagging for Bengali
Sathyanarayanan et al. Kannada named entity recognition and classification using bidirectional long short-term memory networks
Li et al. Sentiment classification of financial microblogs through automatic text summarization
Jiang et al. Python‐Based Visual Classification Algorithm for Economic Text Big Data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant