CN104933027B - 一种利用依存分析的开放式中文实体关系抽取方法 - Google Patents
一种利用依存分析的开放式中文实体关系抽取方法 Download PDFInfo
- Publication number
- CN104933027B CN104933027B CN201510321339.6A CN201510321339A CN104933027B CN 104933027 B CN104933027 B CN 104933027B CN 201510321339 A CN201510321339 A CN 201510321339A CN 104933027 B CN104933027 B CN 104933027B
- Authority
- CN
- China
- Prior art keywords
- entity
- name
- word
- relation
- msub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种利用依存分析的开放式中文实体关系抽取方法,该方法首先对句子进行依存分析,再结合中文语法启发式规则和依存分析的结果抽取关系词语,然后根据距离确定命名实***置,最后进行三元组输出。在SogouCA和SogouCS语料库上进行实验,结果表明本发明适用于大规模语料库,具有良好的可移植性。本发明从根本上克服了汉语语法复杂,表达方式多样,语义丰富等固有性质的限制。
Description
技术领域
本发明涉及自然语言的信息抽取技术领域,尤其是一种利用依存分析的开放式中文实体关系抽取方法。
背景技术
近年来,随着互联网技术的发展,万维网逐渐成为一个取之不尽用之不竭的信息来源,如何快速获得用户感兴趣的信息成为研究关注的焦点。信息抽取(InformationExtraction,IE)技术正是在这种背景下应运而生,信息抽取的主要目的是从自然语言文本中抽取指定的实体(Entity)、关系(Relation)、事件(Event)等事实信息,把文本中无结构化信息转化成结构化的信息。实体关系抽取(Relation Extraction,RE)是指确定实体之间是否存在某种语义关系,是信息抽取的重要组成部分,涉及自然语言处理、机器学习等多方面的理论,在自动问答***、文本挖掘、搜索引擎、知识图谱构建等有着广泛的应用。
传统的信息抽取是面向限定领域文本的、限定类别实体、关系和事件等的抽取,面对日益增多不规范的和开放的海量数据,传统的依赖于标注语料的统计机器学习方法遇到了严重的挑战。开放式信息抽取(Open Information Extraction,OIE)在这种背景下产生,目标是从海量、异构、不规范、含有大量噪声和冗余的网页中大规模地抽取开放类别的实体、关系、事件等,并形成结构化的数据格式输出。
开放式实体关系抽取可以分为半监督、远程监督和无监督三种方法。其中,半监督的抽取方法需要少量的人工种子数据,并没有用到句法特征,更多的是一系列的正则表达式,而初始种子的好坏能够明显影响程序结果。远程监督的方法需要一个较大规模的知识库,需要尽可能多地含有关系类别以及对应的关系实例。知识库中的关系类别的数量会直接影响到能够抽取出来的关系类别,每种关系类别中的关系实例数量会直接影响到特征的数量,最终影响抽取关系抽取的准确率和召回率。此外,在中文上,也很难找到一个大规模的可用的关系知识库。无监督的抽取方法不需要任何人工标注数据,聚类方法在很大程度上减少了人工的介入,消除了预定义关系类别、不依赖标注的语料以及人工指定的规则。但这类方法仍存在一些不足,例如特征获取不准确、聚类结果不合理、准确率较低以及聚类数目、聚类中心难以确定等。在英文上无监督的另一种方法就是用实体之间的谓语作为关系表述,大量的研究学者在此基础上进行了研究。理论上,英文实体关系抽取的方法可以用于中文实体关系抽取。但是由于汉语语法复杂,表达方式多样,语义丰富等固有性质的限制,一些英文实体关系抽取的方法很难直接用在中文实体关系抽取上。
发明内容
本发明的目的是针对现有技术的不足而提供的一种利用依存分析的开放式中文实体关系抽取方法,利用依存分析结合中文语法启发式规则实现中文实体关系抽取。该方法以大规模的自由文本作为关系抽取的目标文本,并借助语言云(Language TechnologyPlatform,LTP)对分句后的自由文本进行分词、词性标注、命名实体识别和依存分析等预处理;然后,结合中文语法启发式规则和依存分析的结果抽取关系表述,然后根据距离确定命名实***置,最后输出表示实体关系的三元组的集合。
本发明的目的是这样实现的:
一种利用依存分析的开放式中文实体关系抽取方法,该方法包括以下具体步骤:
第一步:对大规模的自由文本采用基于视觉信息的网页分块算法进行正文提取;
第二步:按照句号、问号和感叹号对提取到的正文进行分句处理,得到单句的集合;
第三步:采用语言技术平台云,对每个单句进行分词、词性标注、命名实体识别和依存分析,得到带有分词、词性标注、命名实体和依存分析信息的单句;
第四步:根据第三步中依存分析的结果判断句子是不是动词谓语句,如果不是,执行第十步;
第五步:结合关系表述即“状语*动词+补语?宾语?”,以及第三步的依存分析结果抽取关系词语;
第六步:根据第三步的结果,将组成命名实体的词进行合并;根据第五步的结果,将组成关系词语的词进行合并;最后,将词、命名实体以及关系词语从右向左依次将它们的位置标记为1,2,......,N;若关系词语中含有命名实体,则其位置标记相同;
第七步:根据第六步的位置标记,确定命名实***置,利用公式(1)计算置信度,当置信度Confidence(Li,Lj)达到最大值时,选择Li的位置作为命名实体1,选择Lj的位置作为命名实体2,设命名实体1的位置总是位于命名实体2的位置的左边;
在公式(1)中,L表示命名实体的位置,R表示关系词语的位置;第一个分式中,Li-Lj表示命名实体1和命名实体2的距离;在第二个分式中,Li-R表示命名实体1和关系词语的距离;在第三个分式中,Lj-R+1表示命名实体2和关系词语的距离,距离越大表示命名实体和命名实体之间、命名实体和关系词语之间存在语义关系的可能性越小,置信度也会越低;
第八步:手动设置关系词语比例r
通过爬取百度百科WEB页面,选取公式(2)中的r=0.1,0.2,0.3……,0.9作为阈值,通过实验当r=0.7的时候准确率、召回率、F值最优;当命名实体长度为1时,识别出来的命名实体为1个字,这里选取命名实体的长度大于等于2作为阈值;
第九步:根据第五步抽取到关系词语和第七步的命名实体以及第八步的过滤条件,如果符合条件则输出三元组,如果不符合条件则不输出该三元组;
第十步:结束。
所述依存分析依是通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中核心动词是支配其它成分的中心成分,而核心动词本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于核心动词。
与背景技术相比,本发明有以下优点:
根据本发明的实现步骤,能够从大规模的自由文本中抽取出中文实体关系,克服了半监督方法初始种子选择困难的问题;克服了远程监督方法,在中文上很难找到一个大规模的可用的关系知识库;克服了无监督聚类方法特征获取不准确、聚类结果不合理、准确率较低以及聚类数目、聚类中心难以确定的问题;克服了汉语语法复杂,表达方式多样,语义丰富等固有性质的限制,保证了关系抽取的准确率、召回率和F值。
附图说明
图1为本发明流程图
图2为本发明依存分析实例示意图;
图3为本发明依存句法分析标注关系示意图;
图4为本发明的关系词语示意图。
具体实施方式
参阅图1,本发明包括以下具体步骤:
第一步:对输入的自由文本采用基于视觉信息的网页分块(Vision-based PageSegmentation,VIPS)算法进行正文提取;
第二步:按照句号、问号和感叹号对提取的正文进行分句处理,输出单句的集合;
句子是语言的使用单位,句子由词或短语构成,能表达一个完整的意思,在书面上用句号、问号或感叹号表示停顿和语调。以句子的结构特点为分类标准,中文的句子可分为两大类:单句和复句。两个或两个以上的单句,意义上密切相连,结构上互不包含,组成一句话,这就是复句。复句拆分以后,即可成为单句。
第三步:借助哈工大社会计算与信息检索研究中心的语言技术平台云(LanguageTechnology Platform,LTP),对每个单句进行分词、词性标注、命名实体识别和依存分析,输出带有分词、词性标注、命名实体和依存分析信息的单句。
依存分析通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中核心动词是支配其它成分的中心成分,而核心动词本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于核心动词。依存句法分析可以反映出句子各成分之间的语义修饰关系,识别句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分之间的关系。
第四步:根据第三步中依存分析的结果判断句子是不是动词谓语句,如果不是,执行第十步。
单句又可分为非主谓句和主谓句,其中主谓句由单个词或其他短语构成,可以分析出主语和谓语作为命名实体。主谓句分为动词谓语句、形容词谓语句和名词谓语句,动词谓语句的谓语是动词或者动词短语,它在日常用语中占了很大的比重,是汉语中常见的句型。
第五步:结合关系表述即“状语*动词+补语?宾语?”,以及第三步中的依存分析的结果抽取关系词语。
其中*表示出现0次或者任意多次,+表示出现1次或者任意多次,?表示出现0次或者1次。动词谓语句主要分为三大类,动词做谓语、动词短语做谓语、复杂的动词短语作谓语。动词作谓语的情况比较简单,动词作为谓语。动词短语做谓语是以动词为主体,主要分为三大类:动宾短语、后补短语、偏正短语。其中,偏正短语的结构由中心语和修饰语配对组成,可以分为两类:定语中心语、状语中心语。复杂的动词短语作谓语是一个动词同时带有状、宾、补语或其中的两个。例如:“状+动+补+宾”,“状+动+补”,“状+动+宾”,“动+补+宾”。
第六步:根据第三步的结果,将组成命名实体的词进行合并。根据第五步的结果,将组成关系词语的词进行合并。最后,将词、命名实体以及关系词语,从右向左依次将它们的位置标记为1,2,......,N。若关系词语中含有命名实体,则它们的位置标记相同。
第七步:根据第六步的位置标记,确定命名实***置,当公式(1)中置信度Confidence(Li,Lj)达到最大值时,选择Li的位置作为命名实体1,选择Lj的位置作为命名实体2,假定命名实体1的位置总是位于命名实体2的位置的左边。
在公式(1)中,L表示命名实体的位置,R表示关系词语的位置。第一个分式中,Li-Lj表示命名实体1和命名实体2的距离;在第二个分式中,Li-R表示命名实体1和关系词语的距离;在第三个分式中,Lj-R+1表示命名实体2和关系词语的距离,分母中加1的目的是为了防止除数为0,因为命名实体2有可能出现在关系词语中,距离越大表示命名实体和命名实体之间、命名实体和关系词语之间存在语义关系的可能性越小,置信度也会越低。
第八步:手动设置关系词语比例r
通过爬取的百度百科WEB页面,选取了公式(2)中的r=0.1,0.2,0.3……,0.9作为阈值,通过实验当r=0.7的时候准确率、召回率、F值最优。当命名实体长度为1的时候,识别出来的命名实体为1个字,选取命名实体的长度大于等于2作为阈值。
第九步:根据第五步抽取到关系表述和第七步的论元以及第八步的过滤条件,如果符合条件则输出三元组,如果不符合条件则不输出该三元组;
第十步:结束。
实施例
参阅图1-4,将大规模自由文本进行输入,接着对输入的自由文本进行预处理。
第一步:由于自由文本中含有大量的HTML标签以及其它噪声,对输入的自由文本采用基于视觉信息的网页分块(Vision-based Page Segmentation,VIPS)算法进行正文提取;
第二步:按照句号、问号和感叹号对输出的正文进行分句处理,输出单句的集合;
第三步:由于中文不像英文一样,词和词之间有空格作为明显的分割边界,借助哈工大社会计算与信息检索研究中心的语言技术平台云(Language Technology Platform,LTP),对每个单句进行分词、词性标注、命名实体识别和依存分析。例如,用LTP对句子“上海市公安局和上海海关缉私局成立联合专案组,迅速开展案件侦查。”进行分析,可以得到图2的结果,其中n表示名词、v表示动词、a表示形容词。如图3所示,展示了在本专利方法中常用的依存句法分析标注关系。
第四步:根据第三步中的依存分析的结果判断句子是不是动词谓语句,如果不是,执行第十步。结合图3通过依存弧VOB确定图2中的句子是动词谓语句。
第五步:结合关系表述即“状语*动词+补语?宾语?”,以及第三步中的依存分析的结果抽取关系词语。图2中的句子,通过依存弧VOB确定动宾关系:“成立专案组和开展侦查”。然后按照关系表述更形象化的如图4所示,对动宾关系进一步完善,在“成立专案组”中,依存弧ATT表示定中关系,“联合”修饰“专案组”,最后可以得到关系词语“成立联合专案组”。在“开展侦查”中,依存弧ADV表示状中结构,“迅速”修饰“开展”,依存弧FOB表示前置宾语,“案件”修饰“侦查”,最后可以得到关系词语“迅速开展案件侦查”。
第六步:根据第三步的结果,将组成命名实体的词进行合并。根据第五步的结果,将组成关系词语的词进行合并。最后,将剩下的词、命名实体以及关系词语,从右向左依次将它们的位置标记为1,2,......,N。若关系词语中含有命名实体,则它们的位置标记相同。
第七步:根据第六步的位置标记,确定命名实***置,当公式(1)中置信度Confidence(Li,Lj)达到最大值时,选择Li的位置作为命名实体1,选择Lj的位置作为命名实体2,假定命名实体1的位置总是位于命名实体2的位置的左边。
第八步:手动设置关系表述比例r小于等于0.7以及论元的长度大于等于2:
第九步:根据第五步抽取到关系词语和第七步的命名实体以及第八步的过滤条件,如果符合条件则输出三元组,如果不符合条件则不输出该三元组。从第五步得到关系词语“成立联合专案组”和“迅速开展案件侦查”以及从第七步得到的命名实体“上海市公安局”和“上海海关缉私局”,最后输出关系三元组Triple1-(上海市公安局,上海海关缉私局,成立联合专案组)和Triple2-(上海市公安局,上海海关缉私局,迅速开展案件侦查)。
第十步:结束。
Claims (2)
1.一种利用依存分析的开放式中文实体关系抽取方法,其特征在于该方法包括以下具体步骤:
第一步:对大规模的自由文本采用基于视觉信息的网页分块算法进行正文提取;
第二步:按照句号、问号和感叹号对提取到的正文进行分句处理,得到单句的集合;
第三步:采用语言技术平台云,对每个单句进行分词、词性标注、命名实体识别和依存分析,得到带有分词、词性标注、命名实体和依存分析信息的单句;
第四步:根据第三步中依存分析的结果判断句子是不是动词谓语句,如果不是,执行第十步;
第五步:结合关系表述即“状语*动词+补语?宾语?”,以及第三步的依存分析结果抽取关系词语;
第六步:根据第三步的结果,将组成命名实体的词进行合并;根据第五步的结果,将组成关系词语的词进行合并;最后,将词、命名实体以及关系词语从右向左依次将它们的位置标记为1,2,......,N;若关系词语中含有命名实体,则其位置标记相同;
第七步:根据第六步的位置标记,确定命名实***置,利用公式(1)计算置信度,当置信度Confidence(Li,Lj)达到最大值时,选择Li的位置作为命名实体1,选择Lj的位置作为命名实体2,设命名实体1的位置总是位于命名实体2的位置的左边;
<mrow>
<mi>C</mi>
<mi>o</mi>
<mi>n</mi>
<mi>f</mi>
<mi>i</mi>
<mi>d</mi>
<mi>e</mi>
<mi>n</mi>
<mi>c</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>L</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>L</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mrow>
<msub>
<mi>L</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>L</mi>
<mi>j</mi>
</msub>
</mrow>
</mfrac>
<mo>+</mo>
<mfrac>
<mn>1</mn>
<mrow>
<msub>
<mi>L</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<mi>R</mi>
</mrow>
</mfrac>
<mo>+</mo>
<mfrac>
<mn>1</mn>
<mrow>
<msub>
<mi>L</mi>
<mi>j</mi>
</msub>
<mo>-</mo>
<mi>R</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</mfrac>
<mrow>
<mo>(</mo>
<msub>
<mi>L</mi>
<mi>i</mi>
</msub>
<mo>></mo>
<msub>
<mi>L</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
在公式(1)中,L表示命名实体的位置,R表示关系词语的位置;第一个分式中,Li-Lj表示命名实体1和命名实体2的距离;在第二个分式中,Li-R表示命名实体1和关系词语的距离;在第三个分式中,Lj-R+1表示命名实体2和关系词语的距离,距离越大表示命名实体和命名实体之间、命名实体和关系词语之间存在语义关系的可能性越小,置信度也会越低;
第八步:手动设置关系词语比例r
通过爬取百度百科WEB页面,选取公式(2)中的r=0.1,0.2,0.3……,0.9作为阈值,通过实验当r=0.7的时候准确率、召回率、F值最优;当命名实体长度为1时,识别出来的命名实体为1个字,这里选取命名实体的长度大于等于2作为阈值条件;
第九步:根据第五步抽取到关系词语和第七步的命名实体以及第八步的过滤条件,如果符合条件则输出三元组,如果不符合条件则不输出该三元组;
第十步:结束。
2.根据权利要求1所述的方法,其特征在于所述依存分析是通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中核心动词是支配其它成分的中心成分,而核心动词本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于核心动词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510321339.6A CN104933027B (zh) | 2015-06-12 | 2015-06-12 | 一种利用依存分析的开放式中文实体关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510321339.6A CN104933027B (zh) | 2015-06-12 | 2015-06-12 | 一种利用依存分析的开放式中文实体关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104933027A CN104933027A (zh) | 2015-09-23 |
CN104933027B true CN104933027B (zh) | 2017-10-27 |
Family
ID=54120196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510321339.6A Active CN104933027B (zh) | 2015-06-12 | 2015-06-12 | 一种利用依存分析的开放式中文实体关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104933027B (zh) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653522B (zh) * | 2016-01-21 | 2019-04-05 | 中国农业大学 | 一种针对植物领域的非分类关系识别方法 |
CN107180045B (zh) * | 2016-03-10 | 2020-10-16 | 中国科学院地理科学与资源研究所 | 一种互联网文本蕴含地理实体关系的抽取方法 |
CN107301163B (zh) * | 2016-04-14 | 2020-11-17 | 科大讯飞股份有限公司 | 包含公式的文本语义解析方法及装置 |
CN105938495A (zh) * | 2016-04-29 | 2016-09-14 | 乐视控股(北京)有限公司 | 实体关系识别方法及装置 |
CN107783957B (zh) * | 2016-08-30 | 2021-05-18 | 中国电信股份有限公司 | 本体创建方法和装置 |
CN106484675A (zh) * | 2016-09-29 | 2017-03-08 | 北京理工大学 | 融合分布式语义和句义特征的人物关系抽取方法 |
CN107977379B (zh) * | 2016-10-25 | 2022-06-28 | 百度国际科技(深圳)有限公司 | 用于挖掘信息的方法和装置 |
CN108021595B (zh) * | 2016-10-28 | 2020-07-14 | 北大方正集团有限公司 | 检验知识库三元组的方法及装置 |
CN106777275B (zh) * | 2016-12-29 | 2018-03-06 | 北京理工大学 | 基于多粒度语义块的实体属性和属性值提取方法 |
CN107291687B (zh) * | 2017-04-27 | 2021-03-26 | 同济大学 | 一种基于依存语义的中文无监督开放式实体关系抽取方法 |
CN110020038A (zh) * | 2017-08-01 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 网页信息提取方法、装置、***及电子设备 |
CN107590219A (zh) * | 2017-09-04 | 2018-01-16 | 电子科技大学 | 网页人物主题相关信息提取方法 |
CN108573025B (zh) * | 2018-03-12 | 2021-07-02 | 云知声智能科技股份有限公司 | 基于混合模板抽取句子分类特征的方法及装置 |
CN108363816A (zh) * | 2018-03-21 | 2018-08-03 | 北京理工大学 | 基于句义结构模型的开放式实体关系抽取方法 |
CN108647194B (zh) * | 2018-04-28 | 2022-04-19 | 北京神州泰岳软件股份有限公司 | 信息抽取方法及装置 |
CN108763195B (zh) * | 2018-05-02 | 2022-01-18 | 武汉烽火普天信息技术有限公司 | 一种基于依存句法和模式规则的非限定型关系挖掘方法 |
CN110569494B (zh) * | 2018-06-05 | 2023-04-07 | 北京百度网讯科技有限公司 | 用于生成信息的方法、装置、电子设备及可读介质 |
CN110866389B (zh) * | 2018-08-17 | 2021-12-17 | 北大方正集团有限公司 | 信息价值评估方法、装置、设备及计算机可读存储介质 |
CN109241538B (zh) * | 2018-09-26 | 2022-12-20 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
CN109271504B (zh) * | 2018-11-07 | 2021-06-25 | 爱因互动科技发展(北京)有限公司 | 基于知识图谱的推理对话的方法 |
CN110008465B (zh) * | 2019-01-25 | 2023-05-12 | 网经科技(苏州)有限公司 | 句子语义距离的度量方法 |
CN110147436B (zh) * | 2019-03-18 | 2021-02-26 | 清华大学 | 一种基于教育知识图谱与文本的混合自动问答方法 |
CN110222332B (zh) * | 2019-04-29 | 2023-06-16 | 闽江学院 | 基于依存分析实现菜名实体识别的方法 |
CN110162788B (zh) * | 2019-05-06 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 实体依存关系的确定方法及装置 |
CN110309513B (zh) * | 2019-07-09 | 2023-07-25 | 北京金山数字娱乐科技有限公司 | 一种文本依存分析的方法和装置 |
CN110597998A (zh) * | 2019-07-19 | 2019-12-20 | 中国人民解放军国防科技大学 | 一种结合句法分析的军事想定实体关系抽取方法及装置 |
CN110502642B (zh) * | 2019-08-21 | 2024-01-23 | 武汉工程大学 | 一种基于依存句法分析与规则的实体关系抽取方法 |
CN110569510A (zh) * | 2019-09-17 | 2019-12-13 | 四川长虹电器股份有限公司 | 一种对用户请求数据的命名实体识别的方法 |
CN111177393B (zh) * | 2020-01-02 | 2023-03-24 | 广东博智林机器人有限公司 | 一种知识图谱的构建方法、装置、电子设备及存储介质 |
CN111209411B (zh) * | 2020-01-03 | 2023-12-12 | 北京明略软件***有限公司 | 一种文档分析的方法及装置 |
CN111581954B (zh) * | 2020-05-15 | 2023-06-09 | 中国人民解放军国防科技大学 | 一种基于语法依存信息的文本事件抽取方法及装置 |
CN113761919A (zh) * | 2020-06-04 | 2021-12-07 | 国家计算机网络与信息安全管理中心 | 一种口语化短文本的实体属性提取方法及电子装置 |
CN111932174B (zh) * | 2020-07-28 | 2024-05-28 | 中华人民共和国深圳海关 | 货运监管异常信息获取方法、装置、服务器及存储介质 |
CN112214999A (zh) * | 2020-09-30 | 2021-01-12 | 内蒙古科技大学 | 一种基于图模型和词向量相结合的词义消歧方法及装置 |
CN112232074B (zh) * | 2020-11-13 | 2022-01-04 | 完美世界控股集团有限公司 | 实体关系抽取方法、装置、电子设备及存储介质 |
CN112711949B (zh) * | 2021-01-05 | 2022-04-22 | 山东众阳健康科技集团有限公司 | 一种命名实体识别和实体关系抽取的联合方法 |
CN117609518B (zh) * | 2024-01-17 | 2024-04-26 | 江西科技师范大学 | 一种面向定中结构的分层级中文实体关系抽取方法及*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101799802A (zh) * | 2009-02-05 | 2010-08-11 | 日电(中国)有限公司 | 利用结构信息进行实体关系提取的方法和*** |
CN102243626A (zh) * | 2011-07-22 | 2011-11-16 | 中国科学院计算技术研究所 | 一种基于依存句法树的翻译规则抽取方法和翻译方法 |
CN102866989A (zh) * | 2012-08-30 | 2013-01-09 | 北京航空航天大学 | 基于词语依存关系的观点抽取方法 |
CN103530281A (zh) * | 2013-10-15 | 2014-01-22 | 苏州大学 | 一种论元抽取方法和*** |
CN104516874A (zh) * | 2014-12-29 | 2015-04-15 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种对名词短语进行依存句法分析的方法及*** |
US9031933B2 (en) * | 2013-04-03 | 2015-05-12 | International Business Machines Corporation | Method and apparatus for optimizing the evaluation of semantic web queries |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2825496B1 (fr) * | 2001-06-01 | 2003-08-15 | Synomia | Procede et systeme d'analyse syntaxique large de corpus, notamment de corpus specialises |
-
2015
- 2015-06-12 CN CN201510321339.6A patent/CN104933027B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101799802A (zh) * | 2009-02-05 | 2010-08-11 | 日电(中国)有限公司 | 利用结构信息进行实体关系提取的方法和*** |
CN102243626A (zh) * | 2011-07-22 | 2011-11-16 | 中国科学院计算技术研究所 | 一种基于依存句法树的翻译规则抽取方法和翻译方法 |
CN102866989A (zh) * | 2012-08-30 | 2013-01-09 | 北京航空航天大学 | 基于词语依存关系的观点抽取方法 |
US9031933B2 (en) * | 2013-04-03 | 2015-05-12 | International Business Machines Corporation | Method and apparatus for optimizing the evaluation of semantic web queries |
CN103530281A (zh) * | 2013-10-15 | 2014-01-22 | 苏州大学 | 一种论元抽取方法和*** |
CN104516874A (zh) * | 2014-12-29 | 2015-04-15 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种对名词短语进行依存句法分析的方法及*** |
Non-Patent Citations (3)
Title |
---|
ClausIE: Clause-Based Open Information Extraction;Luciano Del Corro 等;《International World Wide Web Conference》;20130517;10-18 * |
Dependency-Based Open Information Extraction;Pablo Gamallo 等;《Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics》;20120427;355-366 * |
中文问答***中答案抽取的研究;刘宁锋 等;《电脑知识与技术》;20110425;第7卷(第12期);2865-2868 * |
Also Published As
Publication number | Publication date |
---|---|
CN104933027A (zh) | 2015-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104933027B (zh) | 一种利用依存分析的开放式中文实体关系抽取方法 | |
CN104636466B (zh) | 一种面向开放网页的实体属性抽取方法和*** | |
CN102955848B (zh) | 一种基于语义的三维模型检索***和方法 | |
CN106951438A (zh) | 一种面向开放域的事件抽取***及方法 | |
CN103853834B (zh) | 基于文本结构分析的Web文档摘要的生成方法 | |
US10824816B2 (en) | Semantic parsing method and apparatus | |
CN106599032A (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
Lind et al. | Building the bridge: Topic modeling for comparative research | |
CN104881402A (zh) | 中文网络话题评论文本语义倾向分析的方法及装置 | |
Al-Jumaily et al. | A real time Named Entity Recognition system for Arabic text mining | |
CN108665141B (zh) | 一种从突发事件预案中自动抽取应急响应流程模型的方法 | |
CN102298642A (zh) | 文本信息抽取方法和*** | |
Gao et al. | Text classification research based on improved Word2vec and CNN | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及*** | |
CN106528731A (zh) | 一种敏感词过滤方法及*** | |
CN108959630A (zh) | 一种面向英文无结构文本的人物属性抽取方法 | |
Popping | Online tools for content analysis | |
Singh et al. | Statistical tagger for Bhojpuri (employing support vector machine) | |
CN106202036A (zh) | 一种基于依存约束和知识的动词词义消歧方法和装置 | |
Johannessen et al. | Glossa: A multilingual, multimodal, configurable user interface | |
CN102955842A (zh) | 一种多特征融合识别中文机构名的控制方法 | |
Popping | Online tools for content analysis | |
CN103294662B (zh) | 一致性判断装置及一致性判断方法 | |
CN102609413A (zh) | 一种语义增强的词对间关系测度的控制方法以及*** | |
Jiang et al. | Research on sentiment analysis of online public opinion based on semantic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200227 Address after: 201203 room 15201, building 15, Shanghai Pudong Software Park, No. 498, GuoShouJing Road, Pudong New Area, Shanghai Patentee after: Shanghai Chengguan Information Technology Co., Ltd. Address before: 200241 No. 500, Dongchuan Road, Shanghai, Minhang District Patentee before: EAST CHINA NORMAL University |
|
TR01 | Transfer of patent right |