CN105930509B - 基于统计与模板匹配的领域概念自动抽取精化方法及*** - Google Patents

基于统计与模板匹配的领域概念自动抽取精化方法及*** Download PDF

Info

Publication number
CN105930509B
CN105930509B CN201610307269.3A CN201610307269A CN105930509B CN 105930509 B CN105930509 B CN 105930509B CN 201610307269 A CN201610307269 A CN 201610307269A CN 105930509 B CN105930509 B CN 105930509B
Authority
CN
China
Prior art keywords
knowledge point
matching
field
rule
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610307269.3A
Other languages
English (en)
Other versions
CN105930509A (zh
Inventor
吕钊
谢雨飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201610307269.3A priority Critical patent/CN105930509B/zh
Publication of CN105930509A publication Critical patent/CN105930509A/zh
Application granted granted Critical
Publication of CN105930509B publication Critical patent/CN105930509B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于统计与模板匹配的领域概念自动抽取与精化方法,该方法包括:对领域文档中的内容进行分类;针对分类的标题和摘要,通过匹配得到符合“是一个”模式的匹配内容;对匹配内容进行预处理,并提取文档内容中的术语抽取规则和术语词性构成规则;根据术语抽取规则,抽取匹配内容中的知识点,并根据术语词性构成规则对知识点进行初步过滤,加入领域知识点;计算领域知识点中各知识点的词频以及术语领域相关程度,并根据词频和相关程度进行二次过滤,输出结果。本发明在保证一定准确率的前提下最大程度的实现了此过程的自动化,很大程度上提高了知识点抽取的效率,能最大限度的节约人力成本。本发明公开了领域概念自动抽取与精化***。

Description

基于统计与模板匹配的领域概念自动抽取精化方法及***
技术领域
本发明涉及信息自动抽取领域,尤其涉及一种基于统计与模板匹配的领域概念自动抽取精化方法及***。
背景技术
随着互联网技术的发展,网络上数据呈现出数据量大,数据来源丰富和数据形式多样的特点,信息技术的发展面临着巨大挑战,如信息的表示,知识的抽取与共享、软件的复用等。对数字信息的强烈需求使得人们对互联网产品服务质量要求越来越高,如何将网络上的海量数据有效地表示、管理、维护和复用并且互联网企业提供底层方法和技术支持已经成为科研领域广泛关注的问题。知识作为一种共享的概念化模型,它提供了计算机对信息结构的理解,是计算机之间相互交流的语义基础。
领域知识点的抽取是指把蕴含于领域信息源中的知识经过识别、理解、筛选、归纳等过程抽出来,存储形成知识元库。目前研究较多的是自然语言文本,已经出现了一些工具或***,知识抽取已经成为自然语言处理领域的一个重要的研究分支。目前的知识抽取还是以手工或由机器辅助的手工获取为主。例如,在获取领域专家的经验时,就要求知识工程师与专家进行直接交流,深入讨论,甚至参与到领域专家现场解决问题的过程当中,这种交流讨论可能需要很长时间,直到知识工程师认为他领会了专家的经验,然后再由他对这些经验进行数学分析,建立数学模型,以适当的知识表示形式表示出来,送入计算机。除从领域专家处获取知识外,一个成功的专家***,还应该具备从实践中学习、总结知识的能力。即,还可通过专家***本身的运行实践,从已有知识或实例中演绎、归纳出新知识,进而实现对知识库的自我更新和完善。当然,这要求专家***自身具有一定的“学习”能力,也就是说,必须要对机器学习的相关理论和技术进行更加深入的研究。
发明内容
本发明的目的在于克服知识抽取中以手工或由机器辅助的手工获取的不足,提出了一种基于统计与模板匹配的领域概念自动抽取与精化方法,包括以下具体步骤:
数据分类步骤:对领域文档中的内容进行分类,分类结果包括:关键词、标题和摘要;将关键词加入领域知识点中;
模式匹配步骤:针对标题和摘要,通过匹配得到符合“是一个”模式的匹配内容;
规则提取步骤:对所述匹配内容进行预处理,并提取所述文档内容中的术语抽取规则和术语词性构成规则;
知识点抽取步骤:根据所述术语抽取规则,抽取所述匹配内容中的知识点,并根据所述术语词性构成规则对所述知识点进行初步过滤,加入所述领域知识点;
相关度获取步骤:计算所述领域知识点中各知识点的词频以及术语领域相关程度,并根据词频和相关程度进行二次过滤,输出结果。
本发明提出的所述基于统计与模板匹配的领域概念自动抽取与精化方法中,所述“是一个”模式具体形式如下:
Defineconstant
{
(量词)={种|个|款|家|件|项|台|套|组|块|系|条|位|次|部|本|门|片|名|段|场|张|间|群|体|类|只|根|层|颗|两|对|支|笔|}
(前缀搭配)!={不,近似,貌似,好像,曾经,也许,不再,几乎就,并不,可以算,将不再,看起来,传说中,以前}
}
Define Pattern
{模式构成:<*C1><*!前缀搭配><是>一<!量词><*C2>}
其中,“!”表示定义一个常量,“*”表示定义中可以出现任意次数,“|”表示或关系,“<*C1>”、“<*C2>”为任意字符串。
本发明提出的所述基于统计与模板匹配的领域概念自动抽取与精化方法中,对所述匹配内容进行预处理包括对所述匹配内容进行分词、词性标注和依存句法树分析。
本发明提出的所述基于统计与模板匹配的领域概念自动抽取与精化方法中,术语抽取规则是通过句法分析得到的,具体规则为通过句法分析抽取出名词短语节点,并且判断名词短语节点的长度,如果长度小于等于4则递归向上抽取上一层的名词短语节点。
本发明提出的所述基于统计与模板匹配的领域概念自动抽取与精化方法中,计算所述领域知识点中各知识点的词频时,进一步计算每个知识点的长度,并且利用最大期望算法经过训练学习出对应长度知识点的词频阈值;通过设定阈值,删除词频小于阈值的知识点。
本发明提出的所述基于统计与模板匹配的领域概念自动抽取与精化方法中,采用DomainPertinence与DomainConsensus衡量术语领域相关程度;
DomainPertinence以公式(1)表示:
其中freq(t/Di)表示在领域i的文档中出现的频次,freq(t/Dj)表示在其他背景领域j的文档中出现的频次;
DomainConsensus以公式(2)表示:
其中n_freq(t,dk)为知识点t在文档dk中出现的频次的规范化值。
本发明还提出了一种面向领域的中文概念自动抽取与精化***,其利用所述自动抽取与精化方法,包括:
数据分类模块,用于对领域文档中的内容进行分类;
模式匹配模块,其与所述数据分类模块连接,用于通过匹配得到符合“是一个”模式的匹配内容;
规则提取模块,其与所述模式匹配模块连接,用于对所述匹配内容进行预处理,并提取所述文档内容中的术语抽取规则和术语词性构成规则;
知识点抽取模块,其与所述规则提取模块连接,用于根据所述术语抽取规则,抽取所述匹配内容中的知识点,并根据所述术语词性构成规则对所述知识点进行初步过滤,加入所述领域知识点;
相关度获取模块,其与所述知识点抽取模块连接,用于计算所述领域知识点中各知识点的词频以及术语领域相关程度,并根据词频和相关程度进行二次过滤,输出结果。
与现有的基于手工或者由机器辅助的手工获取知识点相比,本发明在保证一定准确率的前提下最大程度的实现了此过程的自动化,提高了知识点抽取的效率,能最大限度的节约人力成本。与传统的基于统计特征的知识点抽取方法相比,本发明先对句子采用“是一个”模型匹配,然后利用依存句法树构造术语抽取规则,进行知识点的抽取,接着利用术语构词规则、术语词频规则、术语领域相关度对原始的知识点进行二次过滤,提高了知识点抽取的准确率。
附图说明
图1为本发明所述方法的流程图;
图2为本发明所置***的示意图;
图3为权重值与概念抽取准确率的相关曲线。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
本发明提供一种基于“是一个”模式匹配以及领域术语构词规则的知识点自动抽取方法,实现针对中文领域概念的自动抽取与精化***,方法包括以下具体步骤:
步骤一:针对领域文档中的原始文本数据判定其是否满足“是一个”模式;具体为:对领域文档中的内容进行分类,将其中的关键词作为已经经过初步过滤的知识点保存,等待步骤四的二次过滤;针对领域文档中的标题和摘要,判断其是否符合“是一个”模式,如果符合则对其进行保留,如果不符合,直接删除;
步骤二:针对符合“是一个”模式的领域文本进行预处理,总结归纳术语抽取规则及术语
词性构成规则;具体包括:
ⅰ)对匹配“是一个”模式成功的句子进行分词,词性标注,依存句法树分析;
ⅱ)基于监督学习的方法,如查阅《现代汉语词典》,结合依存句法树分析结果构建术语抽取规则;
iii)基于统计与非监督学习的方法,如查阅《现代汉语规范词典》和《实用现代汉语语法》,结合词性标注的结果构建术语词性构成规则;
步骤三:根据术语抽取规则对经过预处理的领域文档进行知识点抽取,并进行初步过滤;具体为:
ⅰ)基于步骤二的ⅱ)术语抽取规则对已经经过预处理的领域文档中的标题和摘要部分进行知识点抽取;
ⅱ)基于步骤二的iii)术语词性构成规则对ⅰ)中抽取出的知识点进行初步的过滤。
步骤四:计算步骤一中保存的文档关键词以及步骤三ii)初步过滤后的知识点的词频以及术语领域相关度,进行二次过滤;具体为:
ⅰ)计算每个知识点的长度,以及在领域文档中出现的次数,进一步计算每个知识点的长度,并且利用最大期望(EM)算法经过训练学习出对应长度知识点的词频阈值,过滤掉所有词频小于阈值的知识点;
ⅱ)根据背景文档计算出术语的领域相关度,并且利用最大期望(EM)算法经过训练学习出领域相关度的阈值,过滤掉所有领域相关度大小小于阈值的知识点。
参阅图1,本发明包括“是一个”模式匹配、术语抽取规则及构词规则总结、知识点抽取与初步过滤、知识点二次过滤四步骤;本申请所述方法研究3个方面:知识点可能存在的句子的句式总结,术语抽取规则及构词规则总结,知识点的过滤。
图1中的领域文档为知识点的最初数据来源,该领域文档为万方数据库提供的对应领域的相关论文,包括论文标题,摘要,关键词列表,以及论文作者的相关信息。在知识点抽取过程中需要用到标题,摘要以及关键词列表。
图1中的判断是否符合“是一个”模式,主要是针对单个的句子,判断其是否满足“是一个”模式,所谓“是一个”模式构成为<*C1><*!前缀搭配><是>一<!量词><*C2>,其中,“!”表示定义一个常量,“*”表示定义中可以出现任意次数,“|”表示或关系,“<*C1>”、“<*C2>”为任意字符串,(量词)={种|个|款|家|件|项|台|套|组|块|系|条|位|次|部|本|门|片|名|段|场|张|间|群|体|类|只|根|层|颗|两|对|支|笔……|},(前缀搭配)!={不,近似,貌似,好像,曾经,也许,不再,几乎就,并不,可以算,将不再,看起来,传说中,以前}。
符合“是一个”模式的句子例如:集成电路是一种微型电子器件或部件。其中,<*C1>为字符串“集成电路”,<!量词>为种,<*C2>为字符串“微型电子器件或部件”。不符合“是一个”模式的句子例如:集成电路是20世纪50年代后期一60年代发展起来的一种新型半导体器件。
图1中的词的切分,词性标注,依存句法树分析主要利用Standford Parse工具实现,该工具是由StandfordNLPGroup开发的基于Java的开源NLP工具。在实际使用时,仅针对论文的标题和摘要进行分词,对分词过后的词再进行词性标注以及依存句法树分析。依存句法是由法国语言学家L.Tesniere最先提出的。它将句子分析成一棵依存句法树,描述出各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。通过句法分析抽取出NP节点,并且判断名词短语(Noun Phrase)节点即NP节点的长度,如果长度小于等于4则递归向上抽取上一层的NP节点。
例如针对句子“深亚微米集成电路是近年来出现的一种新型可靠的技术”,经过Standford Parse分词之后的结果如下:深亚微米集成电路是近年来出现的一种新型可靠的技术。词性标注的结果如下:深亚微米/NN集成/JJ电路/NN是/VC近年/NT来/LC出现/VV的/DEC一/CD种/M新型/JJ可靠/VA的/DEC技术/NN。其中NN表示常用名词,JJ表示形容词或序数词,VC表示“是”,NT表示时间名词,LC表示方位词,VV表示动词,DEC表示“的”,CD表示基数词,M表示量词,VA表示形容词。依存句法树分析的结果如下:
Root表示要处理的文本的语句,NP表示名词短语,IP表示简单从句,ADJP表示形容词短语,JJ表示形容词或序数词,NN表示常用名词,VC表示“是”,CP表示由“的”构成的表示修饰性关系的短语,LCP表示方位词短语,QP表示量词短语,NT表示时间名词,VV表示动词,VA表示表语形容词。其中“深亚微米”是一个NP节点,若直接将其抽取出来作为知识点,则会出现知识点抽取残缺的情况,此时需要向上递归一个NP节点,则抽取出来的为“深亚微米集成电路”,这才是一个完整的知识点。
图1中的构建术语词性构成规则主要通过对大量的文本数据进行特征提取,利用统计学与非监督学习的方法对其进行训练与学习,最终输出对应的词性构成规则。具体的词性构成规则如下表1所示:
表1词性构成规则
其中,N代表名词,V代表动词,A代表形容词,M代表数词,B代表区别词。
图1中的知识点二次过滤主要利用了术语词频以及领域相关度进行的。
术语词频指的是术语在领域文档中一共出现的次数,对于词频较低的知识点,我们直接将其剔除,由于知识点的长度越长,对应的词频会相对较低,本发明假设词频分布满足泊松分布,并据此利用最大期望(EM)算法经过训练学习出对应长度的词频阈值。
对于已经抽取出来的知识点,采用DomainPertinence(DP)和DomainConsensus(DC)两个指标来衡量其领域相关程度。DomainPertinence(DP)即知识点属于某个领域,而不属于其他所有领域的程度,计算公式如下:
其中freq(t/Di)表示在领域i的文档中出现的频次,freq(t/Dj)表示在其他背景领域j的文档中出现的频次。DP值越高表示属于该领域的可能性越大。Domain Consensus(DC)即领域一致度,概念在特定领域的分布程度,对于领域相关度相同的语义串,在领域文本中分布越均匀的概念越有可能是领域的概念,计算公式如下:
其中n_freq(t,dk)为知识点t在文档dk中出现的频次的规范化值。
最终的知识点的领域相关度是DP值与DC值的加权,具体公式如下:
其中α为权值,dpval表示该知识点的DP值,maxDP表示所有知识点的DP最大值,dcval表示该知识点的DC值,maxDC表示所有知识点的DC最大值。知识点的领域相关度阈值设定方法与知识点词频阈值设置方法相同,即利用最大期望(EM)算法经过训练学习出领域相关度阈值,低于该值的知识点被过滤,高于该值的知识点保留。权重值与概念抽取准确率的相关曲线如图3所示,本实施例中,α取值为0.9。
参阅图2,本发明面向领域的中文概念自动抽取与精化***,其利用所述自动抽取与精化方法,包括:
数据分类模块,用于对领域文档中的内容进行分类;
模式匹配模块,其与所述数据分类模块连接,用于通过匹配得到符合“是一个”模式的匹配内容;
规则提取模块,其与所述模式匹配模块连接,用于对所述匹配内容进行预处理,并提取所述文档内容中的术语抽取规则和术语词性构成规则;
知识点抽取模块,其与所述规则提取模块连接,用于根据所述术语抽取规则,抽取所述匹配内容中的知识点,并根据所述术语词性构成规则对所述知识点进行初步过滤,加入所述领域知识点;
相关度获取模块,其与所述知识点抽取模块连接,用于计算所述领域知识点中各知识点的词频以及术语领域相关程度,并根据词频和相关程度进行二次过滤,输出结果。
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。

Claims (5)

1.一种基于统计与模板匹配的领域概念自动抽取与精化方法,其特征在于,包括以下具体步骤:
数据分类步骤:对领域文档中的内容进行分类,分类结果包括:关键词、标题和摘要;将关键词加入领域知识点中;
模式匹配步骤:针对标题和摘要,通过匹配得到符合“是一个”模式的匹配内容;所述“是一个”模式具体形式如下:
Defineconstant
{
(量词)={种|个|款|家|件|项|台|套|组|块|系|条|位|次|部|本|门|片|名|段|场|张|间|群|体|类|只|根|层|颗|两|对|支|笔|}
(前缀搭配)!={不,近似,貌似,好像,曾经,也许,不再,几乎就,并不,可以算,将不再,看起来,传说中,以前}
}
Define Pattern
{模式构成:<*C1><*!前缀搭配><是>一<!量词><*C2>}
其中,“!”表示定义一个常量,“*”表示定义中可以出现任意次数,“|”表示或关系,“<*C1>”、“<*C2>”为任意字符串;
规则提取步骤:对所述匹配内容进行预处理,并提取所述文档内容中的术语抽取规则和术语词性构成规则;所述预处理包括对所述匹配内容进行分词、词性标注和依存句法树分析;
知识点抽取步骤:根据所述术语抽取规则,抽取所述匹配内容中的知识点,并根据所述术语词性构成规则对所述知识点进行初步过滤,加入所述领域知识点;
相关度获取步骤:计算所述领域知识点中各知识点的词频以及术语领域相关程度,并根据词频和相关程度进行二次过滤,输出结果。
2.如权利要求1所述的基于统计与模板匹配的领域概念自动抽取与精化方法,其特征在于,术语抽取规则是通过句法分析得到的,具体规则为通过句法分析抽取出名词短语节点,并且判断名词短语节点的长度,如果长度小于等于4则递归向上抽取上一层的名词短语节点。
3.如权利要求1所述的基于统计与模板匹配的领域概念自动抽取与精化方法,其特征在于,计算所述领域知识点中各知识点的词频时,进一步计算每个知识点的长度,并且利用最大期望算法经过训练学习出对应长度知识点的词频阈值;通过设定阈值,删除词频小于阈值的知识点。
4.如权利要求1所述的基于统计与模板匹配的领域概念自动抽取与精化方法,其特征在于,采用DomainPertinence与DomainConsensus衡量术语领域相关程度;
DomainPertinence以公式(1)表示:
其中freq(t/Di)表示在领域i的文档中出现的频次,freq(t/Dj)表示在其他背景领域j的文档中出现的频次;
DomainConsensus以公式(2)表示:
其中n_freq(t,dk)为知识点t在文档dk中出现的频次的规范化值。
5.一种面向领域的中文概念自动抽取与精化***,其利用如权利要求1-4之任一项所述的自动抽取与精化方法,其特征在于,包括:
数据分类模块,用于对领域文档中的内容进行分类;
模式匹配模块,其与所述数据分类模块连接,用于通过匹配得到符合“是一个”模式的匹配内容;
规则提取模块,其与所述模式匹配模块连接,用于对所述匹配内容进行预处理,并提取所述文档内容中的术语抽取规则和术语词性构成规则;
知识点抽取模块,其与所述规则提取模块连接,用于根据所述术语抽取规则,抽取所述匹配内容中的知识点,并根据所述术语词性构成规则对所述知识点进行初步过滤,加入所述领域知识点;
相关度获取模块,其与所述知识点抽取模块连接,用于计算所述领域知识点中各知识点的词频以及术语领域相关程度,并根据词频和相关程度进行二次过滤,输出结果。
CN201610307269.3A 2016-05-11 2016-05-11 基于统计与模板匹配的领域概念自动抽取精化方法及*** Expired - Fee Related CN105930509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610307269.3A CN105930509B (zh) 2016-05-11 2016-05-11 基于统计与模板匹配的领域概念自动抽取精化方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610307269.3A CN105930509B (zh) 2016-05-11 2016-05-11 基于统计与模板匹配的领域概念自动抽取精化方法及***

Publications (2)

Publication Number Publication Date
CN105930509A CN105930509A (zh) 2016-09-07
CN105930509B true CN105930509B (zh) 2019-05-17

Family

ID=56834839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610307269.3A Expired - Fee Related CN105930509B (zh) 2016-05-11 2016-05-11 基于统计与模板匹配的领域概念自动抽取精化方法及***

Country Status (1)

Country Link
CN (1) CN105930509B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599054B (zh) * 2016-11-16 2019-12-24 福建天泉教育科技有限公司 一种题目分类及推送的方法及***
CN106776556B (zh) * 2016-12-12 2019-10-11 北京蓝海讯通科技股份有限公司 一种文本模式生成方法、装置和计算设备
CN108038100A (zh) * 2017-11-30 2018-05-15 四川隧唐科技股份有限公司 工程关键词提取方法及装置
CN108460021B (zh) * 2018-03-16 2021-10-12 安徽大学 一种提取论文标题中的问题方法对的方法
CN108647194B (zh) * 2018-04-28 2022-04-19 北京神州泰岳软件股份有限公司 信息抽取方法及装置
CN112100976B (zh) * 2020-09-24 2021-11-16 上海松鼠课堂人工智能科技有限公司 知识点关系标注方法及***
CN112487801A (zh) * 2020-10-23 2021-03-12 南京航空航天大学 一种面向安全关键软件的术语推荐方法及***
CN115618852B (zh) * 2022-11-22 2023-04-07 山东天成书业有限公司 一种文本数字化自动校对***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN103778243A (zh) * 2014-02-11 2014-05-07 北京信息科技大学 一种领域术语抽取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9564122B2 (en) * 2014-03-25 2017-02-07 Nice Ltd. Language model adaptation based on filtered data
RU2571373C2 (ru) * 2014-03-31 2015-12-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Метод анализа тональности текстовых данных

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN103778243A (zh) * 2014-02-11 2014-05-07 北京信息科技大学 一种领域术语抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"一种基于"是一个"模式的下位概念获取方法";刘磊等;《计算机科学》;20060930;第33卷(第9期);第146-151页
"本体概念间上下位关系抽取研究";汤青等;《微电子学与计算机》;20140630;第31卷(第6期);第68-71页

Also Published As

Publication number Publication date
CN105930509A (zh) 2016-09-07

Similar Documents

Publication Publication Date Title
CN105930509B (zh) 基于统计与模板匹配的领域概念自动抽取精化方法及***
CN107451126B (zh) 一种近义词筛选方法及***
CN106484664B (zh) 一种短文本间相似度计算方法
CN108052593A (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN108763213A (zh) 主题特征文本关键词提取方法
CN106294593B (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
CN103617290B (zh) 中文机器阅读***
CN103207860B (zh) 舆情事件的实体关系抽取方法和装置
CN109670041A (zh) 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法
CN109376352B (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN108121829A (zh) 面向软件缺陷的领域知识图谱自动化构建方法
CN107315734B (zh) 一种基于时间窗口和语义的变体词规范化的方法和***
CN107480122A (zh) 一种人工智能交互方法及人工智能交互装置
CN106126620A (zh) 基于机器学习的中文自动文摘方法
CN103678275A (zh) 一种基于主客观语义的双层次文本相似度计算方法
CN108804595B (zh) 一种基于word2vec的短文本表示方法
CN103186633B (zh) 一种结构化信息抽取方法、搜索方法和装置
CN109002473A (zh) 一种基于词向量与词性的情感分析方法
CN103324700A (zh) 一种基于Web信息的本体概念属性学习方法
CN108959630A (zh) 一种面向英文无结构文本的人物属性抽取方法
CN109308317A (zh) 一种基于聚类的非结构化文本的热点词提取方法
CN111091009A (zh) 一种基于语义分析的文档关联审核方法
CN104794209B (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及***
CN112905800A (zh) 基于公众人物舆情知识图谱和XGBoost多特征融合情感预警方法
CN109086443A (zh) 基于主题的社交媒体短文本在线聚类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 200241 No. 500, Dongchuan Road, Shanghai, Minhang District

Patentee after: EAST CHINA NORMAL University

Address before: 200062 No. 3663, Putuo District, Shanghai, Zhongshan North Road

Patentee before: EAST CHINA NORMAL University

CP02 Change in the address of a patent holder
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190517

CF01 Termination of patent right due to non-payment of annual fee