CN103049501A - 基于互信息和条件随机场模型的中文领域术语识别方法 - Google Patents

基于互信息和条件随机场模型的中文领域术语识别方法 Download PDF

Info

Publication number
CN103049501A
CN103049501A CN2012105287348A CN201210528734A CN103049501A CN 103049501 A CN103049501 A CN 103049501A CN 2012105287348 A CN2012105287348 A CN 2012105287348A CN 201210528734 A CN201210528734 A CN 201210528734A CN 103049501 A CN103049501 A CN 103049501A
Authority
CN
China
Prior art keywords
word
word string
evaluation function
random field
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012105287348A
Other languages
English (en)
Other versions
CN103049501B (zh
Inventor
彭琳
刘宗田
杨林楠
张立敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201210528734.8A priority Critical patent/CN103049501B/zh
Publication of CN103049501A publication Critical patent/CN103049501A/zh
Application granted granted Critical
Publication of CN103049501B publication Critical patent/CN103049501B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于互信息和条件随机场模型的中文领域术语识别方法,其步骤如下:(1)收集领域文本语料,对语料中所有的标点符号、空格、数字、ASCII字符以及汉字以外字符进行标记;(2)设置字串,计算字串的互信息值;(3)计算字串左右信息熵;(4)定义字串评价函数,设置评价函数阈值,计算各字串的评价函数值,确定字串为词,依次比较该字串中前一字的评价函数值与后一字评价函数值相比较,逐一对字义字串分词;(5)利用条件随机场训练出一个领域术语条件随机场模型,用该模型对进行领域术语识别。该方法在术语识别时,不仅能克服合法术语的数据稀疏,降低了条件随机场算法的运算量,而且能够提高中文领域术语识别精度。

Description

基于互信息和条件随机场模型的中文领域术语识别方法
技术领域
本发明涉及的是一种基于互信息和条件随机场模型的中文领域术语识别方法,属于信息技术领域。
背景技术
国家标准GB/T15237.1-2000《术语工作词汇》的定义,术语是特定专业领域中一般概念的词语指称,是在一个学科领域内使用、表示该学科领域内的概念或关系的词或词组。术语可以分为日常生活中使用的一般性术语和特定领域中使用的领域术语。一般性术语多是按人们的生活和工作习惯形成的,不要求它在概念的表达上严格准确,其含义往往比较模糊;领域术语是对一个专业概念的***性、概括性的描述,不允许模棱两可,每一个专业术语表达的概念都必须准确无误,不能因使用人的不同而不同。
领域术语识别是指从特定的科学或技术领域的语料库中抽出专业领域术语。领域术语自动识别作为信息抽取的重要内容,在自然语言处理领域有着广泛的应用,对于提高领域文本索引与检索、文本挖掘、本体构建、文本分类和聚类、潜在语义分析等的处理精度有着重要的意义。现有的中文文本信息中的领域术语识别方法主要有:
(1)基于统计方法的中文领域术语识别方法,主要思想是利用领域术语内部各组成成分之间较高的关联程度以及术语的领域特征信息来抽取领域术语。基于统计的方法一般流程是: 首先利用统计学或信息论中的方法,建立起各种统计信息,并根据统计结果,确定比较准确的种子词;然后在此基础上不断扩展,获取最终的领域术语。词语频率、均值和方差是比较常用的统计方法,更多的学者使用假设检验的方法, 主要有T检验、卡方检验、对数似然比、点互信息等。用统计方法识别领域术语,不需要句法、语义上的信息,不局限于某一专门领域,也不依赖任何资源,通用性较强。
    其中,基于统计的互信息算法应用最为广泛。例如有文章报道,其题目为“基于互信息的中文术语抽取***”(该文作者是:张锋 许云 侯艳 樊孝忠,发表于2005年出版的《计算机应用研究》第22卷第5期第72-73,77页),该文公开了一种中文术语自动抽取***,该***首先基于互信息计算字串的内部结合强度,从而得到术语候选集;接着从术语候选集中去除基本词,并利用普通词语搭配前缀、后缀信息进一步过滤;最后对术语候选进行词法分析,利用术语的词性构成规则进行判别,得到最终的术语抽取结果。实验结果表明,利用互信息算法对术语抽取的准确率为72.19% ,召回率为77.98% ,F测量值为74.97%。例如有文献报道,“C值和互信息相结合的术语抽取”(作者是:梁颖红 张文静 张有承,发表于2010年出版的《计算机应用与软件》第27卷第4期第108-110页),该文公开了一种将C值和互信息相结合的术语抽取方法,该方法提出综合C-value参数在长术语抽取方面具有优势,实验结果表明,该方法对长术语抽取的准确率为75.7%,召回率为68.4%,F测量值为71.9%,高于相同语料下的其他方法。但是该算法性能直接依赖于语料库的规模和候选领域术语的词频,针对有些低频率候选术语也可能是合法术语的数据稀疏问题难以解决,所以单纯利用互信息算法对领域术语进行识别,识别的准确率、召回率以及F测量值均难以达到80%以上,很难获得理想的识别效果;
(2)基于机器学习的中文领域术语识别方法的主要步骤为: 采用手工或半自动方式构建训练语料, 根据某种机器学习算法对训练语料学习生成模型,然后再利用模型对测试语料进行领域术语抽取实验,以验证本算法的有效性。目前已用于中文领域术语识别的机器学习理论主要包括决策树、支持向量机、隐马尔科夫模型、最大熵模型、最大熵马尔科夫模型和条件随机场算法等。基于机器学习的术语识别方法无需专家的领域知识和语言知识, 实现可行性大, 在考虑多种术语特征的情况下可以得到较好的识别或抽取效果。
目前,基于机器学***,发表于2011年出版的《沈阳航空航天大学学报》第28卷第1期第72-75页),该文公开了一种针对中医领域的基于条件随机场的术语抽取方法,该方法将中医领域术语抽取看作一个序列标注问题,将中医领域术语分布的特征量化作为训练的特征,利用CRF工具包训练出一个领域术语模型,然后利用该模型进行术语抽取。选择《名医类案》作为中医领域文本进行术语抽取实验,准确率达到83.11%,召回率达到81.04%,F测量值达到82.06%。以及文章“采用CRF技术的军事情报术语自动抽取研究”(作者是:贾美英 杨炳儒 郑德权 杨靖,发表于2009年出版的《计算机工程与应用》第45卷第32期第126-129页),该文公开了一种针对军事情报领域的基于条件随机场的术语抽取方法,该方法将领域术语识别看作一个序列标注问题,将领域术语分布的特征量化作为训练的特征,利用CRF工具包训练出一个领域术语特征模板,然后利用该模板进行领域术语抽取。实验表明,该方法对军事情报领域术语的识别结果良好,准确率可达到73.24%,召回率达到69.57%,F测量值达到71.36%。
利用条件随机场算法进行领域术语识别时,训练语料基本上都为手动和半自动标注的,人为参与度都高,工作量大,导致普遍识别量不大,制约了该算法的识别精度和应用。同时,需要先利用通用的分词工具对语料进行分词,然后再对分词后的语料进行条件随机场训练和测试,最终才能实现术语的识别。所以利用条件随机场算法进行领域术语识别的前提是,假设现有的通用分词工具可以对该领域的词汇进行准确地分词,并认为领域术语比分词工具所分的词粒度大。但是,由于专业领域术语与普通词汇存在差距,用一般性分词工具很难实现对专业领域语料的准确分词。因此,目前互信息和条件随机场方法在领域术语识别过程中自动识别程度较低,且识别精度不高。
发明内容
鉴于以上所述现有技术存在的问题,本发明的目的是提供一种基于互信息和条件随机场模型的中文领域术语识别方法,该方法在术语识别时,不仅能克服合法术语的数据稀疏,降低了条件随机场算法的运算量,而且能够提高中文领域术语识别精度。
为了达到上述目的,本发明采用下述技术方案:
本发明的基于互信息和条件随机场模型的中文领域术语识别方法,具体步骤如下:
(1)、收集领域文本语料,对语料中所有的标点符号、空格、数字、ASCII字符以及汉字以外字符进行标记;
(2)、设置字串                                                
Figure 2012105287348100002DEST_PATH_IMAGE001
,计算字串
Figure 957180DEST_PATH_IMAGE001
的互信息值;
(3)、计算字串
Figure 814278DEST_PATH_IMAGE001
左右信息熵;
(4)、定义字串
Figure 318684DEST_PATH_IMAGE001
评价函数,设置评价函数阈值,计算各字串的评价函数值,确定字串
Figure 15561DEST_PATH_IMAGE001
为词,依次比较该字串
Figure 410771DEST_PATH_IMAGE001
中前一字
Figure 2012105287348100002DEST_PATH_IMAGE003
的评价函数值与后一字
Figure 21881DEST_PATH_IMAGE004
评价函数值相比较,得到各字串
Figure 922972DEST_PATH_IMAGE001
中对应的比值,其比值再与评价函数阈值比较,逐一对字义字串
Figure 123326DEST_PATH_IMAGE001
分词; 
(5)、以词、词性、词的出现频率的随机场的训练特征,利用条件随机场方法训练出一个领域术语条件随机场模型,用该模型对进行领域术语识别。
上述步骤(2)中所述的(2)设置字串
Figure 854521DEST_PATH_IMAGE001
,计算字串
Figure 113464DEST_PATH_IMAGE001
的互信息值,其计算公式如下:
假设一个领域术语是由n个字组成,如果字串
Figure 415264DEST_PATH_IMAGE001
为一个领域术语,那么字串
Figure 417855DEST_PATH_IMAGE001
Figure 2012105287348100002DEST_PATH_IMAGE005
Figure 941240DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
……
Figure 980872DEST_PATH_IMAGE003
个字组成,字串
Figure 222497DEST_PATH_IMAGE001
的互信息值计算公式如下:
Figure 763200DEST_PATH_IMAGE008
            (1)
其中,
Figure 203408DEST_PATH_IMAGE001
表示一个由n个字组成的字串;
      表示组成字串
Figure 614274DEST_PATH_IMAGE001
的第i个字(i=1,2,3,…,n); 
      
Figure 77616DEST_PATH_IMAGE010
表示语料库中字
Figure DEST_PATH_IMAGE011
出现的频次;
      
Figure 484327DEST_PATH_IMAGE012
表示语料库中字
Figure 982304DEST_PATH_IMAGE006
出现的频次;
Figure DEST_PATH_IMAGE013
表示语料库中字出现的频次;
表示语料库中字出现的频次;
Figure DEST_PATH_IMAGE015
表示字
Figure 814945DEST_PATH_IMAGE011
Figure 491914DEST_PATH_IMAGE006
Figure 929848DEST_PATH_IMAGE007
、…、
Figure 429094DEST_PATH_IMAGE003
同时出现的频次;
表示字串
Figure 811851DEST_PATH_IMAGE001
中所有字与字之间的互信息。
上述步骤(3)中所述的计算左右信息熵,其计算公式如下:
左信息熵计算公式为:
Figure DEST_PATH_IMAGE017
     (2)
右信息熵计算公式为:
Figure 550131DEST_PATH_IMAGE018
      (3)
其中, 
Figure 774439DEST_PATH_IMAGE001
表示为给定的一个由n个字组成的字串;
       
Figure DEST_PATH_IMAGE019
分别表示出现在
Figure 258302DEST_PATH_IMAGE001
左侧和右则时的条件概率;
       
Figure 405250DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
表示
Figure 495566DEST_PATH_IMAGE001
左边和右边所有出现的词集合;
      
Figure 677148DEST_PATH_IMAGE009
表示组成字串
Figure 945450DEST_PATH_IMAGE001
的第i个字,其中,i=1,2,3,…,n 。 
上述步骤(4)中所述的定义字串W评价函数,并利用评价函数对语料进行分词,是指利用步骤(2)和步骤(3)计算得到的互信息和左右信息熵值,对语料中的字串
Figure 845273DEST_PATH_IMAGE001
为词的可信度进行评价,判断该字串是否为词,其中,字串W评价函数计算公式如下: 
Figure 411383DEST_PATH_IMAGE024
                 (4)
其中, 
Figure 509789DEST_PATH_IMAGE001
表示为给定的一个由n个字组成的字串;
Figure 135943DEST_PATH_IMAGE016
表示字串
Figure 257482DEST_PATH_IMAGE001
中字符之间的互信息值;
      
Figure DEST_PATH_IMAGE025
表示字串
Figure 440333DEST_PATH_IMAGE001
的左信息熵值;
      
Figure 596508DEST_PATH_IMAGE026
表示字串的右信息熵值;
      
Figure DEST_PATH_IMAGE027
为平衡因子,用以调节信息熵与互信息值在字串
Figure 64715DEST_PATH_IMAGE001
评价函数中的权值。
上述步骤(5)中所述的以词、词性、词的出现频率的随机场的训练特征,利用条件随机场方法训练出一个领域术语条件随机场模型,利用该模型对进行领域术语识别,其操作步骤如下:
(51)、以词本身、词性、词的出现频率在语料中进行标注;
(52)、利用CRF++ 0.53工具包对已标注的特征序列训练,获取条件随机场参数,该条件随机场参数为该领域术语识别的条件随机场模型;
(53)、用领域术语识别的的条件随机场模型对测试已标注的特征序列的领域术语识别。
本发明的基于互信息和条件随机场模型的中文领域术语识别方法与现有技术相比较,具有以下效果:
(1)、该方法将基于统计和机器学习的两类术语识别方法有机地结合在一起,有效的解决了单纯利用统计方法进行术语识别时的数据稀疏问题;
(2)、该方法利用互信息算法对语料进行分词和标注,实现了语料的自动标注;
(3)、该方法仅采用了3个最为普通的词特征,作为条件随机场方法的训练,使该方法具有较强的领域通用性,有效地降低了条件随机场的运算量,减少了条件随机场的训练时间。
附图说明
图1为本发明的基于互信息和条件随机场模型的中文领域术语识别方法的流程图;
图2是图1中步骤(4)的流程图;
图3是图1中步骤(5)的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的描述。
本实施例以植物——竹子的领域术语识别作为实例对本发明进行说明,但不用来限制本发明的范围。
参照图1,本发明的基于互信息和条件随机场模型的中文领域术语识别方法,包括如下步骤:
(1)、收集领域文本语料,对语料中所有的标点符号、空格、数字、ASCII字符以及汉字以外字符进行标记。
    例如,本实例选取《中国植物志》第9卷竹亚科的电子书稿作为领域文本语料。
首先,将语料按4:1的比例随机地划分为:训练语料和测试语料两部分;
然后,检索出语料中所有标点符号、空格、数字、ASCII字符以及汉字以外字符,在上述字符前、后分别用“//”符号进行标记;
最后,参照汉语词性表,对所有代词、叹词、助词和虚词,以及首字为“和、有、的、得、将、把、从、了、是、则、在、每、这、该、给、所、使、为、不、着、了、很、该、与、得、的”词的前、后分别用“//”符号进行标记。
(2)、设置字串
Figure 785678DEST_PATH_IMAGE001
,计算字串的互信息值,其计算公式如下:
假设一个领域术语是由n个字组成,如果字串
Figure 826632DEST_PATH_IMAGE001
为一个领域术语,那么字串
Figure 922764DEST_PATH_IMAGE001
Figure 634368DEST_PATH_IMAGE005
Figure 575255DEST_PATH_IMAGE006
Figure 714112DEST_PATH_IMAGE007
……
Figure 94278DEST_PATH_IMAGE003
个字组成,字串
Figure 422622DEST_PATH_IMAGE001
的互信息值计算公式如下:
Figure 407896DEST_PATH_IMAGE028
          (1)
其中,
Figure 717654DEST_PATH_IMAGE001
表示一个由n个字组成的字串;
      
Figure 585116DEST_PATH_IMAGE009
表示组成字串
Figure 451572DEST_PATH_IMAGE001
的第i个字,其中,i=1,2,3,…,n; 
      
Figure 291352DEST_PATH_IMAGE010
表示语料库中字出现的频次;
      
Figure 330032DEST_PATH_IMAGE012
表示语料库中字出现的频次;
Figure 943733DEST_PATH_IMAGE013
表示语料库中字
Figure 408344DEST_PATH_IMAGE007
出现的频次;
Figure 188081DEST_PATH_IMAGE014
表示语料库中字出现的频次;
表示字
Figure 282442DEST_PATH_IMAGE011
Figure 558495DEST_PATH_IMAGE007
、…、同时出现的频次;
表示字串
Figure 37384DEST_PATH_IMAGE001
中所有字与字之间的互信息。
由于本发明认为中文领域术语的长度不大于4个字,并且认为中文领域术语中间不可能出现标点符号、空格、数字、ASCII字符以及汉字以外字符,同时也不可能出再叹词、虚词、指标代词等词,所以本发明对语料文本中所有字分别计算其2-word、3-word、4-word的互信息值,当遇到标记符“//”停止计算,其互信息值的计算公式参见上述发明内容中步骤(2)的公式(1)、(2)、(3)。
例如:语料“边缘被流苏状毛//,//”,其中2-word包括:“边缘”、“缘被”、“被流”、“流苏”、“苏状”和“状毛”;3-word包括:“边缘被”、“缘被流”、“被流苏”、“流苏状”和“苏状毛”;4-word包括:“边缘被流”、“缘被流苏”、“被流苏状”和“流苏状毛”,部份互信息计算结果为:
Figure DEST_PATH_IMAGE029
Figure 39975DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE031
Figure 376409DEST_PATH_IMAGE032
(3)、计算字串
Figure 540675DEST_PATH_IMAGE001
左右信息熵,其计算公式如下:  
左信息熵计算公式为:
Figure 844617DEST_PATH_IMAGE034
               (2)
右信息熵计算公式为:
Figure DEST_PATH_IMAGE035
                (3)
其中, 
Figure 385320DEST_PATH_IMAGE001
表示为给定的一个由n个字组成的字串;
       
Figure 763211DEST_PATH_IMAGE019
Figure 177006DEST_PATH_IMAGE020
分别表示
Figure 640349DEST_PATH_IMAGE021
出现在
Figure 984742DEST_PATH_IMAGE001
左侧和右则时的条件概率;
       
Figure 51104DEST_PATH_IMAGE023
表示
Figure 1743DEST_PATH_IMAGE001
左边和右边所有出现的词集合;
      表示组成字串
Figure 236732DEST_PATH_IMAGE001
的第i个字,其中,i=1,2,3,…,n。 
判断一个字串是否为词,不仅要考虑字串内部字与字之间的结合紧密度,即字之间互信息的大小;同时,还要考虑字串之间的边界自由程度,即在字串边界出现的邻接字的种类越多,认为字串左右信息熵越大,也就是字串边界的自由度越大,其左右信息熵的计算公式参见上述发明内容中步骤(3)的公式(2)、(3)。
例如:语料“边缘被流苏状毛//,//”中,部份左信息熵计算结果为:
Figure 992330DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
,
Figure 430264DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE039
Figure 178777DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE041
;右信息熵计算结果为:
Figure 385768DEST_PATH_IMAGE042
Figure 309337DEST_PATH_IMAGE044
, 
Figure 234568DEST_PATH_IMAGE046
Figure DEST_PATH_IMAGE047
(4)、定义字串
Figure 521193DEST_PATH_IMAGE001
评价函数,设置评价函数
Figure 848269DEST_PATH_IMAGE002
阈值,计算各字串的评价函数值,确定字串为词,依次比较该字串
Figure 92616DEST_PATH_IMAGE001
中前一字
Figure 120615DEST_PATH_IMAGE003
的评价函数值与后一字
Figure 302198DEST_PATH_IMAGE004
评价函数值相比较,得到各字串
Figure 819767DEST_PATH_IMAGE001
中对应的比值,其比值再与评价函数
Figure 454011DEST_PATH_IMAGE002
阈值比较,逐一对字义字串
Figure 20121DEST_PATH_IMAGE001
分词,其操作步骤如下:
(41)、定义字串
Figure 321789DEST_PATH_IMAGE001
评价函数,其计算表达式为:
Figure 760992DEST_PATH_IMAGE024
                  (4)
其中,
Figure 882532DEST_PATH_IMAGE001
表示为给定的一个由n个字组成的字串;
Figure 252333DEST_PATH_IMAGE016
表示字串
Figure 408508DEST_PATH_IMAGE001
中字符之间的互信息值;
      
Figure 205563DEST_PATH_IMAGE025
表示字串
Figure 876716DEST_PATH_IMAGE001
的左信息熵值;
      
Figure 784629DEST_PATH_IMAGE026
表示字串的右信息熵值;
      为平衡因子,用以调节信息熵与互信息值在评价函数中的权值。
(42)、分别计算评价函数数值,确定字串
Figure 672448DEST_PATH_IMAGE001
为词。
根据上述发明内容中的步骤(4)的评价函数公式分别计算所有字串的评价函数值,其中
Figure 384052DEST_PATH_IMAGE027
取0.5,并认为当评价函数大于阈值0.8时,该字串
Figure 388097DEST_PATH_IMAGE001
为词,
例如:语料“边缘被流苏状毛//,//”,部份评价函数计算结果为:
Figure 33842DEST_PATH_IMAGE048
Figure 549137DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE051
, 
Figure 102388DEST_PATH_IMAGE052
Figure DEST_PATH_IMAGE053
(43)、依次比较上述字串
Figure 412147DEST_PATH_IMAGE001
中前一字
Figure 482871DEST_PATH_IMAGE003
的评价函数值与后一字
Figure 598594DEST_PATH_IMAGE003
评价函数值相比,得到各字串
Figure 438374DEST_PATH_IMAGE001
中对应的比值“?”,其比值再与评价函数
Figure 919034DEST_PATH_IMAGE002
阈值比较,逐一对字义字串
Figure 477055DEST_PATH_IMAGE001
分词。
例如,首先从语料的第一个字开始,分别选取长度为4、3、2、1的子字串,记作
Figure 881622DEST_PATH_IMAGE054
Figure DEST_PATH_IMAGE055
Figure 575909DEST_PATH_IMAGE056
Figure DEST_PATH_IMAGE057
然后,对字串
Figure 555366DEST_PATH_IMAGE054
Figure 335103DEST_PATH_IMAGE055
的评价函数进行比较,如果
Figure 730313DEST_PATH_IMAGE058
,认为字串为新词,d在字串
Figure 180197DEST_PATH_IMAGE054
前后分别以符号“*”进行标注;反之,认为字串
Figure 447230DEST_PATH_IMAGE054
不是新词,则其丢弃尾部的最后一个字,对
Figure DEST_PATH_IMAGE059
Figure 646130DEST_PATH_IMAGE056
的评价函数进行比较,如果
Figure 377326DEST_PATH_IMAGE060
,认为字串
Figure 370690DEST_PATH_IMAGE059
为新词,在字串
Figure 938068DEST_PATH_IMAGE059
前后分别以符号“*”进行标注;反之,认为字串
Figure 675080DEST_PATH_IMAGE059
不是新词,其丢弃尾部的最后一个字对
Figure 198465DEST_PATH_IMAGE056
的评价函数进行判断,如果
Figure DEST_PATH_IMAGE061
,认为字串
Figure 690627DEST_PATH_IMAGE056
为新词,在字串
Figure 932252DEST_PATH_IMAGE056
前后分别以符号“*”进行标注;反之,认为字串
Figure 207376DEST_PATH_IMAGE057
为新词,在字串
Figure 660966DEST_PATH_IMAGE057
前后分别以符号“*”进行标注;只要有新词被标注,就从新词后的第一个字开始,再分别选取长度为4、3、2、1的子字串,记作
Figure 996132DEST_PATH_IMAGE054
Figure 866185DEST_PATH_IMAGE056
,重新进行评价函数的比较,当遇到“//”符号跳过。如此反复, 直至所以语料处理完为止,例如:语料“边缘被流苏状毛//,//”,首先,从第一个字开始截取长度分别为4、3、2、1的子字串,即:“边缘被流”、“边缘被”、“边缘”和“边”;然后,首先判断
Figure 135810DEST_PATH_IMAGE062
是否大于等于0.8,根据步骤(41)评价函数的计算结果,可知
Figure DEST_PATH_IMAGE063
小于0.8,即字串“边缘被流”不是新词;然后,判断
Figure 899498DEST_PATH_IMAGE064
是否大于等于0.8,根据步骤(41)评价函数的计算结果,可知
Figure DEST_PATH_IMAGE065
小于0.8,故字串“边缘被”也不是新词;接着判断
Figure 782003DEST_PATH_IMAGE066
是否大于等于0.8,根据步骤(41)评价函数的计算结果,可知
Figure DEST_PATH_IMAGE067
大于0.8,故字串“边缘”是新词;当有判断出新词后,从新词后的第一个字开始再选取4、3、2、1个字串,作为新一轮的作
Figure 196804DEST_PATH_IMAGE054
Figure 139352DEST_PATH_IMAGE055
Figure 577287DEST_PATH_IMAGE056
,即“被流苏状”、“波流苏”、“被流”和“被”,再重复以上步骤进行比较,当遇到“//”符号跳过,直到结束,所以语料“边缘被流苏状毛//,//”,最后分词结果为“*边缘*被*流苏状*毛//,//” ;
(5)、以词、词性、词的出现频率的随机场的训练特征,利用条件随机场训练出一个领域术语条件随机场模型,用该模型对进行领域术语识别,其操作步骤如下: 
(51)、以词本身、词性、词的出现频率在语料中进行标注,其具体如下:
依次对字义字串
Figure 283523DEST_PATH_IMAGE001
分词标注特征序列,该词的标注的特征序列分别为:当前词本身;当前词的词性;当前词的出现频率,采用K-Means聚类方法,将上述当前词的出现频率分为10个等级,每个等级为一类,10个类分别表示为A、B、C、D、E、F、G、H、I、J、K,将已标注的特征序列分为:训练已标注的特征序列、测试已标注的特征序列两部份;
(52)、利用CRF++ 0.53工具包对已标注的特征序列训练,获取条件随机场参数,条件随机场参数为领域术语识别的条件随机场模型;
(53)、用领域术语识别的条件随机场模型对测试已标注的特征序列的领域术语识别,其具体如下:
将测试已标注的特征序列输入到步骤(5.2)训练后获得领域术语识别的条件随机场模型,利用该条件随机场模型 ,计算出特征值,识别出领域术语,输出结果为识别出的领域术语,例如:语料“边缘被流苏状毛//,//”,最终识别出“边缘”和“流苏状”为领域术语。
以上为本发明的最佳实施方式,依据本发明公开的内容,本领域技术人员能够显而易见地想到一些雷同、替代方案,均应属于本发明的技术创新范围。

Claims (5)

1.一种基于互信息和条件随机场模型的中文领域术语识别方法,具体步骤如下:
(1)、收集领域文本语料,对语料中所有的标点符号、空格、数字、ASCII字符以及汉字以外字符进行标记;
(2)、设置字串                                                
Figure 649353DEST_PATH_IMAGE001
,计算字串
Figure 95378DEST_PATH_IMAGE001
的互信息值;
(3)、计算字串
Figure 288462DEST_PATH_IMAGE001
左右信息熵;
(4)、定义字串评价函数,设置评价函数
Figure 10747DEST_PATH_IMAGE002
阈值,计算各字串的评价函数值,确定字串
Figure 73513DEST_PATH_IMAGE001
为词,依次比较该字串
Figure 58786DEST_PATH_IMAGE001
中前一字
Figure 368545DEST_PATH_IMAGE003
的评价函数值与后一字
Figure 501586DEST_PATH_IMAGE004
评价函数值相比较,得到各字串
Figure 554992DEST_PATH_IMAGE001
中对应的比值,其比值再与评价函数
Figure 394772DEST_PATH_IMAGE002
阈值比较,逐一对字义字串
Figure 688482DEST_PATH_IMAGE001
分词; 
(5)、以词、词性、词的出现频率的随机场的训练特征,利用条件随机场方法训练出一个领域术语条件随机场模型,用该模型对进行领域术语识别。
2.根据权利要求1所述的基于互信息和条件随机场模型的中文领域术语识别方法,其特征在于,上述步骤(2)中所述的设置字串
Figure 980923DEST_PATH_IMAGE001
,计算字串
Figure 838020DEST_PATH_IMAGE001
的互信息值,其计算公式如下:
假设一个领域术语是由n个字组成,如果字串
Figure 594624DEST_PATH_IMAGE001
为一个领域术语,那么字串
Figure 246185DEST_PATH_IMAGE001
Figure 291501DEST_PATH_IMAGE005
Figure 499760DEST_PATH_IMAGE006
Figure 48553DEST_PATH_IMAGE007
……
Figure 136595DEST_PATH_IMAGE003
个字组成,字串
Figure 465945DEST_PATH_IMAGE001
的互信息值计算公式如下:
Figure 399266DEST_PATH_IMAGE008
            (1)
其中,
Figure 68145DEST_PATH_IMAGE001
表示一个由n个字组成的字串;
      
Figure 137207DEST_PATH_IMAGE009
表示组成字串
Figure 625957DEST_PATH_IMAGE001
的第i个字(i=1,2,3,…,n); 
      
Figure 628548DEST_PATH_IMAGE010
表示语料库中字
Figure 214251DEST_PATH_IMAGE011
出现的频次;
      表示语料库中字
Figure 620141DEST_PATH_IMAGE006
出现的频次;
Figure 973893DEST_PATH_IMAGE013
表示语料库中字出现的频次;
Figure 952531DEST_PATH_IMAGE014
表示语料库中字
Figure 478190DEST_PATH_IMAGE003
出现的频次;
Figure 822583DEST_PATH_IMAGE015
表示字
Figure 320561DEST_PATH_IMAGE011
Figure 855896DEST_PATH_IMAGE007
、…、
Figure 738401DEST_PATH_IMAGE003
同时出现的频次;
Figure 90885DEST_PATH_IMAGE016
表示字串
Figure 767854DEST_PATH_IMAGE001
中所有字与字之间的互信息。
3.根据权利要求1所述的基于互信息和条件随机场模型的中文领域术语识别方法,其特征在于,上述步骤(3)中所述的计算左右信息熵,其计算公式如下:
左信息熵计算公式为:
Figure 268105DEST_PATH_IMAGE017
     (2)
右信息熵计算公式为:
Figure 954302DEST_PATH_IMAGE018
      (3)
其中, 
Figure 161292DEST_PATH_IMAGE001
表示为给定的一个由n个字组成的字串;
       
Figure 274742DEST_PATH_IMAGE019
Figure 13022DEST_PATH_IMAGE020
分别表示出现在
Figure 564406DEST_PATH_IMAGE001
左侧和右则时的条件概率;
       
Figure 848756DEST_PATH_IMAGE022
Figure 58021DEST_PATH_IMAGE023
表示
Figure 86020DEST_PATH_IMAGE001
左边和右边所有出现的词集合;
      
Figure 267602DEST_PATH_IMAGE009
表示组成字串
Figure 722854DEST_PATH_IMAGE001
的第i个字,其中,i=1,2,3,…,n 。
4. 根据权利要求1所述的基于互信息和条件随机场模型的中文领域术语识别方法,其特征在于,上述步骤(4)中所述的定义字串W评价函数,并利用评价函数对语料进行分词,是指利用步骤(2)和步骤(3)计算得到的互信息和左右信息熵值,对语料中的字串
Figure 456235DEST_PATH_IMAGE001
为词的可信度进行评价,判断该字串是否为词,其中,字串W评价函数计算公式如下: 
Figure 22345DEST_PATH_IMAGE024
                 (4)
其中, 表示为给定的一个由n个字组成的字串;
Figure 684588DEST_PATH_IMAGE016
表示字串
Figure 868444DEST_PATH_IMAGE001
中字符之间的互信息值;
      表示字串
Figure 394421DEST_PATH_IMAGE001
的左信息熵值;
      
Figure 191475DEST_PATH_IMAGE026
表示字串
Figure 613360DEST_PATH_IMAGE001
的右信息熵值;
      为平衡因子,用以调节信息熵与互信息值在字串
Figure 531955DEST_PATH_IMAGE001
评价函数中的权值。
5.根据权利要求1所述的基于互信息和条件随机场模型的中文领域术语识别方法,其特征在于,上述步骤(5)中所述的以词、词性、词的出现频率的随机场的训练特征,利用条件随机场方法训练出一个领域术语条件随机场模型,利用该模型对进行领域术语识别,其操作步骤如下:
(51)、以词本身、词性、词的出现频率在语料中进行标注;
(52)、利用CRF++ 0.53工具包对已标注的特征序列训练,获取条件随机场参数,该条件随机场参数为该领域术语识别的条件随机场模型;
(53)、用领域术语识别的的条件随机场模型对测试已标注的特征序列的领域术语识别。
CN201210528734.8A 2012-12-11 2012-12-11 基于互信息和条件随机场模型的中文领域术语识别方法 Expired - Fee Related CN103049501B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210528734.8A CN103049501B (zh) 2012-12-11 2012-12-11 基于互信息和条件随机场模型的中文领域术语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210528734.8A CN103049501B (zh) 2012-12-11 2012-12-11 基于互信息和条件随机场模型的中文领域术语识别方法

Publications (2)

Publication Number Publication Date
CN103049501A true CN103049501A (zh) 2013-04-17
CN103049501B CN103049501B (zh) 2016-08-03

Family

ID=48062142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210528734.8A Expired - Fee Related CN103049501B (zh) 2012-12-11 2012-12-11 基于互信息和条件随机场模型的中文领域术语识别方法

Country Status (1)

Country Link
CN (1) CN103049501B (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593427A (zh) * 2013-11-07 2014-02-19 清华大学 新词搜索方法及***
CN103778243A (zh) * 2014-02-11 2014-05-07 北京信息科技大学 一种领域术语抽取方法
CN103902673A (zh) * 2014-03-19 2014-07-02 新浪网技术(中国)有限公司 反垃圾过滤规则升级方法和装置
CN104572621A (zh) * 2015-01-05 2015-04-29 语联网(武汉)信息技术有限公司 一种基于决策树的术语判定方法
CN104679885A (zh) * 2015-03-17 2015-06-03 北京理工大学 一种基于语义特征模型的用户搜索串机构名识别方法
CN105183923A (zh) * 2015-10-27 2015-12-23 上海智臻智能网络科技股份有限公司 新词发现方法及装置
CN105224682A (zh) * 2015-10-27 2016-01-06 上海智臻智能网络科技股份有限公司 新词发现方法及装置
CN105260362A (zh) * 2015-10-30 2016-01-20 小米科技有限责任公司 新词提取方法和装置
CN105389349A (zh) * 2015-10-27 2016-03-09 上海智臻智能网络科技股份有限公司 词典更新方法及装置
CN106021230A (zh) * 2016-05-19 2016-10-12 无线生活(杭州)信息科技有限公司 一种分词方法及装置
CN106095753A (zh) * 2016-06-07 2016-11-09 大连理工大学 一种基于信息熵和术语可信度的金融领域术语识别方法
WO2016179988A1 (zh) * 2015-05-12 2016-11-17 深圳市华傲数据技术有限公司 中文地址分词标注方法
CN106202056A (zh) * 2016-07-26 2016-12-07 北京智能管家科技有限公司 中文分词场景库更新方法和***
CN106445921A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用二次互信息的中文文本术语抽取方法
CN106649661A (zh) * 2016-12-13 2017-05-10 税云网络科技服务有限公司 知识库构建方法和装置
CN106991085A (zh) * 2017-04-01 2017-07-28 中国工商银行股份有限公司 一种实体的简称生成方法及装置
CN107291692A (zh) * 2017-06-14 2017-10-24 北京百度网讯科技有限公司 基于人工智能的分词模型的定制方法、装置、设备和介质
CN107391486A (zh) * 2017-07-20 2017-11-24 南京云问网络技术有限公司 一种基于统计信息和序列标注的领域新词识别方法
CN107423278A (zh) * 2016-05-23 2017-12-01 株式会社理光 评价要素的识别方法、装置及***
CN108268440A (zh) * 2017-01-04 2018-07-10 普天信息技术有限公司 一种未登录词识别方法
CN108509425A (zh) * 2018-04-10 2018-09-07 中国人民解放军陆军工程大学 一种基于新颖度的中文新词发现方法
CN108776653A (zh) * 2018-05-25 2018-11-09 南京大学 一种基于PageRank和信息熵的裁判文书的文本分词方法
CN108804413A (zh) * 2018-04-28 2018-11-13 百度在线网络技术(北京)有限公司 文本作弊的识别方法及装置
CN109145282A (zh) * 2017-06-16 2019-01-04 贵州小爱机器人科技有限公司 断句模型训练方法、断句方法、装置及计算机设备
CN109492224A (zh) * 2018-11-07 2019-03-19 北京金山数字娱乐科技有限公司 一种词表构建的方法及装置
CN109710947A (zh) * 2019-01-22 2019-05-03 福建亿榕信息技术有限公司 电力专业词库生成方法及装置
CN110175331A (zh) * 2019-05-29 2019-08-27 三角兽(北京)科技有限公司 专业术语的识别方法、装置、电子设备及可读存储介质
CN111090742A (zh) * 2019-12-19 2020-05-01 东软集团股份有限公司 一种问答对的评价方法、装置、存储介质及设备
CN115495507A (zh) * 2022-11-17 2022-12-20 江苏鸿程大数据技术与应用研究院有限公司 一种工程材料信息价格匹配方法、***及存储介质
CN116702786A (zh) * 2023-08-04 2023-09-05 山东大学 融合规则和统计特征的中文专业术语抽取方法和***

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202043B (zh) * 2016-05-20 2019-04-12 北京理工大学 一种基于成词率适应度函数的新词识别免疫遗传方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101295294A (zh) * 2008-06-12 2008-10-29 昆明理工大学 基于信息增益改进贝叶斯词义消歧方法
US20100088353A1 (en) * 2006-10-17 2010-04-08 Samsung Sds Co., Ltd. Migration Apparatus Which Convert Database of Mainframe System into Database of Open System and Method for Thereof
CN102314507A (zh) * 2011-09-08 2012-01-11 北京航空航天大学 一种中文命名实体识别歧义消解方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100088353A1 (en) * 2006-10-17 2010-04-08 Samsung Sds Co., Ltd. Migration Apparatus Which Convert Database of Mainframe System into Database of Open System and Method for Thereof
CN101295294A (zh) * 2008-06-12 2008-10-29 昆明理工大学 基于信息增益改进贝叶斯词义消歧方法
CN102314507A (zh) * 2011-09-08 2012-01-11 北京航空航天大学 一种中文命名实体识别歧义消解方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
周浪 等: "一种面向术语抽取的短语过滤技术", 《计算机工程与应用》, no. 19, 31 December 2009 (2009-12-31), pages 9 - 11 *
贾美英 等: "采用CRF技术的军事情报术语自动抽取研究", 《计算机工程与应用》, no. 32, 31 December 2009 (2009-12-31), pages 126 - 129 *
赵秦怡 等: "一种基于互信息的串扫描中文文本分词方法", 《情报杂志》, vol. 29, no. 7, 31 July 2010 (2010-07-31), pages 152 - 172 *

Cited By (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593427A (zh) * 2013-11-07 2014-02-19 清华大学 新词搜索方法及***
CN103778243A (zh) * 2014-02-11 2014-05-07 北京信息科技大学 一种领域术语抽取方法
CN103778243B (zh) * 2014-02-11 2017-02-08 北京信息科技大学 一种领域术语抽取方法
CN103902673A (zh) * 2014-03-19 2014-07-02 新浪网技术(中国)有限公司 反垃圾过滤规则升级方法和装置
CN103902673B (zh) * 2014-03-19 2017-11-24 新浪网技术(中国)有限公司 反垃圾过滤规则升级方法和装置
CN104572621A (zh) * 2015-01-05 2015-04-29 语联网(武汉)信息技术有限公司 一种基于决策树的术语判定方法
CN104572621B (zh) * 2015-01-05 2018-01-26 语联网(武汉)信息技术有限公司 一种基于决策树的术语判定方法
CN104679885A (zh) * 2015-03-17 2015-06-03 北京理工大学 一种基于语义特征模型的用户搜索串机构名识别方法
WO2016179988A1 (zh) * 2015-05-12 2016-11-17 深圳市华傲数据技术有限公司 中文地址分词标注方法
CN105389349A (zh) * 2015-10-27 2016-03-09 上海智臻智能网络科技股份有限公司 词典更新方法及装置
CN105389349B (zh) * 2015-10-27 2018-07-27 上海智臻智能网络科技股份有限公司 词典更新方法及装置
CN108875040A (zh) * 2015-10-27 2018-11-23 上海智臻智能网络科技股份有限公司 词典更新方法及计算机可读存储介质
CN105224682B (zh) * 2015-10-27 2018-06-05 上海智臻智能网络科技股份有限公司 新词发现方法及装置
CN108897842A (zh) * 2015-10-27 2018-11-27 上海智臻智能网络科技股份有限公司 计算机可读存储介质及计算机***
CN105224682A (zh) * 2015-10-27 2016-01-06 上海智臻智能网络科技股份有限公司 新词发现方法及装置
CN105183923A (zh) * 2015-10-27 2015-12-23 上海智臻智能网络科技股份有限公司 新词发现方法及装置
CN108897842B (zh) * 2015-10-27 2021-04-09 上海智臻智能网络科技股份有限公司 计算机可读存储介质及计算机***
CN108875040B (zh) * 2015-10-27 2020-08-18 上海智臻智能网络科技股份有限公司 词典更新方法及计算机可读存储介质
CN105260362A (zh) * 2015-10-30 2016-01-20 小米科技有限责任公司 新词提取方法和装置
CN106021230B (zh) * 2016-05-19 2018-11-23 无线生活(杭州)信息科技有限公司 一种分词方法及装置
CN106021230A (zh) * 2016-05-19 2016-10-12 无线生活(杭州)信息科技有限公司 一种分词方法及装置
CN107423278A (zh) * 2016-05-23 2017-12-01 株式会社理光 评价要素的识别方法、装置及***
CN107423278B (zh) * 2016-05-23 2020-07-14 株式会社理光 评价要素的识别方法、装置及***
CN106095753A (zh) * 2016-06-07 2016-11-09 大连理工大学 一种基于信息熵和术语可信度的金融领域术语识别方法
CN106095753B (zh) * 2016-06-07 2018-11-06 大连理工大学 一种基于信息熵和术语可信度的金融领域术语识别方法
CN106202056A (zh) * 2016-07-26 2016-12-07 北京智能管家科技有限公司 中文分词场景库更新方法和***
CN106202056B (zh) * 2016-07-26 2019-01-04 北京智能管家科技有限公司 中文分词场景库更新方法和***
CN106445921A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用二次互信息的中文文本术语抽取方法
CN106445921B (zh) * 2016-09-29 2019-05-07 北京理工大学 利用二次互信息的中文文本术语抽取方法
CN106649661A (zh) * 2016-12-13 2017-05-10 税云网络科技服务有限公司 知识库构建方法和装置
CN108268440A (zh) * 2017-01-04 2018-07-10 普天信息技术有限公司 一种未登录词识别方法
CN106991085B (zh) * 2017-04-01 2020-08-04 中国工商银行股份有限公司 一种实体的简称生成方法及装置
CN106991085A (zh) * 2017-04-01 2017-07-28 中国工商银行股份有限公司 一种实体的简称生成方法及装置
CN107291692B (zh) * 2017-06-14 2020-12-18 北京百度网讯科技有限公司 基于人工智能的分词模型的定制方法、装置、设备和介质
CN107291692A (zh) * 2017-06-14 2017-10-24 北京百度网讯科技有限公司 基于人工智能的分词模型的定制方法、装置、设备和介质
CN109145282A (zh) * 2017-06-16 2019-01-04 贵州小爱机器人科技有限公司 断句模型训练方法、断句方法、装置及计算机设备
CN109145282B (zh) * 2017-06-16 2023-11-07 贵州小爱机器人科技有限公司 断句模型训练方法、断句方法、装置及计算机设备
CN107391486A (zh) * 2017-07-20 2017-11-24 南京云问网络技术有限公司 一种基于统计信息和序列标注的领域新词识别方法
CN108509425B (zh) * 2018-04-10 2021-08-24 中国人民解放军陆军工程大学 一种基于新颖度的中文新词发现方法
CN108509425A (zh) * 2018-04-10 2018-09-07 中国人民解放军陆军工程大学 一种基于新颖度的中文新词发现方法
CN108804413A (zh) * 2018-04-28 2018-11-13 百度在线网络技术(北京)有限公司 文本作弊的识别方法及装置
CN108776653A (zh) * 2018-05-25 2018-11-09 南京大学 一种基于PageRank和信息熵的裁判文书的文本分词方法
CN109492224B (zh) * 2018-11-07 2024-05-03 北京金山数字娱乐科技有限公司 一种词表构建的方法及装置
CN109492224A (zh) * 2018-11-07 2019-03-19 北京金山数字娱乐科技有限公司 一种词表构建的方法及装置
CN109710947A (zh) * 2019-01-22 2019-05-03 福建亿榕信息技术有限公司 电力专业词库生成方法及装置
CN109710947B (zh) * 2019-01-22 2021-09-07 福建亿榕信息技术有限公司 电力专业词库生成方法及装置
CN110175331A (zh) * 2019-05-29 2019-08-27 三角兽(北京)科技有限公司 专业术语的识别方法、装置、电子设备及可读存储介质
CN111090742A (zh) * 2019-12-19 2020-05-01 东软集团股份有限公司 一种问答对的评价方法、装置、存储介质及设备
CN111090742B (zh) * 2019-12-19 2024-05-17 东软集团股份有限公司 一种问答对的评价方法、装置、存储介质及设备
CN115495507B (zh) * 2022-11-17 2023-03-24 江苏鸿程大数据技术与应用研究院有限公司 一种工程材料信息价格匹配方法、***及存储介质
CN115495507A (zh) * 2022-11-17 2022-12-20 江苏鸿程大数据技术与应用研究院有限公司 一种工程材料信息价格匹配方法、***及存储介质
CN116702786A (zh) * 2023-08-04 2023-09-05 山东大学 融合规则和统计特征的中文专业术语抽取方法和***
CN116702786B (zh) * 2023-08-04 2023-11-17 山东大学 融合规则和统计特征的中文专业术语抽取方法和***

Also Published As

Publication number Publication date
CN103049501B (zh) 2016-08-03

Similar Documents

Publication Publication Date Title
CN103049501A (zh) 基于互信息和条件随机场模型的中文领域术语识别方法
CN107451126B (zh) 一种近义词筛选方法及***
CN106372061B (zh) 基于语义的短文本相似度计算方法
CN106445921B (zh) 利用二次互信息的中文文本术语抽取方法
CN111241294A (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN107169086B (zh) 一种文本分类方法
CN103617157A (zh) 基于语义的文本相似度计算方法
CN103455562A (zh) 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN108959258A (zh) 一种基于表示学习的特定领域集成实体链接方法
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN109670039A (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN101739430B (zh) 一种基于关键词的文本情感分类器的训练方法和分类方法
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN108376133A (zh) 基于情感词扩充的短文本情感分类方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN108763348A (zh) 一种扩展短文本词特征向量的分类改进方法
CN106933800A (zh) 一种金融领域的事件句抽取方法
CN104899188A (zh) 一种基于问题主题和焦点的问题相似度计算方法
CN113590810B (zh) 摘要生成模型训练方法、摘要生成方法、装置及电子设备
CN101770580A (zh) 一种跨领域的文本情感分类器的训练方法和分类方法
CN104881458A (zh) 一种网页主题的标注方法和装置
CN103020167A (zh) 一种计算机中文文本分类方法
CN109190099B (zh) 句模提取方法及装置
CN104008187A (zh) 一种基于最小编辑距离的半结构化文本匹配方法
CN111159332A (zh) 一种基于bert的文本多意图识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160803

Termination date: 20181211

CF01 Termination of patent right due to non-payment of annual fee