CN103049501A - 基于互信息和条件随机场模型的中文领域术语识别方法 - Google Patents
基于互信息和条件随机场模型的中文领域术语识别方法 Download PDFInfo
- Publication number
- CN103049501A CN103049501A CN2012105287348A CN201210528734A CN103049501A CN 103049501 A CN103049501 A CN 103049501A CN 2012105287348 A CN2012105287348 A CN 2012105287348A CN 201210528734 A CN201210528734 A CN 201210528734A CN 103049501 A CN103049501 A CN 103049501A
- Authority
- CN
- China
- Prior art keywords
- word
- word string
- evaluation function
- random field
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于互信息和条件随机场模型的中文领域术语识别方法,其步骤如下:(1)收集领域文本语料,对语料中所有的标点符号、空格、数字、ASCII字符以及汉字以外字符进行标记;(2)设置字串,计算字串的互信息值;(3)计算字串左右信息熵;(4)定义字串评价函数,设置评价函数阈值,计算各字串的评价函数值,确定字串为词,依次比较该字串中前一字的评价函数值与后一字评价函数值相比较,逐一对字义字串分词;(5)利用条件随机场训练出一个领域术语条件随机场模型,用该模型对进行领域术语识别。该方法在术语识别时,不仅能克服合法术语的数据稀疏,降低了条件随机场算法的运算量,而且能够提高中文领域术语识别精度。
Description
技术领域
本发明涉及的是一种基于互信息和条件随机场模型的中文领域术语识别方法,属于信息技术领域。
背景技术
国家标准GB/T15237.1-2000《术语工作词汇》的定义,术语是特定专业领域中一般概念的词语指称,是在一个学科领域内使用、表示该学科领域内的概念或关系的词或词组。术语可以分为日常生活中使用的一般性术语和特定领域中使用的领域术语。一般性术语多是按人们的生活和工作习惯形成的,不要求它在概念的表达上严格准确,其含义往往比较模糊;领域术语是对一个专业概念的***性、概括性的描述,不允许模棱两可,每一个专业术语表达的概念都必须准确无误,不能因使用人的不同而不同。
领域术语识别是指从特定的科学或技术领域的语料库中抽出专业领域术语。领域术语自动识别作为信息抽取的重要内容,在自然语言处理领域有着广泛的应用,对于提高领域文本索引与检索、文本挖掘、本体构建、文本分类和聚类、潜在语义分析等的处理精度有着重要的意义。现有的中文文本信息中的领域术语识别方法主要有:
(1)基于统计方法的中文领域术语识别方法,主要思想是利用领域术语内部各组成成分之间较高的关联程度以及术语的领域特征信息来抽取领域术语。基于统计的方法一般流程是: 首先利用统计学或信息论中的方法,建立起各种统计信息,并根据统计结果,确定比较准确的种子词;然后在此基础上不断扩展,获取最终的领域术语。词语频率、均值和方差是比较常用的统计方法,更多的学者使用假设检验的方法, 主要有T检验、卡方检验、对数似然比、点互信息等。用统计方法识别领域术语,不需要句法、语义上的信息,不局限于某一专门领域,也不依赖任何资源,通用性较强。
其中,基于统计的互信息算法应用最为广泛。例如有文章报道,其题目为“基于互信息的中文术语抽取***”(该文作者是:张锋 许云 侯艳 樊孝忠,发表于2005年出版的《计算机应用研究》第22卷第5期第72-73,77页),该文公开了一种中文术语自动抽取***,该***首先基于互信息计算字串的内部结合强度,从而得到术语候选集;接着从术语候选集中去除基本词,并利用普通词语搭配前缀、后缀信息进一步过滤;最后对术语候选进行词法分析,利用术语的词性构成规则进行判别,得到最终的术语抽取结果。实验结果表明,利用互信息算法对术语抽取的准确率为72.19% ,召回率为77.98% ,F测量值为74.97%。例如有文献报道,“C值和互信息相结合的术语抽取”(作者是:梁颖红 张文静 张有承,发表于2010年出版的《计算机应用与软件》第27卷第4期第108-110页),该文公开了一种将C值和互信息相结合的术语抽取方法,该方法提出综合C-value参数在长术语抽取方面具有优势,实验结果表明,该方法对长术语抽取的准确率为75.7%,召回率为68.4%,F测量值为71.9%,高于相同语料下的其他方法。但是该算法性能直接依赖于语料库的规模和候选领域术语的词频,针对有些低频率候选术语也可能是合法术语的数据稀疏问题难以解决,所以单纯利用互信息算法对领域术语进行识别,识别的准确率、召回率以及F测量值均难以达到80%以上,很难获得理想的识别效果;
(2)基于机器学习的中文领域术语识别方法的主要步骤为: 采用手工或半自动方式构建训练语料, 根据某种机器学习算法对训练语料学习生成模型,然后再利用模型对测试语料进行领域术语抽取实验,以验证本算法的有效性。目前已用于中文领域术语识别的机器学习理论主要包括决策树、支持向量机、隐马尔科夫模型、最大熵模型、最大熵马尔科夫模型和条件随机场算法等。基于机器学习的术语识别方法无需专家的领域知识和语言知识, 实现可行性大, 在考虑多种术语特征的情况下可以得到较好的识别或抽取效果。
目前,基于机器学***,发表于2011年出版的《沈阳航空航天大学学报》第28卷第1期第72-75页),该文公开了一种针对中医领域的基于条件随机场的术语抽取方法,该方法将中医领域术语抽取看作一个序列标注问题,将中医领域术语分布的特征量化作为训练的特征,利用CRF工具包训练出一个领域术语模型,然后利用该模型进行术语抽取。选择《名医类案》作为中医领域文本进行术语抽取实验,准确率达到83.11%,召回率达到81.04%,F测量值达到82.06%。以及文章“采用CRF技术的军事情报术语自动抽取研究”(作者是:贾美英 杨炳儒 郑德权 杨靖,发表于2009年出版的《计算机工程与应用》第45卷第32期第126-129页),该文公开了一种针对军事情报领域的基于条件随机场的术语抽取方法,该方法将领域术语识别看作一个序列标注问题,将领域术语分布的特征量化作为训练的特征,利用CRF工具包训练出一个领域术语特征模板,然后利用该模板进行领域术语抽取。实验表明,该方法对军事情报领域术语的识别结果良好,准确率可达到73.24%,召回率达到69.57%,F测量值达到71.36%。
利用条件随机场算法进行领域术语识别时,训练语料基本上都为手动和半自动标注的,人为参与度都高,工作量大,导致普遍识别量不大,制约了该算法的识别精度和应用。同时,需要先利用通用的分词工具对语料进行分词,然后再对分词后的语料进行条件随机场训练和测试,最终才能实现术语的识别。所以利用条件随机场算法进行领域术语识别的前提是,假设现有的通用分词工具可以对该领域的词汇进行准确地分词,并认为领域术语比分词工具所分的词粒度大。但是,由于专业领域术语与普通词汇存在差距,用一般性分词工具很难实现对专业领域语料的准确分词。因此,目前互信息和条件随机场方法在领域术语识别过程中自动识别程度较低,且识别精度不高。
发明内容
鉴于以上所述现有技术存在的问题,本发明的目的是提供一种基于互信息和条件随机场模型的中文领域术语识别方法,该方法在术语识别时,不仅能克服合法术语的数据稀疏,降低了条件随机场算法的运算量,而且能够提高中文领域术语识别精度。
为了达到上述目的,本发明采用下述技术方案:
本发明的基于互信息和条件随机场模型的中文领域术语识别方法,具体步骤如下:
(1)、收集领域文本语料,对语料中所有的标点符号、空格、数字、ASCII字符以及汉字以外字符进行标记;
(4)、定义字串评价函数,设置评价函数阈值,计算各字串的评价函数值,确定字串为词,依次比较该字串中前一字的评价函数值与后一字评价函数值相比较,得到各字串中对应的比值,其比值再与评价函数阈值比较,逐一对字义字串分词;
(5)、以词、词性、词的出现频率的随机场的训练特征,利用条件随机场方法训练出一个领域术语条件随机场模型,用该模型对进行领域术语识别。
表示语料库中字出现的频次;
上述步骤(3)中所述的计算左右信息熵,其计算公式如下:
上述步骤(4)中所述的定义字串W评价函数,并利用评价函数对语料进行分词,是指利用步骤(2)和步骤(3)计算得到的互信息和左右信息熵值,对语料中的字串为词的可信度进行评价,判断该字串是否为词,其中,字串W评价函数计算公式如下:
上述步骤(5)中所述的以词、词性、词的出现频率的随机场的训练特征,利用条件随机场方法训练出一个领域术语条件随机场模型,利用该模型对进行领域术语识别,其操作步骤如下:
(51)、以词本身、词性、词的出现频率在语料中进行标注;
(52)、利用CRF++ 0.53工具包对已标注的特征序列训练,获取条件随机场参数,该条件随机场参数为该领域术语识别的条件随机场模型;
(53)、用领域术语识别的的条件随机场模型对测试已标注的特征序列的领域术语识别。
本发明的基于互信息和条件随机场模型的中文领域术语识别方法与现有技术相比较,具有以下效果:
(1)、该方法将基于统计和机器学习的两类术语识别方法有机地结合在一起,有效的解决了单纯利用统计方法进行术语识别时的数据稀疏问题;
(2)、该方法利用互信息算法对语料进行分词和标注,实现了语料的自动标注;
(3)、该方法仅采用了3个最为普通的词特征,作为条件随机场方法的训练,使该方法具有较强的领域通用性,有效地降低了条件随机场的运算量,减少了条件随机场的训练时间。
附图说明
图1为本发明的基于互信息和条件随机场模型的中文领域术语识别方法的流程图;
图2是图1中步骤(4)的流程图;
图3是图1中步骤(5)的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的描述。
本实施例以植物——竹子的领域术语识别作为实例对本发明进行说明,但不用来限制本发明的范围。
参照图1,本发明的基于互信息和条件随机场模型的中文领域术语识别方法,包括如下步骤:
(1)、收集领域文本语料,对语料中所有的标点符号、空格、数字、ASCII字符以及汉字以外字符进行标记。
例如,本实例选取《中国植物志》第9卷竹亚科的电子书稿作为领域文本语料。
首先,将语料按4:1的比例随机地划分为:训练语料和测试语料两部分;
然后,检索出语料中所有标点符号、空格、数字、ASCII字符以及汉字以外字符,在上述字符前、后分别用“//”符号进行标记;
最后,参照汉语词性表,对所有代词、叹词、助词和虚词,以及首字为“和、有、的、得、将、把、从、了、是、则、在、每、这、该、给、所、使、为、不、着、了、很、该、与、得、的”词的前、后分别用“//”符号进行标记。
由于本发明认为中文领域术语的长度不大于4个字,并且认为中文领域术语中间不可能出现标点符号、空格、数字、ASCII字符以及汉字以外字符,同时也不可能出再叹词、虚词、指标代词等词,所以本发明对语料文本中所有字分别计算其2-word、3-word、4-word的互信息值,当遇到标记符“//”停止计算,其互信息值的计算公式参见上述发明内容中步骤(2)的公式(1)、(2)、(3)。
例如:语料“边缘被流苏状毛//,//”,其中2-word包括:“边缘”、“缘被”、“被流”、“流苏”、“苏状”和“状毛”;3-word包括:“边缘被”、“缘被流”、“被流苏”、“流苏状”和“苏状毛”;4-word包括:“边缘被流”、“缘被流苏”、“被流苏状”和“流苏状毛”,部份互信息计算结果为:,,,,;
左信息熵计算公式为:
右信息熵计算公式为:
判断一个字串是否为词,不仅要考虑字串内部字与字之间的结合紧密度,即字之间互信息的大小;同时,还要考虑字串之间的边界自由程度,即在字串边界出现的邻接字的种类越多,认为字串左右信息熵越大,也就是字串边界的自由度越大,其左右信息熵的计算公式参见上述发明内容中步骤(3)的公式(2)、(3)。
(4)、定义字串评价函数,设置评价函数阈值,计算各字串的评价函数值,确定字串为词,依次比较该字串中前一字的评价函数值与后一字评价函数值相比较,得到各字串中对应的比值,其比值再与评价函数阈值比较,逐一对字义字串分词,其操作步骤如下:
为平衡因子,用以调节信息熵与互信息值在评价函数中的权值。
然后,对字串和的评价函数进行比较,如果,认为字串为新词,d在字串前后分别以符号“*”进行标注;反之,认为字串不是新词,则其丢弃尾部的最后一个字,对和的评价函数进行比较,如果,认为字串为新词,在字串前后分别以符号“*”进行标注;反之,认为字串不是新词,其丢弃尾部的最后一个字对的评价函数进行判断,如果,认为字串为新词,在字串前后分别以符号“*”进行标注;反之,认为字串为新词,在字串前后分别以符号“*”进行标注;只要有新词被标注,就从新词后的第一个字开始,再分别选取长度为4、3、2、1的子字串,记作、、和,重新进行评价函数的比较,当遇到“//”符号跳过。如此反复, 直至所以语料处理完为止,例如:语料“边缘被流苏状毛//,//”,首先,从第一个字开始截取长度分别为4、3、2、1的子字串,即:“边缘被流”、“边缘被”、“边缘”和“边”;然后,首先判断是否大于等于0.8,根据步骤(41)评价函数的计算结果,可知小于0.8,即字串“边缘被流”不是新词;然后,判断是否大于等于0.8,根据步骤(41)评价函数的计算结果,可知小于0.8,故字串“边缘被”也不是新词;接着判断是否大于等于0.8,根据步骤(41)评价函数的计算结果,可知大于0.8,故字串“边缘”是新词;当有判断出新词后,从新词后的第一个字开始再选取4、3、2、1个字串,作为新一轮的作、、和,即“被流苏状”、“波流苏”、“被流”和“被”,再重复以上步骤进行比较,当遇到“//”符号跳过,直到结束,所以语料“边缘被流苏状毛//,//”,最后分词结果为“*边缘*被*流苏状*毛//,//” ;
(5)、以词、词性、词的出现频率的随机场的训练特征,利用条件随机场训练出一个领域术语条件随机场模型,用该模型对进行领域术语识别,其操作步骤如下:
(51)、以词本身、词性、词的出现频率在语料中进行标注,其具体如下:
依次对字义字串分词标注特征序列,该词的标注的特征序列分别为:当前词本身;当前词的词性;当前词的出现频率,采用K-Means聚类方法,将上述当前词的出现频率分为10个等级,每个等级为一类,10个类分别表示为A、B、C、D、E、F、G、H、I、J、K,将已标注的特征序列分为:训练已标注的特征序列、测试已标注的特征序列两部份;
(52)、利用CRF++ 0.53工具包对已标注的特征序列训练,获取条件随机场参数,条件随机场参数为领域术语识别的条件随机场模型;
(53)、用领域术语识别的条件随机场模型对测试已标注的特征序列的领域术语识别,其具体如下:
将测试已标注的特征序列输入到步骤(5.2)训练后获得领域术语识别的条件随机场模型,利用该条件随机场模型 ,计算出特征值,识别出领域术语,输出结果为识别出的领域术语,例如:语料“边缘被流苏状毛//,//”,最终识别出“边缘”和“流苏状”为领域术语。
以上为本发明的最佳实施方式,依据本发明公开的内容,本领域技术人员能够显而易见地想到一些雷同、替代方案,均应属于本发明的技术创新范围。
Claims (5)
5.根据权利要求1所述的基于互信息和条件随机场模型的中文领域术语识别方法,其特征在于,上述步骤(5)中所述的以词、词性、词的出现频率的随机场的训练特征,利用条件随机场方法训练出一个领域术语条件随机场模型,利用该模型对进行领域术语识别,其操作步骤如下:
(51)、以词本身、词性、词的出现频率在语料中进行标注;
(52)、利用CRF++ 0.53工具包对已标注的特征序列训练,获取条件随机场参数,该条件随机场参数为该领域术语识别的条件随机场模型;
(53)、用领域术语识别的的条件随机场模型对测试已标注的特征序列的领域术语识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210528734.8A CN103049501B (zh) | 2012-12-11 | 2012-12-11 | 基于互信息和条件随机场模型的中文领域术语识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210528734.8A CN103049501B (zh) | 2012-12-11 | 2012-12-11 | 基于互信息和条件随机场模型的中文领域术语识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103049501A true CN103049501A (zh) | 2013-04-17 |
CN103049501B CN103049501B (zh) | 2016-08-03 |
Family
ID=48062142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210528734.8A Expired - Fee Related CN103049501B (zh) | 2012-12-11 | 2012-12-11 | 基于互信息和条件随机场模型的中文领域术语识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103049501B (zh) |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593427A (zh) * | 2013-11-07 | 2014-02-19 | 清华大学 | 新词搜索方法及*** |
CN103778243A (zh) * | 2014-02-11 | 2014-05-07 | 北京信息科技大学 | 一种领域术语抽取方法 |
CN103902673A (zh) * | 2014-03-19 | 2014-07-02 | 新浪网技术(中国)有限公司 | 反垃圾过滤规则升级方法和装置 |
CN104572621A (zh) * | 2015-01-05 | 2015-04-29 | 语联网(武汉)信息技术有限公司 | 一种基于决策树的术语判定方法 |
CN104679885A (zh) * | 2015-03-17 | 2015-06-03 | 北京理工大学 | 一种基于语义特征模型的用户搜索串机构名识别方法 |
CN105183923A (zh) * | 2015-10-27 | 2015-12-23 | 上海智臻智能网络科技股份有限公司 | 新词发现方法及装置 |
CN105224682A (zh) * | 2015-10-27 | 2016-01-06 | 上海智臻智能网络科技股份有限公司 | 新词发现方法及装置 |
CN105260362A (zh) * | 2015-10-30 | 2016-01-20 | 小米科技有限责任公司 | 新词提取方法和装置 |
CN105389349A (zh) * | 2015-10-27 | 2016-03-09 | 上海智臻智能网络科技股份有限公司 | 词典更新方法及装置 |
CN106021230A (zh) * | 2016-05-19 | 2016-10-12 | 无线生活(杭州)信息科技有限公司 | 一种分词方法及装置 |
CN106095753A (zh) * | 2016-06-07 | 2016-11-09 | 大连理工大学 | 一种基于信息熵和术语可信度的金融领域术语识别方法 |
WO2016179988A1 (zh) * | 2015-05-12 | 2016-11-17 | 深圳市华傲数据技术有限公司 | 中文地址分词标注方法 |
CN106202056A (zh) * | 2016-07-26 | 2016-12-07 | 北京智能管家科技有限公司 | 中文分词场景库更新方法和*** |
CN106445921A (zh) * | 2016-09-29 | 2017-02-22 | 北京理工大学 | 利用二次互信息的中文文本术语抽取方法 |
CN106649661A (zh) * | 2016-12-13 | 2017-05-10 | 税云网络科技服务有限公司 | 知识库构建方法和装置 |
CN106991085A (zh) * | 2017-04-01 | 2017-07-28 | 中国工商银行股份有限公司 | 一种实体的简称生成方法及装置 |
CN107291692A (zh) * | 2017-06-14 | 2017-10-24 | 北京百度网讯科技有限公司 | 基于人工智能的分词模型的定制方法、装置、设备和介质 |
CN107391486A (zh) * | 2017-07-20 | 2017-11-24 | 南京云问网络技术有限公司 | 一种基于统计信息和序列标注的领域新词识别方法 |
CN107423278A (zh) * | 2016-05-23 | 2017-12-01 | 株式会社理光 | 评价要素的识别方法、装置及*** |
CN108268440A (zh) * | 2017-01-04 | 2018-07-10 | 普天信息技术有限公司 | 一种未登录词识别方法 |
CN108509425A (zh) * | 2018-04-10 | 2018-09-07 | 中国人民解放军陆军工程大学 | 一种基于新颖度的中文新词发现方法 |
CN108776653A (zh) * | 2018-05-25 | 2018-11-09 | 南京大学 | 一种基于PageRank和信息熵的裁判文书的文本分词方法 |
CN108804413A (zh) * | 2018-04-28 | 2018-11-13 | 百度在线网络技术(北京)有限公司 | 文本作弊的识别方法及装置 |
CN109145282A (zh) * | 2017-06-16 | 2019-01-04 | 贵州小爱机器人科技有限公司 | 断句模型训练方法、断句方法、装置及计算机设备 |
CN109492224A (zh) * | 2018-11-07 | 2019-03-19 | 北京金山数字娱乐科技有限公司 | 一种词表构建的方法及装置 |
CN109710947A (zh) * | 2019-01-22 | 2019-05-03 | 福建亿榕信息技术有限公司 | 电力专业词库生成方法及装置 |
CN110175331A (zh) * | 2019-05-29 | 2019-08-27 | 三角兽(北京)科技有限公司 | 专业术语的识别方法、装置、电子设备及可读存储介质 |
CN111090742A (zh) * | 2019-12-19 | 2020-05-01 | 东软集团股份有限公司 | 一种问答对的评价方法、装置、存储介质及设备 |
CN115495507A (zh) * | 2022-11-17 | 2022-12-20 | 江苏鸿程大数据技术与应用研究院有限公司 | 一种工程材料信息价格匹配方法、***及存储介质 |
CN116702786A (zh) * | 2023-08-04 | 2023-09-05 | 山东大学 | 融合规则和统计特征的中文专业术语抽取方法和*** |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202043B (zh) * | 2016-05-20 | 2019-04-12 | 北京理工大学 | 一种基于成词率适应度函数的新词识别免疫遗传方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101295294A (zh) * | 2008-06-12 | 2008-10-29 | 昆明理工大学 | 基于信息增益改进贝叶斯词义消歧方法 |
US20100088353A1 (en) * | 2006-10-17 | 2010-04-08 | Samsung Sds Co., Ltd. | Migration Apparatus Which Convert Database of Mainframe System into Database of Open System and Method for Thereof |
CN102314507A (zh) * | 2011-09-08 | 2012-01-11 | 北京航空航天大学 | 一种中文命名实体识别歧义消解方法 |
-
2012
- 2012-12-11 CN CN201210528734.8A patent/CN103049501B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100088353A1 (en) * | 2006-10-17 | 2010-04-08 | Samsung Sds Co., Ltd. | Migration Apparatus Which Convert Database of Mainframe System into Database of Open System and Method for Thereof |
CN101295294A (zh) * | 2008-06-12 | 2008-10-29 | 昆明理工大学 | 基于信息增益改进贝叶斯词义消歧方法 |
CN102314507A (zh) * | 2011-09-08 | 2012-01-11 | 北京航空航天大学 | 一种中文命名实体识别歧义消解方法 |
Non-Patent Citations (3)
Title |
---|
周浪 等: "一种面向术语抽取的短语过滤技术", 《计算机工程与应用》, no. 19, 31 December 2009 (2009-12-31), pages 9 - 11 * |
贾美英 等: "采用CRF技术的军事情报术语自动抽取研究", 《计算机工程与应用》, no. 32, 31 December 2009 (2009-12-31), pages 126 - 129 * |
赵秦怡 等: "一种基于互信息的串扫描中文文本分词方法", 《情报杂志》, vol. 29, no. 7, 31 July 2010 (2010-07-31), pages 152 - 172 * |
Cited By (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593427A (zh) * | 2013-11-07 | 2014-02-19 | 清华大学 | 新词搜索方法及*** |
CN103778243A (zh) * | 2014-02-11 | 2014-05-07 | 北京信息科技大学 | 一种领域术语抽取方法 |
CN103778243B (zh) * | 2014-02-11 | 2017-02-08 | 北京信息科技大学 | 一种领域术语抽取方法 |
CN103902673A (zh) * | 2014-03-19 | 2014-07-02 | 新浪网技术(中国)有限公司 | 反垃圾过滤规则升级方法和装置 |
CN103902673B (zh) * | 2014-03-19 | 2017-11-24 | 新浪网技术(中国)有限公司 | 反垃圾过滤规则升级方法和装置 |
CN104572621A (zh) * | 2015-01-05 | 2015-04-29 | 语联网(武汉)信息技术有限公司 | 一种基于决策树的术语判定方法 |
CN104572621B (zh) * | 2015-01-05 | 2018-01-26 | 语联网(武汉)信息技术有限公司 | 一种基于决策树的术语判定方法 |
CN104679885A (zh) * | 2015-03-17 | 2015-06-03 | 北京理工大学 | 一种基于语义特征模型的用户搜索串机构名识别方法 |
WO2016179988A1 (zh) * | 2015-05-12 | 2016-11-17 | 深圳市华傲数据技术有限公司 | 中文地址分词标注方法 |
CN105389349A (zh) * | 2015-10-27 | 2016-03-09 | 上海智臻智能网络科技股份有限公司 | 词典更新方法及装置 |
CN105389349B (zh) * | 2015-10-27 | 2018-07-27 | 上海智臻智能网络科技股份有限公司 | 词典更新方法及装置 |
CN108875040A (zh) * | 2015-10-27 | 2018-11-23 | 上海智臻智能网络科技股份有限公司 | 词典更新方法及计算机可读存储介质 |
CN105224682B (zh) * | 2015-10-27 | 2018-06-05 | 上海智臻智能网络科技股份有限公司 | 新词发现方法及装置 |
CN108897842A (zh) * | 2015-10-27 | 2018-11-27 | 上海智臻智能网络科技股份有限公司 | 计算机可读存储介质及计算机*** |
CN105224682A (zh) * | 2015-10-27 | 2016-01-06 | 上海智臻智能网络科技股份有限公司 | 新词发现方法及装置 |
CN105183923A (zh) * | 2015-10-27 | 2015-12-23 | 上海智臻智能网络科技股份有限公司 | 新词发现方法及装置 |
CN108897842B (zh) * | 2015-10-27 | 2021-04-09 | 上海智臻智能网络科技股份有限公司 | 计算机可读存储介质及计算机*** |
CN108875040B (zh) * | 2015-10-27 | 2020-08-18 | 上海智臻智能网络科技股份有限公司 | 词典更新方法及计算机可读存储介质 |
CN105260362A (zh) * | 2015-10-30 | 2016-01-20 | 小米科技有限责任公司 | 新词提取方法和装置 |
CN106021230B (zh) * | 2016-05-19 | 2018-11-23 | 无线生活(杭州)信息科技有限公司 | 一种分词方法及装置 |
CN106021230A (zh) * | 2016-05-19 | 2016-10-12 | 无线生活(杭州)信息科技有限公司 | 一种分词方法及装置 |
CN107423278A (zh) * | 2016-05-23 | 2017-12-01 | 株式会社理光 | 评价要素的识别方法、装置及*** |
CN107423278B (zh) * | 2016-05-23 | 2020-07-14 | 株式会社理光 | 评价要素的识别方法、装置及*** |
CN106095753A (zh) * | 2016-06-07 | 2016-11-09 | 大连理工大学 | 一种基于信息熵和术语可信度的金融领域术语识别方法 |
CN106095753B (zh) * | 2016-06-07 | 2018-11-06 | 大连理工大学 | 一种基于信息熵和术语可信度的金融领域术语识别方法 |
CN106202056A (zh) * | 2016-07-26 | 2016-12-07 | 北京智能管家科技有限公司 | 中文分词场景库更新方法和*** |
CN106202056B (zh) * | 2016-07-26 | 2019-01-04 | 北京智能管家科技有限公司 | 中文分词场景库更新方法和*** |
CN106445921A (zh) * | 2016-09-29 | 2017-02-22 | 北京理工大学 | 利用二次互信息的中文文本术语抽取方法 |
CN106445921B (zh) * | 2016-09-29 | 2019-05-07 | 北京理工大学 | 利用二次互信息的中文文本术语抽取方法 |
CN106649661A (zh) * | 2016-12-13 | 2017-05-10 | 税云网络科技服务有限公司 | 知识库构建方法和装置 |
CN108268440A (zh) * | 2017-01-04 | 2018-07-10 | 普天信息技术有限公司 | 一种未登录词识别方法 |
CN106991085B (zh) * | 2017-04-01 | 2020-08-04 | 中国工商银行股份有限公司 | 一种实体的简称生成方法及装置 |
CN106991085A (zh) * | 2017-04-01 | 2017-07-28 | 中国工商银行股份有限公司 | 一种实体的简称生成方法及装置 |
CN107291692B (zh) * | 2017-06-14 | 2020-12-18 | 北京百度网讯科技有限公司 | 基于人工智能的分词模型的定制方法、装置、设备和介质 |
CN107291692A (zh) * | 2017-06-14 | 2017-10-24 | 北京百度网讯科技有限公司 | 基于人工智能的分词模型的定制方法、装置、设备和介质 |
CN109145282A (zh) * | 2017-06-16 | 2019-01-04 | 贵州小爱机器人科技有限公司 | 断句模型训练方法、断句方法、装置及计算机设备 |
CN109145282B (zh) * | 2017-06-16 | 2023-11-07 | 贵州小爱机器人科技有限公司 | 断句模型训练方法、断句方法、装置及计算机设备 |
CN107391486A (zh) * | 2017-07-20 | 2017-11-24 | 南京云问网络技术有限公司 | 一种基于统计信息和序列标注的领域新词识别方法 |
CN108509425B (zh) * | 2018-04-10 | 2021-08-24 | 中国人民解放军陆军工程大学 | 一种基于新颖度的中文新词发现方法 |
CN108509425A (zh) * | 2018-04-10 | 2018-09-07 | 中国人民解放军陆军工程大学 | 一种基于新颖度的中文新词发现方法 |
CN108804413A (zh) * | 2018-04-28 | 2018-11-13 | 百度在线网络技术(北京)有限公司 | 文本作弊的识别方法及装置 |
CN108776653A (zh) * | 2018-05-25 | 2018-11-09 | 南京大学 | 一种基于PageRank和信息熵的裁判文书的文本分词方法 |
CN109492224B (zh) * | 2018-11-07 | 2024-05-03 | 北京金山数字娱乐科技有限公司 | 一种词表构建的方法及装置 |
CN109492224A (zh) * | 2018-11-07 | 2019-03-19 | 北京金山数字娱乐科技有限公司 | 一种词表构建的方法及装置 |
CN109710947A (zh) * | 2019-01-22 | 2019-05-03 | 福建亿榕信息技术有限公司 | 电力专业词库生成方法及装置 |
CN109710947B (zh) * | 2019-01-22 | 2021-09-07 | 福建亿榕信息技术有限公司 | 电力专业词库生成方法及装置 |
CN110175331A (zh) * | 2019-05-29 | 2019-08-27 | 三角兽(北京)科技有限公司 | 专业术语的识别方法、装置、电子设备及可读存储介质 |
CN111090742A (zh) * | 2019-12-19 | 2020-05-01 | 东软集团股份有限公司 | 一种问答对的评价方法、装置、存储介质及设备 |
CN111090742B (zh) * | 2019-12-19 | 2024-05-17 | 东软集团股份有限公司 | 一种问答对的评价方法、装置、存储介质及设备 |
CN115495507B (zh) * | 2022-11-17 | 2023-03-24 | 江苏鸿程大数据技术与应用研究院有限公司 | 一种工程材料信息价格匹配方法、***及存储介质 |
CN115495507A (zh) * | 2022-11-17 | 2022-12-20 | 江苏鸿程大数据技术与应用研究院有限公司 | 一种工程材料信息价格匹配方法、***及存储介质 |
CN116702786A (zh) * | 2023-08-04 | 2023-09-05 | 山东大学 | 融合规则和统计特征的中文专业术语抽取方法和*** |
CN116702786B (zh) * | 2023-08-04 | 2023-11-17 | 山东大学 | 融合规则和统计特征的中文专业术语抽取方法和*** |
Also Published As
Publication number | Publication date |
---|---|
CN103049501B (zh) | 2016-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103049501A (zh) | 基于互信息和条件随机场模型的中文领域术语识别方法 | |
CN107451126B (zh) | 一种近义词筛选方法及*** | |
CN106372061B (zh) | 基于语义的短文本相似度计算方法 | |
CN106445921B (zh) | 利用二次互信息的中文文本术语抽取方法 | |
CN111241294A (zh) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 | |
CN107169086B (zh) | 一种文本分类方法 | |
CN103617157A (zh) | 基于语义的文本相似度计算方法 | |
CN103455562A (zh) | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 | |
CN108959258A (zh) | 一种基于表示学习的特定领域集成实体链接方法 | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN109670039A (zh) | 基于三部图和聚类分析的半监督电商评论情感分析方法 | |
CN101739430B (zh) | 一种基于关键词的文本情感分类器的训练方法和分类方法 | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
CN108376133A (zh) | 基于情感词扩充的短文本情感分类方法 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN108763348A (zh) | 一种扩展短文本词特征向量的分类改进方法 | |
CN106933800A (zh) | 一种金融领域的事件句抽取方法 | |
CN104899188A (zh) | 一种基于问题主题和焦点的问题相似度计算方法 | |
CN113590810B (zh) | 摘要生成模型训练方法、摘要生成方法、装置及电子设备 | |
CN101770580A (zh) | 一种跨领域的文本情感分类器的训练方法和分类方法 | |
CN104881458A (zh) | 一种网页主题的标注方法和装置 | |
CN103020167A (zh) | 一种计算机中文文本分类方法 | |
CN109190099B (zh) | 句模提取方法及装置 | |
CN104008187A (zh) | 一种基于最小编辑距离的半结构化文本匹配方法 | |
CN111159332A (zh) | 一种基于bert的文本多意图识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160803 Termination date: 20181211 |
|
CF01 | Termination of patent right due to non-payment of annual fee |