CN102103594A - 字符数据识别及处理的方法和装置 - Google Patents
字符数据识别及处理的方法和装置 Download PDFInfo
- Publication number
- CN102103594A CN102103594A CN2009102429754A CN200910242975A CN102103594A CN 102103594 A CN102103594 A CN 102103594A CN 2009102429754 A CN2009102429754 A CN 2009102429754A CN 200910242975 A CN200910242975 A CN 200910242975A CN 102103594 A CN102103594 A CN 102103594A
- Authority
- CN
- China
- Prior art keywords
- character data
- feature
- benchmark
- frequency
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract 2
- 238000000034 method Methods 0.000 claims abstract description 57
- 238000004458 analytical method Methods 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 28
- 238000013519 translation Methods 0.000 claims abstract description 12
- 239000000463 material Substances 0.000 claims description 51
- 230000008569 process Effects 0.000 claims description 17
- 230000019771 cognition Effects 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 description 15
- 238000011160 research Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000008451 emotion Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000009958 sewing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 102000040350 B family Human genes 0.000 description 1
- 108091072128 B family Proteins 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 101000972273 Homo sapiens Mucin-7 Proteins 0.000 description 1
- 102100022492 Mucin-7 Human genes 0.000 description 1
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 235000013361 beverage Nutrition 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 235000021443 coca cola Nutrition 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002650 habitual effect Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了字符数据识别及处理的方法和装置,本发明的方法包括:根据基准语料和基准模板对特征字符数据进行识别,获得各个命名实体所分别对应的不同的实体名称;获得各个实体名称的特征缀频数;根据所述特征缀频数、所述基准模板和预定义语料对待处理的字符数据进行识别,获得所述各个命名实体所分别对应的不同的实体名称;将从所述待处理的字符数据中识别出的实体名称作为数据参数执行后续分析处理。本发明加入了特征缀作为识别特征列,避免了后期检索、翻译时预定义字符数据识别误差较大的问题,提高了命名实体的识别精度,避免表达自由或不足够规范而未被识别或被错误识别出的命名实体。
Description
技术领域
本发明涉及计算机数据检索的技术领域,具体而言,涉及字符数据识别及处理的方法和装置。
背景技术
互联网自上世纪90年代初诞生以来得到了迅猛发展,其信息发布主要以网页的形式实现。据最新的估计,互联网中网页的数量已经超过了550个billion(1个billion等于10亿),而互联网作为世界上最大的信息仓库,覆盖了现实世界的各个领域。面对这种海量信息源,人们迫切需要一些自动化的工具帮助他们迅速找到真正重要的信息,于是信息抽取研究应运而生。信息抽取的主要目的是将无结构的文本转化为结构化或半结构化的信息,并以特定的形式存储起来,供用户查询或进一步分析利用。而命名实体识别作为其中的一个基本步骤,已经逐步成为自然语言处理的一项关键技术。
命名实体(Named Entity)是现实世界中的具体的或者抽象的实体。主要包括实体、时间表达式、数字表达式等。在具体应用中,命名实体的具体含义也需视情况而定;例如,可能需要把住址、网址、电子信箱地址、电话号码、舰船编号、会议名称等作为命名实体;有些词属于专门领域中的实体名,例如药名、轮船名字、参考目录等,也应该把其归入考虑范围内。
一般来讲,命名实体识别(Named Entity Recognition,NER)的任务被定义为识别出文本中现有的专有名称和有意义的数量短语并加以归类。在命名实体识别的实际工作中,时间表达式、数字表达式等的识别相对简单,其规则的设计、数据的统计训练等也比较容易。而实体中的人名、地名、机构名,因为具有开放性、发展性、构成规律的随意性等特点,所以其识别就可能会有较多的错选或漏选,因而这三类命名实体识别的技术创新也更有挑战性。具体的,人名包括本国人名、外国音译名等;地名包含城市、国家、街道、省市县乡、河流、山川等;机构名包括公司名、各级政府组合名、委员会等。
基于文本信息的命名实体识别的技术方法,主要经历了两个发展阶段:基于规则的方法和基于统计的方法。早期的方法基本都是属于规则的方法,较为传统,在中均有描述。如Description of the LaSIE-II system as used for MUC-7(作者:Humphreys K),Named entity recognition without gazeteers(作者:A.Mikheev等)等提出的方法。基于规则的方法虽然精确度很高,但是它所耗费的资源包括人力和物力都是巨大的,主观性很强,随着互联网上文档数量的猛增和需求的不断变化,基于规则的方法开始显得力不从心。同时,伴随着计算机计算速度的加快和大量熟语料的出现,使得统计方法成为实现命名实体识别的主流方法。隐马尔可夫模型(HMM),最大熵模型(ME),决策树方法,基于错误驱动的转换机器学习方法都被应用于命名实体识别的研究。其中,条件随机场模型(CRF)取得了明显优于其他方法的效果,近年一直得到广泛关注,这在许多论文中得到体现,如Chinese Segmentation and New Word Detecting using Conditional Random Fields(作者:Fuchun Peng等),Early results for named entity recognition with conditional random fields(作者:A.McCallum等)。
当前比较普遍使用的是规则和统计相结合的方法。两者的优缺点形成互补关系。不论是综合提取不同特征,还是选用监督式、半监督式、非监督式等机器学习方法,其前提都需要面向不同的语言类型和文本格式,分析清楚困难所在。中文命名实体本身所具有的发展性和构词方式的随意性,以及各类词之间的共享性和制约性都对命名实体识别带来很大的困难。词在中文中是个模糊的概念,没有明确的定义。即使人理解汉语也会出现边界歧义的情况,机器处理更加不可避免。中文命名实体的生成规律以及结构更加复杂,尤其是缩略语的表示形式具有多样性,很难提取构成规则,因此不可能用一种识别模型应用于所有的命名实体。特别的,与英文相比,中文缺少在命名实体识别中起重要作用的词形变换特征。而且,到目前为止,能用于中文命名实体识别的大型开放性语料还很少,基本上研究者主要基于公认的采用北大标注集标注的1998年1-6月份的《***》标注语料,以及微软亚洲研究院发布的繁简体语料。
互联网中的新闻评论是指普通浏览者在具有评论发布权限的网站针对某一事件人物等的新闻正文而发布的评论,是目前人们在互联网上信息获取的重要来源之一。基于新闻评论信息产生了许多重要的应用和研究课题。例如,舆情分析,这是近十年自然语言处理和信息检索领域的热点研究课题,其目标是从连续的记录中识别出***未知的话题以及与该话题相关的报道,而准确的进行命名实体识别是进行分析的前提步骤之一。
互联网上的中文新闻评论是由不同的网络使用个体根据自己的意愿、喜好发表观点的媒介,评论人通过对某一则新闻发表评论来完成从互联网信息的获取者到提供者的角色转化。评论人个体之间基本相互独立,这就造成了不但不同的新闻消息所获得的关注度差别很大,而且每则评论的文本表达缺乏语义的统一性。具体来讲,主要有以下特点:
1、文本格式不规则。由于新闻评论出自各式各样的评论人,评论文本中往往包含大量噪音片段,包括字符错误拼写(因为评论人包含某种情感倾向而故意写错或这是因为键盘操作而无意写错),标点的特殊混用,多余空格键,无实际意义字符,不规则名称及简写等,这种噪音片段为分析处理自动化带来诸多干扰。例如,“汇源”(一种饮料品牌)可能被错误拼写为“汇圆”,而“抵制可口可乐”中各个汉字间的空格是无意义的。
2、各种自由撰写风格。评论人的知识背景、文化程度等多样化,表达方式、选择词汇也多样化,不同的评论人所用词语甚至句子结构可能不同,而想要表达的观点却相近。
3、相对用词简洁。网络评论人写评论趋向于使用网络用语及惯用流行词汇等,这种使用习惯未必符合标准中文表达语法,但却被网民普遍熟悉认可。特别的,评论人的用词与句式趋向简短,很多评论只有两三句话构成。
4、话题相关。评论人基本上以表达情感或观点为目的,而新闻评论更是针对新闻正文中提到的人物或相关事件而发,因而正文和评论、评论和评论之间有很强的互关联。
5、研究语料缺失状态。互联网上每天都在发布大量新闻,随之而来的是海量的评论语料库,但是这些语料都是粗糙未处理的网页。迄今为止,评论中的命名实体识别这个子领域还未有相关研究,从而缺乏为研究人员公认的实体标注规范,而可供研究的标注语料也处于完全空白状态。
以上这些特点,都造成了字符数据中预定义字符数据,如中文新闻评论类数据的命名实体识别误差较大的问题。由于存在这类问题,会导致在后期的数据检索、翻译等网络操作的过程中,存在检索数据误差、检索范围不准确,翻译错误等后期问题,因此,如何有效地发掘中文新闻评论中的可利用特点,选择合理的特征和机器学习方法,提高评论中命名实体识别的精度,以达到互联网信息抽取中更好的实际应用效果,已成为目前自然语言处理任务中一个重点和难点。
发明内容
本发明旨在提供一种字符数据识别及处理的方法和装置,其能够解决上述字符数据中预定义字符数据识别误差较大的问题。
根据本发明的一个方面,提供字符数据识别及处理的方法,包括:根据基准语料和基准模板对特征字符数据进行识别,获得各个命名实体所分别对应的不同的实体名称;获得各个实体名称的特征缀频数;根据所述特征缀频数、所述基准模板和预定义语料对待处理的字符数据进行识别,获得所述各个命名实体所分别对应的不同的实体名称;将从所述待处理的字符数据中识别出的实体名称作为数据参数执行后续分析处理。
优选的,所述根据基准语料和基准模板对特征字符数据进行识别的过程包括:采用以条件随机场模型CRF工具对所述基准语料和基准模板处理,通过处理后得出基准识别模型对特征字符数据进行识别。
优选的,所述获得各个实体名称的特征缀频数的过程包括:获得所述各个实体名称对应的特征前缀和特征后缀,统计所对应的特征前缀频数和特征后缀频数。
优选的,根据所述特征缀频数、所述基准模板和预定义语料对待处理的字符数据进行识别的过程包括:采用以条件随机场模型CRF工具对所述特征缀频数、所述基准模板和预定义语料处理,通过处理后得出的特征识别模型对特征字符数据进行识别。
优选的,采用以条件随机场模型CRF工具对所述特征缀频数、所述基准模板和预定义语料处理的过程包括:将特征缀频数作为基准模板的特征列构成特征识别模板;通过所述CRF工具处理所述特征识别模板和所述预定义语料得出特征识别模型。
优选的,所述执行后续分析处理包括:将所述特征识别模板识别出的实体名称作为检索匹配的关键词,进行检索处理;或将所述特征识别模板识别出的实体名称作为翻译匹配的关键词,进行翻译处理。
根据本发明的另一个方面,字符数据识别及处理的装置,包括:识别单元,用于根据基准语料和基准模板对特征字符数据进行识别,获得各个命名实体所分别对应的不同的实体名称;或根据特征缀频数、所述基准模板和预定义语料对待处理的字符数据进行识别,获得所述各个命名实体所分别对应的不同的实体名称;统计单元,用于获得所述识别单元从特征字符数据中识别出的各个实体名称的特征缀频数;处理单元,用于将从所述待处理的字符数据中识别出的实体名称作为数据参数执行后续分析处理。
优选的,所述识别单元包括:条件随机场模型CRF工具,采用以对所述基准语料和基准模板处理,通过处理后得出基准识别模型对特征字符数据进行识别;或对所述特征缀频数、所述基准模板和预定义语料处理,通过处理后得出的特征识别模型对特征字符数据进行识别;接口模块,用于将基准识别模型对特征字符数据识别出的实体名称输出至所述统计单元;或将所述统计单元统计出所述特征缀频数输入至CRF工具。
采用本发明的方法和装置,在识别的过程中,加入了特征缀作为识别特征列,所以克服了识别不准确,导致后期检索、翻译时预定义字符数据识别误差较大的问题,进而达到了明确的改善中文新闻评论中的命名实体识别精度,避免表达自由或不足够规范而未被识别或被错误识别出的命名实体。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明实施例一的字符数据识别及处理的方法的流程图;
图2示出了本发明实施例二的字符数据识别及处理的方法的流程图;
图3示出了本发明实施例的处理过程的示意图;
图4示出了本发明实施例的字符数据识别及处理的装置的结构图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。在字符数据处理过程中,如对字符数据翻译、检索、特定分析处理等操作时,对于数据源的操作,需要数据源的准确性、正确性较高,在获得命名实体时,不同的获得过程,可能得到的结果不同,从而导致后续的处理出现偏差,造成处理结果不准确,如主题检测与追踪、信息检索、机器翻译、自动文档摘要生成等。
尤其在新型的新闻评论中的命名实体识别方法中,许多因表达自由或不足够规范而未被识别或被错误识别出的命名实体。这对于新闻评论的舆情监测、情感分析、正负层面观点识别等,有基础而重要的作用。
实施例一。
参见图1,根据本发明实施例的字符数据识别及处理的方法主要包括以下步骤:
S11:根据基准语料和基准模板对特征字符数据进行识别,获得各个命名实体所分别对应的不同的实体名称;
S12:获得各个实体名称的特征缀频数;
S13:根据所述特征缀频数、所述基准模板和预定义语料对待处理的字符数据进行识别,获得所述各个命名实体所分别对应的不同的实体名称;
S14:将从所述待处理的字符数据中识别出的实体名称作为数据参数执行后续分析处理。
通过上面的实施例可准确的识别各个实体名称,识别过程中的详细参数及识别的数据通过实施例二进行说明。
实施例二
下面阐述本发明方法的实施例二,本发明可应用在各类字符数据当中,如中文或其它国家的语言符号数据、数学符号数据、逻辑符号数据等,并以词或字等为单位进行识别后进行处理,本发明给出的实施例以中文新闻评论为例进行说明,例如输入一个新闻网页,可正确提取其中的新闻标题、新闻正文和相关评论集合后,反馈回来新闻正文和每条评论中的人名、地名、机构名的识别结果进行相应的数据处理。
实施例二以网页文字数据为例进行说明,例如,对网页文字数据中新闻数据进行命名实体识别,新闻数据中,主要包括新闻标题、新闻评论、新闻正文等,而在这些数据中,主要关注的是新闻评论中的命名实体识别,识别出人名、地名、机构名。参见图2,根据本发明实施例的字符数据识别及处理的方法主要包括以下步骤:
S21:采用以条件随机场模型CRF工具,对基准语料和基准模板处理,生成基准识别模型;
条件随机场模型是目前进行命名实体识别效果最好的机器学习算法。由J.Lafferty于2001年在Conditional random field:Probabilistic models for segmenting and labeling sequence data中提出,是一种基于统计的序列标记和分割数据的方法。条件随机场使用一种概率图模型,具有表达长距离依赖性的交叠性特征的能力,能够较好地解决标注偏置问题的优点,而且所有特征可以进行全局归一化,能够求得全局最优解。
该技术对新闻正文和相关评论中的命名实体识别均选用CRF工具包Pocket CRF 0.45作为CRF模型的训练工具,其中涉及到分词及词性标注预处理均选用分词工具包方正分词4.0。
基准语料为采用1998年1-6月份的《***》标注语料和微软亚洲研究院简体中文语料;基准模板可采用预先定义的词性和分词的基准模板Template1,如表1所示,
表1命名实体识别使用的特征基准模板Template1
其中O表示CRF的输入观察状态列,F表示其分词特征列,C表示其词性特征列,S表示命名实体标签列。
再做分词处理时的词性标注如下:将基准语料中的每个句子由方正分词4.0处理,得到分词和词性标注标签。特别的,不论是分词、词性标注还是命名实体识别,在此将这些任务视作字的标注问题。分词选用4词位法,即词首(B),词尾(E),词中(I)和单字词(S)。举例如下:
A:国家所有制下不能产生真正的企业家。
B:国家/所有制/下/不能/产生/真正/企业家/。
C:国/B家/E所/B有/I制/E下/S不/B能/E产/B生/E真/B正/E企/B业/I家/E。/S
A为原句,B为分词后的结果,C为句中每个字的分词标签。
词性标注的词性标签如表2所示。
表2方正词性标注采用的词性标记集合
一个词被标注为某词性,则词中每个字都将赋予该词性标签。具体标注结果举例如下:
C:国家/n所有制/n下/f不能/v产生/v真正/b企业家/n。
D:国/n家/n所/n有/n制/n下/f不/v能/v产/v生/v真/b正/b企/n业/n家/n。/w
通过上述的基准语料和基准模板Template1作为CRF的输入,生成基准识别模型Model1。
S22:采用基准识别模型对特征字符数据进行识别,获得各个命名实体所分别对应的不同的实体名称;
在本实施例中,特征字符数据是指在新闻数据中的新闻标题和新闻正文,将给定的新闻网页URL进行预处理,提取出新闻标题,新闻正文,评论集合等标签,其整理结果如图3中生成的XML格式文档所示。
采用基准识别模型Model1对特征字符数据,即新闻标题、新闻正文标签进行识别,获得命名实体的识别结果,提取出其中的人名、地名、机构名三类命名实体,获得各个命名实体所分别对应的不同的实体名称。例如:人名实体所对应各个人名名称:张三、李四......地名实体所对应各个地名名称:北京、上海......等。
S23:通过识别出的各个类型的命名实体的实体名称,获得各个名称的特征缀频数;
通过识别出的各个实体名称,以命名实体与实体名称的对应关系的词典形式保存,由于评论与新闻正文的强相关性,新闻正文中的规范的命名实体对评论中的命名实体识别具有指导意义。在评论中的实体表达虽然有诸多不规范,大量采用缩略语、别名、简称等,但往往保留了命名实体的首末字特征。以人名为例,中国人名都由姓氏和人名构成,而且中国人名的姓氏用字和人名用字都是有一定的选择性的。由此,我们从词典中提取出人名实体的首字和末字分别作为前缀列表和后缀列表,同时列表中统计出每个前后缀字在词典中的频率数。
例如:人名的实体名称列由B,E,A,N四个词位组成。其含义如表3所示:
表3前后缀词位含义列表
地名、机构名同人名的前后缀规则定义相同,特别的,在下一步用CRF进行训练时,将三类命名实体的前后缀特征放到三个特征列上,所以完全可以使用同一套词位标签。
S24:采用所述各个特征缀频数、基准模板和预定义语料通过所述CRF工具处理,生成特征识别模板;
预定义语料可根据用户的需求选择,以本实施例的命名实体识别为例,预定义练语料选自2008年十月份的新浪热点新闻,共五十条新闻,它们均匀分布在政治、经济、体育、娱乐、科技五大领域。除去广告等无关的噪音评论,每条新闻选择与之相关的最近100条评论组成标注集合。具体标注时,针对人名、地名、机构名的基本定义,在以往公认的命名实体定义之上,根据新闻评论的表达特点,添加了以下基本标注规则:
(A)标注任务需要同时标注新闻主体和评论内容中的命名实体。如果评论中的命名实体在新闻正文中出现过,并且评论中的表示方法和新闻正文中不同,则需要指出其在新闻正文中对应的命名实体,如果新闻正文中对同一个实体有多个不同的表示方法,评论中的命名实体指向原文中说法最正规的命名实体。
例如:1)事实再次证明,对霉国不能一味迁就——霉国对应于原文中美国。
2)如果去年说阿联将冲击球队命中率之王,我一定是充满憧憬的——阿联对应于原文中的易见联。
(B)标注过程应该基于对评论的理解,需要指出每个命名实体的实际类。例如:美国队在与中国的比赛中应该被标记为[O 美国队]在与[O 中国]的比赛中根据句子的语义,中国实际表示的是中国队,因而被标记为组织名。
(C)对于一些既可以标注为地名又可以标注为组织名的命名实体,基于以下的标注原则进行标注:如果在上下文中,该命名实体指的是空间上具有明确意义的某个地理位置,则将该命名实体标注为地名,否则标注为机构名。例如:1)海淀黄庄的下一站是北京大学这里的北京大学是指某个特定位置,因而被标注为地名。
1)北京大学目标是建成世界一流大学这里的北京大学不是指某个特定位置,而是指一个团体,因而被标注为组织名。
(D)对于多个地名/组织明嵌套的情况,本着分开标记的原则,如果最后一个地名/机构名不能单独构成一个命名实体,则把它和它前面一个地名/机构名合并标为一个命名实体,否则嵌套的每个地名/机构名都单独的标为一个命名实体。
例如:1)北京市海淀区北京大学被标记为/[L 北京市]/[L 海淀区]/[O 北京大学]/
2)北京市海淀区教委被标记为/[L 北京市]/[O 海淀区教委]
在上面的例子中,教委不能单独构成一个命名实体,而北京大学则可以。
(E)关于人名标记,有以下两点需要注意:
1)姓氏+称谓的表达式形式一律不将称谓标注到人名之中,例如张大爷 标注为[P 张]大爷,王老师 标注为[P 王]老师。
2)对于一些可能产生歧义的实体,标记时需要包含用于区分实体的修饰词,例如小布什,老布什等,需要标记为[P 小布什],[P 老布什]最后由两位自然语言处理研究领域人员分工标注,遇到分歧协商完成,并且相互交叉检验。
上面介绍了预定义语料的选择,在生成过程中,将各个特征缀频数、基准模板和预定义语料通过所述CRF工具处理,生成特征识别模板Template2。
Template2保留了Template1中的所有模板特征,并增加了针对人名、地名、机构名前后缀特征列的模板,具体增加后的模板见表4,其中PER表示人名前后缀特征列,LOC表示地名前后缀特征列,ORG表示机构名前后缀特征列。
表4Template2
S25:采用所述特征识别模板对待处理的字符数据进行识别,获得所述各个命名实体所分别对应的不同的实体名称;
由于要对新闻评论进行识别,因此,将新闻评论作为待处理的字符数据进行识别,识别出相关的各类人名、地名、机构名命名实体的实体名称。在识别过程中,由于加入了特征缀频数,可通过特征缀频数进一步判断被识别实体的名称,从而更加准确的识别出实体名称。
为了验证识别过程的有效性,将标注好的新闻评论语料集合分成五份,进行了五交叉(5-folder)实验。每次的训练集合为8*5篇,经济、政治、体育、娱乐、科技五大类每类8篇,而其余语料作为测试集合,为2*5篇。
对于命名实体识别研究的评测,普遍上采用准确率(Precision)和召回率(Recall)两个指标来衡量,这也是MUC(Message Understanding Conference)会议进行评测的方法。
为了综合评价***的性能,通常还会计算F值(F-Measure),即准确率和召回率的加权几何平均值,计算公式如下:
其中,通常情况下,beta=1。
得到对比结果如表5,表6,表7所示:
表5人名识别的实验结果
召回率 | 准确率 | F值 | |
不使用前后缀特征 | 69.35% | 80.44% | 74.49% |
使用前后缀特征 | 78.39% | 85.65% | 81.86% |
表6地名识别的实验结果
召回率 | 准确率 | F值 | |
不使用前后缀特征 | 90.95% | 89.90% | 90.42% |
使用前后缀特征 | 91.54% | 91.44% | 91.49% |
表7机构名识别的实验结果
召回率 | 准确率 | F值 | |
不使用前后缀特征 | 50.44% | 76.34% | 60.74% |
使用前后缀特征 | 59.85% | 78.30% | 67.84% |
从表5、表6、表7中我们可以看到使用新闻正文中的命名实体词典提供的前后缀特征列相对于未使用之前,召回率、准确率、F值均有了明显提高,证明了本文提出算法的优越性。
S26:将所述特征识别模板识别出的实体名称作为数据参数执行后续分析处理。
在后续的分析处理中,可将对识别出的实体名称作为数据参数,如检索关键字的匹配参数,翻译时的翻译参数、特定分析处理等操作,正确性较高。尤其在新型的新闻评论中的命名实体识别方法中,因表达自由或不足够规范而未被识别或被错误识别出的命名实体均可正确识别出。这对于新闻评论的舆情监测、情感分析、正负层面观点识别等,有基础而重要的作用。
实施例三
图4示出了本发明装置的结构图。如图4所示,根据本发明实施例的字符数据识别及处理的装置,包括:
1)识别单元40,用于根据基准语料和基准模板对特征字符数据进行识别,获得各个命名实体所分别对应的不同的实体名称;或根据特征缀频数、所述基准模板和预定义语料对待处理的字符数据进行识别,获得所述各个命名实体所分别对应的不同的实体名称;
2)统计单元41,用于获得所述识别单元40从特征字符数据中识别出的各个实体名称的特征缀频数;
3)处理单元42,用于将从所述待处理的字符数据中识别出的实体名称作为数据参数执行后续分析处理。
优选的,所述识别单元40包括:
1)条件随机场模型CRF工具,对所述基准语料和基准模板处理,通过处理后得出基准识别模型对特征字符数据进行识别;或采用以条件随机场模型对所述特征缀频数、所述基准模板和预定义语料处理,通过处理后得出的特征识别模型对特征字符数据进行识别;
2)接口模块,用于将基准识别模型对特征字符数据识别出的实体名称输出至所述统计单元;或将所述统计单元统计出所述特征缀频数输入至CRF工具。
根据本发明实施例的字符数据识别及处理的装置可以采用上述实施例1和2中的方法来进行字符数据识别及处理,故在此对该字符数据识别及处理的装置的处理过程不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种字符数据识别及处理的方法,其特征在于,包括:
根据基准语料和基准模板对特征字符数据进行识别,获得各个命名实体所分别对应的不同的实体名称;
获得各个实体名称的特征缀频数;
根据所述特征缀频数、所述基准模板和预定义语料对待处理的字符数据进行识别,获得所述各个命名实体所分别对应的不同的实体名称;
将从所述待处理的字符数据中识别出的实体名称作为数据参数执行后续分析处理。
2.根据权利要求1所述的方法,其特征在于,所述根据基准语料和基准模板对特征字符数据进行识别的过程包括:
采用以条件随机场模型CRF工具对所述基准语料和基准模板处理,通过处理后得出基准识别模型对特征字符数据进行识别。
3.根据权利要求1或2所述的方法,其特征在于,所述获得各个实体名称的特征缀频数的过程包括:
获得所述各个实体名称对应的特征前缀和特征后缀,统计所对应的特征前缀频数和特征后缀频数。
4.根据权利要求3所述的方法,其特征在于,根据所述特征缀频数、所述基准模板和预定义语料对待处理的字符数据进行识别的过程包括:
采用以条件随机场模型CRF工具对所述特征缀频数、所述基准模板和预定义语料处理,通过处理后得出的特征识别模型对特征字符数据进行识别。
5.根据权利要求4所述的方法,其特征在于,采用以条件随机场模型CRF工具对所述特征缀频数、所述基准模板和预定义语料处理的过程包括:
将特征缀频数作为基准模板的特征列构成特征识别模板;
通过所述CRF工具处理所述特征识别模板和所述预定义语料得出特征识别模型。
6.根据权利要求1所述的方法,其特征在于,所述执行后续分析处理包括:
将所述特征识别模板识别出的实体名称作为检索匹配的关键词,进行检索处理;或
将所述特征识别模板识别出的实体名称作为翻译匹配的关键词,进行翻译处理。
7.一种字符数据识别及处理的装置,其特征在于,包括:
识别单元,用于根据基准语料和基准模板对特征字符数据进行识别,获得各个命名实体所分别对应的不同的实体名称;或根据特征缀频数、所述基准模板和预定义语料对待处理的字符数据进行识别,获得所述各个命名实体所分别对应的不同的实体名称;
统计单元,用于获得所述识别单元从特征字符数据中识别出的各个实体名称的特征缀频数;
处理单元,用于将从所述待处理的字符数据中识别出的实体名称作为数据参数执行后续分析处理。
8.根据权利要求7所述的装置,其特征在于,所述识别单元包括:
条件随机场模型CRF工具,对所述基准语料和基准模板处理,通过处理后得出基准识别模型对特征字符数据进行识别;或对所述特征缀频数、所述基准模板和预定义语料处理,通过处理后得出的特征识别模型对特征字符数据进行识别;
接口模块,用于将基准识别模型对特征字符数据识别出的实体名称输出至所述统计单元;或将所述统计单元统计出所述特征缀频数输入至CRF工具。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102429754A CN102103594A (zh) | 2009-12-22 | 2009-12-22 | 字符数据识别及处理的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102429754A CN102103594A (zh) | 2009-12-22 | 2009-12-22 | 字符数据识别及处理的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102103594A true CN102103594A (zh) | 2011-06-22 |
Family
ID=44156371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009102429754A Pending CN102103594A (zh) | 2009-12-22 | 2009-12-22 | 字符数据识别及处理的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102103594A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103164426A (zh) * | 2011-12-13 | 2013-06-19 | 北大方正集团有限公司 | 一种命名实体识别的方法及装置 |
CN103995885A (zh) * | 2014-05-29 | 2014-08-20 | 百度在线网络技术(北京)有限公司 | 实体名的识别方法和装置 |
WO2015027867A1 (en) * | 2013-08-28 | 2015-03-05 | International Business Machines Corporation | Authorship enhanced corpus ingestion for natural language processing |
CN106445922A (zh) * | 2016-10-09 | 2017-02-22 | 合网络技术(北京)有限公司 | 确定多媒体资源的标题的方法及装置 |
CN107368466A (zh) * | 2017-06-27 | 2017-11-21 | 成都准星云学科技有限公司 | 一种面向初等数学领域的命名识别方法及其*** |
CN107392111A (zh) * | 2017-06-27 | 2017-11-24 | 青岛海信电器股份有限公司 | 广告识别方法及装置 |
CN107832360A (zh) * | 2017-10-24 | 2018-03-23 | 广东欧珀移动通信有限公司 | 评论处理方法及相关设备 |
CN107861965A (zh) * | 2017-05-19 | 2018-03-30 | 广东精点数据科技股份有限公司 | 数据智能识别方法及*** |
CN107943786A (zh) * | 2017-11-16 | 2018-04-20 | 广州市万隆证券咨询顾问有限公司 | 一种中文命名实体识别方法及*** |
CN108710855A (zh) * | 2018-05-22 | 2018-10-26 | 山西同方知网数字出版技术有限公司 | 一种文字识别编校方法 |
CN109791570A (zh) * | 2018-12-13 | 2019-05-21 | 香港应用科技研究院有限公司 | 高效且精确的命名实体识别方法和装置 |
CN110399452A (zh) * | 2019-07-23 | 2019-11-01 | 福建奇点时空数字科技有限公司 | 一种基于实例特征建模的命名实体列表生成方法 |
CN111144334A (zh) * | 2019-12-27 | 2020-05-12 | 北京天融信网络安全技术有限公司 | 一种文件匹配方法、装置、电子设备及存储介质 |
WO2020118741A1 (en) * | 2018-12-13 | 2020-06-18 | Hong Kong Applied Science and Technology Research Institute Company Limited | Efficient and accurate named entity recognition method and apparatus |
-
2009
- 2009-12-22 CN CN2009102429754A patent/CN102103594A/zh active Pending
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103164426A (zh) * | 2011-12-13 | 2013-06-19 | 北大方正集团有限公司 | 一种命名实体识别的方法及装置 |
CN103164426B (zh) * | 2011-12-13 | 2015-10-28 | 北大方正集团有限公司 | 一种命名实体识别的方法及装置 |
WO2015027867A1 (en) * | 2013-08-28 | 2015-03-05 | International Business Machines Corporation | Authorship enhanced corpus ingestion for natural language processing |
US9483519B2 (en) | 2013-08-28 | 2016-11-01 | International Business Machines Corporation | Authorship enhanced corpus ingestion for natural language processing |
US10795922B2 (en) | 2013-08-28 | 2020-10-06 | International Business Machines Corporation | Authorship enhanced corpus ingestion for natural language processing |
CN103995885A (zh) * | 2014-05-29 | 2014-08-20 | 百度在线网络技术(北京)有限公司 | 实体名的识别方法和装置 |
CN103995885B (zh) * | 2014-05-29 | 2017-11-17 | 百度在线网络技术(北京)有限公司 | 实体名的识别方法和装置 |
CN106445922A (zh) * | 2016-10-09 | 2017-02-22 | 合网络技术(北京)有限公司 | 确定多媒体资源的标题的方法及装置 |
CN106445922B (zh) * | 2016-10-09 | 2020-02-18 | 合一网络技术(北京)有限公司 | 确定多媒体资源的标题的方法及装置 |
WO2018064959A1 (zh) * | 2016-10-09 | 2018-04-12 | 优酷网络技术(北京)有限公司 | 确定多媒体资源的标题的方法及装置 |
CN107861965A (zh) * | 2017-05-19 | 2018-03-30 | 广东精点数据科技股份有限公司 | 数据智能识别方法及*** |
CN107392111A (zh) * | 2017-06-27 | 2017-11-24 | 青岛海信电器股份有限公司 | 广告识别方法及装置 |
CN107392111B (zh) * | 2017-06-27 | 2020-06-23 | 海信视像科技股份有限公司 | 广告识别方法及装置 |
CN107368466A (zh) * | 2017-06-27 | 2017-11-21 | 成都准星云学科技有限公司 | 一种面向初等数学领域的命名识别方法及其*** |
CN107832360A (zh) * | 2017-10-24 | 2018-03-23 | 广东欧珀移动通信有限公司 | 评论处理方法及相关设备 |
CN107943786A (zh) * | 2017-11-16 | 2018-04-20 | 广州市万隆证券咨询顾问有限公司 | 一种中文命名实体识别方法及*** |
CN108710855A (zh) * | 2018-05-22 | 2018-10-26 | 山西同方知网数字出版技术有限公司 | 一种文字识别编校方法 |
CN109791570A (zh) * | 2018-12-13 | 2019-05-21 | 香港应用科技研究院有限公司 | 高效且精确的命名实体识别方法和装置 |
WO2020118741A1 (en) * | 2018-12-13 | 2020-06-18 | Hong Kong Applied Science and Technology Research Institute Company Limited | Efficient and accurate named entity recognition method and apparatus |
CN110399452A (zh) * | 2019-07-23 | 2019-11-01 | 福建奇点时空数字科技有限公司 | 一种基于实例特征建模的命名实体列表生成方法 |
CN111144334A (zh) * | 2019-12-27 | 2020-05-12 | 北京天融信网络安全技术有限公司 | 一种文件匹配方法、装置、电子设备及存储介质 |
CN111144334B (zh) * | 2019-12-27 | 2023-09-26 | 北京天融信网络安全技术有限公司 | 一种文件匹配方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102103594A (zh) | 字符数据识别及处理的方法和装置 | |
Jung | Semantic vector learning for natural language understanding | |
Shoufan et al. | Natural language processing for dialectical Arabic: A survey | |
Han et al. | Lexical normalisation of short text messages: Makn sens a# twitter | |
Benajiba et al. | Arabic named entity recognition using conditional random fields | |
CN103049435B (zh) | 文本细粒度情感分析方法及装置 | |
Tulkens et al. | Evaluating unsupervised Dutch word embeddings as a linguistic resource | |
Kaur et al. | A survey of named entity recognition in English and other Indian languages | |
Maynard et al. | Towards a semantic extraction of named entities | |
Yang et al. | Extracting comparative entities and predicates from texts using comparative type classification | |
Şeker et al. | Extending a CRF-based named entity recognition model for Turkish well formed text and user generated content 1 | |
Yeh et al. | Chinese word spelling correction based on n-gram ranked inverted index list | |
Stern et al. | A joint named entity recognition and entity linking system | |
Hamdi et al. | In-depth analysis of the impact of OCR errors on named entity recognition and linking | |
Jain | Domain-specific knowledge graph construction for semantic analysis | |
Qiu et al. | ChineseTR: A weakly supervised toponym recognition architecture based on automatic training data generator and deep neural network | |
Liu et al. | Opinion searching in multi-product reviews | |
Rao et al. | ESM-IL: Entity Extraction from Social Media Text for Indian Languages@ FIRE 2015-An Overview. | |
CN101933017A (zh) | 文件检索装置、文件检索***、文件检索程序和文件检索方法 | |
Yoon et al. | Data-centric and model-centric approaches for biomedical question answering | |
Mohnot et al. | Hybrid approach for Part of Speech Tagger for Hindi language | |
Hakkani-Tur et al. | Statistical sentence extraction for information distillation | |
Tian et al. | Research of product ranking technology based on opinion mining | |
Hasan et al. | Pattern-matching based for Arabic question answering: a challenge perspective | |
CN102207947B (zh) | 一种直接引语素材库的生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20110622 |