CN103870489A

CN103870489A - 基于搜索日志的中文人名自扩展识别方法

Info

Publication number: CN103870489A
Application number: CN201210539985.6A
Authority: CN
Inventors: 吕学强; 文彬
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2012-12-13
Filing date: 2012-12-13
Publication date: 2014-06-18
Anticipated expiration: 2032-12-13
Also published as: CN103870489B

Abstract

本发明属于计算语言学的自然语言处理领域，公开了一种基于搜索日志的中文人名自扩展识别方法，该方法借助“姓氏驱动”人名识别思想，利用搜索日志查询串首字姓氏特点，挖掘种子人名；利用种子人名在搜索日志中生成候选人名模板集；根据候选人名模板在所对应查询串和整个查询日志频次变化趋势，筛选人名模板；根据人名模板生成候选人名；利用前向后向关键词匹配界定、筛选候选人名，获得人名集合；基于自扩展迭代思想，利用当前获得的人名集合作为下一次迭代过程的种子人名集，人名模板集中区分度最高的前n个模板作为下一次迭代的种子模板，由此挖掘出搜索日志中人名，利用搜索日志本身特点构建种子人名、生成人名模板，根据人名上下文在对应查询串及整个搜索日志查询串的变化趋势，过滤人名模板，降低了人名识别时的噪音信息，提高了搜索日志中人名识别率。

Description

基于搜索日志的中文人名自扩展识别方法

技术领域

本发明属于计算语言学中的自然语言处理领域，具体地，涉及一种基于搜索日志的中文人名自扩展识别方法。

背景技术

随着网络信息的急剧增长，搜索引擎越来越彰显了其划时代的意义。中文搜索引擎发展至今，已经拥有庞大的用户量，每天处理数亿条请求，积累了大规模的查询日志。命名实体在搜索日志中占很大比例。根据相关学者研究统计：在每天更新的网页搜索查询里面，有2~4%的查询由单独的人名组成；大约30%的查询里面包含人名；研究人员对76717条查询串进行标注，发现人名出现了961个，频次为6245，占总查询数的8.14%。面对急剧增长的数据和信息，企业界和学术界纷纷在积极寻找改善、提升搜索质量的有效途径。有效识别查询日志中的人名，一方面能准确定位用户的检索需求，提升搜索质量；另一方面能获得更新、更全面的人名信息，扩充相关资源库。

传统的人名识别多数是在普通文本上进行，识别算法大致可以分为基于规则和基于统计的方法，普通文本具有丰富的上下文信息，而搜索日志中的查询串信息量少、内容不遵循严格句法语法规则、随意性大，因此查询日志中的人名识别不能直接利用文本领域的方法实现。基于搜索日志的人名识别目前主要从以下几方面展开：（1）基于大量人工标注语料的有监督识别方法；（2）基于模板迭代范式的弱监督识别方法。前一方法耗费人力、物力，同时识别效率还受标注语料的影响，具有较大主观性，第二种方法借助模板迭代产生新的候选人名，选取的模板限定了潜在人名范畴，导致识别结果不够准确。因此，本发明提供了一种改进的自扩展人名识别方法，根据模板在查询串的变化趋势扩展人名上下文信息，抽取新的候选人名，该方法使自扩展的查询串上下文尽可能只涵盖目标实体类别，解决了当前搜索日志中人名识别效率低下的问题，同时为短文本实体识别提供了技术参考和实际依据。

发明内容

本发明要解决的技术问题是提供一种搜索日志中自扩展人名识别方法。

为解决当前搜索日志中人名识别效率低下等问题，本发明提供了一种基于搜索日志的中文人名自扩展识别方法，该方法包括如下步骤：

S11确定目标语料集，也即将用于挖掘人名实体的所有查询日志中查询串集合Q；

S12构建种子人名集合C，；

S13根据种子人名集合C及其所在查询串集合Qc，生成候选人名模板集Mc；

S14利用人名模板在Qc和Q中匹配的查询串条数变化趋势，对人名模板进行筛选，选取适合人名识别的上下文信息，获得人名模板集Mc^’；

S15在查询串集合Q中匹配人名模板集Mc^’中的模板，生成候选人名集CN；

S16对候选人名进行筛选，去除一些干扰的噪音信息，得到可信度较高的人名集合N；

S17利用人名集合N更新种子人名集合C，迭代上述S12至S16这5个步骤，直到获取的人名的可信度达到一定阈值。

其中，S12中种子人名的构建借助了文本领域“姓氏驱动”的人名识别思想，结合查询日志中有相当一部分人名位于查询串开头部分的特点，根据首字姓氏进行驱动，自动发现候选种子人名，同时通过统计候选种子人名所在模板匹配的其他候选种子人名个数对候选种子人名进行可信度度量，筛选出种子人名集合C。

S13中候选人名模板集Mc中每一个元素以<候选模板M，候选模板M在当前查询串集合Qc内匹配的查询串条数>的形式存在。

在人名识别的一次迭代过程中，对候选模板集合Mc内的模板按照其在Qc中匹配的查询串条数以递减顺序生成排序集合last，同时也按其在Q中匹配的查询串条数按递减顺序生成排序集合now，对任一模板M，定义一个五元组IM，IM=（M, Rank_now, Rank_now_sum, Rank_last, Rank_last_sum），其中Rank_now表示模板M在排序集合now中的排名，Rank_now_sum表示排序集合now中排名的最大序号，Rank_last表示模板M在排序集合last中的排名，Rank_last_sum表示模板在排序集合last中排名的最大序号。

定义区分度用以描述模板对人名区分能力的高低，对于模板M，根据其在排序集合last和now中相对排序的变化趋势判断其可信度，因此，区分度计算方式如下：

r div = \frac{Rank_now / Rank_now_sum}{Rank_last / Rank_last_sum}

根据区分度值的大小对模板按递增顺序进行排序，在自扩展识别阶段，每次迭代选择前n个模板作为下一次迭代的种子模板，获得人名模板集Mc’。

利用区分度挑选出扩展用的人名模板，但还存在模板匹配内容包含非人名的情况，对模板匹配得到的候选人名，还需要进一步划定边界、进行筛选，以保证识别人名的准确率。[0012] 根据查询串中候选人名的特点，设计“前向后向关键词匹配方法”对候选人名进行边界界定，达到候选人名界定、过滤筛选的目的。

前向后向关键词匹配方法首先需要构建一个关键词库，对于任一候选人名可表示为W={W₁…W_i…Wn}，其中W_i表示一个中文汉字。方法具体可描述为：从首字开始进行前向最大匹配，有匹配则将匹配内容从W中删除，更新W；从尾字开始后项最大匹配，有匹配的则从W删除相应的匹配内容，更新W。迭代上述前向后向匹配过程，直至W不再更新。最大匹配长度max和最小匹配长度min，可根据候选人名特点设置。

本发明技术方案提供的基于搜索日志的中文人名自扩展识别方法，根据搜索日志中查询串信息量少、内容不规则的特点，借助文本领域“姓氏驱动”人名识别思想挖掘搜索日志中种子人名，根据种子人名设计人名模板，利用人名模板在种子人名所在查询串及整个目标语料查询串中的排序变化趋势，对人名模板进行筛选，根据获得的人名模板以及所设计的前向后向关键词匹配，对候选人名进行界定、过滤，并运用自扩展思想，最终实现搜索日志中中文人名识别，降低了人名识别时的噪音信息，提高了识别率。

附图说明

图1为本发明实施例提供的基于搜索日志的中文人名自扩展识别方法核心技术流程图。

图2为本发明实施例提供的基于搜索日志的中文人名自扩展识别方法种子人名发现流程图。

具体实施方式

为顺应当前精准化搜索需求，解决检索查询时人名识别问题，本发明实施例提供的基于搜索日志中的中文人名识别方法，借助自扩展识别思想，通过种子人名构建人名模板，根据模板在种子人名所在查询串及整个目标语料查询串的排序变化趋势，筛选人名上下文，运用模式匹配思想界定候选人名，降低了人名识别时的噪音信息，提高了识别率。

为使本发明实施例的目的、技术方法及优点更加清楚明白，以下结合附图对本发明实施例提供的技术方案进行相似说明。

如图1所示为本发明实施例中的基于搜索日志的中文人名自扩展识别方法核心技术流程图，选定的目标语料集（搜索日志查询串）Q（S11），利用如图2所示的种子人名发现流程图所提供的技术方案，借助“姓氏驱动”思想，挖掘目标语料集Q中的种子人名集C（S12），获取种子人名所在查询串Qc，据此生成候选人名模板集Mc（S13），根据模板频次在Q和Qc中的不同变化趋势计算模板区分度，对候选人名模板集进行筛选（S14），根据获得的人名模板在Q中生成候选人名集CN（S15），候选人名含有一定的非人名信息，设计前向后向关键词匹配对候选人名进行界定和筛选（S16），获得人名集合N，利用人名集合N更新种子人名集C，迭代S12-S16这5个步骤，直到Q中的人名达到设定阈值。

如图2所示为本发明实施例中的基于搜索日志的中文人名自扩展识别方法种子人名发现流程图，“姓氏驱动”思想需要利用中国姓氏列表，统计查询串中首字姓氏的频次，选择首字出现频次最高的前4个姓氏作为种子姓氏，将首字属于种子姓氏、长度为2或3的查询串作为种子人名。

S13中生成候选人名模板的同时记录生成该模板的查询串条数，由此获得候选人名模板集Mc，其元素为：<候选模板M，候选模板M在当前查询串集合Qc内匹配的查询串条数>。

对候选模板集合Mc内的模板按照其在Qc中匹配的查询串条数以递减顺序生成排序集合last，同时也按其在Q中匹配的查询串条数按递减顺序生成排序集合now，对任一模板M，定义一个五元组IM，IM=（M, Rank_now, Rank_now_sum, Rank_last, Rank_last_sum），其中Rank_now表示模板M在排序集合now中的排名，Rank_now_sum表示排序集合now中排名的最大序号，Rank_last表示模板M在排序集合last中的排名，Rank_last_sum表示模板在排序集合last中排名的最大序号。

计算模板对人名区分能力大小，用以筛选模板，其区分度计算方式为：

r div = \frac{Rank_now / Rank_now_sum}{Rank_last / Rank_last_sum}

根据区分度值的大小对模板按递增顺序进行排序，在下一次迭代时选择前50个模板作为种子模板，获得人名模板集Mc’。

在查询串集合Q中逐个匹配人名模板集Mc^’中的模板，生成候选人名集CN。

虽然利用区分度挑选扩展用的模板，但还是存在模板匹配内容包含非人名的情况。以“.+简历”为例，查询串“怎么写简历”匹配该模板，但明显“怎么写”不是一个人名。对于查询串“央视王小丫简历”，匹配模板得到的候选人名为“央视王小丫”，包括了修饰“王小丫”的“央视”。所以对模板匹配得到的候选人名，还需要对候选人名进行进一步的边界界定、筛选，以保证识别的人名的准确率。

由于查询日志的查询串本身长度较短，不遵循一般的句法规则，而且大部分是由多个词连接构成。查询串中人名的上下文信息，更多是涉及人名相关的称谓、地点、职业等属性信息。因此，设计“前向后向关键词匹配方法”，利用***分词语料加入中国省市区县等地名信息构建关键词库。

对一个候选人名W={W₁…W_i…Wn}，W_i表示一个中文汉字。从首字开始与词库进行前向最大匹配，有匹配的则将匹配内容从W中删除，更新W；从尾字开始后向最大匹配，有匹配的则从W删除相应的匹配内容，更新W。继续迭代上述前向后向匹配过程，直至W不再更新。考虑到中文关键词的一般情况，设定最长匹配长度max为5个中文汉字。

由于直接基于词库匹配，而人名可能本身属于词库，例如人名为“高远”，在词库中也存在“高远”，为尽可能减少对这种情况的错误匹配，规定若删除匹配内容后余下的候选人名长度小于2则不匹配。

Claims

1.基于搜索日志的中文人名自扩展识别方法，其特征在于，包括：

S11 确定目标语料集，也即将用于挖掘人名实体的所有查询日志中查询串集合Q；

S12 构建种子人名集合C，；

S13 根据种子人名集合C及其所在查询串集合Qc，生成候选人名模板集Mc；

S14 利用人名模板在Qc和Q中匹配的查询串条数变化趋势，对人名模板进行筛选，选取适合人名识别的上下文信息，获得人名模板集Mc’；

S15 在查询串集合Q中匹配人名模板集Mc’中的模板，生成候选人名集CN；

S16 对候选人名进行筛选，去除一些干扰的噪音信息，得到可信度较高的人名集合N；

S17 利用人名集合N更新种子人名集合C，迭代上述S12至S16这5个步骤，直到获取的人名的可信度达到一定阈值。

2.根据权利要求1所述的基于搜索日志的中文人名自扩展识别方法，其特征在于，自扩展识别过程是一个迭代过程，一次迭代指的是执行步骤S12至步骤S16的过程。

3.根据权利要求1所述的基于搜索日志的中文人名自扩展识别方法，其特征在于，种子人名的初始构建是基于“姓氏驱动”思想，有效利用查询日志中查询串人名检索词特点，根据种子姓氏所在查询串长度选择种子人名。

4.根据权利要求1所述的基于搜索日志的中文人名自扩展识别方法，其特征在于，候选人名模板集Mc，中需要记录每个候选人名模板在种子人名所在查询串集合Qc中匹配的查询串条数，其元素构成式为：<候选模板M，候选模板M在当前查询串集合Qc内匹配的查询串条数>。

5.根据权利要求1和权利要求4所述的基于搜索日志的中文人名自扩展识别方法，其特征在于，对候选模板集合Mc内的模板按照其在Qc中匹配的查询串条数以递减顺序生成排序集合last，同时也按其在Q中匹配的查询串条数按递减顺序生成排序集合now，对任一模板M，定义一个五元组IM，IM=（M, Rank_now, Rank_now_sum, Rank_last, Rank_last_sum），其中Rank_now表示模板M在排序集合now中的排名，Rank_now_sum表示排序集合now中排名的最大序号，Rank_last表示模板M在排序集合last中的排名，Rank_last_sum表示模板在排序集合last中排名的最大序号。

6.根据权利要求1所述的基于搜索日志的中文人名自扩展识别方法，其特征在于，定义一个用于描述模板对人名区分能力高低的概念区分度，来对候选人名模板进行筛选。

7.根据权利要求1和权利要求6所述的基于搜索日志的中文人名自扩展识别方法，其特征在于，区分度的计算方式为：

Figure 2012105399856100001DEST_PATH_IMAGE002A

。

8.根据权利要求1所述的基于搜索日志的中文人名自扩展识别方法，其特征在于，利用“前向后向关键词匹配方法”对候选人名进行筛选，候选人名串中删除在关键词库中的子串。

9.根据权利要求1和权利要求8所述的基于搜索日志的中文人名自扩展识别方法，其特征在于，关键词库由***分词语料，剔除人名、外文、单字，加入中国省、市、区、县的地名信息而构成。

10.根据权利要求1、权利要求8和权利要求9所述的基于搜索日志的中文人名自扩展识别方法，其特征在于，关键词匹配从前向、后向同时进行，根据语料特点设置最大匹配长度和最小匹配长度。

11.根据权利要求1和权利要求2所述的基于搜索日志的中文人名自扩展识别方法，其特征在于，下一次迭代时利用当前人名集合N更新种子人名集合C，从人名模板集Mc’抽取前n个模板作为下一次迭代的种子模板。