CN103870489A - 基于搜索日志的中文人名自扩展识别方法 - Google Patents

基于搜索日志的中文人名自扩展识别方法 Download PDF

Info

Publication number
CN103870489A
CN103870489A CN201210539985.6A CN201210539985A CN103870489A CN 103870489 A CN103870489 A CN 103870489A CN 201210539985 A CN201210539985 A CN 201210539985A CN 103870489 A CN103870489 A CN 103870489A
Authority
CN
China
Prior art keywords
name
template
candidate
rank
seed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210539985.6A
Other languages
English (en)
Other versions
CN103870489B (zh
Inventor
吕学强
文彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN201210539985.6A priority Critical patent/CN103870489B/zh
Publication of CN103870489A publication Critical patent/CN103870489A/zh
Application granted granted Critical
Publication of CN103870489B publication Critical patent/CN103870489B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于计算语言学的自然语言处理领域,公开了一种基于搜索日志的中文人名自扩展识别方法,该方法借助“姓氏驱动”人名识别思想,利用搜索日志查询串首字姓氏特点,挖掘种子人名;利用种子人名在搜索日志中生成候选人名模板集;根据候选人名模板在所对应查询串和整个查询日志频次变化趋势,筛选人名模板;根据人名模板生成候选人名;利用前向后向关键词匹配界定、筛选候选人名,获得人名集合;基于自扩展迭代思想,利用当前获得的人名集合作为下一次迭代过程的种子人名集,人名模板集中区分度最高的前n个模板作为下一次迭代的种子模板,由此挖掘出搜索日志中人名,利用搜索日志本身特点构建种子人名、生成人名模板,根据人名上下文在对应查询串及整个搜索日志查询串的变化趋势,过滤人名模板,降低了人名识别时的噪音信息,提高了搜索日志中人名识别率。

Description

基于搜索日志的中文人名自扩展识别方法
技术领域
本发明属于计算语言学中的自然语言处理领域,具体地,涉及一种基于搜索日志的中文人名自扩展识别方法。
背景技术
随着网络信息的急剧增长,搜索引擎越来越彰显了其划时代的意义。中文搜索引擎发展至今,已经拥有庞大的用户量,每天处理数亿条请求,积累了大规模的查询日志。命名实体在搜索日志中占很大比例。根据相关学者研究统计:在每天更新的网页搜索查询里面,有2~4%的查询由单独的人名组成;大约30%的查询里面包含人名;研究人员对76717条查询串进行标注,发现人名出现了961个,频次为6245,占总查询数的8.14%。面对急剧增长的数据和信息,企业界和学术界纷纷在积极寻找改善、提升搜索质量的有效途径。有效识别查询日志中的人名,一方面能准确定位用户的检索需求,提升搜索质量;另一方面能获得更新、更全面的人名信息,扩充相关资源库。
传统的人名识别多数是在普通文本上进行,识别算法大致可以分为基于规则和基于统计的方法,普通文本具有丰富的上下文信息,而搜索日志中的查询串信息量少、内容不遵循严格句法语法规则、随意性大,因此查询日志中的人名识别不能直接利用文本领域的方法实现。基于搜索日志的人名识别目前主要从以下几方面展开:(1)基于大量人工标注语料的有监督识别方法;(2)基于模板迭代范式的弱监督识别方法。前一方法耗费人力、物力,同时识别效率还受标注语料的影响,具有较大主观性,第二种方法借助模板迭代产生新的候选人名,选取的模板限定了潜在人名范畴,导致识别结果不够准确。因此,本发明提供了一种改进的自扩展人名识别方法,根据模板在查询串的变化趋势扩展人名上下文信息,抽取新的候选人名,该方法使自扩展的查询串上下文尽可能只涵盖目标实体类别,解决了当前搜索日志中人名识别效率低下的问题,同时为短文本实体识别提供了技术参考和实际依据。
发明内容
本发明要解决的技术问题是提供一种搜索日志中自扩展人名识别方法。
为解决当前搜索日志中人名识别效率低下等问题,本发明提供了一种基于搜索日志的中文人名自扩展识别方法,该方法包括如下步骤:
S11确定目标语料集,也即将用于挖掘人名实体的所有查询日志中查询串集合Q;
S12构建种子人名集合C,;
S13根据种子人名集合C及其所在查询串集合Qc,生成候选人名模板集Mc;
S14利用人名模板在Qc和Q中匹配的查询串条数变化趋势,对人名模板进行筛选,选取适合人名识别的上下文信息,获得人名模板集Mc
S15在查询串集合Q中匹配人名模板集Mc中的模板,生成候选人名集CN;
S16对候选人名进行筛选,去除一些干扰的噪音信息,得到可信度较高的人名集合N;
S17利用人名集合N更新种子人名集合C,迭代上述S12至S16这5个步骤,直到获取的人名的可信度达到一定阈值。
其中,S12中种子人名的构建借助了文本领域“姓氏驱动”的人名识别思想,结合查询日志中有相当一部分人名位于查询串开头部分的特点,根据首字姓氏进行驱动,自动发现候选种子人名,同时通过统计候选种子人名所在模板匹配的其他候选种子人名个数对候选种子人名进行可信度度量,筛选出种子人名集合C。
S13中候选人名模板集Mc中每一个元素以<候选模板M,候选模板M在当前查询串集合Qc内匹配的查询串条数>的形式存在。
在人名识别的一次迭代过程中,对候选模板集合Mc内的模板按照其在Qc中匹配的查询串条数以递减顺序生成排序集合last,同时也按其在Q中匹配的查询串条数按递减顺序生成排序集合now,对任一模板M,定义一个五元组IM,IM=(M, Rank_now, Rank_now_sum, Rank_last, Rank_last_sum),其中Rank_now表示模板M在排序集合now中的排名,Rank_now_sum表示排序集合now中排名的最大序号,Rank_last表示模板M在排序集合last中的排名,Rank_last_sum表示模板在排序集合last中排名的最大序号。
定义区分度用以描述模板对人名区分能力的高低,对于模板M,根据其在排序集合last和now中相对排序的变化趋势判断其可信度,因此,区分度计算方式如下:
r div = Rank _ now / Rank _ now _ sum Rank _ last / Rank _ last _ sum
根据区分度值的大小对模板按递增顺序进行排序,在自扩展识别阶段,每次迭代选择前n个模板作为下一次迭代的种子模板,获得人名模板集Mc’。
利用区分度挑选出扩展用的人名模板,但还存在模板匹配内容包含非人名的情况,对模板匹配得到的候选人名,还需要进一步划定边界、进行筛选,以保证识别人名的准确率。[0012] 根据查询串中候选人名的特点,设计“前向后向关键词匹配方法”对候选人名进行边界界定,达到候选人名界定、过滤筛选的目的。
前向后向关键词匹配方法首先需要构建一个关键词库,对于任一候选人名可表示为W={W1…Wi…Wn},其中Wi表示一个中文汉字。方法具体可描述为:从首字开始进行前向最大匹配,有匹配则将匹配内容从W中删除,更新W;从尾字开始后项最大匹配,有匹配的则从W删除相应的匹配内容,更新W。迭代上述前向后向匹配过程,直至W不再更新。最大匹配长度max和最小匹配长度min,可根据候选人名特点设置。
本发明技术方案提供的基于搜索日志的中文人名自扩展识别方法,根据搜索日志中查询串信息量少、内容不规则的特点,借助文本领域“姓氏驱动”人名识别思想挖掘搜索日志中种子人名,根据种子人名设计人名模板,利用人名模板在种子人名所在查询串及整个目标语料查询串中的排序变化趋势,对人名模板进行筛选,根据获得的人名模板以及所设计的前向后向关键词匹配,对候选人名进行界定、过滤,并运用自扩展思想,最终实现搜索日志中中文人名识别,降低了人名识别时的噪音信息,提高了识别率。
附图说明
图1为本发明实施例提供的基于搜索日志的中文人名自扩展识别方法核心技术流程图。
图2为本发明实施例提供的基于搜索日志的中文人名自扩展识别方法种子人名发现流程图。
具体实施方式
为顺应当前精准化搜索需求,解决检索查询时人名识别问题,本发明实施例提供的基于搜索日志中的中文人名识别方法,借助自扩展识别思想,通过种子人名构建人名模板,根据模板在种子人名所在查询串及整个目标语料查询串的排序变化趋势,筛选人名上下文,运用模式匹配思想界定候选人名,降低了人名识别时的噪音信息,提高了识别率。
为使本发明实施例的目的、技术方法及优点更加清楚明白,以下结合附图对本发明实施例提供的技术方案进行相似说明。
如图1所示为本发明实施例中的基于搜索日志的中文人名自扩展识别方法核心技术流程图,选定的目标语料集(搜索日志查询串)Q(S11),利用如图2所示的种子人名发现流程图所提供的技术方案,借助“姓氏驱动”思想,挖掘目标语料集Q中的种子人名集C(S12),获取种子人名所在查询串Qc,据此生成候选人名模板集Mc(S13),根据模板频次在Q和Qc中的不同变化趋势计算模板区分度,对候选人名模板集进行筛选(S14),根据获得的人名模板在Q中生成候选人名集CN(S15),候选人名含有一定的非人名信息,设计前向后向关键词匹配对候选人名进行界定和筛选(S16),获得人名集合N,利用人名集合N更新种子人名集C,迭代S12-S16这5个步骤,直到Q中的人名达到设定阈值。
如图2所示为本发明实施例中的基于搜索日志的中文人名自扩展识别方法种子人名发现流程图,“姓氏驱动”思想需要利用中国姓氏列表,统计查询串中首字姓氏的频次,选择首字出现频次最高的前4个姓氏作为种子姓氏,将首字属于种子姓氏、长度为2或3的查询串作为种子人名。
S13中生成候选人名模板的同时记录生成该模板的查询串条数,由此获得候选人名模板集Mc,其元素为:<候选模板M,候选模板M在当前查询串集合Qc内匹配的查询串条数>。
对候选模板集合Mc内的模板按照其在Qc中匹配的查询串条数以递减顺序生成排序集合last,同时也按其在Q中匹配的查询串条数按递减顺序生成排序集合now,对任一模板M,定义一个五元组IM,IM=(M, Rank_now, Rank_now_sum, Rank_last, Rank_last_sum),其中Rank_now表示模板M在排序集合now中的排名,Rank_now_sum表示排序集合now中排名的最大序号,Rank_last表示模板M在排序集合last中的排名,Rank_last_sum表示模板在排序集合last中排名的最大序号。
计算模板对人名区分能力大小,用以筛选模板,其区分度计算方式为:
r div = Rank _ now / Rank _ now _ sum Rank _ last / Rank _ last _ sum
根据区分度值的大小对模板按递增顺序进行排序,在下一次迭代时选择前50个模板作为种子模板,获得人名模板集Mc’。
在查询串集合Q中逐个匹配人名模板集Mc中的模板,生成候选人名集CN。
虽然利用区分度挑选扩展用的模板,但还是存在模板匹配内容包含非人名的情况。以“.+简历”为例,查询串“怎么写简历”匹配该模板,但明显“怎么写”不是一个人名。对于查询串“央视王小丫简历”,匹配模板得到的候选人名为“央视王小丫”,包括了修饰“王小丫”的“央视”。所以对模板匹配得到的候选人名,还需要对候选人名进行进一步的边界界定、筛选,以保证识别的人名的准确率。
由于查询日志的查询串本身长度较短,不遵循一般的句法规则,而且大部分是由多个词连接构成。查询串中人名的上下文信息,更多是涉及人名相关的称谓、地点、职业等属性信息。因此,设计“前向后向关键词匹配方法”,利用***分词语料加入中国省市区县等地名信息构建关键词库。
对一个候选人名W={W1…Wi…Wn},Wi表示一个中文汉字。从首字开始与词库进行前向最大匹配,有匹配的则将匹配内容从W中删除,更新W;从尾字开始后向最大匹配,有匹配的则从W删除相应的匹配内容,更新W。继续迭代上述前向后向匹配过程,直至W不再更新。考虑到中文关键词的一般情况,设定最长匹配长度max为5个中文汉字。
由于直接基于词库匹配,而人名可能本身属于词库,例如人名为“高远”,在词库中也存在“高远”,为尽可能减少对这种情况的错误匹配,规定若删除匹配内容后余下的候选人名长度小于2则不匹配。

Claims (11)

1.基于搜索日志的中文人名自扩展识别方法,其特征在于,包括:
S11 确定目标语料集,也即将用于挖掘人名实体的所有查询日志中查询串集合Q;
S12 构建种子人名集合C,;
S13 根据种子人名集合C及其所在查询串集合Qc,生成候选人名模板集Mc;
S14 利用人名模板在Qc和Q中匹配的查询串条数变化趋势,对人名模板进行筛选,选取适合人名识别的上下文信息,获得人名模板集Mc’;
S15 在查询串集合Q中匹配人名模板集Mc’中的模板,生成候选人名集CN;
S16 对候选人名进行筛选,去除一些干扰的噪音信息,得到可信度较高的人名集合N;
S17 利用人名集合N更新种子人名集合C,迭代上述S12至S16这5个步骤,直到获取的人名的可信度达到一定阈值。
2.根据权利要求1所述的基于搜索日志的中文人名自扩展识别方法,其特征在于,自扩展识别过程是一个迭代过程,一次迭代指的是执行步骤S12至步骤S16的过程。
3.根据权利要求1所述的基于搜索日志的中文人名自扩展识别方法,其特征在于,种子人名的初始构建是基于“姓氏驱动”思想,有效利用查询日志中查询串人名检索词特点,根据种子姓氏所在查询串长度选择种子人名。
4.根据权利要求1所述的基于搜索日志的中文人名自扩展识别方法,其特征在于,候选人名模板集Mc,中需要记录每个候选人名模板在种子人名所在查询串集合Qc中匹配的查询串条数,其元素构成式为:<候选模板M,候选模板M在当前查询串集合Qc内匹配的查询串条数>。
5.根据权利要求1和权利要求4所述的基于搜索日志的中文人名自扩展识别方法,其特征在于,对候选模板集合Mc内的模板按照其在Qc中匹配的查询串条数以递减顺序生成排序集合last,同时也按其在Q中匹配的查询串条数按递减顺序生成排序集合now,对任一模板M,定义一个五元组IM,IM=(M, Rank_now, Rank_now_sum, Rank_last, Rank_last_sum),其中Rank_now表示模板M在排序集合now中的排名,Rank_now_sum表示排序集合now中排名的最大序号,Rank_last表示模板M在排序集合last中的排名,Rank_last_sum表示模板在排序集合last中排名的最大序号。
6.根据权利要求1所述的基于搜索日志的中文人名自扩展识别方法,其特征在于,定义一个用于描述模板对人名区分能力高低的概念区分度,来对候选人名模板进行筛选。
7.根据权利要求1和权利要求6所述的基于搜索日志的中文人名自扩展识别方法,其特征在于,区分度的计算方式为:
Figure 2012105399856100001DEST_PATH_IMAGE002A
 。
8.根据权利要求1所述的基于搜索日志的中文人名自扩展识别方法,其特征在于,利用“前向后向关键词匹配方法”对候选人名进行筛选,候选人名串中删除在关键词库中的子串。
9.根据权利要求1和权利要求8所述的基于搜索日志的中文人名自扩展识别方法,其特征在于,关键词库由***分词语料,剔除人名、外文、单字,加入中国省、市、区、县的地名信息而构成。
10.根据权利要求1、权利要求8和权利要求9所述的基于搜索日志的中文人名自扩展识别方法,其特征在于,关键词匹配从前向、后向同时进行,根据语料特点设置最大匹配长度和最小匹配长度。
11.根据权利要求1和权利要求2所述的基于搜索日志的中文人名自扩展识别方法,其特征在于,下一次迭代时利用当前人名集合N更新种子人名集合C,从人名模板集Mc’抽取前n个模板作为下一次迭代的种子模板。
CN201210539985.6A 2012-12-13 2012-12-13 基于搜索日志的中文人名自扩展识别方法 Expired - Fee Related CN103870489B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210539985.6A CN103870489B (zh) 2012-12-13 2012-12-13 基于搜索日志的中文人名自扩展识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210539985.6A CN103870489B (zh) 2012-12-13 2012-12-13 基于搜索日志的中文人名自扩展识别方法

Publications (2)

Publication Number Publication Date
CN103870489A true CN103870489A (zh) 2014-06-18
CN103870489B CN103870489B (zh) 2016-12-21

Family

ID=50909032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210539985.6A Expired - Fee Related CN103870489B (zh) 2012-12-13 2012-12-13 基于搜索日志的中文人名自扩展识别方法

Country Status (1)

Country Link
CN (1) CN103870489B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335351A (zh) * 2015-10-27 2016-02-17 北京信息科技大学 一种基于专利搜索日志用户行为的同义词自动挖掘方法
CN106156056A (zh) * 2015-03-27 2016-11-23 联想(北京)有限公司 一种文本模式学习方法及电子设备
CN108140212A (zh) * 2015-08-14 2018-06-08 电子湾有限公司 用于确定搜索种子的***和方法
CN111859967A (zh) * 2020-06-12 2020-10-30 北京三快在线科技有限公司 实体识别方法、装置,电子设备
CN113158671A (zh) * 2021-03-25 2021-07-23 胡明昊 一种结合命名实体识别的开放域信息抽取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6029123A (en) * 1994-12-13 2000-02-22 Canon Kabushiki Kaisha Natural language processing system and method for expecting natural language information to be processed and for executing the processing based on the expected information
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用
CN102722525A (zh) * 2012-05-15 2012-10-10 北京百度网讯科技有限公司 通讯录人名的语言模型建立方法、语音搜索方法及其***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6029123A (en) * 1994-12-13 2000-02-22 Canon Kabushiki Kaisha Natural language processing system and method for expecting natural language information to be processed and for executing the processing based on the expected information
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用
CN102722525A (zh) * 2012-05-15 2012-10-10 北京百度网讯科技有限公司 通讯录人名的语言模型建立方法、语音搜索方法及其***

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156056A (zh) * 2015-03-27 2016-11-23 联想(北京)有限公司 一种文本模式学习方法及电子设备
CN106156056B (zh) * 2015-03-27 2020-03-06 联想(北京)有限公司 一种文本模式学习方法及电子设备
CN108140212A (zh) * 2015-08-14 2018-06-08 电子湾有限公司 用于确定搜索种子的***和方法
CN108140212B (zh) * 2015-08-14 2022-08-09 电子湾有限公司 用于确定搜索种子的***和方法
CN105335351A (zh) * 2015-10-27 2016-02-17 北京信息科技大学 一种基于专利搜索日志用户行为的同义词自动挖掘方法
CN105335351B (zh) * 2015-10-27 2018-08-28 北京信息科技大学 一种基于专利搜索日志用户行为的同义词自动挖掘方法
CN111859967A (zh) * 2020-06-12 2020-10-30 北京三快在线科技有限公司 实体识别方法、装置,电子设备
CN111859967B (zh) * 2020-06-12 2024-04-09 北京三快在线科技有限公司 实体识别方法、装置,电子设备
CN113158671A (zh) * 2021-03-25 2021-07-23 胡明昊 一种结合命名实体识别的开放域信息抽取方法
CN113158671B (zh) * 2021-03-25 2023-08-11 胡明昊 一种结合命名实体识别的开放域信息抽取方法

Also Published As

Publication number Publication date
CN103870489B (zh) 2016-12-21

Similar Documents

Publication Publication Date Title
JP5092165B2 (ja) データ構築方法とシステム
CN102419778B (zh) 一种挖掘查询语句子话题并聚类的信息搜索方法
CN109086375B (zh) 一种基于词向量增强的短文本主题抽取方法
CN103605665A (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN108829658A (zh) 新词发现的方法及装置
CN102184262A (zh) 基于web的文本分类挖掘***及方法
CN110008474B (zh) 一种关键短语确定方法、装置、设备及存储介质
US10824686B2 (en) System and method for searching based on text blocks and associated search operators
CN101404033A (zh) 本体层级结构的自动生成方法及***
CN103870489A (zh) 基于搜索日志的中文人名自扩展识别方法
CN103838798A (zh) 页面分类***及页面分类方法
CN103778206A (zh) 一种网络服务资源的提供方法
CN105005616A (zh) 基于文本图片特征交互扩充的文本图解方法及***
CN104216979A (zh) 中文工艺专利自动分类***及利用该***进行专利分类的方法
CN103761286A (zh) 一种基于用户兴趣的服务资源检索方法
Machanavajjhala et al. Collective extraction from heterogeneous web lists
CN103377224A (zh) 识别问题类型的方法及装置、建立识别模型的方法及装置
CN103136212A (zh) 一种类别新词的挖掘方法及装置
CN103136221A (zh) 一种生成需求模板的方法、需求识别的方法及其装置
CN112148735A (zh) 一种用于结构化表格数据知识图谱的构建方法
CN111401056A (zh) 一种从多类文本中提取关键词的方法
CN102982063A (zh) 一种基于关系关键词扩展的元组精化的控制方法
CN109871429A (zh) 融合Wikipedia分类及显式语义特征的短文本检索方法
CN115129890A (zh) 回馈数据图谱生成方法、生成设备、问答设备及冰箱
CN113076468A (zh) 一种基于领域预训练的嵌套事件抽取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161221