CN102646096A - 关联词汇搜索***及方法 - Google Patents

关联词汇搜索***及方法 Download PDF

Info

Publication number
CN102646096A
CN102646096A CN2011100407616A CN201110040761A CN102646096A CN 102646096 A CN102646096 A CN 102646096A CN 2011100407616 A CN2011100407616 A CN 2011100407616A CN 201110040761 A CN201110040761 A CN 201110040761A CN 102646096 A CN102646096 A CN 102646096A
Authority
CN
China
Prior art keywords
vocabulary
time
literary composition
word
term set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100407616A
Other languages
English (en)
Inventor
李忠一
叶建发
蔡程丰
卢俊锜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Industry Shenzhen Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Industry Shenzhen Co Ltd
Priority to CN2011100407616A priority Critical patent/CN102646096A/zh
Publication of CN102646096A publication Critical patent/CN102646096A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种关联词汇搜索***及方法,该方法包括步骤:在每个文件上添加一个时间戳记,并将相同时间戳记的文件存储在一个词文矩阵;将每个时间戳记的词文矩阵依时间顺序排列;将指定时间区段内所有的词文矩阵取出并相加得到一个单位时间词文矩阵;计算该单位时间词文矩阵中所有词汇之间的关系强度,得到一个相关词集合;计算所述相关词集合中每个词汇与查询词汇的时间间隔,将时间间隔超过临界值的词汇移除,得到新的相关词集合,该新的相关词集合即为最终检索用的关键词。利用本发明可以准确地扩展出关键词汇的关联词汇。

Description

关联词汇搜索***及方法
技术领域
本发明涉及一种关联词汇搜索***及方法。
背景技术
目前,在文件集中计算词汇与词汇之间的相关程度,进而找出一个词汇的相关词汇时,不外乎利用词汇与词汇在同一句子,或同一篇文章共同出现的次数(共现次数)为基础计算,或者用字典(例如wordnet)查询。
但是,词汇语意是随着时间而有所差异的。例如,当人们用“hadoop”这个词汇在所有的文件集中作相关词汇扩展时,所能找到的相关词汇会有“hadoop-0.18”,“hadoop-0.19”等。不可否认这些词汇的确跟“hadoop”有很大的关联程度,但也许用户更希望知道当下这个时间点的相关词汇,如“hadoop-0.20”。又或者使用者想知道“hadoop”在一年前发展的情况,这时候对使用者而言,会期待找到的相关词汇跟最近一年的所有文件无关,而是以一年前的文件做相关词扩展计算,因此,这时候“hadoop-0.19”会比“hadoop-0.20”更适合做扩展出来的相关词汇。
发明内容
鉴于以上内容,有必要提供一种关联词汇搜索***,其可在搜索词汇的关联词汇时加入时间维度,更准确地扩展出关键词汇的关联词汇。
鉴于以上内容,还有必要提供一种关联词汇搜索方法,其可在搜索词汇的关联词汇时加入时间维度,更准确地扩展出关键词汇的关联词汇。
一种关联词汇搜索***,应用于电子设备中,该***包括:
标记模块,用于在每个文件上添加一个时间戳记,并将相同时间戳记的文件存储在一个词文矩阵;
排序模块,用于将每个时间戳记的词文矩阵依时间顺序排列;
第一计算模块,用于将指定时间区段内所有的词文矩阵取出并相加得到一个单位时间词文矩阵;
第二计算模块,用于计算该单位时间词文矩阵中所有词汇之间的关系强度,得到一个相关词集合;及
第三计算模块,用于计算所述相关词集合中每个词汇与查询词汇的时间间隔,将时间间隔超过临界值的词汇移除,得到新的相关词集合,该新的相关词集合即为最终检索用的关键词。
一种关联词汇搜索方法,运行于电子设备中,该方法包括如下步骤:
在每个文件上添加一个时间戳记,并将相同时间戳记的文件存储在一个词文矩阵;
将每个时间戳记的词文矩阵依时间顺序排列;
将指定时间区段内所有的词文矩阵取出并相加得到一个单位时间词文矩阵;
计算该单位时间词文矩阵中所有词汇之间的关系强度,得到一个相关词集合;及
计算所述相关词集合中每个词汇与查询词汇的时间间隔,将时间间隔超过临界值的词汇移除,得到新的相关词集合,该新的相关词集合即为最终检索用的关键词。
前述方法可以由电子设备(如电脑)执行,其中该电子设备具有附带了图形用户界面(GUI)的显示屏幕、一个或多个处理器、存储器以及保存在存储器中用于执行这些方法的一个或多个模块、程序或指令集。在某些实施例中,该电子设备提供了包括无线通信在内的多种功能。
用于执行前述方法的指令可以包含在被配置成由一个或多个处理器执行的计算机程序产品中。
相较于现有技术,所述的关联词汇搜索***及方法,其可在搜索词汇的关联词汇时加入时间维度,更准确地扩展出关键词汇的关联词汇,提高了使用者使用检索***(如自然语言处理搜索引擎)的效率。
附图说明
图1是本发明电子设备的结构示意图。
图2是关联词汇搜索***的功能模块图。
图3是本发明关联词汇搜索方法的较佳实施例的流程图。
图4是依时间顺序排列的词文矩阵的示意图。
主要元件符号说明
  电子设备  2
  显示设备  20
  输入设备  22
  存储器  23
  关联词汇搜索***  24
  处理器  25
  标记模块  201
  排序模块  202
  第一计算模块  203
  第二计算模块  204
  第三计算模块  205
具体实施方式
如图1所示,是本发明电子设备的结构示意图。在本实施例中,所述电子设备(如服务器)2包括通过数据总线相连的显示设备20、输入设备22、存储器23、关联词汇搜索***24和处理器25。可以理解,在其它实施例中,所述关联词汇搜索***24也可以设置于其它计算装置,如PDA(Personal Digital Assistant,个人数字助理)。
所述关联词汇搜索***24用于在搜索词汇的关联词汇时加入时间维度,从而更准确地扩展出关键词汇的关联词汇,具体过程以下描述。
所述存储器23用于存储所述关联词汇搜索***24的程序代码等资料。所述显示设备20和输入设备22用做电子设备2的输入输出设备。
在本实施例中,所述关联词汇搜索***24可以被分割成一个或多个模块,所述一个或多个模块被存储在所述存储器23中并被配置成由一个或多个处理器(本实施例为一个处理器25)执行,以完成本发明。例如,参阅图2所示,所述关联词汇搜索***24被分割成标记模块201、排序模块202、第一计算模块203、第二计算模块204和第三计算模块205。本发明所称的模块是完成一特定功能的程序段,比程序更适合于描述软件在电子设备2中的执行过程。
如图3所示,是本发明关联词汇搜索方法的较佳实施例的流程图。
步骤S1,标记模块201在每个文件上添加一个时间戳记(TimeStamp),作为搜索关联词汇时的时间维度。在本实施例中,所述时间戳记用于记录文件产生的时间或最近一次修改的时间等。所述文件可以是存储于存储器23中,也可以存储于远端服务器中。
步骤S2,标记模块201将相同时间戳记的文件存储在一个词文矩阵(Term-Document Matrix,词汇-文档矩阵)。
步骤S3,排序模块202将每个时间戳记的词文矩阵依时间顺序排列。参阅图4所示,Mn代表时间n时的词文矩阵,图4中仅以示例的方式存储了三个时间点的词文矩阵。其中,X轴代表时间(Time),Y轴代表文件(Document),Z轴代表词汇(Term)。
步骤S4,第一计算模块203将指定时间区段内所有的词文矩阵取出并相加得到一个单位时间词文矩阵。在本实施例中,所述指定时间区段可以是一个默认的时间区段(如当前时间一年之内),也可以是由用户手动输入的一个时间区段。
步骤S5,第二计算模块204计算该单位时间词文矩阵中所有词汇之间的关系强度,得到一个相关词集合。其中,词汇与词汇之间关系强度的计算方法有多种,举例而言,可以通过SVD(SingularValue Decomposition,奇异值分解)矩阵运算找出文件集的向量空间,并计算出文件集中每个词汇在该项量空间代表的向量,由词汇向量夹角的大小来计算词汇之间的关系强度。假设定义词汇i的向量为Vi,词汇j的向量为Vj,则词汇i与词汇j的关系强度即为词汇向量Vi与词汇向量Vj的夹角的余弦值,其夹角越小或夹角的余弦值越大,则代表词汇i与词汇j的相关性越大。
可以理解,在其它实施例中,也可以采用其它方法计算词汇之间的关系强度。例如,用条件机率模型找出词汇间的关系强度也是可以运用在本发明中。
步骤S6,第三计算模块205计算所述相关词集合中每个词汇与查询词汇的时间间隔,将时间间隔超过临界值的词汇移除,得到新的相关词集合,该新的相关词集合即为最终检索用的关键词。也就是说,即使两个词汇利用词文矩阵计算出来的相关程度很高,但如果这两个词出现的时间区段并没有明显的重迭或时间区段上相临,则在这个时间区段内这两个词依旧不相关。
举例而言,定义变量TermiTime={t1,t2,...,tn}代表词汇Termi在时间t1、t2、...tn有出现过,定义变量Gapi,j代表词汇Termi与词汇Termj的时间间隔。假设有两个词汇,分别为A、B,TermATime={1,2,3},代表词汇A在1/2/3这三个时间点出现在文库集里,TermBTime={10,11,12}代表词汇B在10/11/12这三个时间点出现在文库集里,则GapA,B=min(|1-10|,|2-10|,|3-10|,|1-11|,|2-11|,|3-11|,|1-12|,|2-12|,|3-12|)=min(9,8,7,10,9,8,11,10,9)=7。由此可知,词汇A和词汇B相距的时间间隔为7。
假设临界值(threshold)为5,由于GapA,B>5,因此,即便是经过计算后词汇A和词汇B相关程度很高(这很可能发生在词汇A常与词汇C同时出现,且词汇C常与词汇B同时出现,但词汇A与词汇B没有同时出现过),本发明仍会认为,由于词汇A与词汇B的时间间隔超过临界值,因此词汇A与词汇B并不相关。需要说明的是:本实施例中指的词汇是指滤除掉常用词汇后的词汇。例如,关联词汇搜索***24不会因为“影像编码”和“本发明”常同时出现,而“本发明”与“蚀刻技术”常同时出现,便认为“影像编码”和“蚀刻技术”相关,因为“本发明”是一个常用词汇。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种关联词汇搜索***,应用于电子设备中,其特征在于,该***包括:
标记模块,用于在每个文件上添加一个时间戳记,并将相同时间戳记的文件存储在一个词文矩阵;
排序模块,用于将每个时间戳记的词文矩阵依时间顺序排列;
第一计算模块,用于将指定时间区段内所有的词文矩阵取出并相加得到一个单位时间词文矩阵;
第二计算模块,用于计算该单位时间词文矩阵中所有词汇之间的关系强度,得到一个相关词集合;及
第三计算模块,用于计算所述相关词集合中每个词汇与查询词汇的时间间隔,将时间间隔超过临界值的词汇移除,得到新的相关词集合,该新的相关词集合即为最终检索用的关键词。
2.如权利要求1所述的关联词汇搜索***,其特征在于,所述时间戳记用于记录文件产生的时间或最近一次修改的时间。
3.如权利要求1所述的关联词汇搜索***,其特征在于,所述指定时间区段为默认的一个时间区段或手动输入的一个时间区段。
4.如权利要求1所述的关联词汇搜索***,其特征在于,所述第二计算模块根据词汇向量夹角的大小计算词汇之间的关系强度。
5.如权利要求4所述的关联词汇搜索***,其特征在于,所述关系强度是指词汇向量夹角的余弦值。
6.一种关联词汇搜索方法,运行于电子设备中,其特征在于,该方法包括如下步骤:
在每个文件上添加一个时间戳记,并将相同时间戳记的文件存储在一个词文矩阵;
将每个时间戳记的词文矩阵依时间顺序排列;
将指定时间区段内所有的词文矩阵取出并相加得到一个单位时间词文矩阵;
计算该单位时间词文矩阵中所有词汇之间的关系强度,得到一个相关词集合;及
计算所述相关词集合中每个词汇与查询词汇的时间间隔,将时间间隔超过临界值的词汇移除,得到新的相关词集合,该新的相关词集合即为最终检索用的关键词。
7.如权利要求6所述的关联词汇搜索方法,其特征在于,所述时间戳记用于记录文件产生的时间或最近一次修改的时间。
8.如权利要求6所述的关联词汇搜索方法,其特征在于,所述指定时间区段为默认的一个时间区段或手动输入的一个时间区段。
9.如权利要求6所述的关联词汇搜索方法,其特征在于,所述词汇之间的关系强度根据词汇向量夹角的大小计算得出。
10.如权利要求9所述的关联词汇搜索方法,其特征在于,所述关系强度是指词汇向量夹角的余弦值。
CN2011100407616A 2011-02-18 2011-02-18 关联词汇搜索***及方法 Pending CN102646096A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100407616A CN102646096A (zh) 2011-02-18 2011-02-18 关联词汇搜索***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100407616A CN102646096A (zh) 2011-02-18 2011-02-18 关联词汇搜索***及方法

Publications (1)

Publication Number Publication Date
CN102646096A true CN102646096A (zh) 2012-08-22

Family

ID=46658919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100407616A Pending CN102646096A (zh) 2011-02-18 2011-02-18 关联词汇搜索***及方法

Country Status (1)

Country Link
CN (1) CN102646096A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015043070A1 (zh) * 2013-09-29 2015-04-02 北大方正集团有限公司 一种知识点隐性关系获取方法及其***
CN108416019A (zh) * 2018-03-06 2018-08-17 王海泉 关联词调整方法及调整***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040250277A1 (en) * 1998-11-23 2004-12-09 Opentv, Inc. Dynamic event information table schedule window
CN101281523A (zh) * 2007-04-25 2008-10-08 北大方正集团有限公司 查询扩展方法和装置以及相关检索词库
CN101714145A (zh) * 2008-10-07 2010-05-26 英业达股份有限公司 一种网站新闻分析***及其方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040250277A1 (en) * 1998-11-23 2004-12-09 Opentv, Inc. Dynamic event information table schedule window
CN101281523A (zh) * 2007-04-25 2008-10-08 北大方正集团有限公司 查询扩展方法和装置以及相关检索词库
CN101714145A (zh) * 2008-10-07 2010-05-26 英业达股份有限公司 一种网站新闻分析***及其方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015043070A1 (zh) * 2013-09-29 2015-04-02 北大方正集团有限公司 一种知识点隐性关系获取方法及其***
US10210281B2 (en) 2013-09-29 2019-02-19 Peking University Founder Group Co., Ltd. Method and system for obtaining knowledge point implicit relationship
CN108416019A (zh) * 2018-03-06 2018-08-17 王海泉 关联词调整方法及调整***

Similar Documents

Publication Publication Date Title
US8959043B2 (en) Fact checking using and aiding probabilistic question answering
US9400835B2 (en) Weighting metric for visual search of entity-relationship databases
CN110909550B (zh) 文本处理方法、装置、电子设备和可读存储介质
CN110738049B (zh) 相似文本的处理方法、装置及计算机可读存储介质
US9514113B1 (en) Methods for automatic footnote generation
US10783127B2 (en) Componentized data storage
CN110162637B (zh) 信息图谱构建方法、装置及设备
CN110704608A (zh) 文本主题生成方法、装置和计算机设备
CN114861889A (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN102999495B (zh) 一种同义词语义映射关系确定方法及装置
CN102567364A (zh) 文件搜索***及方法
CN102622363A (zh) 关联词汇搜索***及方法
US10191786B2 (en) Application program interface mashup generation
CN102646096A (zh) 关联词汇搜索***及方法
CN103294684A (zh) 关联词汇搜索***及方法
CN110738048B (zh) 一种关键词提取方法、装置及终端设备
CN105843849B (zh) 搜索方法及装置
CN114818736B (zh) 文本处理方法、用于短文本的链指方法、装置及存储介质
CN110020214B (zh) 一种融合知识的社交网络流式事件检测***
CN104142947A (zh) 文件分类***及方法
EP2469426A1 (en) Control computer and file search method using the same
CN110308931B (zh) 一种数据处理方法及相关装置
CN113792232A (zh) 页面特征计算方法、装置、电子设备、介质及程序产品
CN114218431A (zh) 视频搜索方法、装置、电子设备以及存储介质
CN113822039A (zh) 近义词挖掘方法及相关设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120822