CN102622363A - 关联词汇搜索***及方法 - Google Patents
关联词汇搜索***及方法 Download PDFInfo
- Publication number
- CN102622363A CN102622363A CN2011100310945A CN201110031094A CN102622363A CN 102622363 A CN102622363 A CN 102622363A CN 2011100310945 A CN2011100310945 A CN 2011100310945A CN 201110031094 A CN201110031094 A CN 201110031094A CN 102622363 A CN102622363 A CN 102622363A
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- indirect
- relation intensity
- strength ratio
- relationship strength
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种关联词汇搜索***及方法,该方法包括步骤:计算词汇与词汇之间的直接关系强度;计算词汇与词汇之间的关系强度比例;根据词汇与词汇之间的直接关系强度及关系强度比例,计算词汇与词汇之间的间接关系强度;根据词汇与词汇之间的间接关系强度,确定间接关联词汇。利用本发明可以获取词汇的间接关联词汇。
Description
技术领域
本发明涉及一种关联词汇搜索***及方法。
背景技术
在自然语言处理(Natural Language Processing,NLP)技术中,搜寻词汇与词汇之间的关系强度是相当重要的方面。通过词汇与词汇之间的关系强度,传统的自然语言处理技术可以获取一个词汇的关联词汇,并通过这些关联词汇延伸扩展出该词汇的相关词汇。
但是,传统的自然语言处理技术中只是通过词汇与词汇之间的直接关系强度,获取一个词汇的直接关联词汇(如近义词和同义词等),却不能获取与该词汇有间接关系的词汇。例如,对于词汇“棒球”而言,假设词汇“棒球”与词汇“运动”存在直接关系,而词汇“运动”又与词汇“篮球”存在直接关系,传统的自然语言处理技术只能找到与词汇“棒球”有直接关联的词汇,如“运动”等,而对于与“棒球”有间接关系的词汇,如“篮球”等,却无法获取。
发明内容
鉴于以上内容,有必要提供一种关联词汇搜索***,其可获取词汇的间接关联词汇,从而在词汇与词汇之间的直接关系中找出间接的、隐性的关系,用以加强辅佐词汇与词汇之间的直接关系。
鉴于以上内容,还有必要提供一种关联词汇搜索方法,其可获取词汇的间接关联词汇,从而在词汇与词汇之间的直接关系中找出间接的、隐性的关系,用以加强辅佐词汇与词汇之间的直接关系。
一种关联词汇搜索***,应用于电子设备中,该***包括:
第一计算模块,用于计算词汇与词汇之间的直接关系强度Ri,j,得到一个直接关系强度矩阵R;
第二计算模块,用于计算词汇与词汇之间的关系强度比例Pi,j,得到一个关系强度比例矩阵P;
第三计算模块,用于根据词汇与词汇之间的直接关系强度Ri,j及关系强度比例Pi,j,计算词汇与词汇之间的间接关系强度R′i,j;及
关联词汇确定模块,用于根据词汇与词汇之间的间接关系强度,确定间接关联词汇。
一种关联词汇搜索方法,运行于电子设备中,该方法包括如下步骤:
计算词汇与词汇之间的直接关系强度Ri,j,得到一个直接关系强度矩阵R;
计算词汇与词汇之间的关系强度比例Pi,j,得到一个关系强度比例矩阵P;
根据词汇与词汇之间的直接关系强度Ri,j及关系强度比例Pi,j,计算词汇与词汇之间的间接关系强度R′i,j;及
根据词汇与词汇之间的间接关系强度,确定间接关联词汇。
前述方法可以由电子设备(如电脑)执行,其中该电子设备具有附带了图形用户界面(GUI)的显示屏幕、一个或多个处理器、存储器以及保存在存储器中用于执行这些方法的一个或多个模块、程序或指令集。在某些实施例中,该电子设备提供了包括无线通信在内的多种功能。
用于执行前述方法的指令可以包含在被配置成由一个或多个处理器执行的计算机程序产品中。
相较于现有技术,所述的关联词汇搜索***及方法,其可获取词汇的间接关联词汇,从而在词汇与词汇之间的直接关系中找出间接的、隐性的关系,用以加强辅佐词汇与词汇之间的直接关系,提高了使用者使用检索***(如自然语言处理搜索引擎)的效率。
附图说明
图1是本发明电子设备的结构示意图。
图2是关联词汇搜索***的功能模块图。
图3是本发明关联词汇搜索方法的较佳实施例的流程图。
图4是本发明直接关系强度示意图。
图5是图4所述直接关系强度示意图对应的矩阵。
图6和图7是可转移的关系强度比例矩阵示意图。
图8是本发明间接关系强度示意图。
图9是本发明间接关系强度矩阵示意图。
主要元件符号说明
电子设备 | 2 |
显示设备 | 20 |
输入设备 | 22 |
存储器 | 23 |
关联词汇搜索*** | 24 |
处理器 | 25 |
第一计算模块 | 201 |
第二计算模块 | 202 |
第三计算模块 | 203 |
关联词汇确定模块 | 204 |
具体实施方式
如图1所示,是本发明电子设备的结构示意图。在本实施例中,所述电子设备(如服务器)2包括通过数据总线相连的显示设备20、输入设备22、存储器23、关联词汇搜索***24和处理器25。可以理解,在其它实施例中,所述关联词汇搜索***24也可以设置于其它计算装置,如PDA(Personal Digital Assistant,个人数字助理)。
所述关联词汇搜索***24用于获取词汇的间接关联词汇,从而在词汇与词汇之间的直接关系中找出间接的、隐性的关系,具体过程以下描述。
所述存储器23用于存储所述关联词汇搜索***24的程序代码等资料。所述显示设备20和输入设备22用做电子设备2的输入输出设备。
在本实施例中,所述关联词汇搜索***24可以被分割成一个或多个模块,所述一个或多个模块被存储在所述存储器23中并被配置成由一个或多个处理器(本实施例为一个处理器25)执行,以完成本发明。例如,参阅图2所示,所述关联词汇搜索***24被分割成第一计算模块201、第二计算模块202、第三计算模块203和关联词汇确定模块204。本发明所称的模块是完成一特定功能的程序段,比程序更适合于描述软件在电子设备2中的执行过程。
如图3所示,是本发明关联词汇搜索方法的较佳实施例的流程图。
步骤S1,第一计算模块201计算词汇与词汇之间的直接关系强度Ri,j,得到一个直接关系强度图(参阅图4所示)。其中,所述词汇存储于存储器23中。可以理解,词汇与词汇之间的直接关系强度与词汇的排列顺序有关。例如,参阅图4所示,词汇“Term1”与词汇“Term2”的直接关系强度为2,而词汇“Term2”与词汇“Tem1”的直接关系强度为1。
在其它实施例中,所述直接关系强度图可以矩阵R表示(参阅图5所示,以下称为“直接关系强度矩阵R”)。参阅图5所示,Ri,j表示词汇“Termi”与词汇“Termj”的直接关系强度(Relation(termi,termj))。
步骤S2,第二计算模块202计算词汇与词汇之间的关系强度比例Pi,j,得到一个可转移的关系强度比例矩阵P(或简称为“关系强度比例矩阵P”)。
在第一实施例中,所述第二计算模块202通过计算词汇与词汇之间的条件机率,以获取词汇与词汇之间的关系强度比例Pi,j。参阅图6所示,矩阵P中的每个元素Pi,j表示词汇与词汇之间的条件机率P((Termi∩Termj)|Termi),Pi,i表示词汇Termi单独出现的机率。举例而言,假设词汇A出现次数为100次,当词汇A出现时词汇B出现30次,则条件机率P(A∩B)|A)=0.3,或称之词汇A可转移至词汇B的关系强度比例为30%。
在其它实施例中,第二计算模块202也可以通过其他方法来获取词汇与词汇之间的关系强度比例Pi,j,得到一个可转移的关系强度比例矩阵P′(参阅图7所示)。举例而言,假设词汇A与词汇B的直接关系强度为100,而词汇B除了与词汇A有关系以外,还跟词汇C有直接关系强度300,与其它词汇无关系(A→B→C)。因此,所有跟词汇B有关的词汇关系强度总和为400,其中词汇A占100,词汇C占300。由此可知,词汇B与词汇C的关系强度比例为0.75(或称词汇B可转移至词汇C的关系强度比例为0.75)。进一步地,可用此方法推知词汇A与词汇C的间接关系强度为100*0.75=75。根据该方法,可以得到图7所示的词汇与词汇之间的关系强度比例。
步骤S3,第三计算模块203根据词汇与词汇之间的直接关系强度Ri,j及关系强度比例Pi,j,计算出词汇与词汇之间的间接关系强度R′i,j。计算公式如下:
其中,n为词汇的数量(即图4中的节点数),以图4为例来说,n=7,词汇Tem1与其它词汇的间接关系强度参阅图8所示,所有词汇之间的间接关系强度参阅图9所示。
步骤S4,关联词汇确定模块204根据词汇与词汇之间的间接关系强度,确定间接关联词汇。在本实施例中,关联词汇确定模块204选取间接关系强度大于或等于预设值(如1.0)的词汇作为一个词汇的间接关联词汇。举例而言,参阅图9所示,依据间接关系强度由大到小的顺序,词汇Tem1的间接关联词汇有:Term7、Term4、Term3、Term5。
在本实施例中,只说明挖掘第二层的间接关系(即隐性关系),例如,根据A→B→C,可推知A→C。实际上,在其它实施例中,该方法可以应用到更多层次的间接关系挖掘,例如词汇A与词汇B有关联,词汇B与词汇C常一起出现,词汇C与词汇D常一起出现,则可推知词汇A与词汇D也有间接关联,即根据A→B→C→D,可推知A→D。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种关联词汇搜索***,应用于电子设备中,其特征在于,该***包括:
第一计算模块,用于计算词汇与词汇之间的直接关系强度Ri,j,得到一个直接关系强度矩阵R;
第二计算模块,用于计算词汇与词汇之间的关系强度比例Pi,j,得到一个关系强度比例矩阵P;
第三计算模块,用于根据词汇与词汇之间的直接关系强度Ri,j及关系强度比例Pi,j,计算词汇与词汇之间的间接关系强度R′i,j;及
关联词汇确定模块,用于根据词汇与词汇之间的间接关系强度,确定间接关联词汇。
2.如权利要求1所述的关联词汇搜索***,其特征在于,所述第二计算模块通过计算词汇与词汇之间的条件机率,以获取词汇与词汇之间的关系强度比例Pi,j。
4.如权利要求1所述的关联词汇搜索***,其特征在于,所述关联词汇确定模块选取间接关系强度大于或等于预设值的词汇作为一个词汇的间接关联词汇。
5.如权利要求4所述的关联词汇搜索***,其特征在于,所述预设值为1.0。
6.一种关联词汇搜索方法,运行于电子设备中,其特征在于,该方法包括如下步骤:
计算词汇与词汇之间的直接关系强度Ri,j,得到一个直接关系强度矩阵R;
计算词汇与词汇之间的关系强度比例Pi,j,得到一个关系强度比例矩阵P;
根据词汇与词汇之间的直接关系强度Ri,j及关系强度比例Pi,j,计算词汇与词汇之间的间接关系强度R′i,j;及
根据词汇与词汇之间的间接关系强度,确定间接关联词汇。
7.如权利要求6所述的关联词汇搜索方法,其特征在于,所述词汇与词汇之间的关系强度比例Pi,j通过计算词汇与词汇之间的条件机率获取。
9.如权利要求6所述的关联词汇搜索方法,其特征在于,所述根据词汇与词汇之间的间接关系强度,确定间接关联词汇的步骤包括:选取间接关系强度大于或等于预设值的词汇作为一个词汇的间接关联词汇。
10.如权利要求9所述的关联词汇搜索方法,其特征在于,所述预设值为1.0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100310945A CN102622363A (zh) | 2011-01-28 | 2011-01-28 | 关联词汇搜索***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100310945A CN102622363A (zh) | 2011-01-28 | 2011-01-28 | 关联词汇搜索***及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102622363A true CN102622363A (zh) | 2012-08-01 |
Family
ID=46562286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011100310945A Pending CN102622363A (zh) | 2011-01-28 | 2011-01-28 | 关联词汇搜索***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102622363A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104216933A (zh) * | 2013-09-29 | 2014-12-17 | 北大方正集团有限公司 | 一种知识点隐性关系获取方法及其*** |
CN104216932A (zh) * | 2013-09-29 | 2014-12-17 | 北大方正集团有限公司 | 一种知识点关系强度的度量方法及其*** |
CN104516904A (zh) * | 2013-09-29 | 2015-04-15 | 北大方正集团有限公司 | 一种关键知识点推荐方法及其*** |
CN105335374A (zh) * | 2014-06-19 | 2016-02-17 | 北大方正集团有限公司 | 知识点关联方法及装置、及包含该装置的服务器和客户端 |
CN105373546A (zh) * | 2014-08-25 | 2016-03-02 | 北大方正集团有限公司 | 一种用于知识服务的信息处理方法及*** |
CN107943935A (zh) * | 2017-11-23 | 2018-04-20 | 北京天广汇通科技有限公司 | 数据的处理方法、装置和计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1845105A (zh) * | 2006-05-22 | 2006-10-11 | 赵开灏 | 基于三元模型的信息检索加工的方法 |
JP2008305078A (ja) * | 2007-06-06 | 2008-12-18 | Mitsubishi Electric Corp | 関連語抽出支援装置および関連語抽出支援プログラム |
CN101334783A (zh) * | 2008-05-20 | 2008-12-31 | 上海大学 | 基于语义矩阵的网络用户行为个性化的表达方法 |
US20090063959A1 (en) * | 2007-08-20 | 2009-03-05 | Zoran Stejic | Document creation support system |
-
2011
- 2011-01-28 CN CN2011100310945A patent/CN102622363A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1845105A (zh) * | 2006-05-22 | 2006-10-11 | 赵开灏 | 基于三元模型的信息检索加工的方法 |
JP2008305078A (ja) * | 2007-06-06 | 2008-12-18 | Mitsubishi Electric Corp | 関連語抽出支援装置および関連語抽出支援プログラム |
US20090063959A1 (en) * | 2007-08-20 | 2009-03-05 | Zoran Stejic | Document creation support system |
CN101334783A (zh) * | 2008-05-20 | 2008-12-31 | 上海大学 | 基于语义矩阵的网络用户行为个性化的表达方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104516904B (zh) * | 2013-09-29 | 2018-04-03 | 北大方正集团有限公司 | 一种关键知识点推荐方法及其*** |
CN104216932B (zh) * | 2013-09-29 | 2017-11-07 | 北大方正集团有限公司 | 一种知识点关系强度的度量方法及其*** |
WO2015043068A1 (zh) * | 2013-09-29 | 2015-04-02 | 北大方正集团有限公司 | 一种知识点关系强度的度量方法及其*** |
WO2015043070A1 (zh) * | 2013-09-29 | 2015-04-02 | 北大方正集团有限公司 | 一种知识点隐性关系获取方法及其*** |
CN104516904A (zh) * | 2013-09-29 | 2015-04-15 | 北大方正集团有限公司 | 一种关键知识点推荐方法及其*** |
US10210281B2 (en) | 2013-09-29 | 2019-02-19 | Peking University Founder Group Co., Ltd. | Method and system for obtaining knowledge point implicit relationship |
CN104216932A (zh) * | 2013-09-29 | 2014-12-17 | 北大方正集团有限公司 | 一种知识点关系强度的度量方法及其*** |
JP2016538611A (ja) * | 2013-09-29 | 2016-12-08 | ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド | ナレッジポイント関係強度を測定する方法及びシステム |
CN104216933A (zh) * | 2013-09-29 | 2014-12-17 | 北大方正集团有限公司 | 一种知识点隐性关系获取方法及其*** |
CN105335374A (zh) * | 2014-06-19 | 2016-02-17 | 北大方正集团有限公司 | 知识点关联方法及装置、及包含该装置的服务器和客户端 |
CN105373546A (zh) * | 2014-08-25 | 2016-03-02 | 北大方正集团有限公司 | 一种用于知识服务的信息处理方法及*** |
CN105373546B (zh) * | 2014-08-25 | 2019-03-29 | 北大方正集团有限公司 | 一种用于知识服务的信息处理方法及*** |
CN107943935A (zh) * | 2017-11-23 | 2018-04-20 | 北京天广汇通科技有限公司 | 数据的处理方法、装置和计算机可读存储介质 |
CN107943935B (zh) * | 2017-11-23 | 2021-02-02 | 北京天广汇通科技有限公司 | 数据的处理方法、装置和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102622363A (zh) | 关联词汇搜索***及方法 | |
EP3846069A1 (en) | Pre-training method for sentiment analysis model, and electronic device | |
CN112507099A (zh) | 对话理解模型的训练方法、装置、设备和存储介质 | |
CN104008166A (zh) | 一种基于形态和语义相似度的对话短文本聚类方法 | |
CN105677857B (zh) | 一种关键词与营销落地页的精准匹配方法和装置 | |
CN103077160B (zh) | 电子文档批注方法、访问电子文档批注的方法及装置 | |
CN102591880A (zh) | 信息提供方法及装置 | |
CN102646103A (zh) | 检索词的聚类方法和装置 | |
CN111090991B (zh) | 场景纠错方法、装置、电子设备和存储介质 | |
CN103309893A (zh) | 一种字符串的比较方法及装置 | |
CN108255602A (zh) | 任务组合方法及终端设备 | |
CN112818387B (zh) | 模型参数调整的方法、设备、存储介质及程序产品 | |
CN101201833A (zh) | Pdf文档数据填充***及方法 | |
CN111309872B (zh) | 搜索处理方法、装置及设备 | |
CN103577547B (zh) | 网页类型识别方法及装置 | |
CN113988157A (zh) | 语义检索网络训练方法、装置、电子设备及存储介质 | |
CN102999495B (zh) | 一种同义词语义映射关系确定方法及装置 | |
CN108388556A (zh) | 同类实体的挖掘方法及*** | |
CN108228557B (zh) | 一种序列标注的方法及装置 | |
CN103294684A (zh) | 关联词汇搜索***及方法 | |
CN105677664A (zh) | 基于网络搜索的紧密度确定方法及装置 | |
CN104317416A (zh) | 一种输入的方法和装置 | |
CN113204614A (zh) | 模型训练方法、优化训练数据集的方法及其装置 | |
CN106339105A (zh) | 用于识别拼音信息的方法及装置 | |
TW201506841A (zh) | 衰退型多元流動網路之可靠度的計算系統及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120801 |