CN106126588B - 提供相关词的方法和装置 - Google Patents

提供相关词的方法和装置 Download PDF

Info

Publication number
CN106126588B
CN106126588B CN201610445489.2A CN201610445489A CN106126588B CN 106126588 B CN106126588 B CN 106126588B CN 201610445489 A CN201610445489 A CN 201610445489A CN 106126588 B CN106126588 B CN 106126588B
Authority
CN
China
Prior art keywords
related term
word
word set
keyword
tested
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610445489.2A
Other languages
English (en)
Other versions
CN106126588A (zh
Inventor
李贤�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN201610445489.2A priority Critical patent/CN106126588B/zh
Publication of CN106126588A publication Critical patent/CN106126588A/zh
Priority to PCT/CN2016/113175 priority patent/WO2017215244A1/zh
Application granted granted Critical
Publication of CN106126588B publication Critical patent/CN106126588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种提供相关词的方法,包括:以用户输入的关键词作为输入词,从词条数据库中获取所述关键词的下位相关词集,以及确定所述下位相关词集中的每一个下位相关词与所述关键词的相关度;根据所述关键词的下位相关词集,从词条数据库中获取所述关键词的上位相关词集,以及确定所述上位相关词集中的每一个上位相关词与所述关键词的相关度;将所述关键词的下位相关词集和上位相关词集的并集作为所述关键词的输出相关词集,并依据所述输出相关词集中的每一个输出相关词的相关度,在所述输出相关词集中选择提供给所述用户的相关词。相应地,本发明还公开了一种提供相关词的装置。采用本发明实施例,能够提供数量更多且更准确的相关词。

Description

提供相关词的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种提供相关词的方法和装置。
背景技术
目前,购物网站以及搜索引擎服务网站都提供的关键词搜索的功能,即用户输入想要搜索的商品或技术的关键词,服务器则根据该关键词搜索出相应的结果并返回给用户。服务器为了提供准确的搜索结果,服务器一般会对关键词进行扩展,即根据用户输入的关键词,查找出关键词对应的相关词,并提供查找到的相关词给用户,在用户通过关键词搜索而未能得到满意的搜索结果时,就根据相关词进行搜索。但现有的相关词扩展是通过已有词典进行扩展,例如WordNet、《同义词林》,而这种方式所获得的相关词在数量上相当有限,而且所获得的相关词有可能跟不上语言的发展变化,不能满足相关词对时效性的要求。
发明内容
本发明实施例提出一种提供相关词的方法和装置,能够提供数量更多且更准确的相关词。
本发明实施例提出的一种提供相关词的方法,包括:
以用户输入的关键词作为输入词,从词条数据库中获取所述关键词的下位相关词集,以及确定所述下位相关词集中的每一个下位相关词与所述关键词的相关度;
根据所述关键词的下位相关词集,从词条数据库中获取所述关键词的上位相关词集,以及确定所述上位相关词集中的每一个上位相关词与所述关键词的相关度;
将所述关键词的下位相关词集和上位相关词集的并集作为所述关键词的输出相关词集,并依据所述输出相关词集中的每一个输出相关词的相关度,在所述输出相关词集中选择提供给所述用户的相关词。
作为本发明实施例的进一步改进,所述根据所述关键词的下位相关词集,从词条数据库中获取所述关键词的上位相关词集,以及确定所述上位相关词集中的每一个上位相关词与所述关键词的相关度,具体为:
针对所述下位相关词集中的每一个下位相关词,以该下位相关词来更新输入词,从词条数据库中获取更新后的输入词的下位相关词集;
判断下位相关词集的总数量是否大于预设阈值;
若是,则从下位相关词集中筛选出包含所述关键词的下位相关词集,并将所述包含所述关键词的下位相关词集对应的输入词作为上位相关词,获得所述关键词的上位相关词集;其中,在所述包含所述关键词的下位相关词集中的所述关键词与该下位相关词集对应的输入词的相关度,作为该输入词在作为上位相关词时与所述关键词的相关度;
若否,则继续执行以下操作:针对更新后的输入词的下位相关词集中的每一个下位相关词,以该下位相关词再次更新输入词,从词条数据库中获取再次更新后的输入词的下位相关词集,直至下位相关词集的总数量大于预设阈值。
进一步地,上述从词条数据库中获取下位相关词集的方式具体包括:
根据所述输入词,从词条数据库中获取包含所述输入词的词条,并对所述词条进行分词和筛选,获得待验相关词集;
对于所述待验相关词集中的每一个待验相关词,根据所述待验相关词,从所述词条数据库中获取包含所述待验相关词的词条,并对所述待验相关词的词条进行分词和筛选,获得所述待验相关词的对照词集;
当判定所述待验相关词的对照词集与所述待验相关词集的交集的绝对值大于筛选阈值时,所述待验相关词为所述输入词的下位相关词,获得下位相关词集;其中,所述绝对值作为所述下位相关词与所述关键词的相关度。
作为本发明的进一步改进,所述根据所述输入词,从词条数据库中获取包含所述输入词的词条,并对所述词条进行分词和筛选,获得待验相关词集,具体包括:
根据所述输入词,从词条数据库中获取包含所述输入词且排序在第M位前的词条;
根据标准词条格式,对获取的词条进行格式调整;
调用分词工具;
利用所述分词工具对格式调整后的词条进行分词,获得第一词语集;
从所述第一词语集中提取属于用户词典中的核心词的词语作为待验相关词,获得待验相关词集;其中,所述用户词典是由所述分词工具提供的;
以及,所述根据所述待验相关词,从所述词条数据库中获取包含所述待验相关词的词条,并对所述待验相关词的词条进行分词和筛选,获得所述待验相关词的对照词集,具体包括:
根据所述待验相关词,从词条数据库中获取包含所述待验相关词且排序在第M位前的词条;
根据所述标准词条格式,对所述包含所述待验相关词且排序在第M位前的词条进行格式调整;
调用所述分词工具;
利用所述分词工具对格式调整后的包含所述待验相关词且排序在第M位前的词条进行分词,获得第二词语集;
从所述第二词语集中提取属于用户词典中的核心词的词语作为对照词,获得对照词集。
具体地,所述关键词的下位相关词集和所述上位相关词集的交集包含在所述关键词的输出相关词集中,则包含在所述交集中的每一个输出相关词的相关度为T,T=(T1+T2)/2;其中,T1为在该输出相关词作为下位相关词时与所述关键词的相关度,T2作为在该输出相关词作为上位相关词时与所述关键词的相关度。
作为本发明的进一步改,所述获取方法还包括:
将所述关键词的下位相关词集中的每一个下位相关词与所述关键词的相关度均减去所述筛选阈值;
将所述关键词的上位相关词集中的每一个上位相关词与所述关键词的相关度均减去所述筛选阈值,完成相关度的归一化。
相应地,本发明实施还提供一种提供相关词的装置,包括:
下位相关词集模块,用于以用户输入的关键词作为输入词,从词条数据库中获取所述关键词的下位相关词集,以及确定所述下位相关词集中的每一个下位相关词与所述关键词的相关度;
上位相关词集模块,用于根据所述关键词的下位相关词集,从词条数据库中获取所述关键词的上位相关词集,以及确定所述上位相关词集中的每一个上位相关词与所述关键词的相关度;
输出相关词集模块,用于将所述关键词的下位相关词集和上位相关词集的并集作为所述关键词的输出相关词集,并依据所述输出相关词集中的每一个输出相关词的相关度,在所述输出相关词集中选择提供给所述用户的相关词。
作为本发明实施例的进一步改进,所述上位相关词集模块具体包括:下位词集获取单元、阈值判断单元和上位词集获取单元,其中,
所述下位词集获取单元,用于针对所述下位相关词集中的每一个下位相关词,以该下位相关词来更新输入词,从词条数据库中获取更新后的输入词的下位相关词集;
所述阈值判断单元,用于判断下位相关词集的总数量是否大于预设阈值;
所述上位词集获取单元,用于当判断下位相关词集的总数量大于预设阈值时,从下位相关词集中筛选出包含所述关键词的下位相关词集,并将所述包含所述关键词的下位相关词集对应的输入词作为上位相关词,获得所述关键词的上位相关词集;其中,在所述包含所述关键词的下位相关词集中的所述关键词与该下位相关词集对应的输入词的相关度,作为该输入词在作为上位相关词时与所述关键词的相关度;
所述下位词获取单元,还用于当判断下位相关词集的总数量小于预设阈值时,继续执行以下操作:针对更新后的输入词的下位相关词集中的每一个下位相关词,以该下位相关词再次更新输入词,从词条数据库中获取再次更新后的输入词的下位相关词集,直至下位相关词集的总数量大于预设阈值。
进一步地,所述下位相关词集模块和所述下位词集获取单元还包括用于从词条数据库中获取下位相关词集的单元,具体为:
待验相关词集单元,用于根据所述输入词,从词条数据库中获取包含所述输入词的词条,并对所述词条进行分词和筛选,获得待验相关词集;
对照词集单元,用于对于所述待验相关词集中的每一个待验相关词,根据所述待验相关词,从所述词条数据库中获取包含所述待验相关词的词条,并对所述待验相关词的词条进行分词和筛选,获得所述待验相关词的对照词集;和
判断获取单元,用于当判定所述待验相关词的对照词集与所述待验相关词集的交集的绝对值大于筛选阈值时,所述待验相关词为所述输入词的下位相关词,获得下位相关词集;其中,所述绝对值作为所述下位相关词与所述关键词的相关度。
进一步地,所述待验相关词集单元,具体包括:
第一词条子单元,用于根据所述输入词,从词条数据库中获取包含所述输入词且排序在第M位前的词条;
第一调整子单元,用于根据标准词条格式,对获取的词条进行格式调整;
第一调用子单元,用于调用分词工具;
第一分词子单元,用于利用所述分词工具对格式调整后的词条进行分词,获得第一词语集;和,
第一提取子单元,用于从所述第一词语集中提取属于用户词中的核心词的词语作为待验相关词,获得待验相关词集;其中,所述用户词典是由所述分词工具提供的;
以及,所述对照词集单元具体包括:
第二词条子单元,用于根据所述待验相关词,从词条数据库中获取包含所述待验相关词且排序在第M位前的词条;
第二调整子单元,用于根据所述标准词条格式,对所述包含所述待验相关词且排序在第M位前的词条进行格式调整;
第二调用子单元,用于调用所述分词工具;
第二分词子单元,用于利用所述分词工具对格式调整后的包含所述待验相关词且排序在第M位前的词条进行分词,获得第二词语集;和,
第二提取子单元,用于根据从所述第二词语集中提取属于用户词典中的核心词的词语作为对照词,获得对照词集。
进一步地,所述提供相关词的装置还包括归一化模块:
所述归一化模块,用于将所述关键词的下位相关词集中的每一个下位相关词与所述关键词的相关度均减去所述筛选阈值;以及用于将所述关键词的上位相关词集中的每一个上位相关词与所述关键词的相关度均减去所述筛选阈值,完成相关度的归一化。
实施本发明实施例,具有如下有益效果:
本发明实施例提供的提供相关词的方法和装置,通过用户提供的关键词从词条数据库中获取所述关键词的下位相关词集,然后再根据该下位相关词集,求取出关键词的上位相关词集,最后该下位相关词集和该上位相关词集的并集作为所述关键词的输出相关词集,能扩展出大量的相关词提供给用户选择,另外,通过确定相关词的相关度,能准确地描述为相关词与关键词之间的相关程度,后续可依据相关词的相关度选择提供给所述用户的相关词,能通过相关词的相关度描述,准确地为用户提供相关词。
附图说明
图1是本发明提供的提供相关词的方法的一个实施例的流程示意图;
图2是图1提供的提供相关词的方法的步骤S2的一个实施例的流程示意图;
图3是图1提供的提供相关词的方法的步骤S3的一个实施的流程示意图;
图4是本发明提供的提供相关词的方法的另一个实施例的流程示意图;
图5是本发明提供的提供相关词的装置的一个实施例的结构示意图;
图6是本发明提供的提供相关词的装置的上位相关词集模块的一个实施例的结构示意图;
图7是本发明提供的提供相关词的装置的用于获取下位相关词集的单元的一个实施例的结构示意图;
图8是本发明提供的提供相关词的装置的待验相关词集单元的一个实施例的结构示意图;
图9是本发明提供的提供相关词的装置的对照词集单元的一个实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1、图2和图3,图1是本发明提供的提供相关词的方法的一个实施例的流程示意图,图2是图1提供的提供相关词的方法的步骤S2的一个实施例的流程示意图,图3是图1提供的提供相关词的方法的步骤S3的一个实施的流程示意图。下面将结合这三个流程图,以论文数据库(例如中国知网)作为词条数据库,从中获取关键词Java的相关词为例,详细说明本实施例的提供相关词的方法,该方法包括以下步骤:
S1,以用户输入的关键词Java为输入词,从词条数据库中获取关键词Java的下位相关词集,以及确定所述下位相关词集中的每一个下位相关词与所述关键词的相关度。步骤S1包括步骤S11至S13,具体如下:
S11,根据所述输入词Java从论文数据库中获取包含所述输入词Java的词条,并对所述词条进行分词和筛选,获得待验相关词集A={a1,…,an};此步骤的具体实施过程如下:
利用搜索引擎根据所述输入词Java从论文数据库中获取包含所述输入词Java且排序在第M位前的词条,例如,前50页论文摘要作为词条,或者,在维基中搜索关键词Java的前500条摘要;
根据标准词条格式对所述词条进行格式调整;例如,将词条中的小写统一成大写、对词条中多余的空格删除、统一词条中的标点符号、将词条的全角格式或半角格式统一为一种等。
调用分词工具;优选地,所述分词工具为jieba分词工具,但不限于为此分词工具。
利用所述分词工具对格式调整后的词条进行分词,获得第一词语集;
根据关键词提取算法,从所述第一词语集中提取与所述输入词相关的词语作为待验相关词{a1,…,an},获得待验相关词集A={a1,…,an}。需要说明的是,可通过分词工具或通过本提供相关词的装置添加词典,利用词典提供的核心词,从所述第一词语集中提取核心词作为待验相关词。
S12,对于所述待验相关词集A={a1,…,an}中的每一个待验相关词,根据所述待验相关词从所述词条数据库中获取包含所述待验相关词的词条,并对所述待验相关词的词条进行分词和筛选,获得所述待验相关词的对照词集。需要说明的是,此步骤S22与上一个步骤S21的具体实施过程相同,只是区别在于步骤S21中的输入词变为待验相关词{a1,…,an},然后将所获得待验相关词ai的待验相关词集Bai={bi1,…,bin}作为待验相关词ai的对照词集,因而在此不再赘述。
S13,当判定所述待验相关词ai的对照词集Bai={bi1,…,bin}与所述待验相关词集A={a1,…,an}的交集的绝对值r大于筛选阈值p时,即Bai集合与A集合中相同元素的数量大于筛选阈值p时,所述待验相关词ai为所述输入词Java的下位相关词,获得所述关键词的下位相关词集A′={aj},且j∈{1,…,n}、|A′|≤n、|A∩Baj|>p;其中,所述交集的绝对值r为所述下位相关词在所述下位相关词集中的相关度。需要说明的是,所述相关度表示为相关词集中的相关词与该相关词集的输入词之间的相关程度。
通过上述步骤S11、S12和S13来获取输入词的下位相关词集,能滤除噪音词,提高获取下位相关词的效率。
根据所述关键词的下位相关词集,从词条数据库中获取所述关键词的上位相关词集,以及确定所述上位相关词集中的每一个上位相关词与所述关键词的相关度
S2,根据所述关键词的下位相关词集A′={aj},从词条数据库中获取所述关键词的上位相关词集,以及确定所述上位相关词集中的每一个上位相关词与所述关键词的相关度。该步骤的具体包括如下步骤S21至S24:
S21,针对所述下位相关词集A′={aj}中的每一个下位相关词,以该下位相关词aj来更新输入词,即作为输入词,从论文数据库中获取更新后的输入词aj的下位相关词集A″;需要说明的,在本实施例中,优选地,步骤S31中获取下位相关词集的方式与上述步骤S2中获取下位相关词集的方式一致,在此不再赘述。
S22,判断当前下位相关词集的总数量N是否大于预设阈值S;
S23,若是,则从下位相关词集中筛选出所有包含所述关键词的下位相关词集,并将所述包含所述关键词的下位相关词集对应的输入词作为上位相关词,获得所述关键词的上位相关词集C;其中,在所述包含所述关键词的下位相关词集中的所述关键词与该下位相关词集对应的输入词的相关度,作为该输入词在作为上位相关词时与所述关键词的相关度
S24,若否,则继续执行以下操作:针对更新后的输入词的下位相关词集中的每一个下位相关词,以该下位相关词再次更新输入词,从词条数据库中获取再次更新后的输入词的下位相关词集,直至下位相关词集的总数量N大于预设阈值S;需要说明的是,在步骤S21和S23中获取下位相关词集的方式与在上述步骤S1中获取下位相关词集的方式也是一致的,在此不再赘述。
也就是说,例如对于关键词Java来说,Java的上位相关词集是一个集合中的元素为输入词的集合,即该集合中的每一个元素的下位相关词集中都有相同的元素为Java。通过采用与获取下位相关词集相同的方式逆求取关键词的上位相关词集,能从多个维度为用户提供相关词。
S3,将所述关键词的下位相关词集和上位相关词集的并集作为所述关键词的输出相关词集,并依据所述输出相关词集中的每一个输出相关词的相关度,在所述输出相关词集中选择提供给所述用户的相关词。
具体地所述关键词的下位相关词集和所述上位相关词集的交集包含在所述关键词的输出相关词集中,则包含在所述交集中的每一个输出相关词的相关度为T,T=(T1+T2)/2;其中,T1为在该输出相关词作为下位相关词时与所述关键词的相关度,T2作为在该输出相关词作为上位相关词时与所述关键词的相关度。也就是说,并集后,上位相关词集和下位相关词集中相同的相关词的相关度的取值为该相关词在这两个集合中的相关度的均值。
作为本发明的进一步改进,所述获取方法还包括对相关度进行归一化:
将所述关键词的下位相关词集中的每一个下位相关词与所述关键词的相关度均减去所述筛选阈值;
将所述关键词的上位相关词集中的每一个上位相关词与所述关键词的相关度均减去所述筛选阈值,完成相关度的归一化。
需要说明的是,归一化的目的是让关键词的输出相关词集中的相关词与该关键词的相关程度的相关度的数值能以0为基准,数值越高,相关词与关键词的相关程度就越高,方便在步骤S4中在输出相关词集中选择提供给用户的相关词。
实施本发明实施例的提供相关词的方法,通过对获取的待验下位相关词进行对照验证后的相关词作为下位相关词,能滤除噪声词的影响,提高获取到的相关词的质量,也就是说,能确保提供给用户的相关词的准确性。另一方面,在获取到关键词的下位相关词集后,继续通过下位相关词集时进行逆求取关键词的上位相关词,能大量扩展为用户提供的相关词的数量,并能确上位相关词的质量。
参见图4,是本发明提供的提供相关词的方法的另一个实施例的流程示意图;本实施例的提供相关词的方法为:分别以论文数据库和***数据库作为词条数据库,从中获取相应的第一输出相关词集和第二输出相关词集,然后将第一输出相关词集和第二输出相关词集的并集作为关键词的最终的输出相关词集;其中,在***数据库中获取第二输出相关词集的方式与上一实施例中在论文数据库中获取输出相关词集的方式相同。本实施例采用两种不同的词条数据库且词条数据库为论文数据库和***数据库,来进行相关词的挖掘,一方面对于相关词的扩展针对性强,且能避免语料单一,而导致的为用户提供的相关词获取过于片面。
相应地,参见图5,是本发明提供的提供相关词的装置的一个实施例的结构示意图,能实现上述两种实施例的全部流程,该提供相关词的装置包括:
下位相关词集模块10,用于以用户输入的关键词作为输入词,从词条数据库中获取所述关键词的下位相关词集,以及确定所述下位相关词集中的每一个下位相关词与所述关键词的相关度;
上位相关词集模块20,用于根据所述关键词的下位相关词集,从词条数据库中获取所述关键词的上位相关词集,以及确定所述上位相关词集中的每一个上位相关词与所述关键词的相关度;
输出相关词集模块30,用于将所述关键词的下位相关词集和上位相关词集的并集作为所述关键词的输出相关词集,并依据所述输出相关词集中的每一个输出相关词的相关度,在所述输出相关词集中选择提供给所述用户的相关词。
作为本发明实施例的进一步改进,如图6所示,图6是本发明提供的提供相关词的装置的上位相关词集模块的一个实施例的结构示意图;该上位相关词集模块30具体包括:下位词集获取单元31、阈值判断单元32和上位词集获取单元33,其中,
所述下位词集获取单元31,用于针对所述下位相关词集中的每一个下位相关词,以该下位相关词来更新输入词,从词条数据库中获取更新后的输入词的下位相关词集;
所述阈值判断单元32,用于判断下位相关词集的总数量是否大于预设阈值;
所述上位词集获取单元33,用于当判断下位相关词集的总数量大于预设阈值时,从下位相关词集中筛选出包含所述关键词的下位相关词集,并将所述包含所述关键词的下位相关词集对应的输入词作为上位相关词,获得所述关键词的上位相关词集;其中,在所述包含所述关键词的下位相关词集中的所述关键词与该下位相关词集对应的输入词的相关度,作为该输入词在作为上位相关词时与所述关键词的相关度;
所述下位词集获取单元31,还用于当判断下位相关词集的总数量小于预设阈值时,继续执行以下操作:针对更新后的输入词的下位相关词集中的每一个下位相关词,以该下位相关词再次更新输入词,从词条数据库中获取再次更新后的输入词的下位相关词集,直至下位相关词集的总数量大于预设阈值。
进一步地,所述下位相关词集模块20和所述下位词集获取单元31均还包括用于从词条数据库中获取下位相关词集的单元,如图7所示,图7是本发明提供的提供相关词的装置的用于获取下位相关词集的单元的一个实施例的结构示意图,具体包括:
待验相关词集单元1,用于根据所述输入词,从词条数据库中获取包含所述输入词的词条,并对所述词条进行分词和筛选,获得待验相关词集;
对照词集单元2,用于对于所述待验相关词集中的每一个待验相关词,根据所述待验相关词,从所述词条数据库中获取包含所述待验相关词的词条,并对所述待验相关词的词条进行分词和筛选,获得所述待验相关词的对照词集;和
判断获取单元3,用于当判定所述待验相关词的对照词集与所述待验相关词集的交集的绝对值大于筛选阈值时,所述待验相关词为所述输入词的下位相关词,获得下位相关词集;其中,所述绝对值作为所述下位相关词在与所述关键词的相关度。
进一步地,如图8所示,图8是本发明提供的提供相关词的装置的待验相关词集单元的一个实施例的结构示意图;所述待验相关词集单元1,具体包括:
第一词条子单元11,用于根据所述输入词,从词条数据库中获取包含所述输入词且排序在第M位前的词条;
第一调整子单元12,用于根据标准词条格式,对获取的词条进行格式调整;
第一调用子单元13,用于调用分词工具;
第一分词子单元14,用于利用所述分词工具对格式调整后的词条进行分词,获得第一词语集;和,
第一提取子单元15,用于根从所述第一词语集中提取属于用户词中的核心词的词语作为待验相关词,获得待验相关词集;其中,所述用户词典是由所述分词工具提供的;
以及,如图9所示,图9是本发明提供的提供相关词的装置的对照词集单元的一个实施例的结构示意图;所述对照词集单元2具体包括:
第二词条子单元21,用于根据所述待验相关词,从词条数据库中获取包含所述待验相关词且排序在第M位前的词条;
第二调整子单元22,用于根据所述标准词条格式,对所述包含所述待验相关词且排序在第M位前的词条进行格式调整;
第二调用子单元23,用于调用所述分词工具;
第二分词子单元24,用于利用所述分词工具对格式调整后的包含所述待验相关词且排序在第M位前的词条进行分词,获得第二词语集;和,
第二提取子单元25,用于从所述第二词语集中属于用户词典中的核心词的词语作为对照词,获得对照词集。
具体地,所述关键词的下位相关词集和所述上位相关词集的交集包含在所述关键词的输出相关词集中,则包含在所述交集中的每一个输出相关词的相关度为T,T=(T1+T2)/2;其中,T1为在该输出相关词作为下位相关词时与所述关键词的相关度,T2作为在该输出相关词作为上位相关词时与所述关键词的相关度。
进一步地,如图5所示,所述提供相关词的装置还包括归一化模块40:
所述归一化模块,用于将所述关键词的下位相关词集中的每一个下位相关词与所述关键词的相关度均减去所述筛选阈值;以及用于将所述关键词的上位相关词集中的每一个上位相关词与所述关键词的相关度均减去所述筛选阈值,完成相关度的归一化。
本发明实施例提供的提供相关词的装置,通过对获取的待验下位相关词进行对照验证后的相关词作为下位相关词,能滤除噪声词的影响,提高获取到的相关词的质量,也就是说,能确保提供给用户的相关词的准确性。另一方面,在获取到关键词的下位相关词集后,继续通过下位相关词集时进行逆求取关键词的上位相关词,能大量扩展为用户提供的相关词的数量,并能确上位相关词的质量。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (9)

1.一种提供相关词的方法,其特征在于,包括:
以用户输入的关键词作为输入词,从词条数据库中获取所述关键词的下位相关词集,以及确定所述下位相关词集中的每一个下位相关词与所述关键词的相关度;
根据所述关键词的下位相关词集,从词条数据库中获取所述关键词的上位相关词集,以及确定所述上位相关词集中的每一个上位相关词与所述关键词的相关度;
将所述关键词的下位相关词集和上位相关词集的并集作为所述关键词的输出相关词集,并依据所述输出相关词集中的每一个输出相关词的相关度,在所述输出相关词集中选择提供给所述用户的相关词;
所述根据所述关键词的下位相关词集,从词条数据库中获取所述关键词的上位相关词集,以及确定所述上位相关词集中的每一个上位相关词与所述关键词的相关度,具体为:
针对所述下位相关词集中的每一个下位相关词,以该下位相关词来更新输入词,从词条数据库中获取更新后的输入词的下位相关词集;
判断下位相关词集的总数量是否大于预设阈值;
若是,则从下位相关词集中筛选出包含所述关键词的下位相关词集,并将所述包含所述关键词的下位相关词集对应的输入词作为上位相关词,获得所述关键词的上位相关词集;其中,在所述包含所述关键词的下位相关词集中的所述关键词与该下位相关词集对应的输入词的相关度,作为该输入词在作为上位相关词时与所述关键词的相关度;
若否,则继续执行以下操作:针对更新后的输入词的下位相关词集中的每一个下位相关词,以该下位相关词再次更新输入词,从词条数据库中获取再次更新后的输入词的下位相关词集,直至下位相关词集的总数量大于预设阈值。
2.如权利要求1所述的提供相关词的方法,其特征在于,从词条数据库中获取下位相关词集的方式具体包括:
根据所述输入词,从词条数据库中获取包含所述输入词的词条,并对所述词条进行分词和筛选,获得待验相关词集;
对于所述待验相关词集中的每一个待验相关词,根据所述待验相关词,从所述词条数据库中获取包含所述待验相关词的词条,并对所述待验相关词的词条进行分词和筛选,获得所述待验相关词的对照词集;
当判定所述待验相关词的对照词集与所述待验相关词集的交集的绝对值大于筛选阈值时,所述待验相关词为所述输入词的下位相关词,获得下位相关词集;其中,所述绝对值作为所述下位相关词与所述关键词的相关度。
3.如权利要求2所述的提供相关词的方法,其特征在于,所述根据所述输入词,从词条数据库中获取包含所述输入词的词条,并对所述词条进行分词和筛选,获得待验相关词集,具体包括:
根据所述输入词,从词条数据库中获取包含所述输入词且排序在第M位前的词条;
根据标准词条格式,对获取的词条进行格式调整;
调用分词工具;
利用所述分词工具对格式调整后的词条进行分词,获得第一词语集;
从所述第一词语集中提取属于用户词典中的核心词的词语作为待验相关词,获得待验相关词集;其中,所述用户词典是由所述分词工具提供的;
以及,所述根据所述待验相关词,从所述词条数据库中获取包含所述待验相关词的词条,并对所述待验相关词的词条进行分词和筛选,获得所述待验相关词的对照词集,具体包括:
根据所述待验相关词,从词条数据库中获取包含所述待验相关词且排序在第M位前的词条;
根据所述标准词条格式,对所述包含所述待验相关词且排序在第M位前的词条进行格式调整;
调用所述分词工具;
利用所述分词工具对格式调整后的包含所述待验相关词且排序在第M位前的词条进行分词,获得第二词语集;
从所述第二词语集中提取属于用户词典中的核心词的词语作为对照词,获得对照词集。
4.如权利要求1所述的提供相关词的方法,其特征在于,所述关键词的下位相关词集和所述上位相关词集的交集包含在所述关键词的输出相关词集中,则包含在所述交集中的每一个输出相关词的相关度为T,T=(T1+T2)/2;其中,T1为在该输出相关词作为下位相关词时与所述关键词的相关度,T2作为在该输出相关词作为上位相关词时与所述关键词的相关度。
5.如权利要求2所述的提供相关词的方法,其特征在于,所述从词条数据库中获取下位相关词集的方式还包括:
将所述关键词的下位相关词集中的每一个下位相关词与所述关键词的相关度均减去所述筛选阈值;
将所述关键词的上位相关词集中的每一个上位相关词与所述关键词的相关度均减去所述筛选阈值,完成相关度的归一化。
6.一种提供相关词的装置,其特征在于,包括:
下位相关词集模块,用于以用户输入的关键词作为输入词,从词条数据库中获取所述关键词的下位相关词集,以及确定所述下位相关词集中的每一个下位相关词与所述关键词的相关度;
上位相关词集模块,用于根据所述关键词的下位相关词集,从词条数据库中获取所述关键词的上位相关词集,以及确定所述上位相关词集中的每一个上位相关词与所述关键词的相关度;
输出相关词集模块,用于将所述关键词的下位相关词集和上位相关词集的并集作为所述关键词的输出相关词集,并依据所述输出相关词集中的每一个输出相关词的相关度,在所述输出相关词集中选择提供给所述用户的相关词;
所述上位相关词集模块具体包括:下位词集获取单元、阈值判断单元和上位词集获取单元,其中,
所述下位词集获取单元,用于针对所述下位相关词集中的每一个下位相关词,以该下位相关词来更新输入词,从词条数据库中获取更新后的输入词的下位相关词集;
所述阈值判断单元,用于判断下位相关词集的总数量是否大于预设阈值;
所述上位词集获取单元,用于当判断下位相关词集的总数量大于预设阈值时,从下位相关词集中筛选出包含所述关键词的下位相关词集,并将所述包含所述关键词的下位相关词集对应的输入词作为上位相关词,获得所述关键词的上位相关词集;其中,在所述包含所述关键词的下位相关词集中的所述关键词与该下位相关词集对应的输入词的相关度,作为该输入词在作为上位相关词时与所述关键词的相关度;
所述下位词集获取单元,还用于当判断下位相关词集的总数量小于预设阈值时,继续执行以下操作:针对更新后的输入词的下位相关词集中的每一个下位相关词,以该下位相关词再次更新输入词,从词条数据库中获取再次更新后的输入词的下位相关词集,直至下位相关词集的总数量大于预设阈值。
7.如权利要求6所述的提供相关词的装置,其特征在于,所述下位相关词集模块和所述下位词集获取单元还包括用于从词条数据库中获取下位相关词集的单元,具体为:
待验相关词集单元,用于根据所述输入词,从词条数据库中获取包含所述输入词的词条,并对所述词条进行分词和筛选,获得待验相关词集;
对照词集单元,用于对于所述待验相关词集中的每一个待验相关词,根据所述待验相关词,从所述词条数据库中获取包含所述待验相关词的词条,并对所述待验相关词的词条进行分词和筛选,获得所述待验相关词的对照词集;和
判断获取单元,用于当判定所述待验相关词的对照词集与所述待验相关词集的交集的绝对值大于筛选阈值时,所述待验相关词为所述输入词的下位相关词,获得下位相关词集;其中,所述绝对值作为所述下位相关词与所述关键词的相关度。
8.如权利要求7所述的提供相关词的装置,其特征在于,所述待验相关词集单元,具体包括:
第一词条子单元,用于根据所述输入词,从词条数据库中获取包含所述输入词且排序在第M位前的词条;
第一调整子单元,用于根据标准词条格式,对获取的词条进行格式调整;
第一调用子单元,用于调用分词工具;
第一分词子单元,用于利用所述分词工具对格式调整后的词条进行分词,获得第一词语集;和,
第一提取子单元,用于从所述第一词语集中提取属于用户词典中的核心词的词语作为待验相关词,获得待验相关词集;其中,所述用户词典是由所述分词工具提供的;
以及,所述对照词集单元具体包括:
第二词条子单元,用于根据所述待验相关词,从词条数据库中获取包含所述待验相关词且排序在第M位前的词条;
第二调整子单元,用于根据所述标准词条格式,对所述包含所述待验相关词且排序在第M位前的词条进行格式调整;
第二调用子单元,用于调用所述分词工具;
第二分词子单元,用于利用所述分词工具对格式调整后的包含所述待验相关词且排序在第M位前的词条进行分词,获得第二词语集;和,
第二提取子单元,用于根据从所述第二词语集中提取属于用户词典中的核心词的词语作为对照词,获得对照词集。
9.如权利要求8所述的提供相关词的装置,其特征在于,所述提供相关词的装置还包括归一化模块:
所述归一化模块,用于将所述关键词的下位相关词集中的每一个下位相关词与所述关键词的相关度均减去所述筛选阈值;以及用于将所述关键词的上位相关词集中的每一个上位相关词与所述关键词的相关度均减去所述筛选阈值,完成相关度的归一化。
CN201610445489.2A 2016-06-17 2016-06-17 提供相关词的方法和装置 Active CN106126588B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610445489.2A CN106126588B (zh) 2016-06-17 2016-06-17 提供相关词的方法和装置
PCT/CN2016/113175 WO2017215244A1 (zh) 2016-06-17 2016-12-29 提供相关词的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610445489.2A CN106126588B (zh) 2016-06-17 2016-06-17 提供相关词的方法和装置

Publications (2)

Publication Number Publication Date
CN106126588A CN106126588A (zh) 2016-11-16
CN106126588B true CN106126588B (zh) 2019-09-20

Family

ID=57470913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610445489.2A Active CN106126588B (zh) 2016-06-17 2016-06-17 提供相关词的方法和装置

Country Status (2)

Country Link
CN (1) CN106126588B (zh)
WO (1) WO2017215244A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126588B (zh) * 2016-06-17 2019-09-20 广州视源电子科技股份有限公司 提供相关词的方法和装置
CN108304366B (zh) * 2017-03-21 2020-04-03 腾讯科技(深圳)有限公司 一种上位词检测方法及设备
CN108628832B (zh) * 2018-05-08 2022-03-18 中国联合网络通信集团有限公司 一种信息情报关键字获取方法及装置
CN109241525B (zh) * 2018-08-20 2022-05-06 深圳追一科技有限公司 关键词的提取方法、装置和***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810274A (zh) * 2014-02-12 2014-05-21 北京联合大学 基于WordNet语义相似度的多特征图像标签排序方法
CN104008097A (zh) * 2013-02-21 2014-08-27 日电(中国)有限公司 实现查询理解的方法及装置
CN104123351A (zh) * 2014-07-09 2014-10-29 百度在线网络技术(北京)有限公司 交互式搜索方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5044236B2 (ja) * 2007-01-12 2012-10-10 富士フイルム株式会社 コンテンツ検索装置、およびコンテンツ検索方法
TW201214163A (en) * 2010-09-21 2012-04-01 Inventec Corp Searching system and method thereof with generating extending keywords according to input keywords
CN103778262B (zh) * 2014-03-06 2017-07-21 北京林业大学 基于叙词表的信息检索方法及装置
CN106126588B (zh) * 2016-06-17 2019-09-20 广州视源电子科技股份有限公司 提供相关词的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008097A (zh) * 2013-02-21 2014-08-27 日电(中国)有限公司 实现查询理解的方法及装置
CN103810274A (zh) * 2014-02-12 2014-05-21 北京联合大学 基于WordNet语义相似度的多特征图像标签排序方法
CN104123351A (zh) * 2014-07-09 2014-10-29 百度在线网络技术(北京)有限公司 交互式搜索方法和装置

Also Published As

Publication number Publication date
WO2017215244A1 (zh) 2017-12-21
CN106126588A (zh) 2016-11-16

Similar Documents

Publication Publication Date Title
CN106126588B (zh) 提供相关词的方法和装置
CN102866990B (zh) 一种主题对话方法和装置
CN110245496A (zh) 一种源代码漏洞检测方法及检测器和其训练方法及***
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN103218719B (zh) 一种电子商务网站导航方法及***
CN109815952A (zh) 品牌名称识别方法、计算机装置及计算机可读存储介质
CN105138558B (zh) 基于用户访问内容的实时个性化信息采集方法
CN106372132A (zh) 基于人工智能的查询意图预测方法和装置
CN108985060A (zh) 一种大规模安卓恶意软件自动化检测***及方法
CN106933947B (zh) 一种搜索方法及装置、电子设备
CN104966031A (zh) 安卓应用程序中非权限相关隐私数据的识别方法
CN103778262B (zh) 基于叙词表的信息检索方法及装置
US20170053031A1 (en) Information forecast and acquisition method based on webpage link parameter analysis
CN108304410A (zh) 一种异常访问页面的检测方法、装置及数据分析方法
CN102495892A (zh) 一种网页信息抽取方法
CN101908071A (zh) 一种提高搜索引擎搜索效率的方法及其***
CN109063000A (zh) 问句推荐方法、客服***以及计算机可读存储介质
CN111159404B (zh) 文本的分类方法及装置
CN109739961A (zh) 一种人机语言交互方法及装置
Kim et al. Event diffusion patterns in social media
CN103150369A (zh) 作弊网页识别方法及装置
CN108319672A (zh) 基于云计算的移动终端不良信息过滤方法及***
CN107918825A (zh) 一种基于应用安装偏好判定用户年龄段的方法和装置
CN106843941A (zh) 信息处理方法、装置和计算机设备
CN109635010A (zh) 一种用户特征及特征因子抽取、查询方法和***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant