CN114741627B - 面向互联网的辅助信息搜索方法 - Google Patents
面向互联网的辅助信息搜索方法 Download PDFInfo
- Publication number
- CN114741627B CN114741627B CN202210378394.9A CN202210378394A CN114741627B CN 114741627 B CN114741627 B CN 114741627B CN 202210378394 A CN202210378394 A CN 202210378394A CN 114741627 B CN114741627 B CN 114741627B
- Authority
- CN
- China
- Prior art keywords
- search
- entity
- terms
- result
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/954—Navigation, e.g. using categorised browsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种面向互联网的辅助信息搜索方法,涉及信息检索技术领域的搜索历史数据处理与可视化方法,支持多用户之间分享搜索日志,本方法的搜索引擎历史界面包括基于知识图谱的可视化界面和基于列表的可视化界面组成,可展示个人搜索日志与所在主题组的其他用户的搜索日志。基于知识图谱的可视化界面设计为用户提供直观的搜索路径展示,同时提供每个检索词的若干相关实体用户进行探索。基于知识图谱和基于列表的搜索历史可视化界面均支持用户行为标记、用户批注等功能,方便用户快速筛选搜索日志。如此,可以确保用户通过与搜索日志交互快速回看搜索内容,以及通过共享其他用户搜索日志提高检索效率。
Description
技术领域
本发明涉及互联网技术领域,更具体地,涉及一种面向互联网的辅助信息搜索方法。
背景技术
困难搜索(struggling search)是指用户使用搜索引擎进行信息查询时,由于缺乏与查询内容相关的背景知识,无法给出准确的查询关键词或识别目标搜索结果等,从而无法及时搜索到有效信息的搜索情境。
就用户行为来看,困难搜索过程具有一些行为特征,例如用户个人多次输入相似的查询关键字,但较少在搜索结果页面(Search Engine Results Page,SERP)点击查看搜索结果。困难搜索是信息检索过程中最常见的用户行为之一,在困难搜索过程中,即使用户最终找到搜索目标,困难搜索的经历也可能导致其对整个搜索体验感到不满意或沮丧。因此,如何提升用户的搜索效率,解决用户的搜索困难,对于互联网搜索***的设计而言,非常重要。
对于目前的互联网搜索***而言,用户难以通过与搜索引擎界面不断交互的方式解决困难搜索任务。搜索引擎无法自动补全用户解决困难搜索任务中必需的检索关键词/句,也无法在交互过程中为用户提供相关背景知识补充,或为用户建立有效的搜索日志,从而不能使用户从日志中查找或提取关键词/句以形成有效检索。
发明内容
本发明主要解决现有的互联网搜索***无法自动补全用户解决困难搜索任务中必需的检索关键词/句,也无法在交互过程中为用户提供相关背景知识补充,或为用户建立有效的搜索日志,从而不能使用户从日志中查找或提取关键词/句以形成有效检索。针对上述问题,本发明公开了一种面向互联网的辅助信息搜索方法。
本发明公开了一种面向互联网的辅助信息搜索方法,包括:
利用分组规则对用户的检索词进行分组;
从分组后的检索词中提取检索词实体信息,对检索词实体信息利用相关性准则构建搜索图谱;
对检索词的搜索结果和搜索图谱进行分类展示和分享。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的利用分组规则对用户检索词进行分组,包括,从用户搜索历史数据中提取检索词,并根据检索词的时间间隔或内容对其进行分组;
作为一种可选的实施方式,在本发明实施例第一方面中,所述的搜索图谱,为利用检索词的实体所构成的知识图谱,搜索图谱以检索词的实体作为节点,节点之间的关系作为边。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的从分组后的检索词中提取检索词实体信息,对检索词实体信息利用相关性准则构建搜索图谱,包括,从分组后的检索词中,采用实体识别方法提取检索词实体信息,作为检索词的候选实体,获取检索词的搜索结果,计算每个候选实体的质量分数,利用检索词语义关联规则,得到检索词的可视化实体,将所述的检索词的可视化实体作为作为搜索图谱中的节点,将检索词和对应的可视化实体作为元素构建实体集合,计算实体集合中各元素之间的相关程度函数,根据相关程度函数,建立实体集合中各元素间的关系,将该关系作为搜索图谱中的边。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的计算每个候选实体的质量分数,利用检索词语义关联规则,得到检索词的可视化实体,包括:
利用候选实体与检索词的搜索结果的相关程度,计算候选实体的质量分数,第i个候选实体ei与检索词q的搜索结果的相关程度由ei与搜索结果的语义相似度以及描述ei的概念集合与q的相关程度来共同表示,第i个候选实体ei与检索词q的第k条搜索结果的相关程度的表达式为:
其中,表示候选实体ei相关的描述性概念与检索词q的检索结果相关程度,<sj>表示候选实体ei对应的搜索结果语句中的短语集合,sj为ei对应的搜索结果语句中的第j个短语,即第j个描述性概念,n为候选实体ei对应的搜索结果语句中的短语的个数。CoO(sj)为sj与检索词q的搜索结果的共现相关性得分,其表达式为:
其中,m为sj和q共同出现的搜索结果的数量,Frqm(sj,q)为在sj和q共同出现的第m个搜索结果中sj和q的词频总和,Conm(art)为sj和q共同出现的第m个搜索结果所包含的单词数量。CohJ(ei,q)为候选实体ei与检索词q所对应的在线知识库文章之间的文本相似度,该文本相似度用于判断同一搜索结果标题中不同实体与检索词之间的相关性;
对同一候选实体与检索词的所有搜索结果的相关程度值取平均,得到该候选实体与检索词的搜索结果的相关程度。筛选出质量分数最高的若干个候选实体,作为检索词的可视化实体。
可选的,所述的文本相似度,采用Jaccard系数来得到。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的将检索词和对应的可视化实体作为元素构建实体集合,计算实体集合中各元素之间的相关程度函数,包括:
其中,表示实体集合的元素ep和eq在搜索结果中同时出现的次数,表示在搜索结果中同时出现次数最多的两个实体集合元素的同时出现次数,λ表示调和参数,num表示判别阈值,/>为两个实体集合元素之间的上下文关联度,其计算公式为:
其中,I1表示对ep和eq是否属于在线知识库的同一类别的判别结果,若ep和eq属于同一类别,则I1=1,否则,I1=0;I2表示对ep和eq在在线知识库中是否共同出现在同一句话或同一词组中的判别结果,若ep和eq共同出现在同一句话或同一词组中,则I2=共同出现句数/共同出现的文章数,否则,I2=0。
所述的共同出现的文章数,为ep和eq在在线知识库中共同出现的文章数。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的实体识别方法,包括基于规则的实体识别方法、基于词典的实体识别方法和在线知识库方法。
可选的,在线知识库为***或百度百科等。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的对检索词的搜索结果和搜索图谱进行分类展示和分享,包括,对搜索图谱所包含的节点和边进行展示,利用边的透明度表示节点之间关系的强弱程度,根据用户的输入指令,显示检索词实体所对应的实体概念和节点。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的所述的对检索词的搜索结果和搜索图谱进行分类展示,包括:对用户的检索词和对应搜索结果进行列表显示;对用户操作过的搜索结果进行标记显示;根据用户对搜索结果的输入信息,对搜索结果添加相应信息并显示。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的对用户检索词的搜索结果进行分享,包括:创建检索主题,将与检索主题相关的检索词或搜索结果添加入检索主题中,根据用户检索需求,对相关的检索主题进行分享。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的对检索词的搜索结果和搜索图谱进行分类展示和分享,包括,对搜索结果页、搜索结果网页、检索词的搜索图谱页面、基于列表的搜索历史界面和搜索结果批注页面分别进行展示,搜索结果页展示了检索词的搜索结果的摘要信息、对应搜索结果网页的链接、用户对搜索结果的批注的链接、检索词的搜索图谱页面的链接和基于列表的搜索历史界面的链接,搜索结果网页为在搜索结果页上点击搜索结果网页的链接后跳转至的页面,其展示了检索词的每个搜索结果所包含的具体信息,搜索结果批注页面展示了用户对检索词的搜索结果的批注信息,检索词的搜索图谱页面展示了检索词的搜索图谱,基于列表的搜索历史界面是将检索词的所有搜索结果采用列表形式进行展示。
可选的,节点之间的关系包括检索词的实体之间的关系、实体概念之间的关系和检索词实体与实体概念之间的关系。
可选的,知识图谱的任意节点之间是否连接,表示两个概念之间是否存在语义关系,线段透明度表示概念之间语义关系的强弱。
可选的,所述的对用户检索词的搜索结果进行分类展示中,用户对搜索结果的输入信息,包括用户对搜索结果的标注信息和批注信息,
本发明的有益效果为:
本申请提供的搜索引擎历史界面可视化设计方案中,基于知识图谱的搜索历史可视化,以图的形式呈现用户搜索路径,其中概念联想节点等功能为用户提供与其检索词涉及领域最相关的若干权威概念,帮助用户快速获取信息需求相关的领域背景知识,使用户在领域背景知识储备不足、无法通过检索词描述清楚信息需求的情况下,高效定位信息需求,查找答案。
本申请提供了搜索引擎历史界面可视化设计方案,可实现搜索结果批注功能、合作搜索小组等功能,通过搜索结果批注、共享小组成员搜索历史记录的方式,帮助用户在背景知识储备不足、无法通过个人探索完成搜索任务的情况下,从曾有相同信息需求的其他人用户的搜索日志、搜索结果、搜索结果批注等方面获取直接线索,从而大大提升解决困难搜索任务的效率。
附图说明
图1为本申请实施例提供的一种搜索引擎的检索词分析与基于搜索历史的知识图谱构建流程图;
图2为本申请实施例提供的一种搜索引擎历史界面架构示意图;
图3为本申请实施例提供的一种搜索引擎搜索结果页交互功能设计示意图;
图4为本申请实施例提供的一种搜索引擎历史界面交互功能设计示意图;
图5为本申请实施例提供的另一种搜索引擎历史界面交互功能设计示意图;
图6为本申请实施例提供的一种多用户的搜索引擎历史界面交互流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1为本申请实施例提供的一种搜索引擎的检索词分析与基于搜索历史的知识图谱构建流程图;图2为本申请实施例提供的一种搜索引擎历史界面架构示意图;图3为本申请实施例提供的一种搜索引擎搜索结果页交互功能设计示意图;图4为本申请实施例提供的一种搜索引擎历史界面交互功能设计示意图;图5为本申请实施例提供的另一种搜索引擎历史界面交互功能设计示意图;图6为本申请实施例提供的一种多用户的搜索引擎历史界面交互流程图。
以下分别进行详细说明。
实施例一
本申请实施例提供了一种检索词分析与基于搜索结果的知识图谱构建方法,基于用户在困难搜索过程中的检索词和***等知识库,通过启发式算法构建检索词相关的知识图谱,帮助用户拓展知识空间,提高检索效率。
本发明公开了一种面向互联网的辅助信息搜索方法,包括:
利用分组规则对用户的检索词进行分组;
从分组后的检索词中提取检索词实体信息,对检索词实体信息利用相关性准则构建搜索图谱;
对检索词的搜索结果和搜索图谱进行分类展示和分享。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的利用分组规则对用户检索词进行分组,包括,从用户搜索历史数据中提取检索词,并根据检索词的时间间隔或内容对其进行分组;
作为一种可选的实施方式,在本发明实施例第一方面中,所述的搜索图谱,为利用检索词的实体所构成的知识图谱,搜索图谱以检索词的实体作为节点,节点之间的关系作为边。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的从分组后的检索词中提取检索词实体信息,对检索词实体信息利用相关性准则构建搜索图谱,包括,从分组后的检索词中,采用实体识别方法提取检索词实体信息,作为检索词的候选实体,获取检索词的搜索结果,计算每个候选实体的质量分数,利用检索词语义关联规则,得到检索词的可视化实体,将所述的检索词的可视化实体作为作为搜索图谱中的节点,将检索词和对应的可视化实体作为元素构建实体集合,计算实体集合中各元素之间的相关程度函数,根据相关程度函数,建立实体集合中各元素间的关系,将该关系作为搜索图谱中的边。该方案能帮助用户快速获取信息需求相关的领域背景知识,使用户在领域背景知识储备不足、无法通过检索词描述清楚信息需求的情况下,高效定位信息需求,查找答案。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的计算每个候选实体的质量分数,利用检索词语义关联规则,得到检索词的可视化实体,包括:
利用候选实体与检索词的搜索结果的相关程度,计算候选实体的质量分数,第i个候选实体ei与检索词q的搜索结果的相关程度由ei与搜索结果的语义相似度以及描述ei的概念集合与q的相关程度来共同表示,第i个候选实体ei与检索词q的第k条搜索结果的相关程度的表达式为:
其中,表示候选实体ei相关的描述性概念与检索词q的检索结果相关程度,<sj>表示候选实体ei对应的搜索结果语句中的短语集合,sj为ei对应的搜索结果语句中的第j个短语,即第j个描述性概念,n为候选实体ei对应的搜索结果语句中的短语的个数。CoO(sj)为sj与检索词q的搜索结果的共现相关性得分,其表达式为:
其中,m为sj和q共同出现的搜索结果的数量,Frqm(sj,q)为在sj和q共同出现的第m个搜索结果中sj和q的词频总和,Conm(art)为sj和q共同出现的第m个搜索结果所包含的单词数量。CohJ(ei,q)为候选实体ei与检索词q所对应的在线知识库文章之间的文本相似度,该文本相似度用于判断同一搜索结果标题中不同实体与检索词之间的相关性;
对同一候选实体与检索词的所有搜索结果的相关程度值取平均,得到该候选实体与检索词的搜索结果的相关程度。筛选出质量分数最高的若干个候选实体,作为检索词的可视化实体。
可选的,所述的文本相似度,采用Jaccard系数来得到。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的将检索词和对应的可视化实体作为元素构建实体集合,计算实体集合中各元素之间的相关程度函数,包括:
其中,表示实体集合的元素ep和eq在搜索结果中同时出现的次数,表示在搜索结果中同时出现次数最多的两个实体集合元素的同时出现次数,λ表示调和参数,num表示判别阈值,/>为两个实体集合元素之间的上下文关联度,其计算公式为:
其中,I1表示对ep和eq是否属于在线知识库的同一类别的判别结果,若ep和eq属于同一类别,则I1=1,否则,I1=0;I2表示对ep和eq在在线知识库中是否共同出现在同一句话或同一词组中的判别结果,若ep和eq共同出现在同一句话或同一词组中,则I2=共同出现句数/共同出现的文章数,否则,I2=0。
所述的共同出现的文章数,为ep和eq在在线知识库中共同出现的文章数。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的实体识别方法,包括基于规则的实体识别方法、基于词典的实体识别方法和在线知识库方法。
可选的,在线知识库为***或百度百科等。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的对检索词的搜索结果和搜索图谱进行分类展示和分享,包括,对搜索图谱所包含的节点和边进行展示,利用边的透明度表示节点之间关系的强弱程度,根据用户的输入指令,显示检索词实体所对应的实体概念和节点。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的所述的对检索词的搜索结果和搜索图谱进行分类展示,包括:对用户的检索词和对应搜索结果进行列表显示;对用户操作过的搜索结果进行标记显示;根据用户对搜索结果的输入信息,对搜索结果添加相应信息并显示。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的对用户检索词的搜索结果进行分享,包括:创建检索主题,将与检索主题相关的检索词或搜索结果添加入检索主题中,根据用户检索需求,对相关的检索主题进行分享。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的对检索词的搜索结果和搜索图谱进行分类展示和分享,包括,对搜索结果页、搜索结果网页、检索词的搜索图谱页面、基于列表的搜索历史界面和搜索结果批注页面分别进行展示,搜索结果页展示了检索词的搜索结果的摘要信息、对应搜索结果网页的链接、用户对搜索结果的批注的链接、检索词的搜索图谱页面的链接和基于列表的搜索历史界面的链接,搜索结果网页为在搜索结果页上点击搜索结果网页的链接后跳转至的页面,其展示了检索词的每个搜索结果所包含的具体信息,搜索结果批注页面展示了用户对检索词的搜索结果的批注信息,检索词的搜索图谱页面展示了检索词的搜索图谱,基于列表的搜索历史界面是将检索词的所有搜索结果采用列表形式进行展示。
可选的,节点之间的关系包括检索词的实体之间的关系、实体概念之间的关系和检索词实体与实体概念之间的关系。
可选的,知识图谱的任意节点之间是否连接,表示两个概念之间是否存在语义关系,线段透明度表示概念之间语义关系的强弱。
可选的,所述的对用户检索词的搜索结果进行分类展示中,用户对搜索结果的输入信息,包括用户对搜索结果的标注信息和批注信息,
本申请提供的搜索引擎历史界面可视化设计方案中,基于知识图谱的搜索历史可视化,以图的形式呈现用户搜索路径,其中概念联想节点等功能为用户提供与其检索词涉及领域最相关的若干权威概念,帮助用户快速获取信息需求相关的领域背景知识,使用户在领域背景知识储备不足、无法通过检索词描述清楚信息需求的情况下,高效定位信息需求,查找答案。
在该可选的实施例中,作为一种可选的实施方式,本申请实施例提供了一种基于图的搜索引擎历史界面可视化设计方案,应用于搜索引擎的搜索日志和搜索结果展示及与用户交互,该设计方案包括:搜索日志分区、搜索图谱区域、和快速回看区域。
其中,搜索日志分区中,用户搜索产生的历史数据根据时间间隔被自动分组,并以单元组的形式呈现在界面上。在搜索图谱分区,搜索日志分区的每组搜索日志以知识图谱的形式可视化呈现。
其中,知识图谱可视化设计包含用户的检索词节点和与其相连的概念联想节点,检索词节点互相连接,表示用户寻找答案的搜索路径;知识图谱的任意节点之间是否连接,表示两个概念之间是否存在语义关系,线段透明度表示概念之间语义关系的强弱。搜索图谱分区支持用户通过鼠标与知识图谱进行交互,具体包括拖拽/固定知识图谱中某个节点,鼠标悬停至某节点上以过滤查看与其相连子图,鼠标点击等交互行为。
快速回看分区包含用户的检索词对应的相关搜索结果词条,点击搜索图谱分区中知识图谱上的任意节点,在快速回看分区可查看包含此节点实体的词条,点击词条即可快速跳转访问对应页面。
另一方面,本申请实施例提供了一个列表形式搜索引擎历史界面可视化方案,应用于用户快速筛选有用搜索日志。其中,被用户点击过的搜索结果在列表形式的搜索日志可视化界面中以小手图标样式被标记;被用户浏览过的搜索结果则以高亮词条形式显示。用户可通过点击页面图标自主切换两种搜索日志呈现形式。
另一方面,本申请实施例提供了一个搜索结果标注功能,应用于基于列表形式的搜索结果页面中,用户可直接在搜索结果页中加入批注、标签等个人标记。其中,批注功能支持用户对某个搜索结果网页内容添加、编辑、删除文本信息。被批注的搜索结果网页以pdf形式保存,并在搜索结果页(SERPs)上的对应词条中以书签形式被标记。
另一方面,本申请实施例提供了一个搜索日志分享功能,应用于用户之间的合作搜索情境,即帮助用户在搜索过程中借鉴其他用户的检索词记录与搜索结果记录。包括主题组创建模块、主题组搜索模块、主题组加入/退出模块、内容添加模块。主题组创建模块、主题组搜索模块、主题组加入/推出模块分别用于用户创建搜索主题小组、查找搜索某主题小组、加入或退出某主题小组;内容添加模块用于用户将有用搜索结果或检索词添加至自己已加入的主题小组中,与其他主题组成员共享信息。
另一方面,本申请实施例提供了一个搜索结果页面(SERPs)可视化方案,即为搜索结果页上的每个词条增加搜索结果添加到组、搜索结果批注功能。通过这些功能,用户将根据与检索词(信息需求)相关性对搜索结果进行区分标记、加入笔记标注并可分享至合作小组。同时,搜索结果页面提供进入搜索历史界面的入口。
本实施例提供的搜索引擎历史界面可视化设计方案中,基于知识图谱的搜索历史可视化,以图的形式呈现用户搜索路径,其中概念联想节点等功能为用户提供与其检索词涉及领域最相关的若干权威概念,帮助用户快速获取信息需求相关的领域背景知识,使用户在领域背景知识储备不足、无法通过检索词描述清楚信息需求的情况下,高效定位信息需求,查找答案。
本实施例提供了搜索引擎历史界面可视化设计方案,可实现搜索结果批注功能、合作搜索小组等功能,通过搜索结果批注、共享小组成员搜索历史记录的方式,帮助用户在背景知识储备不足、无法通过个人探索完成搜索任务的情况下,从曾有相同信息需求的其他人用户的搜索日志、搜索结果、搜索结果批注等方面获取直接线索,从而大大提升解决困难搜索任务的效率。
实施例二
本实施例公开了一种面向互联网的辅助信息搜索方法,包括:
利用分组规则对用户的检索词进行分组;
从分组后的检索词中提取检索词实体信息,对检索词实体信息利用相关性准则构建搜索图谱;
对检索词的搜索结果和搜索图谱进行分类展示和分享。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的利用分组规则对用户检索词进行分组,包括,从用户搜索历史数据中提取检索词,并根据检索词的时间间隔或内容对其进行分组;
作为一种可选的实施方式,在本发明实施例第一方面中,所述的搜索图谱,为利用检索词的实体所构成的知识图谱,搜索图谱以检索词的实体作为节点,节点之间的关系作为边。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的从分组后的检索词中提取检索词实体信息,对检索词实体信息利用相关性准则构建搜索图谱,包括,从分组后的检索词中,采用实体识别方法提取检索词实体信息,作为检索词的候选实体,获取检索词的搜索结果,计算每个候选实体的质量分数,利用检索词语义关联规则,得到检索词的可视化实体,将所述的检索词的可视化实体作为作为搜索图谱中的节点,将检索词和对应的可视化实体作为元素构建实体集合,计算实体集合中各元素之间的相关程度函数,根据相关程度函数,建立实体集合中各元素间的关系,将该关系作为搜索图谱中的边。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的计算每个候选实体的质量分数,利用检索词语义关联规则,得到检索词的可视化实体,包括:
候选实体的质量得分qe_Relation,是通过计算在具体语境下候选实体与检索词之间的相关性来得到,其计算公式为:
,其中,候选实体e与检索词q之间的相关性由候选实体e在检索词q的搜索结果中出现的频率和该候选实体与检索词之间的语义关联性共同决定,Freq为候选实体e在搜索结果中出现的频率,avgSLe为候选实体e与检索词q之间的语义关联性,其计算公式为:
作为一种可选的实施方式,在本发明实施例第一方面中,所述的将检索词和对应的可视化实体作为元素构建实体集合,计算实体集合中各元素之间的相关程度函数,包括:
作为一种可选的实施方式,在本发明实施例第一方面中,所述的实体识别方法,包括基于规则的实体识别方法、基于词典的实体识别方法和在线知识库方法。
可选的,在线知识库为***或百度百科等。
本实施例提供的搜索引擎历史界面可视化设计方案中,基于知识图谱的搜索历史可视化,以图的形式呈现用户搜索路径,其中概念联想节点等功能为用户提供与其检索词涉及领域最相关的若干权威概念,帮助用户快速获取信息需求相关的领域背景知识,使用户在领域背景知识储备不足、无法通过检索词描述清楚信息需求的情况下,高效定位信息需求,查找答案。
本实施例提供了搜索引擎历史界面可视化设计方案,可实现搜索结果批注功能、合作搜索小组等功能,通过搜索结果批注、共享小组成员搜索历史记录的方式,帮助用户在背景知识储备不足、无法通过个人探索完成搜索任务的情况下,从曾有相同信息需求的其他人用户的搜索日志、搜索结果、搜索结果批注等方面获取直接线索,从而大大提升解决困难搜索任务的效率。
实施例三
图1为本申请实施例的一种搜索引擎的检索词分析与基于搜索历史的知识图谱构建方法,用于从用户搜索历史数据中抽取相关实体并构建知识图谱。给定用户的搜索历史,数据处理流程及相关算法的实现思路如下:
(1)用户检索词分组-根据检索词之间的时间间隔,将搜索日志划分为若干检索词小组。
(2)搜索结果保存-给定检索词,存档该检索词对应的前20个词条至***数据库。
(3)基于检索词的相关实体(entity)抽取-给定某用户的检索词,通过FastEntityLinker得到***中与其相关的候选实体概念,并计算每个候选实体的质量分数,从而筛选出与检索词语义关联程度得分最高的5个实体用于可视化。这里,实体的质量得分qe_Relation,即结合具体语境时实体与检索词之间的相关程度得分,用以下计算公式表示:
规定实体e与检索词q之间的关联性由其在搜索结果词条中出现的频率和该实体与检索词之间的语义关联性共同决定,一般情况下,qe_Relation值越大,即实体e与检索词q之间的相关度越高。Freq为实体e在前20个搜索结果词条(即步骤(2)中存档的词条)中出现的频率,avgSLe为实体e与检索词q之间的关联程度取平均得分,即:
其中,ei为在第i个实体e出现的词条,即在该词条的语境中实体ei与检索词q之间的FastEntityLinker分数;计算实体e每次出现时(即ei),其与检索词q之间的关联程度,并取平均,从而得到前20个词条中,实体e与检索词q的平均关联程度。
其中,表示两个实体在***中同时出现的次数,/>表示搜索结果中同时出现次数最多的两个实体的共现次数。这里采用非线性函数表示实体集合内任意两个实体之间的相关性得分,以此来避免常识性实体(如:human,people)对集合语境下分数计算的影响。因此,即使集合中某对实体共现次数过高,超过阈值(1000次),该集合内其它实体对仍可在集合语境下得到较显著的相关性得分。
图2为本申请实施例提供的一种搜索引擎历史界面架构示意图。本例提供的搜索引擎历史相关页面设计包括搜索结果页(SERPs)、搜索结果网页、基于知识图谱的搜索历史界面、基于列表的搜索历史界面和搜索结果批注页面组成。其中,搜索结果网页为在搜索结果页(SERPs)上点击搜索结果后跳转至的页面;搜索结果批注页面是为了在搜索结果网页上进行批注而跳转至的页面。搜索结果页(SERPs)与搜索结果网页之间,搜索结果网页与搜索结果批注页面、基于知识图谱/列表的搜索历史界面之间,基于知识图谱的搜索历史界面与基于列表的搜索历史界面之间可以互相跳转。
图3为搜索结果页(SERPs)交互功能设计示意图。本实施例在搜索结果页(SERPs)上设置主题组添加功能和搜索结果批注查看功能。①为主题组添加功能按钮,点击某个搜索结果词条上的按钮①,用户即可通过弹出框提示,将该搜索结果词条及其对应的搜索结果网页添加保存至对应主题小组。②为搜索结果批注标签,标签上显示本搜索结果词条上的用户批注信息,点击②,可跳转至搜索结果批注页面查看该搜索结果页面对应的完整批注信息,或添加新批注并保存。
图4为基于知识图谱的搜索历史界面交互功能分区示意图。本界面支持用户个人搜索历史与主题组搜索历史可视化两个版本。用户可通过按钮⑦完成个人搜索历史与主题组搜索历史切换。③为交互式搜索日志会话,③所在区域为交互式的搜索日志会话列表功能分区,展示用户个人/主题组内其他用户的检索词会话;点击列表中任一搜索会话,页面中心区域即会显示该搜索日志会话对应的交互式知识图谱,如⑤所示。⑤中较大节点为检索词的可视化节点,与之相连的较小节点为每个检索词相关实体的可视化节点;检索词节点之间相连,共同构成用户搜索路径,知识图谱中任意两个节点之间是否相连,取决于两个节点词之间是否存在语义关系。点击⑤中任一节点,可在页面右侧功能区域查看包含该节点关键词的所有搜索结果词条。其中②为搜索结果批注标签(见图3描述)。⑥为用户历史行为标记,分为点击标记和浏览标记两种,若用户在搜索过程中点击/浏览过某条搜索结果词条,则在此搜索历史界面中,该词条上则会出现⑥作为点击/浏览标记。④为搜索历史界面切换按钮,用户可通过点击④切换至基于列表的搜索历史界面。
图5为为本申请实施例提供的另一种搜索引擎历史界面交互功能设计示意图。本界面支持用户个人搜索历史与主题组搜索历史可视化两个版本。用户可通过按钮⑦完成个人搜索历史与主题组搜索历史切换。其中,③为交互式搜索日志会话,③所在区域为交互式的搜索日志会话列表功能分区,展示用户个人/主题组内其他用户的检索词会话;②为搜索结果批注标签,⑥为用户历史行为标记,④为搜索历史界面切换按钮。各组件功能细节与基于知识图谱的搜索历史界面中各组件功能相同,具体见图3描述。
图6为本申请实施例的各个用户交互界面功能之间的交互流程示意图。
本实施例提供的搜索引擎历史界面可视化设计方案中,基于知识图谱的搜索历史可视化,以图的形式呈现用户搜索路径,其中概念联想节点等功能为用户提供与其检索词涉及领域最相关的若干权威概念,帮助用户快速获取信息需求相关的领域背景知识,使用户在领域背景知识储备不足、无法通过检索词描述清楚信息需求的情况下,高效定位信息需求,查找答案。
本实施例提供了搜索引擎历史界面可视化设计方案,可实现搜索结果批注功能、合作搜索小组等功能,通过搜索结果批注、共享小组成员搜索历史记录的方式,帮助用户在背景知识储备不足、无法通过个人探索完成搜索任务的情况下,从曾有相同信息需求的其他人用户的搜索日志、搜索结果、搜索结果批注等方面获取直接线索,从而大大提升解决困难搜索任务的效率。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (9)
1.一种面向互联网的辅助信息搜索方法,包括:
利用分组规则对用户的检索词进行分组;
从分组后的检索词中提取检索词实体信息,对检索词实体信息利用相关性准则构建搜索图谱;
对检索词的搜索结果和搜索图谱进行分类展示和分享;
所述的从分组后的检索词中提取检索词实体信息,对检索词实体信息利用相关性准则构建搜索图谱,包括:
从分组后的检索词中,采用实体识别方法提取检索词实体信息,作为检索词的候选实体,获取检索词的搜索结果,计算每个候选实体的质量分数,利用检索词语义关联规则,得到检索词的可视化实体,将所述的检索词的可视化实体作为搜索图谱中的节点,将检索词和对应的可视化实体作为元素构建实体集合,计算实体集合中各元素之间的相关程度函数,根据相关程度函数,建立实体集合中各元素间的关系,将该关系作为搜索图谱中的边;
所述的计算每个候选实体的质量分数,利用检索词语义关联规则,得到检索词的可视化实体,包括:
利用候选实体与检索词的搜索结果的相关程度,计算候选实体的质量分数,第i个候选实体ei与检索词q的搜索结果的相关程度由ei与搜索结果的语义相似度以及描述ei的概念集合与q的相关程度来共同表示,第i个候选实体ei与检索词q的第k条搜索结果的相关程度的表达式为:
其中,表示候选实体ei相关的描述性概念与检索词q的检索结果相关程度,<sj>表示候选实体ei对应的搜索结果语句中的短语集合,sj为ei对应的搜索结果语句中的第j个短语,即第j个描述性概念,n为候选实体ei对应的搜索结果语句中的短语的个数;CoO(sj)为sj与检索词q的搜索结果的共现相关性得分,其表达式为:
其中,m为sj和q共同出现的搜索结果的数量,Frqm(sj,q)为在sj和q共同出现的第m个搜索结果中sj和q的词频总和,Conm(art)为sj和q共同出现的第m个搜索结果所包含的单词数量;CohJ(ei,q)为候选实体ei与检索词q所对应的在线知识库文章之间的文本相似度,该文本相似度用于判断同一搜索结果标题中不同实体与检索词之间的相关性;
对同一候选实体与检索词的所有搜索结果的相关程度值取平均,得到该候选实体与检索词的搜索结果的相关程度;筛选出质量分数最高的若干个候选实体,作为检索词的可视化实体。
2.如权利要求1所述的面向互联网的辅助信息搜索方法,所述的利用分组规则对用户检索词进行分组,包括:
从用户搜索历史数据中提取检索词,并根据检索词的时间间隔或内容对其进行分组。
3.如权利要求1所述的面向互联网的辅助信息搜索方法,所述的搜索图谱,为利用检索词的实体所构成的知识图谱,搜索图谱以检索词的实体作为节点,节点之间的关系作为边。
4.如权利要求3所述的面向互联网的辅助信息搜索方法,所述的节点之间的关系包括检索词的实体之间的关系、实体概念之间的关系和检索词实体与实体概念之间的关系。
5.如权利要求1所述的面向互联网的辅助信息搜索方法,所述的实体识别方法,包括基于规则的实体识别方法、基于词典的实体识别方法和在线知识库方法。
6.如权利要求1所述的面向互联网的辅助信息搜索方法,所述的将检索词和对应的可视化实体作为元素构建实体集合,计算实体集合中各元素之间的相关程度函数,包括:
其中,表示实体集合的元素ep和eq在搜索结果中同时出现的次数,表示在搜索结果中同时出现次数最多的两个实体集合元素的同时出现次数,λ表示调和参数,num表示判别阈值,为两个实体集合元素之间的上下文关联度,其计算公式为:
其中,I1表示对ep和eq是否属于在线知识库的同一类别的判别结果,若ep和eq属于同一类别,则I1=1,否则,I1=0;I2表示对ep和eq在在线知识库中是否共同出现在同一句话或同一词组中的判别结果,若ep和eq共同出现在同一句话或同一词组中,则I2=共同出现句数/共同出现的文章数,否则,I2=0;
所述的共同出现的文章数,为ep和eq在在线知识库中共同出现的文章数。
7.如权利要求1所述的面向互联网的辅助信息搜索方法,所述的对检索词的搜索结果和搜索图谱进行分类展示和分享,包括:
对搜索图谱所包含的节点和边进行展示,利用边的透明度表示节点之间关系的强弱程度,根据用户的输入指令,显示检索词实体所对应的实体概念和节点。
8.如权利要求1所述的面向互联网的辅助信息搜索方法,所述的对检索词的搜索结果和搜索图谱进行分类展示和分享,包括:
对用户的检索词和对应搜索结果进行列表显示;对用户操作过的搜索结果进行标记显示;根据用户对搜索结果的输入信息,对搜索结果添加相应信息并显示;创建检索主题,将与检索主题相关的检索词或搜索结果添加入检索主题中,根据用户检索需求,对相关的检索主题进行分享。
9.如权利要求1所述的面向互联网的辅助信息搜索方法,所述的对检索词的搜索结果和搜索图谱进行分类展示和分享,包括:
对搜索结果页、搜索结果网页、检索词的搜索图谱页面、基于列表的搜索历史界面和搜索结果批注页面分别进行展示;所述的搜索结果页展示了检索词的搜索结果的摘要信息、对应搜索结果网页的链接、用户对搜索结果的批注的链接、检索词的搜索图谱页面的链接和基于列表的搜索历史界面的链接,搜索结果网页为在搜索结果页上点击搜索结果网页的链接后跳转至的页面,其展示了检索词的每个搜索结果所包含的具体信息,搜索结果批注页面展示了用户对检索词的搜索结果的批注信息,检索词的搜索图谱页面展示了检索词的搜索图谱,基于列表的搜索历史界面是将检索词的所有搜索结果采用列表形式进行展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210378394.9A CN114741627B (zh) | 2022-04-12 | 2022-04-12 | 面向互联网的辅助信息搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210378394.9A CN114741627B (zh) | 2022-04-12 | 2022-04-12 | 面向互联网的辅助信息搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114741627A CN114741627A (zh) | 2022-07-12 |
CN114741627B true CN114741627B (zh) | 2023-03-24 |
Family
ID=82282430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210378394.9A Active CN114741627B (zh) | 2022-04-12 | 2022-04-12 | 面向互联网的辅助信息搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114741627B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116340468A (zh) * | 2023-05-12 | 2023-06-27 | 华北理工大学 | 主题文献检索预测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679783A (zh) * | 2013-11-29 | 2015-06-03 | 北京搜狗信息服务有限公司 | 一种网络搜索方法和装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103365876B (zh) * | 2012-03-29 | 2020-04-24 | 北京百度网讯科技有限公司 | 基于关系图谱生成网络操作辅助信息的方法与设备 |
US9703859B2 (en) * | 2014-08-27 | 2017-07-11 | Facebook, Inc. | Keyword search queries on online social networks |
WO2018057945A1 (en) * | 2016-09-22 | 2018-03-29 | nference, inc. | Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities |
CN110929038B (zh) * | 2019-10-18 | 2023-07-21 | 平安科技(深圳)有限公司 | 基于知识图谱的实体链接方法、装置、设备和存储介质 |
CN111680207B (zh) * | 2020-03-11 | 2023-08-04 | 华中科技大学鄂州工业技术研究院 | 一种用于确定用户搜索意图的方法及装置 |
CN113987155B (zh) * | 2021-11-25 | 2024-03-26 | 中国人民大学 | 一种融合知识图谱与大规模用户日志的会话式检索方法 |
-
2022
- 2022-04-12 CN CN202210378394.9A patent/CN114741627B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679783A (zh) * | 2013-11-29 | 2015-06-03 | 北京搜狗信息服务有限公司 | 一种网络搜索方法和装置 |
Non-Patent Citations (2)
Title |
---|
基于知识图谱与语义计算的智能信息搜索技术研究;高龙等;《情报理论与实践》;20180510(第07期);全文 * |
知识图谱在实体检索中的应用研究综述;阮光册等;《图书情报工作》;20200720(第14期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114741627A (zh) | 2022-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Asani et al. | Restaurant recommender system based on sentiment analysis | |
Varathan et al. | Comparative opinion mining: a review | |
Moussa et al. | A survey on opinion summarization techniques for social media | |
US9183281B2 (en) | Context-based document unit recommendation for sensemaking tasks | |
US9659084B1 (en) | System, methods, and user interface for presenting information from unstructured data | |
US9715493B2 (en) | Method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model | |
RU2696305C2 (ru) | Браузинг изображений через интеллектуально проанализированные связанные гиперссылкой фрагменты текста | |
JP2016045652A (ja) | 質問文生成装置及びコンピュータプログラム | |
Pyshkin et al. | Approaches for web search user interfaces | |
Wicaksono et al. | Automatic extraction of advice-revealing sentences foradvice mining from online forums | |
JP2017134787A (ja) | 複数地域でのトピックの評価を分析する装置、プログラム及び方法 | |
Strzelecki et al. | Direct answers in Google search results | |
Fernandes et al. | Data science, machine learning and big data in digital journalism: A survey of state-of-the-art, challenges and opportunities | |
Yang et al. | Sentiment annotations for reviews: an information quality perspective | |
Viswanathan et al. | Ranking semantic relationships between two entities using personalization in context specification | |
CN114741627B (zh) | 面向互联网的辅助信息搜索方法 | |
Tietz et al. | Semantic Annotation and Information Visualization for Blogposts with refer. | |
Breja et al. | A survey on non-factoid question answering systems | |
Wong | Learning lightweight ontologies from text across different domains using the web as background knowledge | |
Monachesi et al. | What ontologies can do for eLearning | |
Golub et al. | EnTag: enhancing social tagging for discovery | |
Cheng et al. | Context-based page unit recommendation for web-based sensemaking tasks | |
Glance et al. | Analyzing online discussion for marketing intelligence | |
Tonkin | A day at work (with text): A brief introduction | |
Hinze et al. | Capisco: low-cost concept-based access to digital libraries |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |