CN112749246B - 搜索短语的评估方法、装置、服务器及存储介质 - Google Patents

搜索短语的评估方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN112749246B
CN112749246B CN201911048275.1A CN201911048275A CN112749246B CN 112749246 B CN112749246 B CN 112749246B CN 201911048275 A CN201911048275 A CN 201911048275A CN 112749246 B CN112749246 B CN 112749246B
Authority
CN
China
Prior art keywords
integrity
search phrase
relevance
search
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911048275.1A
Other languages
English (en)
Other versions
CN112749246A (zh
Inventor
田沐燃
郝心
李晓亮
黄艺华
刘一岑
曹晟
龙柏炜
张懿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911048275.1A priority Critical patent/CN112749246B/zh
Publication of CN112749246A publication Critical patent/CN112749246A/zh
Application granted granted Critical
Publication of CN112749246B publication Critical patent/CN112749246B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种搜索短语的评估方法、装置、服务器及存储介质。其中,该搜索短语的评估方法包括:获取语料;获取所述语料对应的搜索短语,所述搜索短语是所述语料中的关键词结合相匹配的热门搜索词而生成的短语,所述热门搜索词为搜索量大于预设阈值的实体词;对所述搜索短语进行检测,得到所述搜索短语的多维特征数据;根据所述多维特征数据,对所述搜索短语进行评估。本发明实施例通过对搜索短语的多维度智能评估,有效提高搜索短语的评估效率。

Description

搜索短语的评估方法、装置、服务器及存储介质
技术领域
本发明涉及计算机技术领域,具体涉及一种搜索短语的评估方法、装置、服务器及存储介质。
背景技术
情境搜索是搜索内容产品发展的重要方向。通过综合考虑用户背景、兴趣爱好,深入理解用户意图,并充分挖掘用户的潜在搜索需求,情境搜索可以更加智能化、便捷化地为用户提供想要的内容,突破传统的“搜索词-搜索结果”的搜索模式。基于文本内容推荐相关搜索短语,满足用户的延伸阅读需求,是情境搜索的主要应用场景之一。
目前,推荐的搜索短语主要由算法模型生成,但是算法模型依赖的语料库具有不可靠性,导致算法模型所生成的搜索短语不可靠。针对该问题,现有技术采用人工对算法模型生成的搜索短语逐个进行评估,但人工评估导致评估效率低下。
发明内容
本发明提供一种搜索短语的评估方法、装置、服务器及存储介质,能够有效提高搜索短语的评估效率。
第一方面,本发明提供一种搜索短语的评估方法,包括:
获取语料;
获取基于所述语料推荐的搜索短语;所述搜索短语是所述语料中的关键词结合相匹配的热门搜索词而生成的短语,所述热门搜索词为搜索量大于预设阈值的实体词
对所述搜索短语进行检测,得到所述搜索短语的多维特征数据;
根据所述多维特征数据,对所述搜索短语进行评估。
在本发明一些实施例中,所述对所述搜索短语进行检测,得到所述搜索短语的多维特征数据,具体包括:
对所述搜索短语与所述语料的相关性进行检测,得到相关度;
对所述搜索短语的完整性进行检测,得到完整度;
根据预设可用条件,对所述搜索短语的可用性进行检测,得到可用度;
将所述相关度、所述完整度和所述可用度添加至所述搜索短语的多维特征数据中。
在本发明一些实施例中,所述对所述搜索短语与所述语料的相关性进行检测,得到相关度,具体包括:
对所述搜索短语与所述语料的主题相关性进行检测,得到主题相关度;
对所述搜索短语与所述语料的实体相关性进行检测,得到实体相关度;
根据所述主题相关度和所述实体相关度,确定所述搜索短语与所述语料的相关度。
在本发明一些实施例中,所述对所述搜索短语与所述语料的主题相关性进行检测,得到主题相关度,具体包括:
识别所述语料的中心词;
识别所述搜索短语中的核心词,所述核心词包括所述关键词或所述热门搜索词;
根据预先建立的知识图谱,检测所述中心词与所述核心词是否满足预设主题条件中的至少一个主题条件;所述主题条件包括属于同一概念、关联于同一事件、具有从属关系、或者属于同一主体;
若否,则确定所述搜索短语与所述语料的主题相关度为第一主题相关度;
若是,则确定所述搜索短语与所述语料的主题相关度为第二主题相关度,所述第二主题相关度大于所述第一主题相关度。
在本发明一些实施例中,所述对所述搜索短语与所述语料的实体相关性进行检测,得到实体相关度,具体包括:
根据预先建立的知识图谱,检测所述中心词与所述核心词是否存在歧义;
若是,则确定所述搜索短语与所述语料的实体相关度为第一实体相关度;
若否,则确定所述搜索短语与所述语料的实体相关度为第二实体相关度,所述第二实体相关度大于所述第一实体相关度。
在本发明一些实施例中,所述根据所述主题相关度和所述实体相关度,确定所述搜索短语与所述语料的相关度,具体包括:
若所述主题相关度为第一主题相关度,则确定所述搜索短语与所述语料的相关度为第一相关度;
若所述主题相关度为第二主题相关度,且所述实体相关度为第一实体相关度,则确定所述搜索短语与所述语料的相关度为第二相关度;
若所述主题相关度为第二主题相关度,且所述实体相关度为第二实体相关度,则确定所述搜索短语与所述语料的相关度为第三相关度,所述第一相关度、所述第二相关度和所述第三相关度依次递增。
在本发明一些实施例中,所述对所述搜索短语的完整性进行检测,得到完整度,具体包括:
对所述搜索短语的文本完整性进行检测,得到文本完整度;
对所述搜索短语的语义完整性进行检测,得到语义完整度;
根据所述文本完整度和所述语义完整度,确定所述搜索短语的完整度。
在本发明一些实施例中,所述对所述搜索短语的文本完整性进行检测,得到文本完整度,具体包括:
检测所述搜索短语的语法结构是否完整;
若语法结构不完整,则确定所述搜索短语的文本完整度为第一文本完整度;
若语法结构完整,则检测所述搜索短语是否为并列短语或偏正短语;
若是,则确定所述搜索短语的文本完整度为第二文本完整度;
若否,则确定所述搜索短语的文本完整度为第三文本完整度,所述第一文本完整度、所述第二文本完整度和所述第三文本依次递增。
在本发明一些实施例中,所述对所述搜索短语的语义完整性进行检测,得到语义完整度,具体包括:
对所述搜索短语对应的语义信息进行识别;
若未识别到对应的语义信息,则确定所述搜索短语的语义完整度为第一语义完整度;
若识别到所述搜索短语对应至少两个语义信息,则确定所述搜索短语的语义完整度为第二语义完整度;
若识别到所述搜索短语对应一个语义信息,则确定所述搜索短语的语义完整度为第三语义完整度,所述第一语义完整度、所述第二语义完整度和所述第三语义完整度依次递增。
在本发明一些实施例中,所述根据所述文本完整度和所述语义完整度,确定所述搜索短语的完整度,具体包括:
若所述文本完整度为第一文本完整度,或者所述语义完整度为第一语义完整度,则确定所述搜索短语的完整度为第一完整度;
若所述文本完整度为第二文本完整度或第三文本完整度,且所述语义完整度为第二语义完整度,则确定所述搜索短语的完整度为第二完整度;
若所述文本完整度为第二文本完整度或第三文本完整度,且所述语义完整度为第三语义完整度,则确定所述搜索短语的完整度为第三完整度,所述第一完整度、所述第二完整度和所述第三完整度依次递增。
在本发明一些实施例中,所述相关度包括依次递增的第一相关度、第二相关度和第三相关度,所述完整度包括依次递增的第一完整度、第二完整度和第三完整度,所述可用度包括依次递增的第一可用度和第二可用度;
所述根据所述多维特征数据,对所述搜索短语进行评估,具体包括:
若所述相关度为第一相关度,或者所述完整度为第一完整度,或者所述可用度为第一可用度,则评估所述搜索短语的推荐度为第一推荐度;
若所述相关度为第三相关度,所述完整度为第三完整度,且所述可用度为第二可用度,则评估所述搜索短语的推荐度为第三推荐度;
否则,评估所述搜索短语的推荐度为第二推荐度,所述第一推荐度、所述第二推荐度和所述第三推荐度依次递增。
在本发明一些实施例中,所述方法还包括:
获取所述搜索短语的评估结果;
若所述评估结果满足预设的评估条件,则将所述搜索短语及其评估结果添加至训练样本中。
在本发明一些实施例中,所述方法还包括:
将所述搜索短语的评估结果以区块的形式保存在区块链中。
第二方面,本发明提供一种搜索短语的评估装置,包括:
语料获取模块,用于获取语料;
搜索短语获取模块,用于获取所述语料对应的搜索短语;所述搜索短语是所述语料中的关键词结合相匹配的热门搜索词而生成的短语,所述热门搜索词为搜索量大于预设阈值的实体词;
检测模块,用于对所述搜索短语进行检测,得到所述搜索短语的多维特征数据;以及,
评估模块,用于根据所述多维特征数据,对所述搜索短语进行评估。
第三方面,本发明提供一种服务器,包括存储器和处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取语料;
获取所述语料对应的搜索短语;所述搜索短语是所述语料中的关键词结合相匹配的热门搜索词而生成的短语,所述热门搜索词为搜索量大于预设阈值的实体词;
对所述搜索短语进行检测,得到所述搜索短语的多维特征数据;
根据所述多维特征数据,对所述搜索短语进行评估。
第四方面,本发明提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行第一方面中任一项所述的搜索短语的评估方法中的步骤。
本发明实施例通过获取语料,进而获取语料对应的搜索短语,对搜索短语进行检测,得到搜索短语的多维特征数据,并根据多维特征数据,实现对搜索短语的多维度智能评估,有效提高搜索短语的评估效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中提供的搜索短语的评估***的一个场景示意图;
图2是本发明实施例中提供的分布式***应用于区块链***的一个可选的结构示意图;
图3是本发明实施例中提供的区块结构一个可选的示意图;
图4是本发明实施例中提供的搜索短语的评估方法的一个流程示意图;
图5是本发明实施例中搜索短语的推荐界面示意图;
图6是本发明实施例中提供的搜索短语的评估方法的另一个流程示意图;
图7是本发明实施例中提供的搜索短语的评估装置的一个结构示意图;
图8是本发明实施例中提供的服务器的一个结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有说明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存***中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实***置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语“模块”或“单元”可看做为在该运算***上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算***上的实施对象。而本文所述的装置及方法优选的以软件的方式进行实施,当然也可在硬件上进行实施,均在本发明保护范围之内。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式 “一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本发明实施例提供一种搜索短语的评估方法、装置、服务器及存储介质。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本发明实施例提供的方案可以是涉及人工智能的搜索短语的评估方法,即本发明实施例中提供一种基于人工智能的搜索短语的评估方法,该方法包括:获取语料;获取所述语料对应的搜索短语;所述搜索短语是所述语料中的关键词结合相匹配的热门搜索词而生成的短语,所述热门搜索词为搜索量大于预设阈值的实体词;利用机器学习算法,对所述搜索短语进行检测,得到所述搜索短语的多维特征数据;根据所述多维特征数据,对所述搜索短语进行评估。
请参阅图1,图1为本发明实施例所提供的搜索短语的评估***的场景示意图,该搜索短语的评估***可以包括服务器10,服务器10中集成有搜索短语的评估装置。本发明实施例中服务器10主要用于获取语料;获取所述语料对应的搜索短语;所述搜索短语是所述语料中的关键词结合相匹配的热门搜索词而生成的短语,所述热门搜索词为搜索量大于预设阈值的实体词;对所述搜索短语进行检测,得到所述搜索短语的多维特征数据;根据所述多维特征数据,对所述搜索短语进行评估。
本发明实施例中,该服务器10可以是独立的服务器,也可以是服务器组成的服务器网络或服务器集群,例如,本发明实施例中所描述的服务器10,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中,云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。
本领域技术人员可以理解,图1中示出的应用环境,仅仅是与本申请方案一种应用场景,并不构成对本申请方案应用场景的限定,其他的应用环境还可以包括比图1中所示更多或更少的服务器,或者服务器网络连接关系,例如图1中仅示出1个服务器,可以理解的,该搜索短语的评估***还可以包括一个或多个其他服务器,或/且一个或多个与服务器网络连接的客户端,具体此处不作限定。
另外,如图1所示,该搜索短语的评估***还可以包括存储器20,用于存储数据,如语料库,该语料库中保存有语料,如资讯、文章,以及语料对应的搜索短语等,存储器20还可以包括特征数据库,该特征数据库中保存有搜索短语的多维特征数据,存储器20还可以包括评估结果数据库,该评估结果数据库中保存有搜索短语的评估结果。
需要说明的是,图1所示的搜索短语的评估***的场景示意图仅仅是一个示例,本发明实施例描述的搜索短语的评估***以及场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着搜索短语的评估***的演变和新业务场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。
本发明实施例涉及的搜索短语的评估***可以是由多个节点(接入网络中的任意形式的计算设备,如服务器10等)通过网络通信的形式连接形成的分布式***。
以分布式***为区块链***为例,参见图2,图2是本发明实施例提供的分布式***100应用于区块链***的一个可选的结构示意图,由多个节点200(接入网络中的任意形式的计算设备,如服务器)和客户端300形成,节点之间形成组成的点对点(P2P,Peer To Peer)网络,P2P 协议是一个运行在传输控制协议(TCP,Transmission Control Protocol )协议之上的应用层协议。在分布式***中,任何机器如服务器、终端都可以加入而成为节点,节点包括硬件层、中间层、操作***层和应用层。本发明实施例中服务器10分别为区块链***中的一个节点。
参见图2示出的区块链***中各节点的功能,涉及的功能包括:
1)路由,节点具有的基本功能,用于支持节点之间的通信。
节点除具有路由功能外,还可以具有以下功能:
2)应用,用于部署在区块链中,根据实际业务需求而实现特定业务,记录实现功能相关的数据形成记录数据,在记录数据中携带数字签名以表示任务数据的来源,将记录数据发送到区块链***中的其他节点,供其他节点在验证记录数据来源以及完整性成功时,将记录数据添加到临时区块中。
例如,应用实现的业务包括:
2.1)钱包,用于提供进行电子货币的交易的功能,包括发起交易(即,将当前交易的交易记录发送给区块链***中的其他节点,其他节点验证成功后,作为承认交易有效的响应,将交易的记录数据存入区块链的临时区块中;当然,钱包还支持查询电子货币地址中剩余的电子货币;
2.2)共享账本,用于提供账目数据的存储、查询和修改等操作的功能,将对账目数据的操作的记录数据发送到区块链***中的其他节点,其他节点验证有效后,作为承认账目数据有效的响应,将记录数据存入临时区块中,还可以向发起操作的节点发送确认。
2.3)智能合约,计算机化的协议,可以执行某个合约的条款,通过部署在共享账本上的用于在满足一定条件时而执行的代码实现,根据实际的业务需求代码用于完成自动化的交易,例如查询买家所购买商品的物流状态,在买家签收货物后将买家的电子货币转移到商户的地址;当然,智能合约不仅限于执行用于交易的合约,还可以执行对接收的信息进行处理的合约。
3)区块链,包括一系列按照产生的先后时间顺序相互接续的区块 (Block),新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链***中节点提交的记录数据。
参见图3,图3是本发明实施例提供的区块结构(Block Structure)一个可选的示意图,每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值,各区块通过哈希值连接形成区块链。另外,区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了相关的信息,用于验证其信息的有效性(防伪)和生成下一个区块。
当本发明实施例中搜索短语的评估***为区块链***,本发明实施例中服务器为区块链***中的一个节点,搜索短语的评估结果可以保存在区块链中。具体的,本发明实施例,所述方法还包括:获取所述搜索短语的评估结果;将所述搜索短语的评估结果以区块的形式保存在区块链中。具体添加区块的方式可以参照上述区块链***的描述,此处不再赘述。
下面结合具体实施例进行详细说明。
在本实施例中,将从搜索短语的评估装置的角度进行描述,该搜索短语的评估装置具体可以集成在服务器10中。
本发明提供一种搜索短语的评估方法,该搜索短语的评估方法包括:获取语料;获取所述语料对应的搜索短语;所述搜索短语是所述语料中的关键词结合相匹配的热门搜索词而生成的短语,所述热门搜索词为搜索量大于预设阈值的实体词;对所述搜索短语进行检测,得到所述搜索短语的多维特征数据;根据所述多维特征数据,对所述搜索短语进行评估。
请参阅图4,为本发明实施例中本发明实施例中搜索短语的评估方法的一个流程示意图,该搜索短语的评估方法包括:
401、获取语料。
语料是指语言材料,本发明实施例中的语料是指提供给用户阅读、查看的文本信息,如网站上的资讯、文章等。其中,一个资讯或一篇文章构成一个语料,如图5所示,浏览器的主显示区51显示的标题为“央视直播澳公赛14日决赛预告,许某唯一外战,孙某某有望夺冠”的文章即可构成一个语料。
402、获取所述语料对应的搜索短语;所述搜索短语是所述语料中的关键词结合相匹配的热门搜索词而生成的短语,所述热门搜索词为搜索量大于预设阈值的实体词。
其中,实体词是指具有唯一指代性的专有名词。为了满足用户的延伸阅读需求,通过构建推荐模型,使该推荐模型基于语料的具体内容生成相关的搜索短语,推荐给用户。具体地,先根据预先构建的词库从语料中提取多个候选关键词,再计算每个候选关键词在语料中的重要程度,以将重要程度高于预设程度值的候选关键词作为语料的关键词。同时,获取搜索引擎中的多个热门搜索词,多个热门搜索词是搜索引擎根据大量用户的实际搜索统计得出。进而,将语料的关键词与每个热门搜索词进行匹配,得到语料的关键词与每个热门搜索词的匹配度,将匹配度大于预设匹配值的热门搜索词与语料的关键词相结合,以生成搜索短语推荐给用户。
用户在阅读完语料后,无需手动输入语料的相关内容,只需点击选取语料对应的搜索短语即可实现语料相关内容的快速搜索,从而极大提升用户使用体验。但是,由于热门搜索词为用户实际搜索的词语,具有一定的不可靠性,导致基于热门搜索词而生成的搜索短语也具有一定的不可靠性,因此需对搜索短语进行多维度检测,以评估搜索短语的推荐度等。
在对搜索短语进行多维度检测之前,可以先对搜索短语进行初步筛选,以去除不符合要求的短语。具体地,推荐模型基于上述方法可以生成多个搜索短语,每个搜索短语对应有一个语料的关键词。检测每个搜索短语对应的关键词是否为敏感词,去除关键词为敏感词的搜索短语,即该搜索短语不再进行后续的评估操作。
如图5所示,基于文章的内容,推荐模型生成了六个搜索短语,并在主显示区51的底部区域52显示该六个搜索短语“孙某某的教练、孙某某vs朱某某、男单半决赛直播、2019年温网男单、cctv5+是什么、许某教练”。
403、对所述搜索短语进行检测,得到所述搜索短语的多维特征数据。
为了提高搜索短语检测的准确性,可以对搜索短语进行多维度检测,搜索短语的每一维度检测均会得到相应的特征数据,从而得到多维特征数据。多维度检测可以包括相关性检测、完整性检测和可用性检测,相应地,多维特征数据可以包括相关度、完整度和可用度。
具体地,步骤403中的所述对所述搜索短语进行检测,得到所述搜索短语的多维特征数据,包括:对所述搜索短语与所述语料的相关性进行检测,得到相关度;对所述搜索短语的完整性进行检测,得到完整度;根据预设可用条件,对所述搜索短语的可用性进行检测,得到可用度;将所述相关度、所述完整度和所述可用度添加至所述搜索短语的多维特征数据中。其中,相关性、完整性和可用性可以通过不同的检测方式实现,具体如下:
(1)相关性检测
相关性检测是对搜索短语和语料的关联性进行分析。搜索短语与语料的相关性检测可以通过搜索短语与语料中词语的相关性检测来实现。具体地,所述对所述搜索短语与所述语料的相关性进行检测,得到相关度,具体包括:提取所述语料的中心句;识别所述中心句中的中心词;识别所述搜索短语中的核心词;根据所述中心词和所述核心词,对所述搜索短语与所述语料的相关性进行检测,得到相关度。
其中,中心句是指能够概况语料核心内容的最精炼的句子,即删除中心句中的任何内容会导致关键信息不完整。中心句中的中心词是指句子中的专有名词(主语或宾语),或具象的动作、状态(谓语或表语)。中心词的识别可以通过神经网络来实现,即先从中心句中提取候选中心词,同时计算候选中心词的权重,选取权重大于阈值(如0.5)的候选中心词作为中心词。搜索短语中核心词的识别可以通过后验概率和信息增益来实现,同样从搜索短语中提取候选核心词,同时计算候选核心词的权重,选取权重大于阈值(如0.5)的候选核心词作为核心词。
需要说明的是,中心句中可以识别出多个中心词,搜索短语中可以识别出多个核心词,例如搜索短语对应的语料的关键词、热门搜索词等。分别检测每个中心词与每个核心词的相关性,任一中心词与任一核心词的相关性检测均可得到相应的相关度,从得到的相关度中选取最大的相关度,作为搜索短语与语料的相关度。例如,中心句中识别出2个中心词A、B,搜索短语中识别出3个核心词C、D、E,分别检测中心词A与核心词C、D、E的相关性,同时分别检测中心词B与核心词C、D、E的相关性,得到6个相关度,而6个相关度中中心词B与核心词C的相关度最大,因此将中心词B与核心词C的相关度作为搜索短语与语料的相关度。另外,需要说明的是,本发明实施例中的相关性检测是指正相关性的检测,即检测到的相关度越大,表明搜索短语与语料越相关。
相关性检测可以包括两方面的检测,即主题相关性检测和实体相关性检测。具体地,所述根据所述核心词和所述中心词,对所述搜索短语与所述语料的相关性进行检测,得到相关度,包括:根据所述中心词和所述核心词,对所述搜索短语与所述语料的主题相关性进行检测,得到主题相关度;根据所述中心词和所述核心词,对所述搜索短语与所述语料的实体相关性进行检测,得到实体相关度;根据所述主题相关度和所述实体相关度,确定所述搜索短语与所述语料的相关度。
其中,搜索短语与语料的主题相关性检测可以通过中心词与核心词的主题相关性检测来实现。主题相关性是指两者主要内容的关联性。具体地,所述根据所述核心词和所述中心词,对所述搜索短语与所述语料的主题相关性进行检测,得到主题相关度,包括:根据预先建立的知识图谱,检测所述核心词与所述中心词是否满足预设主题条件中的至少一个主题条件;所述主题条件包括属于同一概念、关联于同一事件、具有从属关系、描述同一事物、或者属于同一主体;若否,则确定所述搜索短语与所述语料的主题相关度为第一主题相关度;若是,则确定所述搜索短语与所述语料的主题相关度为第二主题相关度,所述第二主题相关度大于所述第一主题相关度。其中,主题相关度越大,表明搜索短语与语料的主题越相关。
需要说明的是,知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。由于中心词和核心词均为实体词,因此可通过知识图谱获取中心词与核心词之间的关联关系,进而根据该关联关系检测中心词与核心词的相关性。
根据两个相关词语所需具备的关联关系,预先设置多个主题条件,以通过检测中心词与核心词是否满足任一主题条件,实现搜索短语与语料的主题相关性的检测。例如,设置一个主题条件为属于同一概念,则检测中心词与核心词在知识图谱中是否直接关联,且实体属性是否相同,实体属性是指实体所指向的类型,如汽车类、事件类等,若中心词与核心词在知识图谱中直接关联,且实体属性相同,则判定中心词与核心词满足该主题条件,如中心词为大众CC,核心词为丰田SUV,而大众CC和丰田SUV同属于汽车,满足该主题条件。设置一个主题条件为关联于同一事件,则检测中心词与核心词在知识图谱中是否直接关联,且是否均为名词性实体,若是,则判定中心词与核心词满足该主题条件,如中心词为本某某,核心词为世贸大厦,本某某与世贸大厦均出现于911事件中,满足该主题条件。设置一个主题条件为具有从属关系,则检测核心词在知识图谱中是否为中心词的上位词,即关系箭头是否由核心词指向中心词,若是,则判定中心词与核心词满足该主题条件,如中心词为李某某,核心词为玄幻小说,而李某某为某玄幻小说的人物名称,则李某某与玄幻小说具有从属关系,满足该主题条件。设置一个主题条件为属于同一主体,如描述同一主体,或者具象的动作、状态属于同一主体等,可以检测核心词和中心词是否关联相同词语,若是,则判定中心词与核心词满足该主题条件,如中心词为八达兽,核心词为天女兽,而八达兽可以进化为天女兽,即八达兽与天女兽属于同一主体的不同阶段,满足该主题条件,又如中心词为狗狗感冒中的感冒,核心词为人感冒中的感冒,而狗狗和人不属于同一主体,不满足该主题条件。
中心词与核心词之间的关联关系只要满足任一主题条件,即可确定中心词与核心词的主题相关,从而确定搜索短语与语料的主题相关,设置其主题相关度为第二主题相关度,如1;若每个主题条件都不满足,则确定中心词与核心词的主题不相关,从而确定搜索短语与语料的主题不相关,设置其主题相关度为第一主题相关度,如0。
搜索短语与语料的实体相关性检测可以通过核心词与中心词的实体相关性检测来实现。实体相关性是指两者所描述实体的关联性。具体地,所述根据所述中心词和所述核心词,对所述搜索短语与所述语料的实体相关性进行检测,得到实体相关度,包括:根据预先建立的知识图谱,检测所述中心词与所述核心词是否存在歧义;若是,则确定所述实体相关度为第一实体相关度;若否,则确定所述实体相关度为第二实体相关度,所述第二实体相关度大于所述第一实体相关度。其中,实体相关度越大,表明搜索短语与语料的实体越相关。
需要说明的是,两个词语的歧义检测可以通过检测知识图谱中两个词语的上位词来实现,即分别获取中心词与核心词在知识图谱中的上位词,并检测中心词的上位词与核心词的上位词是否相同,若相同,则表明中心词与核心词不存在歧义,若不同,则表明中心词与核心词存在歧义。例如,中心词为广州西湖中的西湖,核心词为杭州西湖中的西湖,两个西湖的上位词不同,存在歧义。
若中心词与核心词存在歧义,则确定中心词与核心词实体不相关,从而确定搜索短语与语料的实体不相关,设置其实体相关度为第一实体相关度,如0;若中心词与核心词不存在歧义,则确定中心词与核心词实体相关,从而确定中心词与核心词实体相关,设置其实体相关度为第二实体相关度,如1。
在获取搜索短语与语料的主题相关度和实体相关度后,即可根据主题相关度和实体相关度,确定搜索短语与语料的相关度,具体为:若所述主题相关度为第一主题相关度,则确定所述搜索短语与所述语料的相关度为第一相关度;若所述主题相关度为第二主题相关度,且所述实体相关度为第一实体相关度,则确定所述搜索短语与所述语料的相关度为第二相关度;若所述主题相关度为第二主题相关度,且所述实体相关度为第二实体相关度,则确定所述搜索短语与所述语料的相关度为第三相关度,所述第一相关度、所述第二相关度和所述第三相关度依次递增。
由于主题相关性在搜索短语与语料的相关性检测中所占的权重更大,因此主要基于主题相关度来设置搜索短语与语料的相关度。若主题相关度为第一主题相关度,如0,搜索短语与语料的主题不相关,则确定搜索短语与语料不相关,设置搜索短语与语料的相关度为第一相关度,如0;若主题相关度为第二主题相关度,如1,实体相关度为第一实体相关度,如0,则确定搜索短语与语料相关,但相关度低,设置搜索短语与语料的相关度为第二相关度,如1;若主题相关度为第二主题相关度,如1,实体相关度为第二实体相关度,如1,则确定搜索短语与语料相关,且相关度高,设置搜索短语与语料的相关度为第三相关度,如2,具体的相关度确定规则如表1所示。
表1
(2)完整性检测
完整性检测是指对搜索短语的结构和语义信息的完整度检测。完整性检测可以包括两个方面的检测,即文本完整性检测和语义完整性检测。具体地,所述对所述搜索短语的完整性进行检测,得到完整度,包括:对所述搜索短语的文本完整性进行检测,得到文本完整度;对所述搜索短语的语义完整性进行检测,得到语义完整度;根据所述文本完整度和所述语义完整度,确定所述搜索短语的完整度。
其中,搜索短语的文本完整性检测可以通过检测搜索短语的语法结构来实现。具体地,所述对所述搜索短语的文本完整性进行检测,得到文本完整度,包括:检测所述搜索短语的语法结构是否完整;若语法结构不完整,则确定所述搜索短语的文本完整度为第一文本完整度;若语法结构完整,则检测所述搜索短语是否为并列短语或偏正短语;若是,则确定所述搜索短语的文本完整度为第二文本完整度;若否,则确定所述搜索短语的文本完整度为第三文本完整度,所述第一文本完整度、所述第二文本完整度和所述第三文本完整度依次递增。其中,文本完整度越大,搜索短语的文本越完整。
需要说明的是,语法结构的完整包括结构完整和词语完整,语法结构是否完整可以通过概率模型来判断,即预先构建概率模型,对用户主动输入的搜索词进行采集,并将采集到的搜索词输入概率模型中进行训练,以使概率模型能够检测用户主动搜索不同词语的概率,进而对搜索短语进行分词处理,并获取搜索短语中的最后一个词语,将该词语输入至概率模型,得到用户主动搜索该词语的概率,若概率高于一定的阈值,则判定搜索短语的语法结构完整,否则搜索短语的语法结构不完整。搜索短语的语法结构不完整可以直接确定搜索短语的文本不完整,如搜索短语为深圳今日、深圳天油价。确定搜索短语不完整时,设置搜索短语的文本完整度为第一文本完整度,如0。
搜索短语的语法结构完整可以确定搜索短语的文本完整,但不同搜索短语的文本完整度会存在差异,还需对搜索短语的结构类型进行识别,检测搜索短语是否为词与词的拼接,即并列短语、偏正短语等,若是,则表明搜索短语的文本完整度较低,如翼虎油耗、翼虎的油耗、王某某朋友、王某某的朋友,确定文本完整度为第二文本完整度,如1。若搜索短语为主谓短语、动宾短语等与动补短语、形补短语、介宾短语等组合形成的短文本,则表明搜索短语的文本完整度较高,确定搜索短语的文本完整度为第三文本完整度,如2。
语义完整性的检测可通过识别搜索短语对应的语义信息来实现。具体地,所述对所述搜索短语的语义完整性进行检测,得到语义完整度,包括:对所述搜索短语对应的语义信息进行识别;若未识别到对应的语义信息,则确定所述搜索短语的语义完整度为第一语义完整度;若识别到所述搜索短语对应至少两个语义信息,则确定所述搜索短语的语义完整度为第二语义完整度;若识别到所述搜索短语对应一个语义信息,则确定所述搜索短语的语义完整度为第三语义完整度,所述第一语义完整度、所述第二语义完整度和所述第三语义完整度依次递增。其中,语义完整度越高,表明搜索短语的语义越完整。
需要说明的是,语义信息的识别过程可以为对搜索短语进行分词处理,确定搜索短语中的每个词语的含义以及词语之间的关联关系,从而判断搜索短语是否描述了一个具象的内容、事件、场景、行为、概念、方法等,若否,则表明搜索短语未对应任何语义信息,难以理解搜索短语的语义,或搜索短语无意义、语义空泛、不具有探索价值等,即搜索短语的语义不完整,如家长学生,从而确定搜索短语的语义完整度为第一语义完整度,如0;若是,则表明搜索短语的语义完整。但不同搜索短语的语义完整度会存在差异,还需检测搜索短语是否具有多种接续的可能性,若具有,则表明搜索短语对应多个语义信息,即搜索短语语义完整度较低,如翼虎的油耗,可以对应语义信息“翼虎油耗大不大”,也可以对应语义信息“翼虎油耗冬夏差别大吗”,从而确定搜索短语的语义完整度为第二语义完整度,如1;若不具有,则表明搜索短语仅对应一个语义信息,语义完整度高,如苏轼蝶恋花全文,从而确定搜索短语的语义完整度为第三语义完整度,如2。
在获取搜索短语的文本完整度和语义完整度后,即可根据文本完整度和语义完整度,确定搜索短语的完整度,具体为:若所述文本完整度为第一文本完整度,或者所述语义完整度为第一语义完整度,则确定所述搜索短语的完整度为第一完整度;若所述文本完整度为第二文本完整度或第三文本完整度,且所述语义完整度为第二语义完整度,则确定所述搜索短语的完整度为第二完整度;若所述文本完整度为第二文本完整度或第三文本完整度,且所述语义完整度为第三语义完整度,则确定所述搜索短语的完整度为第三完整度,所述第一完整度、所述第二完整度和所述第三完整度依次递增。其中,完整度越高,表明搜索短语越完整。
由于语义完整性在搜索短语的完整性检测中所占的权重更大,因此主要基于语义完整度来设置搜索短语的完整度。若文本完整度为第一文本完整度,如0,或者语义完整度为第一语义完整度,如0,即文本完整度和语义完整度中任意一个为0,则确定搜索短语不完整,设置搜索短语的完整度为第一完整度,如0;若文本完整度为第二文本完整度或第三文本完整度,即文本完整度非0,即文本完整,则搜索短语的完整度与语义完整度相一致:若语义完整度为第二语义完整度,如1,则搜索短语的完整度为第二完整度,如1,若语义完整度为第三语义完整度,如2,则搜索短语的完整度为第三完整度,如2,具体的完整度确定规则如表2所示。
表2
(3)可用性检测
可用性检测是指检测搜索短语是否可以被使用。搜索短语的可用性检测可以通过预先设置的可用条件来实现。具体地,所述对所述搜索短语的可用性进行检测,得到可用度,包括:检测所述搜索短语是否满足预设可用条件;所述可用条件包括不属于查询意图类短语,不具有敏感词,不存在词语残缺,以及不属于谣言;若否,则确定所述搜索短语的可用度为第一可用度;若是,则确定所述搜索短语的可用度为第二可用度,所述第二可用度大于所述第一可用度。其中,可用度越大,表明搜索短语越具有可用性。
其中,可用条件通过设置四个条件来对搜索短语的可用性进行检测。对于第一个条件,检测搜索短语是否属于查询意图类短语,查询意图类短语可以包括内容获取类短语,如杭州消防报名网;资源获取类短语,如Axure8激活码、传奇单机版;信息查询类短语,如深圳92汽油价格、刘某某老婆、李某某女儿。查询意图类短语的检测可以通过获取搜索短语的后缀,并检测搜索短语的后缀是否为预设的查询意图类词语来实现,若搜索短语的后缀为查询意图类词语,则表明搜索短语为查询意图类短语,判定搜索短语不满足第一个条件,否则判定搜索短语满足第一个条件。
对于第二个条件,检测搜索短语中是否具有敏感词,敏感词可以包括黄反暴力等词汇,如色情,暴力,反动、政治敏感词,以及其他不符合***核心价值观的词汇;敏感词还可以包括引起用户不适的词汇,如恶心、恐怖、低俗、脏话、具有浓厚负面情绪的词汇。敏感词的检测可以通过对搜索短语进行分词后,分别检测搜索短语中的每一词语是否为预设的敏感词来实现,若搜索短语中有词语为敏感词,则表明搜索短语具有敏感词,判定搜索短语不满足第二个条件,否则判定搜索短语满足第二个条件。
对于第三个条件,检测搜索短语中是否存在词语残缺,词语残缺是指搜索短语中有内容损失,导致内部词语没有含义,如学家。词语残缺的检测可以通过识别搜索短语中的词语来实现,若搜索短语中具有不能识别的词语,则表明搜索短语存在词语残缺,判定搜索短语不满足第三个条件,否则判定搜索短语满足第三个条件。
对于第四个条件,检测搜索短语是否属于谣言,谣言是指内容真实性存疑,或者具有常识性错误的信息,如吃甘蔗帮助减肥、吸烟有益健康。谣言的检测可以通过检测搜索短语在搜索引擎中是否对应有搜索结果来实现,若搜索短语无对应的搜索结果,则表明搜索短语属于谣言,判定搜索短语不满足第四个条件,否则判定搜索短语满足第四个条件。
搜索短语需同时满足上述四个条件,才能确定搜索短语可用,确定搜索短语的可用度为第二可用度,如1。若搜索短语不满足上述任意一个条件,则确定搜索短语不可用,设置搜索短语的可用度为第一可用度,如0。
在获取搜索短语与语料的相关度、搜索短语的完整度和可用度后,即可根据相关度、完整度和可用度,对搜索短语进行评估,具体为:若所述相关度为第一相关度,或者所述完整度为第一完整度,或者所述可用度为第一可用度,则评估所述搜索短语的推荐度为第一推荐度;若所述相关度为第三相关度,所述完整度为第三完整度,且所述可用度为第二可用度,则评估所述搜索短语的推荐度为第三推荐度;否则,评估所述搜索短语的推荐度为第二推荐度,所述第一推荐度、所述第二推荐度和所述第三推荐度依次递增。
需要说明的是,若相关度为第一相关度,或者完整度为第一完整度,或者可用度为第一可用度,即搜索短语与语料不相关,或者搜索短语不完整,或者搜索短语不可用,则评估搜索短语为不推荐的短语,设置搜索短语的推荐度为第一推荐度,如0;若相关度为第三相关度,完整度为第三完整度,且可用度为第二可用度,即搜索短语与语料的相关度高,搜索短语的完整度高,且搜索短语可用,则评估搜索短语为推荐的短语,且推荐度高,设置推荐度为第三推荐度,如2;否则,相关度为第二相关度,完整度为第三完整度,且可用度为第二可用度,即搜索短语与语料的相关度低,搜索短语的完整度高,且搜索短语可用,则评估搜索短语为推荐的短语,但推荐度低,设置推荐度为第二推荐度,如1,或者相关度为第三相关度,完整度为第二完整度,且可用度为第二可用度,即搜索短语与语料的相关度高,搜索短语的完整度低,且搜索短语可用,则评估搜索短语为推荐的短语,但推荐度低,设置推荐度为第二推荐度,如1。
另外,本发明实施例在对搜索短语的评估过程中,还可选取优质搜索短语,实现各种算法模型的迭代优化。具体地,所述方法还包括:获取所述搜索短语的评估结果;若所述评估结果满足预设的评估条件,则将所述搜索短语及其评估结果添加至训练样本中。
搜索短语的评估结果可以包括搜索短语的推荐度,预设的评估条件可以为大于预设的推荐度阈值。将搜索短语的推荐度与预设的推荐度阈值进行比较,若搜索短语的推荐度大于预设的推荐度阈值,则将该搜索短语及其推荐度添加至推荐模型的训练样本中。
例如,推荐度可以分为三个级别,即第一推荐度(如0)、第二推荐度(如1)和第三推荐度(如2),预设的推荐度阈值为0.5,则评估为第二推荐度或第三推荐度的搜索短语及其推荐度可以加入推荐模型的训练样本中,实现推荐模型的迭代优化,使推荐模型生成更加符合用户预期的搜索短语。
同理,本发明实施例还可根据搜索短语与语料的相关度,选取相关度大于相关度阈值的搜索短语,添加至相关性模型的训练样本中,实现相关性模型的迭代优化;根据搜索短语的完整度,选取完整度大于完整度阈值的搜索短语,添加至完整性模型的训练样本中,实现完整性模型的迭代优化;根据搜索短语的可用度,选取可用度大于可用度阈值的搜索短语,添加至可用性模型的训练样本中,实现可用性模型的迭代优化。
更具体地,本发明实施例还可根据搜索短语与语料的主题相关度,选取主题相关度大于主题相关度阈值的搜索短语,添加至主题相关性模型的训练样本中,实现主题相关性模型的迭代优化;根据搜索短语与语料的实体相关度,选取实体相关度大于实体相关度阈值的搜索短语,添加至实体相关性模型的训练样本中,实现实体相关性模型的迭代优化;根据搜索短语的文本完整度,选取文本完整度大于文本完整度阈值的搜索短语,添加至文本完整性模型的训练样本中,实现文本完整性模型的迭代优化;根据搜索短语的语义完整度,选取语义完整度大于语义完整度阈值的搜索短语,添加至语义完整性模型的训练样本中,实现语义完整性模型的迭代优化。另外,本发明实施例还可根据敏感词的识别结果,选取相应的搜索短语,添加至敏感词识别模型的训练样本中,实现敏感词识别模型的迭代优化;根据谣言的识别结果,选取相应的搜索短语,添加至谣言识别模型的训练样本中,实现谣言识别模型的迭代优化。
下面结合一具体应用场景对本发明实施例中搜索短语的评估方法进行描述。
请参阅图6,为本发明实施例中搜索短语的评估方法的另一个实施例流程示意图,该搜索短语的评估方法应用于服务器,该搜索短语的评估方法包括:
601、获取文章内容。
例如,获取图5中标题为“央视直播澳公赛14日决赛预告,许某唯一外战,孙某某有望夺冠”的文章内容。
602、获取文章内容对应的搜索短语。
搜索短语是基于文章内容中的关键词而生成的。在获取搜索短语时,还可检测该搜索短语对应的关键词是否为敏感词,若关键词为敏感词,则去除该搜索短语。例如,获取图5中文章内容底部推荐的搜索短语“孙某某的教练”,该搜索短语对应的关键词为“孙某某”,不是敏感词,因此保留该搜索短语,继续后续的评估。
603、检测文章内容与搜索短语的主题相关性,并对主题相关性进行评分。
若主题相关,则主题相关性的评分为1,若主题不相关,则主题相关性的评分为0。例如,搜索短语“孙某某的教练”中的核心词“孙某某”与文章内容中的中心词“孙某某”属于同一主体,则搜索短语与文章内容主题相关,评分为1。
604、检测文章内容与搜索短语的实体相关性,并对实体相关性进行评分。
若实体相关,则实体相关性的评分为1,若实体不相关,则实体相关性的评分为0。例如,搜索短语“孙某某的教练”中的核心词“孙某某”与文章内容中的中心词“孙某某”指的同一人,不存在歧义,则搜索短语与文章内容实体相关,评分为1。
605、根据主题相关性的评分和实体相关性的评分,确定文章内容与搜索短语的相关性评分。
若主题相关性的评分为0,则整体的相关性评分为0;若主题相关性的评分为1,实体相关性的评分为0,则整体的相关性评分为1;若主题相关性的评分为1,实体相关性的评分为1,则整体的相关性评分为2。例如,图5中的文章内容与搜索短语“孙某某的教练”的相关性评分为2。
606、检测搜索短语的文本完整性,并对文本完整性进行评分。
若文本不完整,则文本完整性的评分为0,若文本完整,但文本完整度低,则文本完整性的评分为1,若文本完整,且文本完整度高,则文本完整性的评分为2。例如,搜索短语“孙某某的教练”语法结构完整,但属于偏正短语,则表明该搜索短语文本完整,但文本完整度低,文本完整性的评分为1。
607、检测搜索短语的语义完整性,并对语义完整性进行评分。
若语义不完整,则语义完整性的评分为0,若语义完整,但语义完整度低,则语义完整性的评分为1,若语义完整,且语义完整度高,则语义完整性的评分为2。例如,搜索短语“孙某某的教练”可能对应多种语义信息,则表明该搜索短语语义完整,但语义完整度低,语义完整性的评分为1。
608、根据文本完整性的评分和语义完整性的评分,确定搜索短语的完整性评分。
若文本完整性和语义完整性中任意一个评分为0,则搜索短语整体的完整性评分为0;若文本完整性和语义完整性的评分均不为0,则搜索短语整体的完整性评分与语义完整性的评分相一致。例如,搜索短语“孙某某的教练”的文本完整性和语义完整性的评分均为1,则该搜索短语的完整性评分为1。
609、检测搜索短语是否为查询意图短语,并根据检测结果进行查询意图评分。
若搜索短语为查询意图短语,则查询意图评分为0,若搜索短语不为查询意图短语,则查询意图评分为1。例如,搜索短语“孙某某的教练”属于信息查询类短语,即属于查询意图类短语,则该搜索短语的查询意图评分为0。
610、检测搜索短语是否具有敏感词,并根据检测结果进行敏感词评分。
若搜索短语具有敏感词,则敏感词评分为0,若搜索短语不具有敏感词,则敏感词评分为1。例如,搜索短语“孙某某的教练”中不具有敏感词,则该搜索短语的敏感词评分为1。
611、检测搜索短语是否存在词语残缺,并根据检测结果进行词语残缺评分。
若搜索短语存在词语残缺,则词语残缺评分为0,若搜索短语不存在词语残缺,则词语残缺评分为1。例如,搜索短语“孙某某的教练”中不存在词语残缺,则该搜索短语的词语残缺评分为1。
612、检测搜索短语是否属于谣言,并根据检测结果进行谣言评分。
若搜索短语属于谣言,则谣言评分为0,若搜索短语不属于谣言,则谣言评分为1。例如,搜索短语“孙某某的教练”中不属于谣言,则该搜索短语的谣言评分为1。
613、根据查询意图评分、敏感词评分、词语残缺评分和谣言评分,确定搜索短语的可用性评分。
若查询意图评分、敏感词评分、词语残缺评分和谣言评分中任意一个评分为0,则搜索短语的可用性评分为0;若查询意图评分、敏感词评分、词语残缺评分和谣言评分均为1,则搜索短语的可用性评分为1。例如,搜索短语“孙某某的教练”的查询意图评分为0,则该搜索短语的可用性评分为0。
614、根据相关性评分、完整性评分和可用性评分,评估搜索短语的整体得分。
若相关性评分、完整性评分和可用性评分中任意一个评分为0,则搜索短语的整体得分为0;若相关性评分、完整性评分和可用性评分均不为0,则搜索短语的整体得分为相关性评分和完整性评分中较低的分数。例如,搜索短语“孙某某的教练”的相关性评分为1,完整性评分为1,可用性评分为0,则该搜索短语的整体得分为0。
在获取整体得分后,还可制作评估记录表,以将文章的URL(Uniform ResourceLocator,统一资源定位符)地址、文章标题、文章内容、搜索短语、来源词、主题相关性评分、实体相关性评分、文本完整性评分、语义完整性评分、查询意图评分、敏感词评分、词语残缺评分、谣言评分、相关性评分、完整性评分、可用性评分、整体得分等记录在评估记录表中,为后续各种算法模型的迭代优化提供必需的分类训练样本。其中,评估记录表可以如表3所示。
表3
综上,本发明实施例通过获取语料,进而获取语料对应的搜索短语,对搜索短语进行检测,得到搜索短语的多维特征数据,并根据多维特征数据,实现对搜索短语的多维度智能评估,有效提高搜索短语的评估效率。另外,本发明实施例通过对搜索短语的多维度进行***化、流程化质量评估,挖掘搜索短语的共性低质问题,有效推动各种算法模型的分类优化。
为便于更好的实施本发明实施例提供的搜索短语的评估方法,本发明实施例还提供一种基于上述搜索短语的评估方法的装置。其中名词的含义与上述搜索短语的评估方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图7,图7为本发明实施例提供的搜索短语的评估装置的结构示意图,其中该搜索短语的评估装置可以包括:
语料获取模块701,用于获取语料;
搜索短语获取模块702,用于获取所述语料对应的搜索短语;所述搜索短语是所述语料中的关键词结合相匹配的热门搜索词而生成的短语,所述热门搜索词为搜索量大于预设阈值的实体词;
检测模块703,用于对所述搜索短语进行检测,得到所述搜索短语的多维特征数据;以及,
评估模块704,用于根据所述多维特征数据,对所述搜索短语进行评估。
在本发明一些实施例中,检测模块703具体用于:
对所述搜索短语与所述语料的相关性进行检测,得到相关度;
对所述搜索短语的完整性进行检测,得到完整度;
根据预设可用条件,对所述搜索短语的可用性进行检测,得到可用度;
将所述相关度、所述完整度和所述可用度添加至所述搜索短语的多维特征数据中。
在本发明一些实施例中,检测模块703具体用于:
对所述搜索短语与所述语料的主题相关性进行检测,得到主题相关度;
对所述搜索短语与所述语料的实体相关性进行检测,得到实体相关度;
根据所述主题相关度和所述实体相关度,确定所述搜索短语与所述语料的相关度。
在本发明一些实施例中,检测模块703具体用于:
识别所述语料的中心词;
识别所述搜索短语中的核心词,所述核心词包括所述关键词或所述热门搜索词;
根据预先建立的知识图谱,检测所述中心词与所述核心词是否满足预设主题条件中的至少一个主题条件;所述主题条件包括属于同一概念、关联于同一事件、具有从属关系、或者属于同一主体;
若否,则确定所述搜索短语与所述语料的主题相关度为第一主题相关度;
若是,则确定所述搜索短语与所述语料的主题相关度为第二主题相关度,所述第二主题相关度大于所述第一主题相关度。
在本发明一些实施例中,检测模块703具体用于:
根据预先建立的知识图谱,检测所述中心词与所述核心词是否存在歧义;
若是,则确定所述搜索短语与所述语料的实体相关度为第一实体相关度;
若否,则确定所述搜索短语与所述语料的实体相关度为第二实体相关度,所述第二实体相关度大于所述第一实体相关度。
在本发明一些实施例中,检测模块703具体用于:
若所述主题相关度为第一主题相关度,则确定所述搜索短语与所述语料的相关度为第一相关度;
若所述主题相关度为第二主题相关度,且所述实体相关度为第一实体相关度,则确定所述搜索短语与所述语料的相关度为第二相关度;
若所述主题相关度为第二主题相关度,且所述实体相关度为第二实体相关度,则确定所述搜索短语与所述语料的相关度为第三相关度,所述第一相关度、所述第二相关度和所述第三相关度依次递增。
在本发明一些实施例中,检测模块703具体用于:
对所述搜索短语的文本完整性进行检测,得到文本完整度;
对所述搜索短语的语义完整性进行检测,得到语义完整度;
根据所述文本完整度和所述语义完整度,确定所述搜索短语的完整度。
在本发明一些实施例中,检测模块703具体用于:
检测所述搜索短语的语法结构是否完整;
若语法结构不完整,则确定所述搜索短语的文本完整度为第一文本完整度;
若语法结构完整,则检测所述搜索短语是否为并列短语或偏正短语;
若是,则确定所述搜索短语的文本完整度为第二文本完整度;
若否,则确定所述搜索短语的文本完整度为第三文本完整度,所述第一文本完整度、所述第二文本完整度和所述第三文本依次递增。
在本发明一些实施例中,检测模块703具体用于:
对所述搜索短语对应的语义信息进行识别;
若未识别到对应的语义信息,则确定所述搜索短语的语义完整度为第一语义完整度;
若识别到所述搜索短语对应至少两个语义信息,则确定所述搜索短语的语义完整度为第二语义完整度;
若识别到所述搜索短语对应一个语义信息,则确定所述搜索短语的语义完整度为第三语义完整度,所述第一语义完整度、所述第二语义完整度和所述第三语义完整度依次递增。
在本发明一些实施例中,检测模块703具体用于:
若所述文本完整度为第一文本完整度,或者所述语义完整度为第一语义完整度,则确定所述搜索短语的完整度为第一完整度;
若所述文本完整度为第二文本完整度或第三文本完整度,且所述语义完整度为第二语义完整度,则确定所述搜索短语的完整度为第二完整度;
若所述文本完整度为第二文本完整度或第三文本完整度,且所述语义完整度为第三语义完整度,则确定所述搜索短语的完整度为第三完整度,所述第一完整度、所述第二完整度和所述第三完整度依次递增。
在本发明一些实施例中,所述相关度包括依次递增的第一相关度、第二相关度和第三相关度,所述完整度包括依次递增的第一完整度、第二完整度和第三完整度,所述可用度包括依次递增的第一可用度和第二可用度;检测模块703具体用于:
若所述相关度为第一相关度,或者所述完整度为第一完整度,或者所述可用度为第一可用度,则评估所述搜索短语的推荐度为第一推荐度;
若所述相关度为第三相关度,所述完整度为第三完整度,且所述可用度为第二可用度,则评估所述搜索短语的推荐度为第三推荐度;
否则,评估所述搜索短语的推荐度为第二推荐度,所述第一推荐度、所述第二推荐度和所述第三推荐度依次递增。
在本发明一些实施例中,所述装置还包括样本添加模块,该样本添加模块具体用于:
获取所述搜索短语的评估结果;
若所述评估结果满足预设的评估条件,则将所述搜索短语及其评估结果添加至训练样本中。
在本发明一些实施例中,所述装置还包括存储模块,该存储模块具体用于:
获取所述搜索短语的评估结果;
将所述评估结果以区块的形式保存在区块链中。
具体实施时,以上各个模块可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个模块的具体实施可参见前面的方法实施例,在此不再赘述。
本发明实施例通过获取语料,进而获取语料对应的搜索短语,对搜索短语进行检测,得到搜索短语的多维特征数据,并根据多维特征数据,实现对搜索短语的多方位评估,有效提高搜索短语的评估效率和评估准确率。另外,本发明实施例通过对搜索短语的多维度进行***化、流程化质量评估,挖掘搜索短语的共性低质问题,有效推动各种算法模型的分类优化。
本发明实施例还提供一种服务器,如图8所示,其示出了本发明实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器801、一个或一个以上计算机可读存储介质的存储器802、电源803和输入单元804等部件。本领域技术人员可以理解,图8中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器801是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器802内的软件程序和/或模块,以及调用存储在存储器802内的数据,执行服务器的各种功能和处理数据。可选的,处理器801可包括一个或多个处理核心;优选的,处理器801可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作存储介质、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器801中。
存储器802可用于存储软件程序以及模块,处理器801通过运行存储在存储器802的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器802可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作存储介质、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器802还可以包括存储器控制器,以提供处理器801对存储器802的访问。
服务器还包括给各个部件供电的电源803,优选的,电源803可以通过电源管理存储介质与处理器801逻辑相连,从而通过电源管理存储介质实现管理充电、放电、以及功耗管理等功能。电源803还可以包括一个或一个以上的直流或交流电源、再充电存储介质、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元804,该输入单元804可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器801会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器802中,并由处理器801来运行存储在存储器802中的应用程序,从而实现各种功能,如下:
获取语料;获取所述语料对应的搜索短语;所述搜索短语是所述语料中的关键词结合相匹配的热门搜索词而生成的短语,所述热门搜索词为搜索量大于预设阈值的实体词;对所述搜索短语进行检测,得到所述搜索短语的多维特征数据;根据所述多维特征数据,对所述搜索短语进行评估。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种搜索短语的评估方法中的步骤。例如,该指令可以执行如下步骤:
获取语料;获取所述语料对应的搜索短语;所述搜索短语是所述语料中的关键词结合相匹配的热门搜索词而生成的短语,所述热门搜索词为搜索量大于预设阈值的实体词;对所述搜索短语进行检测,得到所述搜索短语的多维特征数据;根据所述多维特征数据,对所述搜索短语进行评估。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种搜索短语的评估方法中的步骤,因此,可以实现本发明实施例所提供的任一种搜索短语的评估方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种搜索短语的评估方法、装置、服务器和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (11)

1.一种搜索短语的评估方法,其特征在于,包括:
获取语料;
获取所述语料对应的搜索短语;所述搜索短语是所述语料中的关键词结合相匹配的热门搜索词而生成的短语,所述热门搜索词为搜索量大于预设阈值的实体词;
识别所述语料的中心词;
识别所述搜索短语中的核心词,所述核心词包括所述关键词或所述热门搜索词;
根据预先建立的知识图谱,检测所述中心词与所述核心词是否满足预设主题条件中的至少一个主题条件;所述主题条件包括属于同一概念、关联于同一事件、具有从属关系、或者属于同一主体;
若所述中心词与所述核心词不满足预设主题条件中的至少一个主题条件,则确定所述搜索短语与所述语料的主题相关度为第一主题相关度;
若所述中心词与所述核心词满足预设主题条件中的至少一个主题条件,则确定所述搜索短语与所述语料的主题相关度为第二主题相关度,所述第二主题相关度大于所述第一主题相关度;
根据预先建立的知识图谱,检测所述中心词与所述核心词是否存在歧义;
若所述中心词与所述核心词存在歧义,则确定所述搜索短语与所述语料的实体相关度为第一实体相关度;
若所述中心词与所述核心词不存在歧义,则确定所述搜索短语与所述语料的实体相关度为第二实体相关度,所述第二实体相关度大于所述第一实体相关度;
根据所述主题相关度和所述实体相关度,确定所述搜索短语与所述语料的相关度;
对所述搜索短语的完整性进行检测,得到完整度;
根据预设可用条件,对所述搜索短语的可用性进行检测,得到可用度;
将所述相关度、所述完整度和所述可用度添加至所述搜索短语的多维特征数据中;
根据所述多维特征数据,对所述搜索短语进行评估。
2.根据权利要求1所述的搜索短语的评估方法,其特征在于,所述根据所述主题相关度和所述实体相关度,确定所述搜索短语与所述语料的相关度,具体包括:
若所述主题相关度为第一主题相关度,则确定所述搜索短语与所述语料的相关度为第一相关度;
若所述主题相关度为第二主题相关度,且所述实体相关度为第一实体相关度,则确定所述搜索短语与所述语料的相关度为第二相关度;
若所述主题相关度为第二主题相关度,且所述实体相关度为第二实体相关度,则确定所述搜索短语与所述语料的相关度为第三相关度,所述第一相关度、所述第二相关度和所述第三相关度依次递增。
3.根据权利要求1所述的搜索短语的评估方法,其特征在于,所述对所述搜索短语的完整性进行检测,得到完整度,具体包括:
对所述搜索短语的文本完整性进行检测,得到文本完整度;
对所述搜索短语的语义完整性进行检测,得到语义完整度;
根据所述文本完整度和所述语义完整度,确定所述搜索短语的完整度。
4.根据权利要求3所述的搜索短语的评估方法,其特征在于,所述对所述搜索短语的文本完整性进行检测,得到文本完整度,具体包括:
检测所述搜索短语的语法结构是否完整;
若语法结构不完整,则确定所述搜索短语的文本完整度为第一文本完整度;
若语法结构完整,则检测所述搜索短语是否为并列短语或偏正短语;
若是,则确定所述搜索短语的文本完整度为第二文本完整度;
若否,则确定所述搜索短语的文本完整度为第三文本完整度,所述第一文本完整度、所述第二文本完整度和所述第三文本依次递增。
5.根据权利要求4所述的搜索短语的评估方法,其特征在于,所述对所述搜索短语的语义完整性进行检测,得到语义完整度,具体包括:
对所述搜索短语对应的语义信息进行识别;
若未识别到对应的语义信息,则确定所述搜索短语的语义完整度为第一语义完整度;
若识别到所述搜索短语对应至少两个语义信息,则确定所述搜索短语的语义完整度为第二语义完整度;
若识别到所述搜索短语对应一个语义信息,则确定所述搜索短语的语义完整度为第三语义完整度,所述第一语义完整度、所述第二语义完整度和所述第三语义完整度依次递增。
6.根据权利要求5所述的搜索短语的评估方法,其特征在于,所述根据所述文本完整度和所述语义完整度,确定所述搜索短语的完整度,具体包括:
若所述文本完整度为第一文本完整度,或者所述语义完整度为第一语义完整度,则确定所述搜索短语的完整度为第一完整度;
若所述文本完整度为第二文本完整度或第三文本完整度,且所述语义完整度为第二语义完整度,则确定所述搜索短语的完整度为第二完整度;
若所述文本完整度为第二文本完整度或第三文本完整度,且所述语义完整度为第三语义完整度,则确定所述搜索短语的完整度为第三完整度,所述第一完整度、所述第二完整度和所述第三完整度依次递增。
7.根据权利要求1所述的搜索短语的评估方法,其特征在于,所述相关度包括依次递增的第一相关度、第二相关度和第三相关度,所述完整度包括依次递增的第一完整度、第二完整度和第三完整度,所述可用度包括依次递增的第一可用度和第二可用度;
所述根据所述多维特征数据,对所述搜索短语进行评估,具体包括:
若所述相关度为第一相关度,或者所述完整度为第一完整度,或者所述可用度为第一可用度,则评估所述搜索短语的推荐度为第一推荐度;
若所述相关度为第三相关度,所述完整度为第三完整度,且所述可用度为第二可用度,则评估所述搜索短语的推荐度为第三推荐度;
否则,评估所述搜索短语的推荐度为第二推荐度,所述第一推荐度、所述第二推荐度和所述第三推荐度依次递增。
8.根据权利要求1所述的搜索短语的评估方法,其特征在于,所述方法还包括:
获取所述搜索短语的评估结果;
若所述评估结果满足预设的评估条件,则将所述搜索短语及其评估结果添加至训练样本中。
9.一种搜索短语的评估装置,其特征在于,包括:
语料获取模块,用于获取语料;
搜索短语获取模块,用于获取所述语料对应的搜索短语;所述搜索短语是所述语料中的关键词结合相匹配的热门搜索词而生成的短语,所述热门搜索词为搜索量大于预设阈值的实体词;
检测模块,用于识别所述语料的中心词;识别所述搜索短语中的核心词,所述核心词包括所述关键词或所述热门搜索词;根据预先建立的知识图谱,检测所述中心词与所述核心词是否满足预设主题条件中的至少一个主题条件;所述主题条件包括属于同一概念、关联于同一事件、具有从属关系、或者属于同一主体;若所述中心词与所述核心词不满足预设主题条件中的至少一个主题条件,则确定所述搜索短语与所述语料的主题相关度为第一主题相关度;若所述中心词与所述核心词满足预设主题条件中的至少一个主题条件,则确定所述搜索短语与所述语料的主题相关度为第二主题相关度,所述第二主题相关度大于所述第一主题相关度;根据预先建立的知识图谱,检测所述中心词与所述核心词是否存在歧义;若所述中心词与所述核心词存在歧义,则确定所述搜索短语与所述语料的实体相关度为第一实体相关度;若所述中心词与所述核心词不存在歧义,则确定所述搜索短语与所述语料的实体相关度为第二实体相关度,所述第二实体相关度大于所述第一实体相关度;根据所述主题相关度和所述实体相关度,确定所述搜索短语与所述语料的相关度;对所述搜索短语的完整性进行检测,得到完整度;根据预设可用条件,对所述搜索短语的可用性进行检测,得到可用度;将所述相关度、所述完整度和所述可用度添加至所述搜索短语的多维特征数据中;以及,
评估模块,用于根据所述多维特征数据,对所述搜索短语进行评估。
10.一种服务器,其特征在于,包括存储器和处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1所述的搜索短语的评估方法中的步骤。
11.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至8任一项所述的搜索短语的评估方法中的步骤。
CN201911048275.1A 2019-10-30 2019-10-30 搜索短语的评估方法、装置、服务器及存储介质 Active CN112749246B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911048275.1A CN112749246B (zh) 2019-10-30 2019-10-30 搜索短语的评估方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911048275.1A CN112749246B (zh) 2019-10-30 2019-10-30 搜索短语的评估方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN112749246A CN112749246A (zh) 2021-05-04
CN112749246B true CN112749246B (zh) 2023-11-28

Family

ID=75640999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911048275.1A Active CN112749246B (zh) 2019-10-30 2019-10-30 搜索短语的评估方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN112749246B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114626367A (zh) * 2022-03-11 2022-06-14 广东工业大学 基于新闻文章内容的情感分析方法、***、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138511A (zh) * 2015-08-10 2015-12-09 北京思特奇信息技术股份有限公司 一种对搜索关键词进行语义分析的方法和***
CN109460499A (zh) * 2018-10-16 2019-03-12 青岛聚看云科技有限公司 目标搜索词生成方法及装置、电子设备、存储介质
CN109522465A (zh) * 2018-10-22 2019-03-26 国家电网公司 基于知识图谱的语义搜索方法及装置
CN110377817A (zh) * 2019-06-13 2019-10-25 百度在线网络技术(北京)有限公司 搜索词条挖掘方法和装置及其在多媒体资源的应用

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160004766A1 (en) * 2006-10-10 2016-01-07 Abbyy Infopoisk Llc Search technology using synonims and paraphrasing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138511A (zh) * 2015-08-10 2015-12-09 北京思特奇信息技术股份有限公司 一种对搜索关键词进行语义分析的方法和***
CN109460499A (zh) * 2018-10-16 2019-03-12 青岛聚看云科技有限公司 目标搜索词生成方法及装置、电子设备、存储介质
CN109522465A (zh) * 2018-10-22 2019-03-26 国家电网公司 基于知识图谱的语义搜索方法及装置
CN110377817A (zh) * 2019-06-13 2019-10-25 百度在线网络技术(北京)有限公司 搜索词条挖掘方法和装置及其在多媒体资源的应用

Also Published As

Publication number Publication date
CN112749246A (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
CN109033387B (zh) 一种融合多源数据的物联网搜索***、方法及存储介质
CN104933164B (zh) 互联网海量数据中命名实体间关系提取方法及其***
CN102890713B (zh) 一种基于用户当前地理位置和物理环境的音乐推荐方法
CN105045875B (zh) 个性化信息检索方法及装置
Rehman et al. A benchmark dataset and learning high-level semantic embeddings of multimedia for cross-media retrieval
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
Xie et al. Fast and accurate near-duplicate image search with affinity propagation on the ImageWeb
CN107918644B (zh) 声誉管理框架内的新闻议题分析方法和实施***
Petkos et al. Two-level Message Clustering for Topic Detection in Twitter.
CN110968684A (zh) 一种信息处理方法、装置、设备及存储介质
CN104641371B (zh) 社交网络***中基于上下文的对象检索
CN113962293B (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和***
JP2016540332A (ja) 視覚・意味複合ネットワーク、および当該ネットワークを形成するための方法
Faralli et al. Automatic acquisition of a taxonomy of microblogs users’ interests
Elshater et al. godiscovery: Web service discovery made efficient
CN111522886B (zh) 一种信息推荐方法、终端及存储介质
Melucci et al. Advanced topics in information retrieval
CN115563313A (zh) 基于知识图谱的文献书籍语义检索***
CN113742446A (zh) 一种基于路径排序的知识图谱问答方法及***
CN111752922A (zh) 一种建立知识数据库、实现知识查询的方法及装置
CN112911331A (zh) 针对短视频的音乐识别方法、装置、设备及存储介质
An et al. A heuristic approach on metadata recommendation for search engine optimization
CN112749246B (zh) 搜索短语的评估方法、装置、服务器及存储介质
US9547701B2 (en) Method of discovering and exploring feature knowledge
Kordumova et al. Exploring the long tail of social media tags

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40048359

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant