WO2021226840A1

WO2021226840A1 - 热点新闻意图识别方法、装置、设备及可读存储介质

Info

Publication number: WO2021226840A1
Application number: PCT/CN2020/089839
Authority: WO
Inventors: 刘晓聪; 曾冠荣
Original assignee: 深圳市欢太科技有限公司; Oppo广东移动通信有限公司
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2021-11-18
Also published as: CN115516447A

Abstract

一种热点新闻意图识别方法、装置、设备及可读存储介质。热点新闻查询意图识别方法，包括：获取客户端发送的查询语句（S102）；对查询语句进行分词处理，得到至少一个查询词（S104）；查询至少一个查询词中是否有查询词与热点新闻关键词集合中的关键词匹配（S106）；当至少一个查询词中有查询词与热点新闻关键词集合中的关键词匹配时，分别获得与各查询词匹配的关键词对应的至少一条热点新闻（S108）；以及根据确定的查询语句与各条热点新闻之间的相关性量值，识别查询语句的查询意图是否为热点新闻查询意图（S110）。

Description

热点新闻意图识别方法、装置、设备及可读存储介质

技术领域

本公开涉及信息技术领域，具体而言，涉及一种热点新闻意图识别方法、装置、设备及可读存储介质。

背景技术

搜索引擎(Search Engine)是根据用户需求与一定算法，运用特定策略从互联网检索指定信息并反馈给用户的一门检索技术。搜索引擎的每一次搜索发起都来自于查询语句(query)的输入，搜索引擎如何理解用户输入的查询语句直接影响最终返回的搜索结果，所以搜索场景中的意图识别效果是衡量搜索引擎质量优劣的决定性因素。

热点新闻指近期发生的热度较高的新闻，具有实时性高的特点。在用户进行热点新闻搜索过程中，搜索引擎需要从查询语句识别出该热点新闻查询意图。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开提供一种热点新闻意图识别方法、装置、设备及可读存储介质。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一方面，提供一种热点新闻查询意图识别方法，包括：获取客户端发送的查询语句；对所述查询语句进行分词处理，得到至少一个查询词；查询所述至少一个查询词中是否有查询词与热点新闻关键词集合中的关键词匹配；当所述至少一个查询词中有查询词与所述热点新闻关键词集合中的关键词匹配时，分别获得与各所述查询词匹配的关键词对应的至少一条热点新闻；以及根据确定的所述查询语句与各条所述热点新闻之间的相关性量值，识别所述查询语句的查询意图是否为热点新闻查询意图。

根据本公开的另一方面，提供一种热点新闻关键词集合确定方法，包括：获取多条热点新闻；分别对各条所述热点新闻进行分词处理，获得各条所述热点新闻的至少一个新闻词汇；根据各条所述热点新闻的至少一个新闻词汇，分别确定各条所述热点新闻的关键词；以及根据各条所述热点新闻及各条所述热点新闻的关键词，确定所述热点信息关键词集合。

根据本公开的再一方面，提供热点新闻查询意图识别装置，包括：语句获取模块，用于获取客户端发送的查询语句；分词处理模块，用于对所述查询语句进行分词处理，得到至少一个查询词；关键词匹配模块，用于查询所述至少一个查询词中是否有查询词与热点新闻关键词集合中的关键词匹配；新闻召回模块，用于当所述至少一个查询词中有查询词与所述热点新闻关键词集合中的关键词匹配时，分别获得与各所述查询词匹配的关键词对应的至少一条热点新闻；以及意图识别模块，用于根据确定的所述查询语句与各条所述热点新闻之间的相关性量值，识别所述查询语句的查询意图是否为热点新闻查询意图。

根据本公开的再一方面，提供一种热点新闻关键词集合确定装置，包括：新闻获取模块，用于获取多条热点新闻；分词处理模块，用于分别对各条所述热点新闻进行分词处理，获得各条所述热点新闻的至少一个新闻词汇；关键词提取模块，用于根据各条所述热点新闻的至少一个新闻词汇，分别确定各条所述热点新闻的关键词；以及集合确定模块，用于根据各条所述热点新闻及各条所述热点新闻的关键词，确定所述热点信息关键词集合。

根据本公开的再一方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述的热点新闻查询意图识别方法，或者所述处理器配置为经由执行所述可执行指令来执行上述的热点新闻关键词集合确定方法。

根据本公开的再一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的热点新闻查询意图识别方法，或者所述计算机程序被处理器执行时实现上述的热点新闻关键词集合确定方法。

本公开实施例提供的热点新闻查询意图识别方法，首先将查询语句进行分词得到至少一条查询词；再将各条查询词分别与预先获得的热点新闻关键词集合中的关键词进行匹配，确定出预召回的热点新闻；之后再根据查询语句与预召回的热点新闻之间的相关性量值，来识别该查询语句是否具有热点新闻查询意图。通过该方法可以产生如下几点有益效果：第一，相比于相关技术中通过训练文本分类模型来识别查询意图的方法，该方法无需对大量具有意图标签的样本进行训练以获得具有一定精度的分类模型，该方法可以做到在线实时识别查询语句是否具有搜索热点新闻的意图；第二，通过热点新闻的预召回方式，大大减少了用户查询语句和海量热点新闻之间相关性的计算量，从而可以快速地完成意图分类，经测试，在搜索场景业务中，对热点新闻查询意图识别服务的平均时延小于3ms，因此服务并发量也得以提升，从而可以减少部署的搜索服务器的数量；第三，该方法还可以有效提升热点新闻查询意图识别的准确率和召回率；第四，该方法还可以通过事先配置热点新闻关键词集合，实现对在线搜索热点新闻意图识别的良好干预。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。

图1是本公开一个示例性实施例提供的计算机***的结构示意图。

图2示出本公开实施例中一种热点新闻查询意图识别方法流程图。

图3示出本公开实施例中另一种热点新闻查询意图识别方法流程图。

图4示出本公开实施例中再一种热点新闻查询意图识别方法流程图。

图5示出本公开实施例中再一种热点新闻查询意图识别方法流程图。

图6示出本公开实施例中再一种热点新闻查询意图识别方法流程图。

图7示出本公开实施例中一种热点新闻关键词集合确定方法流程图。

图8示出本公开实施例中另一种热点新闻关键词集合确定方法流程图。

图9示出本公开实施例中再一种热点新闻关键词集合确定方法流程图。

图10示出本公开实施例中一种热点新闻查询意图识别装置示意图。

图11示出本公开实施例中一种热点新闻关键词集合确定装置示意图。

图12示出本公开实施例中一种电子设备的结构示意图。

图13示出本公开实施例中一种计算机可读存储介质示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

此外，在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如A和/或B，可以表示单独存在A、单独存在B及同时存在A和B三种情况。符号“/”一般表示前后关联对象是一种“或”的关系。术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

由于热点新闻自身的特点，在识别热点新闻查询意图时，相比于其他查询意图识别，将面临更多的技术难题：如由于热点新闻的实时性很高，搜索引擎需要具备在事件发生后能快速提供信息搜索的能力；搜索引擎还需要具有对过时信息的灵敏反映，从而可以避免召回不再热门的新闻或事件；由于用户对新闻事件的描述各异，热点新闻查询意图识别还需要对查询语句的变化具有较强的鲁棒性。

此外，作为众多查询意图识别中的一种，尤其是在移动终端搜索场景下，热点新闻查询意图的识别还具有如下需克服的技术难点：需要高准确率和高召回率，其中以高准确率优先；需要高计算性能和快速的响应速度；对于较短的查询语句，尤其是分词后的词汇(term)数量在8个以内的需求量大。

在相关技术中，搜索中意图识别的常见解决方案是对文本分类。通过自然语言处理方法，采用FastText(快速文本)、TextCNN(文本卷积神经网络)等文本分类模型，离线部分应用带标注意图的用户查询语句对分类模型进行训练，判断是否具有该类型的意图；在线部分利用离线部分训练得到的分类模型进行预测，并利用预测结果实时判断用户意图。该方法同时具有高准确率及可靠的泛化能力，并且作为端到端的方法也具有比较高的可控性，可以借助样本、特征等维度实现方法优化。此外，由于是抽象模型，受具体问题影响度小，因此在大量的意图分类场景下，均有非常优秀的结果。较为常用的文本分类方法如下：

-词袋模型与浅层机器学习模型：通过词袋模型，如one-hot(独热码)，TF-IDF(Term Frequency-Inverse Document Frequency，词频-逆文本频率)等方法将词汇转化为可供计算的向量形式，然后通过支持向量机、朴素贝叶斯等方式实现文本分类。

-预训练词嵌入与深度学习模型：预训练词嵌入是指通过特定方式转化，使用能更好地表达语义的词嵌入模型将输入词汇转化为向量，然后利用深度学习模型，如全连接层、卷积层等，进行自动化特征提取和转化，最终得到预测结果。

尽管文本分类方法能有很高的召准率，是一种常见的可靠方案，然而针对时事热点新闻意图识别，此方法就会因为热点新闻意图识别问题本身的特点，产生诸多问题：例如，热点新闻具有高实时性的特点，用户对该新闻的搜索需求会在短时间内爆发并在短期内结束，同一个查询语句需要在短期内从无热点新闻意图变成有热点新闻意图，文本分类这种依赖大量时间训练才能有较好效果的方法并不适合；实时新闻需求下，用户查询语句数据匮乏，且均为无意图标注数据，无法给到足够数据进行模型训练；查询语句中是否存在热点新闻意图和语义表达之间关系并无太大关系，因此实质上为语义分析的文本分类方法并不能体现该查询语句是否具有热点新闻意图。

因此，针对当前研究所出现的问题与时事热点新闻的实际需求，本公开提出一种热点新闻查询意图识别方法，先通过预召回机制快速确定出与用户查询语句匹配的特定热点新闻，再通过计算查询语句与各特定热点信息的相关性，识别该查询语句是否具有热点信息查询意图。该方法使搜索***对热点新闻的生灭过程产生敏感性，可以精准快速地作出反应，识别出查询语句是否具有热点新闻查询意图。

本公开实施例提供的方案，涉及人工智能技术领域。为了便于理解，下面首先对本公开涉及到的几个名词进行解释。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，本公开实施例提供的方案主要涉及人工智能的自然语言处理技术、机器学习技术。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本公开实施例提供的方案，具体通过如下实施例进行说明：

图1是本公开一个示例性实施例提供的计算机***的结构示意图。该***包括：若干个终端120和服务器集群140。

终端120可以是手机、游戏主机、平板电脑、电子书阅读器、智能眼镜、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、智能家居设备、AR(Augmented Reality，增强现实)设备、VR(Virtual Reality，虚拟现实)设备等移动终端，或者，终端120也可以是个人计算机(Personal Computer，PC)，比如膝上型便携计算机和台式计算机等等。

其中，终端120中可以安装有客户端应用程序，使得用户可以通过该客户端应用程序进行搜索，包括对热点新闻的搜索。

终端120与服务器集群140之间通过通信网络相连。可选的，通信网络是有线网络或无线网络。

服务器集群140是一台服务器，或者由若干台服务器组成，或者是一个虚拟化平台，或者是一个云计算服务中心。服务器集群140用于为终端120中的客户端应用程序提供后台服务，如提供线上搜索引擎服务。

此外，服务器集群140中的全部或部分服务器还可以用于提供离线服务，例如执行本公开提供的热点新闻关键词集合确定方法，来离线地确定出用于线上搜索的热点新闻关键词集合。

可选地，不同的终端120中安装的客户端应用程序是相同的，或两个终端120上安装的客户端是不同控制***平台的同一类型的客户端应用程序。基于终端平台的不同，该客户端应用程序的具体形态也可以不同，比如，该客户端应用程序可以是手机客户端、PC客户端或者全球广域网(World Wide Web，Web)客户端等。

本领域技术人员可以知晓，上述终端120的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量。本公开实施例对终端的数量和设备类型不加以限定。

可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

下面，将结合附图及实施例对本公开示例实施例中的热点新闻查询意图识别方法及热点新闻关键词集合确定方法的各个步骤进行更详细的说明。

图2示出本公开实施例中一种热点新闻查询意图识别方法流程图。本公开实施例提供的方法可以由任意具备计算处理能力的电子设备执行，在下面的举例说明中，以服务器集群140为执行主体进行示例说明。

如图2所示，热点新闻查询意图识别方法10包括：

在步骤S102中，获取客户端发送的查询语句。

如上述，服务器集群140可以提供线上搜索功能，接收终端120中客户端发送的查询语句，基于查询语句进行搜索后，向客户端返回搜索结果。

在步骤S104中，对查询语句进行分词处理，得到至少一个查询词(term)。

可以利用分词算法和/或工具对查询语句进行分词处理。例如，可以采用jieba(结巴)分词工具对查询语句进行分词，得到一个或多个查询词。

在步骤S106中，查询至少一个查询词中是否有查询词与热点新闻关键词集合中的关键词匹配。

热点新闻关键词集合如为服务器集群140预先获得并存储的，该集合可以为通过离线方式事先生成好的，其中包含了近期的热点新闻，并对热点新闻的关键词进行了提取处理。为了保证热点新闻的时效性，该集合会相应地实时进行更新，不断增添近期发生的热点新闻，并移除过时的热点新闻。

关于该集合的时效性及热点程度等指标，在具体应用时，可以根据实际需求来设定，本公开不以此为限。此外，关于该热点新闻关键词集合的生成确定方法将在下文中说明。

在一些实施例中，热点新闻查询意图识别方法10还可以包括：获取并存储该热点新闻关键词集合。

在步骤S108中，当至少一个查询词中有查询词与热点新闻关键词集合中的关键词匹配时，分别获得与各查询词匹配的关键词对应的至少一条热点新闻。

将上述至少一个查询词分别与热点新闻关键词集合中的关键词进行匹配，如果有查询词可以与热点新闻关键词集合中的关键词匹配上，则获得该被匹配的关键词对应的一条或多条热点新闻。

分别获得各被匹配的关键词对应的至少一条热点新闻，可以构成预召回的热点新闻集合。

本领域技术人员可以理解的是，上述查询词与关键词的匹配例如可以包括两者字面完全相同，或者也可以包括两者语义相同等，本公开不以此为限。

在步骤S110中，根据确定的查询语句与各条热点新闻之间的相关性量值，识别查询语句的查询意图是否为热点新闻查询意图。

在获得了预召回的热点新闻集合后，分别确定查询语句与预召回的热点新闻集合中各条热点新闻之间的相关性，该相关性如可以通过相关性量值表示。再根据查询语句与各条热点新闻之间的相关性量值，识别该查询语句的查询意图是否为热点信息查询意图。

例如，在一些实施例中，可以在分别确定了查询语句与各条热点新闻之间的相关性量值后，选取其中具有最大相关性量值，且该最大相关性量值大于预设相关性阈值的热点新闻作为该查询语句的热点新闻查询意图，即识别该查询语句的查询意图为热点新闻查询意图，并可将该热点新闻返回给客户端。而如果最大相关性量值小于预设相关性阈值，则识别该查询语句的查询意图不是热点新闻查询意图。通过选取具有最大相关性量值且该量值大于预设阈值的的热点新闻作为热点新闻查询意图，方式简单，且处理速度较快。

图3示出本公开实施例中另一种热点新闻查询意图识别方法流程图。与图2所示的热点新闻查询意图识别方法10不同的是，图3所示的热点新闻查询意图识别方法进一步提供了图2中步骤S108的一种实施方式。

在图3所示的实施例中，热点新闻关键词集合包括：关键词-热点新闻倒排词典；关键词-热点新闻倒排词典包括：热点新闻关键词集合中各关键词及分别与各关键词对应的一条或多条热点新闻。

如图3所示，步骤S108可以进一步包括：

在步骤S1082中，根据关键词-热点新闻倒排词典，采用字典树的形式建立关键词-热点新闻倒排序索引。

基于关键词-热点新闻倒排词典中关键词与热点新闻之间的倒排结构，采用Trie树(前缀树/字典树)建立关键词倒排序索引。

Trie树是一种具有树形结构且专门处理字符串匹配的数据结构，用来解决在一组字符串集合中快速查找某个字符串的问题，常常用于搜索引擎***的召回阶段，它的字符串查找速度主要和最长字符串的长度相关。

倒排索引可以实现为“关键词-热点新闻ID矩阵”的一种具体存储形式，通过关键词进行倒排索引，根据关键词快速获取包含这个关键词的热点新闻列表。

在步骤S1084中，查找至少一个查询词中是否有查询词与关键词-热点新闻倒排序索引中的关键词匹配。

基于上述构建的关键词倒排索引，快速查找是否有查询词与关键词-热点信息倒排索引中的关键词匹配。

如上述，查询词与关键词的匹配例如可以包括两者字面完全相同，或者也可以包括两者语义相同等。

在本公开实施例中，通过关键词倒排索引，可以快速地查找出与关键词匹配的查询词，从而可以快速地关联出预召回的热点新闻集合。

图4示出本公开实施例中再一种热点新闻查询意图识别方法流程图。与图2所示的热点新闻查询意图识别方法10不同的是，图4所示的热点新闻查询意图识别方法进一步提供了步骤S110的一种实施方式。

如图4所示，步骤S110包括：

在步骤S1102中，分别计算各条热点新闻中包含的各查询词的TF-IDF之和。

TF-IDF为常见的提取关键词的方法，其核心优点是无监督，该特性使其能在给定词典的情况下就能获得可靠的结果，因此可以快速开发部署上线。

TF-IDF本质上是一种计算句子中每个词的权重的方法，涉及的主要变量是TF(Term Frequency，词汇出现在句子中的频率)和IDF(Inverse Document Frequency，逆文档频率，即含有该词汇的文档占所有文档的比例)，因此而得名。对于上述一个查询词i，其TF-IDF值计算如公式(1)所示：

其中，n _i,j表示查询词i在热点新闻j中出现的频次，D是上述预召回的热点新闻集合。

然后计算各条热点新闻的sum_tfidf，计算公式如公式(2)所示：

其中，公式中tfidf _i为该召回的热点新闻中包含的第i个查询词的TF-IDF值，sum_tfidf为该召回的热点新闻包含所有的查询分词的TF-IDF值总和。

在步骤S1104中，基于各条热点新闻的TF-IDF之和，按照降序对各条热点新闻进行排序。

根据计算出的各条热点新闻的TF-IDF之和对各条热点新闻进行降序排序，并基于该排序，依次执行如下步骤。

在步骤S1106中，确定查询语句与该条热点新闻之间的相关性量值。

在步骤S1108中，判断该相关性量值大于预设的相关性阈值。如果是，进入步骤S1110；否则，进入步骤S1102。

在步骤S1110中，识别查询语句的查询意图为热点新闻查询意图，向客户端返回包含该条热点新闻的查询结果，且该条热点新闻位于查询结果的最前面。

在步骤S1102中，判断该条热点新闻是否为最后一条热点新闻。如果是，进入步骤S1104；否则，返回步骤S1106，按照降序，处理下一条热点新闻。

在步骤S1104中，识别查询语句的查询意图不是热点新闻意图。

例如，该查询语句的查询语句仅为普通新闻的查询意图，或者是其他查询意图等。

在本公开实施例中，在根据确定的查询语句与各条热点新闻之间的相关性量值，识别查询语句的查询意图是否为热点新闻查询意图的过程中，首先基于各条热点新闻中包含的各查询词的TF-IDF之和对各条热点新闻进行降序排序，可以提升识别的精准度；再按照该降序依次对各条热点新闻进行处理，以识别查询语句的查询意图是否为热点新闻查询意图的过程中，可以达到加速识别速度的目的。

图5示出本公开实施例中再一种热点新闻查询意图识别方法流程图。与图4所示的热点新闻查询意图识别方法不同的是，图5所示的热点新闻查询意图识别方法进一步提供了步骤S1106的一种实施方式。

在图5所示的实施例中，热点新闻关键词集合包括：热点新闻-关键词正排词典；热点新闻-关键词正排词典包括：热点新闻关键词集合中各条热点新闻及分别与各条热点新闻对应的关键词、相关词及各关键词和各相关词的词频。

如图5所示，步骤S1106包括：

在步骤S61中，根据热点新闻-关键词正排词典，基于BM25文本相似度算法，计算查询语句与该条热点新闻的相关性量值。

BM25是一种用来评价查询语句和文档之间相关性的算法，它是一种基于概率检索模型提出的算法。本公开中可以利用BM25算法计算查询语句和各条热点新闻之间的相关性。查询语句和各条热点新闻之间的相关性量值BM25值的计算公式如公式(3)所示：

其中，RSV _d为查询语句与热点新闻d之间的相关性BM25值；t∈q表示查询词构成的查询词序列，即查询词t属于查询词序列q。tf _td为查询词在热点新闻d中的词频， tf _tq为查询词在查询语句中的词频。L _d和L _ave分别是热点新闻d的长度及整个热点新闻集合中热点新闻的平均长度。k ₁与k ₃均为调优参数，其中k ₁用于对热点新闻集合中的项频率TF项进行缩放控制；如果k ₁取0，则相当于不考虑词频，如果k ₁取较大的值，那么对应于使用原始项频率；b是另外一个调节参数(0≤b≤1)，决定热点新闻长度的缩放程度：b＝1表示基于热点新闻长度对词项频率进行完全的缩放，b＝0表示归一化时不考虑热点新闻长度因素。

需要说明的是，当使用上述的BM25值作为相关性量值时，则上述的相关性阈值对应使用threshold _bm25，该阈值可以根据分类效果实验设定，本公开不以此为限。

在本公开实施例中，在确定查询语句与该条热点新闻之间的相关性量值过程中，进一步基于BM25文本相似度算法，来确定相关性量值。BM25文本相似度算法在传统TF-IDF算法的基础上增加了几个可调节的参数，使得它在应用上更佳灵活和强大，具有较高的实用性。

图6示出本公开实施例中再一种热点新闻查询意图识别方法流程图。与图4所示的热点新闻查询意图识别方法不同的是，图6所示的热点新闻查询意图识别方法进一步提供了步骤S1106的一种实施方式。

如图6所示，步骤S1106可以进一步包括：

在步骤S62中，基于深层结构语义模型DSSM预测查询语句与热点新闻之间的相关性量值。

其中，深层结构语义模型DSSM是基于搜索引擎中历史查询语句与对应的热点新闻点击数据进行训练得到的。

例如，可以首先利用DNN(Deep Neural Networks，深度神经网络)模型将历史查询语句和对应的热点新闻点击数据表达为低维语义向量，再通过余弦相似度距离来计算两个语义向量之间的距离，来训练DSSM语义相似度模型。

在线搜索时，利用DNN网络将查询语句和热点新闻表达为低维语义向量，再利用经训练的DSSM模型来预测查询语句与热点新闻之间的相关性量值。

本公开实施例提供的热点新闻查询意图识别方法，在确定查询语句与各条热点新闻的相关性量值时，引入词嵌入向量特征，可以在语义层面上计算查询语句与热点新闻之间的相关性，进一步提升了相关性确定的准确性。

此外，进一步地，还可以使用BERT(Bidirectional Encoder Representations from Transformers，来自转换器的双向编码器表示)形式的“预训练+微调”语言模型。例如，在线搜索时，通过BERT预训练模型联合语义相似度模型一起进行查询语句与各条热点新闻之间相关性的确定，能够满足语义层面更加精准的相关性计算。

本公开还进一步提供了一种热点新闻关键词集合确定方法，该方法可以离线实施，例如也可以由图1中所示的服务器集群140实施，或者也可以由其他服务器实施，服务器集群140从该其他服务器获取该热点新闻关键词集合，以用于线上搜索及上述的热点新闻查询意图识别。

参考图7，热点新闻关键词集合确定方法20包括：

在步骤S202中，获取多条热点新闻。

如上述，为了保证热点新闻的时效性，会实时获取热点新闻，以不断更新热点新闻关键词集合。

关于该集合的时效性及热点程度等指标，在具体应用时，可以根据实际需求来设定，本公开不以此为限。

在步骤S204中，分别对各条热点新闻进行分词处理，获得各条热点新闻的至少一个新闻词汇。

例如，可以采用与上述热点新闻查询意图识别方法中一致的jieba分词器来分别对每条获取的热点新闻进行分词处理。

在一些实施例中，对于分词器分出的词汇(term)，还可以进一步进行N-GRAM(N元文法模型)处理，将热点新闻里面的内容，按照字节以分出的term为单位，N为大小，1为步长进行窗口滑动操作，形成长度为N的term片段的序列。例如，可以分别将N取值为1、2及3来进行操作，按照下面的规则保留最终的新闻词汇：当N取1时，不做过滤，包含分词得到的所有term；当N取2时，仅保留两个term内至少有一个单字，或者含有数组的组合；当N取3时，仅保留三个term均为单字的组合。分别经过N＝1/2/3处理后得到最终的至少一个新闻词汇。

在步骤S206中，根据各条热点新闻的至少一个新闻词汇，分别确定各条热点新闻的关键词。

通过关键词提取方法，分别提取出各条热点新闻的关键词。

在步骤S208中，根据各条热点新闻及各条热点新闻的关键词，确定热点信息关键词集合。

例如，通过汇总各条热点新闻的关键词，构建出热点信息关键词集合。

在一些实施例中，例如可以采用上述的TF-IDF方法来分别提取各条热点新闻的关键词。例如，分别计算各条热点新闻的至少一个新闻词汇的TF-IDF，将计算出的TF-IDF与预设的关键词阈值进行比较，如果大于该关键词阈值，则将对应的新闻词汇确定为该条热点新闻的关键词之一。其中，TF-IDF的计算公式可具体参见上述的公式(1)，在此不再赘述。

在一些实施例中，热点新闻关键词集合包括：关键词-热点新闻倒排词典；关键词-热点新闻倒排词典包括：热点新闻关键词集合中各关键词及分别与各关键词对应的一条或多条热点新闻。

本公开实施例公开的热点新闻关键词集合确定方法，通过离线整理热点新闻信息，为在线端的搜索提前做好准备，可以提升在线端的识别速度，此外由于不断更新该集合中的热点新闻，可以保证热点新闻的时效性，避免召回过时的热点新闻。

参考图8，热点新闻关键词集合确定方法30进一步还可以包括：

在步骤S302中，根据各条热点新闻的至少一个新闻词汇，分别确定各条热点新闻的相关词。

例如，也可以采用计算各新闻词汇的TF-IDF的方法来确定各条热点新闻的相关词。如在分别计算出各新闻词汇的TF-IDF后，通过与预设的相关词阈值比较，如果大于该相关词阈值且小于上述的关键词阈值，则确定其为相关词。

此外，除了确定各条热点新闻的关键词、相关词外，还可以包括确定无关词。其中，关键词是指能够一定程度代表该热点新闻的核心的词汇，如时间、地点、任务等，关键词一方面用于上述预召回热点新闻，另一方面用于进行匹配度计算；相关词是指能够一定程度体现该热点新闻内部信息的词汇，如关键的形容词、热点标签等，相关词用于进行匹配度计算；无关词是指虽然可能与对应热点新闻有关，但是并不能明确体现该热点新闻的含义的词汇，如助词、停词等。

例如，以一条热点新闻为例，计算出其包含的各新闻词汇的TF-IDF之后，通过设置上述的关键词阈值、相关词阈值来联合判断一个新闻词汇属于关键词、相关词或无关词。如果其TF-IDF大于关键词阈值，则判别为关键词；如果小于关键词阈值但大于相关词阈值，则判别为相关词；否则，判别为无关词。

此外，在通过上述TF-IDF方法区分出关键词、相关词及无关词后，还可以进一步将关键词降级到相关词，例如删除带有量词的2-GRAM组合，如1年等；再例如，具有高IDF但是无明确热点新闻信息的词汇，如男人、女人等。

在确定出各条热点新闻的关键词、相关词及其对应的TF-IDF后，可以将其进行存储，例如存入数据库中，以用于生成热点新闻关键词集合。

热点新闻关键词集合除了包含上述的关键词-热点新闻倒排词典外，还可以进一步包括：热点新闻-关键词正排词典，热点新闻-关键词正排词典包括：热点新闻关键词集合中各条热点新闻及分别与各条热点新闻对应的关键词、相关词及各关键词和各相关词的词频。热点新闻-关键词正排词典可用于上述对预召回热点新闻与查询语句之间的相关性计算。

此外，相应地，在步骤S208’中，根据各条热点新闻及各条热点新闻的关键词和相关词，确定热点信息关键词集合。

图9示出本公开实施例中再一种热点新闻关键词集合确定方法流程图。图9所示的热点新闻关键词集合确定方法进一步示出另一种根据各条所述热点新闻的至少一个新闻词汇，分别确定各条所述热点新闻的所述关键词及所述相关词的实施例。

参考图9，热点新闻关键词集合确定方法40包括：

在步骤S202中，获取多条热点新闻。

上述步骤与热点新闻关键词集合确定方法20中的步骤相同，在此不再赘述。

在步骤S402中，分别将各条热点新闻的至少一个新闻词汇，基于字到向量word2vector算法转换为词向量，并分别确定各条热点新闻的至少一个新闻词汇的词性特征及位置特征。

在步骤S404中，分别计算各条热点新闻的至少一个新闻词汇的TF-IDF。

新闻词汇的TF-IDF的计算如上述，在此不再赘述。

在步骤S406中，分别将各条热点新闻的至少一个新闻词汇的词向量、词性特征、位置特征及TF-IDF输入至经训练的BILSTM-CRF(双向长短期记忆网络-条件随机场)模型，确定出各条热点新闻的关键词及相关词。

在一些实施例中，BILSTM-CRF模型还可以进一步分类出上述的无关词。

在步骤S408中，根据各条热点新闻及各条热点新闻的关键词和相关词，确定热点信息关键词集合。

根据本公开实施例提供的热点新闻关键词集合确定方法，在进行关键词、相关词提取时，引入了语义特征，进一步使用预训练词向量加深度学习的模式，结合词性、位置、TF-IDF值等特征综合进行关键词提取，可以进一步提升关键词提取的准确率和召回率。

需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

如图10所示，热点新闻查询意图识别装置50包括：语句获取模块502、分词处理模块504、关键词匹配模块506、新闻召回模块508及意图识别模块510。

其中，语句获取模块502用于获取客户端发送的查询语句；

分词处理模块504用于对查询语句进行分词处理，得到至少一个查询词；

关键词匹配模块506用于查询至少一个查询词中是否有查询词与热点新闻关键词集合中的关键词匹配；

新闻召回模块508用于当至少一个查询词中有查询词与热点新闻关键词集合中的关键词匹配时，分别获得与各查询词匹配的关键词对应的至少一条热点新闻；

意图识别模块510用于根据确定的查询语句与各条热点新闻之间的相关性量值，识别查询语句的查询意图是否为热点新闻查询意图。

本公开实施例提供的热点新闻查询意图识别装置，首先将查询语句进行分词得到至少一条查询词；再将各条查询词分别与预先获得的热点新闻关键词集合中的关键词进行匹配，确定出预召回的热点新闻；之后再根据查询语句与预召回的热点新闻之间的相关性量值，来识别该查询语句是否具有热点新闻查询意图。通过该方法可以产生如下几点有益效果：第一，相比于相关技术中通过训练文本分类模型来识别查询意图的方法，该方法无需对大量具有意图标签的样本进行训练以获得具有一定精度的分类模型，该方法可以做到在线实时识别查询语句是否具有搜索热点新闻的意图；第二，通过热点新闻的预召回方式，大大减少了用户查询语句和海量热点新闻之间相关性的计算量，从而可以快速地完成意图分类，经测试，在搜索场景业务中，对热点新闻查询意图识别服务的平均时延小于3ms，因此服务并发量也得以提升，从而可以减少部署的搜索服务器的数量；第三，该方法还可以有效提升热点新闻查询意图识别的准确率和召回率；第四，该方法还可以通过事先配置热点新闻关键词集合，实现对在线搜索热点新闻意图识别的良好干预。

在一些实施例中，意图识别模块510包括：TF-IDF计算单元、TF-IDF排序单元及意图识别单元。TF-IDF计算单元用于分别计算各条热点新闻中包含的各查询词的词频-逆文本频率TF-IDF之和；TF-IDF排序单元用于基于各条热点新闻的TF-IDF之和，按照降序对各条热点新闻进行排序；意图识别单元用于基于降序，依次对各条热点新闻进行如下处理：确定查询语句与热点新闻之间的相关性量值；当相关性量值大于预设的相关性阈值时，识别查询语句的查询意图为热点新闻查询意图，向客户端返回包含热点新闻的查询结果，且热点新闻位于查询结果的最前面；当相关性量值不大于相关性阈值时，处理下一条热点新闻。

在一些实施例中，热点新闻关键词集合包括：热点新闻-关键词正排词典；热点新闻-关键词正排词典包括：热点新闻关键词集合中各条热点新闻及分别与各条热点新闻对应的关键词、相关词及各关键词和各相关词的词频；意图识别单元用于根据热点新闻-关键词正排词典，基于BM25文本相似度算法，计算查询语句与热点新闻的相关性量值。

在一些实施例中，意图识别单元用于基于深层结构语义模型DSSM预测查询语句与热点新闻之间的相关性量值；其中，深层结构语义模型DSSM是基于搜索引擎中历史查询语句与对应的热点新闻点击数据进行训练得到的。

在一些实施例中，热点新闻关键词集合包括：关键词-热点新闻倒排词典；关键词-热点新闻倒排词典包括：热点新闻关键词集合中各关键词及分别与各关键词对应的一条或多条热点新闻；关键词匹配模块506包括：索引建立单元及关键词查找单元。索引建立单元用于根据关键词-热点新闻倒排词典，采用字典树的形式建立关键词-热点新闻倒排序索引；关键词查找单元包括：查找至少一个查询词中是否有查询词与关键词-热点新闻倒排序索引中的关键词匹配。

在一些实施例中，热点新闻查询意图识别装置50还包括：集合获取模块，用于获取并存储热点新闻关键词集合。

如图11所示，热点新闻关键词集合确定装置60包括：新闻获取模块602、分词处理模块604、关键词提取模块606及集合确定模块608。

其中，新闻获取模块602用于获取多条热点新闻；

分词处理模块604用于分别对各条热点新闻进行分词处理，获得各条热点新闻的至少一个新闻词汇；

关键词提取模块606用于根据各条热点新闻的至少一个新闻词汇，分别确定各条热点新闻的关键词；

集合确定模块608用于根据各条热点新闻及各条热点新闻的关键词，确定热点信息关键词集合。

本公开实施例公开的热点新闻关键词集合确定装置，通过离线整理热点新闻信息，为在线端的搜索提前做好准备，可以提升在线端的识别速度，此外由于不断更新该集合中的热点新闻，可以保证热点新闻的时效性，避免召回过时的热点新闻。

在一些实施例中，关键词提取模块606还用于根据各条热点新闻的至少一个新闻词汇，分别确定各条热点新闻的相关词。热点新闻关键词集合包括：热点新闻-关键词正排词典；热点新闻-关键词正排词典包括：热点新闻关键词集合中各条热点新闻及分别与各条热点新闻对应的关键词、相关词及各关键词和各相关词的词频。

在一些实施例中，关键词提取模块606包括：TF-IDF计算单元及词汇提取单元。TF-IDF计算单元用于分别计算各条热点新闻的至少一个新闻词汇的TF-IDF；词汇提取单元用于基于各条热点新闻的至少一个新闻词汇的TF-IDF及预设的TF-IDF阈值，分别确定各条热点新闻的关键词及相关词。

在一些实施例中，关键词提取模块606包括：特征提取单元、TF-IDF计算单元及词汇提取单元。特征提取单元用于分别将各条热点新闻的至少一个新闻词汇，基于字到向量word2vector算法转换为词向量，并分别确定各条热点新闻的至少一个新闻词汇的词性特征及位置特征；TF-IDF计算单元用于分别计算各条热点新闻的至少一个新闻词汇的TF-IDF；词汇提取单元用于分别将各条热点新闻的至少一个新闻词汇的词向量、词性特征、位置特征及TF-IDF输入至经训练的双向长短期记忆网络-条件随机场BILSTM-CRF模型，确定出各条热点新闻的关键词及相关词。

在一些实施例中，分词处理模块604包括：切词单元及分词处理单元。切词单元用于分别对各条热点新闻进行分词处理，得到各条热点新闻的至少一个分词；分词处理单元用于分别对各条热点新闻的至少一个分词进行多次N-GRAM处理，获得获得各条热点新闻的至少一个新闻词汇。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为***、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“***”。

下面参照图12来描述根据本公开的这种实施方式的电子设备800。图12显示的电子设备800仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图12所示，电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于：上述至少一个处理单元810、上述至少一个存储单元820、连接不同***组件(包括存储单元820和处理单元810)的总线830。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元810执行，使得所述处理单元810执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元810可以执行如图2中所示的步骤S102，获取客户端发送的查询语句；步骤S104，对查询语句进行分词处理，得到至少一个查询词；步骤S106，查询至少一个查询词中是否有查询词与热点新闻关键词集合中的关键词匹配；步骤S108，当至少一个查询词中有查询词与热点新闻关键词集合中的关键词匹配时，分别获得与各查询词匹配的关键词对应的至少一条热点新闻；步骤S110，根据确定的查询语句与各条热点新闻之间的相关性量值，识别查询语句的查询意图是否为热点新闻查询意图。

存储单元820可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202，还可以进一步包括只读存储单元(ROM)8203。

存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204，这样的程序模块8205包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线830可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备800也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备800交互的设备通信，和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且，电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器860通过总线830与电子设备800的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备800使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

参考图9所示，描述了根据本公开的实施方式的用于实现上述方法的程序产品900，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

Claims

一种热点新闻查询意图识别方法，其特征在于，包括：

获取客户端发送的查询语句；

对所述查询语句进行分词处理，得到至少一个查询词；

查询所述至少一个查询词中是否有查询词与热点新闻关键词集合中的关键词匹配；

当所述至少一个查询词中有查询词与所述热点新闻关键词集合中的关键词匹配时，分别获得与各所述查询词匹配的关键词对应的至少一条热点新闻；以及

根据确定的所述查询语句与各条所述热点新闻之间的相关性量值，识别所述查询语句的查询意图是否为热点新闻查询意图。
根据权利要求1所述的方法，其特征在于，根据确定的所述查询语句与各条所述热点新闻之间的相关性量值，识别所述查询语句的查询意图是否为热点新闻查询意图，包括：

分别计算各条所述热点新闻中包含的各所述查询词的词频-逆文本频率TF-IDF之和；

基于各条所述热点新闻的所述TF-IDF之和，按照降序对各条所述热点新闻进行排序；以及

基于所述降序，依次对各条所述热点新闻进行如下处理：确定所述查询语句与所述热点新闻之间的相关性量值；当所述相关性量值大于预设的相关性阈值时，识别所述查询语句的查询意图为热点新闻查询意图。
根据权利要求2所述的方法，其特征在于，所述热点新闻关键词集合包括：热点新闻-关键词正排词典；所述热点新闻-关键词正排词典包括：所述热点新闻关键词集合中各条热点新闻及分别与各条热点新闻对应的关键词、相关词及各所述关键词和各所述相关词的词频；

确定所述查询语句与所述热点新闻之间的相关性量值，包括：根据所述热点新闻-关键词正排词典，基于BM25文本相似度算法，计算所述查询语句与所述热点新闻的相关性量值。
根据权利要求2所述的方法，其特征在于，确定所述查询语句与所述热点新闻之间的相关性量值，包括：基于深层结构语义模型DSSM预测所述查询语句与所述热点新闻之间的相关性量值；其中，所述深层结构语义模型DSSM是基于搜索引擎中历史查询语句与对应的热点新闻点击数据进行训练得到的。
根据权利要求1-4任一项所述的方法，其特征在于，所述热点新闻关键词集合包括：关键词-热点新闻倒排词典；所述关键词-热点新闻倒排词典包括：所述热点新闻关键词集合中各关键词及分别与各关键词对应的一条或多条热点新闻；

查询所述至少一个查询词中是否有查询词与热点新闻关键词集合中的关键词匹配，包括：根据所述关键词-热点新闻倒排词典，采用字典树的形式建立关键词-热点新闻倒排序索引；及查找所述至少一个查询词中是否有查询词与所述关键词-热点新闻倒排序索引中的关键词匹配。
根据权利要求1-4任一项所述的方法，其特征在于，还包括：获取并存储所述热点新闻关键词集合。
一种热点新闻关键词集合确定方法，其特征在于，包括：

获取多条热点新闻；

分别对各条所述热点新闻进行分词处理，获得各条所述热点新闻的至少一个新闻词汇；

根据各条所述热点新闻的至少一个新闻词汇，分别确定各条所述热点新闻的关键词；以及

根据各条所述热点新闻及各条所述热点新闻的关键词，确定所述热点信息关键词集合。
根据权利要求7所述的方法，其特征在于，所述热点新闻关键词集合包括：关键词-热点新闻倒排词典；所述关键词-热点新闻倒排词典包括：所述热点新闻关键词集合中各关键词及分别与各关键词对应的一条或多条热点新闻。
根据权利要求7或8所述的方法，其特征在于，还包括：根据各条所述热点新闻的至少一个新闻词汇，分别确定各条所述热点新闻的相关词；所述热点新闻关键词集合包括：热点新闻-关键词正排词典；所述热点新闻-关键词正排词典包括：所述热点新闻关键词集合中各条热点新闻及分别与各条热点新闻对应的关键词、相关词及各所述关键词和各所述相关词的词频。
根据权利要求9所述的方法，其特征在于，根据各条所述热点新闻的至少一个新闻词汇，分别确定各条所述热点新闻的所述关键词及所述相关词，包括：

分别计算各条所述热点新闻的至少一个新闻词汇的TF-IDF；以及

基于各条所述热点新闻的至少一个新闻词汇的TF-IDF及预设的TF-IDF阈值，分别确定各条所述热点新闻的所述关键词及所述相关词。
根据权利要求9所述的方法，其特征在于，根据各条所述热点新闻的至少一个新闻词汇，分别确定各条所述热点新闻的所述关键词及所述相关词，包括：

分别将各条所述热点新闻的至少一个新闻词汇，基于字到向量word2vector算法转换为词向量，并分别确定各条所述热点新闻的至少一个新闻词汇的词性特征及位置特征；

分别计算各条所述热点新闻的至少一个新闻词汇的TF-IDF；以及

分别将各条所述热点新闻的至少一个新闻词汇的词向量、词性特征、位置特征及TF-IDF输入至经训练的双向长短期记忆网络-条件随机场BILSTM-CRF模型，确定出各条所述热点新闻的所述关键词及所述相关词。
根据权利要求7或8所述的方法，其特征在于，分别对各条所述热点新闻进行分词处理，获得各条所述热点新闻的至少一个新闻词汇，包括：分别对各条所述热点新闻进行分词处理，得到各条所述热点新闻的至少一个分词；分别对各条所述热点新闻的至少一个分词进行多次N-GRAM处理，获得获得各条所述热点新闻的至少一个新闻词汇。
一种热点新闻查询意图识别装置，其特征在于，包括：

语句获取模块，用于获取客户端发送的查询语句；

分词处理模块，用于对所述查询语句进行分词处理，得到至少一个查询词；

关键词匹配模块，用于查询所述至少一个查询词中是否有查询词与热点新闻关键词集合中的关键词匹配；

新闻召回模块，用于当所述至少一个查询词中有查询词与所述热点新闻关键词集合中的关键词匹配时，分别获得与各所述查询词匹配的关键词对应的至少一条热点新闻；以及

意图识别模块，用于根据确定的所述查询语句与各条所述热点新闻之间的相关性量值，识别所述查询语句的查询意图是否为热点新闻查询意图。
一种热点新闻关键词集合确定装置，其特征在于，包括：

新闻获取模块，用于获取多条热点新闻；

分词处理模块，用于分别对各条所述热点新闻进行分词处理，获得各条所述热点新闻的至少一个新闻词汇；

关键词提取模块，用于根据各条所述热点新闻的至少一个新闻词汇，分别确定各条所述热点新闻的关键词；以及

集合确定模块，用于根据各条所述热点新闻及各条所述热点新闻的关键词，确定所述热点信息关键词集合。
一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-6任一项或权利要求7-12任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6任一项或权利要求7-12任一项所述的方法。