CN113779239A

CN113779239A - 一种热点信息获取方法和装置

Info

Publication number: CN113779239A
Application number: CN202110105380.5A
Authority: CN
Inventors: 肖翔; 何刚; 何峰
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-12-10

Abstract

本发明公开了一种热点信息获取方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：采用流式计算方式对用户输入的信息进行预处理，以提取所述信息的特征数据，所述特征数据包括所述信息的背景特征、语义特征和聚类特征；基于预先设定的维度和所述特征数据，将所述信息划分为数据集，并根据所述特征数据将所述数据集分组为聚类簇，以及对所述聚类簇内的信息总量进行排序，以获取热点信息。该实施方式通过流式计算快速提取文本特征及关键信息，以结构化的方式存储文本使得聚类速度极快，并基于快慢库隔离的方式来支持多维度及长期数据的计算，因此能够快速分析海量咨询文本，拓展了热点信息获取的适用场景。

Description

一种热点信息获取方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种热点信息获取方法和装置。

背景技术

在线客服***是一种网页版即时通讯软件的统称。通过对咨询场景中的各类结构化与非结构化数据进行分析，可以获得多种营销相关的数据，将这些数据运用于售前服务中，能够有效地提升商家促成转换率。另一方面，热点追踪是一种常见的营销运营工具，被广泛的运用于社群网络、电商、金融业、新闻业等多种场景。

在实现本发明的过程中，发明人发现现有的智能热点分析***存在生成结果比较简单、难以达到对舆情进行分析的目的，无法有效地复用于电商领域的用户咨询，计算复杂，耗时过长，聚类相似性过高等缺陷。

发明内容

有鉴于此，本发明实施例提供一种热点信息获取方法和装置，能够通过流式计算快速提取文本特征及关键信息，以结构化的方式存储文本使得聚类速度极快，并基于快慢库隔离的方式来支持多维度及长期数据的计算，因此能够快速分析海量咨询文本，拓展热点信息获取的适用场景。

为实现上述目的，根据本发明实施例的第一方面，提供了一种热点信息获取方法，该方法包括：

采用流式计算方式对用户输入的信息进行预处理，以提取所述信息的特征数据，所述特征数据包括所述信息的背景特征、语义特征和聚类特征；

基于预先设定的聚类维度和所述特征数据，将所述信息划分为数据集，并根据所述特征数据将所述数据集分组为聚类簇；以及

对所述聚类簇内的信息总量进行排序，以获取热点信息。

可选地，根据本发明的实施例的第一方面所述的方法，其中，

根据所述聚类特征将所述数据集分组为聚类簇。

在对所述信息进行预处理之前，根据所述信息的发生场景对所述信息进行过滤处理，以降低预处理数据量。

对所述信息进行关键实体提取，以获得所述聚类特征，

采集所述信息的背景属性，作为所述背景特征，并且

对所述信息进行语义识别，以提取所述语义特征。

所述背景特征包括商家、库存保有单位、品类和品牌，

所述语义特征包括文本情绪、文本意图，

所述聚类特征包括问题点、商品参数、操作方法和用户的诉求，并且

所述聚类维度包括所述背景特征和所述语义特征中的至少一个。

将特定时间阈值内的预处理后的所述信息以结构化存储方式存储于第一存储装置，并且

将超出所述特定时间阈值的预处理后的所述信息以结构化存储方式迁移至第二存储装置。

根据预先设定的聚类周期，选择从所述第一存储装置和/或所述第二存储装置中获取热点信息。

当所述聚类周期大于所述特定时间阈值时，则根据文本内容对所述第二存储装置中的符合所述聚类周期的信息进行预聚类，并且将预聚类后的信息与所述第一存储装置中的信息合并后再划分数据集。

可选地，根据本发明的实施例的第一方面所述的方法，还包括：

选取作为所述热点信息的每个所述聚类簇中的特定信息，作为该聚类簇的代表信息，并且

将所述维度及所述聚类特征的哈希化数列作为该聚类簇的标识。

根据本发明实施例的第二方面，提供了一种热点信息获取装置，包括：

特征数据获取模块，用于采用流式计算方式对用户输入的信息进行预处理，以提取所述信息的特征数据，所述特征数据包括所述信息的背景特征、语义特征和聚类特征；

信息聚类模块，基于预先设定的聚类维度和所述特征数据，将所述信息划分为数据集，并根据所述特征数据将所述数据集分组为聚类簇，以及

热点信息获取模块，对所述聚类簇内的信息总量进行排序，以获取热点信息。

可选地，根据本发明的实施例的第二方面所述的装置，其中，

根据所述聚类特征将所述数据集分组为聚类簇。

对所述信息进行关键实体提取，以获得所述聚类特征，

采集所述信息的背景属性，作为所述背景特征，并且

对所述信息进行语义识别，以提取所述语义特征。

所述背景特征包括商家、库存保有单位、品类和品牌，

所述语义特征包括文本情绪、文本意图，

根据本发明实施例的第三方面，提供了一种用于热点信息获取的电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明的实施例的第一方面所述的方法。

根据本发明实施例的第四方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如本发明实施例的第一方面所述的方法。

上述发明中的一个实施例具有如下优点或有益效果：根据本发明实施例的技术方案，能够通过流式计算快速提取文本特征及关键信息，以结构化的方式存储文本使得聚类速度极快，并基于快慢库隔离的方式来支持多维度及长期数据的计算，因此能够快速分析海量咨询文本，拓展热点信息获取的适用场景。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的热点信息获取方法的主要流程的示意图；

图2是根据本发明的实施例的热点信息获取方法的特征数据获取步骤的主要流程的示意图；

图3是根据本发明实施例的热点信息获取装置的主要模块的示意图；

图4是本发明实施例可以应用于其中的示例性***架构图；

图5是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的热点信息获取方法，如图1所示，本发明的实施例的热点信息获取方法包括：特征数据获取步骤S101、信息聚类步骤S102和热点信息获取步骤S103。

特征数据获取步骤S101

在特征数据获取步骤S101中，对用户输入的信息进行预处理，以获取所述信息的特征数据。

如图2所示，预处理包括聚类特征提取步骤S1011、语义特征识别步骤S1012和背景特征采集步骤S1013，以分别获得信息的背景特征(即静态特征)、语义特征(即动态特征)和聚类特征。

聚类特征是指信息的关键实体。具体而言，以用户输入的信息为文本为例，在聚类特征提取步骤S1011中，通过关键词提取或预训练的特征识别模型来提取文本的关键实体，作为聚类特征。聚类特征可以包括用户的问题点、货品参数、操作方式和用户的诉求等。

语义特征是指随着信息内容变化而变化的特征，例如情绪、意图、需求等。在语义特征识别步骤S1012中，通过语义识别模型(例如情绪模型、意图模型或其他模型)等识别文本情绪、文本意图等，作为文本的语义特征。文本情绪可以包括焦虑、生气和满意等。文本意图可以包括价格、活动和物流等。

背景特征是指信息的固有特征，不会随着信息内容的变化而变化。在背景特征采集步骤S1013中，采集信息的背景属性，例如会话发生的场景(商家、品类和品牌等)，作为文本的背景特征。

可选地，当用户输入的信息并非文本(例如语音)时，可以通过预先将非文本信息转换为文本，再进行预处理。

可选地，如图2所示，在对用户输入的信息进行预处理之前，可以根据诸如业务特点的信息发生场景通过诸如规则匹配和文本分类模型等方式对信息进行过滤处理。例如，当会话发生在电商场景时，仅需要保留信息文本中的问句即可。通过该步骤，能够降低预处理步骤中将要处理的数据量。

可选地，如图2所示，在用户输入信息后，可以将信息通过消息中间件流式的传发发送到信息网关，以对信息进行流式计算。

可选地，如图2所示，在对用户输入的信息进行预处理后，可以将信息的聚类特征、语义特征和背景特征补充在文本后，并以结构化方式分发存储。

可选地，如图2所示，可以将特定时间阈值内的预处理后的信息存入短期内存缓存中，以方便快速存取数据。短期内存缓存的具体实例可以包括远程字典服务(redis)和关系型数据库管理***(mysql)等。

可选地，如图2所示，也可以将超出特定时间阈值之外的预处理后的信息迁移至长期海量存储中，以实现海量数据的存储。长期海量存储的实例可以包括分布式文件***(hdfs)和分布式文档数据库(elasticsearch)等。

在特征数据获取步骤S101中，通过流式计算的方式在信息的文本产生的同时就对文本进行预处理，并通过分发快慢存储数据库的方式，能够支持文本的快速聚类。

信息聚类步骤S102

在信息聚类步骤S102中，预先设置聚类维度(以下有时简称为“维度”)。维度将决定在数据库中选取数据的范围和量级。具体而言，维度可以包括信息的语义特征和背景特征中的至少一种。例如，可以选择背景特征中的“商家”作为维度，或者也可以选择语义特征中的文本情绪(例如，“生气”)作为维度，再或者，可以选择背景特征和语义特征的组合，例如，“商家”+“品牌”+“生气”作为维度。

根据预先设置的维度划分数据集。例如，当维度为商家时，则将每个商家的数据划分为该商家的数据集。然后根据信息的聚类特征将数据集分组为聚类簇。

可选地，在信息聚类步骤S102中，除了预先设置维度之外，还可以预先设置聚类周期。聚类周期将决定数据采集时所查询的数据库及对应的数据分区。

例如，当所设置的聚类周期较短，例如小于特定时间阈值时，则可以直接从内存缓存中根据维度获取所需的数据集。

另一方面，当设置的聚类周期较长，例如，大于特定时间阈值时，则可以从长期海量存储中获取历史数据，然后将历史数据与缓存中的数据进行合并，随后划分数据集。

可选地，在获取历史数据后，可以根据信息内容对该历史数据进行预聚类，然后在将预聚类后的历史数据与缓存中的数据合并，以减少后续计算量。

热点信息获取步骤S103

在热点信息获取步骤S103中，对各个聚类簇内信息条数求和，随后根据簇内信息总量进行排序，以获得热点数据。例如，可以将信息总量的前N(N为自然数)为作为热点信息。

经初步测试，本发明的热点信息获取方法能够在5分钟内完成7千万量级、20万个维度的热点信息获取任务。

可选地，在作为热点信息每个聚类簇中，选取该聚类簇中的特定信息，例如，数量最多的一条信息，作为该聚类簇的代表信息。同时，将该聚类簇的维度和聚类特征的哈希化数列作为该聚类簇的标识，以便于热点信息的追踪及溯源。

图3示出了用于实现本发明的热点信息获取方法的装置。如图3所示，本发明的实施例的热点信息获取装置300包括：

特征数据获取模块301，用于采用流式计算方式对用户输入的信息进行预处理，以提取所述信息的特征数据，所述特征数据包括所述信息的背景特征、语义特征和聚类特征；

信息聚类模块302，基于预先设定的聚类维度和所述特征数据，将所述信息划分为数据集，并根据所述特征数据将所述数据集分组为聚类簇；以及

热点信息获取模块303，用于对所述聚类簇内的信息总量进行排序，以获取热点信息。

可选地，本发明的热点信息获取装置还包括信息网关模块。该信息网关模块可以根据业务特点通过规则匹配和文本分类模型等方式第一信息进行过滤处理。例如，当会话发生在电商场景时，仅需要保留信息文本中的问句即可。通过该步骤，能够降低预处理步骤中将要处理的数据量。

可选地，本发明的热点信息获取装置还包括消息中间件。在用户输入信息后，可以将信息通过消息中间件流式的传发发送到信息网关，以对信息进行流式计算。

图4示出了可以应用本发明实施例的热点信息获取方法或热点信息获取装置的示例性***架构400。

如图4所示，***架构400可以包括终端设备401、402、403，网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备401、402、403通过网络404与服务器405交互，以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器405可以是提供各种服务的服务器，例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的热点信息获取方法一般由服务器405执行，相应地，热点信息获取装置一般设置于服务器405中。

应该理解，图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图5，其示出了适于用来实现本发明实施例的终端设备的计算机***500的结构示意图。图5示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机***500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有***500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本发明的***中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括特征数据获取模块、信息聚类模块和热点信息获取模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，特征数据获取模块还可以被描述为“对用户输入的信息进行预处理的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：采用流式计算方式对用户输入的信息进行预处理，以提取所述信息的特征数据，所述特征数据包括所述信息的背景特征、语义特征和聚类特征；基于预先设定的维度和所述特征数据，将所述信息划分为数据集，并根据所述特征数据将所述数据集分组为聚类簇；以及对所述聚类簇内的信息总量进行排序，以获取热点信息。

根据本发明实施例的技术方案，能够通过流式计算快速提取文本特征及关键信息，以结构化的方式存储文本使得聚类速度极快，并基于快慢库隔离的方式来支持多维度及长期数据的计算，因此能够快速分析海量咨询文本，赋能商家营销能力的创新设计。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种热点信息获取方法，其特征在于，包括：

对所述聚类簇内的信息总量进行排序，以获取热点信息。

2.如权利要求1所述的方法，其特征在于，

根据所述聚类特征将所述数据集分组为聚类簇。

3.如权利要求1所述的方法，其特征在于，

4.如权利要求1所述的方法，其特征在于，

对所述信息进行关键实体提取，以获得所述聚类特征，

采集所述信息的背景属性，作为所述背景特征，并且

对所述信息进行语义识别，以提取所述语义特征。

5.如权利要求1所述的方法，其特征在于，

所述背景特征包括商家、库存保有单位、品类和品牌，

所述语义特征包括文本情绪、文本意图，

6.如权利要求1所述的方法，其特征在于，

7.如权利要求6所述的方法，其特征在于，还包括：

8.如权利要求7所述的方法，其特征在于，当所述聚类周期大于所述特定时间阈值时，则根据文本内容对所述第二存储装置中的符合所述聚类周期的信息进行预聚类，并且将预聚类后的信息与所述第一存储装置中的信息合并后再划分数据集。

9.如权利要求1所述的方法，其特征在于，还包括：

10.一种热点信息获取装置，其特征在于，包括：

11.一种用于热点信息获取的电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

12.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。