CN111090741B

CN111090741B - 一种数据处理方法、装置及***

Info

Publication number: CN111090741B
Application number: CN201911280766.9A
Authority: CN
Inventors: 杜兵; 祝捷; 王雯雯; 李薇; 雷春; 许允为; 林楠; 唐梦莹
Original assignee: State Grid Corp of China SGCC; State Grid Sichuan Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Sichuan Electric Power Co Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2023-04-07
Anticipated expiration: 2039-12-13
Also published as: CN111090741A

Abstract

本发明公开了一种数据处理方法、装置及***，方法包括：发送文本主题数据至多个客户端，并接收每个客户端反馈的文本主题数据对应的文本回复数据；确定文本回复数据对应的多个目标关键词和每个目标关键词对应的多维权重值；获取多个预设参考文本数据，并确定每个预设参考文本数据对应的参考关键词和每个参考关键词对应的多维权重值；根据目标关键词和与其对应的多维权重值以及所述参考关键词和与其对应的多维权重值，确定与文本回复数据相关度最高的目标预设参考文本数据。

Description

一种数据处理方法、装置及***

技术领域

本发明涉及数据处理技术领域，更具体地，涉及一种数据处理方法、装置及***。

背景技术

相关技术中，当对用户进行内容推荐时，存在推荐准确性和计算速度之间平衡的缺陷。由于特定的技术领域和应用领域中，由于领域的特点明显以及可调配的计算资源相对匮乏，因此缺陷更为突出。

发明内容

鉴于上述问题，本发明提出了一种数据处理方法、装置和相应的***。

根据本发明实施例的第一方面，提供一种数据处理方法，用于服务器，包括：

发送文本主题数据至多个客户端，并接收每个客户端反馈的所述文本主题数据对应的文本回复数据；

确定所述文本回复数据对应的多个目标关键词和每个目标关键词对应的多维权重值；

获取多个预设参考文本数据，并确定每个预设参考文本数据对应的参考关键词和每个参考关键词对应的多维权重值；

根据所述目标关键词和与其对应的多维权重值以及所述参考关键词和与其对应的多维权重值，确定与所述文本回复数据相关度最高的目标预设参考文本数据。

在一个实施例中，优选地，确定所述文本回复数据对应的多个目标关键词和每个目标关键词对应的多维权重值，包括：

对每个所述文本回复数据进行分词处理，以得到多个目标关键词；

根据每个目标关键词出现在所述文本回复数据中的多维次数，确定所述目标关键词对应的多维权重值。

在一个实施例中，优选地，在得到多个目标关键词之后，所述方法还包括：

获取关键词存储词库，其中，所述关键词存储词库中存储有多个预设关键词，以及不同预设关键词之间的耦合度；

根据所述不同预设关键词之间的耦合度，确定所述多个目标关键词中，是否存在可以合并的第一目标关键词和第二目标关键词；

当存在可以合并的第一目标关键词和第二目标关键词时，将所述第一目标关键词和所述第二目标关键词进行合并。

在一个实施例中，优选地，根据所述不同预设关键词之间耦合度，确定所述多个目标关键词中，是否存在可以合并的第一目标关键词和第二目标关键词，包括：

从所述关键词存储词库中获取耦合度在预设范围内的目标预设关键词对；

判断所述多个目标关键词中，是否存在所述目标预设关键词对；

当所述多个目标关键词中存在所述目标预设关键词对时，确定所述多个目标关键词中存在可以合并的第一关键词和第二关键词。

在一个实施例中，优选地，所述方法还包括：

以预设显示方式显示所述关键词存储词库中的预设关键词；

接收用户输入的将第一预设关键词和第二预设关键词进行合并的合并处理操作，根据合并处理操作，将所述第一预设关键词与所述第二预设关键词进行合并显示，并将所述关键词存储词库中所述第一预设关键词和第二预设关键词的耦合度加1；或者

接收用户输入的将已合并显示的第一预设关键词和第二预设关键词进行分离的分离处理操作，根据所述分离处理操作，将所述第一预设关键词和所述第二预设关键词进行分离显示，并将所述关键词存储词库中所述第一预设关键词和第二预设关键词的耦合度减1。

在一个实施例中，优选地，所述方法还包括：

当所述关键词存储词库中所述第一预设关键词和第二预设关键词的耦合度大于第一预设阈值时，将所述第一预设关键词和所述第二预设关键词进行合并显示；

当所述关键词存储词库中所述第一预设关键词和第二预设关键词的耦合度小于第二预设阈值时，将所述第一预设关键词和所述第二预设关键词进行分离显示。

在一个实施例中，优选地，根据所述目标关键词和与其对应的多维权重值以及所述参考关键词和与其对应的多维权重值，确定与所述文本回复数据相关度最高的目标预设参考文本数据，包括：

根据所述目标关键词和与其对应的多维权重值以及所述参考关键词和与其对应的多维权重值，计算所述文本回复数据与所述预设参考文本数据之间的相关度；

将相关度最高的预设参考文本数据确定为所述目标预设参考文本数据。

在一个实施例中，优选地，所述获取多个预设参考文本数据，包括：

保存不同格式的预设多媒体数据；

将所述不同格式的预设多媒体数据转化为文本数据，将所述文本数据作为所述预设参考文本数据。

根据本发明实施例的第二方面，提供一种数据处理装置，用于服务器，包括：

存储器和处理器；

所述存储器用于保存所述处理器执行计算机程序时所使用的数据；

所述处理器用于执行计算机程序以实现如第一方面或第一方面任一实施例中所述的方法。

根据本发明实施例的第三方面，提供一种数据处理***，包括：

服务器；

与所述服务器耦合的多个客户端；

其中，所述服务器发送文本主题数据至多个客户端，并接收每个客户端反馈的所述文本主题数据对应的文本回复数据，确定所述文本回复数据对应的多个目标关键词和每个目标关键词对应的多维权重值；获取多个预设参考文本数据，并确定每个预设参考文本数据对应的参考关键词和每个参考关键词对应的多维权重值；根据所述目标关键词和与其对应的多维权重值以及所述参考关键词和与其对应的多维权重值，确定与所述文本回复数据相关度最高的目标预设参考文本数据。

本发明实施例中，服务器发送如调查问卷等文本主题数据至多个客户端，客户端处理后返回对应的文本回复数据至服务器，服务器确定文本回复数据的关键词和对应的权重，再与预设参考文本数据的关键词和权重进行比较，进而确定出与文本回复数据相关度最高的目标预设参考文本数据，这样，通过服务器向客户端发送文本主题数据等，再根据大多数用户的反馈结果，从多个备选的参考文本数据中选取出与用户的反馈结果相关度最高的参考文本数据，从而在较小消耗计算资源的基础上，提高内容推荐的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明一个实施例的数据处理方法的流程图。

图2A示出了根据本发明另一个实施例的数据处理方法的流程图。

图2B示出了根据本发明又一个实施例的数据处理方法的流程图。

图3示出了根据本发明另一个实施例的数据处理方法中步骤S202的流程图。

图4示出了根据本发明又一个实施例的数据处理方法的流程图。

图5示出了根据本发明又一个实施例的数据处理方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了根据本发明一个实施例的数据处理方法的流程图。

如图1所示，根据本发明的实施例的一种数据处理方法，用于服务器，数据处理方法包括步骤S101-S104：

步骤S101，发送文本主题数据至多个客户端，并接收每个客户端反馈的文本主题数据对应的文本回复数据。其中，本领域技术人员能够理解，文本主题数据可以是任何能够使用文本处理程序处理或解析的文本类型数据，例如txt、bat、cvs、xml等等格式的数据，本领域技术人员还能够理解，文本类型数据可以广泛地应用于互联网的多种场景中，包括但不限于，社交网络、主题论坛、APP应用商店的评论区、电子调查问卷等。上述任何具体文本类型的数据以及具体形式的应用场景都将落入本发明的保护范围之内。同时，如无特殊说明，本发明中的“文本”、“文本数据”和/或“文本主题数据”都符合上述含义的阐述。服务器发送给多个客户端后，客户端可以呈现给用户，由用户进行反馈等，得到文本回复数据，再将该文本回复数据返回至服务器。

步骤S102，确定文本回复数据对应的多个目标关键词和每个目标关键词对应的多维权重值。

在一个实施例中，优选地，确定文本回复数据对应的多个目标关键词和每个目标关键词对应的多维权重值，包括：

对每个文本回复数据进行分词处理，以得到多个目标关键词；

根据每个目标关键词出现在所述文本回复数据中的多维次数，确定所述目标关键词对应的多维权重值。其中，根据文本回复数据的性质的不同，可以将其分成多个维度，而多维权重值等于各个维度权重值之间的乘积。例如，文本回复数据为领导干部培训数据，其中，包括关键词“素质能力”，而其对应的维度包括素质能力的重要性和素质能力的紧要性两个维度，则可以统计文本回复数据中素质能力的重要性出现的次数，进而确定其对应的第一维度权重值，以及统计文本回复数据中素质能力的紧急性出现的次数，进而确定其对应的第二维度权重值，再根据第一维度权重值和第二维度权重值之间的乘积，确定关键词“素质能力”的二维权重值。

步骤S103，获取多个预设参考文本数据，并确定每个预设参考文本数据对应的参考关键词和每个参考关键词对应的多维权重值。

在一个实施例中，优选地，获取多个预设参考文本数据，包括：

保存不同格式的预设多媒体数据；其中，多媒体数据可以是文本数据、视频数据、音频数据等。

将不同格式的预设多媒体数据转化为文本数据，将文本数据作为预设参考文本数据。本领域技术人员可以采用现有技术中的任何方式完成多媒体数据到文本数据的转化。例如，对于音频数据，采用包括科大讯飞等公司在内的任意音频-文本转换器转化为文本数据，对于视频数据，提取其中的音频或字幕，并转化为文本数据。

步骤S104，根据目标关键词和与其对应的多维权重值以及参考关键词和与其对应的多维权重值，确定与文本回复数据相关度最高的目标预设参考文本数据。

在一个实施例中，优选地，根据目标关键词和与其对应的多维权重值以及参考关键词和与其对应的多维权重值，确定与文本回复数据相关度最高的目标预设参考文本数据，包括：

根据目标关键词和与其对应的多维权重值以及参考关键词和与其对应的多维权重值，计算文本回复数据与预设参考文本数据之间的相关度；将相关度最高的预设参考文本数据确定为目标预设参考文本数据。

其中，可以通过计算目标关键词和参考关键词之间的余弦距离，来计算文本回复数据与预设参考文本数据之间的相关度，当然，也可以采用相关技术中已知的其他相关度计算方法进行计算。

在该实施例中，服务器发送文本主题数据至多个客户端，客户端处理后返回对应的文本回复数据至服务器，服务器确定文本回复数据的关键词和对应的权重，再与预设参考文本数据的关键词和权重进行比较，进而确定出与文本回复数据相关度最高的目标预设参考文本数据，这样，通过服务器向客户端发送文本主题数据等，再根据用户的文本回复数据，从多个备选的参考文本数据中选取出与用户的反馈结果相关度最高的参考文本数据，从而提高内容推荐的准确度、满足用户的需求，减少人工操作。

如图2A所示，在一个实施例中，优选地，在得到多个目标关键词之后，方法还包括步骤S201-S203：

步骤S201，获取关键词存储词库，其中，关键词存储词库中存储有多个预设关键词，以及不同预设关键词之间的耦合度。

步骤S202，根据不同预设关键词之间的耦合度，确定多个目标关键词中，是否存在可以合并的第一目标关键词和第二目标关键词。

步骤S203，当存在可以合并的第一目标关键词和第二目标关键词时，将第一目标关键词和第二目标关键词进行合并。

在该实施例中，可以设置关键词存储词库，词库中存储一些可以替换的关键词，比如意思相同、相近或相反的词，这样，在进行目标关键词和权重计算时，就可以将意思相同、相近或相反的词作为一个关键词进行计算，从而提高准确率和效率。

如图3所示，在一个实施例中，优选地，上述步S202包括步骤S301-S303：

步骤S301，从关键词存储词库中获取耦合度在预设范围内的目标预设关键词对；预设关键词对即两个预设关键词。

步骤S302，判断多个目标关键词中，是否存在目标预设关键词对；

步骤S303，当多个目标关键词中存在目标预设关键词对时，确定多个目标关键词中存在可以合并的第一关键词和第二关键词。

例如，预设关键词对为关键词“廉洁”和“廉正”，而在目标关键词中，存在这两个关键词，则可以将两者合并为一个目标关键词，进而一起统计这两个关键词的权重。根据本发明，步骤S301-S303可以被计算机程序循环执行，直到不存在合并的第一、二关键词为止。

如图4所示，在一个实施例中，优选地，上述方法还包括步骤S401-S403：

步骤S401，以预设显示方式显示关键词存储词库中的预设关键词。其中，可以以图的形式存储关键词存储词库中的关键词，每个关键词对应图中的一个节点，任何两个节点之间的边存储两个关键词之间的耦合度。

步骤S402，接收用户输入的将第一预设关键词和第二预设关键词进行合并的合并处理操作，根据合并处理操作，将第一预设关键词与第二预设关键词进行合并显示，并将关键词存储词库中第一预设关键词和第二预设关键词的耦合度加1；或者

步骤S403，接收用户输入的将已合并显示的第一预设关键词和第二预设关键词进行分离的分离处理操作，根据分离处理操作，将第一预设关键词和第二预设关键词进行分离显示，并将关键词存储词库中第一预设关键词和第二预设关键词的耦合度减1。

其中，可以以柱状图的形式显示预设关键词，一个预设关键词对应一个柱状图，用户可以查看预设关键词的柱状图，也可以对其进行编辑，如当用户判断视图中出现在两个柱状条中的词为可替换词时，可以通过拖拽的方式将这两个词在视图中进行合并呈现，同时更新关键词存储词库，将两个词的耦合度数值+1；当用户判断视图中呈现在同一柱状条中的两个词不是同近义词时，也可以通过拖拽的方式将这两个词在视图中进行分离呈现，同时更新关键词存储词库，将两个词的耦合度数值-1。进一步的实施例中，柱状图的高度表示合并后的预设关键词的数量，且在柱状图的上方显示预设关键词的文本。

如图2B所示，在另一优选实施例中，前述步骤S203之后，还包括：

步骤S204，以预设显示方式显示目标关键词，并根据用户的输入对目标关键词进行处理。

其中，可以以柱状图的形式显示目标关键词，一个目标关键词或者一个合并后的目标关键词对应一个柱状图，柱状图的高度为目标关键词的权重，可选的显示在柱状图上方或柱状图上。如果柱状图与独立的目标关键词对应，则柱状图上方还显示出目标关键词；如果柱状图与合并后的目标关键词对应，则柱状图上方显示出合并前的第一目标关键词和第二目标关键词。用户可以查看目标关键词的柱状图，也可以对其进行编辑。如当用户判断视图中出现在两个柱状条中的词为可替换词时，可以通过拖拽的方式将这两个词在视图中进行合并呈现，合并后的柱状图的高度为两个词的权重之和，同时更新关键词存储词库，将两个词的耦合度数值+1；当用户判断视图中呈现在同一柱状条中的两个词不是可替换词时，也可以通过拖拽的方式将这两个词在视图中进行分离呈现，分离出的两个柱状图的高度分别为两个词的权重，同时更新关键词存储词库，将两个词的耦合度数值-1。通过步骤S204，能够使得目标关键词更为精准，进而使得相关度的计算更为准确。

如图5所示，在一个实施例中，优选地，上述方法还包括步骤S501-S502：

步骤S501，当关键词存储词库中第一预设关键词和第二预设关键词的耦合度大于第一预设阈值时，将第一预设关键词和第二预设关键词进行合并显示；

步骤S502，当关键词存储词库中第一预设关键词和第二预设关键词的耦合度小于第二预设阈值时，将第一预设关键词和第二预设关键词进行分离显示。

在该实施例中，可以根据预设关键词之间的耦合度的值，对预设关键词自动进行合并显示或者分离显示，从而便于用户的查看和编辑。

存储器和处理器；

上述处理器被配置为：

在一个实施例中，优选地，所述方法还包括：

以预设显示方式显示所述关键词存储词库中的预设关键词；

在一个实施例中，优选地，所述方法还包括：

保存不同格式的预设多媒体数据；

服务器；

与所述服务器耦合的多个客户端；

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。同时，本发明的技术方案也可以被广泛的应用于各类信息***或者平台***中，例如在申请日之后将要应用并部署到申请人所在单位内网中的领导干部素质模型和/或党员骨干政治素质模型的信息***中。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特性进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种数据处理方法，用于服务器，其特征在于，包括：

确定所述文本回复数据对应的多个目标关键词和每个目标关键词对应的多维权重值，根据文本回复数据的性质的不同，将其分成多个维度，多维权重值等于各个维度权重值之间的乘积；

根据所述目标关键词和与其对应的多维权重值以及所述参考关键词和与其对应的多维权重值，确定与所述文本回复数据相关度最高的目标预设参考文本数据；

确定所述文本回复数据对应的多个目标关键词和每个目标关键词对应的多维权重值，包括：

2.根据权利要求1所述的数据处理方法，其特征在于，在得到多个目标关键词之后，所述方法还包括：

3.根据权利要求2所述的数据处理方法，其特征在于，根据所述不同预设关键词之间耦合度，确定所述多个目标关键词中，是否存在可以合并的第一目标关键词和第二目标关键词，包括：

4.根据权利要求2所述的数据处理方法，其特征在于，所述方法还包括：

以预设显示方式显示所述关键词存储词库中的预设关键词；

5.根据权利要求4所述的数据处理方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的数据处理方法，其特征在于，根据所述目标关键词和与其对应的多维权重值以及所述参考关键词和与其对应的多维权重值，确定与所述文本回复数据相关度最高的目标预设参考文本数据，包括：

7.根据权利要求1所述的数据处理方法，其特征在于，所述获取多个预设参考文本数据，包括：

保存不同格式的预设多媒体数据；

8.一种数据处理装置，用于服务器，其特征在于，包括：

存储器和处理器；

所述处理器用于执行计算机程序以实现如权利要求1至7中任意一项所述的方法。

9.一种数据处理***，其特征在于，包括：

服务器；

与所述服务器耦合的多个客户端；

其中，所述服务器发送文本主题数据至多个客户端，并接收每个客户端反馈的所述文本主题数据对应的文本回复数据，确定所述文本回复数据对应的多个目标关键词和每个目标关键词对应的多维权重值，根据文本回复数据的性质的不同，将其分成多个维度，多维权重值等于各个维度权重值之间的乘积；获取多个预设参考文本数据，并确定每个预设参考文本数据对应的参考关键词和每个参考关键词对应的多维权重值；根据所述目标关键词和与其对应的多维权重值以及所述参考关键词和与其对应的多维权重值，确定与所述文本回复数据相关度最高的目标预设参考文本数据；对每个所述文本回复数据进行分词处理，以得到多个目标关键词；根据每个目标关键词出现在所述文本回复数据中的多维次数，确定所述目标关键词对应的多维权重值。