CN111090741B - 一种数据处理方法、装置及*** - Google Patents

一种数据处理方法、装置及*** Download PDF

Info

Publication number
CN111090741B
CN111090741B CN201911280766.9A CN201911280766A CN111090741B CN 111090741 B CN111090741 B CN 111090741B CN 201911280766 A CN201911280766 A CN 201911280766A CN 111090741 B CN111090741 B CN 111090741B
Authority
CN
China
Prior art keywords
keyword
preset
target
data
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911280766.9A
Other languages
English (en)
Other versions
CN111090741A (zh
Inventor
杜兵
祝捷
王雯雯
李薇
雷春
许允为
林楠
唐梦莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Sichuan Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Sichuan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Sichuan Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201911280766.9A priority Critical patent/CN111090741B/zh
Publication of CN111090741A publication Critical patent/CN111090741A/zh
Application granted granted Critical
Publication of CN111090741B publication Critical patent/CN111090741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法、装置及***,方法包括:发送文本主题数据至多个客户端,并接收每个客户端反馈的文本主题数据对应的文本回复数据;确定文本回复数据对应的多个目标关键词和每个目标关键词对应的多维权重值;获取多个预设参考文本数据,并确定每个预设参考文本数据对应的参考关键词和每个参考关键词对应的多维权重值;根据目标关键词和与其对应的多维权重值以及所述参考关键词和与其对应的多维权重值,确定与文本回复数据相关度最高的目标预设参考文本数据。

Description

一种数据处理方法、装置及***
技术领域
本发明涉及数据处理技术领域,更具体地,涉及一种数据处理方法、装置及***。
背景技术
相关技术中,当对用户进行内容推荐时,存在推荐准确性和计算速度之间平衡的缺陷。由于特定的技术领域和应用领域中,由于领域的特点明显以及可调配的计算资源相对匮乏,因此缺陷更为突出。
发明内容
鉴于上述问题,本发明提出了一种数据处理方法、装置和相应的***。
根据本发明实施例的第一方面,提供一种数据处理方法,用于服务器,包括:
发送文本主题数据至多个客户端,并接收每个客户端反馈的所述文本主题数据对应的文本回复数据;
确定所述文本回复数据对应的多个目标关键词和每个目标关键词对应的多维权重值;
获取多个预设参考文本数据,并确定每个预设参考文本数据对应的参考关键词和每个参考关键词对应的多维权重值;
根据所述目标关键词和与其对应的多维权重值以及所述参考关键词和与其对应的多维权重值,确定与所述文本回复数据相关度最高的目标预设参考文本数据。
在一个实施例中,优选地,确定所述文本回复数据对应的多个目标关键词和每个目标关键词对应的多维权重值,包括:
对每个所述文本回复数据进行分词处理,以得到多个目标关键词;
根据每个目标关键词出现在所述文本回复数据中的多维次数,确定所述目标关键词对应的多维权重值。
在一个实施例中,优选地,在得到多个目标关键词之后,所述方法还包括:
获取关键词存储词库,其中,所述关键词存储词库中存储有多个预设关键词,以及不同预设关键词之间的耦合度;
根据所述不同预设关键词之间的耦合度,确定所述多个目标关键词中,是否存在可以合并的第一目标关键词和第二目标关键词;
当存在可以合并的第一目标关键词和第二目标关键词时,将所述第一目标关键词和所述第二目标关键词进行合并。
在一个实施例中,优选地,根据所述不同预设关键词之间耦合度,确定所述多个目标关键词中,是否存在可以合并的第一目标关键词和第二目标关键词,包括:
从所述关键词存储词库中获取耦合度在预设范围内的目标预设关键词对;
判断所述多个目标关键词中,是否存在所述目标预设关键词对;
当所述多个目标关键词中存在所述目标预设关键词对时,确定所述多个目标关键词中存在可以合并的第一关键词和第二关键词。
在一个实施例中,优选地,所述方法还包括:
以预设显示方式显示所述关键词存储词库中的预设关键词;
接收用户输入的将第一预设关键词和第二预设关键词进行合并的合并处理操作,根据合并处理操作,将所述第一预设关键词与所述第二预设关键词进行合并显示,并将所述关键词存储词库中所述第一预设关键词和第二预设关键词的耦合度加1;或者
接收用户输入的将已合并显示的第一预设关键词和第二预设关键词进行分离的分离处理操作,根据所述分离处理操作,将所述第一预设关键词和所述第二预设关键词进行分离显示,并将所述关键词存储词库中所述第一预设关键词和第二预设关键词的耦合度减1。
在一个实施例中,优选地,所述方法还包括:
当所述关键词存储词库中所述第一预设关键词和第二预设关键词的耦合度大于第一预设阈值时,将所述第一预设关键词和所述第二预设关键词进行合并显示;
当所述关键词存储词库中所述第一预设关键词和第二预设关键词的耦合度小于第二预设阈值时,将所述第一预设关键词和所述第二预设关键词进行分离显示。
在一个实施例中,优选地,根据所述目标关键词和与其对应的多维权重值以及所述参考关键词和与其对应的多维权重值,确定与所述文本回复数据相关度最高的目标预设参考文本数据,包括:
根据所述目标关键词和与其对应的多维权重值以及所述参考关键词和与其对应的多维权重值,计算所述文本回复数据与所述预设参考文本数据之间的相关度;
将相关度最高的预设参考文本数据确定为所述目标预设参考文本数据。
在一个实施例中,优选地,所述获取多个预设参考文本数据,包括:
保存不同格式的预设多媒体数据;
将所述不同格式的预设多媒体数据转化为文本数据,将所述文本数据作为所述预设参考文本数据。
根据本发明实施例的第二方面,提供一种数据处理装置,用于服务器,包括:
存储器和处理器;
所述存储器用于保存所述处理器执行计算机程序时所使用的数据;
所述处理器用于执行计算机程序以实现如第一方面或第一方面任一实施例中所述的方法。
根据本发明实施例的第三方面,提供一种数据处理***,包括:
服务器;
与所述服务器耦合的多个客户端;
其中,所述服务器发送文本主题数据至多个客户端,并接收每个客户端反馈的所述文本主题数据对应的文本回复数据,确定所述文本回复数据对应的多个目标关键词和每个目标关键词对应的多维权重值;获取多个预设参考文本数据,并确定每个预设参考文本数据对应的参考关键词和每个参考关键词对应的多维权重值;根据所述目标关键词和与其对应的多维权重值以及所述参考关键词和与其对应的多维权重值,确定与所述文本回复数据相关度最高的目标预设参考文本数据。
本发明实施例中,服务器发送如调查问卷等文本主题数据至多个客户端,客户端处理后返回对应的文本回复数据至服务器,服务器确定文本回复数据的关键词和对应的权重,再与预设参考文本数据的关键词和权重进行比较,进而确定出与文本回复数据相关度最高的目标预设参考文本数据,这样,通过服务器向客户端发送文本主题数据等,再根据大多数用户的反馈结果,从多个备选的参考文本数据中选取出与用户的反馈结果相关度最高的参考文本数据,从而在较小消耗计算资源的基础上,提高内容推荐的准确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明一个实施例的数据处理方法的流程图。
图2A示出了根据本发明另一个实施例的数据处理方法的流程图。
图2B示出了根据本发明又一个实施例的数据处理方法的流程图。
图3示出了根据本发明另一个实施例的数据处理方法中步骤S202的流程图。
图4示出了根据本发明又一个实施例的数据处理方法的流程图。
图5示出了根据本发明又一个实施例的数据处理方法的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了根据本发明一个实施例的数据处理方法的流程图。
如图1所示,根据本发明的实施例的一种数据处理方法,用于服务器,数据处理方法包括步骤S101-S104:
步骤S101,发送文本主题数据至多个客户端,并接收每个客户端反馈的文本主题数据对应的文本回复数据。其中,本领域技术人员能够理解,文本主题数据可以是任何能够使用文本处理程序处理或解析的文本类型数据,例如txt、bat、cvs、xml等等格式的数据,本领域技术人员还能够理解,文本类型数据可以广泛地应用于互联网的多种场景中,包括但不限于,社交网络、主题论坛、APP应用商店的评论区、电子调查问卷等。上述任何具体文本类型的数据以及具体形式的应用场景都将落入本发明的保护范围之内。同时,如无特殊说明,本发明中的“文本”、“文本数据”和/或“文本主题数据”都符合上述含义的阐述。服务器发送给多个客户端后,客户端可以呈现给用户,由用户进行反馈等,得到文本回复数据,再将该文本回复数据返回至服务器。
步骤S102,确定文本回复数据对应的多个目标关键词和每个目标关键词对应的多维权重值。
在一个实施例中,优选地,确定文本回复数据对应的多个目标关键词和每个目标关键词对应的多维权重值,包括:
对每个文本回复数据进行分词处理,以得到多个目标关键词;
根据每个目标关键词出现在所述文本回复数据中的多维次数,确定所述目标关键词对应的多维权重值。其中,根据文本回复数据的性质的不同,可以将其分成多个维度,而多维权重值等于各个维度权重值之间的乘积。例如,文本回复数据为领导干部培训数据,其中,包括关键词“素质能力”,而其对应的维度包括素质能力的重要性和素质能力的紧要性两个维度,则可以统计文本回复数据中素质能力的重要性出现的次数,进而确定其对应的第一维度权重值,以及统计文本回复数据中素质能力的紧急性出现的次数,进而确定其对应的第二维度权重值,再根据第一维度权重值和第二维度权重值之间的乘积,确定关键词“素质能力”的二维权重值。
步骤S103,获取多个预设参考文本数据,并确定每个预设参考文本数据对应的参考关键词和每个参考关键词对应的多维权重值。
在一个实施例中,优选地,获取多个预设参考文本数据,包括:
保存不同格式的预设多媒体数据;其中,多媒体数据可以是文本数据、视频数据、音频数据等。
将不同格式的预设多媒体数据转化为文本数据,将文本数据作为预设参考文本数据。本领域技术人员可以采用现有技术中的任何方式完成多媒体数据到文本数据的转化。例如,对于音频数据,采用包括科大讯飞等公司在内的任意音频-文本转换器转化为文本数据,对于视频数据,提取其中的音频或字幕,并转化为文本数据。
步骤S104,根据目标关键词和与其对应的多维权重值以及参考关键词和与其对应的多维权重值,确定与文本回复数据相关度最高的目标预设参考文本数据。
在一个实施例中,优选地,根据目标关键词和与其对应的多维权重值以及参考关键词和与其对应的多维权重值,确定与文本回复数据相关度最高的目标预设参考文本数据,包括:
根据目标关键词和与其对应的多维权重值以及参考关键词和与其对应的多维权重值,计算文本回复数据与预设参考文本数据之间的相关度;将相关度最高的预设参考文本数据确定为目标预设参考文本数据。
其中,可以通过计算目标关键词和参考关键词之间的余弦距离,来计算文本回复数据与预设参考文本数据之间的相关度,当然,也可以采用相关技术中已知的其他相关度计算方法进行计算。
在该实施例中,服务器发送文本主题数据至多个客户端,客户端处理后返回对应的文本回复数据至服务器,服务器确定文本回复数据的关键词和对应的权重,再与预设参考文本数据的关键词和权重进行比较,进而确定出与文本回复数据相关度最高的目标预设参考文本数据,这样,通过服务器向客户端发送文本主题数据等,再根据用户的文本回复数据,从多个备选的参考文本数据中选取出与用户的反馈结果相关度最高的参考文本数据,从而提高内容推荐的准确度、满足用户的需求,减少人工操作。
图2A示出了根据本发明另一个实施例的数据处理方法的流程图。
如图2A所示,在一个实施例中,优选地,在得到多个目标关键词之后,方法还包括步骤S201-S203:
步骤S201,获取关键词存储词库,其中,关键词存储词库中存储有多个预设关键词,以及不同预设关键词之间的耦合度。
步骤S202,根据不同预设关键词之间的耦合度,确定多个目标关键词中,是否存在可以合并的第一目标关键词和第二目标关键词。
步骤S203,当存在可以合并的第一目标关键词和第二目标关键词时,将第一目标关键词和第二目标关键词进行合并。
在该实施例中,可以设置关键词存储词库,词库中存储一些可以替换的关键词,比如意思相同、相近或相反的词,这样,在进行目标关键词和权重计算时,就可以将意思相同、相近或相反的词作为一个关键词进行计算,从而提高准确率和效率。
图3示出了根据本发明另一个实施例的数据处理方法中步骤S202的流程图。
如图3所示,在一个实施例中,优选地,上述步S202包括步骤S301-S303:
步骤S301,从关键词存储词库中获取耦合度在预设范围内的目标预设关键词对;预设关键词对即两个预设关键词。
步骤S302,判断多个目标关键词中,是否存在目标预设关键词对;
步骤S303,当多个目标关键词中存在目标预设关键词对时,确定多个目标关键词中存在可以合并的第一关键词和第二关键词。
例如,预设关键词对为关键词“廉洁”和“廉正”,而在目标关键词中,存在这两个关键词,则可以将两者合并为一个目标关键词,进而一起统计这两个关键词的权重。根据本发明,步骤S301-S303可以被计算机程序循环执行,直到不存在合并的第一、二关键词为止。
图4示出了根据本发明又一个实施例的数据处理方法的流程图。
如图4所示,在一个实施例中,优选地,上述方法还包括步骤S401-S403:
步骤S401,以预设显示方式显示关键词存储词库中的预设关键词。其中,可以以图的形式存储关键词存储词库中的关键词,每个关键词对应图中的一个节点,任何两个节点之间的边存储两个关键词之间的耦合度。
步骤S402,接收用户输入的将第一预设关键词和第二预设关键词进行合并的合并处理操作,根据合并处理操作,将第一预设关键词与第二预设关键词进行合并显示,并将关键词存储词库中第一预设关键词和第二预设关键词的耦合度加1;或者
步骤S403,接收用户输入的将已合并显示的第一预设关键词和第二预设关键词进行分离的分离处理操作,根据分离处理操作,将第一预设关键词和第二预设关键词进行分离显示,并将关键词存储词库中第一预设关键词和第二预设关键词的耦合度减1。
其中,可以以柱状图的形式显示预设关键词,一个预设关键词对应一个柱状图,用户可以查看预设关键词的柱状图,也可以对其进行编辑,如当用户判断视图中出现在两个柱状条中的词为可替换词时,可以通过拖拽的方式将这两个词在视图中进行合并呈现,同时更新关键词存储词库,将两个词的耦合度数值+1;当用户判断视图中呈现在同一柱状条中的两个词不是同近义词时,也可以通过拖拽的方式将这两个词在视图中进行分离呈现,同时更新关键词存储词库,将两个词的耦合度数值-1。进一步的实施例中,柱状图的高度表示合并后的预设关键词的数量,且在柱状图的上方显示预设关键词的文本。
如图2B所示,在另一优选实施例中,前述步骤S203之后,还包括:
步骤S204,以预设显示方式显示目标关键词,并根据用户的输入对目标关键词进行处理。
其中,可以以柱状图的形式显示目标关键词,一个目标关键词或者一个合并后的目标关键词对应一个柱状图,柱状图的高度为目标关键词的权重,可选的显示在柱状图上方或柱状图上。如果柱状图与独立的目标关键词对应,则柱状图上方还显示出目标关键词;如果柱状图与合并后的目标关键词对应,则柱状图上方显示出合并前的第一目标关键词和第二目标关键词。用户可以查看目标关键词的柱状图,也可以对其进行编辑。如当用户判断视图中出现在两个柱状条中的词为可替换词时,可以通过拖拽的方式将这两个词在视图中进行合并呈现,合并后的柱状图的高度为两个词的权重之和,同时更新关键词存储词库,将两个词的耦合度数值+1;当用户判断视图中呈现在同一柱状条中的两个词不是可替换词时,也可以通过拖拽的方式将这两个词在视图中进行分离呈现,分离出的两个柱状图的高度分别为两个词的权重,同时更新关键词存储词库,将两个词的耦合度数值-1。通过步骤S204,能够使得目标关键词更为精准,进而使得相关度的计算更为准确。
图5示出了根据本发明又一个实施例的数据处理方法的流程图。
如图5所示,在一个实施例中,优选地,上述方法还包括步骤S501-S502:
步骤S501,当关键词存储词库中第一预设关键词和第二预设关键词的耦合度大于第一预设阈值时,将第一预设关键词和第二预设关键词进行合并显示;
步骤S502,当关键词存储词库中第一预设关键词和第二预设关键词的耦合度小于第二预设阈值时,将第一预设关键词和第二预设关键词进行分离显示。
在该实施例中,可以根据预设关键词之间的耦合度的值,对预设关键词自动进行合并显示或者分离显示,从而便于用户的查看和编辑。
根据本发明实施例的第二方面,提供一种数据处理装置,用于服务器,包括:
存储器和处理器;
所述存储器用于保存所述处理器执行计算机程序时所使用的数据;
所述处理器用于执行计算机程序以实现如第一方面或第一方面任一实施例中所述的方法。
上述处理器被配置为:
发送文本主题数据至多个客户端,并接收每个客户端反馈的所述文本主题数据对应的文本回复数据;
确定所述文本回复数据对应的多个目标关键词和每个目标关键词对应的多维权重值;
获取多个预设参考文本数据,并确定每个预设参考文本数据对应的参考关键词和每个参考关键词对应的多维权重值;
根据所述目标关键词和与其对应的多维权重值以及所述参考关键词和与其对应的多维权重值,确定与所述文本回复数据相关度最高的目标预设参考文本数据。
在一个实施例中,优选地,确定所述文本回复数据对应的多个目标关键词和每个目标关键词对应的多维权重值,包括:
对每个所述文本回复数据进行分词处理,以得到多个目标关键词;
根据每个目标关键词出现在所述文本回复数据中的多维次数,确定所述目标关键词对应的多维权重值。
在一个实施例中,优选地,在得到多个目标关键词之后,所述方法还包括:
获取关键词存储词库,其中,所述关键词存储词库中存储有多个预设关键词,以及不同预设关键词之间的耦合度;
根据所述不同预设关键词之间的耦合度,确定所述多个目标关键词中,是否存在可以合并的第一目标关键词和第二目标关键词;
当存在可以合并的第一目标关键词和第二目标关键词时,将所述第一目标关键词和所述第二目标关键词进行合并。
在一个实施例中,优选地,根据所述不同预设关键词之间耦合度,确定所述多个目标关键词中,是否存在可以合并的第一目标关键词和第二目标关键词,包括:
从所述关键词存储词库中获取耦合度在预设范围内的目标预设关键词对;
判断所述多个目标关键词中,是否存在所述目标预设关键词对;
当所述多个目标关键词中存在所述目标预设关键词对时,确定所述多个目标关键词中存在可以合并的第一关键词和第二关键词。
在一个实施例中,优选地,所述方法还包括:
以预设显示方式显示所述关键词存储词库中的预设关键词;
接收用户输入的将第一预设关键词和第二预设关键词进行合并的合并处理操作,根据合并处理操作,将所述第一预设关键词与所述第二预设关键词进行合并显示,并将所述关键词存储词库中所述第一预设关键词和第二预设关键词的耦合度加1;或者
接收用户输入的将已合并显示的第一预设关键词和第二预设关键词进行分离的分离处理操作,根据所述分离处理操作,将所述第一预设关键词和所述第二预设关键词进行分离显示,并将所述关键词存储词库中所述第一预设关键词和第二预设关键词的耦合度减1。
在一个实施例中,优选地,所述方法还包括:
当所述关键词存储词库中所述第一预设关键词和第二预设关键词的耦合度大于第一预设阈值时,将所述第一预设关键词和所述第二预设关键词进行合并显示;
当所述关键词存储词库中所述第一预设关键词和第二预设关键词的耦合度小于第二预设阈值时,将所述第一预设关键词和所述第二预设关键词进行分离显示。
在一个实施例中,优选地,根据所述目标关键词和与其对应的多维权重值以及所述参考关键词和与其对应的多维权重值,确定与所述文本回复数据相关度最高的目标预设参考文本数据,包括:
根据所述目标关键词和与其对应的多维权重值以及所述参考关键词和与其对应的多维权重值,计算所述文本回复数据与所述预设参考文本数据之间的相关度;
将相关度最高的预设参考文本数据确定为所述目标预设参考文本数据。
在一个实施例中,优选地,所述获取多个预设参考文本数据,包括:
保存不同格式的预设多媒体数据;
将所述不同格式的预设多媒体数据转化为文本数据,将所述文本数据作为所述预设参考文本数据。
根据本发明实施例的第三方面,提供一种数据处理***,包括:
服务器;
与所述服务器耦合的多个客户端;
其中,所述服务器发送文本主题数据至多个客户端,并接收每个客户端反馈的所述文本主题数据对应的文本回复数据,确定所述文本回复数据对应的多个目标关键词和每个目标关键词对应的多维权重值;获取多个预设参考文本数据,并确定每个预设参考文本数据对应的参考关键词和每个参考关键词对应的多维权重值;根据所述目标关键词和与其对应的多维权重值以及所述参考关键词和与其对应的多维权重值,确定与所述文本回复数据相关度最高的目标预设参考文本数据。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。同时,本发明的技术方案也可以被广泛的应用于各类信息***或者平台***中,例如在申请日之后将要应用并部署到申请人所在单位内网中的领导干部素质模型和/或党员骨干政治素质模型的信息***中。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特性进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.一种数据处理方法,用于服务器,其特征在于,包括:
发送文本主题数据至多个客户端,并接收每个客户端反馈的所述文本主题数据对应的文本回复数据;
确定所述文本回复数据对应的多个目标关键词和每个目标关键词对应的多维权重值,根据文本回复数据的性质的不同,将其分成多个维度,多维权重值等于各个维度权重值之间的乘积;
获取多个预设参考文本数据,并确定每个预设参考文本数据对应的参考关键词和每个参考关键词对应的多维权重值;
根据所述目标关键词和与其对应的多维权重值以及所述参考关键词和与其对应的多维权重值,确定与所述文本回复数据相关度最高的目标预设参考文本数据;
确定所述文本回复数据对应的多个目标关键词和每个目标关键词对应的多维权重值,包括:
对每个所述文本回复数据进行分词处理,以得到多个目标关键词;
根据每个目标关键词出现在所述文本回复数据中的多维次数,确定所述目标关键词对应的多维权重值。
2.根据权利要求1所述的数据处理方法,其特征在于,在得到多个目标关键词之后,所述方法还包括:
获取关键词存储词库,其中,所述关键词存储词库中存储有多个预设关键词,以及不同预设关键词之间的耦合度;
根据所述不同预设关键词之间的耦合度,确定所述多个目标关键词中,是否存在可以合并的第一目标关键词和第二目标关键词;
当存在可以合并的第一目标关键词和第二目标关键词时,将所述第一目标关键词和所述第二目标关键词进行合并。
3.根据权利要求2所述的数据处理方法,其特征在于,根据所述不同预设关键词之间耦合度,确定所述多个目标关键词中,是否存在可以合并的第一目标关键词和第二目标关键词,包括:
从所述关键词存储词库中获取耦合度在预设范围内的目标预设关键词对;
判断所述多个目标关键词中,是否存在所述目标预设关键词对;
当所述多个目标关键词中存在所述目标预设关键词对时,确定所述多个目标关键词中存在可以合并的第一关键词和第二关键词。
4.根据权利要求2所述的数据处理方法,其特征在于,所述方法还包括:
以预设显示方式显示所述关键词存储词库中的预设关键词;
接收用户输入的将第一预设关键词和第二预设关键词进行合并的合并处理操作,根据合并处理操作,将所述第一预设关键词与所述第二预设关键词进行合并显示,并将所述关键词存储词库中所述第一预设关键词和第二预设关键词的耦合度加1;或者
接收用户输入的将已合并显示的第一预设关键词和第二预设关键词进行分离的分离处理操作,根据所述分离处理操作,将所述第一预设关键词和所述第二预设关键词进行分离显示,并将所述关键词存储词库中所述第一预设关键词和第二预设关键词的耦合度减1。
5.根据权利要求4所述的数据处理方法,其特征在于,所述方法还包括:
当所述关键词存储词库中所述第一预设关键词和第二预设关键词的耦合度大于第一预设阈值时,将所述第一预设关键词和所述第二预设关键词进行合并显示;
当所述关键词存储词库中所述第一预设关键词和第二预设关键词的耦合度小于第二预设阈值时,将所述第一预设关键词和所述第二预设关键词进行分离显示。
6.根据权利要求1所述的数据处理方法,其特征在于,根据所述目标关键词和与其对应的多维权重值以及所述参考关键词和与其对应的多维权重值,确定与所述文本回复数据相关度最高的目标预设参考文本数据,包括:
根据所述目标关键词和与其对应的多维权重值以及所述参考关键词和与其对应的多维权重值,计算所述文本回复数据与所述预设参考文本数据之间的相关度;
将相关度最高的预设参考文本数据确定为所述目标预设参考文本数据。
7.根据权利要求1所述的数据处理方法,其特征在于,所述获取多个预设参考文本数据,包括:
保存不同格式的预设多媒体数据;
将所述不同格式的预设多媒体数据转化为文本数据,将所述文本数据作为所述预设参考文本数据。
8.一种数据处理装置,用于服务器,其特征在于,包括:
存储器和处理器;
所述存储器用于保存所述处理器执行计算机程序时所使用的数据;
所述处理器用于执行计算机程序以实现如权利要求1至7中任意一项所述的方法。
9.一种数据处理***,其特征在于,包括:
服务器;
与所述服务器耦合的多个客户端;
其中,所述服务器发送文本主题数据至多个客户端,并接收每个客户端反馈的所述文本主题数据对应的文本回复数据,确定所述文本回复数据对应的多个目标关键词和每个目标关键词对应的多维权重值,根据文本回复数据的性质的不同,将其分成多个维度,多维权重值等于各个维度权重值之间的乘积;获取多个预设参考文本数据,并确定每个预设参考文本数据对应的参考关键词和每个参考关键词对应的多维权重值;根据所述目标关键词和与其对应的多维权重值以及所述参考关键词和与其对应的多维权重值,确定与所述文本回复数据相关度最高的目标预设参考文本数据;对每个所述文本回复数据进行分词处理,以得到多个目标关键词;根据每个目标关键词出现在所述文本回复数据中的多维次数,确定所述目标关键词对应的多维权重值。
CN201911280766.9A 2019-12-13 2019-12-13 一种数据处理方法、装置及*** Active CN111090741B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911280766.9A CN111090741B (zh) 2019-12-13 2019-12-13 一种数据处理方法、装置及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911280766.9A CN111090741B (zh) 2019-12-13 2019-12-13 一种数据处理方法、装置及***

Publications (2)

Publication Number Publication Date
CN111090741A CN111090741A (zh) 2020-05-01
CN111090741B true CN111090741B (zh) 2023-04-07

Family

ID=70395023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911280766.9A Active CN111090741B (zh) 2019-12-13 2019-12-13 一种数据处理方法、装置及***

Country Status (1)

Country Link
CN (1) CN111090741B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468668A (zh) * 2015-10-13 2016-04-06 清华大学 一种官方媒体新闻中话题的推送方法及装置
WO2017114019A1 (zh) * 2015-12-29 2017-07-06 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和***
CN107220386A (zh) * 2017-06-29 2017-09-29 北京百度网讯科技有限公司 信息推送方法和装置
CN108829822A (zh) * 2018-06-12 2018-11-16 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN109727052A (zh) * 2017-10-31 2019-05-07 北京国双科技有限公司 关键词确定方法及装置
KR102053595B1 (ko) * 2018-08-13 2019-12-10 한국과학기술정보연구원 토픽 간 m&a 활성도 생성에 기반한 유망아이템 식별 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468668A (zh) * 2015-10-13 2016-04-06 清华大学 一种官方媒体新闻中话题的推送方法及装置
WO2017114019A1 (zh) * 2015-12-29 2017-07-06 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和***
CN107220386A (zh) * 2017-06-29 2017-09-29 北京百度网讯科技有限公司 信息推送方法和装置
CN109727052A (zh) * 2017-10-31 2019-05-07 北京国双科技有限公司 关键词确定方法及装置
CN108829822A (zh) * 2018-06-12 2018-11-16 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
KR102053595B1 (ko) * 2018-08-13 2019-12-10 한국과학기술정보연구원 토픽 간 m&a 활성도 생성에 기반한 유망아이템 식별 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"News Keyword Extraction for Topic Tracking";Sungjick Lee,Han-Joon Kim;《2008 Fourth International Conference on Networked Computing and Advanced Information Management》;20081212;全文 *
基于领域本体的主题信息采集方法;郑国良等;《计算机应用》;20081201(第12期);全文 *

Also Published As

Publication number Publication date
CN111090741A (zh) 2020-05-01

Similar Documents

Publication Publication Date Title
US9208441B2 (en) Information processing apparatus, information processing method, and program
US9146915B2 (en) Method, apparatus, and computer storage medium for automatically adding tags to document
US20170193010A1 (en) Computerized system and method for determining non-redundant tags from a user's network activity
JP2019519019A (ja) テキストタイプを識別する方法、装置及びデバイス
JP5798022B2 (ja) レコメンド装置、レコメンドシステム、レコメンド方法およびプログラム
US20200089723A1 (en) Method and system for detecting graph based event in social networks
CN109522410B (zh) 文档聚类方法及平台、服务器和计算机可读介质
CN113688310B (zh) 一种内容推荐方法、装置、设备及存储介质
CN111737576B (zh) 应用功能个性化推荐方法和装置
KR20140119269A (ko) 소셜 미디어 분석을 기반으로 복합이슈를 탐지하기 위한 장치, 시스템 및 그 방법
CN114610865A (zh) 召回文本推荐方法、装置、设备及存储介质
JP6434954B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN110297967B (zh) 兴趣点确定方法、装置、设备及计算机可读存储介质
CN114943279A (zh) 招投标合作关系的预测方法、设备及***
CN106484773B (zh) 确定多媒体资源的关键词的权重的方法及装置
CN117235371A (zh) 视频推荐方法、模型训练方法及装置
CN111090741B (zh) 一种数据处理方法、装置及***
CN111882224A (zh) 对消费场景进行分类的方法和装置
CN111079010B (zh) 一种数据处理方法、装置及***
CN116308704A (zh) 产品推荐方法、装置、电子设备、介质和计算机程序产品
CN113010664B (zh) 一种数据处理方法、装置及计算机设备
KR102078541B1 (ko) 이슈 관심도 기반의 뉴스 가치 평가 장치 및 방법, 이를 기록한 기록매체
CN110147488B (zh) 页面内容的处理方法、处理装置、计算设备及存储介质
JP7287992B2 (ja) 情報処理装置、情報処理システム、情報処理方法、及びプログラム
CN113076450B (zh) 一种目标推荐列表的确定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant