CN110597989A - 一种数据处理方法、装置及计算机存储介质 - Google Patents

一种数据处理方法、装置及计算机存储介质 Download PDF

Info

Publication number
CN110597989A
CN110597989A CN201910819017.2A CN201910819017A CN110597989A CN 110597989 A CN110597989 A CN 110597989A CN 201910819017 A CN201910819017 A CN 201910819017A CN 110597989 A CN110597989 A CN 110597989A
Authority
CN
China
Prior art keywords
data
knowledge
text
user
terminal application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910819017.2A
Other languages
English (en)
Inventor
张振伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910819017.2A priority Critical patent/CN110597989A/zh
Publication of CN110597989A publication Critical patent/CN110597989A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请涉及数据处理技术领域,公开了一种数据处理方法、装置及计算机存储介质,用于总结出用户阅读过的知识点,便于用户阅读后的查找和归纳。所述方法包括:接收终端应用发送的文本数据,其中所述文本数据为终端应用中显示的文本数据;将文本数据进行分片得到分片数据;将分片数据与知识库内的预存数据进行对比,从所有分片数据中确定出知识数据,并确定每一个知识数据的分类标签;向所述终端应用发送所述知识数据以及所述知识数据的分类标签。

Description

一种数据处理方法、装置及计算机存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法、装置及计算机存储介质。
背景技术
随着网络技术的发展,人们习惯于在互联网上浏览信息。互联网上的信息具有数据量大、更新速度快、时效性强等特点,每天都有大量的网络信息产生。为了便于用户获取信息,应用通过客户端或者网站的页面向用户推送信息流产品。同时,应用会记录用户的阅读内容、阅读时长、阅读时间等行为,用于分析用户的阅读喜好。然后通过匹配用户的喜好,将应用中用户可能喜欢的内容推荐给用户。目前,用户对于应用推送的信息流产品,一般阅读过后即遗忘,无法形成知识体系,因此会觉得浏览信息流产品为浪费时间,缺乏对信息流产品的信任感和价值感。
发明内容
本申请实施例提供了一种数据处理方法、装置及计算机存储介质,用于总结出用户阅读过的知识点,便于用户阅读后的查找和归纳。
根据本申请实施例的第一方面,提供了一种数据处理方法,包括:
接收终端应用发送的文本数据,其中所述文本数据为终端应用中显示的文本数据;
将文本数据进行分片得到分片数据;
将分片数据与知识库内的预存数据进行对比,从所有分片数据中确定出知识数据,并确定每一个知识数据的分类标签;
向所述终端应用发送所述知识数据以及所述知识数据的分类标签。
根据本申请实施例的第二方面,提供了一种数据处理方法,所述方法包括:
终端应用响应于用户的数据处理请求,记录显示的文本数据;
所述终端应用确定知识数据以及所述知识数据的分类标签,所述知识数据以及所述知识数据的分类标签为将所述文本数据进行得到分片数据,并将分片数据与知识库内的预存数据进行对比确定的;
所述终端应用将所述知识数据在所述知识数据的分类标签下进行显示。
一种可选的实施例中,所述将所述知识数据在所述知识数据的分类标签下进行显示,包括:
响应于用户的知识显示请求,将所述知识数据在所述知识数据的分类标签下进行显示,同时显示所述知识数据对应的文本数据的***。
根据本申请实施例的第三方面,提供了一种数据处理装置,所述装置包括:
收发单元,用于接收终端应用发送的文本数据其中所述文本数据为终端应用中显示的文本数据,;
分片单元,用于将文本数据进行分片得到分片数据;
对比单元,用于将分片数据与知识库内的预存数据进行对比,从所有分片数据中确定出知识数据,并确定每一个知识数据的分类标签;
所述收发单元,还用于向所述终端应用发送所述知识数据以及所述知识数据的分类标签。
一种可选的实施例中,所述收发单元,具体用于接收所述终端应用发送的N份文本数据,以及每一份文本数据的用户行为数据,N≥1;
所述分片单元,还用于根据用户行为数据,从所述N份文本数据中确定出有效数据;针对任一有效数据,将所述有效数据进行分片得到分片数据。
一种可选的实施例中,所述知识库内的预存数据按设定规则分类存储;所述对比单元具体用于:
针对任一分片数据,将所述分片数据与知识库内的所有预存数据进行相似度匹配,确定最高相似度值,以及确定与所述分片数据具有最高相似度值的预存数据所在的分类;
将最高相似度值大于相似度阈值的分片数据作为知识数据,并将与所述知识数据具有最高相似度值的预存数据所在的分类标签,作为所述知识数据的分类标签。
一种可选的实施例中,所述收发单元,具体用于:
接收所述终端应用发送的知识数据获取请求;
向所述终端应用发送知识数据获取响应,所述知识数据获取响应包括所述知识数据以及所述知识数据的分类标签。
一种可选的实施例中,还包括统计单元,用于:统计历史时间段内,每一个分类标签下知识数据的数量;确定对应知识数据的数量最多的分类标签,并基于所述知识数据的数量最多的分类标签确定用户标签;
所述收发单元,还用于向所述终端应用发送所述用户标签。
根据本申请实施例的第四方面,提供了一种数据处理装置,所述装置包括:
记录单元,用于响应于用户的数据处理请求,记录显示的文本数据,;
处理单元,用于确定知识数据以及所述知识数据的分类标签,所述知识数据以及所述知识数据的分类标签为将所述文本数据进行分片得到分片数据,并将分片数据与知识库内的预存数据进行对比确定的;
显示单元,用于将所述知识数据在所述知识数据的分类标签下进行显示。
一种可选的实施例中,所述显示单元,具体用于:
响应于用户的知识显示请求,将所述知识数据在所述知识数据的分类标签下进行显示,同时显示所述知识数据对应的文本数据的***。
一种可选的实施例中,所述处理单元,具体用于:
从所述文本数据中确定出有效数据;
针对任一有效数据,将所述有效数据进行分片得到分片数据;
将分片数据与所述知识库内的预存数据进行对比,从所有分片数据中确定出知识数据,并确定每一个知识数据的分类标签。
根据本申请实施例的第五方面,提供了一种计算设备,包括至少一个处理器、以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行本申请实施例提供的数据处理方法的步骤。
根据本申请实施例的第六方面,提供了一种存储介质所述存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行本申请实施例提供的数据处理方法的步骤。
本申请实施例中,终端应用响应于用户的请求,记录显示的文本数据,以及每一份文本数据的用户行为数据,并将文本数据向服务器发送。服务器将文本数据进行分片得到分片数据。服务器将分片数据与知识库内的预存数据进行对比,从分片数据中确定出知识数据,并确定每一个知识数据的分类标签。服务器将知识数据与对应的分类标签进行存储,并将知识数据与对应的分类标签向终端应用发送。从而终端应用可以将接收到的知识数据以及知识数据的分类标签向用户显示。本申请实施例中,通过记录用户的阅读过的文本,从知识体系的角度对用户的阅读内容进行统计分析,总结出用户阅读过的知识点,并在知识体系的分类下呈现给用户,使得用户在阅读行为之后,可以快速***地查找到已获取的知识点。此外,本申请实施例让用户可以直观感知到自己阅读中获知到有价值的知识,从而提升用户阅读的满足感和价值感,避免认为对信息流产品的阅读是浪费时间,提升了用户粘度以及用户对信息流产品的阅读时长。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例。
图1为本申请实施例中的一种数据处理***的***架构图;
图2为本申请实施例中的终端的一种可能的界面示意图;
图3为本申请实施例中的一种数据处理方法的流程图;
图4a至图4f为本申请实施例中一种终端的显示界面的示意图;
图5为本申请具体实施例一中的一种数据处理方法的流程图;
图6为本申请具体实施例二中的一种数据处理方法的流程图;
图7为本申请实施例中一种数据处理装置的结构方框图;
图8为本申请实施例中另一种数据处理装置的结构方框图;
图9示出了本申请一个实施例提供的服务器的结构方框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
下面对本申请实施例中涉及的部分概念进行介绍。
信息流:是信息内容的推荐***,可以通过各种各样的方式记录用户的数据,通过这些数据绘制用户画像,推测用户的兴趣爱好,推荐给用户感兴趣的信息内容。信息流产品即为***向用户推荐的信息内容。
知识体系:一个或多个领域***全面的知识,比如教育知识体系(语文、历史、数学、地理等),比如企业知识体系(管理、经济、政策等相关),这些知识可以帮助我们解决生活和工作中的问题,可以用来评价人的学习、认知和理解能力。
文本数据:终端应用向用户推送并显示的信息内容一般包括文本数据、图片数据、视频数据等。本申请实施例中涉及的信息内容为文本数据。
阅读内容:用户在终端应用的信息流产品中看过的内容,本申请实施例中即未终端应用向用户显示的文本数据。
用户行为:用户使用信息流产品过程中的所有数据(包括下载量、使用频率、访问量、访问率、留存时间等等),本申请实施例中主要涉及到用户的阅读时间、阅读时长等。
有效数据:根据文本数据对应的用户行为数据,从所有文本数据中筛选出有效数据,即终端应用显示的时长超过时间阈值的文本数据。简单来说,有效数据为用户实际阅读的文章。
分片数据:将有效数据进行文本分片得到的数据,一般可以将一篇文本按照句子为单位进行文本分片,这样一份分片数据即为一个句子。
知识数据:用户在浏览终端应用中文章的过程中,获取到的知识点。知识点还保存在知识库中,一般存储在知识体系的某个分类标签下。
请参考图1,其示出了本申请一个实施例提供的数据处理***的***架构图,包括客户端101和服务器102。客户端101为应用程序(Application,简称APP);服务器102为客户端101所对应的服务器。用户可以用自己的账号信息登录客户端101。
客户端101安装于终端103。终端103可以是手机、平板电脑或者是专用的手持设备等具有无线通信功能的电子设备,也可以是个人计算机(personal computer,简称PC),笔记本电脑,服务器等有线接入方式连接上网的设备。服务器102可以是计算机等网络设备。服务器102可以是一个独立的设备,也可以是多个服务器所形成的服务器集群。优选地,服务器102可以采用云计算技术进行信息处理。
客户端101可以通过INTERNET网络与服务器102进行通信,也可以通过全球移动通信***(Global System for Mobile Communications,简称GSM)、长期演进(long termevolution,简称LTE)***等移动通信***与服务器102进行通信。
本发明实施例提供一种优选的实施方式,以终端为手机为例进行介绍。图2例性示出了终端的一种可能的界面示意图,如图2示,终端上安装多个APP,比如视频、时钟、通话记录、信息、安全邮箱、手机、S备忘录、设置等。本申请实施例中可预先在终端中安装客户端,比如信息流产品APP104。用户在浏览APP104中的文本数据的过程中,信息流产品APP104记录用户浏览过的文本数据以及每一份文本数据的用户行为数据,并向服务器102发送。服务器102根据文本数据以及用户行为数据,确定出用户阅读过的内容中的知识数据以及知识数据的分类标签。服务器102在接收到信息流产品APP104发送的知识数据获取请求后,向信息流产品APP104发送知识数据以及知识数据的分类标签。从而信息流产品APP104向用户显示用户阅读后获取的知识数据以及知识数据的分类标签。
此外,终端也可以通过浏览器完成上述知识数据的确定和推送流程,其具体过程与客户端相类似,这里不做赘述。
需要注意的是,上文提及的应用场景仅是为了便于理解本申请的精神和原理而示出,本申请实施例在此方面不受任何限制。相反,本申请实施例可以应用于适用的任何场景。
下面结合图1所示的应用场景,对本申请实施例提供的数据处理方法进行说明。
请参考图3,本申请实施例提供了一种数据处理方法,如图3所示,方法包括:
步骤S301:终端应用响应于用户的数据处理请求,记录显示的文本数据。
具体实施过程中,终端应用可以向用户显示数据处理授权选项,并响应于用户在数据处理授权选项中的选择,记录显示的文本数据。这里,显示的文本数据可以为一份,也可以为多份。
例如,在用户登陆终端应用后,在显示界面中弹出如图4a所示的对话框。对话框中包括拒绝和允许的选项。若用户选择了拒绝,则停止本申请实施例中的数据处理过程,仅向用户推送并显示信息流产品;若用户选择了允许,则在向用户推送并显示信息流产品的同时,还记录显示的文本数据,以及对应的用户行为数据。
另一种具体实施例中,终端应用可以在用户首次登陆或者注册账户时,向用户提供是否在阅读过程中执行数据处理的设置选项。若用户选择了是,则用户后续在该应用中阅读的过程中,终端应用可以自动执行记录显示的文本数据以及每一份文本数据的用户行为数据。若用户选择了否,则不执行上述流程。用户也可以在后续的使用过程中,随意更改设置,从而选择是否获取知识点。
步骤S302:终端应用向服务器发送文本数据。
具体实施过程中,终端应用可以将文本数据以及对应的用户行为数据实时地向服务器发送。例如,用户阅读完一份文本数据后,终端应用即将该文本数据以及对应的用户行为数据发送至服务器。终端应用也可以以规定的频率向服务器发送,例如,每隔12小时,将用户阅读过的所有文本数据以及对应的用户行为数据向服务器发送。或者,终端应用还可以在规定的时间段内向服务器发送,例如,在每天的23:00时至24:00时,向服务器发送用户当天阅读的所有文本数据以及对应的用户行为数据。
步骤S303:服务器将文本数据进行分片得到分片数据。
进一步地,为了保证显示的文本数据的有效性,上述步骤S302还包括:
终端应用向服务器发送N份文本数据,以及每一份文本数据的用户行为数据,N≥1。
则步骤S303,服务器将文本数据进行分片得到分片数据,具体包括:
根据用户行为数据,从N份文本数据中确定出有效数据;
针对任一有效数据,将有效数据进行分片得到分片数据。
具体实施过程中,服务器可以按照段落为单位,将有效数据进行分片得到分片数据,即每一分片数据为一个段落;或者按照句子将有效数据进行分片得到分片数据,即每一分片数据为一个句子;或者也可以按照词语将有效数据进行分片得到分片数据,即每一个分片数据为一个词语。此外,若文件数据中既包含中文文本,又包含英文文本,则将一段连续的英文文本作为一个分片数据,例如图4b所示的文本数据,可将其中英文文本31、英文文本32、英文文本33、英文文本34作为4个分片数据。
具体的文本分片方式为现有技术,本领域技术人员可以预见,这里不做赘述。
其中,用户行为数据可以包括文本数据的显示时长以及文本数据的显示时间。文本数据的显示时长即对应于用户对该文本数据的阅读时长,文本数据的显示时间即对应于用户阅读该文本数据的时间点。具体实施过程中,可以基于用户的阅读时长或者用户的阅读时间点,从文本数据中确定有效数据。
较佳地,为基于用户的阅读时长确定有效数据。此时,用户行为数据为文本数据的显示时长。则上述步骤S303,服务器根据用户行为数据,从N份文本数据中确定出有效数据,包括:
将文本数据的显示时长与时长阈值相对比,将显示时长大于所述时长阈值的文本数据作为有效数据。
举例来说,终端应用向服务器发送了5份文本数据,第1份文本数据至第5份的显示时长分别为2秒、2分钟、5秒、1分半钟以及10秒。将时长阈值设置为1分钟,即显示时长大于1分钟的文本数据作为有效数据。则上述5份文本数据中,将第2份文本数据和第4份文本数据作为有效数据。其余文本数据可以认为是用户误触或者用户不感兴趣的内容。从而提高总结归纳知识点的准确性。
步骤S304:服务器将分片数据与知识库内的预存数据进行对比,从所有分片数据中确定出知识数据,并确定每一个知识数据的分类标签。
本申请实施例的知识库中存储了预存数据,该知识库可以为服务器维护的,也可以为其它机构维护,向本申请实施例的服务器开放调用接口。
本申请实施例中,分片数据与预存数据的对比方式可以为文本相似度匹配,即利用文本匹配算法,比较分片数据与预存数据的语义相似度。将存在相似度大于阈值的分片数据作为知识数据。同时,根据知识库内的预存数据的分类标签,确定知识数据的分类标签。这里,文本匹配算法为现有技术,这里不做赘述。
步骤S305:服务器向终端应用发送知识数据以及知识数据的分类标签。
本申请实施例中,服务器确定了知识数据以及对应的分类标签后,将知识数据以及对应的分类标签进行存储。服务器可以主动向终端应用发送知识数据,也可以在接收到终端应用发送的知识数据获取请求后,向终端应用发送知识数据。
较佳地,服务器为被动发送知识数据。即服务器向终端应用发送知识数据以及知识数据的分类标签,包括:
接收终端应用发送的知识数据获取请求;
向终端应用发送知识数据获取响应,知识数据获取响应包括知识数据以及知识数据的分类标签。
具体实施过程中,服务器可以将知识数据按照分类标签进行分类存储。终端应用向服务器发送的知识数据获取请求中,可以不包含具体的分类标签,服务器将所有确定的知识数据以及知识数据的分类标签向终端应用发送。知识数据获取请求中也可以包含分类标签,例如,知识数据获取请求中包含分类标签为历史知识。则服务器仅将分类标签为历史知识的知识数据向终端应用发送即可。
步骤S306:终端应用将知识数据在知识数据的分类标签下进行显示。
具体实施过程中,终端应用可以向用户显示如图4c的交互界面。当用户点击阅读过的知识选项后,终端应用向用户显示不同的分类标签,如图4d所示,包括如历史、英语、数据、地理等。当用户点击其中的分类标签,终端应用向用户显示对应的知识数据。例如,如图4e所示,当用户点击图4d中的历史标签,则终端应用响应于用户的选择,向用户显示如图4e所示的分类标签为历史的知识数据。
进一步地,为了便于用户查找原文,上述步骤S306,终端应用将知识数据在知识数据的分类标签下进行显示,包括:
响应于用户的知识显示请求,将知识数据在知识数据的分类标签下进行显示,同时显示知识数据对应的文本数据的***。
例如,在每一条知识数据的下方,还可以附有该知识数据对应的文本数据的***。仍以上述图4e为例,当用户点击历史标签后,终端响应于用户的选择,向用户显示分类标签为历史的知识数据的同时,每条知识数据的下方还附有文本数据的***,以对应原文的标题形式显示。
本申请实施例中,终端应用响应于用户的请求,记录显示的N份文本数据,以及每一份文本数据的用户行为数据,并将N份文本数据和对应的用户行为数据向服务器发送。服务器根据接收到的用户行为数据,从N份文本数据中确定出有效数据。针对任一有效数据,将该有效数据进行分片得到分片数据。服务器将分片数据与知识库内的预存数据进行对比,从分片数据中确定出知识数据,并确定每一个知识数据的分类标签。服务器将知识数据与对应的分类标签进行存储。之后,终端应用向服务器发送知识数据获取请求,服务器向终端应用发送知识数据获取响应,该知识数据获取响应中包括知识数据以及知识数据的分类标签。从而终端应用可以将接收到的知识数据以及知识数据的分类标签向用户显示。本申请实施例中,通过记录用户的用户行为数据,从知识体系的角度对用户的阅读内容进行统计分析,总结出用户阅读过的知识点,并在知识体系的分类下呈现给用户,使得用户在阅读行为之后,可以快速***地查找到已获取的知识点。此外,本申请实施例让用户可以直观感知到自己阅读中获知到有价值的知识,从而提升用户阅读的满足感和价值感,避免认为对信息流产品的阅读是浪费时间,提升了用户粘度以及用户对信息流产品的阅读时长。
本申请实施例中预存数据的来源可以为网络中包括电子文献、数据库、数字化文献、数字化书目、电子报刊等各种形式的知识数据。较佳地,知识库内的预存数据按设定规则分类存储。
上述步骤S305:服务器将分片数据与知识库内的预存数据进行对比,从所有分片数据中确定出知识数据,并确定每一个知识数据的分类标签,包括:
针对任一分片数据,服务器将分片数据与知识库内的所有预存数据进行相似度匹配,确定最高相似度值,以及确定与分片数据具有最高相似度值的预存数据所在的分类;
服务器将最高相似度值大于相似度阈值的分片数据作为知识数据,并将与知识数据具有最高相似度值的预存数据所在的分类标签,作为知识数据的分类标签。
具体实施过程中,预存数据按设定规则分类存储在知识库中。这里的设定规则可以为不同的知识体系,如在教育知识体系中,预存数据可以按照语文、数学、英语、历史、地理等不同分类,存储在知识库中。又例如在职业知识体系中,预存数据可以按照管理、科技、经济、贸易等不同分类,存储在知识库中。
服务器将有效数据分片得到分片数据后,将每一分片数据与所有预存数据进行相似度匹配。例如,将分片数据F与知识库内的所有预存数据对比,得到相似度值分别为25%、53%、84%、43%等。其中与分片数据F相似度最高的预存数据为历史标签下的预存数据Y,且分片数据F与预存数据Y之间的相似度为84%。若将相似度阈值设置为80%,则由于最高相似度值大于相似度阈值,则将分片数据F作为知识数据,且将预存数据Y的分类标签历史作为分片数据F的分类标签。若将相似度阈值设置为90%,则由于最高相似度值小于相似度阈值,则不将分片数据F作为知识数据,可以直接将分片数据F丢弃。
一般来说,与知识库中预存数据的相似度值小于相似度阈值的分片数据,可以认为该分片数据可能不为知识内容,或者为知识内容却出现较为严重的错误。本申请实施例将分片数据与知识库中的预存数据进行相似度匹配,进而确定知识数据,保证了知识数据的准确性。
为了便于后续可能进行的用户画像,或者基于用户的阅读内容向用户推送信息,还可以根据用户阅读最多的分类知识,确定用户标签。一种可能的实施例中,还包括:
统计历史时间段内,每一个分类标签对应的知识数据的数量;
确定对应知识数据的数量最多的分类标签,并基于知识数据的数量最多的分类标签确定用户标签;
向所述终端应用发送所述用户标签。
本申请实施例中的历史时间段,可以为从用户注册或首次阅读开始至当前时间点,也可以为从用户首次授权终端应用记录显示数据至当前时间点,或者为从当前时间点往前的一段单位时间段,如过去三个月。服务器统计历史时间段内,每个分类标签对应的知识数据的数量,这里的数量可以为与分类标签对应的知识数据的具体数量,也可以为该分类标签对应的知识数据占所有知识数据的百分比。
仍以上述图4d为例,由图中可以看出,与历史标签对应的知识数据的数量占所有知识数据数量的70%,与英语标签对应的知识数据的数量占所有知识数据数量的20%,与数学标签对应的知识数据的数量占所有知识数据数量的50%,与地理标签对应的知识数据的数量占所有知识数据数量的50%,则由于对应知识数据的数量最多的分类标签为历史,则基于历史标签,确定用户标签为历史知识达人。后续可以根据该历史知识达人的标签,多向该用户推送历史相关的信息。
以图4f为例,与管理标签对应的知识数据的数量占所有知识数据数量的70%,与科技标签对应的知识数据的数量占所有知识数据数量的20%,与经济标签对应的知识数据的数量占所有知识数据数量的50%,与贸易标签对应的知识数据的数量占所有知识数据数量的50%,则由于对应知识数据的数量最多的分类标签为历史,则基于历史标签,确定用户标签为历史知识达人。后续可以根据该管理知识达人的标签,多向该用户推送管理相关的信息。
上述实施例中,数据处理流程涉及到两个执行主体,即终端应用和服务器。这种场景下,终端应用只需记录用户阅读的文本数据即可,具体的文本相似度匹配可以交由服务器处理,从而减轻了终端的存储和计算压力。
此外,本申请实施例中的数据处理流程可以仅涉及终端应用一个执行主体。此时,对应终端中需预先下载知识库,且终端需自行执行文本数据的分片、分片数据与预存数据对比等流程,因此,对终端的存储能力和计算能力都有较大的要求。
这种场景下,为终端应用确定知识数据以及知识数据的分类标签,包括:
从文本数据中确定出有效数据;
针对任一有效数据,将有效数据进行分片得到分片数据;
将分片数据与知识库内的预存数据进行对比,从所有分片数据中确定出知识数据,并确定每一个知识数据的分类标签。
其中,终端应用的具体执行过程与服务器的执行过程相类似,不同之处在于省去了终端应用于服务器之间的交互。因此,这里不多赘述。
下面以具体实施例对上述流程进行详细介绍,具体实施例一的***构架包括终端浏览器和数据处理服务器。用户A通过网页,授权终端的浏览器记录用户A的阅读内容,从而确定用户A在网站B中阅读过知识。下面如图5所示,以终端应用为浏览器为例进行介绍。
浏览器响应用户A的操作,记录向用户显示的N份文本数据,以及每份文本数据对应的显示时长。
浏览器向服务器发送N份文本数据,以及每一份文本数据的显示时长。
服务器将文本数据的显示时长与时长阈值相对比,将显示时长大于时长阈值的文本数据作为有效数据。
服务器将每一份有效数据进行分片,得到分片数据。
服务器调用知识库的接口,针对任一分片数据,将该分片数据与知识库内的预存数据进行相似度匹配,确定最高相似度值,以及与该分片数据相似度最高的预存数据的分类。
服务器将最高相似度值大于相似度阈值的分片数据作为知识数据,并将与知识数据相似度最高的预存数据的分类标签作为知识数据的分类标签。
服务器将知识数据以及知识数据的分类标签进行存储。
浏览器响应用户A的操作,向服务器发送知识数据获取请求。
服务器基于知识数据的数量最多的分类标签确定用户标签。
服务器向浏览器发送知识数据获取响应。其中,知识数据获取响应包括知识数据、知识数据的分类标签以及用户A的用户标签。
浏览器将知识数据在知识数据的分类标签下进行显示,并显示用户标签。这里,可以为将所有知识数据均进行显示,同时显示出每个知识数据的分类标签。还可以为仅显示用户A选择的分类标签对应的知识数据。
具体实施例二仅涉及终端中的客户端,其流程的执行主体为客户端,如图6所示,包括:
客户端响应于用户的数据处理请求,记录显示的N份文本数据,以及每一份文本数据的用户行为数据,N≥1。
客户端根据用户行为数据,从N份文本数据中确定出有效数据;
客户端针对任一有效数据,将有效数据进行分片得到分片数据;
客户端将分片数据与知识库内的预存数据进行对比,从所有分片数据中确定出知识数据,并确定每一个知识数据的分类标签。
客户端响应于用户的知识显示请求,将知识数据在知识数据的分类标签下进行显示,同时显示知识数据对应的文本数据的***。
下述为本申请装置实施例,对于装置实施例中未详尽描述的细节,可以参考上述一一对应的方法实施例。
请参考图7,其示出了本申请一个实施例提供的数据处理的结构方框图。该跨链数据处理装置通过硬件或者软硬件的结合实现成为图1中服务器102的全部或者一部分。该装置包括:收发单元601、分片单元602、对比单元603、统计单元604。
收发单元601,用于接收终端应用发送的文本数据其中所述文本数据为终端应用中显示的文本数据;
分片单元602,用于将文本数据进行分片得到分片数据;
对比单元603,用于将分片数据与知识库内的预存数据进行对比,从所有分片数据中确定出知识数据,并确定每一个知识数据的分类标签;
所述收发单元601,还用于向所述终端应用发送知识数据以及所述知识数据的分类标签。
一种可选的实施例中,所述收发单元601,具体用于接收所述终端应用发送的N份文本数据,以及每一份文本数据的用户行为数据,N≥1;
所述分片单元602,还用于根据用户行为数据,从所述N份文本数据中确定出有效数据;针对任一有效数据,将所述有效数据进行分片得到分片数据。
一种可选的实施例中,所述知识库内的预存数据按设定规则分类存储;所述对比单元603具体用于:
针对任一分片数据,将所述分片数据与知识库内的所有预存数据进行相似度匹配,确定最高相似度值,以及确定与所述分片数据具有最高相似度值的预存数据所在的分类;
将最高相似度值大于相似度阈值的分片数据作为知识数据,并将与所述知识数据具有最高相似度值的预存数据所在的分类标签,作为所述知识数据的分类标签。
一种可选的实施例中,所述收发单元601,具体用于:
接收所述终端应用发送的知识数据获取请求;
向所述终端应用发送知识数据获取响应,所述知识数据获取响应包括所述知识数据以及所述知识数据的分类标签。
一种可选的实施例中,还包括统计单元604,用于:统计历史时间段内,每一个分类标签下知识数据的数量;确定对应知识数据的数量最多的分类标签,并基于所述知识数据的数量最多的分类标签确定用户标签;
所述收发单元601,还用于向所述终端应用发送所述用户标签。
请参考图8,其示出了本申请一个实施例提供的数据处理的结构方框图。该跨链数据处理装置通过硬件或者软硬件的结合实现成为图1中终端103的全部或者一部分。该装置包括:记录单元701、处理单元702和显示单元703。
记录单元701,用于响应于用户的数据处理请求,记录显示的文本数据;
处理单元702,用于确定知识数据以及所述知识数据的分类标签,所述知识数据以及所述知识数据的分类标签为将所述文本数据进行分片得到分片数据,并将分片数据与知识库内的预存数据进行对比确定的;
显示单元703,用于将所述知识数据在所述知识数据的分类标签下进行显示。
一种可选的实施例中,所述显示单元703,具体用于:
响应于用户的知识显示请求,将所述知识数据在所述知识数据的分类标签下进行显示,同时显示所述知识数据对应的文本数据的***。
一种可选的实施例中,所述处理单元702,具体用于:
从所述文本数据中确定出有效数据;
针对任一有效数据,将所述有效数据进行分片得到分片数据;
将分片数据与所述知识库内的预存数据进行对比,从所有分片数据中确定出知识数据,并确定每一个知识数据的分类标签。
请参考图9,其示出了本申请一个实施例提供的服务器的结构方框图。该服务器800实现为图1中的服务器102。具体来讲:
服务器800包括中央处理单元(CPU)801、包括随机存取存储器(RAM)802和只读存储器(ROM)803的***存储器804,以及连接***存储器804和中央处理单元801的***总线805。所述服务器800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O***)806,和用于存储操作***813、应用程序814和其他程序模块815的大容量存储设备807。
所述基本输入/输出***806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中所述显示器808和输入设备809都通过连接到***总线805的输入输出控制器810连接到中央处理单元801。所述基本输入/输出***806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备807通过连接到***总线805的大容量存储控制器(未示出)连接到中央处理单元801。所述大容量存储设备807及其相关联的计算机可读介质为服务器800提供非易失性存储。也就是说,所述大容量存储设备807可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的***存储器804和大容量存储设备807可以统称为存储器。
根据本申请的各种实施例,所述服务器800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器800可以通过连接在所述***总线805上的网络接口单元811连接到网络812,或者说,也可以使用网络接口单元811来连接到其他类型的网络或远程计算机***(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本申请实施例提供的签到方法的指令。
本领域普通技术人员可以理解上述实施例的签到方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,RandomAccess Memory)、磁盘或光盘等。
本领域普通技术人员可以理解上述实施例的签到方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random AccessMemory)、磁盘或光盘等。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
接收终端应用发送的文本数据,其中所述文本数据为终端应用中显示的文本数据;
将文本数据进行分片得到分片数据;
将分片数据与知识库内的预存数据进行对比,从所有分片数据中确定出知识数据,并确定每一个知识数据的分类标签;
向所述终端应用发送所述知识数据以及所述知识数据的分类标签。
2.如权利要求1所述的方法,其特征在于,所述接收终端应用发送的文本数据,包括:
接收所述终端应用发送的N份文本数据,以及每一份文本数据的用户行为数据,N≥1;
所述将所述文本数据进行分片得到分片数据,包括:
根据用户行为数据,从所述N份文本数据中确定出有效数据;
针对任一有效数据,将所述有效数据进行分片得到分片数据。
3.如权利要求1所述的方法,其特征在于,所述知识库内的预存数据按设定规则分类存储;所述将分片数据与知识库内的预存数据进行对比,从所有分片数据中确定出知识数据,并确定每一个知识数据的分类标签,包括:
针对任一分片数据,将所述分片数据与知识库内的所有预存数据进行相似度匹配,确定最高相似度值,以及确定与所述分片数据具有最高相似度值的预存数据所在的分类;
将最高相似度值大于相似度阈值的分片数据作为知识数据,并将与所述知识数据具有最高相似度值的预存数据所在的分类标签,作为所述知识数据的分类标签。
4.如权利要求1所述的方法,其特征在于,所述向所述终端应用发送所述知识数据以及所述知识数据的分类标签,包括:
接收所述终端应用发送的知识数据获取请求;
向所述终端应用发送知识数据获取响应,所述知识数据获取响应包括所述知识数据以及所述知识数据的分类标签。
5.如权利要求1至4任一项所述的方法,其特征在于,所述接收所述终端应用发送的知识数据显示请求之后,还包括:
统计历史时间段内,每一个分类标签下知识数据的数量;
确定对应知识数据的数量最多的分类标签,并基于所述知识数据的数量最多的分类标签确定用户标签;
向所述终端应用发送所述用户标签。
6.一种数据处理方法,其特征在于,所述方法包括:
终端应用响应于用户的数据处理请求,记录显示的文本数据;
确定知识数据以及所述知识数据的分类标签,所述知识数据以及所述知识数据的分类标签为将所述文本数据进行分片得到分片数据,并将分片数据与知识库内的预存数据进行对比确定的;
将所述知识数据在所述知识数据的分类标签下进行显示。
7.如权利要求6所述的方法,其特征在于,所述确定知识数据以及所述知识数据的分类标签,包括:
从所述文本数据中确定出有效数据;
针对任一有效数据,将所述有效数据进行分片得到分片数据;
将分片数据与所述知识库内的预存数据进行对比,从所有分片数据中确定出知识数据,并确定每一个知识数据的分类标签。
8.一种数据处理装置,其特征在于,所述装置包括:
收发单元,用于接收终端应用发送的文本数据其中所述文本数据为终端应用中显示的文本数据,;
分片单元,用于将文本数据进行分片得到分片数据;
对比单元,用于将分片数据与知识库内的预存数据进行对比,从所有分片数据中确定出知识数据,并确定每一个知识数据的分类标签;
所述收发单元,还用于向所述终端应用发送所述知识数据以及所述知识数据的分类标签。
9.一种数据处理装置,其特征在于,所述装置包括:
记录单元,用于响应于用户的数据处理请求,记录显示的文本数据,;
处理单元,用于确定知识数据以及所述知识数据的分类标签,所述知识数据以及所述知识数据的分类标签为将所述文本数据进行分片得到分片数据,并将分片数据与知识库内的预存数据进行对比确定的;
显示单元,用于将所述知识数据在所述知识数据的分类标签下进行显示。
10.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1至5任一项所述的时间校准方法。
CN201910819017.2A 2019-08-30 2019-08-30 一种数据处理方法、装置及计算机存储介质 Pending CN110597989A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910819017.2A CN110597989A (zh) 2019-08-30 2019-08-30 一种数据处理方法、装置及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910819017.2A CN110597989A (zh) 2019-08-30 2019-08-30 一种数据处理方法、装置及计算机存储介质

Publications (1)

Publication Number Publication Date
CN110597989A true CN110597989A (zh) 2019-12-20

Family

ID=68856625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910819017.2A Pending CN110597989A (zh) 2019-08-30 2019-08-30 一种数据处理方法、装置及计算机存储介质

Country Status (1)

Country Link
CN (1) CN110597989A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886594A (zh) * 2017-02-21 2017-06-23 北京百度网讯科技有限公司 用于展示信息的方法和装置
CN109766422A (zh) * 2018-12-29 2019-05-17 上海智臻智能网络科技股份有限公司 信息处理方法、装置及***、存储介质、终端
CN109977312A (zh) * 2019-03-27 2019-07-05 安庆师范大学 一种基于内容标签的知识库推荐***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886594A (zh) * 2017-02-21 2017-06-23 北京百度网讯科技有限公司 用于展示信息的方法和装置
CN109766422A (zh) * 2018-12-29 2019-05-17 上海智臻智能网络科技股份有限公司 信息处理方法、装置及***、存储介质、终端
CN109977312A (zh) * 2019-03-27 2019-07-05 安庆师范大学 一种基于内容标签的知识库推荐***

Similar Documents

Publication Publication Date Title
US20200226182A1 (en) Forming a document collection in a document management and collaboration system
US10031975B2 (en) Presentation of search results based on the size of the content sources from which they are obtained
US20190138653A1 (en) Calculating relationship strength using an activity-based distributed graph
CN107577807B (zh) 用于推送信息的方法和装置
US20080059447A1 (en) System, method and computer program product for ranking profiles
US20150324448A1 (en) Information Recommendation Processing Method and Apparatus
US11722856B2 (en) Identifying decisions and rendering decision records in a group-based communication interface
WO2017121076A1 (zh) 信息推送方法和装置
US10339222B2 (en) Information providing system, information providing method, non-transitory recording medium, and data structure
US20080059544A1 (en) System and method for providing secure third party website histories
US10078656B1 (en) Unmodifiable data in a storage service
US20200110733A1 (en) Criterion-based retention of data object versions
US20210374339A1 (en) Generating sentiment analysis of content
US20230281306A1 (en) System and method for detecting leaked documents on a computer network
US11126520B2 (en) Skew detector for data storage system
US10372782B1 (en) Content generation and experimentation using engagement tests
US20110138000A1 (en) Applying tags from communication files to users
CN110889034A (zh) 数据分析方法及数据分析***
CN110851582A (zh) 文本处理方法及***、计算机***和计算机可读存储介质
US11783123B1 (en) Generating a dynamic template for transforming source data
US20180046683A1 (en) Search word list providing device and method using same
US9525687B2 (en) Template for customer attributes
TW201500941A (zh) 社群資料篩選系統、方法及其非揮發性電腦可讀取紀錄媒體
US10528536B1 (en) Managing data object versions in a storage service
US20160314477A1 (en) Identifying entities trending in a professional community

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40019480

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination