CN110555169B - 一种基于深度学习的新闻数据处理***及其处理方法 - Google Patents

一种基于深度学习的新闻数据处理***及其处理方法 Download PDF

Info

Publication number
CN110555169B
CN110555169B CN201910833902.6A CN201910833902A CN110555169B CN 110555169 B CN110555169 B CN 110555169B CN 201910833902 A CN201910833902 A CN 201910833902A CN 110555169 B CN110555169 B CN 110555169B
Authority
CN
China
Prior art keywords
news
keywords
pushed
user
preset number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910833902.6A
Other languages
English (en)
Other versions
CN110555169A (zh
Inventor
郑骥
祁海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing People Online Network Co ltd
Original Assignee
Beijing People Online Network Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing People Online Network Co ltd filed Critical Beijing People Online Network Co ltd
Priority to CN201910833902.6A priority Critical patent/CN110555169B/zh
Publication of CN110555169A publication Critical patent/CN110555169A/zh
Application granted granted Critical
Publication of CN110555169B publication Critical patent/CN110555169B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

为了解决现有技术中的问题,本公开提供了一种基于深度学习的新闻数据处理***及其处理方法,通过深度学习,向用户推送新闻,提高新闻推送的准确率,提高用户体验。包括获取训练样本新闻的第一预设数量的待推送新闻关键词、用户偏好新闻的第一预设数量的用户偏好新闻关键词、用户反馈的用户满意度评分;训练BP神经网络模型;并根据BP神经网络模型向待推送用户推送待推送新闻;本公开基于深度学习,自动处理待推送新闻,将待推送新闻推送给所需的用户,实现新闻数据的有效利用,提高新闻推送效率,提高用户体验。

Description

一种基于深度学习的新闻数据处理***及其处理方法
技术领域
本公开涉及新闻数据处理领域,尤其涉及一种基于深度学习的新闻数据处理***及其处理方法。
背景技术
随着网络媒体和信息技术的发展,网络新闻已经不仅仅局限于从线下获取新闻内容,而是逐渐写错了适应社会需求的大众网络媒体,网络新闻报道借助互联网传播快捷的优势,需要在第一时间将接收到的最新的信息推送给用户,提高用户的体验;现有技术中,将新闻按种类进行分类,根据用户喜欢的种类进行新闻推送;其不足在于:如果按新闻种类进行新闻推送,被推送新闻正好是用户感兴趣的新闻概率较低;往往需要推送10篇以上新闻,甚至推送上百篇新闻后,才会出现一篇用户想要的新闻,新闻推送效果差,不利于用户体验。
发明内容
为了解决上述技术问题中的至少一个,本公开提供了一种基于深度学习的新闻数据处理***及其处理方法,通过深度学习,向用户推送新闻,提高新闻推送的准确率,提高用户体验。
本发明公开的一方面,一种基于深度学习的新闻数据处理方法,包括:
获取训练样本新闻的第一预设数量的待推送新闻关键词;
获取用户偏好新闻的第一预设数量的用户偏好新闻关键词;
向用户推送待推送样本新闻,并获取用户反馈的用户满意度评分;
基于待推送新闻关键词、用户偏好新闻关键词和用户反馈的满意度评分得到训练样本;
建立BP神经网络模型,根据待推送新闻关键词、用户偏好新闻关键词、用户满意度评分对BP神经网络模型进行BP神经网络训练;
获取待推送新闻的第一预设数量的待推送新闻关键词和待推送用户的第一预设数量的用户偏好新闻关键词,输入BP神经网络模型,得到用户满意度评分,并根据用户满意度评分确定是否向待推送用户推送待推送新闻。
可选的,获取训练样本新闻的第一预设数量的待推送新闻关键词,包括:获取训练样本新闻的新闻关键词,判断训练样本新闻的新闻关键词的数量,若训练样本新闻的新闻关键词的数量多于第一预设数量,则随机获取其中第一预设数量的新闻关键词作为待推送新闻关键词;若训练样本新闻的新闻关键词的数量少于第一预设数量,则缺少的新闻关键词以预设关键词作为待推送新闻关键词。
可选的,获取用户偏好新闻的第一预设数量的用户偏好新闻关键词,包括:获取用户偏好新闻的新闻关键词,判断用户偏好新闻的新闻关键词的数量,若用户偏好新闻的新闻关键词的数量多于第一预设数量,则随机获取其中第一预设数量的新闻关键词作为待推送新闻关键词;若用户偏好新闻的新闻关键词的数量少于第一预设数量,则缺少的新闻关键词以预设关键词作为用户偏好新闻关键词。
可选的,获取待推送新闻的第一预设数量的待推送新闻关键词和待推送用户的第一预设数量的用户偏好新闻关键词,包括:获取待推送新闻的新闻关键词,判断待推送新闻的新闻关键词的数量,若待推送新闻的新闻关键词的数量多于第一预设数量,则随机获取其中第一预设数量的新闻关键词作为待推送新闻关键词;若训练样本新闻的新闻关键词的数量少于第一预设数量,则缺少的新闻关键词以预设关键词作为待推送新闻关键词;获取用户偏好新闻的新闻关键词,判断用户偏好新闻的新闻关键词的数量,若用户偏好新闻的新闻关键词的数量多于第一预设数量,则随机获取其中第一预设数量的新闻关键词作为待推送新闻关键词;若用户偏好新闻的新闻关键词的数量少于第一预设数量,则缺少的新闻关键词以预设关键词作为用户偏好新闻关键词。
可选的,所述方法还包括:
建立参照词典;
在获取训练样本新闻的第一预设数量的待推送新闻关键词时,将待推送新闻关键词作为参照关键词,并录入参照词典中;
在获取用户偏好新闻的第一预设数量的用户偏好新闻关键词时,将用户偏好新闻关键词作为参照关键词,并录入参照词典中;
获取待推送新闻的第一预设数量的待推送新闻关键词和待推送用户的第一预设数量的用户偏好新闻关键词包括:获取待推送新闻中的字符,并将待推送新闻中的字符与参照词典中的参照关键词进行比对,若比对成功,则将比对成功的参照关键词作为待推送新闻的预备关键词;将待推送新闻的预备关键词与待推送新闻中的字符进行比对,判断预备关键词在待推送新闻出现的次数;获取预备关键词出现的次数最多的前第一预设数量个预备关键词作为待推送新闻关键词。
可选的,所述方法还包括:
建立参照词典;
获取训练样本新闻的第一预设数量的待推送新闻关键词时,将待推送新闻关键词作为预备参照关键词,获取用户偏好新闻的第一预设数量的用户偏好新闻关键词时,将用户偏好新闻关键词作为预备参照关键词;
判断参照词典中是否存在与该预备参照关键词一致的参照关键词,若存在与该预备参照关键词一致的参照关键词,则取消该预备参照关键词,若不存在与该预备参照关键词一致的参照关键词,则判断参照词典中是否存在与该预备参照关键词一致的预备参照关键词,若存在与该预备参照关键词一致的预备参照关键词,则增加参照词典中该参照关键词的权重,若不存在与该预备参照关键词一致的预备参照关键词,则在参照词典中增加该预备参照关键词,并初始化该预备参照关键词的权重;判断参照词典中预备参照关键词的权重是否大于预设权重,若大于预设权重,则将该预备参照关键词置为参照关键词
获取待推送新闻的第一预设数量的待推送新闻关键词和待推送用户的第一预设数量的用户偏好新闻关键词包括:获取待推送新闻中的字符,并将待推送新闻中的字符与参照词典中的参照关键词进行比对,若比对成功,则将比对成功的参照关键词作为待推送新闻的预备关键词;将待推送新闻的预备关键词与待推送新闻中的字符进行比对,判断预备关键词在待推送新闻出现的次数Fi、在待推送新闻的标题中出现的次数Gi,以及预备关键词在待推送新闻中各段落出现的次数Eij;计算通过公式1计算各预备关键词的权重Di
Figure BDA0002191607260000041
公式1中,Di表示预备关键词i的权重,Fi表示预备关键词i在待推送新闻出现的次数,Gi表示预备关键词i在待推送新闻的标题中出现的次数Gi,Eij表示预备关键词i在待推送新闻中的第j段出现的次数,n表示待推送新闻的总段落数;
按各预备关键词的权重Di的从大到小排序,以排在前第一预设数量的预备关键词作为待推送新闻关键词。
本发明的另一方面,一种基于深度学习的新闻数据处理***,包括:
训练样本获取模块,用于获取训练样本新闻的第一预设数量的待推送新闻关键词;获取用户偏好新闻的第一预设数量的用户偏好新闻关键词;向用户推送待推送样本新闻,并获取用户反馈的用户满意度评分;基于待推送新闻关键词、用户偏好新闻关键词和用户反馈的满意度评分得到训练样本;
训练模块:建立BP神经网络模型,根据待推送新闻关键词、用户偏好新闻关键词、用户满意度评分对BP神经网络模型进行BP神经网络训练;
新闻推送模块:获取待推送新闻的第一预设数量的待推送新闻关键词和待推送用户的第一预设数量的用户偏好新闻关键词,输入BP神经网络模型,得到用户满意度评分,并根据用户满意度评分确定是否向待推送用户推送待推送新闻。
可选的,获取训练样本新闻的第一预设数量的待推送新闻关键词,包括:获取训练样本新闻的新闻关键词,判断训练样本新闻的新闻关键词的数量,若训练样本新闻的新闻关键词的数量多于第一预设数量,则随机获取其中第一预设数量的新闻关键词作为待推送新闻关键词;若训练样本新闻的新闻关键词的数量少于第一预设数量,则缺少的新闻关键词以预设关键词作为待推送新闻关键词。
可选的,获取用户偏好新闻的第一预设数量的用户偏好新闻关键词,包括:获取用户偏好新闻的新闻关键词,判断用户偏好新闻的新闻关键词的数量,若用户偏好新闻的新闻关键词的数量多于第一预设数量,则随机获取其中第一预设数量的新闻关键词作为待推送新闻关键词;若用户偏好新闻的新闻关键词的数量少于第一预设数量,则缺少的新闻关键词以预设关键词作为用户偏好新闻关键词。
可选的,获取待推送新闻的第一预设数量的待推送新闻关键词和待推送用户的第一预设数量的用户偏好新闻关键词,包括:获取待推送新闻的新闻关键词,判断待推送新闻的新闻关键词的数量,若待推送新闻的新闻关键词的数量多于第一预设数量,则随机获取其中第一预设数量的新闻关键词作为待推送新闻关键词;若训练样本新闻的新闻关键词的数量少于第一预设数量,则缺少的新闻关键词以预设关键词作为待推送新闻关键词;获取用户偏好新闻的新闻关键词,判断用户偏好新闻的新闻关键词的数量,若用户偏好新闻的新闻关键词的数量多于第一预设数量,则随机获取其中第一预设数量的新闻关键词作为待推送新闻关键词;若用户偏好新闻的新闻关键词的数量少于第一预设数量,则缺少的新闻关键词以预设关键词作为用户偏好新闻关键词。
可选的,所述***还包括:
参照词典建立模块,用于建立参照词典;在获取训练样本新闻的第一预设数量的待推送新闻关键词时,将待推送新闻关键词作为参照关键词,并录入参照词典中;在获取用户偏好新闻的第一预设数量的用户偏好新闻关键词时,将用户偏好新闻关键词作为参照关键词,并录入参照词典中;
获取待推送新闻的第一预设数量的待推送新闻关键词和待推送用户的第一预设数量的用户偏好新闻关键词,包括:获取待推送新闻中的字符,并将待推送新闻中的字符与参照词典中的参照关键词进行比对,若比对成功,则将比对成功的参照关键词作为待推送新闻的预备关键词;将待推送新闻的预备关键词与待推送新闻中的字符进行比对,判断预备关键词在待推送新闻出现的次数;获取预备关键词出现的次数最多的前第一预设数量个预备关键词作为待推送新闻关键词。
本公开的一个有益效果:通过待推送新闻关键词、用户偏好新闻关键词与用户满意度评分训练BP神经网络模型,并通过BP神经网络模型判断是否向待推送用户推送待推送新闻;本公开基于深度学习,自动处理待推送新闻,将待推送新闻推送给所需的用户,实现新闻数据的有效利用,提高新闻推送效率,提高用户体验。
附图说明
附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1是本公开的示例性实施方式中基于深度学习的新闻数据处理方法的流程图;
图2是本公开的示例性实施方式中基于深度学习的新闻数据处理***的连接示意图;
具体实施方式
下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开。
如图1所示,基于深度学习的新闻数据处理方法,包括:
步骤S1:获取训练样本新闻的第一预设数量的待推送新闻关键词;
步骤S2:获取用户偏好新闻的第一预设数量的用户偏好新闻关键词;
步骤S3:向用户推送待推送样本新闻,并获取用户反馈的用户满意度评分;
步骤S4:基于待推送新闻关键词、用户偏好新闻关键词和用户反馈的满意度评分得到训练样本;
步骤S5:建立BP神经网络模型,根据待推送新闻关键词、用户偏好新闻关键词、用户满意度评分对BP神经网络模型进行BP神经网络训练;
步骤S6:获取待推送新闻的第一预设数量的待推送新闻关键词和待推送用户的第一预设数量的用户偏好新闻关键词,输入BP神经网络模型,得到用户满意度评分,并根据用户满意度评分确定是否向待推送用户推送待推送新闻。
本公开的方法,通过待推送新闻关键词、用户偏好新闻关键词与用户满意度评分训练BP神经网络模型,并通过BP神经网络模型判断是否向待推送用户推送待推送新闻;本公开基于深度学习,自动处理待推送新闻,将待推送新闻推送给所需的用户,实现新闻数据的有效利用。
本公开通过不同用户的训练样本,进行大量的bp神经网络,最终得到待推送新闻关键词、用户偏好新闻关键词与用户满意度的输入输出关系;举例来说,以第一预设数量为3时为例,假设,用户甲的用户偏好新闻关键词分别为A、B、C;而待推送新闻的关键词分别为E、D、F时,通过训练好的bp神经网络模型,可以得出用户甲对关键词分别为E、D、F的待推送新闻。可以知道的,如果待推送新闻的关键词也是A、B、C,那么理论上,用户甲对该待推送新闻评分是最高的;本公开主要针对待推送新闻的关键词不是A、B、C的情况。
需要强调说明的是,本公开中的用户偏好新闻关键词作为已知晓的关键词,而如何得到用户偏好新闻关键词不是本公开的创新点,可以采用已知技术方案获取得到。
BP神经网络模型输入项第一预设数量的推送新闻关键词和第一预设数量的用户偏好新闻关键词;
第一预设数量可以根据要求设置,可以设置为5,第一预设数量为5时,即BP神经网络模型输入项为10个,分别为五个推送新闻关键词和五个用户偏好新闻关键词。
根据用户满意度评分确定是否向待推送用户推送待推送新闻,可以是用户满意度评分超过设定的用户满意度阈值时,向待推送用户推送待推送新闻,用户满意度阈值可以是90(用户满意度评分满分为100)。
作为本公开的可选实施方式,获取训练样本新闻的第一预设数量的待推送新闻关键词包括:获取训练样本新闻的新闻关键词,判断训练样本新闻的新闻关键词的数量,若训练样本新闻的新闻关键词的数量多于第一预设数量,则随机获取其中第一预设数量的新闻关键词作为待推送新闻关键词;若训练样本新闻的新闻关键词的数量少于第一预设数量,则缺少的新闻关键词以预设关键词作为待推送新闻关键词。可以有效防止训练样本新闻中的新闻关键词少于或多于第一预设数量,出现无法处理的情况;其中预设关键词优先采用非常用的生僻词。
作为本公开的可选实施方式,获取用户偏好新闻的第一预设数量的用户偏好新闻关键词包括:获取用户偏好新闻的新闻关键词,判断用户偏好新闻的新闻关键词的数量,若用户偏好新闻的新闻关键词的数量多于第一预设数量,则随机获取其中第一预设数量的新闻关键词作为待推送新闻关键词;若用户偏好新闻的新闻关键词的数量少于第一预设数量,则缺少的新闻关键词以预设关键词作为用户偏好新闻关键词。可以有效防止用户偏好新闻中的新闻关键词少于或多于第一预设数量,出现无法处理的情况;其中预设关键词优先采用非常用的生僻词。
作为本公开的可选实施方式,获取待推送新闻的第一预设数量的待推送新闻关键词和待推送用户的第一预设数量的用户偏好新闻关键词,包括:获取待推送新闻的新闻关键词,判断待推送新闻的新闻关键词的数量,若待推送新闻的新闻关键词的数量多于第一预设数量,则随机获取其中第一预设数量的新闻关键词作为待推送新闻关键词;若训练样本新闻的新闻关键词的数量少于第一预设数量,则缺少的新闻关键词以预设关键词作为待推送新闻关键词;获取用户偏好新闻的新闻关键词,判断用户偏好新闻的新闻关键词的数量,若用户偏好新闻的新闻关键词的数量多于第一预设数量,则随机获取其中第一预设数量的新闻关键词作为待推送新闻关键词;若用户偏好新闻的新闻关键词的数量少于第一预设数量,则缺少的新闻关键词以预设关键词作为用户偏好新闻关键词。
作为本公开的可选实施方式,方法还包括:
建立参照词典;获取训练样本新闻的第一预设数量的待推送新闻关键词时,将待推送新闻关键词作为参照关键词,并录入参照词典中;获取用户偏好新闻的第一预设数量的用户偏好新闻关键词时,将用户偏好新闻关键词作为参照关键词,并录入参照词典中;
可以知道的,在参照词典关键词录入参照词典过程中,如果参照词典中已存在参照词典关键词,则不再重复录入;
获取待推送新闻的第一预设数量的待推送新闻关键词和待推送用户的第一预设数量的用户偏好新闻关键词包括:获取待推送新闻中的字符,并将待推送新闻中的字符与参照词典中的参照关键词进行比对,若比对成功,则将比对成功的参照关键词作为待推送新闻的预备关键词;将待推送新闻的预备关键词与待推送新闻中的字符进行比对,判断预备关键词在待推送新闻出现的次数;获取预备关键词出现的次数最多的前第一预设数量个预备关键词作为待推送新闻关键词。
为了便于理解,以第一预设数量为3时,进行说明;以Fi表示预备关键词i在待推送新闻的字符中出现的次数,当预备关键词出现的次数Fi,从大到小依次为11234、10234、10221、10032、……时,预备关键词出现的次数最多的前第一预设数量个预备关键词即出现次数分别11234、10234、10221所对应的关键词;当出现相同次数的关键词时,可以随机选择。
由于现在很多新闻中未录入关键词,或录入的关键词异常;本实施的方法可以自动识别获取待推送新闻的待推送新闻关键词;同时该关键词存在与训练样本中。本方法计算快捷,且无需另加样本数据,有效减低执行本方法的成本。
作为本公开的另一种可选实施方式,方法还包括:
建立参照词典;获取训练样本新闻的第一预设数量的待推送新闻关键词时,将待推送新闻关键词作为预备参照关键词,获取用户偏好新闻的第一预设数量的用户偏好新闻关键词时,将用户偏好新闻关键词作为预备参照关键词;
判断参照词典中是否存在与该预备参照关键词一致的参照关键词,若存在与该预备参照关键词一致的参照关键词,则取消该预备参照关键词,若不存在与该预备参照关键词一致的参照关键词,则判断参照词典中是否存在与该预备参照关键词一致的预备参照关键词,若存在与该预备参照关键词一致的预备参照关键词,则增加参照词典中该参照关键词的权重,若不存在与该预备参照关键词一致的预备参照关键词,则在参照词典中增加该预备参照关键词,并初始化该预备参照关键词的权重;判断参照词典中预备参照关键词的权重是否大于预设权重,若大于预设权重,则将该预备参照关键词置为参照关键词;
获取待推送新闻的第一预设数量的待推送新闻关键词和待推送用户的第一预设数量的用户偏好新闻关键词包括:获取待推送新闻中的字符,并将待推送新闻中的字符与参照词典中的参照关键词进行比对,若比对成功,则将比对成功的参照关键词作为待推送新闻的预备关键词;将待推送新闻的预备关键词与待推送新闻中的字符进行比对,判断预备关键词在待推送新闻出现的次数;获取预备关键词出现的次数最多的前第一预设数量个预备关键词作为待推送新闻关键词。
作为上述实施方式中获取待推送新闻的第一预设数量的待推送新闻关键词和待推送用户的第一预设数量的用户偏好新闻关键词的可选方式,获取待推送新闻的第一预设数量的待推送新闻关键词和待推送用户的第一预设数量的用户偏好新闻关键词包括:获取待推送新闻中的字符,并将待推送新闻中的字符与参照词典中的参照关键词进行比对,若比对成功,则将比对成功的参照关键词作为待推送新闻的预备关键词;将待推送新闻的预备关键词与待推送新闻中的字符进行比对,判断预备关键词在待推送新闻出现的次数Fi、在待推送新闻的标题中出现的次数Gi,以及预备关键词在待推送新闻中各段落出现的次数Eij;计算通过公式1计算各预备关键词的权重Di
Figure BDA0002191607260000101
公式1中,Di表示预备关键词i的权重,Fi表示预备关键词i在待推送新闻出现的次数,Gi表示预备关键词i在待推送新闻的标题中出现的次数Gi,Eij表示预备关键词i在待推送新闻中的第j段出现的次数,n表示待推送新闻的总段落数;
按各预备关键词的权重Di的从大到小排序,以排在前第一预设数量的预备关键词作为待推送新闻关键词。
本实施方式中,基于获取训练样本新闻的第一预设数量的待推送新闻关键词和用户偏好新闻的第一预设数量的用户偏好新闻关键词,形成参照词典;且在形成中,规避了因各种原因出现的干扰因素,使得参照词典中的参照关键词更为有效;进一步的,基于预备关键词在待推送新闻出现的次数Fi、在待推送新闻的标题中出现的次数Gi,以及预备关键词在待推送新闻中各段落出现的次数Eij,通过公式1计算各预备关键词的权重,并根据权重的排序获得待推送新闻的待推送新闻关键词。经过多次试验发现,通过本方法得到的待推送新闻关键词,以及根据得到的待推送新闻关键词推送的待推送新闻,契合度要比采用普通方法要搞出很多。
作为本实施例的另一方面,如图2所示,一种基于深度学习的新闻数据处理***,包括:
训练样本获取模块1,用于获取训练样本新闻的第一预设数量的待推送新闻关键词;获取用户偏好新闻的第一预设数量的用户偏好新闻关键词;向用户推送待推送样本新闻,并获取用户反馈的用户满意度评分;基于待推送新闻关键词、用户偏好新闻关键词和用户反馈的满意度评分得到训练样本;
训练模块2:建立BP神经网络模型,根据待推送新闻关键词、用户偏好新闻关键词、用户满意度评分对BP神经网络模型进行BP神经网络训练;
新闻推送模块3:获取待推送新闻的第一预设数量的待推送新闻关键词和待推送用户的第一预设数量的用户偏好新闻关键词,输入BP神经网络模型,得到用户满意度评分,并根据用户满意度评分确定是否向待推送用户推送待推送新闻。
可选的,获取训练样本新闻的第一预设数量的待推送新闻关键词,包括:获取训练样本新闻的新闻关键词,判断训练样本新闻的新闻关键词的数量,若训练样本新闻的新闻关键词的数量多于第一预设数量,则随机获取其中第一预设数量的新闻关键词作为待推送新闻关键词;若训练样本新闻的新闻关键词的数量少于第一预设数量,则缺少的新闻关键词以预设关键词作为待推送新闻关键词。
可选的,获取用户偏好新闻的第一预设数量的用户偏好新闻关键词,包括:获取用户偏好新闻的新闻关键词,判断用户偏好新闻的新闻关键词的数量,若用户偏好新闻的新闻关键词的数量多于第一预设数量,则随机获取其中第一预设数量的新闻关键词作为待推送新闻关键词;若用户偏好新闻的新闻关键词的数量少于第一预设数量,则缺少的新闻关键词以预设关键词作为用户偏好新闻关键词。
可选的,获取待推送新闻的第一预设数量的待推送新闻关键词和待推送用户的第一预设数量的用户偏好新闻关键词,包括:获取待推送新闻的新闻关键词,判断待推送新闻的新闻关键词的数量,若待推送新闻的新闻关键词的数量多于第一预设数量,则随机获取其中第一预设数量的新闻关键词作为待推送新闻关键词;若训练样本新闻的新闻关键词的数量少于第一预设数量,则缺少的新闻关键词以预设关键词作为待推送新闻关键词;获取用户偏好新闻的新闻关键词,判断用户偏好新闻的新闻关键词的数量,若用户偏好新闻的新闻关键词的数量多于第一预设数量,则随机获取其中第一预设数量的新闻关键词作为待推送新闻关键词;若用户偏好新闻的新闻关键词的数量少于第一预设数量,则缺少的新闻关键词以预设关键词作为用户偏好新闻关键词。
可选的,如图2所示,所述***还包括:
参照词典建立模块4,用于建立参照词典;在获取训练样本新闻的第一预设数量的待推送新闻关键词时,将待推送新闻关键词作为参照关键词,并录入参照词典中;在获取用户偏好新闻的第一预设数量的用户偏好新闻关键词时,将用户偏好新闻关键词作为参照关键词,并录入参照词典中;
获取待推送新闻的第一预设数量的待推送新闻关键词和待推送用户的第一预设数量的用户偏好新闻关键词,包括:获取待推送新闻中的字符,并将待推送新闻中的字符与参照词典中的参照关键词进行比对,若比对成功,则将比对成功的参照关键词作为待推送新闻的预备关键词;将待推送新闻的预备关键词与待推送新闻中的字符进行比对,判断预备关键词在待推送新闻出现的次数;获取预备关键词出现的次数最多的前第一预设数量个预备关键词作为待推送新闻关键词。
本公开的***实现上述实施例中公开的方法,其原理和效果与方法中的一致,此处不再重复描述。
在本说明书的描述中,参考术语“一个实施例/方式”、“一些实施例/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例/方式或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例/方式或示例以及不同实施例/方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。

Claims (7)

1.一种基于深度学习的新闻数据处理方法,其特征在于,包括:
获取训练样本新闻的第一预设数量的待推送新闻关键词;
获取用户偏好新闻的第一预设数量的用户偏好新闻关键词;
向用户推送待推送样本新闻,并获取用户反馈的用户满意度评分;
基于待推送新闻关键词、用户偏好新闻关键词和用户反馈的满意度评分得到训练样本;
建立BP神经网络模型,根据待推送新闻关键词、用户偏好新闻关键词、用户满意度评分对BP神经网络模型进行BP神经网络训练;
获取待推送新闻的第一预设数量的待推送新闻关键词和待推送用户的第一预设数量的用户偏好新闻关键词,输入BP神经网络模型,得到用户满意度评分,并根据用户满意度评分确定是否向待推送用户推送待推送新闻;
所述方法还包括:
建立参照词典;
在获取训练样本新闻的第一预设数量的待推送新闻关键词时,将待推送新闻关键词作为参照关键词,并录入参照词典中;
在获取用户偏好新闻的第一预设数量的用户偏好新闻关键词时,将用户偏好新闻关键词作为参照关键词,并录入参照词典中;
获取待推送新闻的第一预设数量的待推送新闻关键词和待推送用户的第一预设数量的用户偏好新闻关键词包括:获取待推送新闻中的字符,并将待推送新闻中的字符与参照词典中的参照关键词进行比对,若比对成功,则将比对成功的参照关键词作为待推送新闻的预备关键词;将待推送新闻的预备关键词与待推送新闻中的字符进行比对,判断预备关键词在待推送新闻出现的次数;获取预备关键词出现的次数最多的前第一预设数量个预备关键词作为待推送新闻关键词。
2.如权利要求1所述的一种基于深度学习的新闻数据处理方法,其特征在于,获取训练样本新闻的第一预设数量的待推送新闻关键词,包括:获取训练样本新闻的新闻关键词,判断训练样本新闻的新闻关键词的数量,若训练样本新闻的新闻关键词的数量多于第一预设数量,则随机获取其中第一预设数量的新闻关键词作为待推送新闻关键词;若训练样本新闻的新闻关键词的数量少于第一预设数量,则缺少的新闻关键词以预设关键词作为待推送新闻关键词。
3.如权利要求1所述的一种基于深度学习的新闻数据处理方法,其特征在于,获取用户偏好新闻的第一预设数量的用户偏好新闻关键词,包括:获取用户偏好新闻的新闻关键词,判断用户偏好新闻的新闻关键词的数量,若用户偏好新闻的新闻关键词的数量多于第一预设数量,则随机获取其中第一预设数量的新闻关键词作为待推送新闻关键词;若用户偏好新闻的新闻关键词的数量少于第一预设数量,则缺少的新闻关键词以预设关键词作为用户偏好新闻关键词。
4.如权利要求1所述的一种基于深度学习的新闻数据处理方法,其特征在于,获取待推送新闻的第一预设数量的待推送新闻关键词和待推送用户的第一预设数量的用户偏好新闻关键词,包括:获取待推送新闻的新闻关键词,判断待推送新闻的新闻关键词的数量,若待推送新闻的新闻关键词的数量多于第一预设数量,则随机获取其中第一预设数量的新闻关键词作为待推送新闻关键词;若训练样本新闻的新闻关键词的数量少于第一预设数量,则缺少的新闻关键词以预设关键词作为待推送新闻关键词;获取用户偏好新闻的新闻关键词,判断用户偏好新闻的新闻关键词的数量,若用户偏好新闻的新闻关键词的数量多于第一预设数量,则随机获取其中第一预设数量的新闻关键词作为待推送新闻关键词;若用户偏好新闻的新闻关键词的数量少于第一预设数量,则缺少的新闻关键词以预设关键词作为用户偏好新闻关键词。
5.一种基于深度学习的新闻数据处理***,其特征在于,包括:
训练样本获取模块,用于获取训练样本新闻的第一预设数量的待推送新闻关键词;获取用户偏好新闻的第一预设数量的用户偏好新闻关键词;向用户推送待推送样本新闻,并获取用户反馈的用户满意度评分;基于待推送新闻关键词、用户偏好新闻关键词和用户反馈的满意度评分得到训练样本;
训练模块:建立BP神经网络模型,根据待推送新闻关键词、用户偏好新闻关键词、用户满意度评分对BP神经网络模型进行BP神经网络训练;
新闻推送模块:获取待推送新闻的第一预设数量的待推送新闻关键词和待推送用户的第一预设数量的用户偏好新闻关键词,输入BP神经网络模型,得到用户满意度评分,并根据用户满意度评分确定是否向待推送用户推送待推送新闻;
参照词典建立模块,用于建立参照词典;在获取训练样本新闻的第一预设数量的待推送新闻关键词时,将待推送新闻关键词作为参照关键词,并录入参照词典中;在获取用户偏好新闻的第一预设数量的用户偏好新闻关键词时,将用户偏好新闻关键词作为参照关键词,并录入参照词典中;
获取待推送新闻的第一预设数量的待推送新闻关键词和待推送用户的第一预设数量的用户偏好新闻关键词,包括:获取待推送新闻中的字符,并将待推送新闻中的字符与参照词典中的参照关键词进行比对,若比对成功,则将比对成功的参照关键词作为待推送新闻的预备关键词;将待推送新闻的预备关键词与待推送新闻中的字符进行比对,判断预备关键词在待推送新闻出现的次数;获取预备关键词出现的次数最多的前第一预设数量个预备关键词作为待推送新闻关键词。
6.如权利要求5所述的一种基于深度学习的新闻数据处理***,其特征在于,获取训练样本新闻的第一预设数量的待推送新闻关键词,包括:获取训练样本新闻的新闻关键词,判断训练样本新闻的新闻关键词的数量,若训练样本新闻的新闻关键词的数量多于第一预设数量,则随机获取其中第一预设数量的新闻关键词作为待推送新闻关键词;若训练样本新闻的新闻关键词的数量少于第一预设数量,则缺少的新闻关键词以预设关键词作为待推送新闻关键词。
7.如权利要求5所述的一种基于深度学习的新闻数据处理***,其特征在于,获取待推送新闻的第一预设数量的待推送新闻关键词和待推送用户的第一预设数量的用户偏好新闻关键词,包括:获取待推送新闻的新闻关键词,判断待推送新闻的新闻关键词的数量,若待推送新闻的新闻关键词的数量多于第一预设数量,则随机获取其中第一预设数量的新闻关键词作为待推送新闻关键词;若训练样本新闻的新闻关键词的数量少于第一预设数量,则缺少的新闻关键词以预设关键词作为待推送新闻关键词;获取用户偏好新闻的新闻关键词,判断用户偏好新闻的新闻关键词的数量,若用户偏好新闻的新闻关键词的数量多于第一预设数量,则随机获取其中第一预设数量的新闻关键词作为待推送新闻关键词;若用户偏好新闻的新闻关键词的数量少于第一预设数量,则缺少的新闻关键词以预设关键词作为用户偏好新闻关键词。
CN201910833902.6A 2019-09-04 2019-09-04 一种基于深度学习的新闻数据处理***及其处理方法 Active CN110555169B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910833902.6A CN110555169B (zh) 2019-09-04 2019-09-04 一种基于深度学习的新闻数据处理***及其处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910833902.6A CN110555169B (zh) 2019-09-04 2019-09-04 一种基于深度学习的新闻数据处理***及其处理方法

Publications (2)

Publication Number Publication Date
CN110555169A CN110555169A (zh) 2019-12-10
CN110555169B true CN110555169B (zh) 2021-12-03

Family

ID=68738957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910833902.6A Active CN110555169B (zh) 2019-09-04 2019-09-04 一种基于深度学习的新闻数据处理***及其处理方法

Country Status (1)

Country Link
CN (1) CN110555169B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577736A (zh) * 2017-08-25 2018-01-12 上海斐讯数据通信技术有限公司 一种基于bp神经网络的文件推荐方法及***
CN107992531A (zh) * 2017-11-21 2018-05-04 吉浦斯信息咨询(深圳)有限公司 基于深度学习的新闻个性化智能推荐方法与***
CN108595580A (zh) * 2018-04-17 2018-09-28 阿里巴巴集团控股有限公司 新闻推荐方法、装置、服务器及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10922717B2 (en) * 2017-04-07 2021-02-16 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for activity recommendation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577736A (zh) * 2017-08-25 2018-01-12 上海斐讯数据通信技术有限公司 一种基于bp神经网络的文件推荐方法及***
CN107992531A (zh) * 2017-11-21 2018-05-04 吉浦斯信息咨询(深圳)有限公司 基于深度学习的新闻个性化智能推荐方法与***
CN108595580A (zh) * 2018-04-17 2018-09-28 阿里巴巴集团控股有限公司 新闻推荐方法、装置、服务器及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
个性化新闻推荐***关键技术研究与实现;樊兆欣;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20160315;全文 *
基于深度学习的推荐***研究综述;黄立威,江碧涛,吕守业;《计算机学报》;20180731;全文 *

Also Published As

Publication number Publication date
CN110555169A (zh) 2019-12-10

Similar Documents

Publication Publication Date Title
US20230297581A1 (en) Method and system for ranking search content
CN107193797B (zh) 中文微博的热点话题检测及趋势预测方法
CN105956179B (zh) 数据过滤方法及装置
WO2019218527A1 (zh) 多***相结合的自然语言处理方法及装置
CN108228541B (zh) 生成文档摘要的方法和装置
CN110413875A (zh) 一种文本信息推送的方法以及相关装置
WO2015117560A1 (en) Web page recognizing method and apparatus
CN106294505B (zh) 一种反馈答案的方法和装置
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN107092602B (zh) 一种自动应答方法及***
CN112966081B (zh) 处理问答信息的方法、装置、设备和存储介质
WO2015021937A1 (zh) 用户推荐方法和装置
CN109753561B (zh) 一种自动回复的生成方法及装置
CN108287848B (zh) 用于语义解析的方法和***
WO2013107031A1 (zh) 基于评论信息确定视频质量参数的方法、装置和***
CN111078856A (zh) 一种群聊对话处理方法、装置及电子设备
CN111159404A (zh) 文本的分类方法及装置
WO2020041413A1 (en) Sibling search queries
WO2017000341A1 (zh) 一种信息处理方法、装置以及终端
CN110555169B (zh) 一种基于深度学习的新闻数据处理***及其处理方法
CN116431912A (zh) 用户画像推送方法及装置
CN108170665B (zh) 基于综合相似度的关键词拓展方法和装置
CN113656575B (zh) 训练数据的生成方法、装置、电子设备及可读介质
CN111382265A (zh) 搜索方法、装置、设备和介质
CN111984867B (zh) 一种网络资源确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant