CN115442321B - 消息投放方法、装置、设备及计算机程序产品 - Google Patents
消息投放方法、装置、设备及计算机程序产品 Download PDFInfo
- Publication number
- CN115442321B CN115442321B CN202110628645.XA CN202110628645A CN115442321B CN 115442321 B CN115442321 B CN 115442321B CN 202110628645 A CN202110628645 A CN 202110628645A CN 115442321 B CN115442321 B CN 115442321B
- Authority
- CN
- China
- Prior art keywords
- user tag
- message
- vector
- industry
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/02—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/12—Messaging; Mailboxes; Announcements
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请公开了一种消息投放方法、装置、设备及计算机程序产品,所述消息投放方法包括:获取用户标签集和待投放消息,其中,所述用户标签集中的用户标签用于表征消息投放的用户;基于训练后的用户标签组合器、所述用户标签集和所述待投放消息,对所述用户标签集进行筛选得到用户标签组合,以供基于所述用户标签组合进行消息投放。本申请提升了行业客户消息投放的精确性,并提高了对行业客户消息投放的管控力度。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种消息投放方法、装置、设备及计算机程序产品。
背景技术
随着5G(5th Generation Mobile Communication Technology,第五代移动通信技术)技术的快速发展,5G消息的应用越来越广泛。通过5G消息,可为行业客户提供增强的个人与应用间消息服务,实现“消息即服务”,并且引入了新的消息交互模式—Chatbot(聊天机器人),大家可以在消息窗口直观便捷地享受缴费充值、票务订购、酒店预订、物流查询、餐饮订座、外卖下单等各类5G应用服务。
目前,5G行业消息投放主要通过行业客户自行选择运营商提供的用户标签来实现,以使运营商对行业客户所选标签下的用户进行消息投放。然而,用户标签由行业客户自行选择的方式存在两方面问题:第一,由于行业客户对于用户标签的了解不够深入,容易导致行业客户错选、多选、漏选相关用户标签,使得消息投放不够精准;第二,目前行业客户自行选择的自由度过高,对行业客户消息投放的管控力度低。
发明内容
本申请的主要目的在于提供一种消息投放方法、装置、设备及计算机程序产品,旨在提升行业客户消息投放的精确性,并提高对行业客户消息投放的管控力度。
为实现上述目的,本申请提供一种消息投放方法,所述消息投放方法包括:
获取用户标签集和待投放消息,其中,所述用户标签集中的用户标签用于表征消息投放的用户;
基于训练后的用户标签组合器、所述用户标签集和所述待投放消息,对所述用户标签集进行筛选得到用户标签组合,以供基于所述用户标签组合进行消息投放。
可选地,所述获取用户标签集的步骤包括:
获取行业客户的历史投诉记录、信誉等级和所属行业类型;
基于训练后的用户标签生成器、所述历史投诉记录、所述信誉等级和所述所属行业类型,对所述行业客户进行用户标签权限类别预测,得到用户标签权限类别预测结果;
基于所述用户标签权限类别预测结果进行筛选,得到所述行业客户可用的用户标签集。
可选地,所述用户标签生成器包括特征提取器和分类器,所述特征提取器由预设数量的长短期记忆层和舍弃层交替排列组成,所述分类器由第一全连接层组成,所述基于训练后的用户标签生成器、所述历史投诉记录、所述信誉等级和所述所属行业类型,对所述行业客户进行用户标签权限类别预测,得到用户标签权限类别预测结果的步骤包括:
对所述历史投诉记录、所述信誉等级和所述所属行业类型进行数据预处理,得到历史投诉记录向量、信誉等级向量和所属行业类型向量;
对所述历史投诉记录向量、所述信誉等级向量和所述所属行业类型向量进行融合处理,得到融合向量;
基于所述特征提取器,对所述融合向量进行特征提取,得到融合特征向量;
基于所述融合特征向量和所述分类器,预测所述行业客户的用户标签权限类别,得到用户标签权限类别预测结果。
可选地,所述用户标签生成器还包括词嵌入层,所述对所述历史投诉记录、所述信誉等级和所述所属行业类型进行数据预处理,得到历史投诉记录向量、信誉等级向量和所属行业类型向量的步骤包括:
对所述历史投诉记录进行文本清洗和文本序列化,得到索引化后的历史投诉记录,并基于所述词嵌入层对所述索引化后的历史投诉记录进行向量映射,得到历史投诉记录向量;
对所述信誉等级和所述所属行业类型进行独热编码,得到信誉等级向量和所属行业类型向量。
可选地,所述用户标签组合器包括编码器、解码器和第二全连接层,所述基于训练后的用户标签组合器、所述用户标签集和所述待投放消息,对所述用户标签集进行筛选得到用户标签组合的步骤包括:
基于所述编码器,对所述用户标签集对应的用户标签集向量和所述待投放消息对应的待投放消息向量分别进行特征提取,得到用户标签集特征向量和待投放消息特征向量,并将所述用户标签集特征向量和所述待投放消息特征向量进行聚合处理,得到聚合特征向量;
基于所述解码器,对所述聚合特征向量进行解码,得到解码向量;
基于所述第二全连接层和所述解码向量,对所述用户标签集进行二分类预测,得到二分类预测结果,并基于所述二分类预测结果,对所述用户标签集进行筛选得到用户标签组合。
可选地,所述编码器包括并列的第一长短期记忆层和第二长短期记忆层,所述基于所述编码器,对所述用户标签集对应的用户标签集向量和所述待投放消息对应的待投放消息向量分别进行特征提取,得到用户标签集特征向量和待投放消息特征向量,并将所述用户标签集特征向量和所述待投放消息特征向量进行聚合处理,得到聚合特征向量的步骤包括:
基于所述第一长短期记忆层,对所述用户标签集对应的用户标签集向量进行特征提取,得到第一上下文向量,并基于所述第二长短期记忆层,对所述待投放消息对应的待投放消息向量进行特征提取,得到第二上下文向量;
将所述第一上下文向量和所述第二上下文向量进行聚合处理,得到聚合上下文向量;
其中,所述解码器包括第三长短期记忆层,所述基于所述解码器,对所述聚合特征向量进行解码,得到解码向量的步骤包括:
基于所述第三长短期记忆层,对所述聚合上下文向量进行解码,得到解码向量。
可选地,所述基于训练后的用户标签组合器、所述用户标签集和所述待投放消息,对所述用户标签集进行筛选得到用户标签组合的步骤之前,还包括:
获取用户标签训练数据和投放消息训练数据,并对所述用户标签训练数据和所述投放消息训练数据进行针对于用户标签组合的标签标注,得到用户标签组合数据;
获取待训练模型,在所述用户标签训练数据、所述投放消息训练数据和所述用户标签组合数据中选取训练样本数据;
基于所述训练样本数据,对所述待训练模型进行迭代训练,得到用户标签组合器。
此外,为实现上述目的,本申请还提供一种消息投放装置,所述消息投放装置包括:
获取模块,用于获取用户标签集和待投放消息,其中,所述用户标签集中的用户标签用于表征消息投放的用户;
筛选模块,用于基于训练后的用户标签组合器、所述用户标签集和所述待投放消息,对所述用户标签集进行筛选得到用户标签组合,以供基于所述用户标签组合进行消息投放。
此外,为实现上述目的,本申请还提供一种消息投放设备,所述消息投放设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的消息投放程序,所述消息投放程序被所述处理器执行时实现如上所述的消息投放方法的步骤。
此外,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有消息投放程序,所述消息投放程序被处理器执行时实现如上所述的消息投放方法的步骤。
此外,为实现上述目的,本申请还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如上所述的消息投放方法的步骤。
本申请提供一种消息投放方法、装置、设备及计算机程序产品,获取用户标签集和待投放消息,其中,用户标签集中的用户标签用于表征消息投放的用户;基于训练后的用户标签组合器、用户标签集和待投放消息,对用户标签集进行筛选得到用户标签组合,以供行业客户基于用户标签组合进行消息投放。通过上述方式,基于搭建并训练后的用户标签组合器,自动对用户标签集进行筛选得到用户标签组合,进而将用户标签组合推荐给行业客户,以供行业客户基于智能化推荐的用户标签组合,选择更加精确的用户标签进行消息投放,从而提升行业客户消息投放的精确性。同时,对用户标签集进一步筛选得到用户标签组合,以使行业客户可选择的用户标签受到限制,从而提高对行业客户消息投放的管控力度。
附图说明
图1为本申请实施例方案涉及的硬件运行环境的终端结构示意图;
图2为本申请消息投放方法第一实施例的流程示意图;
图3为本申请消息投放方法第二实施例的流程示意图;
图4为本申请实施例涉及的用户标签生成器示意图;
图5为本申请消息投放装置第一实施例的功能模块示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例的主要解决方案是:获取用户标签集和待投放消息,其中,用户标签集中的用户标签用于表征消息投放的用户;基于训练后的用户标签组合器、用户标签集和待投放消息,对用户标签集进行筛选得到用户标签组合,以供基于用户标签组合进行消息投放。通过上述方式,基于搭建并训练后的用户标签组合器,自动对用户标签集进行筛选得到用户标签组合,进而将用户标签组合推荐给行业客户,以供行业客户基于智能化推荐的用户标签组合,选择更加精确的用户标签进行消息投放,从而提升行业客户消息投放的精确性。同时,对用户标签集进一步筛选得到用户标签组合,以使行业客户可选择的用户标签受到限制,从而提高对行业客户消息投放的管控力度。
本申请实施例涉及的技术术语:
5G消息业务,是基于终端原生短信入口,为用户提供文本、图片、音频、视频、位置、联系人等媒体内容的发送和接收,包括点对点消息、群发消息、群聊消息、点与应用间消息。相较于功能单一的传统短信,5G消息不仅拓宽了信息收发的广度,支持用户使用文本、音视频、卡片、位置等多媒体内容,更延展了交互体验的深度,用户在消息窗口就能完成服务搜索、发现、交互、支付等业务,构建一站式服务的信息窗口。
5G消息,是面向行业客户提供增强的个人与应用间消息服务,实现“消息即服务”,并且引入了新的消息交互模式—Chatbot聊天机器人,大家可以在消息窗口直观便捷地享受缴费充值、票务订购、酒店预订、物流查询、餐饮订座、外卖下单等各类5G应用服务。其中Chatbot是一种行业客户向终端用户提供的以对话形式呈现的服务,该服务通常基于人工智能软件,模拟人类智能对话,向用户提供特定服务功能。
5G消息***,包括5G消息中心(5GMC)、MaaP(Message as a Platform,消息即平台)***(含MaaP平台管理模块和MaaP平台)及群聊服务器等设备。5G消息中心是5G消息业务的核心网元。它具有接入、路由模块及功能,作为整体VNF(virtual network function,虚拟网络功能)进行部署,又具备短消息中心的处理能力和外部接口。该网元将统一提供针对短消息和基础多媒体消息的处理、发送、存储和转发等功能;MaaP***是行业5G消息业务的核心网元,该网元将为行业用户提供5G商业消息(MaaP)业务接入及消息上下行能力,为用户提供行业聊天机器人搜索、详情查询、消息上下行等功能;群聊服务器为5G消息提供群聊功能,包括群聊消息收发、群信息管理等功能。
5G消息开放平台,可以帮助行业客户按需实现多场景的A2P(application toperson,应用到个人)沟通,企业可通过平台快速完成消息应用的部署,无需进行复杂的代码开发,帮助行业客户简单便捷的创建自己的5G消息应用。
本申请实施例考虑到,现有相关方案中,5G行业消息投放主要通过行业客户自行选择运营商提供的用户标签来实现,以使运营商对行业客户所选标签下的用户进行消息投放。然而,用户标签由行业客户自行选择的方式存在两方面问题:第一,由于行业客户对于用户标签的了解不够深入,容易导致行业客户错选、多选、漏选相关用户标签,使得消息投放不够精准;第二,目前行业客户自行选择的自由度过高,对行业客户消息投放的管控力度低。
参照图1,图1为本申请实施例方案涉及的硬件运行环境的终端结构示意图。
本申请实施例终端为消息投放设备,该消息投放设备可以为PC(personalcomputer,个人计算机)、微型计算机、笔记本电脑、服务器等具有处理功能的终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU(Central Processing Unit,中央处理器),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及消息投放程序。
在图1所示的终端中,处理器1001可以用于调用存储器1005中存储的消息投放程序,并执行以下消息投放方法的各个实施例。
基于上述硬件结构,提出本申请消息投放方法的各个实施例。
本申请提供一种消息投放方法。
参照图2,图2为本申请消息投放方法第一实施例的流程示意图。
在本实施例中,该消息投放方法包括:
步骤S10,获取用户标签集和待投放消息,其中,所述用户标签集中的用户标签用于表征消息投放的用户;
在本实施例中,消息投放方法可以应用于消息投放设备,该消息投放设备可以为消息开放平台,该消息开放平台可以为5G消息开放平台,该消息开放平台可以由运营商进行管控;还可以应用于由该消息开放平台和其他相关设备构成的消息投放***,该消息投放***从属于上述图1的消息投放设备。
在本实施例中,获取用户标签集和待投放消息。其中,用户标签集中的用户标签用于表征消息投放的用户,也就是说供消息投放端基于用户标签对相应的用户进行消息投放,例如,供运营商对行业客户所选用户标签对应的用户进行消息投放。该用户标签集可以包括多个用户标签。该待投放消息为当前的行业客户需投放的消息内容。
需要说明的是,5G消息开放平台用于帮助行业客户按需实现多场景的A2P(application to person,应用到个人)沟通,企业可通过平台快速完成消息应用的部署,无需进行复杂的代码开发,帮助行业客户简单便捷的创建自己的5G消息应用。
此外,还需要说明的是,待投放消息包括文本、图片、音频、视频、位置、联系人等媒体内容。该待投放消息还包括点对点消息、群发消息、群聊消息、点与应用间消息。相较于功能单一的传统消息,5G消息不仅拓宽了信息收发的广度,支持用户使用文本、音视频、卡片、位置等多媒体内容,更延展了交互体验的深度,用户在消息窗口就能完成服务搜索、发现、交互、支付等业务,构建一站式服务的信息窗口。
在本实施例中,获取用户标签集的方式可以是:
方式一:接收行业客户端发送的消息投放请求,基于该消息投放请求中携带的身份标识(例如行业ID或聊天机器人ID),然后,基于该身份标识获取该行业客户的客户信息,基于该客户信息和训练后的用户标签生成器,对该行业客户进行用户标签权限类别预测,得到用户标签权限类别预测结果,最后,基于用户标签权限类别预测结果进行筛选,得到行业客户可用的用户标签集。
在方式一中,消息投放设备接收行业客户端发送的消息投放请求,例如,5G消息开放平台接收行业客户端发送的消息投放请求;然后,消息投放设备基于该消息投放请求中携带的身份标识,从存储器中获取该行业客户的客户信息,该客户信息为根据行业客户的状态进行设定,该客户信息可以包括多个特征信息,该客户信息可以根据实际需求进行设定。
在一实施例中,客户信息包括历史投诉记录、信誉等级和所属行业类型,具体的执行流程参照下述第二实施例,此处不再赘述。在另一实施例中,客户信息还包括待投放消息类型,或者,客户信息包括更多或更少的信息,此处不作限定。
方式二:接收行业客户端发送的消息投放请求,基于该消息投放请求中携带的身份标识(例如行业ID或聊天机器人ID),然后,基于该身份标识从存储器中获取用户标签集,其中,用户标签集为预先根据行业客户进行设定的标签集。
需要说明的是,用户标签集根据行业客户进行设定,以使不同的行业客户对应不同的用户标签集,从而对不同行业客户实现不同的用户标签权限,以进一步对用户标签进行管控。
在本实施例中,获取待投放消息的方式是:接收行业客户端发送的消息投放请求,获取消息投放请求中携带的待投放消息。
步骤S20,基于训练后的用户标签组合器、所述用户标签集和所述待投放消息,对所述用户标签集进行筛选得到用户标签组合,以供基于所述用户标签组合进行消息投放。
在本实施例中,基于训练后的用户标签组合器、用户标签集和待投放消息,对用户标签集进行筛选得到用户标签组合。之后,将该用户标签组合作为本次消息投放所使用的用户标签组合推荐给行业客户,以供行业客户基于自动组合后的用户标签组合进行选择。
具体的,基于训练后的用户标签组合器中的第一特征提取器,提取该用户标签集中的用户标签特征信息,并基于训练后的用户标签组合器中的第二特征提取器,提取该待投放消息中的待投放消息特征信息,进而依据用户标签特征信息、待投放消息特征信息以及用户标签组合器中的分类器,对用户标签特征信息和待投放消息特征信息进行二分类预测,得到二分类预测结果,并基于该二分类预测结果,对用户标签集进行筛选得到用户标签组合。
其中,分类器的具体执行过程为获得分类概率向量,然后,确定该分类概率向量中最大的分类概率值对应的标签组合(二分类预测结果),该标签组合包括可推荐的用户标签和不可推荐的用户标签,例如,标签组合为{s1、s2、...、si、...、sn},si=1代表该标签为推荐的组合之一、si=0代表该标签未在推荐的组合中。然后,基于该标签组合进行筛选,以筛选得到用户标签均为推荐的用户标签组合。
在另一实施例中,用户标签组合器为编解码神经网络模型,所述用户标签组合器包括编码器、解码器和分类器,上述步骤S20包括:
基于所述编码器,对所述用户标签集对应的用户标签集向量和所述待投放消息对应的待投放消息向量分别进行特征提取,得到用户标签集特征向量和待投放消息特征向量,并将所述用户标签集特征向量和所述待投放消息特征向量进行聚合处理,得到聚合特征向量;基于所述解码器,对所述聚合特征向量进行解码,得到解码向量;基于所述分类器,对所述用户标签集进行二分类预测,得到二分类预测结果,并基于所述二分类预测结果,对所述用户标签集进行筛选得到用户标签组合。
需要说明的是,该编码器可以由循环神经网络组成,该循环神经网络可以为LSTM(long short-term memory,长短期记忆)神经网络,或者该编码器可以由深度卷积神经网络等组成。相应的,该解码器可以由循环神经网络组成,该循环神经网络可以为LSTM(longshort-term memory,长短期记忆)神经网络,或者该解码器可以由深度卷积神经网络等组成。该分类器由全连接层组成。
进一步地,将用户标签集和待投放消息进行数据预处理,然后,再将数据预处理之后的用户标签集和待投放消息输入至用户标签组合器,以通过用户标签组合器得到用户标签组合。
其中,数据预处理可以包括整数序列化处理和向量映射处理。具体的,对用户标签集进行整数序列化处理,得到索引化后的用户标签集;对待投放消息进行文本清洗和文本序列化,得到索引化后的待投放消息,通过词嵌入层将索引化后的待投放消息进行向量映射,得到待投放消息向量,例如,移除待投放消息的所有标点符号,若文本为中文则对文本进行分词、若文本为英文则将字母统一为小写,同时将每个词索引化(tokenize),使得每一段文本被转化成一段索引数字,并且对未达到最大文本长度的序列补零。例如,取待投放消息的最长长度作为其索引序列长度,取其词典大小作为数据维度,然后,利用词嵌入层将每个词转化为向量,具体的,词嵌入层的输入数据维度为待投放消息的词典大小,输出设置为需要将词转换为128维度的空间向量,也就是说,该词嵌入层的作用是对输入的词进行向量映射,将每个词的索引转换为128维的固定形状向量。
为训练用户标签组合器,在上述步骤S20之前,该消息投放方法还包括:
步骤A30,获取用户标签训练数据和投放消息训练数据,并对所述用户标签训练数据和所述投放消息训练数据进行针对于用户标签组合的标签标注,得到用户标签组合数据;
在本实施例中,获取用户标签训练数据和投放消息训练数据,并对用户标签训练数据和投放消息训练数据进行针对于用户标签组合的标签标注,得到用户标签组合数据。具体的,提取用户标签训练数据中的各个用户标签集表示值和投放消息训练数据中的各个消息内容表示值,进而基于各个用户标签集表示值和各个消息内容表示值,为用户标签训练数据和投放消息训练数据匹配对应的用户标签组合,进而获得用户标签组合数据。
在一实施例中,获取各个行业客户对应的用户标签集,然后,将用户标签集作为用户标签训练数据。在其他实施方式中,用户标签训练数据可以人工设定,或者通过其他方式进行设定。该用户标签训练数据至少包括一用户标签集。
在一实施例中,获取历史的消息投放请求,然后,获取消息投放请求中的消息内容,将所有的消息内容作为投放消息训练数据。在其他实施方式中,投放消息训练数据可以人工设定,或者通过其他方式进行设定。该投放消息训练数据至少包括一投放消息。
进一步地,在所述获取用户标签训练数据和投放消息训练数据的步骤之后,该消息投放方法还包括:
对所述用户标签训练数据进行整数序列化处理,得到索引化后的用户标签训练数据,并对投放消息训练数据进行文本清洗和文本序列化,得到索引化后的投放消息训练数据,通过词嵌入层将索引化后的消息训练数据进行向量映射,得到向量化的投放消息训练数据,以供对索引化后的用户标签训练数据和向量化的投放消息训练数据进行针对于用户标签组合的标签标注,得到用户标签组合数据。
对投放消息训练数据进行文本清洗和文本序列化,具体的,移除投放消息训练数据的所有标点符号,若文本为中文则对文本进行分词、若文本为英文则将字母统一为小写,同时将每个词索引化(tokenize),使得每一段文本被转化成一段索引数字,并且对未达到最大文本长度的序列补零。例如,取投放消息训练数据的最长长度作为其索引序列长度,取其词典大小作为数据维度,以便进行向量映射。
步骤A40,获取待训练模型,在所述用户标签训练数据、所述投放消息训练数据和所述用户标签组合数据中选取训练样本数据;
在本实施例中,获取待训练模型,在用户标签训练数据、投放消息训练数据和用户标签组合数据中选取训练样本数据。其中,训练样本数据至少包括一训练样本,一训练样本包括一来自于用户标签训练数据中的用户标签集、一来自于投放消息训练数据中的消息内容和一来自于用户标签组合数据中的用户标签组合。
进一步地,将训练样本数据划分为训练集和测试集,例如,将训练样本数据的90%划为训练集,训练样本数据的10%划为测试集。其中,训练集用于训练模型,测试集用于测试模型。
步骤A50,基于所述训练样本数据,对所述待训练模型进行迭代训练,得到用户标签组合器。
在本实施例中,基于训练样本数据,对待训练模型进行迭代训练,得到用户标签组合器。具体的,在训练样本数据中选取训练样本,并将训练样本对应的用户标签集和信息内容输入待训练模型,执行模型预测,获得模型输出标签,进而计算模型输出标签与训练样本对应的用户标签组合之间的差值,获得模型损失,进而基于模型损失,更新待训练模型,直至待训练模型的迭代次数达到预设迭代次数。
需要说明的是,可以将预设迭代次数设置为1500(epochs=1500),梯度下降优化算法选择adam优化器用于改善传统梯度下降的学习速度。可以理解,通过梯度下降,可以找到使目标函数最小的最优权重值,并通过训练会自主学习到权重值。用训练集进行训练,使得目标函数越小越好,并在每轮训练后用测试集来评价验证模型,直至模型收敛后导出该模型的权重。
其中,目标函数可以选择二类对数损失函数(binary_crossentropy),该目标函数如下所述:
本申请实施例提供一种消息投放方法,获取用户标签集和待投放消息,其中,用户标签集中的用户标签用于表征消息投放的用户;基于训练后的用户标签组合器、用户标签集和待投放消息,对用户标签集进行筛选得到用户标签组合,以供行业客户基于用户标签组合进行消息投放。通过上述方式,基于搭建并训练后的用户标签组合器,自动对用户标签集进行筛选得到用户标签组合,进而将用户标签组合推荐给行业客户,以供行业客户基于智能化推荐的用户标签组合,选择更加精确的用户标签进行消息投放,从而提升行业客户消息投放的精确性。同时,对用户标签集进一步筛选得到用户标签组合,以使行业客户可选择的用户标签受到限制,从而提高对行业客户消息投放的管控力度。
进一步地,基于上述第一实施例,提出本申请消息投放方法的第二实施例。
参照图3,图3为本申请消息投放方法第二实施例的流程示意图。
在本实施例中,上述步骤S10中,获取用户标签集,包括:
步骤S11,获取行业客户的历史投诉记录、信誉等级和所属行业类型;
在本实施例中,获取行业客户的历史投诉记录、信誉等级和所属行业类型。具体的,消息投放设备根据行业客户发送的消息投放请求,获取行业客户的历史投诉记录、信誉等级和所属行业类型。例如,5G消息开放平台接收行业客户发送的消息投放请求,然后通过消息投放请求中携带的身份标识(例如行业ID或聊天机器人ID)获取该行业客户的历史投诉记录、行业客户信誉等级(行业客户服务等级)、所属行业类型。
步骤S12,基于训练后的用户标签生成器、所述历史投诉记录、所述信誉等级和所述所属行业类型,对所述行业客户进行用户标签权限类别预测,得到用户标签权限类别预测结果;
在本实施例中,基于训练后的用户标签生成器、历史投诉记录、信誉等级和所属行业类型,对行业客户进行用户标签权限类别预测,得到用户标签权限类别预测结果。其中,用户标签生成器为基于深度学习构建的模型,其用于生成行业客户可用的用户标签。该用户标签权限类别预测结果包括可用用户标签和不可用用户标签。
具体的,基于训练后的用户标签生成器中的第一特征提取器,提取该历史投诉记录的历史投诉记录特征信息,并基于训练后的用户标签生成器中的第二特征提取器,提取该信誉等级中的信誉等级特征信息,以及基于训练后的用户标签生成器中的第三特征提取器,提取该所属行业类型中的所属行业类型特征信息,进而依据历史投诉记录特征信息、信誉等级特征信息、所属行业类型特征信息以及用户标签生成器中的分类器,对历史投诉记录特征信息、信誉等级特征信息、所属行业类型特征信息进行二分类预测,得到二分类预测结果(用户标签权限类别预测结果),以供基于该二分类预测结果,对用户标签进行筛选得到用户标签可用的用户标签集。
其中,分类器的具体执行过程为获得分类概率向量,然后,确定该分类概率向量中最大的分类概率值对应的二分类预测结果,该二分类预测结果包括当前行业客户可用的用户标签和不可用的用户标签,例如,二分类预测结果为{y1、y2、...、yi、...、yn},yi=1代表该用户标签可用、yi=0代表该用户标签不可用。然后,基于该二分类预测结果,以筛选得到用户标签均为行业客户可用的用户标签集。
在一实施例中,用户标签生成器为循环神经网络模型,上述步骤S12包括:
获取用户标签生成器在上一时间步的模型输出结果,进而将上一时间步的模型输出结果和在当前时间步的历史投诉记录、信誉等级和所属行业类型输入用户标签生成器,进而在用户标签生成器中循环执行预设时间步数后的模型预测,输出用户标签权限类别预测结果。其中,每一时间步的模型输入均为上一时间步的模型输出与当前时间步的历史投诉记录、信誉等级和所属行业类型,该历史投诉记录为具备时间序列信息的记录,例如,行业客户在一年以内接收的所有投诉记录。
在具体实施例中,该用户标签生成器为LSTM神经网络模型,所述用户标签生成器包括特征提取器和分类器,所述特征提取器由预设数量的长短期记忆层和舍弃层交替排列组成,所述分类器由第一全连接层组成,上述步骤S12包括:
步骤A121,对所述历史投诉记录、所述信誉等级和所述所属行业类型进行数据预处理,得到历史投诉记录向量、信誉等级向量和所属行业类型向量;
在本实施例中,对历史投诉记录、信誉等级和所属行业类型进行数据预处理,得到历史投诉记录向量、信誉等级向量和所属行业类型向量。其中,数据预处理可以包括整数序列化处理和向量映射处理。
在一实施例中,上述步骤A121包括:
步骤A1211,对所述历史投诉记录进行文本清洗和文本序列化,得到索引化后的历史投诉记录,并基于所述词嵌入层对所述索引化后的历史投诉记录进行向量映射,得到历史投诉记录向量;
在本实施例中,对历史投诉记录进行文本清洗和文本序列化,得到索引化后的历史投诉记录,并基于词嵌入层对索引化后的历史投诉记录进行向量映射,得到历史投诉记录向量。具体的,移除历史投诉记录的所有标点符号,若文本为中文则对文本进行分词、若文本为英文则将字母统一为小写,同时将每个词索引化(tokenize),使得每一段文本被转化成一段索引数字,并且对未达到最大文本长度的序列补零。例如,取历史投诉记录的最长长度作为其索引序列长度,取其词典大小作为数据维度,然后,利用词嵌入层将每个词转化为向量,具体的,词嵌入层的输入数据维度为历史投诉记录的词典大小,输出设置为需要将词转换为128维度的空间向量,也就是说,该词嵌入层的作用是对输入的词进行向量映射,将每个词的索引转换为128维的固定形状向量。
步骤A1212,对所述信誉等级和所述所属行业类型进行独热编码,得到信誉等级向量和所属行业类型向量。
在本实施例中,对信誉等级和所属行业类型进行独热编码,得到信誉等级向量和所属行业类型向量。例如,对行业客户的信誉等级和所属行业类型进行独热编码;每条记录可表示为C={c1、c2、...、ci、...、ck},其中ci是第i个词的特征向量。
步骤A122,对所述历史投诉记录向量、所述信誉等级向量和所述所属行业类型向量进行融合处理,得到融合向量;
在本实施例中,对历史投诉记录向量、信誉等级向量和所属行业类型向量进行融合处理,得到融合向量。具体的,该用户标签生成器还可以包括融合层,基于此,通过融合层对历史投诉记录向量、信誉等级向量和所属行业类型向量进行融合处理,得到融合向量。其中,融合处理可以为将历史投诉记录向量、信誉等级向量和所属行业类型向量按照行进行合并。
步骤A123,基于所述特征提取器,对所述融合向量进行特征提取,得到融合特征向量;
在本实施例中,基于特征提取器,对融合向量进行特征提取,得到融合特征向量。具体的,在融合层之后,紧跟预设数量的长短期记忆层和舍弃层,每一层长短期记忆层之后均紧接一个舍弃层(dropout),以基于长短期记忆层和舍弃层对融合向量进行特征提取,得到融合特征向量。
在一实施例中,在融合层之后,紧跟两层LSTM层,第一个LSTM层可以包含128个LSTM神经元,第二个LSTM层可以包含64个LSTM神经元,激活函数可以设置为“relu”。同时每一个LSTM层后均紧接一个舍弃层,以有效避免过拟合,舍弃层是指以概率p舍弃神经元并让其它神经元以概率q=1-p保留,本实施例中可设置舍弃概率为0.2,即随机忽略20%的神经元,使其失效。
需要说明的是,长短期记忆神经网络,是一种特殊的循环神经网络类型,所谓的循环神经网络即同一个神经网络被重复使用。LSTM可以学习长期依赖信息,通过控制缓存中的值保存的时间,可以记住长期的信息,从而进行长序列的学习。每个神经元有四个输入和一个输出,每个神经元内有一个Cell存放记忆的数值,每一个LSTM神经元中含有三个门控:遗忘门、输入门、输出门。通过长短期记忆神经网络在历史投诉记录的学习上具有较好的效果。
步骤A124,基于所述融合特征向量和所述分类器,预测所述行业客户的用户标签权限类别,得到用户标签权限类别预测结果。
在本实施例中,基于融合特征向量和分类器,预测行业客户的用户标签权限类别,得到用户标签权限类别预测结果。具体的,依据融合特征向量和用户标签生成器中的分类器,对融合特征向量进行二分类预测,得到二分类预测结果(用户标签权限类别预测结果),以供基于该二分类预测结果,对用户标签进行筛选得到用户标签可用的用户标签集。
需要说明的是,用户标签生成器中的分类器由全连接层(Dense)构成,其神经元个数设置为n,n为当前用户标签总数,预先定义各用户标签的输出顺序,输出{y1、y2、...、yi、...、yn},yi=1代表该用户标签可用、yi=0代表该用户标签不可用。其中,激活函数可以设置为“sigmoid”。
为训练用户标签生成器,在上述步骤S12之前,该消息投放方法还包括:
获取历史投诉记录训练数据、信誉等级训练数据和所属行业类型训练数据,并对历史投诉记录训练数据、信誉等级训练数据和所属行业类型训练数据进行针对于用户标签权限类别的标签标注,得到用户标签权限类别数据;获取待训练模型,在历史投诉记录训练数据、信誉等级训练数据、所属行业类型训练数据和用户标签权限类别数据中选取训练样本数据;基于训练样本数据,对待训练模型进行迭代训练,得到用户标签生成器。
具体的,提取历史投诉记录训练数据中的各个历史投诉记录表示值、提取信誉等级训练数据中的各个信誉等级表示值和提取所属行业类型训练数据中的各个所属行业类型表示值,进而基于各个历史投诉记录表示值、基于各个信誉等级表示值和各个所属行业类型表示值,为历史投诉记录训练数据、信誉等级训练数据和所属行业类型训练数据匹配对应的用户标签权限类别,进而获得用户标签权限类别数据。
其中,训练样本数据至少包括一训练样本,一训练样本包括一来自于历史投诉记录训练数据中的历史投诉记录、一训练样本包括一来自于信誉等级训练数据中的信誉等级、一来自于所属行业类型训练数据中的所属行业类型和一来自于用户标签权限类别数据中的用户标签权限类别。
在一实施例中,获取历史的消息投放请求,然后通过消息投放请求中携带的身份标识(例如行业ID或聊天机器人ID)获取该行业客户的历史投诉记录、行业客户的信誉等级(行业客户的服务等级)、所属行业类型,将所有的历史投诉记录作为历史投诉记录训练数据,将所有的信誉等级作为信誉等级训练数据,将所有的所属行业类型作为所属行业类型训练数据。在其他实施方式中,各个训练数据可以人工设定,或者通过其他方式进行设定。
进一步地,在所述获取历史投诉记录训练数据、信誉等级训练数据和所属行业类型训练数据的步骤之后,该消息投放方法还包括:
对所述历史投诉记录训练数据进行整数序列化处理,得到索引化后的用户标签训练数据,并对历史投诉记录训练数据进行文本清洗和文本序列化,得到索引化后的历史投诉记录训练数据,通过词嵌入层将索引化后的历史投诉记录训练数据进行向量映射,得到向量化的历史投诉记录训练数据,并对信誉等级训练数据和所属行业类型训练数据进行独热编码,得到向量化的信誉等级训练数据和所属行业类型训练数据,以供对索引化后的各个训练数据进行针对于用户标签权限类别的标签标注,得到用户标签权限类别数据。
对历史投诉记录训练数据进行文本清洗和文本序列化,具体的,移除历史投诉记录训练数据的所有标点符号,若文本为中文则对文本进行分词、若文本为英文则将字母统一为小写,同时将每个词索引化(tokenize),使得每一段文本被转化成一段索引数字,并且对未达到最大文本长度的序列补零。例如,取历史投诉记录训练数据的最长长度作为其索引序列长度,取其词典大小作为数据维度,以便进行向量映射。
进一步地,将训练样本数据划分为训练集和测试集,例如,将训练样本数据的90%划为训练集,训练样本数据的10%划为测试集。其中,训练集用于训练模型,测试集用于测试模型。
具体的,在训练样本数据中选取训练样本,并将训练样本对应的历史投诉记录训练数据、信誉等级训练数据和所属行业类型训练数据输入待训练模型,执行模型预测,获得模型输出标签,进而计算模型输出标签与训练样本对应的用户标签权限类别之间的差值,获得模型损失,进而基于模型损失,更新待训练模型,直至待训练模型的迭代次数达到预设迭代次数。
需要说明的是,可以将预设迭代次数设置为1500(epochs=1500),梯度下降优化算法选择adam优化器用于改善传统梯度下降的学习速度。可以理解,通过梯度下降,可以找到使目标函数最小的最优权重值,并通过训练会自主学习到权重值。用训练集进行训练,使得目标函数越小越好,并在每轮训练后用测试集来评价验证模型,直至模型收敛后导出该模型的权重。
其中,目标函数可以选择二类对数损失函数(binary_crossentropy),该目标函数如下所述:
步骤S13,基于所述用户标签权限类别预测结果进行筛选,得到所述行业客户可用的用户标签集。
在本实施例中,基于用户标签权限类别预测结果进行筛选,得到行业客户可用的用户标签集。例如,用户标签权限类别预测结果为{y1、y2、...、yi、...、yn},yi=1代表该用户标签可用、yi=0代表该用户标签不可用,则将所有的可用的用户标签进行组合得到用户标签集。
进一步地,所述获取用户标签集的步骤包括:获取行业客户的历史投诉记录、信誉等级和所属行业类型,并获取待投放消息类型;基于训练后的用户标签生成器、所述历史投诉记录、所述信誉等级、所述所属行业类型和所述待投放消息类型,对所述行业客户进行用户标签权限类别预测,得到用户标签权限类别预测结果;基于所述用户标签权限类别预测结果进行筛选,得到所述行业客户可用的用户标签集。具体的执行流程与上述历史投诉记录向量、信誉等级向量和所属行业类型向量基本相同,此处不再一一赘述。
相应的,所述用户标签生成器包括特征提取器和分类器,所述特征提取器由预设数量的长短期记忆层和舍弃层交替排列组成,所述分类器由全连接层组成,所述基于训练后的用户标签生成器、所述历史投诉记录、所述信誉等级、所述所属行业类型和所述待投放消息类型,对所述行业客户进行用户标签权限类别预测,得到用户标签权限类别预测结果的步骤包括:对所述历史投诉记录、所述信誉等级、所述所属行业类型和所述待投放消息类型进行数据预处理,得到历史投诉记录向量、信誉等级向量、所属行业类型向量和待投放消息类型向量;对所述历史投诉记录向量、所述信誉等级向量、所述所属行业类型向量和所述待投放消息类型向量进行融合处理,得到融合向量;基于所述特征提取器,对所述融合向量进行特征提取,获得融合特征向量;基于所述融合特征向量和所述分类器,预测所述行业客户的用户标签权限类别,得到用户标签权限类别预测结果。具体的执行流程与上述历史投诉记录向量、信誉等级向量和所属行业类型向量基本相同,此处不再一一赘述。
相应的,所述用户标签生成器包括特征提取器和分类器,所述特征提取器由预设数量的长短期记忆层和舍弃层交替排列组成,所述分类器由全连接层组成,所述基于深度学习构建的用户标签生成器、所述历史投诉记录、所述信誉等级、所述所属行业类型和所述待投放消息类型,对所述行业客户进行用户标签权限类别预测,得到用户标签权限类别预测结果的步骤包括:对所述历史投诉记录、所述信誉等级、所述所属行业类型和所述待投放消息类型进行数据预处理,得到历史投诉记录向量、信誉等级向量、所属行业类型向量和待投放消息类型向量;对所述历史投诉记录向量、所述信誉等级向量、所述所属行业类型向量和所述待投放消息类型向量进行融合处理,得到融合向量;基于所述特征提取器,对所述融合向量进行特征提取,获得融合特征向量;基于所述融合特征向量和所述分类器,预测所述行业客户的用户标签权限类别,得到用户标签权限类别预测结果。具体的执行流程与上述历史投诉记录向量、信誉等级向量和所属行业类型向量基本相同,此处不再一一赘述。
相应的,所述用户标签生成器还包括词嵌入层,所述对所述历史投诉记录、所述信誉等级、所述所属行业类型和所述待投放消息类型进行数据预处理,得到历史投诉记录向量、信誉等级向量、所属行业类型向量和待投放消息类型向量的步骤包括:对所述历史投诉记录进行文本清洗和文本序列化,得到索引化后的历史投诉记录,并通过所述词嵌入层将所述索引化后的历史投诉记录进行向量映射,得到历史投诉记录向量;对所述信誉等级、所述所属行业类型和所述待投放消息类型进行独热编码,得到信誉等级向量、所属行业类型向量和待投放消息类型向量。具体的执行流程与上述历史投诉记录向量、信誉等级向量和所属行业类型向量基本相同,此处不再一一赘述。
在一实施例中,参照图4,图4为本申请实施例涉及的用户标签生成器示意图。其中,输入层:输入索引化后的行业客户最近T时间内投诉记录,每条索引序列长度为k,因此该层输出数据的形状为(None,k);嵌入层(embedding):利用词嵌入将每个词转化为向量,输出设置为需要将词转换为128维度的空间向量,因此该层输出数据的形状为(None,k,128)。该层的作用是对输入的词进行向量映射,将每个词的索引转换为128维的固定形状向量;其他各输入层分别接收行业客户信誉等级、行业客户所属行业类型、本次待投放消息类型(由于数据合并需要,将数据长度延伸至128,不足部分用零补齐),因此该层输出数据的形状为(None,1,128);融合层(concatenate):将各分支信息按照行进行合并;随后紧跟两层长短期记忆LSTM层:分别含128、64个LSTM神经元,激活函数设置为“relu”;同时每一个LSTM层后均紧接一个dropout层,以有效避免过拟合,Dropout层是指以概率p舍弃神经元并让其它神经元以概率q=1-p保留,本方案中设置舍弃概率为0.2,即随机忽略20%的神经元,使其失效。输出层:由全连接层(Dense)构成,神经元个数设置为n,n为现网中标签总数,预先定义各标签的输出顺序,输出{y1、y2、...、yi、...、yn},yi=1代表该标签可用、yi=0代表该标签不可用。激活函数设置为“sigmoid”。
本实施例中,基于搭建并训练后的用户标签生成器,自动对用户标签进行筛选得到可用的用户标签集,以对行业客户可用的用户标签进行限制,从而进一步提高对行业客户消息投放的管控力度。
进一步地,基于上述第一实施例,提出本申请消息投放方法的第三实施例。
在本实施例中,所述用户标签组合器包括编码器、解码器和第二全连接层,上述步骤S20包括:
步骤A21,基于所述编码器,对所述用户标签集对应的用户标签集向量和所述待投放消息对应的待投放消息向量分别进行特征提取,得到用户标签集特征向量和待投放消息特征向量,并将所述用户标签集特征向量和所述待投放消息特征向量进行聚合处理,得到聚合特征向量;
其中,用户标签集对应的用户标签集向量和待投放消息对应的待投放消息向量的获取方式是:将用户标签集和待投放消息进行数据预处理。
需要说明的是,数据预处理可以包括整数序列化处理和向量映射处理。具体的,对用户标签集进行整数序列化处理,得到索引化后的用户标签集;对待投放消息进行文本清洗和文本序列化,得到索引化后的待投放消息,通过词嵌入层将索引化后的待投放消息进行向量映射,得到待投放消息向量,例如,移除待投放消息的所有标点符号,若文本为中文则对文本进行分词、若文本为英文则将字母统一为小写,同时将每个词索引化(tokenize),使得每一段文本被转化成一段索引数字,并且对未达到最大文本长度的序列补零。例如,取待投放消息的最长长度作为其索引序列长度,取其词典大小作为数据维度,然后,利用词嵌入层将每个词转化为向量,具体的,词嵌入层的输入数据维度为待投放消息的词典大小,输出设置为需要将词转换为128维度的空间向量,也就是说,该词嵌入层的作用是对输入的词进行向量映射,将每个词的索引转换为128维的固定形状向量。
此外,还需要说明的是,该编码器可以由循环神经网络组成,该循环神经网络可以为LSTM(long short-term memory,长短期记忆)神经网络,或者该编码器可以由深度卷积神经网络等组成。
其中,聚合处理可以为将两个固定长度的用户标签集特征向量和的待投放消息特征向量按列维度进行拼接合并为1个固定长度的聚合特征向量。
在一实施例中,所述编码器包括并列的第一长短期记忆层和第二长短期记忆层,上述步骤A21包括:
步骤A211,基于所述第一长短期记忆层,对所述用户标签集对应的用户标签集向量进行特征提取,得到第一上下文向量,并基于所述第二长短期记忆层,对所述待投放消息对应的待投放消息向量进行特征提取,得到第二上下文向量;
步骤A212,将所述第一上下文向量和所述第二上下文向量进行聚合处理,得到聚合上下文向量。
在本实施例中,基于第一长短期记忆层,对用户标签集对应的用户标签集向量进行特征提取,得到第一上下文向量,并基于第二长短期记忆层,对待投放消息对应的待投放消息向量进行特征提取,得到第二上下文向量;将第一上下文向量和第二上下文向量进行聚合处理,得到聚合上下文向量。
在一实施例中,第一长短期记忆层和第二长短期记忆层的每层含128个LSTM神经元,激活函数可以设置为“relu”,通过第一长短期记忆层和第二长短期记忆层可以将用户标签集向量和待投放消息向量编码成两个固定长度的上下文向量。
其中,聚合处理可以为将两个固定长度的第一上下文向量和第二上下文向量按列维度进行拼接合并为1个固定长度的聚合上下文向量。具体的,用户标签组合器还包括合并层,以通过合并层将两个固定长度的第一上下文向量和第二上下文向量按列维度进行拼接合并为1个固定长度的聚合上下文向量。
步骤A22,基于所述解码器,对所述聚合特征向量进行解码,得到解码向量;
在本实施例中,基于解码器,对聚合特征向量进行解码,得到解码向量。其中,解码器可以由循环神经网络组成,该循环神经网络可以为LSTM(long short-term memory,长短期记忆)神经网络,或者该解码器可以由深度卷积神经网络等组成。
需要说明的是,长短期记忆神经网络,是一种特殊的循环神经网络类型,所谓的循环神经网络即同一个神经网络被重复使用。LSTM可以学习长期依赖信息,通过控制缓存中的值保存的时间,可以记住长期的信息,从而进行长序列的学习。每个神经元有四个输入和一个输出,每个神经元内有一个Cell存放记忆的数值,每一个LSTM神经元中含有三个门控:遗忘门、输入门、输出门。通过长短期记忆神经网络在用户标签集和待投放消息的学习上具有较好的效果。
在一实施例中,所述解码器包括第三长短期记忆层,上述步骤A22包括:
步骤A221,基于所述第三长短期记忆层,对所述聚合上下文向量进行解码,得到解码向量。
在一实施例中,第三长短期记忆层含128个LSTM神经元,激活函数可以设置为“relu”。
步骤A23,基于所述第二全连接层和所述解码向量,对所述用户标签集进行二分类预测,得到二分类预测结果,并基于所述二分类预测结果,对所述用户标签集进行筛选得到用户标签组合。
具体的,基于第二全连接层和解码向量,对用户标签集进行二分类预测,获得分类概率向量,然后,确定该分类概率向量中最大的分类概率值对应的标签组合(二分类预测结果),该标签组合包括可推荐的用户标签和不可推荐的用户标签,例如,用户标签组合为{s1、s2、...、si、...、sn},si=1代表该用户标签为推荐的组合之一、si=0代表该用户标签未在推荐的组合中。然后,基于该标签组合进行筛选,以筛选得到用户标签均为推荐的用户标签组合。
在一实施例中,全连接(Dense)层(输出层):神经元个数设置为n,n为用户标签集的标签总数,预先定义各标签的输出顺序,输出{s1、s2、...、si、...、sn},si=1代表该用户标签为推荐的组合之一、si=0代表该用户标签未在推荐的组合中。激活函数可以设置为“sigmoid”。
本实施例中,基于编解码神经网络搭建并训练后的用户标签组合器,自动对用户标签集进行筛选得到用户标签组合,进而将用户标签组合推荐给行业客户,以供行业客户基于智能化推荐的用户标签组合,选择更加精确的用户标签进行消息投放,从而提升行业客户消息投放的精确性。同时,通过编解码神经网络长序列的学习能力,可提高用户标签组合的精确性,从而进一步提升行业客户消息投放的精确性。
本申请还提供一种消息投放装置。
参照图5,图5为本申请消息投放装置第一实施例的功能模块示意图。
在本实施例中,所述消息投放装置包括:
获取模块10,用于获取用户标签集和待投放消息,其中,所述用户标签集中的用户标签用于表征消息投放的用户;
筛选模块20,用于基于训练后的用户标签组合器、所述用户标签集和所述待投放消息,对所述用户标签集进行筛选得到用户标签组合,以供行业客户基于所述用户标签组合进行消息投放。
进一步地,所述获取模块10包括:
客户获取单元,用于获取行业客户的历史投诉记录、信誉等级和所属行业类型;
权限预测单元,用于基于训练后的用户标签生成器、所述历史投诉记录、所述信誉等级和所述所属行业类型,对所述行业客户进行用户标签权限类别预测,得到用户标签权限类别预测结果;
权限筛选单元,用于基于所述用户标签权限类别预测结果进行筛选,得到所述行业客户可用的用户标签集。
进一步地,所述用户标签生成器包括特征提取器和分类器,所述特征提取器由预设数量的长短期记忆层和舍弃层交替排列组成,所述分类器由第一全连接层组成,所述权限预测单元包括:
数据预处理子单元,用于对所述历史投诉记录、所述信誉等级和所述所属行业类型进行数据预处理,得到历史投诉记录向量、信誉等级向量和所属行业类型向量;
向量融合子单元,用于对所述历史投诉记录向量、所述信誉等级向量和所述所属行业类型向量进行融合处理,得到融合向量;
特征提取子单元,用于基于所述特征提取器,对所述融合向量进行特征提取,得到融合特征向量;
权限预测子单元,用于基于所述融合特征向量和所述分类器,预测所述行业客户的用户标签权限类别,得到用户标签权限类别预测结果。
进一步地,所述用户标签生成器还包括词嵌入层,所述数据预处理子单元还用于对所述历史投诉记录进行文本清洗和文本序列化,得到索引化后的历史投诉记录,并基于所述词嵌入层对所述索引化后的历史投诉记录进行向量映射,得到历史投诉记录向量;对所述信誉等级和所述所属行业类型进行独热编码,得到信誉等级向量和所属行业类型向量。
进一步地,所述用户标签组合器包括编码器、解码器和第二全连接层,所述筛选模块20包括:
特征提取单元,用于基于所述编码器,对所述用户标签集对应的用户标签集向量和所述待投放消息对应的待投放消息向量分别进行特征提取,得到用户标签集特征向量和待投放消息特征向量,并将所述用户标签集特征向量和所述待投放消息特征向量进行聚合处理,得到聚合特征向量;
向量解码单元,用于基于所述解码器,对所述聚合特征向量进行解码,得到解码向量;
二分类预测单元,用于基于所述第二全连接层和所述解码向量,对所述用户标签集进行二分类预测,得到二分类预测结果,并基于所述二分类预测结果,对所述用户标签集进行筛选得到用户标签组合。
进一步地,所述编码器包括并列的第一长短期记忆层和第二长短期记忆层,所述特征提取单元包括:
向量提取子单元,用于基于所述第一长短期记忆层,对所述用户标签集对应的用户标签集向量进行特征提取,得到第一上下文向量,并基于所述第二长短期记忆层,对所述待投放消息对应的待投放消息向量进行特征提取,得到第二上下文向量;
向量聚合子单元,用于将所述第一上下文向量和所述第二上下文向量进行聚合处理,得到聚合上下文向量;
其中,所述解码器包括第三长短期记忆层,所述向量解码单元包括:
向量解码子单元,用于基于所述第三长短期记忆层,对所述聚合上下文向量进行解码,得到解码向量。
进一步地,所述消息投放装置还包括:
标签标注模块,用于获取用户标签训练数据和投放消息训练数据,并对所述用户标签训练数据和所述投放消息训练数据进行针对于用户标签组合的标签标注,得到用户标签组合数据;
样本选取模块,用于获取待训练模型,在所述用户标签训练数据、所述投放消息训练数据和所述用户标签组合数据中选取训练样本数据;
模型训练模块,用于基于所述训练样本数据,对所述待训练模型进行迭代训练,得到用户标签组合器。
其中,上述消息投放装置中各个模块的功能实现与上述消息投放方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本申请还提供一种计算机可读存储介质,该计算机可读存储介质上存储有消息投放程序,所述消息投放程序被处理器执行时实现如以上任一项实施例所述的消息投放方法的步骤。
本申请计算机可读存储介质的具体实施例与上述消息投放方法各实施例基本相同,在此不作赘述。
本申请还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序产品被处理器执行时实现如以上任一项实施例所述的消息投放方法的步骤。
本申请计算机程序产品的具体实施例与上述消息投放方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (9)
1.一种消息投放方法,其特征在于,所述消息投放方法包括:
获取用户标签集和待投放消息,其中,所述用户标签集中的用户标签用于表征消息投放的用户;
基于训练后的用户标签组合器、所述用户标签集和所述待投放消息,对所述用户标签集进行筛选得到用户标签组合,以供基于所述用户标签组合进行消息投放;
所述获取用户标签集的步骤包括:
获取行业客户的历史投诉记录、信誉等级和所属行业类型;
基于训练后的用户标签生成器、所述历史投诉记录、所述信誉等级和所述所属行业类型,对所述行业客户进行用户标签权限类别预测,得到用户标签权限类别预测结果;
基于所述用户标签权限类别预测结果进行筛选,得到所述行业客户可用的用户标签集。
2.如权利要求1所述的消息投放方法,其特征在于,所述用户标签生成器包括特征提取器和分类器,所述特征提取器由预设数量的长短期记忆层和舍弃层交替排列组成,所述分类器由第一全连接层组成,所述基于训练后的用户标签生成器、所述历史投诉记录、所述信誉等级和所述所属行业类型,对所述行业客户进行用户标签权限类别预测,得到用户标签权限类别预测结果的步骤包括:
对所述历史投诉记录、所述信誉等级和所述所属行业类型进行数据预处理,得到历史投诉记录向量、信誉等级向量和所属行业类型向量;
对所述历史投诉记录向量、所述信誉等级向量和所述所属行业类型向量进行融合处理,得到融合向量;
基于所述特征提取器,对所述融合向量进行特征提取,得到融合特征向量;
基于所述融合特征向量和所述分类器,预测所述行业客户的用户标签权限类别,得到用户标签权限类别预测结果。
3.如权利要求2所述的消息投放方法,其特征在于,所述用户标签生成器还包括词嵌入层,所述对所述历史投诉记录、所述信誉等级和所述所属行业类型进行数据预处理,得到历史投诉记录向量、信誉等级向量和所属行业类型向量的步骤包括:
对所述历史投诉记录进行文本清洗和文本序列化,得到索引化后的历史投诉记录,并基于所述词嵌入层对所述索引化后的历史投诉记录进行向量映射,得到历史投诉记录向量;
对所述信誉等级和所述所属行业类型进行独热编码,得到信誉等级向量和所属行业类型向量。
4.如权利要求1所述的消息投放方法,其特征在于,所述用户标签组合器包括编码器、解码器和第二全连接层,所述基于训练后的用户标签组合器、所述用户标签集和所述待投放消息,对所述用户标签集进行筛选得到用户标签组合的步骤包括:
基于所述编码器,对所述用户标签集对应的用户标签集向量和所述待投放消息对应的待投放消息向量分别进行特征提取,得到用户标签集特征向量和待投放消息特征向量,并将所述用户标签集特征向量和所述待投放消息特征向量进行聚合处理,得到聚合特征向量;
基于所述解码器,对所述聚合特征向量进行解码,得到解码向量;
基于所述第二全连接层和所述解码向量,对所述用户标签集进行二分类预测,得到二分类预测结果,并基于所述二分类预测结果,对所述用户标签集进行筛选得到用户标签组合。
5.如权利要求4所述的消息投放方法,其特征在于,所述编码器包括并列的第一长短期记忆层和第二长短期记忆层,所述基于所述编码器,对所述用户标签集对应的用户标签集向量和所述待投放消息对应的待投放消息向量分别进行特征提取,得到用户标签集特征向量和待投放消息特征向量,并将所述用户标签集特征向量和所述待投放消息特征向量进行聚合处理,得到聚合特征向量的步骤包括:
基于所述第一长短期记忆层,对所述用户标签集对应的用户标签集向量进行特征提取,得到第一上下文向量,并基于所述第二长短期记忆层,对所述待投放消息对应的待投放消息向量进行特征提取,得到第二上下文向量;
将所述第一上下文向量和所述第二上下文向量进行聚合处理,得到聚合上下文向量;
其中,所述解码器包括第三长短期记忆层,所述基于所述解码器,对所述聚合特征向量进行解码,得到解码向量的步骤包括:
基于所述第三长短期记忆层,对所述聚合上下文向量进行解码,得到解码向量。
6.如权利要求1至5中任一项所述的消息投放方法,其特征在于,所述基于训练后的用户标签组合器、所述用户标签集和所述待投放消息,对所述用户标签集进行筛选得到用户标签组合的步骤之前,还包括:
获取用户标签训练数据和投放消息训练数据,并对所述用户标签训练数据和所述投放消息训练数据进行针对于用户标签组合的标签标注,得到用户标签组合数据;
获取待训练模型,在所述用户标签训练数据、所述投放消息训练数据和所述用户标签组合数据中选取训练样本数据;
基于所述训练样本数据,对所述待训练模型进行迭代训练,得到用户标签组合器。
7.一种消息投放装置,其特征在于,所述消息投放装置包括:
获取模块,用于获取用户标签集和待投放消息,其中,所述用户标签集中的用户标签用于表征消息投放的用户;
筛选模块,用于基于训练后的用户标签组合器、所述用户标签集和所述待投放消息,对所述用户标签集进行筛选得到用户标签组合,以供基于所述用户标签组合进行消息投放;
所述获取模块,还用于获取行业客户的历史投诉记录、信誉等级和所属行业类型;基于训练后的用户标签生成器、所述历史投诉记录、所述信誉等级和所述所属行业类型,对所述行业客户进行用户标签权限类别预测,得到用户标签权限类别预测结果;基于所述用户标签权限类别预测结果进行筛选,得到所述行业客户可用的用户标签集。
8.一种消息投放设备,其特征在于,所述消息投放设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的消息投放程序,所述消息投放程序被所述处理器执行时实现如权利要求1至6中任一项所述的消息投放方法的步骤。
9.一种可读存储介质,其特征在于,所述可读存储介质包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的消息投放方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110628645.XA CN115442321B (zh) | 2021-06-04 | 2021-06-04 | 消息投放方法、装置、设备及计算机程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110628645.XA CN115442321B (zh) | 2021-06-04 | 2021-06-04 | 消息投放方法、装置、设备及计算机程序产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115442321A CN115442321A (zh) | 2022-12-06 |
CN115442321B true CN115442321B (zh) | 2023-08-18 |
Family
ID=84272258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110628645.XA Active CN115442321B (zh) | 2021-06-04 | 2021-06-04 | 消息投放方法、装置、设备及计算机程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115442321B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104967552A (zh) * | 2014-11-12 | 2015-10-07 | 腾讯科技(深圳)有限公司 | 消息推送方法及装置 |
US9813260B1 (en) * | 2013-01-18 | 2017-11-07 | Twitter, Inc. | In-message applications in a messaging platform |
CN108521439A (zh) * | 2018-03-08 | 2018-09-11 | 北京三快在线科技有限公司 | 一种消息推送的方法和装置 |
CN109636487A (zh) * | 2019-01-14 | 2019-04-16 | 平安科技(深圳)有限公司 | 广告推送方法、服务器、计算机设备及存储介质 |
CN110351656A (zh) * | 2019-07-12 | 2019-10-18 | 成都心野科技有限公司 | 一种消息投放方法 |
CN111095330A (zh) * | 2017-09-14 | 2020-05-01 | 艾玛迪斯简易股份公司 | 用于预测在线用户交互的机器学习方法和*** |
CN111160605A (zh) * | 2019-11-25 | 2020-05-15 | 北京邮电大学 | 一种语音服务投诉预测方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8861421B2 (en) * | 2010-11-29 | 2014-10-14 | Gary S. Shuster | Mobile status update display |
-
2021
- 2021-06-04 CN CN202110628645.XA patent/CN115442321B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9813260B1 (en) * | 2013-01-18 | 2017-11-07 | Twitter, Inc. | In-message applications in a messaging platform |
CN104967552A (zh) * | 2014-11-12 | 2015-10-07 | 腾讯科技(深圳)有限公司 | 消息推送方法及装置 |
CN111095330A (zh) * | 2017-09-14 | 2020-05-01 | 艾玛迪斯简易股份公司 | 用于预测在线用户交互的机器学习方法和*** |
CN108521439A (zh) * | 2018-03-08 | 2018-09-11 | 北京三快在线科技有限公司 | 一种消息推送的方法和装置 |
CN109636487A (zh) * | 2019-01-14 | 2019-04-16 | 平安科技(深圳)有限公司 | 广告推送方法、服务器、计算机设备及存储介质 |
CN110351656A (zh) * | 2019-07-12 | 2019-10-18 | 成都心野科技有限公司 | 一种消息投放方法 |
CN111160605A (zh) * | 2019-11-25 | 2020-05-15 | 北京邮电大学 | 一种语音服务投诉预测方法及装置 |
Non-Patent Citations (1)
Title |
---|
多标签学习和层次分析法在用户标签建设中的应用-基于某移动互联网的用户数据;关兴;《万方》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115442321A (zh) | 2022-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102050334B1 (ko) | 언어 모델을 사용한, 메시지들에서 수신되는 이미지들에 대한 자동적인 제안 응답들 | |
CN108536679B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN104933113B (zh) | 一种基于语义理解的表情输入方法和装置 | |
CN111666502A (zh) | 一种基于深度学习的异常用户识别方法、装置及存储介质 | |
CN106407178A (zh) | 一种会话摘要生成方法及装置 | |
CN110598070B (zh) | 应用类型识别方法及装置、服务器及存储介质 | |
KR102079441B1 (ko) | 복수의 사용자의 매칭 적합도를 판별하는 서비스를 제공하는 방법 및 서버 | |
US11784948B2 (en) | Cognitive determination of message suitability | |
CN112487149A (zh) | 一种文本审核方法、模型、设备及存储介质 | |
CN111666400B (zh) | 消息获取方法、装置、计算机设备及存储介质 | |
CN111401063B (zh) | 一种基于多池化网络的文本处理方法、装置和相关设备 | |
CN111507350A (zh) | 一种文本识别方法和装置 | |
US11429833B2 (en) | Cognitive communication assistant services | |
EP4371027A1 (en) | Intelligent task completion detection at a computing device | |
CN115130711A (zh) | 一种数据处理方法、装置、计算机及可读存储介质 | |
CN111680161A (zh) | 一种文本处理方法、设备以及计算机可读存储介质 | |
CN116050405A (zh) | 文本处理、问答文本处理及文本处理模型训练方法 | |
CN111800333B (zh) | 会话消息处理方法、装置、计算机可读存储介质及设备 | |
CN111597580B (zh) | 机器人听觉隐私信息监听处理方法 | |
US20210357682A1 (en) | Artificial intelligence driven image retrieval | |
CN115442321B (zh) | 消息投放方法、装置、设备及计算机程序产品 | |
CN111615178B (zh) | 识别无线网络类型及模型训练的方法、装置及电子设备 | |
CN113535946A (zh) | 基于深度学习的文本鉴别方法、装置、设备及存储介质 | |
CN115515083B (zh) | 消息发放方法、装置、服务器及存储介质 | |
CN110888539A (zh) | 输入法中的人名推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |