CN113127746B - 基于用户聊天内容分析的信息推送方法及其相关设备 - Google Patents
基于用户聊天内容分析的信息推送方法及其相关设备 Download PDFInfo
- Publication number
- CN113127746B CN113127746B CN202110522391.3A CN202110522391A CN113127746B CN 113127746 B CN113127746 B CN 113127746B CN 202110522391 A CN202110522391 A CN 202110522391A CN 113127746 B CN113127746 B CN 113127746B
- Authority
- CN
- China
- Prior art keywords
- data
- text
- chat
- chat data
- sensitive word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了基于用户聊天内容分析的信息推送及其相关设备,涉及语义解析技术,是基于用户进入预设场景所上传的聊天数据进行内容分析后快速得到聊天数据聚类结果,并基于聊天数据聚类结果获取符合条件的聚类簇及其对应的文本主题组成目标聊天数据聚类簇集,最终根据各目标聊天数据聚类簇的文本主题分别获取对应的推广文本数据以进行信息推送,实现了基于用户聊天数据的自动语义分析快速获取对应的推广文本数据集,无需人工干预,提高了数据处理效率。
Description
技术领域
本发明涉及语义解析技术领域,尤其涉及一种基于用户聊天内容分析的信息推送方法及其相关设备。
背景技术
网络游戏成为了越来越普及的娱乐活动,例如手机上运行的网络游戏和电脑上运行的网络游戏。在网络游戏中,经常不断推出新的游戏活动,这些新的游戏活动一般是由策划人员基于一定的用户市场调研后基于策划人员的经验总结得到,也即上述过程一般需要设计用户问卷调查、问卷收集、问卷统计分析等过程,这就导致上述获取用户所期待活动信息的过程极其耗时,而且人工成本高,数据处理效率低下。
发明内容
本发明实施例提供了一种基于用户聊天内容分析的信息推送方法及其相关设备,旨在解决现有技术中针对特定用户群体获取其所期待开展活动信息一般需经过用户问卷调查、问卷收集、问卷统计分析等过程,导致数据获取过程耗时且效率低下,而且耗费人工成本高的问题。
第一方面,本发明实施例提供了一种基于用户聊天内容分析的信息推送方法,其包括:
若检测到用户端在进入预设场景上传的聊天数据,获取所述聊天数据的数据类型;
判断所述数据类型是语音类型或是文本类型;
若所述数据类型是文本类型,将所述聊天数据进行敏感词检测和敏感词转换处理,得到第一脱敏处理后聊天数据以作为当前聊天数据;
若所述数据类型是语音类型,将所述聊天数据进行语音文本提取、敏感词检测和敏感词转换处理,得到第二脱敏处理后聊天数据以作为当前聊天数据,并将所述第二脱敏处理后聊天数据根据对应用户声音特征进行文本转语音以得到处理后聊天数据;
将所述当前聊天数据与对应用户端的用户ID绑定后存储在本地的第一存储区域;
获取当前***时间,判断当前***时间与上一聊天数据分析时间之间的时间间隔是否等于预设的聊天数据分析时间周期;
若当前***时间与上一聊天数据分析时间之间的时间间隔等于所述聊天数据分析时间周期,获取所述第一存储区域中当前已存储的聊天数据集,将所述聊天数据集进行文本聚类,得到对应的聊天数据聚类结果;其中,所述聊天数据聚类结果中包括若干个聊天数据聚类簇;
获取所述聊天数据聚类结果中各聊天数据聚类簇分别对应的文本主题;
若有聊天数据聚类簇对应的文本主题与预设的目标主题清单中的目标主题之间的文本相似度超出预设的相似度阈值,获取对应的文本主题所相应聊天数据聚类簇作为目标聊天数据聚类簇,组成目标聊天数据聚类簇集;以及
获取与各目标聊天数据聚类簇的文本主题分别对应的推广文本数据,组成待推送文本数据集。
第二方面,本发明实施例提供了一种基于用户聊天内容分析的信息推送装置,其包括:
聊天数据类型获取单元,用于若检测到用户端在进入预设场景上传的聊天数据,获取所述聊天数据的数据类型;
类型判断单元,用于判断所述数据类型是语音类型或是文本类型;
第一脱敏处理单元,用于若所述数据类型是文本类型,将所述聊天数据进行敏感词检测和敏感词转换处理,得到第一脱敏处理后聊天数据以作为当前聊天数据;
第二脱敏处理单元,用于若所述数据类型是语音类型,将所述聊天数据进行语音文本提取、敏感词检测和敏感词转换处理,得到第二脱敏处理后聊天数据以作为当前聊天数据,并将所述第二脱敏处理后聊天数据根据对应用户声音特征进行文本转语音以得到处理后聊天数据;
数据存储单元,用于将所述当前聊天数据与对应用户端的用户ID绑定后存储在本地的第一存储区域;
时间判断单元,用于获取当前***时间,判断当前***时间与上一聊天数据分析时间之间的时间间隔是否等于预设的聊天数据分析时间周期;
文本聚类单元,用于若当前***时间与上一聊天数据分析时间之间的时间间隔等于所述聊天数据分析时间周期,获取所述第一存储区域中当前已存储的聊天数据集,将所述聊天数据集进行文本聚类,得到对应的聊天数据聚类结果;其中,所述聊天数据聚类结果中包括若干个聊天数据聚类簇;
文本主题抽取单元,用于获取所述聊天数据聚类结果中各聊天数据聚类簇分别对应的文本主题;
目标聚类簇获取单元,用于若有聊天数据聚类簇对应的文本主题与预设的目标主题清单中的目标主题之间的文本相似度超出预设的相似度阈值,获取对应的文本主题所相应聊天数据聚类簇作为目标聊天数据聚类簇,组成目标聊天数据聚类簇集;以及
待推送文本获取单元,用于获取与各目标聊天数据聚类簇的文本主题分别对应的推广文本数据,组成待推送文本数据集。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于用户聊天内容分析的信息推送方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于用户聊天内容分析的信息推送方法。
本发明实施例提供了一种基于用户聊天内容分析的信息推送方法及其相关设备,是基于用户进入预设场景所上传的聊天数据进行内容分析后快速得到聊天数据聚类结果,并基于聊天数据聚类结果获取符合条件的聚类簇及其对应的文本主题组成目标聊天数据聚类簇集,最终根据各目标聊天数据聚类簇的文本主题分别获取对应的推广文本数据以进行信息推送,实现了基于用户聊天数据的自动语义分析快速获取对应的推广文本数据集,无需人工干预,提高了数据处理效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于用户聊天内容分析的信息推送方法的应用场景示意图;
图2为本发明实施例提供的基于用户聊天内容分析的信息推送方法的流程示意图;
图3为本发明实施例提供的基于用户聊天内容分析的信息推送装置的示意性框图;
图4为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
为了更清楚的理解本申请的技术方案,下面对所涉及的执行主体进行详细介绍。下文是以服务器为执行主体描述技术方案。
用户端,其为智能手机、平板电脑、笔记本电脑等智能终端。用户可操作用户端安装指定的应用程序或客户端(如XXX游戏客户端,YYY聊天室客户端等),当用户启动该应用程序或客户端后即可进入预设场景,在该预设场景中,用户在聊天窗口输入聊天数据(如文本类型的聊天数据,或是语音类型的聊天数据)后,可将聊天数据发送至服务器进行存储和用户聊天内容分析。
服务器,其可接收多个用户端分别上传的聊天数据,分别对聊天数据进行脱敏处理、绑定ID后本地存储、聊天文本聚类分析、热门聚类簇的文本主题提取及推广文本数据获取后,即可基于用户聊天内容分析出可进行推广的文本并推送至用户端进行查看。
请参阅图1和图2,图1为本发明实施例提供的基于用户聊天内容分析的信息推送方法的应用场景示意图;图2为本发明实施例提供的基于用户聊天内容分析的信息推送方法的流程示意图,该方法通过安装于服务器中的应用软件进行执行。
如图2所示,该方法包括步骤S101~S110。
S101、若检测到用户端在进入预设场景上传的聊天数据,获取所述聊天数据的数据类型。
在本实施例中,当用户操作用户端启动并登录进入用户端中安装的指定应用程序或客户端,即可进入预设场景,在该预设场景中,用户在聊天窗口输入聊天数据(如文本类型的聊天数据,或是语音类型的聊天数据)后,可将聊天数据发送至服务器进行存储和用户聊天内容分析。当服务器接收到用户端发送的聊天内容后,即可快速分析其数据类型以进行后一步的数据处理。
S102、判断所述数据类型是语音类型或是文本类型。
在本实施例中,用户端发送聊天数据的数据类型一般为两大类:即语音类型或文本类型。也即用户可以向服务器发送语音信息或是文本信息,服务器可以快速的根据聊天数据的数据文件后缀判定数据类型,一般文本类型的数据文件后缀为txt,语音类型是的数据文件后缀为mp3。通过这一判断可以快速确定后续的数据脱敏处理策略。
S103、若所述数据类型是文本类型,将所述聊天数据进行敏感词检测和敏感词转换处理,得到第一脱敏处理后聊天数据以作为当前聊天数据。
在本实施例中,若所述数据类型是文本类型,表示用户是编辑的文本类型的聊天数据并发送至服务器,并由服务器进行脱敏处理后转发至其他用户端共同查看。服务器对文本类型的聊天数据进行脱敏处理时,可以调用在服务器中预先设置的敏感词词库,并基于敏感词词库进行敏感词检测。通过这一文本脱敏处理方式,能快速的对敏感文本进行转化后发送至用户端进行显示。
其中,服务器中预先设置的敏感词词库包括:Politics子词库、违禁品子词库、辱骂词子词库、违规网站子词库、骚扰广告子词库、突发事件子词库、色情子词库、赌博子词库等。通过在服务器中预先设置这些敏感词,可以快速的基于敏感词词库对聊天文本进行敏感词检测。
在一实施例中,步骤S103包括:
将所述聊天数据进行分词,得到第一分词结果;其中,所述第一分词结果中包括若干个分词;
将所述第一分词结果中的每一分词均进行敏感词检测,以判断所述第一分词结果中是否存在有敏感词;
若所述第一分词结果中存在有敏感词,获取对应的敏感词组成第一目标敏感词集;
调用预先训练的敏感词分类模型,将所述第一目标敏感词集中每一敏感词均输入至所述敏感词分类模型中,获取所述第一目标敏感词集中每一敏感词分别对应的敏感词等级;
若所述第一目标敏感词集中每一敏感词无敏感词对应的敏感词等级高于预设的敏感词等级阈值,将所述第一目标敏感词集中每一目标敏感词均通过拼音首字母替换,得到与每一目标敏感词对应的第一敏感词转换结果;
将所述聊天数据中与所述第一目标敏感词集中相同的各词语通过对应的第一敏感词转换结果进行替换,得到第一脱敏处理后聊天数据以作为当前聊天数据。
在本实施例中,可以通过基于概率统计分词模型对文本类型的聊天数据进行分词处理,得到第一分词结果;其中,所述第一分词结果中包括若干个分词。之后可以将第一分词结果中的每一分词基于与敏感词词库的比对来判定是否属于敏感词,若所述第一分词结果中存在有敏感词,获取对应的敏感词组成第一目标敏感词集(例如第一分词结果中存在1个归属于骚扰广告子词库的敏感词)。若所述第一分词结果中不存在有敏感词,则所述聊天数据作为当前聊天数据。
为了避免该敏感词直接文本显示带来的不良影响,可以获取第一目标敏感词集中每一目标敏感词,通过预先训练的敏感词分类模型获取所述第一目标敏感词集中每一敏感词分别对应的敏感词等级(具体实施时敏感词分类模型可以采用卷积神经网络,将所述第一目标敏感词集中每一敏感词对应的词向量输入至所述敏感词分类模型即可获取所述第一目标敏感词集中每一敏感词分别对应的敏感词等级,例如所述第一目标敏感词集中有敏感词对应的敏感词等级为1则表示该敏感词是一级敏感度等级的敏感词)。
为了对不同敏感词等级的敏感词进行不同的处理策略,可以先判断所述第一目标敏感词集中是否有敏感词对应的敏感词等级高于预设的敏感词等级阈值(例如将敏感词等级设置为3)。若所述第一目标敏感词集中无敏感词对应的敏感词等级高于所述敏感词等级阈值,表示所述第一目标敏感词集中各敏感词对应的敏感词等级并不是特别高,此时可以将所述第一目标敏感词集中每一目标敏感词包括的文字字符均通过其对应的拼音首字母替换,得到与每一目标敏感词对应的第一敏感词转换结果,这与现有常用的将敏感词用*替换的方式相比,优势在于可以基于由拼音首字母替换的敏感词有效提示用户原始的聊天数据。
若所述第一目标敏感词集中有敏感词对应的敏感词等级高于所述敏感词等级阈值,表示所述第一目标敏感词集中有敏感词对应的敏感词等级特别高,此时需要将对应的敏感词进行屏蔽处理并用与敏感词字符个数相同的脱敏字符进行替代,以实现脱敏处理。例如在第一目标敏感词集中有由“AB”2个字符组成的敏感词,此时可以将“AB”替换为“!!”或“**”等以进行脱敏处理。通过这一方式,对敏感等级较高的敏感词也采用现有技术一样的屏蔽处理,能有效过滤敏感词。
S104、若所述数据类型是语音类型,将所述聊天数据进行语音文本提取、敏感词检测和敏感词转换处理,得到第二脱敏处理后聊天数据以作为当前聊天数据,并将所述第二脱敏处理后聊天数据根据对应用户声音特征进行文本转语音以得到处理后聊天数据。
在本实施例中,若所述数据类型是语音类型,表示用户是编辑的语音类型的聊天数据并发送至服务器,此时服务器需要先进行语音文本提取(例如基于服务器中存储的N-gram模型进行语音识别和文本提取,其中N-gram模型是多元模型)得到提取文本数据,并由服务器对提取文本数据进行脱敏处理后转发至其他用户端共同查看。服务器对语音类型的聊天数据转化为文本数据后进行脱敏处理时,也可以调用在服务器中预先设置的敏感词词库,并基于敏感词词库进行敏感词检测。通过这一语音脱敏处理方式,能快速的对敏感文本进行转化后发送至用户端进行显示。
在一实施例中,步骤S104包括:
将所述聊天数据通过语音识别模型进行文本识别,得到文本识别结果;
所述文本识别结果进行分词,得到第二分词结果;其中,所述第二分词结果中包括若干个分词;
将所述第二分词结果中的每一分词均进行敏感词检测,以判断所述第二分词结果中是否存在有敏感词;
若所述第二分词结果中存在有敏感词,获取对应的敏感词组成第二目标敏感词集;
将所述第二目标敏感词集中每一目标敏感词均通过拼音首字母替换,得到与每一目标敏感词对应的第二敏感词转换结果;
将所述文本识别结果中与所述第二目标敏感词集中相同的各词语通过对应的第二敏感词转换结果进行替换,得到第二脱敏处理后聊天数据以作为当前聊天数据;
获取所述用户端对应的用户身份信息,及与所述用户身份信息对应用户声音特征;
通过所述用户声音特征对所述第二脱敏处理后聊天数据进行语音合成,得到处理后聊天数据。
在本实施例中,先基于N-gram模型将所述聊天数据通过语音识别模型进行文本识别得到文本识别结果,然后通过基于概率统计分词模型对文本识别结果进行分词处理,得到第二分词结果;其中,所述第二分词结果中包括若干个分词。之后可以将第二分词结果中的每一分词基于与敏感词词库的比对来判定是否属于敏感词,若所述第二分词结果中存在有敏感词,获取对应的敏感词组成第一目标敏感词集(例如第二分词结果中存在2个辱骂子词库的敏感词),为了避免敏感词直接文本显示带来的不良影响,可以获取第二目标敏感词集中每一目标敏感词,将每一目标敏感词包括的文字字符均通过其对应的拼音首字母替换,得到与每一目标敏感词对应的第二敏感词转换结果,通过这一脱敏处理,避免了文本中存在不良影响的敏感词。若所述第二分词结果中不存在有敏感词,则所述文本识别结果作为当前聊天数据。
由于之后为了还原该用户的语音信息,可以基于服务器之前采集到该用户端对应用户的首条语音数据时进行用户声音特征提取(例如提取用户的音色特征、声纹特征等),在之后服务器再接收到用户发送的其他聊天数据时,可以基于之前提取的用户声音特征及进行脱敏处理的第二脱敏处理后聊天数据进行语音合成,得到处理后聊天数据。该处理后聊天数据发送至用户端进行收听,可以有效避免敏感词带来的负面影响。
S105、将所述当前聊天数据与对应用户端的用户ID绑定后存储在本地的第一存储区域。
在本实施例中,当在服务器中完成了对聊天数据的脱敏处理后,此时可先获取该用户端对应的且为唯一ID的用户ID(可以理解为用户端登录账号),然后将所述当前聊天数据与对应用户端的用户ID绑定后存储在本地的第一存储区域,在第一存储区域中存储的当前聊天数据会被服务器定期提取后进行聊天内容分析。
S106、获取当前***时间,判断当前***时间与上一聊天数据分析时间之间的时间间隔是否等于预设的聊天数据分析时间周期。
在本实施例中,之所以判断当前***时间与上一聊天数据分析时间之间的时间间隔是否等于预设的聊天数据分析时间周期,是为了确定此时是否又到了相对应上一次聊天内容分析而言的下一次聊天内容分析时间。若当前***时间与上一聊天数据分析时间之间的时间间隔等于所述聊天数据分析时间周期,即可启动此次的聊天数据分析;若当前***时间与上一聊天数据分析时间之间的时间间隔小于所述聊天数据分析时间周期,继续返回执行若检测到用户端在进入预设场景上传的聊天数据,获取所述聊天数据的数据类型的步骤。
S107、若当前***时间与上一聊天数据分析时间之间的时间间隔等于所述聊天数据分析时间周期,获取所述第一存储区域中当前已存储的聊天数据集,将所述聊天数据集进行文本聚类,得到对应的聊天数据聚类结果;其中,所述聊天数据聚类结果中包括若干个聊天数据聚类簇。
在本实施例中,若当前***时间与上一聊天数据分析时间之间的时间间隔等于所述聊天数据分析时间周期(例如将聊天数据分析时间周期设置为一日、一周或是一月等均可,该聊天数据分析时间周期可根据实际需求自定义设置),表示可以进行此次的聊天内容分析。服务器上一次结束对第一存储区域中已存储的聊天数据集的聊天内容分析后,将第一存储区域中已存储的聊天数据集可以转存至第二存储区域并将第一存储区域清空。这样每一个聊天数据分析周期只是针对第一存储区域中存储的近期采集的聊天数据进行分析,有效的降低了数据处理量,提高了数据处理效率。
若当前***时间与上一聊天数据分析时间之间的时间间隔不等于所述聊天数据分析时间周期,等待直至当前***时间与上一聊天数据分析时间之间的时间间隔等于所述聊天数据分析时间周期时再执行步骤S107。
在一实施例中,步骤S107包括:
获取所述聊天数据集中每一聊天数据对应的语义向量;
获取所述聊天数据集所对应各语义向量之间的欧式距离以进行K-means聚类,得到聊天数据聚类结果。
在本实施例中,通过将聊天数据集中的每一聊天数据均转化为语义向量后,即可基于向量聚类的方法(如K-均值聚类算法)对聊天数据集中聊天数据进行聚类处理,从而快速的得到与预设的聚类簇个数相同的聊天数据聚类结果。对向量进行K-means聚类是现有技术,此处不再展开赘述。
S108、获取所述聊天数据聚类结果中各聊天数据聚类簇分别对应的文本主题。
在本实施例中,为了快速的获取在本次聊天数据分析时间周期中采集的聊天数据的核心主题集,可以分析所述聊天数据聚类结果中各聊天数据聚类簇分别对应的文本主题,然后在这些提取的文本主题中筛选出服务器预期设定需要推广相关主题的活动文本,即可实现用户聊天内容所关注相关活动的精准推送。
在一实施例中,步骤S108包括:
获取第i组聊天数据聚类结果中包括的聊天数据;其中,i的初始取值为1;
将第i组聊天数据聚类结果中各聊天数据均输入至预先训练的LDA模型进行主题抽取,得到与各聊天数据分别对应的主题抽取结果;其中,所述LDA模型为文档-主题生成模型;
获取第i组聊天数据聚类结果所对应的各主题抽取结果中词频为最大值的主题抽取结果,以作为第i组聊天数据聚类结果对应的文本主题;
将i自增1以更新i的取值,判断i是否超出N;其中,N表示所述聊天数据聚类结果中所包括聊天数据聚类簇的总个数;
若i未超出N,将第i组聊天数据聚类结果对应的文本主题进行保存,并返回执行所述获取第i组聊天数据聚类结果中包括的聊天数据的步骤;
若i超出N,获取第1组聊天数据聚类结果至第i-1组聊天数据聚类结果分别对应的文本主题,以得到所述聊天数据聚类结果中各聊天数据聚类簇分别对应的文本主题。
在本实施例中,是对所述聊天数据聚类结果中所包括的N个聊天数据聚类簇分别进行文本主题提取处理,从而可以快速的得到所述聊天数据聚类结果中各聊天数据聚类簇分别对应的文本主题。在对各聊天数据聚类簇分别对应的文本主题时,采用文档-主题生成模型进行每一聊天数据的主题提取,可以使得提取结果更快速和准确。
例如,在获取了第1组聊天数据聚类结果中包括的聊天数据后,可以统计第1组聊天数据聚类结果中包括的N1条聊天记录,此时将上述N1条聊天记录均输入至LDA模型,得到了第1组聊天数据聚类结果各聊天数据分别对应的主题抽取结果。此时再获取第1组聊天数据聚类结果所对应的各主题抽取结果中词频为最大值的主题抽取结果,以作为第1组聊天数据聚类结果对应的文本主题,通过这一方式统计获取了第1组聊天数据聚类结果对应的文本主题后,之后其他各组的文本主题获取方式可以参照第1组聊天数据聚类结果的文本主题的确定方式。当完成了所述聊天数据聚类结果中各聊天数据聚类簇分别对应的文本主题的获取后,即可获知聊天数据聚类结果所集中关注的主要信息,这样服务器能更有针对性的推送相关关联度更高的信息。
S109、若有聊天数据聚类簇对应的文本主题与预设的目标主题清单中的目标主题之间的文本相似度超出预设的相似度阈值,获取对应的文本主题所相应聊天数据聚类簇作为目标聊天数据聚类簇,组成目标聊天数据聚类簇集。
在本实施例中,由于已知了各聊天数据聚类簇对应的文本主题,而且在服务器中预先存储了由若干目标主题组成的目标主题清单(目标主题清单中每一目标主题均对应设置了一个推广文本数据,例如推广文本数据是与目标主题相对应的用户优惠活动推广文本),此时将各聊天数据聚类簇对应的文本主题分别与目标主题清单中的各目标主题计算两者之间的文本相似度(例如,计算两个主题之间的文本相似度可以通过先分别获取两个主题分别对应的词向量,之后再计算这两个词向量之间的欧式距离以作为两个文本之间的相似度),最后若有聊天数据聚类簇对应的文本主题与所述目标主题清单中的目标主题之间的文本相似度超出预设的相似度阈值,则获取对应的文本主题所相应聊天数据聚类簇作为目标聊天数据聚类簇,组成目标聊天数据聚类簇集。通过这一方式可以筛选中用户聊天数据中的热门话题(该热门话题也为服务器对应的运营商待推广的热门活动),从而可以基于热门话题向用户推送所关注的推广文本。
其中,若没有聊天数据聚类簇对应的文本主题与预设的目标主题清单中的目标主题之间的文本相似度超出预设的相似度阈值,表示用户聊天内容中所关注的核心主题没有在服务器中预先存储的目标主题清单中有相似主题,此时服务器将所述聊天数据聚类结果中各聊天数据聚类簇分别对应的文本主题发送至目标接收终端(该目标接收终端可以理解为运营商的策划人员所使用的智能终端),以及时提示目标接收终端对应的使用人员根据各聊天数据聚类簇分别对应的文本主题编辑待推广文本。
在一实施例中,作为步骤S109的替代执行方案,步骤S109可以替换为:
获取与各文本主题分别对应的待审核推广文本数据,若各待审核推广文本数据均通过敏感词验证,将各待审核推广文本数据均作为与各目标聊天数据聚类簇的文本主题分别对应的推广文本数据。
在本实施例中,步骤S109的第一实施方式是参考步骤S109,也就是通过判断用户聊天内容中关注的热门文本主题是否有与服务器待推广文本有相同主题,若用户聊天内容中关注的热门文本与服务器待推广文本有相同主题,则获取热门文本主题对应的推广文本数据。在具体实施步骤S109还可以采用另一替代执行方式,即将用户聊天内容中所关注的各文本主题在服务器中均可以对应设置待审核推广文本数据,这样可以对用户关注的所有文本主题均对应推送推广文本数据,实现对用户关注内容的及时信息反馈。
S110、获取与各目标聊天数据聚类簇的文本主题分别对应的推广文本数据,组成待推送文本数据集。
在本实施例中,当完成了对各目标聊天数据聚类簇的文本主题分别对应的推广文本数据的获取之后,由这些推广文本数据组成待推送文本数据集,之后在服务器中根据预设的推送策略(例如将待推送文本数据集在每周三上午十点进行推送)将待推送文本数据集发送至用户端以实现信息分发推送。
在一实施例中,步骤S110之后,还包括:
将待推送文本数据集发送至用户端;
接收用户端根据所述待推送文本数据集发送的文本评价信息。
在本实施例中,当服务器将将待推送文本数据集发送至用户端之后,用户可以在用户端上查看待推送文本数据集,并针对每所述待推送文本数据集中每一待推送文本数据进行文本评价(例如针对每一待推送文本数据编辑一段评价文本发送至服务器),这样当服务器接收用户端根据所述待推送文本数据集发送的文本评价信息,即可及时的获取用户针对待推送文本数据的信息反馈。
在一实施例中,步骤S110之后,还包括:
获取所述待推送文本数据集中各待推送文本数据分别对应的解说视频数据,将各待推送文本数据分别对应的解说视频数据对应的视频链接发送至用户端。
在本实施例中,为了帮助用户更快速的了解各待推送文本数据的核心内容,服务器端可以针对各待推送文本数据分别录制相关活动的解说视频数据,且每一解说视频数据都会对应生成一个视频链接。这样将各待推送文本数据分别对应的解说视频数据对应的视频链接发送至用户端后,用户可以根据自身需求点击快速查看解说视频,提高用户正确获取信息的效率。
该方法实现了基于用户聊天数据的自动语义分析快速获取对应的推广文本数据集,无需人工干预,提高了数据处理效率。
本发明实施例还提供一种基于用户聊天内容分析的信息推送装置,该基于用户聊天内容分析的信息推送装置用于执行前述基于用户聊天内容分析的信息推送方法的任一实施例。具体地,请参阅图3,图3是本发明实施例提供的基于用户聊天内容分析的信息推送装置的示意性框图。该基于用户聊天内容分析的信息推送装置100可以配置于服务器中。
如图3所示,基于用户聊天内容分析的信息推送装置100包括:聊天数据类型获取单元101、类型判断单元102、第一脱敏处理单元103、第二脱敏处理单元104、数据存储单元105、时间判断单元106、文本聚类单元107、文本主题抽取单元108、目标聚类簇获取单元109、待推送文本获取单元110。
其中,聊天数据类型获取单元101,用于若检测到用户端在进入预设场景上传的聊天数据,获取所述聊天数据的数据类型。
在本实施例中,当用户操作用户端启动并登录进入用户端中安装的指定应用程序或客户端,即可进入预设场景,在该预设场景中,用户在聊天窗口输入聊天数据(如文本类型的聊天数据,或是语音类型的聊天数据)后,可将聊天数据发送至服务器进行存储和用户聊天内容分析。当服务器接收到用户端发送的聊天内容后,即可快速分析其数据类型以进行后一步的数据处理。
类型判断单元102,用于判断所述数据类型是语音类型或是文本类型。
在本实施例中,用户端发送聊天数据的数据类型一般为两大类:即语音类型或文本类型。也即用户可以向服务器发送语音信息或是文本信息,服务器可以快速的根据聊天数据的数据文件后缀判定数据类型,一般文本类型的数据文件后缀为txt,语音类型是的数据文件后缀为mp3。通过这一判断可以快速确定后续的数据脱敏处理策略。
第一脱敏处理单元103,用于若所述数据类型是文本类型,将所述聊天数据进行敏感词检测和敏感词转换处理,得到第一脱敏处理后聊天数据以作为当前聊天数据。
在本实施例中,若所述数据类型是文本类型,表示用户是编辑的文本类型的聊天数据并发送至服务器,并由服务器进行脱敏处理后转发至其他用户端共同查看。服务器对文本类型的聊天数据进行脱敏处理时,可以调用在服务器中预先设置的敏感词词库,并基于敏感词词库进行敏感词检测。通过这一文本脱敏处理方式,能快速的对敏感文本进行转化后发送至用户端进行显示。
其中,服务器中预先设置的敏感词词库包括:Politics子词库、违禁品子词库、辱骂词子词库、违规网站子词库、骚扰广告子词库、突发事件子词库、色情子词库、赌博子词库等。通过在服务器中预先设置这些敏感词,可以快速的基于敏感词词库对聊天文本进行敏感词检测。
在一实施例中,第一脱敏处理单元103包括:
第一分词单元,用于将所述聊天数据进行分词,得到第一分词结果;其中,所述第一分词结果中包括若干个分词;
第一敏感词检测单元,用于将所述第一分词结果中的每一分词均进行敏感词检测,以判断所述第一分词结果中是否存在有敏感词;
第一敏感词集获取单元,用于若所述第一分词结果中存在有敏感词,获取对应的敏感词组成第一目标敏感词集;
敏感词等级获取单元,用于调用预先训练的敏感词分类模型,将所述第一目标敏感词集中每一敏感词均输入至所述敏感词分类模型中,获取所述第一目标敏感词集中每一敏感词分别对应的敏感词等级;
第一敏感词转换单元,用于若所述第一目标敏感词集中每一敏感词无敏感词对应的敏感词等级高于预设的敏感词等级阈值,将所述第一目标敏感词集中每一目标敏感词均通过拼音首字母替换,得到与每一目标敏感词对应的第一敏感词转换结果;
第一脱敏结果获取单元,用于将所述聊天数据中与所述第一目标敏感词集中相同的各词语通过对应的第一敏感词转换结果进行替换,得到第一脱敏处理后聊天数据以作为当前聊天数据。
在本实施例中,可以通过基于概率统计分词模型对文本类型的聊天数据进行分词处理,得到第一分词结果;其中,所述第一分词结果中包括若干个分词。之后可以将第一分词结果中的每一分词基于与敏感词词库的比对来判定是否属于敏感词,若所述第一分词结果中存在有敏感词,获取对应的敏感词组成第一目标敏感词集(例如第一分词结果中存在1个归属于骚扰广告子词库的敏感词)。
为了避免该敏感词直接文本显示带来的不良影响,可以获取第一目标敏感词集中每一目标敏感词,通过预先训练的敏感词分类模型获取所述第一目标敏感词集中每一敏感词分别对应的敏感词等级(具体实施时敏感词分类模型可以采用卷积神经网络,将所述第一目标敏感词集中每一敏感词对应的词向量输入至所述敏感词分类模型即可获取所述第一目标敏感词集中每一敏感词分别对应的敏感词等级,例如所述第一目标敏感词集中有敏感词对应的敏感词等级为1则表示该敏感词是一级敏感度等级的敏感词)。
为了对不同敏感词等级的敏感词进行不同的处理策略,可以先判断所述第一目标敏感词集中是否有敏感词对应的敏感词等级高于预设的敏感词等级阈值(例如将敏感词等级设置为3)。若所述第一目标敏感词集中无敏感词对应的敏感词等级高于所述敏感词等级阈值,表示所述第一目标敏感词集中各敏感词对应的敏感词等级并不是特别高,此时可以将所述第一目标敏感词集中每一目标敏感词包括的文字字符均通过其对应的拼音首字母替换,得到与每一目标敏感词对应的第一敏感词转换结果,这与现有常用的将敏感词用*替换的方式相比,优势在于可以基于由拼音首字母替换的敏感词有效提示用户原始的聊天数据。
若所述第一目标敏感词集中有敏感词对应的敏感词等级高于所述敏感词等级阈值,表示所述第一目标敏感词集中有敏感词对应的敏感词等级特别高,此时需要将对应的敏感词进行屏蔽处理并用与敏感词字符个数相同的脱敏字符进行替代,以实现脱敏处理。例如在第一目标敏感词集中有由“AB”2个字符组成的敏感词,此时可以将“AB”替换为“!!”或“**”等以进行脱敏处理。通过这一方式,对敏感等级较高的敏感词也采用现有技术一样的屏蔽处理,能有效过滤敏感词。
第二脱敏处理单元104,用于若所述数据类型是语音类型,将所述聊天数据进行语音文本提取、敏感词检测和敏感词转换处理,得到第二脱敏处理后聊天数据以作为当前聊天数据,并将所述第二脱敏处理后聊天数据根据对应用户声音特征进行文本转语音以得到处理后聊天数据。
在本实施例中,若所述数据类型是语音类型,表示用户是编辑的语音类型的聊天数据并发送至服务器,此时服务器需要先进行语音文本提取(例如基于服务器中存储的N-gram模型进行语音识别和文本提取,其中N-gram模型是多元模型)得到提取文本数据,并由服务器对提取文本数据进行脱敏处理后转发至其他用户端共同查看。服务器对语音类型的聊天数据转化为文本数据后进行脱敏处理时,也可以调用在服务器中预先设置的敏感词词库,并基于敏感词词库进行敏感词检测。通过这一语音脱敏处理方式,能快速的对敏感文本进行转化后发送至用户端进行显示。
在一实施例中,第二脱敏处理单元104括:
文本识别单元,用于将所述聊天数据通过语音识别模型进行文本识别,得到文本识别结果;
第二分词单元,用于所述文本识别结果进行分词,得到第二分词结果;其中,所述第二分词结果中包括若干个分词;
第二敏感词检测单元,用于将所述第二分词结果中的每一分词均进行敏感词检测,以判断所述第二分词结果中是否存在有敏感词;
第二敏感词集获取单元,用于若所述第二分词结果中存在有敏感词,获取对应的敏感词组成第二目标敏感词集;
第二敏感词转换单元,用于将所述第二目标敏感词集中每一目标敏感词均通过拼音首字母替换,得到与每一目标敏感词对应的第二敏感词转换结果;
第二脱敏结果获取单元,用于将所述文本识别结果中与所述第二目标敏感词集中相同的各词语通过对应的第二敏感词转换结果进行替换,得到第二脱敏处理后聊天数据以作为当前聊天数据;
用户声音特征获取单元,用于获取所述用户端对应的用户身份信息,及与所述用户身份信息对应用户声音特征;
语音合成单元,用于通过所述用户声音特征对所述第二脱敏处理后聊天数据进行语音合成,得到处理后聊天数据。
在本实施例中,先基于N-gram模型将所述聊天数据通过语音识别模型进行文本识别得到文本识别结果,然后通过基于概率统计分词模型对文本识别结果进行分词处理,得到第二分词结果;其中,所述第二分词结果中包括若干个分词。之后可以将第二分词结果中的每一分词基于与敏感词词库的比对来判定是否属于敏感词,若所述第二分词结果中存在有敏感词,获取对应的敏感词组成第一目标敏感词集(例如第二分词结果中存在2个辱骂子词库的敏感词),为了避免敏感词直接文本显示带来的不良影响,可以获取第二目标敏感词集中每一目标敏感词,将每一目标敏感词包括的文字字符均通过其对应的拼音首字母替换,得到与每一目标敏感词对应的第二敏感词转换结果,通过这一脱敏处理,避免了文本中存在不良影响的敏感词。
由于之后为了还原该用户的语音信息,可以基于服务器之前采集到该用户端对应用户的首条语音数据时进行用户声音特征提取(例如提取用户的音色特征、声纹特征等),在之后服务器再接收到用户发送的其他聊天数据时,可以基于之前提取的用户声音特征及进行脱敏处理的第二脱敏处理后聊天数据进行语音合成,得到处理后聊天数据。该处理后聊天数据发送至用户端进行收听,可以有效避免敏感词带来的负面影响。
数据存储单元105,用于将所述当前聊天数据与对应用户端的用户ID绑定后存储在本地的第一存储区域。
在本实施例中,当在服务器中完成了对聊天数据的脱敏处理后,此时可先获取该用户端对应的且为唯一ID的用户ID(可以理解为用户端登录账号),然后将所述当前聊天数据与对应用户端的用户ID绑定后存储在本地的第一存储区域,在第一存储区域中存储的当前聊天数据会被服务器定期提取后进行聊天内容分析。
时间判断单元106,用于获取当前***时间,判断当前***时间与上一聊天数据分析时间之间的时间间隔是否等于预设的聊天数据分析时间周期。
在本实施例中,之所以判断当前***时间与上一聊天数据分析时间之间的时间间隔是否等于预设的聊天数据分析时间周期,是为了确定此时是否又到了相对应上一次聊天内容分析而言的下一次聊天内容分析时间。若当前***时间与上一聊天数据分析时间之间的时间间隔等于所述聊天数据分析时间周期,即可启动此次的聊天数据分析;若当前***时间与上一聊天数据分析时间之间的时间间隔小于所述聊天数据分析时间周期,继续返回执行若检测到用户端在进入预设场景上传的聊天数据,获取所述聊天数据的数据类型的步骤。
文本聚类单元107,用于若当前***时间与上一聊天数据分析时间之间的时间间隔等于所述聊天数据分析时间周期,获取所述第一存储区域中当前已存储的聊天数据集,将所述聊天数据集进行文本聚类,得到对应的聊天数据聚类结果;其中,所述聊天数据聚类结果中包括若干个聊天数据聚类簇。
在本实施例中,若当前***时间与上一聊天数据分析时间之间的时间间隔等于所述聊天数据分析时间周期(例如将聊天数据分析时间周期设置为一日、一周或是一月等均可,该聊天数据分析时间周期可根据实际需求自定义设置),表示可以进行此次的聊天内容分析。服务器上一次结束对第一存储区域中已存储的聊天数据集的聊天内容分析后,将第一存储区域中已存储的聊天数据集可以转存至第二存储区域并将第一存储区域清空。这样每一个聊天数据分析周期只是针对第一存储区域中存储的近期采集的聊天数据进行分析,有效的降低了数据处理量,提高了数据处理效率。
在一实施例中,文本聚类单元107包括:
语义向量获取单元,用于获取所述聊天数据集中每一聊天数据对应的语义向量;
语义向量聚类单元,用于获取所述聊天数据集所对应各语义向量之间的欧式距离以进行K-means聚类,得到聊天数据聚类结果。
在本实施例中,通过将聊天数据集中的每一聊天数据均转化为语义向量后,即可基于向量聚类的方法(如K-均值聚类算法)对聊天数据集中聊天数据进行聚类处理,从而快速的得到与预设的聚类簇个数相同的聊天数据聚类结果。对向量进行K-means聚类是现有技术,此处不再展开赘述。
文本主题抽取单元108,用于获取所述聊天数据聚类结果中各聊天数据聚类簇分别对应的文本主题。
在本实施例中,为了快速的获取在本次聊天数据分析时间周期中采集的聊天数据的核心主题集,可以分析所述聊天数据聚类结果中各聊天数据聚类簇分别对应的文本主题,然后在这些提取的文本主题中筛选出服务器预期设定需要推广相关主题的活动文本,即可实现用户聊天内容所关注相关活动的精准推送。
在一实施例中,文本主题抽取单元108包括:
分组聊天数据获取单元,用于获取第i组聊天数据聚类结果中包括的聊天数据;其中,i的初始取值为1;
LDA主题抽取单元,用于将第i组聊天数据聚类结果中各聊天数据均输入至预先训练的LDA模型进行主题抽取,得到与各聊天数据分别对应的主题抽取结果;其中,所述LDA模型为文档-主题生成模型;
词频统计单元,用于获取第i组聊天数据聚类结果所对应的各主题抽取结果中词频为最大值的主题抽取结果,以作为第i组聊天数据聚类结果对应的文本主题;
分组号更新单元,用于将i自增1以更新i的取值,判断i是否超出N;其中,N表示所述聊天数据聚类结果中所包括聊天数据聚类簇的总个数;
第一处理单元,用于若i未超出N,将第i组聊天数据聚类结果对应的文本主题进行保存,并返回执行所述获取第i组聊天数据聚类结果中包括的聊天数据的步骤;
第二处理单元,用于若i超出N,获取第1组聊天数据聚类结果至第i-1组聊天数据聚类结果分别对应的文本主题,以得到所述聊天数据聚类结果中各聊天数据聚类簇分别对应的文本主题。
在本实施例中,是对所述聊天数据聚类结果中所包括的N个聊天数据聚类簇分别进行文本主题提取处理,从而可以快速的得到所述聊天数据聚类结果中各聊天数据聚类簇分别对应的文本主题。在对各聊天数据聚类簇分别对应的文本主题时,采用文档-主题生成模型进行每一聊天数据的主题提取,可以使得提取结果更快速和准确。
例如,在获取了第1组聊天数据聚类结果中包括的聊天数据后,可以统计第1组聊天数据聚类结果中包括的N1条聊天记录,此时将上述N1条聊天记录均输入至LDA模型,得到了第1组聊天数据聚类结果各聊天数据分别对应的主题抽取结果。此时再获取第1组聊天数据聚类结果所对应的各主题抽取结果中词频为最大值的主题抽取结果,以作为第1组聊天数据聚类结果对应的文本主题,通过这一方式统计获取了第1组聊天数据聚类结果对应的文本主题后,之后其他各组的文本主题获取方式可以参照第1组聊天数据聚类结果的文本主题的确定方式。当完成了所述聊天数据聚类结果中各聊天数据聚类簇分别对应的文本主题的获取后,即可获知聊天数据聚类结果所集中关注的主要信息,这样服务器能更有针对性的推送相关关联度更高的信息。
目标聚类簇获取单元109,用于若有聊天数据聚类簇对应的文本主题与预设的目标主题清单中的目标主题之间的文本相似度超出预设的相似度阈值,获取对应的文本主题所相应聊天数据聚类簇作为目标聊天数据聚类簇,组成目标聊天数据聚类簇集。
在本实施例中,由于已知了各聊天数据聚类簇对应的文本主题,而且在服务器中预先存储了由若干目标主题组成的目标主题清单(目标主题清单中每一目标主题均对应设置了一个推广文本数据,例如推广文本数据是与目标主题相对应的用户优惠活动推广文本),此时将各聊天数据聚类簇对应的文本主题分别与目标主题清单中的各目标主题计算两者之间的文本相似度(例如,计算两个主题之间的文本相似度可以通过先分别获取两个主题分别对应的词向量,之后再计算这两个词向量之间的欧式距离以作为两个文本之间的相似度),最后若有聊天数据聚类簇对应的文本主题与所述目标主题清单中的目标主题之间的文本相似度超出预设的相似度阈值,则获取对应的文本主题所相应聊天数据聚类簇作为目标聊天数据聚类簇,组成目标聊天数据聚类簇集。通过这一方式可以筛选中用户聊天数据中的热门话题(该热门话题也为服务器对应的运营商待推广的热门活动),从而可以基于热门话题向用户推送所关注的推广文本。
在一实施例中,作为目标聚类簇获取单元109的替代方案,目标聚类簇获取单元109可以替换为:
待审核推广文本数据获取单元,用于获取与各文本主题分别对应的待审核推广文本数据,若各待审核推广文本数据均通过敏感词验证,将各待审核推广文本数据均作为与各目标聊天数据聚类簇的文本主题分别对应的推广文本数据。
在本实施例中,目标聚类簇获取单元109的第一实施方式是参考步骤S109,也就是通过判断用户聊天内容中关注的热门文本主题是否有与服务器待推广文本有相同主题,若用户聊天内容中关注的热门文本与服务器待推广文本有相同主题,则获取热门文本主题对应的推广文本数据。在具体实施目标聚类簇获取单元109还可以采用另一替代执行方式,即将用户聊天内容中所关注的各文本主题在服务器中均可以对应设置待审核推广文本数据,这样可以对用户关注的所有文本主题均对应推送推广文本数据,实现对用户关注内容的及时信息反馈。
待推送文本获取单元110,用于获取与各目标聊天数据聚类簇的文本主题分别对应的推广文本数据,组成待推送文本数据集。
在本实施例中,当完成了对各目标聊天数据聚类簇的文本主题分别对应的推广文本数据的获取之后,由这些推广文本数据组成待推送文本数据集,之后在服务器中根据预设的推送策略(例如将待推送文本数据集在每周三上午十点进行推送)将待推送文本数据集发送至用户端以实现信息分发推送。
在一实施例中,基于用户聊天内容分析的信息推送装置100还包括:
信息推送单元,用于将待推送文本数据集发送至用户端;
评价信息获取单元,用于接收用户端根据所述待推送文本数据集发送的文本评价信息。
在本实施例中,当服务器将将待推送文本数据集发送至用户端之后,用户可以在用户端上查看待推送文本数据集,并针对每所述待推送文本数据集中每一待推送文本数据进行文本评价(例如针对每一待推送文本数据编辑一段评价文本发送至服务器),这样当服务器接收用户端根据所述待推送文本数据集发送的文本评价信息,即可及时的获取用户针对待推送文本数据的信息反馈。
在一实施例中,基于用户聊天内容分析的信息推送装置100还包括:
解说视频链接发送单元,用于获取所述待推送文本数据集中各待推送文本数据分别对应的解说视频数据,将各待推送文本数据分别对应的解说视频数据对应的视频链接发送至用户端。
在本实施例中,为了帮助用户更快速的了解各待推送文本数据的核心内容,服务器端可以针对各待推送文本数据分别录制相关活动的解说视频数据,且每一解说视频数据都会对应生成一个视频链接。这样将各待推送文本数据分别对应的解说视频数据对应的视频链接发送至用户端后,用户可以根据自身需求点击快速查看解说视频,提高用户正确获取信息的效率。
该装置实现了基于用户聊天数据的自动语义分析快速获取对应的推广文本数据集,无需人工干预,提高了数据处理效率。
上述基于用户聊天内容分析的信息推送装置可以实现为计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
请参阅图4,图4是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图4,该计算机设备500包括通过***总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括存储介质503和内存储器504。
该存储介质503可存储操作***5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于用户聊天内容分析的信息推送方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于用户聊天内容分析的信息推送方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本发明实施例公开的基于用户聊天内容分析的信息推送方法。
本领域技术人员可以理解,图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图4所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,也可以是易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的基于用户聊天内容分析的信息推送方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种基于用户聊天内容分析的信息推送方法,其特征在于,包括:
若检测到用户端在进入预设场景上传的聊天数据,获取所述聊天数据的数据类型;
判断所述数据类型是语音类型或是文本类型;
若所述数据类型是文本类型,将所述聊天数据进行敏感词检测和敏感词转换处理,得到第一脱敏处理后聊天数据以作为当前聊天数据;
若所述数据类型是语音类型,将所述聊天数据进行语音文本提取、敏感词检测和敏感词转换处理,得到第二脱敏处理后聊天数据以作为当前聊天数据,并将所述第二脱敏处理后聊天数据根据对应用户声音特征进行文本转语音以得到处理后聊天数据;
将所述当前聊天数据与对应用户端的用户ID绑定后存储在本地的第一存储区域;
获取当前***时间,判断当前***时间与上一聊天数据分析时间之间的时间间隔是否等于预设的聊天数据分析时间周期;
若当前***时间与上一聊天数据分析时间之间的时间间隔等于所述聊天数据分析时间周期,获取所述第一存储区域中当前已存储的聊天数据集,将所述聊天数据集进行文本聚类,得到对应的聊天数据聚类结果;其中,所述聊天数据聚类结果中包括若干个聊天数据聚类簇;
获取所述聊天数据聚类结果中各聊天数据聚类簇分别对应的文本主题;
若有聊天数据聚类簇对应的文本主题与预设的目标主题清单中的目标主题之间的文本相似度超出预设的相似度阈值,获取对应的文本主题所相应聊天数据聚类簇作为目标聊天数据聚类簇,组成目标聊天数据聚类簇集;以及
获取与各目标聊天数据聚类簇的文本主题分别对应的推广文本数据,组成待推送文本数据集;
所述获取与各目标聊天数据聚类簇的文本主题分别对应的推广文本数据,组成待推送文本数据集之后,还包括:
获取所述待推送文本数据集中各待推送文本数据分别对应的解说视频数据,将各待推送文本数据分别对应的解说视频数据对应的视频链接发送至用户端。
2.根据权利要求1所述的基于用户聊天内容分析的信息推送方法,其特征在于,所述将所述聊天数据进行敏感词检测和敏感词转换处理,得到第一脱敏处理后聊天数据以作为当前聊天数据,包括:
将所述聊天数据进行分词,得到第一分词结果;其中,所述第一分词结果中包括若干个分词;
将所述第一分词结果中的每一分词均进行敏感词检测,以判断所述第一分词结果中是否存在有敏感词;
若所述第一分词结果中存在有敏感词,获取对应的敏感词组成第一目标敏感词集;
调用预先训练的敏感词分类模型,将所述第一目标敏感词集中每一敏感词均输入至所述敏感词分类模型中,获取所述第一目标敏感词集中每一敏感词分别对应的敏感词等级;
若所述第一目标敏感词集中无敏感词对应的敏感词等级高于预设的敏感词等级阈值,将所述第一目标敏感词集中每一目标敏感词均通过拼音首字母替换,得到与每一目标敏感词对应的第一敏感词转换结果;
将所述聊天数据中与所述第一目标敏感词集中相同的各词语通过对应的第一敏感词转换结果进行替换,得到第一脱敏处理后聊天数据以作为当前聊天数据。
3.根据权利要求1所述的基于用户聊天内容分析的信息推送方法,其特征在于,所述将所述聊天数据进行语音文本提取、敏感词检测和敏感词转换处理,得到第二脱敏处理后聊天数据以作为当前聊天数据,并将所述第二脱敏处理后聊天数据根据对应用户声音特征进行文本转语音以得到处理后聊天数据,包括:
将所述聊天数据通过语音识别模型进行文本识别,得到文本识别结果;
所述文本识别结果进行分词,得到第二分词结果;其中,所述第二分词结果中包括若干个分词;
将所述第二分词结果中的每一分词均进行敏感词检测,以判断所述第二分词结果中是否存在有敏感词;
若所述第二分词结果中存在有敏感词,获取对应的敏感词组成第二目标敏感词集;
将所述第二目标敏感词集中每一目标敏感词均通过拼音首字母替换,得到与每一目标敏感词对应的第二敏感词转换结果;
将所述文本识别结果中与所述第二目标敏感词集中相同的各词语通过对应的第二敏感词转换结果进行替换,得到第二脱敏处理后聊天数据以作为当前聊天数据;
获取所述用户端对应的用户身份信息,及与所述用户身份信息对应用户声音特征;
通过所述用户声音特征对所述第二脱敏处理后聊天数据进行语音合成,得到处理后聊天数据。
4.根据权利要求1所述的基于用户聊天内容分析的信息推送方法,其特征在于,所述获取所述第一存储区域中当前已存储的聊天数据集,将所述聊天数据集进行文本聚类,得到对应的聊天数据聚类结果,包括:
获取所述聊天数据集中每一聊天数据对应的语义向量;
获取所述聊天数据集所对应各语义向量之间的欧式距离以进行K-means聚类,得到聊天数据聚类结果。
5.根据权利要求1所述的基于用户聊天内容分析的信息推送方法,其特征在于,所述获取所述聊天数据聚类结果中各聊天数据聚类簇分别对应的文本主题,包括:
获取第i组聊天数据聚类结果中包括的聊天数据;其中,i的初始取值为1;
将第i组聊天数据聚类结果中各聊天数据均输入至预先训练的LDA模型进行主题抽取,得到与各聊天数据分别对应的主题抽取结果;其中,所述LDA模型为文档-主题生成模型;
获取第i组聊天数据聚类结果所对应的各主题抽取结果中词频为最大值的主题抽取结果,以作为第i组聊天数据聚类结果对应的文本主题;
将i自增1以更新i的取值,判断i是否超出N;其中,N表示所述聊天数据聚类结果中所包括聊天数据聚类簇的总个数;
若i未超出N,将第i组聊天数据聚类结果对应的文本主题进行保存,并返回执行所述获取第i组聊天数据聚类结果中包括的聊天数据的步骤;
若i超出N,获取第1组聊天数据聚类结果至第i-1组聊天数据聚类结果分别对应的文本主题,以得到所述聊天数据聚类结果中各聊天数据聚类簇分别对应的文本主题。
6.根据权利要求1所述的基于用户聊天内容分析的信息推送方法,其特征在于,所述若有聊天数据聚类簇对应的文本主题与预设的目标主题清单中的目标主题之间的文本相似度超出预设的相似度阈值,获取对应的文本主题所相应聊天数据聚类簇作为目标聊天数据聚类簇,组成目标聊天数据聚类簇集替换为以下步骤:
获取与各文本主题分别对应的待审核推广文本数据,若各待审核推广文本数据均通过敏感词验证,将各待审核推广文本数据均作为与各目标聊天数据聚类簇的文本主题分别对应的推广文本数据。
7.根据权利要求1所述的基于用户聊天内容分析的信息推送方法,其特征在于,所述获取与各目标聊天数据聚类簇的文本主题分别对应的推广文本数据,组成待推送文本数据集之后,还包括:
将待推送文本数据集发送至用户端;
接收用户端根据所述待推送文本数据集发送的文本评价信息。
8.一种基于用户聊天内容分析的信息推送装置,其特征在于,包括:
聊天数据类型获取单元,用于若检测到用户端在进入预设场景上传的聊天数据,获取所述聊天数据的数据类型;
类型判断单元,用于判断所述数据类型是语音类型或是文本类型;
第一脱敏处理单元,用于若所述数据类型是文本类型,将所述聊天数据进行敏感词检测和敏感词转换处理,得到第一脱敏处理后聊天数据以作为当前聊天数据;
第二脱敏处理单元,用于若所述数据类型是语音类型,将所述聊天数据进行语音文本提取、敏感词检测和敏感词转换处理,得到第二脱敏处理后聊天数据以作为当前聊天数据,并将所述第二脱敏处理后聊天数据根据对应用户声音特征进行文本转语音以得到处理后聊天数据;
数据存储单元,用于将所述当前聊天数据与对应用户端的用户ID绑定后存储在本地的第一存储区域;
时间判断单元,用于获取当前***时间,判断当前***时间与上一聊天数据分析时间之间的时间间隔是否等于预设的聊天数据分析时间周期;
文本聚类单元,用于若当前***时间与上一聊天数据分析时间之间的时间间隔等于所述聊天数据分析时间周期,获取所述第一存储区域中当前已存储的聊天数据集,将所述聊天数据集进行文本聚类,得到对应的聊天数据聚类结果;其中,所述聊天数据聚类结果中包括若干个聊天数据聚类簇;
文本主题抽取单元,用于获取所述聊天数据聚类结果中各聊天数据聚类簇分别对应的文本主题;
目标聚类簇获取单元,用于若有聊天数据聚类簇对应的文本主题与预设的目标主题清单中的目标主题之间的文本相似度超出预设的相似度阈值,获取对应的文本主题所相应聊天数据聚类簇作为目标聊天数据聚类簇,组成目标聊天数据聚类簇集;以及
待推送文本获取单元,用于获取与各目标聊天数据聚类簇的文本主题分别对应的推广文本数据,组成待推送文本数据集;
所述基于用户聊天内容分析的信息推送装置还包括:
解说视频链接发送单元,用于获取所述待推送文本数据集中各待推送文本数据分别对应的解说视频数据,将各待推送文本数据分别对应的解说视频数据对应的视频链接发送至用户端。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于用户聊天内容分析的信息推送方法
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于用户聊天内容分析的信息推送方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110522391.3A CN113127746B (zh) | 2021-05-13 | 2021-05-13 | 基于用户聊天内容分析的信息推送方法及其相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110522391.3A CN113127746B (zh) | 2021-05-13 | 2021-05-13 | 基于用户聊天内容分析的信息推送方法及其相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113127746A CN113127746A (zh) | 2021-07-16 |
CN113127746B true CN113127746B (zh) | 2022-10-04 |
Family
ID=76781747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110522391.3A Active CN113127746B (zh) | 2021-05-13 | 2021-05-13 | 基于用户聊天内容分析的信息推送方法及其相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113127746B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113630306A (zh) * | 2021-07-28 | 2021-11-09 | 北京达佳互联信息技术有限公司 | 信息处理方法、装置、电子设备及存储介质 |
CN113821603A (zh) * | 2021-09-29 | 2021-12-21 | 平安普惠企业管理有限公司 | 记录信息处理方法、装置、设备和存储介质 |
US12008025B2 (en) | 2021-10-15 | 2024-06-11 | EMC IP Holding Company LLC | Method and system for augmenting a question path graph for technical support |
US11941641B2 (en) * | 2021-10-15 | 2024-03-26 | EMC IP Holding Company LLC | Method and system to manage technical support sessions using historical technical support sessions |
US11915205B2 (en) * | 2021-10-15 | 2024-02-27 | EMC IP Holding Company LLC | Method and system to manage technical support sessions using ranked historical technical support sessions |
CN116418777B (zh) * | 2023-04-10 | 2024-06-04 | 深圳市逗娱科技有限公司 | 基于数据分析的在线聊天房间智能推送*** |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8539359B2 (en) * | 2009-02-11 | 2013-09-17 | Jeffrey A. Rapaport | Social network driven indexing system for instantly clustering people with concurrent focus on same topic into on-topic chat rooms and/or for generating on-topic search results tailored to user preferences regarding topic |
CN106570020A (zh) * | 2015-10-09 | 2017-04-19 | 百度在线网络技术(北京)有限公司 | 用于提供推荐信息的方法和装置 |
CN105956180B (zh) * | 2016-05-30 | 2019-08-30 | 北京京东振世信息技术有限公司 | 一种敏感词过滤方法 |
CN106210318A (zh) * | 2016-07-12 | 2016-12-07 | 广东欧珀移动通信有限公司 | 语音播报信息的方法、装置及移动终端 |
CN110750619B (zh) * | 2019-08-15 | 2024-05-28 | 中国平安财产保险股份有限公司 | 聊天记录关键词的提取方法、装置、计算机设备及存储介质 |
CN110534113B (zh) * | 2019-08-26 | 2021-08-24 | 深圳追一科技有限公司 | 音频数据脱敏方法、装置、设备和存储介质 |
-
2021
- 2021-05-13 CN CN202110522391.3A patent/CN113127746B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113127746A (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113127746B (zh) | 基于用户聊天内容分析的信息推送方法及其相关设备 | |
US20220337538A1 (en) | Customized message suggestion with user embedding vectors | |
CN107797984B (zh) | 智能交互方法、设备及存储介质 | |
CN106919661B (zh) | 一种情感类型识别方法及相关装置 | |
CN111274365B (zh) | 基于语义理解的智能问诊方法、装置、存储介质及服务器 | |
CN112365894B (zh) | 基于ai的复合语音交互方法、装置及计算机设备 | |
CN108536595B (zh) | 测试用例智能化匹配方法、装置、计算机设备及存储介质 | |
CN110297988A (zh) | 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法 | |
CN113383362B (zh) | 用户识别方法及相关产品 | |
CN113360622B (zh) | 用户对话信息的处理方法、装置及计算机设备 | |
CN108027814B (zh) | 停用词识别方法与装置 | |
CN113505272B (zh) | 基于行为习惯的控制方法和装置、电子设备和存储介质 | |
CN110909165A (zh) | 数据处理方法、装置、介质及电子设备 | |
CN102567534B (zh) | 互动产品用户生成内容拦截***及其拦截方法 | |
CN110069769B (zh) | 应用标签生成方法、装置及存储设备 | |
CN111767393A (zh) | 一种文本核心内容提取方法及装置 | |
US10984781B2 (en) | Identifying representative conversations using a state model | |
CN115577316A (zh) | 一种基于多模态数据融合的用户人格预测方法与应用 | |
CN106910135A (zh) | 用户推荐方法及装置 | |
CN112581297B (zh) | 基于人工智能的信息推送方法、装置及计算机设备 | |
CN110990705B (zh) | 一种新闻处理方法、装置、设备及介质 | |
CN107016561B (zh) | 一种信息处理方法和装置 | |
KR101965361B1 (ko) | 온라인 서비스 제공 서버 및 방법 | |
CN113593546B (zh) | 终端设备唤醒方法和装置、存储介质及电子装置 | |
CN116432638A (zh) | 一种文本关键词提取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |