CN107066449B - 信息推送方法和装置 - Google Patents
信息推送方法和装置 Download PDFInfo
- Publication number
- CN107066449B CN107066449B CN201710324082.9A CN201710324082A CN107066449B CN 107066449 B CN107066449 B CN 107066449B CN 201710324082 A CN201710324082 A CN 201710324082A CN 107066449 B CN107066449 B CN 107066449B
- Authority
- CN
- China
- Prior art keywords
- word
- text
- information
- neural network
- recurrent neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了信息推送方法和装置。该方法的一具体实施方式包括:对待处理的文本进行分词,并确定所分割成的各个词的词向量;对所确定的各个词向量进行解析,生成该文本的特征信息;将该特征信息输入至预先训练的文本情感分析模型,确定与该文本相匹配的情感类型信息,其中,该文本情感分析模型用于表征特征信息与情感类型信息的对应关系;推送该情感类型信息。该实施方式提高了文本情感分析的准确性。
Description
技术领域
本申请涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及信息推送方法和装置。
背景技术
文本情感分析(也称为意见挖掘)是指用自然语言处理、文本挖掘以及计算机语言学等方法来识别和提取文本中的信息。文本情感分析的目的是为了找出说话者/作者在某些话题上或者针对该文本的观点的态度。
现有的方式通常是基于对关键词进行识别,进而确定该文本的情感类型,因而这种方法无法基于文本完整的上下文信息进行情感类型的分析,因此,现有的方式存在着文本情感分析的准确性较低的问题。
发明内容
本申请实施例的目的在于提出一种改进的信息推送方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请实施例提供了一种信息推送方法,该方法包括:对待处理的文本进行分词,并确定所分割成的各个词的词向量;对所确定的各个词向量进行解析,生成文本的特征信息;将特征信息输入至预先训练的文本情感分析模型,确定与文本相匹配的情感类型信息,其中,文本情感分析模型用于表征特征信息与情感类型信息的对应关系;推送情感类型信息。
在一些实施例中,对所确定的各个词向量进行解析,生成文本的特征信息,包括:将所确定的各个词向量输入至预先训练的第一时间递归神经网络,得到时间递归神经网络输出的、与各个词对应的特征向量,其中,第一时间递归神经网络用于生成词的特征;对所得到的特征向量进行解析,生成文本的特征信息。
在一些实施例中,对所得到的特征向量进行解析,生成文本的特征信息,包括:将所得到的各个特征向量输入至预先训练的第二时间递归神经网络,得到第二时间递归神经网络输出的、各个词在文本中的权重,第二时间递归神经网络用于生成词的权重;基于所得到的各个词的特征向量和各个词的权重,生成文本的特征信息。
在一些实施例中,基于所得到的各个词的特征向量和各个词的权重,生成文本的特征信息,包括:对于每一个词,将该词的特征向量和该词的权重的乘积确定为该词的目标特征向量;确定各个目标特征向量的和,并确定所分割成的词的数量;将所确定的各个目标特征向量的和与数量的比值确定为文本的特征信息。
在一些实施例中,方法还包括训练文本情感分析模型的步骤,包括:提取预设的训练样本,其中,训练样本包括情感类型标识;对训练样本进行分词,并确定所分割成的各个词的词向量;对所确定的各个词向量进行解析,生成训练样本的特征信息;利用机器学习方法,将训练样本的特征信息作为输入、将情感类型标识所指示的情感类型信息作为输出,训练文本情感分析模型。
在一些实施例中,第一时间递归神经网络是基于对长短期记忆网络LSTM模型进行训练而生成的神经网络,第二时间递归神经网络是基于对注意力模型AM进行训练而生成的神经网络。
第二方面,本申请实施例提供了一种信息推送装置,该装置包括:第一分词单元,配置用于对待处理的文本进行分词,并确定所分割成的各个词的词向量;第一解析单元,配置用于对所确定的各个词向量进行解析,生成文本的特征信息;输入单元,配置用于将特征信息输入至预先训练的文本情感分析模型,确定与文本相匹配的情感类型信息,其中,文本情感分析模型用于表征特征信息与情感类型信息的对应关系;推送单元,配置用于推送情感类型信息。
在一些实施例中,第一解析单元进一步配置用于:将所确定的各个词向量输入至预先训练的第一时间递归神经网络,得到第一时间递归神经网络输出的、与各个词对应的特征向量,其中,第一时间递归神经网络用于生成词的特征;对所得到的特征向量进行解析,生成文本的特征信息。
在一些实施例中,第一解析单元进一步配置用于:将所得到的各个特征向量输入至预先训练的第二时间递归神经网络,得到第二时间递归神经网络输出的、各个词在文本中的权重,第二时间递归神经网络用于生成词的权重;基于所得到的各个词的特征向量和各个词的权重,生成文本的特征信息。
在一些实施例中,第一解析单元进一步配置用于:对于每一个词,将该词的特征向量和该词的权重的乘积确定为该词的目标特征向量;确定各个目标特征向量的和,并确定所分割成的词的数量;将所确定的各个目标特征向量的和与数量的比值确定为文本的特征信息。
在一些实施例中,装置还包括:提取单元,配置用于提取预设的训练样本,其中,训练样本包括情感类型标识;第二分词单元,配置用于对训练样本进行分词,并确定所分割成的各个词的词向量;第二解析单元,配置用于对所确定的各个词向量进行解析,生成训练样本的特征信息;训练单元,配置用于利用机器学习方法,将训练样本的特征信息作为输入、将情感类型标识所指示的情感类型信息作为输出,训练文本情感分析模型。
在一些实施例中,第一时间递归神经网络是基于对长短期记忆网络LSTM模型进行训练而生成的神经网络,第二时间递归神经网络是基于对注意力模型AM进行训练而生成的神经网络。
第三方面,本申请实施例提供了一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如信息推送方法中任一实施例的方法。
本申请实施例提供的信息推送方法和装置,通过对待处理的文本进行分词以确定所分割成的各个词的词向量,而后对所确定的各个词向量进行解析以生成文本的特征信息,之后将特征信息输入至预先训练的文本情感分析模型以确定与该文本的情感类型信息,最后推送该情感类型信息,从而对文本中的各个词均进行了分析处理,提高了文本情感分析的准确性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性***架构图;
图2是根据本申请的信息推送方法的一个实施例的流程图;
图3是根据本申请的信息推送方法的一个应用场景的示意图;
图4是根据本申请的信息推送方法的又一个实施例的流程图;
图5是根据本申请的信息推送装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的服务器的计算机***的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的信息推送方法或信息推送装置的示例性***架构100。
如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如文本编辑类应用、社交平台软件、即时通信工具等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的文本信息提供文本情感分析服务器的后台服务器。后台网页服务器可以对所接收到的待处理的文本进行分析等处理,例如,可以对该文本进行分词、解析等处理,并将处理结果(例如情感类型信息)反馈给终端设备。
需要说明的是,本申请实施例所提供的信息推送方法一般由服务器105执行,相应地,信息推送装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的信息推送方法的一个实施例的流程200。的信息推送方法,包括以下步骤:
步骤201,对待处理的文本进行分词,并确定所分割成的各个词的词向量。
在本实施例中,信息推送方法运行于其上的电子设备(例如图1所示的服务器105)可以首先提取待处理的文本;而后,可以利用各种分词方式(例如基于统计的分词方式、基于字符串匹配的分词方式、基于隐马尔可夫模型的分词方式等)对所提取的文本进行分词;最后,对于所分割后的每一个词,可以利用各种词向量生成方法确定该词的词向量。此处,上述待处理的文本可以是预先存储在上述电子设备中的、技术人员所预先指定的文本,上述电子设备可以直接提取本地所预先存储的上述文本;另外,上述文本也可以是上述电子设备通过有线连接方式或者无线连接方式从客户端(例如图1所示的终端设备101、102、103)所接收的文本。实践中,上述客户端可以向上述电子设备发送包含上述文本情感分析请求,上述电子设备接收到该请求后,可以提取该文本。需要说明的是,上述文本可以是各种文字信息,例如句子、段落或者篇章等。需要说明的是,词向量可以是用于表示词语特征的向量,词向量的每一维的值代表一个具有一定的语义和语法上解释的特征。其中,特征可以是用于对词语的基本要素进行表征的各种信息。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultrawideband)连接、以及其他现在已知或将来开发的无线连接方式。
在本实施例中,上述电子设备中可以预先存储大量的词的词向量,各个词向量可以具有相同的维数,语义上较为相近的词的词向量的余弦(cosin)距离较小。实践中,通常可以将两个词向量夹角的余弦值度量两个词差异的大小。对于所分割成的每一个词的词向量,上述电子设备可以从所预先存储的大量的词的词向量中查找该词所对应的词向量。
需要说明的是,上述电子设备还可以利用其他方式来确定所分割成的各个词的词向量。例如,可以利用各种利用开源的词向量计算工具(例如word2vec等)确定所分割成的各个词的词向量。
在本实施例的一些可选的实现方式中,上述分词方法可以是基于统计的分词方法。具体地,可以对上述文本中相邻字符所构成的字符组合的频率进行统计,计算出字符组合出现的频率。当上述频率高于预设频率阈值时,则判定上述组合构成了词,从而实现对上述文本的分词。
在本实施例的一些可选的实现方式中,上述分词方法还可以是基于字符串匹配原理的分词方法。上述电子设备可以利用字符串匹配原理分别将上述文本分别与预置在上述电子设备中的机器词典中的各个词进行匹配,继而基于所匹配到的词对上述文本进行分词。其中,上述字符串匹配原理可以是正向最大匹配法、逆向最大匹配法、设立切分标注法、逐词遍历匹配法、正向最佳匹配法或逆向最佳匹配法等。
在本实施例的一些可选的实现方式中,上述电子设备可以利用隐马尔可夫模型(Hidden Markov Model,HMM)进行上述文本的分词。具体的,上述电子设备可以首先确定构成上述马尔科夫模型的五元组,上述五元组包括可观察序列、隐藏状态集合、初始状态空间概率、状态转移矩阵和观察概率分布矩阵。其中,上述可观察序列即上述文本;上述隐藏状态集合可以包含单字成词、词头、词中、词尾四种状态;上述初始状态空间概率可以是隐藏状态集合中的各个状态的在预置的词库中的初始概率分布;上述状态转移矩阵可以用于表征上述文本中每个字符的状态转换概率(例如由词头转换至单字成词的概率等);上述观察概率分布矩阵用于表征在各个状态下的各个字符的概率。之后,上述电子设备可以为各个字符进行状态标注,并基于维特比算法确定各个字符的最大概率状态。最后,可以基于各个字符的最大概率状态,进行上述文本的切分。
需要说明的是,上述各种分词方法是目前广泛研究和应用的公知技术,在此不再赘述。
步骤202,对所确定的各个词向量进行解析,生成文本的特征信息。
在本实施例中,上述电子设备可以利用各种方法对步骤201所确定的各个词向量进行解析,生成上述待处理的文本的特征信息。作为示例,上述电子设备确定各个词向量的平均向量,所确定的平均向量确定为上述文本的特征信息。作为又一示例,上述电子设备中可以存储有大量的词的权重,上述电子设备可以查询所分割成的每一个词的权重,将该词的权重与该词的词向量相乘,并将乘权重后的各个词向量的平均向量确定为上述文本的特征信息。
在本实施例的一些可选的实现方式中,上述电子设备可以首先将所确定的各个词向量输入至预先训练的第一时间递归神经网络(Recurrent Neural Networks,RNN),得到上述第一时间递归神经网络输出的、与各个词对应的特征向量。其中,上述第一时间递归神经网络可以用于生成词的特征。之后,可以利用各种特征向量解析方法对所得到的特征向量进行解析,生成上述文本的特征信息。作为示例,上述电子设备可以预先存储有与大量的词相匹配的权重。在将所确定的各个词向量输入至上述第一时间递归神经网络,并得到上述第一时间递归神经网络输出的、与各个词对应的特征向量之后,上述电子设备可以从本地查找与各个词相对应的权重。上述电子设备可以对基于各个词的特征向量和各个词的权重的数值计算,生成上述文本的特征信息。实践中,时间递归神经网络是一种节点定向连接成环的人工神经网络。时间递归神经网络的内部状态可以展示动态时序行为,在处理单元之间既有内部的反馈连接又有前馈连接。时间递归神经网络可以由输入层、隐藏层、输出层等多层结构构成。对于某一文本而言,与构成该文本的每一个句子所对应的输出与该句子上文的内容所对应的输出相关,时间递归神经网络会对前面的信息进行记忆并应用于当前输出的计算中,因而隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。由此,可以通过时间递归神经网络来确定构成文本的各个词的特征。时间递归神经网络可以将每一个词的词向量作为一个时刻的输入,结合上一时刻的输出,对该词的词向量进行计算,输出与该词对应的另一向量。上述电子设备可以将所输出的与该词对应的向量确定为该词的特征向量。需要说明的是,上述第一时间递归神经网络可以使用长短期记忆网络(Long Short-Term Memory,LSTM)模型等现有的用于生成词的特征的模型。
步骤203,将特征信息输入至预先训练的文本情感分析模型,确定与文本相匹配的情感类型信息。
在本实施例中,上述电子设备可以将步骤202所生成的特征信息输入至预先训练的文本情感分析模型,以确定与上述文本相匹配的情感类型信息。其中,上述文本情感分析模型可以用于表征特征信息与情感类型信息的对应关系,且上述文本情感分析模型可以是使用支持向量机(Support Vector Machine,SVM)、朴素贝叶斯模型(Naive BayesianModel,NBM)等现有的分类器(Classifier)预先训练而成的,也可以是使用现有的分类函数(例如softmax函数等)预先训练而成的。
需要说明的是,上述情感类型信息可以是用于表征情感的任意字符串,例如,字符串“开心”、字符串“难过”、字符串“伤心”、字符串“害怕”、字符串“无聊”等。
步骤204,推送情感类型信息。
在本实施例中,上述电子设备可以推送步骤203所确定的情感类型信息至与上述电子设备相连接的客户端。
继续参见图3,图3是根据本实施例的信息推送方法的应用场景的一个示意图。在图3的应用场景中,服务器301对首先对待处理的文本302进行分词并生成所生成的各个词的词向量303。而后,上述服务器301对所生成的词向量303进行解析,生成上述文本302的特征信息304。之后,上述服务器301将上述特征信息304输入至预先训练的文本情感分析模型后,得到与上述文本302相匹配的情感类型信息305。最后,上述服务器301将上述情感类型信息305推送至与上述服务器相连接的客户端306。
本申请的上述实施例提供的方法通过对待处理的文本进行分词以确定所分割成的各个词的词向量,而后对所确定的各个词向量进行解析以生成文本的特征信息,之后将特征信息输入至预先训练的文本情感分析模型以确定与该文本的情感类型信息,最后推送该情感类型信息,从而对文本中的各个词均进行了分析处理,提高了文本情感分析的准确性。
进一步参考图4,其示出了信息推送方法的又一个实施例的流程400。该信息推送方法的流程400,包括以下步骤:
步骤401,对待处理的文本进行分词,并确定所分割成的各个词的词向量。
在本实施例中,信息推送方法运行于其上的电子设备(例如图1所示的服务器105)中可以预先存储大量的词的词向量。上述电子设备可以首先提取待处理的文本;而后,可以利用各种分词方式对所提取的文本进行分词;最后,对于所分割后的每一个词,可以从预先存储的词向量中查询该词所对应的词向量。
步骤402,将所确定的各个词向量输入至预先训练的第一时间递归神经网络,得到第一时间递归神经网络输出的、与各个词对应的特征向量。
在本实施例中,上述电子设备可以将所确定的各个词向量输入至预先训练的第一时间递归神经网络,得到上述第一时间递归神经网络输出的、与各个词对应的特征向量。其中,上述第一时间递归神经网络可以用于生成词的特征。需要说明的是,上述第一时间递归神经网络可以是利用机器学习方法,对LSTM模型等现有的用于生成词的特征的模型预先训练得到。
步骤403,将所得到的各个特征向量输入至预先训练的第二时间递归神经网络,得到第二时间递归神经网络输出的、各个词在文本中的权重。
在本实施例中,在将所确定的各个词向量输入至上述第一时间递归神经网络,得到上述第一时间递归神经网络输出的、与各个词对应的特征向量之后,上述电子设备可以将所得到的各个特征向量输入至预先训练的第二时间递归神经网络,得到上述第二时间递归神经网络输出的、各个词在上述文本中的权重。其中,上述第二时间递归神经网络可以用于生成词的权重。基于与上述第一时间递归网络相似的原理,上述第二时间递归神经网络可以将每一个词的特征向量作为一个时刻的输入,结合上一时刻的输出,对该词的特征向量进行计算,输出与该词对应的权重。需要说明的是,上述第二时间递归神经网络可以利用机器学习方法,使用注意力模型(Attention Model,AM)等现有的用于生成词向量的权重的模型预先训练得到。
步骤404,基于所得到的各个词的特征向量和各个词的权重,生成文本的特征信息。
在本实施例中,上述电子设备在得到各个词的特征向量和各个词的权重后,对于每一个词,可以首先将该词的特征向量和该词的权重的乘积确定为该词的目标特征向量;之后,可以确定各个目标特征向量的和,并确定所分割成的词的数量;最后,可以将所确定的各个目标特征向量的和与上述数量的比值确定为上述文本的特征信息。
步骤405,将特征信息输入至预先训练的文本情感分析模型,确定与文本相匹配的情感类型信息。
在本实施例中,上述电子设备可以上述特征信息输入至预先训练的文本情感分析模型,以确定与上述文本相匹配的情感类型信息。其中,上述文本情感分析模型可以用于表征特征信息与情感类型信息的对应关系。需要说明的是,上述文本情感分析模型可以是使用某些分类函数(例如softmax函数)预先训练而成的。
步骤406,推送情感类型信息。
在本实施例中,上述电子设备可以推送所确定的情感类型信息至与上述电子设备相连接的客户端(例如图1所示的客户端101、102、103)。
在本实施例的一些可选的实现方式中,上述方法还可以包括训练文本情感分析模型的步骤。具体地,上述电子设备可以首先提取预设的训练样本,其中,上述训练样本可以包括情感类型标识。此处,上述情感类型标识可以用于指示和确定训练样本的情感类型信息,上述情感类型标识可以是由各种字符构成的字符串。而后,上述电子设备可以对上述训练样本进行分词,并确定所分割成的各个词的词向量。之后,上述电子设备可以基于上述第一时间递归神经网络和上述第二时间递归神经网络,对所确定的各个词向量进行解析,生成上述训练样本的特征信息。最后,上述电子设备可以利用机器学习方法,将上述特征信息作为输入、将上述情感类型标识所指示的情感类型信息作为输出,训练文本情感分析模型。需要说明的是,上述文本情感分析模型可以是使用分类函数(例如softmax函数)训练而成的。
从图4中可以看出,与图2对应的实施例相比,本实施例中的信息推送方法的流程400突出了基于第一时间递归神经网络和第二时间递归神经网络对词向量的解析的步骤。由此,本实施例描述的方案可以考虑词与词之间的上下文关系,且可以使文本中的不同的词语有不同的权重,更加突出了文本的主题。从而实现更准确的文本情感类型预测和更准确的信息推送。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种信息推送装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例所述的信息推送装置500包括:第一分词单元501,配置用于对待处理的文本进行分词,并确定所分割成的各个词的词向量;第一解析单元502,配置用于对所确定的各个词向量进行解析,生成所述文本的特征信息;输入单元503,配置用于将所述特征信息输入至预先训练的文本情感分析模型,确定与所述文本相匹配的情感类型信息,其中,所述文本情感分析模型用于表征特征信息与情感类型信息的对应关系;推送单元504,配置用于推送所述情感类型信息。
在本实施例中,上述第一分词单元501可以首先提取待处理的文本;而后,可以利用各种分词方式对所提取的文本进行分词;最后,对于所分割后的每一个词,可以从预先存储的词向量中查询该词所对应的词向量。
在本实施例中,上述第一解析单元502可以利用各种方法对步骤201所确定的各个词向量进行解析,生成上述待处理的文本的特征信息。
在本实施例中,输入单元503可以上述特征信息输入至预先训练的文本情感分析模型,以确定与上述文本相匹配的情感类型信息。其中,上述文本情感分析模型可以用于表征特征信息与情感类型信息的对应关系。
在本实施例中,上述推送单元504可以推送上述情感类型信息至与上述电子设备相连接的客户端。
在本实施例的一些可选的实现方式中,所述第一解析单元502可以进一步配置用于将所确定的各个词向量输入至预先训练的第一时间递归神经网络,得到所述第一时间递归神经网络输出的、与各个词对应的特征向量,其中,所述第一时间递归神经网络用于生成词的特征;对所得到的特征向量进行解析,生成所述文本的特征信息。
在本实施例的一些可选的实现方式中,所述第一解析单元502可以进一步配置用于将所得到的各个特征向量输入至预先训练的第二时间递归神经网络,得到所述第二时间递归神经网络输出的、各个词在所述文本中的权重,所述第二时间递归神经网络用于生成词的权重;基于所得到的各个词的特征向量和各个词的权重,生成所述文本的特征信息。
在本实施例的一些可选的实现方式中,所述第一解析单元502可以进一步配置用于对于每一个词,将该词的特征向量和该词的权重的乘积确定为该词的目标特征向量;确定各个目标特征向量的和,并确定所分割成的词的数量;将所确定的各个目标特征向量的和与所述数量的比值确定为所述文本的特征信息。
在本实施例的一些可选的实现方式中,所述信息推送装置500还可以包括提取单元、第二分词单元、第二解析单元和训练单元(图中未示出)。其中,上述提取单元可以配置用于提取预设的训练样本,其中,所述训练样本包括情感类型标识;上述第二分词单元可以配置用于对所述训练样本进行分词,并确定所分割成的各个词的词向量;上述第二解析单元可以配置用于对所确定的各个词向量进行解析,生成所述训练样本的特征信息;上述训练单元可以配置用于利用机器学习方法,将所述训练样本的特征信息作为输入、将所述情感类型标识所指示的情感类型信息作为输出,训练文本情感分析模型。
在本实施例的一些可选的实现方式中,所述第一时间递归神经网络是基于对长短期记忆网络LSTM模型进行训练而生成的神经网络,所述第二时间递归神经网络是基于对注意力模型AM进行训练而生成的神经网络。
本申请的上述实施例提供的装置,通过第一分词单元501对待处理的文本进行分词以确定所分割成的各个词的词向量,而后第一解析单元502对所确定的各个词向量进行解析以生成文本的特征信息,之后输入单元503将特征信息输入至预先训练的文本情感分析模型以确定与该文本的情感类型信息,最后推送单元504推送该情感类型信息,从而对文本中的各个词均进行了分析处理,提高了文本情感分析的准确性。
下面参考图6,其示出了适于用来实现本申请实施例的服务器的计算机***600的结构示意图。图6示出的服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机***600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有***600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括第一分词单元、第一解析单元、输入单元和推送单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,推送单元还可以被描述为“推送情感类型信息的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:对待处理的文本进行分词,并确定所分割成的各个词的词向量;对所确定的各个词向量进行解析,生成该文本的特征信息;将该特征信息输入至预先训练的文本情感分析模型,确定与该文本相匹配的情感类型信息,其中,该文本情感分析模型用于表征特征信息与情感类型信息的对应关系;推送该情感类型信息。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种信息推送方法,其特征在于,所述方法包括:
对待处理的文本进行分词,并确定所分割成的各个词的词向量;
对所确定的各个词向量进行解析,生成所述文本的特征信息;
将所述特征信息输入至预先训练的文本情感分析模型,确定与所述文本相匹配的情感类型信息,其中,所述文本情感分析模型用于表征特征信息与情感类型信息的对应关系;
推送所述情感类型信息;
所述对所确定的各个词向量进行解析,生成所述文本的特征信息,包括:将所确定的各个词向量输入至预先训练的第一时间递归神经网络,得到所述第一时间递归神经网络输出的、与各个词对应的特征向量,其中,所述第一时间递归神经网络用于生成词的特征;将所得到的各个特征向量输入至预先训练的第二时间递归神经网络,得到所述第二时间递归神经网络输出的、各个词在所述文本中的权重,所述第二时间递归神经网络用于生成词的权重;基于所得到的各个词的特征向量和各个词的权重,生成所述文本的特征信息。
2.根据权利要求1所述的信息推送方法,其特征在于,所述基于所得到的各个词的特征向量和各个词的权重,生成所述文本的特征信息,包括:
对于每一个词,将该词的特征向量和该词的权重的乘积确定为该词的目标特征向量;
确定各个目标特征向量的和,并确定所分割成的词的数量;
将所确定的各个目标特征向量的和与所述数量的比值确定为所述文本的特征信息。
3.根据权利要求1-2之一所述的信息推送方法,其特征在于,所述方法还包括训练文本情感分析模型的步骤,包括:
提取预设的训练样本,其中,所述训练样本包括情感类型标识;
对所述训练样本进行分词,并确定所分割成的各个词的词向量;
对所确定的各个词向量进行解析,生成所述训练样本的特征信息;
利用机器学习方法,将所述训练样本的特征信息作为输入、将所述情感类型标识所指示的情感类型信息作为输出,训练文本情感分析模型。
4.根据权利要求2所述的信息推送方法,其特征在于,所述第一时间递归神经网络是基于对长短期记忆网络LSTM模型进行训练而生成的神经网络,所述第二时间递归神经网络是基于对注意力模型AM进行训练而生成的神经网络。
5.一种信息推送装置,其特征在于,所述装置包括:
第一分词单元,配置用于对待处理的文本进行分词,并确定所分割成的各个词的词向量;
第一解析单元,配置用于对所确定的各个词向量进行解析,生成所述文本的特征信息;
输入单元,配置用于将所述特征信息输入至预先训练的文本情感分析模型,确定与所述文本相匹配的情感类型信息,其中,所述文本情感分析模型用于表征特征信息与情感类型信息的对应关系;
推送单元,配置用于推送所述情感类型信息;
所述第一解析单元进一步配置用于:将所确定的各个词向量输入至预先训练的第一时间递归神经网络,得到所述第一时间递归神经网络输出的、与各个词对应的特征向量,其中,所述第一时间递归神经网络用于生成词的特征;将所得到的各个特征向量输入至预先训练的第二时间递归神经网络,得到所述第二时间递归神经网络输出的、各个词在所述文本中的权重,所述第二时间递归神经网络用于生成词的权重;基于所得到的各个词的特征向量和各个词的权重,生成所述文本的特征信息。
6.根据权利要求5所述的信息推送装置,其特征在于,所述第一解析单元进一步配置用于:
对于每一个词,将该词的特征向量和该词的权重的乘积确定为该词的目标特征向量;确定各个目标特征向量的和,并确定所分割成的词的数量;将所确定的各个目标特征向量的和与所述数量的比值确定为所述文本的特征信息。
7.根据权利要求5-6之一所述的信息推送装置,其特征在于,所述装置还包括:
提取单元,配置用于提取预设的训练样本,其中,所述训练样本包括情感类型标识;
第二分词单元,配置用于对所述训练样本进行分词,并确定所分割成的各个词的词向量;
第二解析单元,配置用于对所确定的各个词向量进行解析,生成所述训练样本的特征信息;
训练单元,配置用于利用机器学习方法,将所述训练样本的特征信息作为输入、将所述情感类型标识所指示的情感类型信息作为输出,训练文本情感分析模型。
8.根据权利要求6所述的信息推送装置,其特征在于,所述第一时间递归神经网络是基于对长短期记忆网络LSTM模型进行训练而生成的神经网络,所述第二时间递归神经网络是基于对注意力模型AM进行训练而生成的神经网络。
9.一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710324082.9A CN107066449B (zh) | 2017-05-09 | 2017-05-09 | 信息推送方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710324082.9A CN107066449B (zh) | 2017-05-09 | 2017-05-09 | 信息推送方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107066449A CN107066449A (zh) | 2017-08-18 |
CN107066449B true CN107066449B (zh) | 2021-01-26 |
Family
ID=59596262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710324082.9A Active CN107066449B (zh) | 2017-05-09 | 2017-05-09 | 信息推送方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107066449B (zh) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108628868B (zh) * | 2017-03-16 | 2021-08-10 | 北京京东尚科信息技术有限公司 | 文本分类方法和装置 |
CN107577763A (zh) * | 2017-09-04 | 2018-01-12 | 北京京东尚科信息技术有限公司 | 检索方法和装置 |
CN109615153B (zh) * | 2017-09-26 | 2023-06-16 | 阿里巴巴集团控股有限公司 | 商家风险评估方法、装置、设备及存储介质 |
CN109658455B (zh) * | 2017-10-11 | 2023-04-18 | 阿里巴巴集团控股有限公司 | 图像处理方法和处理设备 |
CN107977678B (zh) * | 2017-11-28 | 2021-12-03 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN108038230B (zh) * | 2017-12-26 | 2022-05-20 | 北京百度网讯科技有限公司 | 基于人工智能的信息生成方法和装置 |
CN110110202A (zh) * | 2018-01-09 | 2019-08-09 | 苏州跃盟信息科技有限公司 | 一种信息流推送方法及装置 |
CN108446333B (zh) * | 2018-02-22 | 2022-01-18 | 寇毅 | 一种大数据文本挖掘处理***及其方法 |
CN108470188B (zh) * | 2018-02-26 | 2022-04-22 | 北京物灵智能科技有限公司 | 基于图像分析的交互方法及电子设备 |
CN108536784B (zh) * | 2018-03-29 | 2021-08-24 | 阿里巴巴(中国)有限公司 | 评论信息情感分析方法、装置、计算机存储介质和服务器 |
CN108717519B (zh) * | 2018-04-03 | 2021-02-19 | 北京捷通华声科技股份有限公司 | 一种文本分类方法及装置 |
CN108733644B (zh) * | 2018-04-09 | 2019-07-19 | 平安科技(深圳)有限公司 | 一种文本情感分析方法、计算机可读存储介质及终端设备 |
CN110399494A (zh) * | 2018-04-16 | 2019-11-01 | 北京京东尚科信息技术有限公司 | 用于生成信息的方法和装置 |
CN108874937B (zh) * | 2018-05-31 | 2022-05-20 | 南通大学 | 一种基于词性结合和特征选择的情感分类方法 |
CN108766420B (zh) * | 2018-05-31 | 2021-04-02 | 中国联合网络通信集团有限公司 | 语音交互设备唤醒词生成方法及装置 |
CN110881056A (zh) * | 2018-09-05 | 2020-03-13 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN109299477A (zh) * | 2018-11-30 | 2019-02-01 | 北京字节跳动网络技术有限公司 | 用于生成文本标题的方法和装置 |
CN111353039B (zh) * | 2018-12-05 | 2024-05-17 | 北京京东尚科信息技术有限公司 | 文件类别检测方法和装置 |
CN109684634B (zh) * | 2018-12-17 | 2023-07-25 | 北京百度网讯科技有限公司 | 情感分析方法、装置、设备及存储介质 |
CN111797871A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 信息处理方法、装置、存储介质及电子设备 |
CN111814483B (zh) * | 2019-06-12 | 2024-04-12 | 北京京东尚科信息技术有限公司 | 用于分析情感的方法和装置 |
CN110489738B (zh) * | 2019-07-01 | 2022-04-19 | 联想(北京)有限公司 | 一种信息处理方法、电子设备及计算机存储介质 |
CN110826327A (zh) * | 2019-11-05 | 2020-02-21 | 泰康保险集团股份有限公司 | 情感分析方法、装置、计算机可读介质及电子设备 |
CN110990531B (zh) * | 2019-11-28 | 2024-04-02 | 北京声智科技有限公司 | 一种文本情感识别方法及装置 |
CN111127179B (zh) * | 2019-12-12 | 2023-08-29 | 恩亿科(北京)数据科技有限公司 | 信息推送方法、装置、计算机设备和存储介质 |
CN113111164A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型接处警文本居住地信息提取方法和装置 |
CN113111168A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型接处警文本户籍地信息提取方法和装置 |
CN113361282B (zh) * | 2020-03-04 | 2024-05-24 | 北京沃东天骏信息技术有限公司 | 信息处理方法及装置 |
CN111797196B (zh) * | 2020-06-01 | 2021-11-02 | 武汉大学 | 一种结合注意力机制lstm和神经主题模型的服务发现方法 |
CN111931494B (zh) | 2020-08-10 | 2022-06-28 | 北京字节跳动网络技术有限公司 | 用于生成预测信息的方法、装置、电子设备和介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207855B (zh) * | 2013-04-12 | 2019-04-26 | 广东工业大学 | 针对产品评论信息的细粒度情感分析***及方法 |
CN105022840B (zh) * | 2015-08-18 | 2018-06-05 | 新华网股份有限公司 | 一种新闻信息处理方法、新闻推荐方法和相关装置 |
CN106202330B (zh) * | 2016-07-01 | 2020-02-07 | 北京小米移动软件有限公司 | 垃圾信息的判断方法及装置 |
-
2017
- 2017-05-09 CN CN201710324082.9A patent/CN107066449B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107066449A (zh) | 2017-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107066449B (zh) | 信息推送方法和装置 | |
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
CN107168952B (zh) | 基于人工智能的信息生成方法和装置 | |
US11151177B2 (en) | Search method and apparatus based on artificial intelligence | |
CN107491534B (zh) | 信息处理方法和装置 | |
US11501182B2 (en) | Method and apparatus for generating model | |
CN107273503B (zh) | 用于生成同语言平行文本的方法和装置 | |
CN107832414B (zh) | 用于推送信息的方法和装置 | |
CN106997370B (zh) | 基于作者的文本分类和转换 | |
US20180349350A1 (en) | Artificial intelligence based method and apparatus for checking text | |
CN107241260B (zh) | 基于人工智能的新闻推送的方法和装置 | |
CN107861954B (zh) | 基于人工智能的信息输出方法和装置 | |
CN109299228B (zh) | 计算机执行的文本风险预测方法及装置 | |
CN108121699B (zh) | 用于输出信息的方法和装置 | |
CN111428010A (zh) | 人机智能问答的方法和装置 | |
CN111930792B (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
CN110807311B (zh) | 用于生成信息的方法和装置 | |
CN107203504B (zh) | 字符串替换方法和装置 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN109190123B (zh) | 用于输出信息的方法和装置 | |
CN110738056B (zh) | 用于生成信息的方法和装置 | |
CN113947086A (zh) | 样本数据生成方法、训练方法、语料生成方法和装置 | |
CN113268560A (zh) | 用于文本匹配的方法和装置 | |
CN112188311A (zh) | 用于确定新闻的视频素材的方法和装置 | |
US20200110834A1 (en) | Dynamic Linguistic Assessment and Measurement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |