CN111104799B - 文本信息表征方法、***及计算机设备、存储介质 - Google Patents
文本信息表征方法、***及计算机设备、存储介质 Download PDFInfo
- Publication number
- CN111104799B CN111104799B CN201910981528.4A CN201910981528A CN111104799B CN 111104799 B CN111104799 B CN 111104799B CN 201910981528 A CN201910981528 A CN 201910981528A CN 111104799 B CN111104799 B CN 111104799B
- Authority
- CN
- China
- Prior art keywords
- sentence
- training
- word
- vector
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012512 characterization method Methods 0.000 title claims abstract description 57
- 239000013598 vector Substances 0.000 claims abstract description 324
- 230000011218 segmentation Effects 0.000 claims abstract description 84
- 238000012549 training Methods 0.000 claims description 168
- 238000000034 method Methods 0.000 claims description 48
- 239000011159 matrix material Substances 0.000 claims description 28
- 238000012360 testing method Methods 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 206010039203 Road traffic accident Diseases 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明属于人工智能领域,涉及一种文本信息表征方法、***及计算机设备、存储介质,所述方法包括:获取待分析语料,对待分析语料进行分词预处理,基于得到的分词分别生成对应的词向量,待分析语料为文本信息,文本信息包括至少一条语句;获取待分析语料中的每条语句所包含的分词的词向量,得到每条语句的词向量组,将词向量组中的词向量按顺序依次输入初始句向量算法模型中,生成对应的语句的初始句向量;将初始句向量输入至预训练的句向量模型,获得各语句的最终句向量,最终句向量用于表征文本信息,其中预训练的句向量模型基于语句的上下文关系来生成。本发明提供的方案可避免词语在不同语句中语义不同所带来的影响,对文本信息的表征更精确。
Description
技术领域
本发明实施例属于人工智能技术领域,尤其涉及一种文本信息表征方法、***及计算机设备、存储介质。
背景技术
在自然语言处理领域,文本信息表征是解决文本处理问题的基础,而现有技术中一般采用基于Word2Vec的词向量加和平均作为文本信息表征方法,但是同一个词语在不同句子、不同上下文的语义是不同的,所以基于词向量的文本信息表征是不准确的,不适用信息流推荐领域的文章资讯这类的文本信息的表征。
发明内容
有鉴于此,本发明实施例提供一种文本信息表征方法、***及计算机设备、存储介质,以解决现有技术中基于词向量的文本信息表征不够准确,不适用信息流推荐领域的文章资讯这类的文本信息的表征的问题。
第一方面,本发明实施例提供一种文本信息表征方法,包括:
获取待分析语料,对所述待分析语料进行分词预处理,基于得到的分词分别生成对应的词向量,所述待分析语料为文本信息,所述文本信息包括至少一条语句;
获取所述待分析语料中的每条语句所包含的分词的词向量,得到每条语句的词向量组,对所述词向量组中词向量按顺序依次输入初始句向量算法模型中,生成对应的语句的初始句向量;
将所述初始句向量输入至预训练的句向量模型,获得各语句的最终句向量,所述最终句向量用于表征文本信息,其中所述预训练的句向量模型基于语句的上下文关系来生成。
作为本发明可实施的方式,在所述获取待分析语料之前,所述方法还包括对所述预训练的句向量模型进行模型训练的步骤,其中所述预训练的句向量模型的训练过程包括:
获取训练语料集,对所述训练语料集中的语料进行分词预处理,基于得到的分词分别生成对应的词向量,其中所述训练语料集为训练文本信息集合,所述训练文本信息集合包括至少一条训练语句;
获取每条训练语句所包含的分词的词向量,得到每条训练语句的词向量组,并将训练语句的词向量组中的词向量按顺序依次输入所述初始句向量算法模型中,生成对应的训练语句的初始句向量;
基于所述训练语料集中的各训练语句对应的上下文关系,将各训练语句对应的初始句向量输入初始的句向量模型进行训练,得到所述预训练的句向量模型。
作为本发明可实施的方式,所述基于所述训练语料集中的各训练语句对应的上下文关系,将各训练语句对应的初始句向量输入初始的句向量模型进行训练,得到所述预训练的句向量模型包括:
配置所述初始的句向量模型的参数矩阵,所述参数矩阵连接所述初始的句向量模型的输入层和输出层;
根据各训练语句对应的上下文关系生成训练样本和检验样本,所述训练样本和检验样本分别包括K1和K2个句组,每个句组包括至少一条用作生成输入句向量的训练语句和至少一条用作生成输出句向量的训练语句,其中K1和K2为正整数;
依次将所述训练样本中的每个所述句组中的输入句向量输入至所述初始的句向量模型进行训练,逐步对所述参数矩阵中的参数进行调整,直到所述训练样本中的句组完成训练,使所述初始的句向量模型的输出逐步匹配所述句组中对应的输出句向量;
通过所述检验样本对训练之后的所述初始的句向量模型进行检验,检验通过则完成所述初始的句向量模型的训练,得到训练后的句向量模型。
作为本发明可实施的方式,所述将所述初始句向量输入至预训练的句向量模型,获得各语句的最终句向量包括:将所述初始句向量输入至所述预训练的句向量模型,使所述待分析语料的初始句向量与所述参数矩阵相乘,得到用于表征所述待分析语料的文本信息的最终句向量。
作为本发明可实施的方式,所述初始的句向量模型可为skip-gram模型或者cbow模型。
作为本发明可实施的方式,所述连接语料库,对所述语料库中的语料进行分词预处理,得到一组分词,针对得到的所有所述分词分别生成对应的词向量包括:
采用预设的分词算法对所述语料库中的语料进行分词,对分词结果执行去停用词操作,得到分词数量为N的词库,其中N为正整数;
将所述词库中的N个分词输入预设的词向量模型,得到所述N个分词的词向量。
作为本发明可实施的方式,所述初始句向量算法模型为GRU算法模型。
第二方面,本发明实施例提供一种文本信息表征***,包括:
词向量生成模块,用于获取待分析语料,对所述待分析语料进行分词预处理,基于得到的分词分别生成对应的词向量,所述待分析语料为文本信息;所述文本信息包括至少一条语句;
初始句向量生成模块,用于获取所述待分析语料中的每条语句所包含的分词的词向量,得到每条语句的词向量组,对所述词向量组中词向量按顺序依次输入初始句向量算法模型中,生成对应的语句的初始句向量;
文本信息表征模块,用于将所述初始句向量输入至预训练的句向量模型,获得各语句的最终句向量,所述最终句向量用于表征文本信息;其中所述预训练的句向量模型基于语句的上下文关系来生成。
第三方面,本发明实施例提供一种计算机设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机可读指令,所述计算机可读指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上述的文本信息表征方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被至少一个处理器执行时实现如上述的文本信息表征方法的步骤。
根据本发明实施例提供的文本信息表征方法、***及计算机设备、存储介质,通过基于语句的上下文关系来建立预训练的句向量模型,进行句子级别的文本信息表征,由于考虑了语句上下文关系,在文本信息的表征过程中能够避免词语在不同语句中语义不同所带来的影响,对文本信息的表征将更加精确。
附图说明
为了更清楚地说明本发明的方案,下面将对实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的文本信息表征方法的流程图;
图2为本发明实施例提供的生成词向量的流程图;
图3为本发明实施例提供的GRU算法模型的网络节点的结构示意图;
图4为本发明实施例提供的预训练的句向量模型的训练过程的流程图;
图5为本发明实施例提供的基于训练语句的上下文关系训练初始的句向量模型的流程图;
图6为本发明实施例提供的文本信息表征***的示意图;
图7为本发明实施例提供的文本信息表征***的另一示意图;
图8为本发明实施例提供的模型训练模块的结构示意图;
图9为本发明实施例提供的计算机设备的结构框图。
实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
在说明书中的各个位置出现的“实施例”该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明实施例提供一种文本信息表征方法,如图1所示,所述文本信息表征方法包括:
S1、获取待分析语料,对所述待分析语料进行分词预处理,基于得到的分词分别生成对应的词向量,所述待分析语料为文本信息,所述文本信息包括至少一条语句;
S2、获取所述待分析语料中的每条语句所包含的分词的词向量,得到每条语句的词向量组,对所述词向量组中词向量按顺序依次输入初始句向量算法模型中,生成对应的语句的初始句向量;
S3、将所述初始句向量输入至预训练的句向量模型,获得各语句的最终句向量,所述最终句向量用于表征文本信息,其中所述预训练的句向量模型基于语句的上下文关系来生成。
具体的,在本发明实施例中,步骤S1中的待分析语料可以是来自互联网或者终端设备本地的各种文本信息,其中对于词向量的获取,在本发明一些实施例中,如图2所示,所述获取待分析语料,对所述待分析语料进行分词预处理,基于得到的分词分别生成对应的词向量具体可包括:
S11、采用预设的分词算法对所述待分析语料进行分词,对分词结果执行去停用词操作,得到分词数量为N的词库,其中N为正整数;
S12、将所述词库中的N个分词输入预设的词向量模型,得到所述N个分词的词向量。
具体的,S11针对不同的语言可选择不同类型的分词算法,对于中文语料而言,可采用基于字符串匹配的分词方法(机械分词)、基于理解的分词方法和基于统计的分词方法,具体比如最短路径分词算法、jieba分词算法等,本方案中不作限定。
在本实施例中,步骤S12可采用word2vec模型来实现,具体的,将N个分词进行排序并分别用one-hot向量表示,比如“某地交通事故,平安人寿迅速启动特案预赔服务”通过步骤S11的分词预处理得到分词:“某地”、“交通”、“事故”、“平安人寿”、“迅速”、“启动”、“特案”、“预赔”、“服务”,形成9个分词的词库,对这9个分词排序后用one-hot向量表示结果如下:
某地 → [1,0,0,0,0,0,0,0,0];
交通→ [0,1,0,0,0,0,0,0,0];
事故→ [0,0,1,0,0,0,0,0,0];
平安人寿→ [0,0,0,1,0,0,0,0,0];
迅速→ [0,0,0,0,1,0,0,0,0];
启动→ [0,0,0,0,0,1,0,0,0];
特案→ [0,0,0,0,0,0,1,0,0];
预赔→ [0,0,0,0,0,0,0,1,0];
服务→ [0,0,0,0,0,0,0,0,1];
上述的one-hot向量的维度与词库中的分词数量N相同,one-hot向量将用作word2vec模型的输入,具体的,结合词库中分词的上下文关系,将一个或者多个分词的one-hot向量输入给word2vec模型,对word2vec模型中初始设置的权重矩阵进行训练优化,根据训练完成后的权重矩阵得到各分词的词向量,具体为将每个分词的one-hot向量与训练完成后的权重矩阵相乘即得到对应的词向量。
在本发明实施例中,对于步骤S2中每条语句的分词的确认,采用与步骤S1相同的分词预处理方法,以保证分词结果的一致性,所述待分析语料中的语句数量与步骤S2得到的初始句向量的数量保持一致。
关于每条语句的初始句向量的获取,在本发明一种实施例中,所述根据所述词向量组生成对应的语句的初始句向量可包括:对所述词向量组中各词向量进行平均或加权平均得到对应的语句的初始句向量。其中,对于词向量平均,例如上述“某地交通事故,平安人寿迅速启动特案预赔服务”通过步骤S11的分词预处理得到分词:“某地”、“交通”、“事故”、“平安人寿”、“迅速”、“启动”、“特案”、“预赔”、“服务”,对应9个词向量,直接将这9个词向量中的数值进行平均,生成一个同维的新的向量,即为所述初始句向量;而对于词向量加权平均,每个分词在整个词库中根据出现频率或者重要程度占有一定的权重,比如“某地”、“交通”、“事故”、“平安人寿”、“迅速”、“启动”、“特案”、“预赔”、“服务”对应的9个词向量中,“事故”、“平安人寿”、“预赔”这类词在文本表征中需要更加突出其重要性,因此权重要高于其他分词,可根据历史语料中各分词的出现频率来计算分词的权重,并以此权重对每条语句中各词向量中的数值进行加权平均,生成一个同维的新的向量,即得到对应的初始句向量。
作为本发明可实施的方式,所述初始句向量算法模型可为GRU算法模型,下面具体以所述初始句向量算法模型为GRU算法模型为例进行展开说明。GRU算法是RNN卷积神经网络中的一种,GRU算法模型级联的网络层包括级联的多个网络节点,各网络节点的结构相同,具体可参阅图3,所有语句在以一定的顺序存储,假如当前待分析语料包含M条语句,以表示第i条语句,i取值范围为1至M,每条语句包含的分词数量为t,t为正整数,用/>依次表示语句/>包含的各分词,并以/>表示每个分词对应的词向量,比如“某地交通事故,平安人寿迅速启动特案预赔服务”中包括两个语句,其中第一条语句“某地交通事故”通过步骤S11的分词预处理得到分词:“某地”、“交通”、“事故”,分别以/>表示,同时以/>表示这三个分词的词向量,第二条语句“平安人寿迅速启动特案预赔服务” 通过步骤S11的分词预处理得到分词:“平安人寿”、“迅速”、“启动”、“特案”、“预赔”、“服务”,分别以/>表示,同时以/>表示这六个分词的词向量,对于待分析语料中包含的更多语句,则以此类推。这些词向量依次输入GRU算法模型的各网络节点进行处理时,满足如下公式:
(1)
(2)
(3)
(4)
GRU算法的网络节点包含更新门和重置门,其中更新门的输出为,重置门的输出为/>,第t个词的重置门/>与更新门/>由第t个词的词向量与第t-1步的输出/>得到,而/>表示当前所需的信息(待选状态),/>表示当前保存的所有信息;公式中/>和/>为激活函数,激活函数/>用于将处理结果压缩在0至1之间,激活函数/>用于将结果压缩在-1至1之间,以便于后续网络节点的处理;公式中/>表示Hadamard积,即对应元素乘积。公式中/>和分别表示输入/>和上一网络节点到更新门的连接矩阵;/>和/>分别表示输入/>和上一网络节点到重置门的连接矩阵;/>和/>分别表示输入/>和上一网络节点到待选状态/>的连接矩阵;其中,更新门可控制前一网络节点的状态信息被带入到当前网络节点的状态信息中的程度,/>的值越大前一处理节点的状态信息带入越多,重置门控制忽略前一网络节点的状态信息的程度,/>值越小说明忽略得越多,通过重置门和更新门可以将所有词向量所包含的分词信息有效累计至最后的网络节点进行处理,得到包含所有分词信息的结果,即为初始句向量。
在本发明实施例中,对于步骤S3,在所述获取待分析语料之前,所述方法还包括对所述预训练的句向量模型进行模型训练的步骤,其中,如图4所示,所述预训练的句向量模型的训练过程包括:
S31、获取训练语料集,对所述训练语料集中的语料进行分词预处理,基于得到的分词分别生成对应的词向量,其中所述训练语料集为训练文本信息集合,所述训练文本信息集合包括至少一条训练语句;
S32、获取每条训练语句所包含的分词的词向量,得到每条训练语句的词向量组,并将训练语句的词向量组中的词向量按顺序依次输入所述初始句向量算法模型中,生成对应的训练语句的初始句向量;
S33、基于所述训练语料集中的各训练语句对应的上下文关系,将各训练语句对应的初始句向量输入初始的句向量模型进行训练,得到所述预训练的句向量模型。
其中,所述的训练语料集可以是由百度百科、***等互联网语料集或者其他网络语料集组成,比如各类资讯网站,通过利用互联网大规模语料集有利于将算法模型的无监督模型训练转化为有监督模型训练,有效提升本方案中采用的算法模型的效果,所述训练语料集可以是中文训练语料集或者外文训练语料集,或者是指定语言形成的组合式训练语料集。
在本实施例中,步骤S31中获取训练语句集中语料的分词和分词的词向量的过程与上述步骤S1的过程相同,以保证分词结果的一致性,同样的,步骤S31中获取训练语句的初始句向量的过程与上述S2的处理过程相同,所述训练语料集的语句数量与步骤S32得到的初始句向量的数量同样保持一致。
而对于步骤S33而言,如图5所示,所述基于所述训练语料集中的各训练语句对应的上下文关系,将各训练语句对应的初始句向量输入初始的句向量模型进行训练,得到所述预训练的句向量模型具体可包括:
S331、配置所述初始的句向量模型的参数矩阵,所述参数矩阵连接所述初始的句向量模型的输入层和输出层;
S332、根据各训练语句对应的上下文关系生成训练样本和检验样本,所述训练样本和检验样本分别包括K1和K2个句组,每个句组包括至少一条用作生成输入句向量的训练语句和至少一条用作生成输出句向量的训练语句,其中K1和K2为正整数,K1与K2可以相等,也可以不相等,可以取K1不小于K2,即训练样本数不小于检验样本数;其中,用作生成输入句向量的训练语句和至用作生成输出句向量的训练语句之间具有上下文关系,比如文本“我叫xx,我来自xxx”,其中语句“我叫xx”和语句“我来自xxx”语序上具有先后关系(属于上下文关系),此时“我叫xx”可用作生成输入句向量的语句和“我来自xxx”可用作生成输出句向量的语句。
S333、依次将所述训练样本中的每个所述句组中的输入句向量输入至所述初始的句向量模型进行训练,逐步对所述参数矩阵中的参数进行调整,直到所述训练样本中的句组完成训练,使所述初始的句向量模型的输出逐步匹配所述句组中对应的输出句向量;
S334、通过所述检验样本对训练之后的所述初始的句向量模型进行检验,检验通过则完成所述初始的句向量模型的训练,得到所述训练后的句向量模型。
进一步地,在本发明实施例中,所述将所述初始句向量输入至预训练的句向量模型,获得各语句的最终句向量包括:将所述初始句向量输入至所述预训练的句向量模型,使所述待分析语料的初始句向量与所述参数矩阵相乘,得到用于表征所述待分析语料的文本信息的最终句向量。
在本实施例中,上述内容中所述初始句向量模型可为skip-gram模型或者cbow模型。具体的,对于skip-gram模型而言,通过输入一条语句来预测与该条语句具有上下文关系的语句,此时所述训练样本和检验样本包含的句组只有一条用作输入的语句;对于cbow模型而言,通过输入多条语句来预测位于该多条语句中间的一条语句,该条语句与输入的多条语句具有上下文关系,此时所述训练样本和检验样本包含的句组只有一条用作输出的语句。在本实施例中,通过训练后的句向量模型对初始句向量进行修正,由于考虑可语句的上下文关系,对文本的表征将更加准确,应用于信息流推送时,对于新闻资讯的标题这类文本信息的表征将更加准确,有利于提升资讯的阅读转化率。
根据本发明实施例提供的文本信息表征方法,通过基于语句的上下文关系来建立句向量模型,进行句子级别的文本信息表征,由于考虑了语句上下文关系,在文本信息的表征过程中能够避免词语在不同语句中语义不同所带来的影响,对文本信息的表征将更加精确;此外,预训练的句向量模型的训练过程中能够利用互联网大规模语料集,可有效将无监督训练转化为有监督训练,有效提升模型训练效果,从而提高文本信息表征的准确度。
本发明实施例提供一种文本信息表征***,可执行上述实施例提供的文本信息表征方法看,如图6所示,所述文本信息表征***包括词向量生成模块10、初始句向量生成模块20和文本信息表征模块30,其中,所述词向量生成模块10用于获取待分析语料,对所述待分析语料进行分词预处理,基于得到的分词分别生成对应的词向量,所述待分析语料为文本信息;所述文本信息包括至少一条语句;所述初始句向量生成模块20用于获取所述待分析语料中的每条语句所包含的分词的词向量,得到每条语句的词向量组,对所述词向量组中词向量按顺序依次输入初始句向量算法模型中,生成对应的语句的初始句向量;所述文本信息表征模块30用于将所述初始句向量输入至预训练的句向量模型,获得各语句的最终句向量,所述最终句向量用于表征文本信息;其中所述预训练的句向量模型基于语句的上下文关系来生成。
具体的,在本发明实施例中,所述词向量生成模块10中处理的待分析语料可以是来自互联网或者终端设备本地的各种文本信息。其中对于词向量的获取,在本发明一些实施例中,所述词向量生成模块10获取待分析语料,对所述待分析语料进行分词预处理,基于得到的分词分别生成对应的词向量时,具体用于:采用预设的分词算法对所述待分析语料进行分词,对分词结果执行去停用词操作,得到分词数量为N的词库,其中N为正整数,将所述词库中的N个分词输入预设的词向量模型,得到所述N个分词的词向量。具体的,所述词向量生成模块10针对不同的语言可选择不同类型的分词算法,对于中文语料而言,可采用基于字符串匹配的分词方法(机械分词)、基于理解的分词方法和基于统计的分词方法,具体比如最短路径分词算法、jieba分词算法等,本方案中不作限定。
在本实施例中,所述初始句向量生成模块20可采用word2vec模型来实现句向量的生成,具体的实现过程可参阅上述方法实施例中的相关内容,在此不作展开。此外,所述初始句向量生成模块20对于每条语句的分词的确认,采用与所述词向量生成模块10相同的分词预处理方法,以保证分词结果的一致性,所述待分析语料中的语句数量与所述初始句向量生成模块20得到的初始句向量的数量保持一致。
关于每条语句的初始句向量的获取,在本发明一种实施例中,所述初始句向量生成模块20根据所述词向量组生成对应的语句的初始句向量时,具体用于:对所述词向量组中各词向量进行平均或加权平均得到对应的语句的初始句向量。其中,对于加权平均的方式,每个分词在整个词库中根据出现频率或者重要程度占有一定的权重,以此权重对每天语句中各词向量进行加权平均,得到对应的初始句向量,词向量平均和词向量加权平均的处理过程还可以参阅上述方法实施例中相关技术内容,此处不再展开。
作为本发明可实施的方式,所述初始句向量生成模块20采用的初始句向量算法模型可为GRU算法模型,对于GRU算法模型的说明可参阅上述方法实施例中的相关内容,在此不作展开。
在本发明实施例中,如图7所示,所述文本信息表征***还包括模型训练模块40,用于在所述获取待分析语料之前,对所述预训练的句向量模型进行模型训练,其中,如图4所示,所述模型训练模块40训练所述预训练的句向量模型的过程包括:
通过所述词向量生成模块10获取训练语料集,对所述训练语料集中的语料进行分词预处理,基于得到的分词分别生成对应的词向量,其中所述训练语料集为训练文本信息集合,所述训练文本信息集合包括至少一条训练语句;在通过所述初始句向量生成模块20获取每条训练语句所包含的分词的词向量,得到每条训练语句的词向量组,并将训练语句的词向量组中的词向量按顺序依次输入所述初始句向量算法模型中,生成对应的训练语句的初始句向量;最终基于所述训练语料集中的各训练语句对应的上下文关系,将各训练语句对应的初始句向量输入初始的句向量模型进行训练,得到所述预训练的句向量模型。
其中,所述词向量生成模块10获取的训练语料集可以是由百度百科、***等互联网语料集或者其他网络语料集组成,比如各类资讯网站,通过利用互联网大规模语料集有利于将算法模型的无监督模型训练转化为有监督模型训练,有效提升本方案中采用的算法模型的效果,所述训练语料集可以是中文训练语料集或者外文训练语料集,或者是指定语言形成的组合式训练语料集。
在本发明实施例中,如图8所示,所述模型训练模块40可包括参数矩阵配置单元41、样本生成单元42、模型训练单元43和模型检验单元44;其中,所述参数矩阵配置单元41用于配置所述初始的句向量模型的参数矩阵,所述参数矩阵连接所述初始的句向量模型的输入层和输出层;所述样本生成单元42连接所述词向量生成模块10和初始句向量生成模块20,用于根据各训练语句对应的上下文关系生成训练样本和检验样本,所述训练样本和检验样本分别包括K1和K2个句组,每个句组包括至少一条用作生成输入句向量的训练语句和至少一条用作生成输出句向量的训练语句,其中K1和K2为正整数,K1与K2可以相等,也可以不相等,可以取K1不小于K2,即训练样本数不小于检验样本数;所述模型训练单元43用于依次将所述训练样本中的每个所述句组中的输入句向量输入至所述初始的句向量模型进行训练,逐步对所述参数矩阵中的参数进行调整,直到所述训练样本中的句组完成训练,使所述初始的句向量模型的输出逐步匹配所述句组中对应的输出句向量;所述模型检验单元44用于通过所述检验样本对训练之后的所述初始的句向量模型进行检验,检验通过则完成所述初始的句向量模型的训练,得到所述训练后的句向量模型。
进一步地,将所述初始句向量输入所述文本信息表征模块30,使所述待分析语料的初始句向量与所述参数矩阵相乘,得到用于表征所述待分析语料的文本信息的最终句向量。
作为本发明可实施的方式,所述初始句向量模型可为skip-gram模型或者cbow模型。具体的,对于skip-gram模型而言,通过输入一条语句来预测与该条语句具有上下文关系的语句,此时所述训练样本和检验样本包含的句组只有一条用作输入的语句;对于cbow模型而言,通过输入多条语句来预测位于该多条语句中间的一条语句,该条语句与输入的多条语句具有上下文关系,此时所述训练样本和检验样本包含的句组只有一条用作输出的语句。在本实施例中,通过训练后的句向量模型对初始句向量进行修正,由于考虑可语句的上下文关系,对文本的表征将更加准确,应用于信息流推送时,对于新闻资讯的标题这类文本信息的表征将更加准确,有利于提升资讯的阅读转化率。
根据本发明实施例提供的文本信息表征***,通过基于语句的上下文关系来建立句向量模型,进行句子级别的文本信息表征,由于考虑了语句上下文关系,在文本信息的表征过程中能够避免词语在不同语句中语义不同所带来的影响,对文本信息的表征将更加精确;此外,预训练的句向量模型的训练过程中能够利用互联网大规模语料集,可有效将无监督训练转化为有监督训练,有效提升模型训练效果,从而提高文本信息表征的准确度。
本发明实施例还提供一种计算机设备,如图9所示,所述计算机设备包括至少一个处理器71,以及与所述至少一个处理器71通信连接的存储器72,图7中示出一个处理器71,所述存储器72存储有可被所述至少一个处理器71执行的计算机可读指令,所述计算机可读指令被所述至少一个处理器71执行,以使所述至少一个处理器71能够执行如上所述的文本信息表征方法的步骤。
具体的,本发明实施例中的存储器72为非易失性计算机可读存储介质,可用于存储计算机可读指令、非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请上述实施例中的文本信息表征方法对应的程序指令/模块;所述处理器71通过运行存储在存储器72中的非易失性软件程序、计算机可读指令以及模块,从而执行各种功能应用以及进行数据处理,即实现上述方法实施例中所述的文本信息表征方法。
在一些实施例中,所述存储器72可以包括程序存储区和数据存储区,其中,程序存储区可存储操作***、至少一个功能所需要的应用程序;数据存储区可存储文本信息表征方法的处理过程中所创建的数据等。此外,存储器72可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件;
在一些实施例中,存储器72可选包括相对于处理器71远程设置的远程存储器,这些远程存储器可以通过网络连接至执行域名过滤处理的计算机设备,前述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
在本发明实施例中,执行文本信息表征方法的计算机设备还可以包括输入***73和输出***74;其中,输入***73可获取用户在计算机设备上的操作信息,输出***74可包括显示屏等显示设备。在本发明实施例中,所述处理器71、存储器72、输入***73和输出***74可以通过总线或者其他方式连接,图7中以通过总线连接为例。
根据本发明实施例提供的计算机设备,通过处理器71执行存储器72中的代码时能够执行上述实施例中文本信息表征方法的步骤,且具有上述方法实施例的技术效果,未在本实施例中详尽描述的技术细节,可参见本申请方法实施例中所提供的技术内容。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被至少一个处理器执行时,能够实现如上所述的文本信息表征方法的步骤,当执行所述方法的步骤时,具有上述方法实施例的技术效果,未在本实施例中详尽描述的技术细节,可参见本申请方法实施例中所提供的技术内容。
本发明实施例还提供一种计算机程序产品,所述产品可执行本申请方法实施例中所提供的文本信息表征方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请方法实施例中所提供的技术内容。
需要说明的是,在本发明上述实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干计算机可读指令用以使得一台计算机***(可以是个人计算机,服务器,或者网络***等)或智能终端设备或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明所提供的上述实施例中,应该理解到,所揭露的***和方法,可以通过其它的方式实现。例如,以上所描述的***实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,至少两个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到至少两个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
显然,以上所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,附图中给出了本发明的较佳实施例,但并不限制本发明的专利范围。本发明可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本发明专利保护范围之内。
Claims (7)
1.一种文本信息表征方法,其特征在于,包括:
获取训练语料集,对所述训练语料集中的语料进行分词预处理,基于得到的分词分别生成对应的词向量,其中所述训练语料集为训练文本信息集合,所述训练文本信息集合包括至少一条训练语句;
获取每条训练语句所包含的分词的词向量,得到每条训练语句的词向量组,并将训练语句的词向量组中的词向量按顺序依次输入初始句向量算法模型中,生成对应的训练语句的初始句向量;
配置所述初始的句向量模型的参数矩阵,所述参数矩阵连接所述初始的句向量模型的输入层和输出层;
根据各训练语句对应的上下文关系生成训练样本和检验样本,所述训练样本和检验样本分别包括K1和K2个句组,每个句组包括至少一条用作生成输入句向量的训练语句和至少一条用作生成输出句向量的训练语句,其中K1和K2为正整数;
依次将所述训练样本中的每个所述句组中的输入句向量输入至所述初始的句向量模型进行训练,逐步对所述参数矩阵中的参数进行调整,直到所述训练样本中的句组完成训练,使所述初始的句向量模型的输出逐步匹配所述句组中对应的输出句向量;
通过所述检验样本对训练之后的所述初始的句向量模型进行检验,检验通过则完成所述初始的句向量模型的训练,得到训练后的句向量模型;
获取待分析语料,对所述待分析语料进行分词预处理,基于得到的分词分别生成对应的词向量,所述待分析语料为文本信息,所述文本信息包括至少一条语句;
获取所述待分析语料中的每条语句所包含的分词的词向量,得到每条语句的词向量组,将所述词向量组中的词向量按顺序依次输入所述初始句向量算法模型中,生成对应的语句的初始句向量;
将所述初始句向量输入至预训练的句向量模型,使所述待分析语料的初始句向量与所述参数矩阵相乘,得到用于表征所述待分析语料的文本信息的最终句向量,所述最终句向量用于表征文本信息,其中所述预训练的句向量模型基于语句的上下文关系来生成。
2.根据权利要求1所述的文本信息表征方法,其特征在于,所述初始的句向量模型为skip-gram模型或者cbow模型。
3.根据权利要求1所述的文本信息表征方法,其特征在于,所述获取待分析语料,对所述待分析语料进行分词预处理,基于得到的分词分别生成对应的词向量包括:
采用预设的分词算法对所述待分析语料进行分词,对分词结果执行去停用词操作,得到分词数量为N的词库,其中N为正整数;
将所述词库中的N个分词输入预设的词向量模型,得到所述N个分词的词向量。
4.根据权利要求1所述的文本信息表征方法,其特征在于,所述初始句向量算法模型为GRU算法模型。
5.一种文本信息表征***,其特征在于,包括:
模型训练模块,获取训练语料集,对所述训练语料集中的语料进行分词预处理,基于得到的分词分别生成对应的词向量,其中所述训练语料集为训练文本信息集合,所述训练文本信息集合包括至少一条训练语句;获取每条训练语句所包含的分词的词向量,得到每条训练语句的词向量组,并将训练语句的词向量组中的词向量按顺序依次输入初始句向量算法模型中,生成对应的训练语句的初始句向量;配置所述初始的句向量模型的参数矩阵,所述参数矩阵连接所述初始的句向量模型的输入层和输出层;根据各训练语句对应的上下文关系生成训练样本和检验样本,所述训练样本和检验样本分别包括K1和K2个句组,每个句组包括至少一条用作生成输入句向量的训练语句和至少一条用作生成输出句向量的训练语句,其中K1和K2为正整数;依次将所述训练样本中的每个所述句组中的输入句向量输入至所述初始的句向量模型进行训练,逐步对所述参数矩阵中的参数进行调整,直到所述训练样本中的句组完成训练,使所述初始的句向量模型的输出逐步匹配所述句组中对应的输出句向量;通过所述检验样本对训练之后的所述初始的句向量模型进行检验,检验通过则完成所述初始的句向量模型的训练,得到训练后的句向量模型;
词向量生成模块,用于获取待分析语料,对所述待分析语料进行分词预处理,基于得到的分词分别生成对应的词向量,所述待分析语料为文本信息;所述文本信息包括至少一条语句;
初始句向量生成模块,用于获取所述待分析语料中的每条语句所包含的分词的词向量,得到每条语句的词向量组,对所述词向量组中词向量按顺序依次输入所述初始句向量算法模型中,生成对应的语句的初始句向量;
文本信息表征模块,用于将所述初始句向量输入至预训练的句向量模型,使所述待分析语料的初始句向量与所述参数矩阵相乘,得到用于表征所述待分析语料的文本信息的最终句向量,所述最终句向量用于表征文本信息;其中所述预训练的句向量模型基于语句的上下文关系来生成。
6.一种计算机设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机可读指令,所述计算机可读指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求1至4中任一项所述的文本信息表征方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被至少一个处理器执行时实现如权利要求1至4中任一项权利要求所述的文本信息表征方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910981528.4A CN111104799B (zh) | 2019-10-16 | 2019-10-16 | 文本信息表征方法、***及计算机设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910981528.4A CN111104799B (zh) | 2019-10-16 | 2019-10-16 | 文本信息表征方法、***及计算机设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111104799A CN111104799A (zh) | 2020-05-05 |
CN111104799B true CN111104799B (zh) | 2023-07-21 |
Family
ID=70421422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910981528.4A Active CN111104799B (zh) | 2019-10-16 | 2019-10-16 | 文本信息表征方法、***及计算机设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111104799B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111694941B (zh) * | 2020-05-22 | 2024-01-05 | 腾讯科技(深圳)有限公司 | 一种回复信息确定方法、装置、存储介质及电子设备 |
CN111639194B (zh) * | 2020-05-29 | 2023-08-08 | 天健厚德网络科技(大连)有限公司 | 基于句向量的知识图谱查询方法及*** |
CN112016295B (zh) * | 2020-09-04 | 2024-02-23 | 平安科技(深圳)有限公司 | 症状数据处理方法、装置、计算机设备及存储介质 |
CN112926329B (zh) * | 2021-03-10 | 2024-02-20 | 招商银行股份有限公司 | 文本生成方法、装置、设备及计算机可读存储介质 |
CN113157853B (zh) * | 2021-05-27 | 2024-02-06 | 中国平安人寿保险股份有限公司 | 问题挖掘方法、装置、电子设备及存储介质 |
CN113435582B (zh) * | 2021-06-30 | 2023-05-30 | 平安科技(深圳)有限公司 | 基于句向量预训练模型的文本处理方法及相关设备 |
CN113707299A (zh) * | 2021-08-27 | 2021-11-26 | 平安科技(深圳)有限公司 | 基于问诊会话的辅助诊断方法、装置及计算机设备 |
CN114036272A (zh) * | 2021-10-29 | 2022-02-11 | 厦门快商通科技股份有限公司 | 一种对话***语义分析方法、***、电子装置及存储介质 |
CN114358004A (zh) * | 2021-12-27 | 2022-04-15 | 有米科技股份有限公司 | 一种营销文本生成方法及装置 |
CN114118085B (zh) * | 2022-01-26 | 2022-04-19 | 云智慧(北京)科技有限公司 | 一种文本信息的处理方法、装置及设备 |
CN114943220B (zh) * | 2022-04-12 | 2023-01-10 | 中国科学院计算机网络信息中心 | 一种面向科研立项查重的句向量生成方法及查重方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280058A (zh) * | 2018-01-02 | 2018-07-13 | 中国科学院自动化研究所 | 基于强化学习的关系抽取方法和装置 |
WO2019056692A1 (zh) * | 2017-09-25 | 2019-03-28 | 平安科技(深圳)有限公司 | 基于语义相似度的新闻语句聚类方法、装置及存储介质 |
WO2019072166A1 (zh) * | 2017-10-10 | 2019-04-18 | 腾讯科技(深圳)有限公司 | 语义分析方法、装置和存储介质 |
CN110287312A (zh) * | 2019-05-10 | 2019-09-27 | 平安科技(深圳)有限公司 | 文本相似度的计算方法、装置、计算机设备及计算机存储介质 |
-
2019
- 2019-10-16 CN CN201910981528.4A patent/CN111104799B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019056692A1 (zh) * | 2017-09-25 | 2019-03-28 | 平安科技(深圳)有限公司 | 基于语义相似度的新闻语句聚类方法、装置及存储介质 |
WO2019072166A1 (zh) * | 2017-10-10 | 2019-04-18 | 腾讯科技(深圳)有限公司 | 语义分析方法、装置和存储介质 |
CN108280058A (zh) * | 2018-01-02 | 2018-07-13 | 中国科学院自动化研究所 | 基于强化学习的关系抽取方法和装置 |
CN110287312A (zh) * | 2019-05-10 | 2019-09-27 | 平安科技(深圳)有限公司 | 文本相似度的计算方法、装置、计算机设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111104799A (zh) | 2020-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104799B (zh) | 文本信息表征方法、***及计算机设备、存储介质 | |
TWI769754B (zh) | 基於隱私保護確定目標業務模型的方法及裝置 | |
CN106776544B (zh) | 人物关系识别方法及装置和分词方法 | |
CN110795911B (zh) | 在线文本标签的实时添加方法、装置及相关设备 | |
US10755048B2 (en) | Artificial intelligence based method and apparatus for segmenting sentence | |
US20230244704A1 (en) | Sequenced data processing method and device, and text processing method and device | |
CN106445915B (zh) | 一种新词发现方法及装置 | |
CN109543165B (zh) | 基于循环卷积注意力模型的文本生成方法及装置 | |
US20210390370A1 (en) | Data processing method and apparatus, storage medium and electronic device | |
CN106897265B (zh) | 词向量训练方法及装置 | |
CN111310440A (zh) | 文本的纠错方法、装置和*** | |
CN112487173A (zh) | 人机对话方法、设备和存储介质 | |
CN109948160B (zh) | 短文本分类方法及装置 | |
CN110598869B (zh) | 基于序列模型的分类方法、装置、电子设备 | |
CN111813923A (zh) | 文本摘要方法、电子设备及存储介质 | |
CN109918503B (zh) | 基于动态窗口自注意力机制提取语义特征的槽填充方法 | |
CN111241843A (zh) | 基于复合神经网络的语义关系推断***和方法 | |
CN114091555A (zh) | 图像识别模型的训练方法、装置、电子设备及存储介质 | |
CN112749543A (zh) | 一种信息解析过程的匹配方法、装置、设备及存储介质 | |
CN111881293A (zh) | 一种风险内容识别方法及装置、服务器、存储介质 | |
CN112434143B (zh) | 基于gru单元隐藏状态约束的对话方法、存储介质及*** | |
CN110895655A (zh) | 提取文本核心短语的方法和装置 | |
CN114970666A (zh) | 一种口语处理方法、装置、电子设备及存储介质 | |
CN111599363B (zh) | 一种语音识别的方法及其装置 | |
CN111797621A (zh) | 一种术语替换方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |