CN110532381A - 一种文本向量获取方法、装置、计算机设备及存储介质 - Google Patents

一种文本向量获取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110532381A
CN110532381A CN201910637101.2A CN201910637101A CN110532381A CN 110532381 A CN110532381 A CN 110532381A CN 201910637101 A CN201910637101 A CN 201910637101A CN 110532381 A CN110532381 A CN 110532381A
Authority
CN
China
Prior art keywords
text
vector
encoder
feature
obtains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910637101.2A
Other languages
English (en)
Other versions
CN110532381B (zh
Inventor
唐亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN201910637101.2A priority Critical patent/CN110532381B/zh
Publication of CN110532381A publication Critical patent/CN110532381A/zh
Application granted granted Critical
Publication of CN110532381B publication Critical patent/CN110532381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于人工智能领域,提供一种文本向量获取方法、装置、计算机设备及存储介质,其中,所述方法包括:对文本进行文本处理得到目标文本,对所述目标文本进行文本分词,得到对应的特征文本;通过预先设置的第一编码器将所述特征文本编码到多维独热向量空间,得到第一特征向量;通过预先设置的第二编码器将所述第一特征向量编码到词向量空间,得到第二特征向量;将所述第二特征向量与所述分类标签输入到第三编码器中,迭代损失函数,使隐含层向量满足同类型文本相似度大于不同类型文本相似度,得到目标编码网络;将所述待处理的文本进行处理后输入到所述目标编码网络,得到所述待处理的文本的文本向量。本申请能够增强文本向量的表征能力。

Description

一种文本向量获取方法、装置、计算机设备及存储介质
技术领域
本发明属于人工智能技术领域,尤其涉及一种文本向量获取方法、装置、计算机设备及存储介质。
背景技术
目前,自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,随着自然语言处理技术的飞速发展,自然语言处理技术中的基础研究也越来越得到人们的重视,这其中就包括对如何生成文本向量的研究。在文本分类、文本聚类、相似度计算等任务中,都需要预先对文本进行向量化变换,然后用向量化的文本代替原来的文本进行数学运算和统计,将自然语言处理为计算机能识别的数据,实现人与计算机之间用自然语言进行通信。现有的自然语言处理中,Sentence2Vec(句子向量模型)方法是将所有类型的文本对应的文本内容经过文本处理放在一起作为语料集进行训练,而且文本特征的获取是通过word2vec(词向量模型)输出词向量并对该词向量进行加和平均计算,将加和平均的结果直接作为文本向量。可见,在现有的文本向量获取的技术中,存在文本的表征能力低的问题。
发明内容
本发明实施例提供一种文本向量获取方法,旨在解决现有的文本向量获取的技术中,存在文本的表征能力低的问题。
本发明实施例是这样实现的,提供一种文本向量获取方法,包括步骤:
对至少两种不同类型的已进行文本处理的目标文本进行文本分词,得到对应的特征文本,其中,文本包括分类标签与文本内容;
通过预先设置的第一编码器将所述特征文本编码到多维独热向量空间,得到所述特征文本的第一特征向量;
通过预先设置的第二编码器将所述第一特征向量编码到词向量空间,得到所述第一特征向量的第二特征向量;
将所述第二特征向量与所述分类标签输入到第三编码器中,对所述第三编码器进行训练,迭代第三编码器的损失函数,使所述第三编码器中隐含层向量满足同类型文本相似度大于不同类型文本相似度,得到目标编码网络;
获取待处理的文本,将所述待处理的文本进行所述文本处理及所述文本分词后输入到所述目标编码网络,得到所述待处理的文本的文本向量。
更进一步地,所述对至少两种不同类型的文本进行文本处理得到目标文本的步骤包括:
对文本进行去除标点符号处理,得到第一文本;
对所述第一文本进行大写转小写处理,得到第二文本;
对所述第二文本进行全角转半角处理,得到目标文本。
更进一步地,所述对目标文本进行文本分词,得到对应的特征文本的步骤包括:
通过分词器对所述目标文本进行分词处理,得到分词结果;以及
将分词结果形成特征文本。
更进一步地,所述得到分词结果之后,包括步骤:
通过预先设置的停用词库检测所述分词结果中是否存在停用词;
若存在,则对所述停用词进行删除。
更进一步地,所述通过预先设置的第二编码器将所述第一特征向量编码到词向量空间,得到所述第一特征向量的第二特征向量的步骤包括:
通过预先设置在第二编码器中输入层到隐含层的权值矩阵,对所述第一特征向量进行降维,得到所述隐含层的第二特征向量。
更进一步地,所述将所述第二特征向量与所述分类标签输入到第三编码器中,对所述第三编码器进行训练包括步骤:
将所述第二特征向量与所述分类标签输入到降噪自动编码器中,对所述第二特征向量进行随机损坏,得到第三特征向量;
基于所述第三特征向量对所述降噪自动编码器进行训练。
更进一步地,所述迭代第三编码器的损失函数,使所述第三编码器中隐含层向量满足同类型文本相似度大于不同类型文本相似度,得到目标编码网络的步骤包括:
通过所述分类标签,计算各文本的文本向量之间的内积;
对各文本的内积结果进行比较,得到各文本的相似度;
根据所述各文本的相似度,形成所述目标编码网络,其中,所述目标编码网络包括所述第一编码器、第二编码器以及第三编码器。
本发明还提供一种文本向量获取装置,包括:
处理模块,用于对至少两种不同类型的文本进行文本处理得到目标文本,对所述目标文本进行文本分词,得到对应的特征文本,其中,所述文本包括分类标签与文本内容;
第一编码模块,用于通过预先设置的第一编码器将所述特征文本编码到多维独热向量空间,得到所述特征文本的第一特征向量;
第二编码模块,用于通过预先设置的第二编码器将所述第一特征向量编码到词向量空间,得到所述第一特征向量的第二特征向量;
训练模块,用于将所述第二特征向量与所述分类标签输入到第三编码器中,对所述第三编码器进行训练,迭代第三编码器的损失函数,使所述第三编码器中隐含层向量满足同类型文本相似度大于不同类型文本相似度,得到目标编码网络;
输入模块,用于获取待处理的文本,将所述待处理的文本进行所述文本处理及所述文本分词后输入到所述目标编码网络,得到所述待处理的文本的文本向量。
本发明还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求一至七中任一项所述的一种文本向量获取方法的步骤。
本发明还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求一至七中任一项所述的一种文本向量获取方法的步骤。
本发明实现的有益效果:本发明由于通过对所述目标文本进行文本分词,基于所述第一编码器以及所述第二编码器,将所述特征文本进行编码得到所述第一特征向量以及与所述第一特征向量对应的所述第二特征向量(词向量),并将所述第二特征向量与所述分类标签输入到所述第三编码器进行训练,让所述第二特征向量被损坏或污染,将模型训练到满足同类型文本相似度大于不同类型文本的相似度,从而使得到的所述文本向量更稳定,由所述词向量构成的所述文本向量的表征能力增强。
附图说明
图1是本申请可以应用于其中的示例性***架构图;
图2是本发明实施例提供的文本向量获取方法的一个实施例的流程图;
图3是图2中S201的一种具体实施方式的流程图;
图4是图2中S201的另一种具体实施方式的流程图;
图5是图4中S401的一种具体实施方式的流程图;
图6是图2中S203的一种具体实施方式的流程图;
图7是图2中S204的一种具体实施方式的流程图;
图8是图2中S204的另一种具体实施方式的流程图;
图9是本发明实施例提供的一种文本向量获取装置的结构示意图;
图10是图9中所示处理模块的一种具体实施方式的结构示意图;
图11是图9中所示处理模块的另一种具体实施方式的结构示意图;
图12是图9中所示处理模块的另一种具体实施方式的结构示意图;
图13是图9中所示训练模块的一种具体实施方式的结构示意图;
图14是图9中所示训练模块的一种具体实施方式的结构示意图;
图15是本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明由于通过对目标文本进行文本分词,基于第一编码器以及第二编码器,将特征文本进行编码得到第一特征向量以及与第一特征向量对应的第二特征向量(词向量),并将第二特征向量与分类标签输入到第三编码器进行训练,让第二特征向量被损坏或污染,将模型训练到满足同类型文本相似度大于不同类型文本的相似度,从而使得到的文本向量更稳定,由词向量构成的文本向量的表征能力增强。
如图1所示,***架构100可以包括服务器105,网络102和终端设备101、102、103。网络104用以在服务器105和终端设备101、102、103之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等。终端设备101、102、103可以是具有显示屏,可以下载应用软件,可以进行文本显示等的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。客户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或获取信息等。
需要说明的是,本申请实施例所提供的一种文本向量获取方法可以由服务器/终端设备执行,相应地,一种文本向量获取装置可以设置于服务器/终端设备中。
应该理解,图1中的移动终端、网络和设备的数目仅仅是示意性的,根据实现需要,可以具有任意数目的移动终端、网络和服务器。
如图2所示,为根据本申请的一种文本向量获取方法所提供的一个实施例的流程图。上述的一种文本向量获取方法,包括步骤:
S201,对至少两种不同类型的已进行文本处理的目标文本进行文本分词,得到对应的特征文本,其中,文本包括分类标签与文本内容。
在本实施例中,一种文本向量获取方法运行于其上的电子设备(例如图1所示的移动终端)。其中,文本可以是对资讯分类下的文本,例如:新闻分类下的体育新闻、娱乐新闻等栏目下的文本;也可以是内容分类下的文本,例如:各论坛中不同板块中中的文本;当然,还也可以是保险分类下的文本或是其他形式的以自然语言形成的文本,在本发明实施例中,对此不作限定。分类标签可以用于说明文本的类型(也可以称为类目),文本内容可以是指以自然语言文字形成的文字信息。
具体的,上述的文本处理可以理解为对文本中的文本内容进行处理,将文本内容转换为便于计算机处理的自然语言文字,为了增加计算机处理的速度,对文本中的内容的格式及字符做出相应的处理,例如:将文本格式转换为TXT格式、去除无关词等。其中,对目标文本进行文本分词,可以使用分词工具对文本进行文本分词,得到对应的特征文本可以理解为对一个文本进行分词,可以得到多个词组,而特征文本包括多个词组。
S202,通过预先设置的第一编码器将特征文本编码到多维独热向量空间,得到特征文本的第一特征向量。
在本实施例中,上述第一编码器的编码规则可以是用户自行定义,也可以是使用网上公开的编码规则,上述第一编码器可以是one-hot(独热)编码器,可以将特征文本中的分词编码成one-hot向量,从而得到第一特征向量。上述将特征文本编码到多维独热向量空间,可以实现快速对特征文本的编码。
S203,通过预先设置的第二编码器将第一特征向量编码到词向量空间,得到第一特征向量的第二特征向量。
在本发明实施例中,利用深度学习方式,把文本转换为多维向量空间中的向量进行计算。上述的第二编码器可以是word2vec,将得到的特征文本的第一特征向量做为word2vec的输入向量进行编码,可以把第一特征向量映射到词向量空间,为文本数据寻求更加深层次的特征表示。可以使用word2vec中连续词袋模型将输入的第一特征向量进行预测,从而得到第二特征向量(词向量)。
S204,将第二特征向量与分类标签输入到第三编码器中,对第三编码器进行训练,迭代第三编码器的损失函数,使第三编码器中隐含层向量满足同类型文本相似度大于不同类型文本相似度,得到目标编码网络。
在本发明实施例中,隐含层可以不设置激活函数(Activation Function),即只需要隐含层的特征向量即可,第三编码器的损失函数可以为:
其中,函数LR()为基本损失函数的平方误差函数,LR(yn,xn)=‖yn-xn‖^2,LT(h0,h1,h2)=Sim(h0,h1)-Sim(h0,h2),α为0到1之间的实数,Sim()为内积函数。通过分类标签,直到计算结果让第三编码器中隐含层向量满足同类型文本相似度大于不同类型文本相似度,例如:X0与X1为相同文本类型,相似度为80%,X2与X0为不同文本类型,相似度为1%。当然,相似度还可以是指距离,例如:北京与天津为相同文本类型,北京与新疆为不同文本类型。这样,可以增强文本向量的表征能力。
S205,获取待处理的文本,将待处理的文本进行文本处理及文本分词后输入到目标编码网络,得到待处理的文本的文本向量。
在本发明实施例中,待处理的文本可以是需要根据文本信息进行特征提取的文本,可以是新增文本,比如用户新上传或新抓取到的文本。第三编码器的隐含层没有激活函数,可以是通过目标编码网络中第三编码器中隐含层可以得到待处理的文本的文本向量,既是通过将已完成文本处理以及文本分词后的待处理的文本,输入到完成训练的并可以完成分类的第三编码器中,得到具有分类属性的文本向量。
本发明由于通过对目标文本进行文本分词,基于第一编码器以及第二编码器的神经网络,将特征文本进行编码得到第一特征向量以及与第一特征向量对应的第二特征向量(词向量),并将第二特征向量与分类标签输入到第三编码器进行训练,让第二特征向量被损坏或污染,将模型训练到满足同类型文本相似度大于不同类型文本的相似度,再将获取到的待处理的文本进行文本处理以及文本分词后,输入到已经完成训练的第三编码器中进行编码,从而使得到的文本向量更稳定,增强词向量构成的文本向量的表征能力。
进一步地,如图3所示,S201的步骤包括:
S301,对文本进行去除标点符号处理,得到第一文本;
S302,对第一文本进行大写转小写处理,得到第二文本;
S303,对第二文本进行全角转半角处理,得到目标文本。
其中,可以通过“正则匹配”的正则表达式来处理字符串,可以用一些特定字符来描述字符串里字符出现的规则,从而匹配、提取或替换符合某一个规则的字符串,还可以用来查找、删除和替换字符串,查找速度快且精准。
具体地,运用符号表达式对文本进行匹配,当匹配到文本中存在标点符号时,对标点符号进行删除处理,得到删除处理后的第一文本,其中,符号表达式可以是指用于匹配文本中的标点符号的正则表达式,其具体的正则表达式可以是“\pP+~$`^=|<>~`$^+=|<>¥×]$”。例如:存在文本为:【健康】,晚上睡觉时,身体出现这些“表现”,可能是身体患有疾病。通过运用符号表达式“\pP+~$`^=|<>~`$^+=|<>¥×]$”对文本进行匹配,得到文本中存在符号为:“【】”,“,”““””,“!”,则将符号“【】”,“,”““””,“!”等进行删除后,得到处理后的第一文本为:健康晚上睡觉时身体出现这些表现可能是身体患有疾病。
更具体的,根据得到的第一文本,遍历第一文本中的每个字符,运用字母转换表达式对第一文本中的每个字符进行匹配,若匹配到字符为大写字母时,则可以是将大写字母转换成小写字符,直到所有字符匹配完成后,将匹配完成后的第一文本作为第二文本。其中,字母转换表达式可以是指专门用于匹配第一名称中的大写字母,并将大写字母转换成小写字母的正则表达式,其具体的正则表达式可以是$reg='/(\w+)/e'。然后,可以是将第二文本导入到预设的转换库中进行半角转换处理,得到转换处理后的目标文本,其中,预设转换库可以是指用于识别第二文本中的全角字符,并将全角字符转换成半角字符的数据库,其具体可以使用正则匹配进行处理,也可以使用预先设置好的脚本进行处理。
这样,通过对文本进行标点符号删除、子母大写转小写以及全角转半角的处理,从而得到一个目标文本,可以增强计算机的处理速度。
进一步地,如图4所示,S201的步骤还包括:
S401,通过分词器对目标文本进行分词处理,得到分词结果;以及
S402,将分词结果形成特征文本。
在本发明实施例中,可以是将目标文本导入到jieba(结巴)分词器中,选择分词模式进行分词,分词模式可以包括全模式、精准模式、新词识别、检索引擎模式等,其中,新词识别可以自定义添加新词,本实施方式优选精确模式进行分词。例如:若目标文本为:故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等,通过精确模式分词可以得到分词结果:故宫/的/著名景点/包括/乾/清宫/太和殿/和/黄/琉璃瓦/等。从而得到的分词结果可以作为一个特征文本。
这样,通过分词器对目标文本进行分词星辰与目标文本对应的特征文本,可以有利于编码器对特征文本进行编码。
进一步地,如图5所示,S401之后,包括步骤:
S501,通过预先设置的停用词库检测分词结果中是否存在停用词;
S502,若存在,则对停用词进行删除。
在本发明实施例中,可以是从预设停用词库中获取所有停用词,然后可以将分词结果中的各个分词与停用词进行比较,当匹配到分词结果中包含有与停用词中至少一个相同时,将分词结果中与停用词相同的分词进行删除处理,并将执行删除处理后的分词结果作为表示文本特征的分词结果;还可以是当检测到分词结果中不存在停用词时,可以直接将分词结果作为表示文本特征的分词结果。其中,预设停用词库是指可以用于存储停用词的数据库。
这样,通过将分词结果与停用词库中的停用词进行比较,进一步删除分词结果中出现的停用词,有利于获取到更具有文本特征的分词结果。
进一步地,如图6所示,S203的步骤包括:
S601,通过预先设置在第二编码器中输入层到隐含层的权值矩阵,对第一特征向量进行降维,得到隐含层的第二特征向量。
在本发明实施例中,权值矩阵可以实现对第一特征向量的降维,权值矩阵可以预先设置在第二编码器的输入层到隐含层之间。将第一特征向量进行降维,得到第二特征向量,第二特征向量用于表示词向量及数量,可以用矩阵的形式进行表示,词向量可以包括维度值(矩阵中的列数表示维度数量),词数量可以是词向量的数量(即词典中词语数量,即是矩阵中的行数。
这样,通过将第二特征向量编码到权值矩阵中进行降维,可以降低维度灾难,减少计算量。
进一步地,如图7所示,S204包括步骤:
S701,将第二特征向量与分类标签输入到降噪自动编码器中,对第二特征向量进行随机损坏,得到第三特征向量;
S702,基于第三特征向量对降噪自动编码器进行训练。
在本发明实施例中,将第二特征向量(词向量)与分类标签输入到降噪自动编码器中进行处理,使得词向量被污染或随机损坏,被污染或随机损坏后的词向量作为第三特征向量,然后通过第三特征向量对降噪自动编码器进行训练。
这样,在词向量被损坏或污染训练出的目标编码网络,得到的文本向量就更稳定,可以增加降噪自动编码器以及编码网络的鲁棒性,从而提高整个目标编码网络的鲁棒性。
进一步地,如图8所示,S204的步骤还包括:
S801,通过分类标签,计算各文本的文本向量之间的内积;
S802,对各文本的内积结果进行比较,得到各文本的相似度;
S803,根据各文本的相似度,形成目标编码网络,其中,目标编码网络包括第一编码器、第二编码器以及第三编码器。
在本发明实施例中,通过分类标签可以使得句子向量具有文本类型属性,上述的文本之间的内积可以是用来表示各文本之间的相似度,例如:有三种文本分别为x0、x1、x2,其中,x0、x1为相同类型文本,x0、x2为不同类型文本,则在第三编码器的隐含层中对应的特征向量(文本向量)分别为h0、h1、h2,通过训练调整权重,使得h0与h1的相似度大于h0与h2的相似度:
Sim(h0,h1)>Sim(h0,h2)
即x0为目标文本,x1为与x0相同类型的文本,X2为与X0不同类型的文本,即为每一个文本X找到至少一个相同类型和不同类型的文本。例如:X0为jpg格式,X1为jpg格式,X2为docx格式。
这样,根据分类标签让句子向量具有文本类型属性,然后通过计算已完成分类的各文本与目标文本之间的相似度,找到与目标文本的相同类型文本以及不同类型文本,使得文本的表征能力增强。
本发明由于通过对文本进行标点符号去除、大写转小写以及全角转半角的处理形成目标文本,进而对目标文本进行文本分词处理以及停用词的删除之后形成特征文本,基于第一编码器将特征文本编码到多维度热向量空间输出第一特征向量,然后基于第二编码器的神经网络,将第一特征向量输入到隐含层的权值矩阵进行降维后输出对应的第二特征向量(词向量),然后将第二特征向量与分类标签输入到降噪自动编码器进行训练,让第二特征向量被随机损坏或污染,计算文本之间的内积,比较内积结果,将模型训练到满足同类型文本相似度大于不同类型文本的相似度,使得到的文本具有文本类型属性,再将获取到的待处理的文本进行文本处理以及文本分词后,输入到已经完成训练的降噪自动编码器中进行编码,让对应的句子向量具有文本类型属性,从而使得由对应的词向量构成的文本向量更稳定,增强了词向量构成的文本向量的表征能力。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图9所示,为本实施例所提供的一种文本向量获取装置的结构示意图,上述装置900包括:处理模块901、第一编码模块902、第二编码模块903、训练模块904、输入模块905。其中:
处理模块901,用于对至少两种不同类型的文本进行文本处理得到目标文本,对所述目标文本进行文本分词,得到对应的特征文本,其中,所述文本包括分类标签与文本内容;
第一编码模块902,用于通过预先设置的第一编码器将特征文本编码到多维独热向量空间,得到特征文本的第一特征向量;
第二编码模块903,用于通过预先设置的第二编码器将第一特征向量编码到词向量空间,得到第一特征向量的第二特征向量;
训练模块904,用于将第二特征向量与分类标签输入到第三编码器中,对第三编码器进行训练,迭代第三编码器的损失函数,使第三编码器中隐含层向量满足同类型文本相似度大于不同类型文本相似度,得到目标编码网络;
输入模块905,用于获取待处理的文本,将待处理的文本进行文本处理及文本分词后输入到目标编码网络,得到待处理的文本的文本向量。
进一步地,如图10所示,为处理模块901的一种具体实施方式的结构示意图,包括:第一处理子模块9011、第二处理子模块9012、第三处理子模块9013。其中,
第一处理子模块9011,用于对文本进行去除标点符号处理,得到第一文本;
第二处理子模块9012,用于对第一文本进行大写转小写处理,得到第二文本;
第三处理子模块9013,用于对第二文本进行全角转半角处理,得到目标文本。
进一步地,如图11所示,为处理模块901的另一种具体实施方式的结构示意图,还包括:分词子模块9014、第一生成子模块9015。其中,
分词子模块9014,用于通过分词器对目标文本进行分词处理,得到分词结果;以及;
第一生成子模块9015,用于将分词结果形成特征文本。
进一步地,如图12所示,为处理模块901的另一种具体实施方式的结构示意图,还包括:检测子模块9016、删除子模块9017。其中,
检测子模块9016,用于通过预先设置的停用词库检测分词结果中是否存在停用词;
删除子模块9017,用于若存在,则对停用词进行删除。
进一步地,第二编码模块903还用于通过预先设置在第二编码器中输入层到隐含层的权值矩阵,对第一特征向量进行降维,得到隐含层的第二特征向量。
进一步地,如图13所示,为训练模块904的一种具体实施方式的结构示意图,包括:输入子模块9041、训练子模块9042。其中,
输入子模块9041,用于将第二特征向量与分类标签输入到降噪自动编码器中,对第二特征向量进行随机损坏,得到第三特征向量;
训练子模块9042,用于基于第三特征向量对降噪自动编码器进行训练。
进一步地,如图14所示,为训练模块904的另一种具体实施方式的结构示意图,包括:计算子模块9043、比较子模块9044、第二生成子模块9045。其中,
计算子模块9043,用于通过分类标签,计算各文本的文本向量之间的内积;
比较子模块9044,用于对各文本的内积结果进行比较,得到各文本的相似度
第二生成子模块9045,用于根据各文本的相似度,形成目标编码网络,其中,目标编码网络包括第一编码器、第二编码器以及第三编码器。
本申请实施例提供的一种文本向量获取装置能够实现图2至图8的方法实施例中的各个实施方式,以及相应有益效果,为避免重复,这里不再赘述。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图15,图15为本实施例计算机设备基本结构框图。
计算机设备15包括通过***总线相互通信连接存储器151、处理器152、网络接口153。需要指出的是,图中仅示出了具有组件151-153的计算机设备15,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
存储器151至少包括一种类型的可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器151可以是计算机设备15的内部存储单元,例如该计算机设备15的硬盘或内存。在另一些实施例中,存储器151也可以是计算机设备15的外部存储设备,例如该计算机设备15上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器151还可以既包括计算机设备15的内部存储单元也包括其外部存储设备。本实施例中,存储器151通常用于存储安装于计算机设备15的操作***和各类应用软件,例如一种文本向量获取方法的程序代码等。此外,存储器151还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器152在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器152通常用于控制计算机设备15的总体操作。本实施例中,处理器152用于运行存储器151中存储的程序代码或者处理数据,例如运行一种文本向量获取方法的程序代码。
网络接口153可包括无线网络接口或有线网络接口,该网络接口153通常用于在计算机设备15与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,计算机可读存储介质存储有一种文本向量获取程序,上述一种文本向量获取程序可被至少一个处理器执行,以使至少一个处理器执行如上述的一种文本向量获取方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例的一种文本向量获取方法。
本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文本向量获取方法,其特征在于,包括步骤:
对至少两种不同类型的文本进行文本处理得到目标文本,对所述目标文本进行文本分词,得到对应的特征文本,其中,所述文本包括分类标签与文本内容;
通过预先设置的第一编码器将所述特征文本编码到多维独热向量空间,得到所述特征文本的第一特征向量;
通过预先设置的第二编码器将所述第一特征向量编码到词向量空间,得到所述第一特征向量的第二特征向量;
将所述第二特征向量与所述分类标签输入到第三编码器中,对所述第三编码器进行训练,迭代第三编码器的损失函数,使所述第三编码器中隐含层向量满足同类型文本相似度大于不同类型文本相似度,得到目标编码网络;
获取待处理的文本,将所述待处理的文本进行所述文本处理及所述文本分词后输入到所述目标编码网络,得到所述待处理的文本的文本向量。
2.根据权利要求1所述的一种文本向量获取方法,其特征在于,所述对至少两种不同类型的文本进行文本处理得到目标文本的步骤包括:
对文本进行去除标点符号处理,得到第一文本;
对所述第一文本进行大写转小写处理,得到第二文本;
对所述第二文本进行全角转半角处理,得到目标文本。
3.根据权利要求1所述的一种文本向量获取方法,其特征在于,所述对目标文本进行文本分词,得到对应的特征文本的步骤包括:
通过分词器对所述目标文本进行分词处理,得到分词结果;以及
将分词结果形成特征文本。
4.根据权利要求3所述的一种文本向量获取方法,其特征在于,所述得到分词结果之后,包括步骤:
通过预先设置的停用词库检测所述分词结果中是否存在停用词;
若存在,则对所述停用词进行删除。
5.根据权利要求1所述的一种文本向量获取方法,其特征在于,所述通过预先设置的第二编码器将所述第一特征向量编码到词向量空间,得到所述第一特征向量的第二特征向量的步骤包括:
通过预先设置在第二编码器中输入层到隐含层的权值矩阵,对所述第一特征向量进行降维,得到所述隐含层的第二特征向量。
6.根据权利要求1所述的一种文本向量获取方法,其特征在于,所述将所述第二特征向量与所述分类标签输入到第三编码器中,对所述第三编码器进行训练包括步骤:
将所述第二特征向量与所述分类标签输入到降噪自动编码器中,对所述第二特征向量进行随机损坏,得到第三特征向量;
基于所述第三特征向量对所述降噪自动编码器进行训练。
7.根据权利要求1所述的一种文本向量获取方法,其特征在于,所述迭代第三编码器的损失函数,使所述第三编码器中隐含层向量满足同类型文本相似度大于不同类型文本相似度,得到目标编码网络的步骤包括:
通过所述分类标签,计算各文本的文本向量之间的内积;
对各文本的内积结果进行比较,得到各文本的相似度;
根据所述各文本的相似度,形成所述目标编码网络,其中,所述目标编码网络包括所述第一编码器、第二编码器以及第三编码器。
8.一种文本向量获取装置,其特征在于,包括:
处理模块,对至少两种不同类型的文本进行文本处理得到目标文本,对所述目标文本进行文本分词,得到对应的特征文本,其中,所述文本包括分类标签与文本内容;
第一编码模块,用于通过预先设置的第一编码器将所述特征文本编码到多维独热向量空间,得到所述特征文本的第一特征向量;
第二编码模块,用于通过预先设置的第二编码器将所述第一特征向量编码到词向量空间,得到所述第一特征向量的第二特征向量;
训练模块,用于将所述第二特征向量与所述分类标签输入到第三编码器中,对所述第三编码器进行训练,迭代第三编码器的损失函数,使所述第三编码器中隐含层向量满足同类型文本相似度大于不同类型文本相似度,得到目标编码网络;
输入模块,用于获取待处理的文本,将所述待处理的文本进行所述文本处理及所述文本分词后输入到所述目标编码网络,得到所述待处理的文本的文本向量。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的一种文本向量获取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的一种文本向量获取方法的步骤。
CN201910637101.2A 2019-07-15 2019-07-15 一种文本向量获取方法、装置、计算机设备及存储介质 Active CN110532381B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910637101.2A CN110532381B (zh) 2019-07-15 2019-07-15 一种文本向量获取方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910637101.2A CN110532381B (zh) 2019-07-15 2019-07-15 一种文本向量获取方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110532381A true CN110532381A (zh) 2019-12-03
CN110532381B CN110532381B (zh) 2023-09-26

Family

ID=68660195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910637101.2A Active CN110532381B (zh) 2019-07-15 2019-07-15 一种文本向量获取方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110532381B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990837A (zh) * 2020-02-29 2020-04-10 网御安全技术(深圳)有限公司 ***调用行为序列降维方法、***、设备和存储介质
CN111079442A (zh) * 2019-12-20 2020-04-28 北京百度网讯科技有限公司 文档的向量化表示方法、装置和计算机设备
CN111445545A (zh) * 2020-02-27 2020-07-24 北京大米未来科技有限公司 一种文本转贴图方法、装置、存储介质及电子设备
CN112214965A (zh) * 2020-10-21 2021-01-12 科大讯飞股份有限公司 大小写规整方法、装置、电子设备和存储介质
CN112528681A (zh) * 2020-12-18 2021-03-19 北京百度网讯科技有限公司 跨语言检索及模型训练方法、装置、设备和存储介质
CN112749530A (zh) * 2021-01-11 2021-05-04 北京光速斑马数据科技有限公司 文本编码方法、装置、设备及计算机可读存储介质
WO2021134416A1 (zh) * 2019-12-31 2021-07-08 深圳市优必选科技股份有限公司 文本转换方法、装置、计算机设备和计算机可读存储介质
WO2021143020A1 (zh) * 2020-01-14 2021-07-22 平安科技(深圳)有限公司 不良用语识别方法、装置、电子装置及存储介质
CN113657104A (zh) * 2021-08-31 2021-11-16 平安医疗健康管理股份有限公司 文本抽取方法、装置、计算机设备及存储介质
CN115047894A (zh) * 2022-04-14 2022-09-13 中国民用航空总局第二研究所 一种无人机轨迹测算方法、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180121801A1 (en) * 2016-10-28 2018-05-03 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for classifying questions based on artificial intelligence
CN109408702A (zh) * 2018-08-29 2019-03-01 昆明理工大学 一种基于稀疏边缘降噪自动编码的混合推荐方法
CN109582786A (zh) * 2018-10-31 2019-04-05 中国科学院深圳先进技术研究院 一种基于自动编码的文本表示学习方法、***及电子设备
CN109885826A (zh) * 2019-01-07 2019-06-14 平安科技(深圳)有限公司 文本词向量获取方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180121801A1 (en) * 2016-10-28 2018-05-03 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for classifying questions based on artificial intelligence
CN109408702A (zh) * 2018-08-29 2019-03-01 昆明理工大学 一种基于稀疏边缘降噪自动编码的混合推荐方法
CN109582786A (zh) * 2018-10-31 2019-04-05 中国科学院深圳先进技术研究院 一种基于自动编码的文本表示学习方法、***及电子设备
CN109885826A (zh) * 2019-01-07 2019-06-14 平安科技(深圳)有限公司 文本词向量获取方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张素智 等: ""面向聚类的堆叠降噪自动编码器的特征提取研究"", 《现代计算机》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079442A (zh) * 2019-12-20 2020-04-28 北京百度网讯科技有限公司 文档的向量化表示方法、装置和计算机设备
US11403468B2 (en) 2019-12-20 2022-08-02 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating vector representation of text, and related computer device
CN111079442B (zh) * 2019-12-20 2021-05-18 北京百度网讯科技有限公司 文档的向量化表示方法、装置和计算机设备
WO2021134416A1 (zh) * 2019-12-31 2021-07-08 深圳市优必选科技股份有限公司 文本转换方法、装置、计算机设备和计算机可读存储介质
WO2021143020A1 (zh) * 2020-01-14 2021-07-22 平安科技(深圳)有限公司 不良用语识别方法、装置、电子装置及存储介质
CN111445545A (zh) * 2020-02-27 2020-07-24 北京大米未来科技有限公司 一种文本转贴图方法、装置、存储介质及电子设备
CN111445545B (zh) * 2020-02-27 2023-08-18 北京大米未来科技有限公司 一种文本转贴图方法、装置、存储介质及电子设备
CN110990837B (zh) * 2020-02-29 2023-03-24 网御安全技术(深圳)有限公司 ***调用行为序列降维方法、***、设备和存储介质
CN110990837A (zh) * 2020-02-29 2020-04-10 网御安全技术(深圳)有限公司 ***调用行为序列降维方法、***、设备和存储介质
CN112214965A (zh) * 2020-10-21 2021-01-12 科大讯飞股份有限公司 大小写规整方法、装置、电子设备和存储介质
CN112528681A (zh) * 2020-12-18 2021-03-19 北京百度网讯科技有限公司 跨语言检索及模型训练方法、装置、设备和存储介质
CN112749530A (zh) * 2021-01-11 2021-05-04 北京光速斑马数据科技有限公司 文本编码方法、装置、设备及计算机可读存储介质
CN112749530B (zh) * 2021-01-11 2023-12-19 北京光速斑马数据科技有限公司 文本编码方法、装置、设备及计算机可读存储介质
CN113657104A (zh) * 2021-08-31 2021-11-16 平安医疗健康管理股份有限公司 文本抽取方法、装置、计算机设备及存储介质
CN115047894A (zh) * 2022-04-14 2022-09-13 中国民用航空总局第二研究所 一种无人机轨迹测算方法、电子设备及存储介质
CN115047894B (zh) * 2022-04-14 2023-09-15 中国民用航空总局第二研究所 一种无人机轨迹测算方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN110532381B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN110532381A (zh) 一种文本向量获取方法、装置、计算机设备及存储介质
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与***
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
CN113434636B (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN110866098B (zh) 基于transformer和lstm的机器阅读方法、装置及可读存储介质
CN109635297A (zh) 一种实体消歧方法、装置、计算机装置及计算机存储介质
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN111737997A (zh) 一种文本相似度确定方法、设备及储存介质
WO2021051934A1 (zh) 基于人工智能的合同关键条款提取方法、装置及存储介质
CN111488732A (zh) 一种变形关键词检测方法、***及相关设备
CN113505601A (zh) 一种正负样本对构造方法、装置、计算机设备及存储介质
CN112084342A (zh) 试题生成方法、装置、计算机设备及存储介质
CN112329463A (zh) 遥监督关系抽取模型的训练方法及相关装置
CN110222144B (zh) 文本内容提取方法、装置、电子设备及存储介质
CN110019674A (zh) 一种文本抄袭检测方法及***
Nguyen et al. A feature-word-topic model for image annotation
CN112307200A (zh) 情感属性获取方法、装置、设备、及存储介质
CN114722774B (zh) 数据压缩方法、装置、电子设备及存储介质
CN115730237A (zh) 垃圾邮件检测方法、装置、计算机设备及存储介质
CN113032523B (zh) 三元组信息的抽取方法、装置、电子设备和存储介质
CN114398903A (zh) 意图识别方法、装置、电子设备及存储介质
CN107168627A (zh) 用于触摸屏的文本编辑方法和装置
CN103106239A (zh) 一种图像中对象的识别方法和装置
CN112507388A (zh) 基于隐私保护的word2vec模型训练方法、装置及***
CN114764858B (zh) 一种复制粘贴图像识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant