CN109635303A - 特定领域意义改变词的识别方法 - Google Patents
特定领域意义改变词的识别方法 Download PDFInfo
- Publication number
- CN109635303A CN109635303A CN201811578060.6A CN201811578060A CN109635303A CN 109635303 A CN109635303 A CN 109635303A CN 201811578060 A CN201811578060 A CN 201811578060A CN 109635303 A CN109635303 A CN 109635303A
- Authority
- CN
- China
- Prior art keywords
- word
- specific
- words
- text
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000012512 characterization method Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 15
- 230000009193 crawling Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000003780 insertion Methods 0.000 abstract 2
- 230000037431 insertion Effects 0.000 abstract 2
- 230000007423 decrease Effects 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 241001591024 Samea Species 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种特定领域意义改变词的识别方法,包括:从含有用户生成文本的网站上爬取一定量的特定领域文本数据及相应的图像数据,并从正常语料中爬取相应的正常文本;使用基于词嵌入的语言模型获取正常文本的表征,作为词初始表征,并结合所爬取的特定领域文本数据及相应的图像数据构建基于嵌入的深度自编码网络模型,并使用梯度下降策略训练该深度自编码网络模型;深度自编码网络模型训练完成后,获得所有特定领域词的词向量表征,分别计算与对应词初始表征的距离,并按照距离从大到小排序,取排序前K个次作为特定领域意义改变词。通过上述方法可以准确的识别特定领域文本中存在的意义不同的词,从而为下游应用,如构建领域专有词汇表等提供帮助。
Description
技术领域
本发明涉及机器学习和自然语言处理领域,尤其涉及一种特定领域意义改变词的识别方法。
背景技术
近年来,互联网的高速发展见证了用户生成内容(UGC)的蓬勃发展。其中,用户生成文本扮演了一个重要的角色,例如朋友圈、微博、视频评论等等。在这类文本中,有一个非常有趣的现象是用户经常会使用一些传统语料中已有的但是意义不同的词,即所谓的旧词新意,例如狗粮这个词,经常用于被秀恩爱的场景,而非其原本含义,而这类词称为特定领域意义改变词。如何识别该类词对于用户生成文本的理解是非常关键的。
然而,对于这个现象还未有太多的研究,多数相关的研究集中于网络新词的发现或者同义词的识别,不能直接应用于这个问题。
发明内容
本发明的目的是提供一种特定领域意义改变词的识别方法,可以充分利用词语语境和相应的图像内容来解决该类词识别问题。
本发明的目的是通过以下技术方案实现的:
一种特定领域意义改变词的识别方法,包括:
从含有用户生成文本的网站上爬取一定量的特定领域文本数据及相应的图像数据,并从正常语料中爬取相应的正常文本;
使用基于词嵌入的语言模型获取正常文本的词表征,作为词初始表征,并结合所爬取的特定领域文本数据及相应的图像数据构建基于嵌入的深度自编码网络模型,并使用梯度下降策略训练该深度自编码网络模型;
深度自编码网络模型训练完成后,获得所有特定领域词的词向量表征,分别计算与对应词初始表征的距离,并按照距离从大到小排序,取排序前K个次作为特定领域意义改变词。
由上述本发明提供的技术方案可以看出,同时使用正常文本和特定领域文本,借助基于嵌入的深度自编码网络框架,并且融入了图片的信息,从而可以准确的识别特定领域文本中存在的意义不同的词,从而为下游应用,如构建领域专有词汇表等提供帮助。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种特定领域意义改变词的识别方法的流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种特定领域意义改变词的识别方法,如图1所示,其主要包括如下步骤:
步骤1、从含有用户生成文本的网站上爬取一定量的特定领域文本数据及相应的图像数据,并从正常语料中爬取相应的正常文本。
举例来说,所述从含有用户生成文本的网站上爬取一定量的特定领域文本数据及相应的图像数据可以包括:从在线视频网站中爬取一定量的弹幕数据,对于每一条弹幕,都有其对应的文本数据以及相应的帧图像数据。当然,也可以从其他类型的网站爬取其他形式的特定领域文本数据及相应的图像数据,所爬取的具体数量可根据实际需求或者经验来设定,本发明不做限定。
举例来说,可以将中文***数据作为正常文本语料。
此外,为了便于后续处理,还可以对爬取到的特定领域文本数据及相应的图像数据,以及正常文本进行预处理,以爬取的弹幕数据为例,预处理的优选实施方式如下:
1)提取关键帧:根据图片的颜色描述符,使用affinity propagation聚类算法,并且将聚类核心作为关键帧,同时过滤包含弹幕文本条数少于设定值的关键帧,得到过滤后的关键帧所对应的图像数据,以及所包含的弹幕文本数据。
本领域技术人员可以理解,原始数据中一帧图像数据中包含的弹幕(弹幕文本)可能过少,因而,通过上述过滤处理后,每一个关键帧所对应的图像数据中都包含了数量大于设定值的弹幕文本,过滤时所涉及的设定值可以根据实际要求来设定。
2)对上个步骤中获得的特定领域文本数据(即弹幕文本),借助基于重叠度的新词发现算法提取了相应的新词,将其加入分词工具的词典。
由于预处理的最终目的是为了对文字进行分词,然而弹幕文本中包含非常多的新词,会对分词结果产生干扰,所以,本步骤需要提取新词。
3)对爬取到的正常文本进行分词,对于关键帧过滤后所保留的特定领域文本数据使用新词的词典进行分词处理。
本发明实施例中,分词处理方式可使用常规工具实现,如jieba分词工具。
步骤2、使用基于词嵌入的语言模型获取正常文本的词表征,作为词初始表征,并结合所爬取的特定领域文本数据及相应的图像数据构建基于嵌入的深度自编码网络模型,并使用梯度下降策略训练该模型。
本领域技术人员可以理解,此处提到的爬取的特定领域文本数据及相应的图像数据是指经过预处理后的特定领域文本数据及相应的图像数据。
一、模型结构。
本发明实施例中,所述基于嵌入的深度自编码网络模型包括:表征层、编码-解码层、以及词提取层。
1、表征层。
所述表征层,用于将输入信息表征为一个固定长度的向量。
1)对于图像数据,使用已有的VGG-16网络的倒数第二层输出作为其向量表征vv。
2)对于正常文本中的词,使用Word2Vec获取其表征,作为词初始表征。
3)对于特定领域文本数据,可以认为其只是在正常文本基础上,对部分词进行了意义改变。由此,可以利用词初始表征来构建特定领域文本数据的词表征,即特定领域词的表征可以通过在相应正常文本的词表征基础上与一个向量结合得到,这个结合的向量即为该特定领域词相对于正常文本的偏移量,表示为:
其中,为第i个特定领域词的one-hot表示;Wemb为词嵌入层的网络参数,f是嵌入层的激活函数,在本发明例中为ReLU激活函数;为第i个正常文本的词初始表征,当正常文本不包含特定领域的某个词时,可以将其简单的置为0;表示向量结合方式,在本发明例中为向量加法;为第i个特定领域词的向量表征。
本领域技术人员可以理解,文中所述的特定领域词及相应的正常文本是指二者文本内容相同。
2、编码-解码层。
所述编码-解码层是通过已获得的特定领域词的向量表征获取句子向量表征,并将句子向量表征与已经获得的图片向量表征嵌入到同一个空间;编码器和解码器由门循环单元网络(Gated Recurrent Unit)实现,假设某一时刻输入的特定领域词的向量表征为xt,上一时刻的隐状态为ht-1,则具体计算过程如下:
rt=σ(Wr[ht-1,xt])
zt=σ(Wz[ht-1,xt])
上式中,rt和zt分别为重置门和更新门,更新门zt用于控制上一时刻的隐状态ht-1被带入到当前时刻的隐状态ht中的程度,更新门zt的值越大说明上一时刻的隐状态ht-1的信息带入越多,重置门rt用于控制忽略上一时刻的隐状态ht-1的程度,重置门rt的值越小说明忽略得越多;是一个结合了重置门rt和输入xt的中间变量,[]表示两个向量拼接;σ和tanh分别表示sigmoid和tanh非线性激活函数;*表示矩阵对应元素相乘;Wr、Wz、是待优化的参数。
所述编码-解码层中,首先使用一个编码器,把特定领域词的向量表征序列作为输入,得到一系列对应的隐状态输出,其中将最后一个隐状态向量vs作为相应的句子向量表征;然后相应的句子向量表征作为解码器的初始状态输入,重构表征层中特定领域词的输入,即相应特定领域词的one-hot表示;解码器的工作表示为:
其中,是表示句子开始的特殊向量,可以设置为0向量;zi表示解码器的第i个隐状态向量;表示重构为第i个特定领域词的概率分布;Wout和bout是输出层的网络参数,输出层是指在解码器之后的一层,作用是将解码器的每个隐状态转换为对应的每个特定领域词的概率分布;f是嵌入层的激活函数;
获取了解码器的输出以后,重构损失通过下面的式子计算:
其中,Su是输入至编码器的特定领域词的向量表征序列(也即,一个句子向量表征),其长度为n(即包含n个特定领域词),P(Su|vs)是指Su与vs下的条件概率分布;
使用一个正交矩阵G把图像数据的向量Gvv表征到文本空间,损失函数如下:
上式中,dist为距离损失函数;
最终损失函数为:
上式中,最后一项‖GTG-I‖F为对正交矩阵G的正交性约束,I为单位矩阵,α与β为设定的两个权值。
3、词提取层。
词提取层,用于在深度自编码网络模型训练完成后,提取特定领域意义改变词。
二、模型训练。
本发明实施例中,利用最终损失函数,并使用基于minibatch的随机梯度下降优化算法训练模型中的所有参数包括:表征层中所涉及的词嵌入层的网络参数Wemb,编码-解码层所涉及的参数Wr、Wz、以及输出层的网络参数Wout和bout。
步骤3、深度自编码网络模型训练完成后,获得所有特定领域词的词向量表征,分别计算与对应词初始表征的距离,并按照距离从大到小排序,取排序前K个词作为特定领域意义改变词。
本步骤所获得的结果也即深度自编码网络模型中词提取层的输出结果。
示例性的,所计算的向量表征之间的距离可以选择余弦距离;K是一个预先设定的阈值,可以根据实际情况来设定。
本发明实施例上述方案,可以充分利用词语语境和相应的图像内容来解决该类词识别问题;同时,同时使用正常文本和特定领域文本,借助基于嵌入的深度自编码网络框架,并且融入了图片的信息,从而可以准确的识别特定领域文本中存在的意义不同的词,由此为下游应用,如构建领域专有词汇表等提供帮助。对于识别的结果,在多个评价指标上有一定的提高。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (6)
1.一种特定领域意义改变词的识别方法,其特征在于,包括:
从含有用户生成文本的网站上爬取一定量的特定领域文本数据及相应的图像数据,并从正常语料中爬取相应的正常文本;
使用基于词嵌入的语言模型获取正常文本的词表征,作为词初始表征,并结合所爬取的特定领域文本数据及相应的图像数据构建基于嵌入的深度自编码网络模型,并使用梯度下降策略训练该深度自编码网络模型;
深度自编码网络模型训练完成后,获得所有特定领域词的词向量表征,分别计算与对应词初始表征的距离,并按照距离从大到小排序,取排序前K个次作为特定领域意义改变词。
2.根据权利要求1所述的一种特定领域意义改变词的识别方法,其特征在于,所述从含有用户生成文本的网站上爬取一定量的特定领域文本数据及相应的图像数据包括:从在线视频网站中爬取一定量的弹幕数据,对于每一条弹幕,都有其对应的特定领域文本数据以及相应的帧图像数据。
3.根据权利要求1所述的一种特定领域意义改变词的识别方法,其特征在于,构建基于嵌入的深度自编码网络模型之前还包括对爬取的特定领域文本数据及相应的图像数据,以及正常文本进行预处理的过程,其步骤包括:
提取关键帧:根据图片的颜色描述符,使用affinity propagation聚类算法,并且将聚类核心作为关键帧,同时过滤包含弹幕文本条数少于设定值的关键帧,得到过滤后的关键帧所对应的图像数据,以及所包含的弹幕文本数据;
对上个步骤获得的特定领域文本数据,即弹幕文本数据,借助基于重叠度的新词发现算法提取了相应的新词,将其加入分词工具的词典;
对爬取到的正常文本进行分词,对于关键帧过滤后所保留的特定领域文本数据使用新词的词典进行分词处理。
4.根据权利要求1或3所述的一种特定领域意义改变词的识别方法,其特征在于,所述基于嵌入的深度自编码网络模型包括:表征层、编码-解码层、以及词提取层;
所述表征层,用于将输入信息表征为一个固定长度的向量;对于图像数据,使用已有的VGG-16网络的倒数第二层输出作为其向量表征vv;对于正常文本中的词,使用Word2Vec获取其表征,作为词初始表征;对于特定领域文本数据,利用词初始表征来构建特定领域文本数据的词表征,表示为:其中,为第i个特定领域词的one-hot表示;Wemb为词嵌入层的网络参数,f是嵌入层的激活函数,为第i个正常文本的词初始表征,表示向量结合方式,为第i个特定领域词的向量表征;
所述编码-解码层是通过已获得的词向量表征获取句子向量表征,并将句子向量表征与已经获得的图片向量表征嵌入到同一个空间;编码器和解码器由门循环单元网络实现,假设某一时刻输入的特定领域词的向量表征为xt,上一时刻的隐状态为ht-1,则具体计算过程如下:
rt=σ(Wr[ht-1,xt])
zt=σ(Wz[ht-1,xt])
上式中,rt和zt分别为重置门和更新门,更新门zt用于控制上一时刻的隐状态ht-1被带入到当前时刻的隐状态ht中的程度,更新门zt的值越大说明上一时刻的隐状态ht-1的信息带入越多,重置门rt用于控制忽略上一时刻的隐状态ht-1的程度,重置门rt的值越小说明忽略得越多;是一个中间变量,[]表示两个向量拼接;σ和tanh分别表示sigmoid和tanh非线性激活函数;*表示矩阵对应元素相乘;Wr、Wz、是待优化的参数;
词提取层,用于在深度自编码网络模型训练完成后,提取特定领域意义改变词。
5.根据权利要求4所述的一种特定领域意义改变词的识别方法,其特征在于,所述编码-解码层中,首先使用一个编码器,把特定领域词的向量表征序列作为输入,得到一系列对应的隐状态输出,其中将最后一个隐状态向量vs作为相应的句子向量表征;然后把相应的句子向量表征作为解码器的初始状态输入,重构表征层中特定领域词的输入,即相应特定领域词的one-hot表示;解码器的工作表示为:
其中,是表示句子开始的特殊向量;zi表示解码器的第i个隐状态向量;表示重构为第i个特定领域词的概率分布;Wout和bout是输出层的网络参数,输出层是指在解码器之后的一层,作用是将解码器的每个隐状态转换为对应的每个特定领域词的概率分布;f是嵌入层的激活函数;
获取了解码器的输出以后,重构损失通过下面的式子计算:
其中,Su是输入至编码器的特定领域词的向量表征序列,其长度为n,P(Su|vs)是指Su与vs下的条件概率分布;
使用一个正交矩阵G把图像数据的向量Gvv表征到文本空间,损失函数如下:
上式中,dist为距离损失函数;
最终损失函数为:
上式中,最后一项‖GTG-I‖F为对正交矩阵G的正交性约束,I为单位矩阵,α与β为设定的两个权值。
6.根据权利要求5所述的一种特定领域意义改变词的识别方法,其特征在于,利用最终损失函数,并使用基于minibatch的随机梯度下降优化算法训练模型中的所有参数包括:表征层中所涉及的词嵌入层的网络参数Wemb,编码-解码层所涉及的参数Wr、Wz、以及输出层的网络参数Wout和bout。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811578060.6A CN109635303B (zh) | 2018-12-19 | 2018-12-19 | 特定领域意义改变词的识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811578060.6A CN109635303B (zh) | 2018-12-19 | 2018-12-19 | 特定领域意义改变词的识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109635303A true CN109635303A (zh) | 2019-04-16 |
CN109635303B CN109635303B (zh) | 2020-08-25 |
Family
ID=66076676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811578060.6A Active CN109635303B (zh) | 2018-12-19 | 2018-12-19 | 特定领域意义改变词的识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109635303B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110297903A (zh) * | 2019-06-11 | 2019-10-01 | 昆明理工大学 | 一种基于不对等语料的跨语言词嵌入方法 |
CN113011177A (zh) * | 2021-03-15 | 2021-06-22 | 北京百度网讯科技有限公司 | 模型训练和词向量确定方法、装置、设备、介质和产品 |
CN114022887A (zh) * | 2022-01-04 | 2022-02-08 | 北京世纪好未来教育科技有限公司 | 文本识别模型训练及文本识别方法、装置、电子设备 |
CN114398856A (zh) * | 2022-01-19 | 2022-04-26 | 广州启辰电子科技有限公司 | 基于深度解耦框架的图文编码方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104392456A (zh) * | 2014-12-09 | 2015-03-04 | 西安电子科技大学 | 基于深度自编码器和区域图的sar图像分割方法 |
JP2015220610A (ja) * | 2014-05-16 | 2015-12-07 | 株式会社ドワンゴ | コメント表示装置、コメント配信装置、コメント表示システム、コメント表示方法及びプログラム |
CN105578222A (zh) * | 2016-02-01 | 2016-05-11 | 百度在线网络技术(北京)有限公司 | 一种信息推送方法和装置 |
US20160246776A1 (en) * | 2015-02-02 | 2016-08-25 | Linkedin Corporation | Modifying a tokenizer based on pseudo data for natural language processing |
CN106778921A (zh) * | 2017-02-15 | 2017-05-31 | 张烜 | 基于深度学习编码模型的人员再识别方法 |
CN108053027A (zh) * | 2017-12-18 | 2018-05-18 | 中山大学 | 一种加速深度神经网络的方法及装置 |
CN108304359A (zh) * | 2018-02-06 | 2018-07-20 | 中国传媒大学 | 无监督学习统一特征提取器构建方法 |
-
2018
- 2018-12-19 CN CN201811578060.6A patent/CN109635303B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015220610A (ja) * | 2014-05-16 | 2015-12-07 | 株式会社ドワンゴ | コメント表示装置、コメント配信装置、コメント表示システム、コメント表示方法及びプログラム |
CN104392456A (zh) * | 2014-12-09 | 2015-03-04 | 西安电子科技大学 | 基于深度自编码器和区域图的sar图像分割方法 |
US20160246776A1 (en) * | 2015-02-02 | 2016-08-25 | Linkedin Corporation | Modifying a tokenizer based on pseudo data for natural language processing |
CN105578222A (zh) * | 2016-02-01 | 2016-05-11 | 百度在线网络技术(北京)有限公司 | 一种信息推送方法和装置 |
CN106778921A (zh) * | 2017-02-15 | 2017-05-31 | 张烜 | 基于深度学习编码模型的人员再识别方法 |
CN108053027A (zh) * | 2017-12-18 | 2018-05-18 | 中山大学 | 一种加速深度神经网络的方法及装置 |
CN108304359A (zh) * | 2018-02-06 | 2018-07-20 | 中国传媒大学 | 无监督学习统一特征提取器构建方法 |
Non-Patent Citations (7)
Title |
---|
尚琪: "特定领域实体属性关系抽取方法研究", 《中国优秀硕士学位论文全文数据库》 * |
杨海乐: "面向视频网站用户行为的数据预处理技术研究与应用", 《中国优秀硕士学位论文全文数据库》 * |
汪沛: "基于领域知识图谱的个性化推荐方法研究", 《中国优秀硕士学位论文全文数据库》 * |
王佳琪: "基于弹幕视频网站的弹幕文化研究", 《中国优秀硕士学位论文全文数据库》 * |
王旭阳等: "特定领域概念属性关系抽取方法研究", 《吉林大学学报》 * |
邓扬: "基于弹幕情感分析的视频片段推荐模型", 《计算机应用》 * |
郑飏飏: "情感分析及可视化方法在网络视频弹幕数据分析中的应用", 《现代图书情报技术》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110297903A (zh) * | 2019-06-11 | 2019-10-01 | 昆明理工大学 | 一种基于不对等语料的跨语言词嵌入方法 |
CN110297903B (zh) * | 2019-06-11 | 2021-04-30 | 昆明理工大学 | 一种基于不对等语料的跨语言词嵌入方法 |
CN113011177A (zh) * | 2021-03-15 | 2021-06-22 | 北京百度网讯科技有限公司 | 模型训练和词向量确定方法、装置、设备、介质和产品 |
CN113011177B (zh) * | 2021-03-15 | 2023-09-29 | 北京百度网讯科技有限公司 | 模型训练和词向量确定方法、装置、设备、介质和产品 |
CN114022887A (zh) * | 2022-01-04 | 2022-02-08 | 北京世纪好未来教育科技有限公司 | 文本识别模型训练及文本识别方法、装置、电子设备 |
CN114398856A (zh) * | 2022-01-19 | 2022-04-26 | 广州启辰电子科技有限公司 | 基于深度解耦框架的图文编码方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109635303B (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN109635303B (zh) | 特定领域意义改变词的识别方法 | |
CN108986186B (zh) | 文字转化视频的方法和*** | |
CN110929515B (zh) | 基于协同注意力和自适应调整的阅读理解方法及*** | |
CN110674410B (zh) | 用户画像构建、内容推荐方法、装置及设备 | |
CN109508400B (zh) | 图文摘要生成方法 | |
CN110795556A (zh) | 一种基于细粒度***式解码的摘要生成方法 | |
CN109190134B (zh) | 一种文本翻译方法及装置 | |
CN110717332B (zh) | 基于非对称孪生网络的新闻与案件相似度计算方法 | |
CN110020437A (zh) | 一种视频和弹幕相结合的情感分析及可视化方法 | |
CN109086270B (zh) | 基于古诗词语料向量化的自动作诗***及其方法 | |
CN108920648B (zh) | 一种基于音乐-图像语义关系的跨模态匹配方法 | |
CN111160452A (zh) | 一种基于预训练语言模型的多模态网络谣言检测方法 | |
CN111708878B (zh) | 一种体育文本摘要提取方法、装置、存储介质及设备 | |
CN109960747A (zh) | 视频描述信息的生成方法、视频处理方法、相应的装置 | |
CN111475622A (zh) | 一种文本分类方法、装置、终端及存储介质 | |
CN107305543B (zh) | 对实体词的语义关系进行分类的方法和装置 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN112434533B (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
CN110297897A (zh) | 问答处理方法及相关产品 | |
CN110968725A (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN110610006B (zh) | 基于笔画和字形的形态学双通道中文词嵌入方法 | |
CN111680190A (zh) | 一种融合视觉语义信息的视频缩略图推荐方法 | |
CN116913278B (zh) | 语音处理方法、装置、设备和存储介质 | |
CN114281948A (zh) | 一种纪要确定方法及其相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |