CN112949319B - 文本中多义性单词的标注方法、设备、处理器和存储介质 - Google Patents

文本中多义性单词的标注方法、设备、处理器和存储介质 Download PDF

Info

Publication number
CN112949319B
CN112949319B CN202110270079.XA CN202110270079A CN112949319B CN 112949319 B CN112949319 B CN 112949319B CN 202110270079 A CN202110270079 A CN 202110270079A CN 112949319 B CN112949319 B CN 112949319B
Authority
CN
China
Prior art keywords
context
text
word
processor
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110270079.XA
Other languages
English (en)
Other versions
CN112949319A (zh
Inventor
陆恒杨
黄渊卓
方伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202110270079.XA priority Critical patent/CN112949319B/zh
Publication of CN112949319A publication Critical patent/CN112949319A/zh
Application granted granted Critical
Publication of CN112949319B publication Critical patent/CN112949319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种文本中多义性单词的标注方法、设备、处理器和存储介质;所述方法包括输入待处理的原始语料库;训练上下文相关词嵌入模型,获得上下文相关向量;根据上下文相关向量搭建语义向量生成算法,区分每个单词的多个含义,并对原始语料库进行标注;输出标注多义性的伪文档。本发明利用上下文相关词嵌入模型,通过对多义性单词的不同语义进行标注,消除多种语义的歧义,相较于没有考虑单词多义性的文本来说,对后续文本处理,文本分类,主题模型等任务的准确度有较大的提升。

Description

文本中多义性单词的标注方法、设备、处理器和存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其是指一种文本中多义性单词的标注方法、设备、处理器和存储介质。
背景技术
词嵌入模型(word embeddings)常被用于各类自然语言处理任务中,例如文本挖掘、情感分析、文本分类等。常见的词嵌入模型,如word2vec和GloVe,只能为每一个单词学习一个向量,忽略了不同上下文中的单词多义性问题,例如,“apple”这个词可以有多种语义:在“I like eating apples”这句话中,它指的是一种水果;当出现在“We went to theApple store yesterday”这句话中时,它指的是一家科技公司的名字。这一现象可归结为单词多义性问题。近年来研究表明,在开展自然语言处理任务时,考虑单词的多义性问题能有效提升模型的效果。
一般来说,针对同一个单词在不同上下文中学习不同的词向量,主要由三类学习范式:Two-stage models、Joint models和Contextualized word embeddings。其中,Two-stage models通过对给定的语境进行聚类来归纳单词语义,缺点是该方法计算量大;Jointmodels将给定单词的语境向量进行聚类,共同构成单词的语义,解决了只使用本地上下文的局限性,进一步延伸至多义性单词嵌入等,缺点是大多数方法需要定义每个单词固定的语义数量,这是不现实的;Contextualized word embeddings通过训练一个双向LSTM语言模型来学习词语的上下文相关向量,语料库中的每一个单词都有自己的语义向量,并能在所有层面的上下文中共同工作,可以很容易地添加到现有的各种NLP任务中,使用这种模型可以更加灵活的发现单词的多义性。因此,本申请采用Contextualized word embeddings来进行单词多义性标注。
发明内容
为此,本发明所要解决的技术问题是提出一种结合上下文词嵌入模型的多义性单词标注方法,用于解决单词多义性的问题,标注出最适用于该文本语境的单词语义。
为解决上述技术问题,本发明提供了一种文本中多义性单词的标注方法,包括输入待处理的原始语料库;训练上下文相关词嵌入模型,获得上下文相关向量;根据上下文相关向量搭建语义向量生成算法,区分每个单词的多个含义,并对原始语料库进行标注;输出标注多义性的伪文档。
在本发明的一个实施例中,所述上下文相关词嵌入模型为ELMo,利用ELMo算法具体的计算方式如下:
Figure BDA0002973957710000021
式中γ为调节矢量尺度的参数;sj为第j层softmax归一化权值的参数;
Figure BDA0002973957710000022
是前向和后向的第j个隐层。
在本发明的一个实施例中,搭建所述语义向量生成算法的过程为:
输入原始语料库D,每个单词及其对应的语义上下文相关向量的字典dic,余弦距离阈值ε
初始化dic为空
foreach document d in D do
for i←0to len(d)-1do
若当前语义
Figure BDA0002973957710000023
不在字典dic中,
Figure BDA0002973957710000024
的语义赋给wi#s;
Figure BDA0002973957710000025
赋给
Figure BDA0002973957710000026
Figure BDA0002973957710000031
添加到字典dic
Figure BDA0002973957710000032
中;
将wi#s添加到pdi中;
否则,
初始化minDist=1和minIndex=0;
初始化found=False;
for k←0to len(dic
Figure BDA0002973957710000033
)-1do。
在本发明的一个实施例中,计算两个语义向量的余弦距离,表示为
Figure BDA0002973957710000034
计算公式如下:
Figure BDA0002973957710000035
在本发明的一个实施例中,将计算得到的余弦距离
Figure BDA0002973957710000036
与预设的余弦距离阈值ε进行比较,若余弦距离
Figure BDA0002973957710000037
大于余弦距离阈值ε,则两个语义向量在两种语境中有不同的含义;若余弦距离
Figure BDA0002973957710000038
小于余弦距离阈值ε,则两个语义向量在两种语境中有相同的含义。
在本发明的一个实施例中,当两个语义向量在两种语境中有相同的含义时,就需要重新计算上下文相关向量,利用两个语义向量的角平分线来形成新的语义向量bisector,计算公式为:
Figure BDA0002973957710000039
在本发明的一个实施例中,在输入待处理的原始语料库前,需要对原始语料库进行预处理,包括:统一大小写字母、删除所有停止词、删除包含少于三个单词的文档
解决上述技术问题,本发明提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
解决上述技术问题,本发明提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述方法。
解决上述技术问题,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述方法的步骤。
本发明的上述技术方案相比现有技术具有以下优点:
本发明所述的文本中多义性单词的标注方法提出一种结合上下文词嵌入模型的多义性单词标注方法,用于解决单词多义性的问题,标注出最适用于该文本语境的单词语义;
每个单词在不同的上下文语境中都会有不同的语义,大致分为两种,一种是在不同的上下文语境中拥有相同的语义,但由于各个部分上下文的差异,使得该单词的词向量相似却不完全相同。另一种是在不同的上下文语境中拥有不同的语义,这就会使该单词的词向量存在较大的差异,这两种情况使得一些多义性单词在该文本中的词向量有失准度,产生歧义;本发明利用上下文相关词嵌入模型,通过对多义性单词的不同语义进行标注,消除多种语义的歧义,相较于没有考虑单词多义性的文本来说,对后续文本处理,文本分类,主题模型等任务的准确度有较大的提升。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是本发明文本中多义性单词的标注方法的步骤流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
参照图1所示,本发明的一种文本中多义性单词的标注方法,包括输入待处理的原始语料库;训练上下文相关词嵌入模型,获得上下文相关向量;根据上下文相关向量搭建语义向量生成算法,区分每个单词的多个含义,并对原始语料库进行标注;输出标注多义性的伪文档。
每个单词在不同的上下文语境中都会有不同的语义,大致分为两种,一种是在不同的上下文语境中拥有相同的语义,但由于各个部分上下文的差异,使得该单词的词向量相似却不完全相同。另一种是在不同的上下文语境中拥有不同的语义,这就会使该单词的词向量存在较大的差异,这两种情况使得一些多义性单词在该文本中的词向量有失准度,产生歧义;本发明利用上下文相关词嵌入模型,通过对多义性单词的不同语义进行标注,消除多种语义的歧义,相较于没有考虑单词多义性的文本来说,对后续文本处理,文本分类,主题模型等任务的准确度有较大的提升。
具体地,本实施例在输入待处理的原始语料库前,对原始语料库进行预处理,包括:统一大小写字母、删除所有停止词、删除包含少于三个单词的文档,对于统一大小写字母、删除所有停止词,一方面能够减少词汇量,另一方面能够减少算法的计算量,提高计算效率,对于包含少于三个单词的文档,其不存在上下文语境,无法进行训练上下文相关词嵌入模型,因此在输入前应该主动剔除掉。
本实施例中,所述上下文相关词嵌入模型为ELMo算法,ELMo算法是一种现有自然语言处理(NLP)中的语言模型预训练方法学,ELMo(Embeddings from Language Models),他们使用的是一个双向LSTM语言模型,由一个前向和一个后向语言模型构成,目标函数就是取这两个方向语言模型的最大似然,这种算法的特点是:每一个单词的表征都是整个输入语句的函数,具体做法就是先在大语料上以语言模型为目标训练出双向LSTM模型,然后利用LSTM产生单词的表征。ELMo表征是“深”的,就是说它们是双向LSTM的所有层的内部表征的函数,这样做的好处是能够产生丰富的单词表征。高层的LSTM的状态可以捕捉单词意义中和语境相关的那方面的特征(比如可以用来做语义的消歧),而低层的LSTM可以找到语法方面的特征(比如可以做词性标注)。如果把它们结合在一起,在下游的NLP任务中会体现优势。
本实施例中,利用ELMo算法具体的计算方式如下:
Figure BDA0002973957710000061
式中γ为调节矢量尺度的参数;sj为第j层softmax归一化权值的参数;
Figure BDA0002973957710000062
是前向和后向的第j个隐层,通过这种方式获得上下文相关向量。
具体地,搭建所述语义向量生成算法的过程为:
首先,输入原始语料库D,每个单词及其对应的语义上下文相关向量的字典dic,余弦距离阈值ε
初始化dic为空
foreach document d in D do
for i←0to len(d)-1do
若当前语义
Figure BDA0002973957710000063
不在字典dic中,
Figure BDA0002973957710000064
的语义赋给wi#s;
Figure BDA0002973957710000065
赋给
Figure BDA0002973957710000066
Figure BDA0002973957710000067
添加到字典dic
Figure BDA0002973957710000068
中;
将wi#s添加到pdi中;
否则,
初始化minDist=1和minIndex=0;
初始化found=False;
for k←0to len(dic
Figure BDA0002973957710000069
)-1do。
计算两个语义向量的余弦距离,表示为
Figure BDA00029739577100000610
计算公式如下:
Figure BDA00029739577100000611
将计算得到的余弦距离
Figure BDA00029739577100000612
与预设的余弦距离阈值ε进行比较,若余弦距离
Figure BDA00029739577100000613
大于余弦距离阈值ε,则两个语义向量在两种语境中有不同的含义;若余弦距离
Figure BDA0002973957710000071
小于余弦距离阈值ε,则两个语义向量在两种语境中有相同的含义,具体的算法过程为:
Figure BDA0002973957710000072
并且
Figure BDA0002973957710000073
将minDist的值更改为
Figure BDA0002973957710000074
将minIndex的值更改为k;
将Found的值更改为True;
若Found为False,
将s的值更改为len(dic
Figure BDA0002973957710000075
);
Figure BDA0002973957710000076
的语义赋给wi#s;
Figure BDA0002973957710000077
赋给
Figure BDA0002973957710000078
Figure BDA0002973957710000079
添加到dic
Figure BDA00029739577100000710
[s];
将wi#s添加到pdi中;
否则,
将s的值更改为minIndex;
Figure BDA00029739577100000711
的语义赋给wi#s;
当两个语义向量在两种语境中有相同的含义时,就需要重新计算上下文相关向量,利用两个语义向量的角平分线来形成新的语义向量bisector,计算公式为:
Figure BDA00029739577100000712
运用上述语义向量bisector更新
Figure BDA00029739577100000713
的值,
Figure BDA00029739577100000714
添加到字典dic
Figure BDA00029739577100000715
[s]中;
将wi#s添加到pdi中。
将pdi添加到PD(伪文档)中,最后输出标注多义性的伪文档。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (7)

1.一种文本中多义性单词的标注方法,其特征在于:包括:
输入待处理的原始语料库;
训练上下文相关词嵌入模型,获得上下文相关向量;
根据上下文相关向量搭建语义向量生成算法,区分每个单词的多个含义,并对原始语料库进行标注,具体包括以下步骤:计算两个语义向量的余弦距离,将计算得到的余弦距离与预设的余弦距离阈值ε进行比较,若余弦距离大于余弦距离阈值ε,则两个语义向量在两种语境中有不同的含义;若余弦距离小于余弦距离阈值ε,则两个语义向量在两种语境中有相同的含义,当两个语义向量在两种语境中有相同的含义时,就需要重新计算上下文相关向量,利用两个语义向量的角平分线来形成新的语义向量bisector;
输出标注多义性的伪文档。
2.根据权利要求1所述的文本中多义性单词的标注方法,其特征在于:所述上下文相关词嵌入模型为ELMo,利用ELMo算法具体的计算方式如下:
Figure FDA0003886137450000011
式中γ为调节矢量尺度的参数;sj为第j层softmax归一化权值的参数;
Figure FDA0003886137450000012
Figure FDA0003886137450000013
是前向和后向的第j个隐层。
3.根据权利要求1所述的文本中多义性单词的标注方法,其特征在于:搭建所述语义向量生成算法的过程为:
输入原始语料库D,每个单词及其对应的语义上下文相关向量的字典dic,余弦距离阈值ε
初始化dic为空
foreach document d in D do
for i←0 to len(d)-1 do
若当前语义
Figure FDA0003886137450000021
不在字典dic中,
Figure FDA0003886137450000022
的语义赋给wi#s;
Figure FDA0003886137450000023
赋给
Figure FDA0003886137450000024
Figure FDA0003886137450000025
添加到字典
Figure FDA0003886137450000026
中;
将wi#s添加到pdi中;
否则,
初始化minDist=1和minIndex=0;
初始化found=False;
Figure FDA0003886137450000027
4.根据权利要求1所述的文本中多义性单词的标注方法,其特征在于:在输入待处理的原始语料库前,需要对原始语料库进行预处理,包括:统一大小写字母、删除所有停止词、删除包含少于三个单词的文档。
5.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1到4任一项所述方法的步骤。
6.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1到4任一项所述的方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1到4任一项所述方法的步骤。
CN202110270079.XA 2021-03-12 2021-03-12 文本中多义性单词的标注方法、设备、处理器和存储介质 Active CN112949319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110270079.XA CN112949319B (zh) 2021-03-12 2021-03-12 文本中多义性单词的标注方法、设备、处理器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110270079.XA CN112949319B (zh) 2021-03-12 2021-03-12 文本中多义性单词的标注方法、设备、处理器和存储介质

Publications (2)

Publication Number Publication Date
CN112949319A CN112949319A (zh) 2021-06-11
CN112949319B true CN112949319B (zh) 2023-01-06

Family

ID=76229613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110270079.XA Active CN112949319B (zh) 2021-03-12 2021-03-12 文本中多义性单词的标注方法、设备、处理器和存储介质

Country Status (1)

Country Link
CN (1) CN112949319B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334768A (zh) * 2008-08-05 2008-12-31 北京学之途网络科技有限公司 一种利用计算机对词义进行排歧的方法、***及检索方法
CN103229137A (zh) * 2010-09-29 2013-07-31 国际商业机器公司 基于上下文的首字母缩略词和缩写词的歧义消除
CN105808530A (zh) * 2016-03-23 2016-07-27 苏州大学 一种统计机器翻译中的翻译方法和装置
CN105912523A (zh) * 2016-04-06 2016-08-31 苏州大学 一种词义标注方法和装置
CN106021272A (zh) * 2016-04-04 2016-10-12 上海大学 基于分布式表达词向量计算的关键词自动提取方法
US9760627B1 (en) * 2016-05-13 2017-09-12 International Business Machines Corporation Private-public context analysis for natural language content disambiguation
KR101799681B1 (ko) * 2016-06-15 2017-11-20 울산대학교 산학협력단 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법
CN108153730A (zh) * 2017-12-25 2018-06-12 北京奇艺世纪科技有限公司 一种多义词词向量训练方法及装置
CN109002432A (zh) * 2017-06-07 2018-12-14 北京京东尚科信息技术有限公司 同义词的挖掘方法及装置、计算机可读介质、电子设备
CN109753569A (zh) * 2018-12-29 2019-05-14 上海智臻智能网络科技股份有限公司 一种多义词发现的方法及装置
CN110674304A (zh) * 2019-10-09 2020-01-10 北京明略软件***有限公司 实体消歧方法、装置、可读存储介质及电子设备
CN111310475A (zh) * 2020-02-04 2020-06-19 支付宝(杭州)信息技术有限公司 词义消歧模型的训练方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8856642B1 (en) * 2013-07-22 2014-10-07 Recommind, Inc. Information extraction and annotation systems and methods for documents
CN107844473B (zh) * 2017-09-25 2020-12-18 沈阳航空航天大学 基于语境相似度计算的词义消歧方法
CN107967255A (zh) * 2017-11-08 2018-04-27 北京广利核***工程有限公司 一种判定文本相似性的方法和***
CN109829149A (zh) * 2017-11-23 2019-05-31 ***通信有限公司研究院 一种词向量模型的生成方法及装置、设备、存储介质
CN110162766B (zh) * 2018-02-12 2023-03-24 深圳市腾讯计算机***有限公司 词向量更新方法和装置
CN110376896A (zh) * 2019-07-30 2019-10-25 浙江大学 一种基于深度学习和模糊控制的单热源空调优化制冷方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334768A (zh) * 2008-08-05 2008-12-31 北京学之途网络科技有限公司 一种利用计算机对词义进行排歧的方法、***及检索方法
CN103229137A (zh) * 2010-09-29 2013-07-31 国际商业机器公司 基于上下文的首字母缩略词和缩写词的歧义消除
CN105808530A (zh) * 2016-03-23 2016-07-27 苏州大学 一种统计机器翻译中的翻译方法和装置
CN106021272A (zh) * 2016-04-04 2016-10-12 上海大学 基于分布式表达词向量计算的关键词自动提取方法
CN105912523A (zh) * 2016-04-06 2016-08-31 苏州大学 一种词义标注方法和装置
US9760627B1 (en) * 2016-05-13 2017-09-12 International Business Machines Corporation Private-public context analysis for natural language content disambiguation
KR101799681B1 (ko) * 2016-06-15 2017-11-20 울산대학교 산학협력단 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법
CN109002432A (zh) * 2017-06-07 2018-12-14 北京京东尚科信息技术有限公司 同义词的挖掘方法及装置、计算机可读介质、电子设备
CN108153730A (zh) * 2017-12-25 2018-06-12 北京奇艺世纪科技有限公司 一种多义词词向量训练方法及装置
CN109753569A (zh) * 2018-12-29 2019-05-14 上海智臻智能网络科技股份有限公司 一种多义词发现的方法及装置
CN110674304A (zh) * 2019-10-09 2020-01-10 北京明略软件***有限公司 实体消歧方法、装置、可读存储介质及电子设备
CN111310475A (zh) * 2020-02-04 2020-06-19 支付宝(杭州)信息技术有限公司 词义消歧模型的训练方法及装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
一个汉语词义自动标注***的设计与实现;葛瑞芳等;《计算机工程与应用》;20010901(第17期);全文 *
基于专利信息的潜在语义索引优化技术的研究;毕臣等;《山西大学学报(自然科学版)》;20140215(第01期);全文 *
基于知网义原词向量表示的无监督词义消歧方法;唐共波等;《中文信息学报》;20151115(第06期);全文 *
学习挑选伪标签:一种用于命名实体识别的半监督学习方法(英文);李真真等;《Frontiers of Information Technology & Electronic Engineering》;20200603(第06期);全文 *
规则与统计相结合的词义消歧方法研究;苗海等;《计算机科学》;20131215(第12期);全文 *
词向量语义表示研究进展;李枫林等;《情报科学》;20190501(第05期);全文 *

Also Published As

Publication number Publication date
CN112949319A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
WO2022022163A1 (zh) 文本分类模型的训练方法、装置、设备及存储介质
US11210470B2 (en) Automatic text segmentation based on relevant context
Yao et al. Bi-directional LSTM recurrent neural network for Chinese word segmentation
Kim et al. Two-stage multi-intent detection for spoken language understanding
CN109325229B (zh) 一种利用语义信息计算文本相似度的方法
CN106909537B (zh) 一种基于主题模型和向量空间的一词多义分析方法
WO2023134082A1 (zh) 图像描述语句生成模块的训练方法及装置、电子设备
CN114911892A (zh) 用于搜索、检索和排序的交互层神经网络
Rendel et al. Using continuous lexical embeddings to improve symbolic-prosody prediction in a text-to-speech front-end
CN112861514B (zh) 分割语法和语义的注意力增强的全相关变分自编码器
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及***
Dadas et al. Evaluation of sentence representations in polish
CN113723077A (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN112949319B (zh) 文本中多义性单词的标注方法、设备、处理器和存储介质
CN114970467B (zh) 基于人工智能的作文初稿生成方法、装置、设备及介质
Permatasari et al. Human-robot interaction based on dialog management using sentence similarity comparison method
Shet et al. Segmenting multi-intent queries for spoken language understanding
CN113190681B (zh) 一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法
CN113177406B (zh) 文本处理方法、装置、电子设备和计算机可读介质
CN112765328B (zh) 一种文本相似度确定方法、***、存储介质以及设备
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
Singla et al. Minimal: Mining models for universal adversarial triggers
Vijay et al. NERDA-Con: Extending NER models for Continual Learning--Integrating Distinct Tasks and Updating Distribution Shifts
Mahafdah et al. Arabic Part of speech Tagging using k-Nearest Neighbour and Naive Bayes Classifiers Combination.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant