CN110852077A - 动态调整Word2Vec模型词典的方法、装置、介质及电子设备 - Google Patents

动态调整Word2Vec模型词典的方法、装置、介质及电子设备 Download PDF

Info

Publication number
CN110852077A
CN110852077A CN201911106491.7A CN201911106491A CN110852077A CN 110852077 A CN110852077 A CN 110852077A CN 201911106491 A CN201911106491 A CN 201911106491A CN 110852077 A CN110852077 A CN 110852077A
Authority
CN
China
Prior art keywords
vocabulary
word
index
added
deleted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911106491.7A
Other languages
English (en)
Other versions
CN110852077B (zh
Inventor
崔勇
杨雪松
杨光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Asset Management Co Ltd
Taikang Insurance Group Co Ltd
Original Assignee
Taikang Asset Management Co Ltd
Taikang Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Asset Management Co Ltd, Taikang Insurance Group Co Ltd filed Critical Taikang Asset Management Co Ltd
Priority to CN201911106491.7A priority Critical patent/CN110852077B/zh
Publication of CN110852077A publication Critical patent/CN110852077A/zh
Application granted granted Critical
Publication of CN110852077B publication Critical patent/CN110852077B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种动态调整Word2Vec模型词典的方法、装置、介质及电子设备,该方法包括:读取Word2Vec模型词典中的词汇列表、词索引和词向量矩阵;将待添加词汇添加到词汇列表中且将待添加词汇对应的词向量添加到词向量矩阵中,在词索引中添加与待添加词汇对应的索引号;将待删除词汇从词汇列表中删除且将待删除词汇对应的词向量从词向量矩阵中删除,将待删除词汇对应的索引号从词索引中删除,调整词索引使得经调整后的词索引中的索引号连续。本发明实施例的技术方案解决了目前的调整Word2Vec模型词典的过程效率低的问题,以及难以根据用户的需求针对性地在Word2Vec模型词典中增加、删除特定的词汇等问题。

Description

动态调整Word2Vec模型词典的方法、装置、介质及电子设备
技术领域
本发明涉及自然语言处理领域,具体而言,涉及一种动态调整Word2Vec模型词典的方法、装置、介质及电子设备。
背景技术
在自然语言处理领域,如何高效的表达一个词是最为基础的核心问题。近年来,所谓词的“分布式表达”,也就是通过训练模型,把词表达为低维空间上的词向量的方法已经成为了学术界和工业界事实上用于词的“分布式表达”的标准。于2013年问世的Word2Vec是最早、最著名也是目前使用最为广泛的用于词的“分布式表达”的模型。word2vec是一个自然语言处理模型,通过训练Word2Vec模型,可以把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。因此,Word2Vec模型输出的词向量可以被用来做很多自然语言处理相关的工作,比如聚类、找同义词、词性分析、语义分析、情感分析、主题模型等等。
目前,随着语料越来越多,训练出的Word2Vec模型会越来越大,这样就导致在提供服务时,加载模型会占用很大内存,从而影响运行速度和服务器性能。因此,实际应用场景中经常会有对已训练好的Word2Vec模型的词典进行调整的需求。比如,使用者在使用时发现还需要补充一些Word2Vec模型词典中没有的词汇以使语义分析更准确,这时需要新增一些词汇。又比如,在加载模型占用很大内存导致服务器响应速度慢,服务质量不高时,需要删除一些无关词汇以精简Word2Vec模型。再比如,使用者在使用时,可能发现当前的模型词典中有些错误词,导致语义分析不够准确,也需要删除这些错误词。
但是,目前要在Word2Vec模型词典中新增词汇时,只能进一步地增加用于包含新增词汇的语料,然后再次训练模型。要删除词汇时,现有的方法只能是设置min_count参数,在语料库中出现的词频小于该min_count参数的设定值的词汇会被丢弃掉,从而通过将min_count参数的值设置的更大的方式把一些无关词或者部分错误词在训练时丢弃掉。但这样不仅不能按照需求方的需求,去删除某些特定的词汇,还有可能会把一些有用的词汇一起给丢弃掉。可见,实际操作过程中调整min_count参数无法实现用户要增删某些特定的词汇的需求,特别是在要增删的词汇量巨大的情况下,只靠调整词典自带的参数是无法实现的。而且,重新设置min_count参数后,和新增词汇一样,仍然要重新训练Word2Vec模型。
在实际应用场景下,由于运营者可能根据运营过程中获得的语义分析不准确的问题反馈或者应用场景的变换等原因,迫切地需要一种能快速对Word2Vec模型词典中的词汇进行增减的方法,可目前的方法都要重新训练模型,而重新训练模型是一个非常耗时的工作,时效性太低,对运营者和运营者的用户来说都是难以接受的。运营者是指服务提供商。比如,运营者是提供搜索服务的搜索引擎提供商。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明实施例的目的在于提供一种动态调整Word2Vec模型词典的方法、装置、介质及电子设备,进而至少在一定程度上克服目前的调整Word2Vec模型词典的过程效率低的问题,以及目前的方法难以根据用户的需求针对性地在Word2Vec模型词典中增加、删除特定的词汇等问题。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明实施例的第一方面,提供了一种动态调整Word2Vec模型词典的方法,包括:获取需要添加到Word2Vec模型词典中的待添加词汇及其对应的词向量,并获取需要从Word2Vec模型词典中删除的待删除词汇;读取Word2Vec模型词典中的词汇列表、词索引和词向量矩阵,其中,所述词索引包括一组连续的索引号,所述词索引中的索引号与所述词汇列表中的词汇一一对应,并且所述词索引中的索引号还用于指示其对应的词汇的词向量在所述词向量矩阵中的位置;将待添加词汇添加到所述词汇列表中且将待添加词汇对应的词向量添加到所述词向量矩阵中,在所述词索引中添加与待添加词汇对应的索引号;将待删除词汇从所述词汇列表中删除且将待删除词汇对应的词向量从所述词向量矩阵中删除,将待删除词汇对应的索引号从所述词索引中删除,调整所述词索引使得经调整后的词索引中的索引号连续。
在本发明的一些实施例中,基于前述方案,所述方法还包括:将待添加词汇发送给数据处理方;至少从所述数据处理方获取经所述数据处理方对待添加词汇进行数据处理得到的待添加词汇对应的词向量。
在本发明的一些实施例中,基于前述方案,将待添加词汇添加到所述词汇列表中且将待添加词汇对应的词向量添加到所述词向量矩阵中包括:将待添加词汇中的每个词汇依次添加到所述词汇列表中;获取词向量矩阵中的最后一行并将待添加词汇中的每个词汇对应的词向量依次添加到所述词向量矩阵中的最后一行之后。
在本发明的一些实施例中,基于前述方案,在所述词索引中添加与待添加词汇对应的索引号包括:对于添加到所述词汇列表中的每个词汇,获取所述词索引中的最大索引号,将最大索引号加一作为该词汇对应的索引号并添加到所述词索引中。
在本发明的一些实施例中,基于前述方案,将待删除词汇从所述词汇列表中删除且将待删除词汇对应的词向量从所述词向量矩阵中删除包括:获取待删除词汇对应的索引号;从所述词汇列表中删除待删除词汇;从所述词向量矩阵中删除待删除词汇对应的索引号所指示的位置处的词向量,调整所述词向量矩阵中剩余词向量的位置使得经调整后的词向量矩阵中的词向量连续排列。
在本发明的一些实施例中,基于前述方案,所述方法还包括:在将待添加词汇添加到所述词汇列表之前,屏蔽待添加词汇中的与词汇列表共有的词汇;在将待删除词汇从所述词汇列表中删除之前,屏蔽待删除词汇中的与词汇列表非共有的词汇。
在本发明的一些实施例中,基于前述方案,所述方法包括:在完成调整词索引的操作之后,分析Word2Vec模型词典内的数据结构之间的一致性,在Word2Vec模型词典内的数据结构之间是一致的情况下,发出保存Word2Vec模型词典的请求。
根据本发明实施例的第二方面,提供了一种动态调整Word2Vec模型词典的装置,包括:数据收发单元,用于获取需要添加到Word2Vec模型词典中的待添加词汇及其对应的词向量,并获取需要从Word2Vec模型词典中删除的待删除词汇;读取单元,用于读取Word2Vec模型词典中的词汇列表、词索引和词向量矩阵,其中,所述词索引包括一组连续的索引号,所述词索引中的索引号与所述词汇列表中的词汇一一对应,并且所述词索引中的索引号还用于指示其对应的词汇的词向量在所述词向量矩阵中的位置;添加过程执行单元,用于将待添加词汇添加到所述词汇列表中且将待添加词汇对应的词向量添加到所述词向量矩阵中,在所述词索引中添加与待添加词汇对应的索引号;删除过程执行单元,用于将待删除词汇从所述词汇列表中删除且将待删除词汇对应的词向量从所述词向量矩阵中删除,将待删除词汇对应的索引号从所述词索引中删除,调整所述词索引使得经调整后的词索引中的索引号连续。
在本发明的一些实施例中,基于前述方案,该动态调整Word2Vec模型词典的装置还包括:保存执行单元,用于将经动态调整后的词汇列表、词索引和词向量矩阵保存到Word2Vec模型词典。保存执行单元可以是响应于保存请求,执行将经动态调整后的词汇列表、词索引和词向量矩阵保存到Word2Vec模型词典的操作。
在本发明的一些实施例中,基于前述方案,该动态调整Word2Vec模型词典的装置还包括:屏蔽单元,用于在将待添加词汇添加到所述词汇列表之前,屏蔽待添加词汇中的与词汇列表共有的词汇。屏蔽单元也可以用于在将待删除词汇从所述词汇列表中删除之前,屏蔽待删除词汇中的与词汇列表非共有的词汇。
在本发明的一些实施例中,基于前述方案,该动态调整Word2Vec模型词典的装置还包括:一致性分析单元,用于在完成整理词索引的操作之后,分析Word2Vec模型词典内的数据结构之间的一致性,在Word2Vec模型词典内的数据结构之间是一致的情况下,发出保存Word2Vec模型词典的保存请求。
在本发明的一些实施例中,基于前述方案,该动态调整Word2Vec模型词典的装置还包括:测试单元,可以用于获取经动态调整后保存的Word2Vec模型词典,测试该Word2Vec模型词典的运行情况,在该Word2Vec模型词典能正常工作的情况下结束测试过程,在该Word2Vec模型词典能不正常工作的情况下生成该Word2Vec模型词典的报错信息。
根据本发明实施例的第三方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中第一方面所述的动态调整Word2Vec模型词典的方法。
根据本发明实施例的第四方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中第一方面所述的动态调整Word2Vec模型词典的方法。
本发明实施例提供的技术方案可以包括以下有益效果:
在本发明的一些实施例所提供的技术方案中,通过读取Word2Vec模型词典中的词汇列表、词索引和词向量矩阵,其中,所述词索引包括一组连续的索引号,所述词索引中的索引号与所述词汇列表中的词汇一一对应,并且所述词索引中的索引号还用于指示其对应的词汇的词向量在所述词向量矩阵中的位置,将待添加词汇添加到所述词汇列表中且将待添加词汇对应的词向量添加到所述词向量矩阵中,在所述词索引中添加与待添加词汇对应的索引号,将待删除词汇从所述词汇列表中删除且将待删除词汇对应的词向量从所述词向量矩阵中删除,将待删除词汇对应的索引号从所述词索引中删除,调整所述词索引使得经调整后的词索引中的索引号连续,然后将经动态调整后的词汇列表、词索引和词向量矩阵保存到Word2Vec模型词典,从而使得本发明的方法充分利用了已有的训练结果,不用通过重新训练模型来动态调整Word2Vec模型词典,进而能够提高调整Word2Vec模型词典的效率;同时,由于采用了本发明的方法,使得能够使用者的需求有针对性地在Word2Vec模型词典中增加或者删除特定的词汇。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性示出了根据本发明的一个实施例的一种动态调整Word2Vec模型词典的方法的流程图;
图2示意性示出了根据本发明的一个实施例的一种动态调整Word2Vec模型词典的装置的框图;
图3示出了适于用来实现本发明实施例的电子设备的计算机***的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
在对本发明的实施例进行具体介绍之前,对本发明中使用到的部分术语作如下解释:
Word2Vec模型,是一种将词汇向量化的自然语言处理模型,英文全称为Word toVector。Word2Vec模型的特点是可以将所有的词向量化,这样词与词之间就可以定量地去度量它们之间的关系,挖掘词之间的联系。训练好的Word2Vec模型是以Word2Vec模型词典的形式保存的。
图1示意性示出了根据本发明的一个实施例的一种动态调整Word2Vec模型词典的方法的流程图,该动态调整Word2Vec模型词典的方法的执行主体可以是服务器、终端设备或其组合等。如图1所示,根据本发明的一个实施例的一种动态调整Word2Vec模型词典的方法包括步骤S110-S150,以下详细进行说明:
在步骤S110中,获取需要添加到Word2Vec模型词典中的待添加词汇及其对应的词向量,并获取需要从Word2Vec模型词典中删除的待删除词汇。
在本发明的一个实施例中,待添加词汇或者待删除词汇可以是任何词汇。待添加词汇例如可以是加厚、新款等,待删除词汇例如可以是韩版、包邮等。词汇并非必须是中文词汇,也可以是外文的词汇,比如,英语、德语、韩语、日语、法语词汇等等,本文对此不进行任何限制。本文仅是为了便于理解,使用中文词汇进行举例。
在本发明的一个实施例中,应当理解的是,对于方法步骤:获取需要添加到Word2Vec模型词典中的待添加词汇及其对应的词向量,并获取需要从Word2Vec模型词典中删除的待删除词汇,其中的待添加词汇及其对应的词向量、待删除词汇应当被看作两个可选项,而非必选项。比如,电子设备某次获取待添加词汇及其对应的词向量的结果可能为无待添加词汇及其对应的词向量,获取待删除词汇的结果是“新款”。即,虽然提供这个选项,但是此次用户实际并没有要添加的待添加词汇及其对应的词向量,本次只是要删除词汇“新款”。换言之,获取需要添加到Word2Vec模型词典中的待添加词汇及其对应的词向量的结果可以有两种情况:一种是没有待添加词汇及其对应的词向量,另一种是有待添加词汇及其对应的词向量。获取需要从Word2Vec模型词典中删除的待删除词汇的结果可以有两种情况:一种是没有待删除词汇,另一种是有待删除词汇。本步骤的技术方案至少能够实现以下有益技术效果:预先获取待添加词汇及其对应的词向量、待删除词汇,便于后续快速地、直接地将待添加词汇添加到Word2Vec模型词典中或者将待删除词汇从Word2Vec模型词典中删除。
在步骤S120中,读取Word2Vec模型词典中的词汇列表、词索引和词向量矩阵。其中,词索引包括一组连续的索引号。词索引中的索引号与词汇列表中的词汇一一对应。词索引中的索引号可以用于指示其对应的词汇的词向量在词向量矩阵中的位置。
在本发明的一个实施例中,读取Word2Vec模型词典中的词汇列表、词索引和词向量矩阵可以是将保存在本地的Word2Vec模型词典加载到内存中。具体的,读取Word2Vec模型词典中的词汇列表、词索引和词向量矩阵可以是通过调用Gensim包中的load函数把本地的Word2Vec模型词典加载到内存中,并整理为Word2Vec模型的词汇列表、词索引和词向量矩阵。词索引的作用在于将词汇列表中的词汇与词向量矩阵中的词向量联系起来。所谓词索引,包括一组连续的索引号(例如从1开始的整数),每个索引号对应词汇列表中的一个词汇并且指示该词汇对应的词向量在词向量矩阵中的行坐标。下面以一个具体的示例来进行说明。
在表1所示的数据结构的示例中,示意性地示出了一种词索引、词汇列表和词向量矩阵的具体形式,其中词汇选自购物网站常用词汇。为了简化起见,只示意性地示出了最后的四个词索引、词汇列表和词向量,如背景技术中所述,词向量矩阵中的词向量是k维的(k为正整数)。
表1
Figure BDA0002271466590000081
Figure BDA0002271466590000091
表1中,词汇“加厚”对应的词向量为(X11、X12、X13、X14……X1k);词汇“纯棉”对应的词向量为(X21、X22、X23、X24……X2k);词汇“新款”对应的词向量为(X31、X32、X33、X34……X3k);词汇“家用”对应的词向量为(X41、X42、X43、X44……X4k)。通常,k的推荐值可以为50~300。常见的,k被设置为50或者100。应当理解的是,X11、X12、X13、X14……X1k等只是本发明中为了简化表示各个维度的元素的符号。词向量中的各个维度的元素实际上是实数或者浮点数。比如,X11、X12、X13、X14、X1k分别可以是0.1265、0.009635、0.07018、-0.009701、-0.2122。
在该示例中,假设用户本次的待添加词汇为“韩版”、“包邮”,待删除词汇为“加厚”、“新款”,则在电子设备端可以为用户提供操作接口或者可视化的界面,以获取用户输入的待添加词汇和待删除词汇。操作接口例如可以加载以文本或者表格形式记载的待添加词汇和待删除词汇,文本例如可以是以.txt、.xlxs.、.doc、.docx、.wps等为后缀的文本格式,本文对此不作任何限制。用户可以先将待添加词汇“韩版”、“包邮”和待删除词汇“加厚”、“新款”记录在文本中。然后,通过操作接口读取文本以识别待添加词汇和待删除词汇。或者,电子设备可以为用户提供可视化的界面,用户从可视化界面输入本次的待添加词汇“韩版”、“包邮”以及待删除词汇“加厚”、“新款”。
在本发明的一个实施例中,待添加词汇对应的词向量可以是预先由数据处理方生成好后,并且直接从数据处理方获取的。由此,根据本发明的一个实施例,在获取了需要添加到Word2Vec模型词典中的待添加词汇后,将待添加词汇发送给数据处理方;随后从数据处理方获取经数据处理方对待添加词汇进行数据处理得到的待添加词汇对应的词向量。数据处理方例如可以是预先用语料库训练好的一个词向量数据库,其中记载了大量的词汇及其对应的词向量;或者,数据处理方可以是属于电子设备内的组件;或者,数据处理方也可以是第三方的词向量数据库。当数据处理方是第三方的词向量数据库时,电子设备将待添加词汇发送给数据处理方,数据处理方可以对待添加词汇进行数据处理得到待添加词汇对应的词向量,其中的数据处理过程例如可以包括:在词向量数据库存储的词汇中查找待添加词汇,并得到该待添加词汇对应的词向量;然后,电子设备可以从数据处理方获取经数据处理方对待添加词汇进行数据处理得到的待添加词汇对应的词向量。
基于前述示例,电子设备可以将待添加词汇发送给数据处理方。数据处理方可以对待添加词汇进行数据处理从而得到待添加词汇对应的词向量,待添加词汇对应的词向量可以如表2所示:
表2
在步骤S130中,将待添加词汇添加到词汇列表中且将待添加词汇对应的词向量添加到词向量矩阵中,在词索引中添加与待添加词汇对应的索引号。
在本发明的一个实施例中,步骤S130包括如下子步骤:
步骤S1301.将待添加词汇中的每个词汇依次添加到词汇列表中,例如依次添加到词汇列表的尾部;获取词向量矩阵中的最后一行并将待添加词汇中的每个词汇对应的词向量依次添加到词向量矩阵中的最后一行之后。该技术方案至少能够实现以下有益技术效果:简单快速地实现了对待添加词汇及其对应的词向量的添加操作,从而使得本发明可以根据用户的需求去增加一个或者多个特定的词汇及其词向量。
步骤S1302.对于添加到词汇列表中的每个词汇,获取词索引中的最大索引号,将最大索引号加一作为该词汇对应的索引号,将该词汇对应的索引号添加到词索引中。这样,至少能够实现以下有益技术效果:直接为添加到词汇列表中的每个词汇创建索引号,以使之符合Word2Vec模型词典的数据格式要求,在保存到Word2Vec模型词典后,可以在无需重新训练Word2Vec模型的情况下通过词索引来查询已添加的词汇及其对应的词向量。
基于前述示例,电子设备可以依次添加待添加词汇“韩版”、“包邮”到当前词汇列表的尾部,即词汇“家用”之后。电子设备可以将待添加词汇“韩版”、“包邮”对应的词向量依次添加到当前词向量矩阵中的最后一行之后,即从向量X41、X42、X43、X44、X4k所在行之后依次添加待添加词汇,结果例如可以参见表3:
表3
Figure BDA0002271466590000111
在步骤S140中,将待删除词汇从词汇列表中删除且将待删除词汇对应的词向量从词向量矩阵中删除,将待删除词汇对应的索引号从词索引中删除,调整词索引使得经调整后的词索引中的索引号连续。
在本发明的一个实施例中,步骤S140包括如下子步骤:
步骤S1401.获取待删除词汇对应的索引号。
步骤S1402.从词汇列表中删除待删除词汇。
步骤S1403.从词向量矩阵中删除待删除词汇对应的索引号所指示的位置处的词向量,调整词向量矩阵中剩余词向量的位置以使得经调整后的词向量矩阵中的词向量连续排列(即,没有空白行)。具体地,根据待删除词汇对应的索引号找到词向量矩阵中的相应行号,删除词向量矩阵中该行中的词向量;如果所删除的词向量不是词向量矩阵中的最后一个词向量,则将所删除的词向量后面一行的词向量向上提至所删除的词向量所在行,并以此类推,使得词向量矩阵中的词向量连续排列。本步骤能够实现以下有益技术效果:获取待删除词汇对应的索引号后,将词汇列表中的待删除词汇删除,并且从词向量矩阵中删除待删除词汇的索引号指示的位置处的词向量,从而使得本发明可以根据用户的需求去删除特定的词汇。
步骤S1404.从词索引中的第一个索引号开始,将词索引中的每个索引号的数值依次与其后一个索引号的数值进行对比,在词索引中的某个索引号的数值与其后一个索引号的数值不连续的情况下,将后一个索引号的数值调整为该前一个索引号的数值加一。如此,实现以下有益技术效果:本发明在删除词汇及其对应的向量后,调整词索引使得经调整后的词索引中的索引号连续,以使其能够正确指示经调整后的词向量矩阵中的位置;并且使其符合Word2Vec模型词典的数据格式要求,在保存到Word2Vec模型词典后,无需重新训练Word2Vec模型。比如,因为原来的索引号1056对应的词汇被删除,导致原来的索引号1055和1057之间不连续。则电子设备可以将“纯棉”对应的索引号1057调整为1056。电子设备可以将“家用”对应的索引号1059调整为1057。对应地,将“家用”对应的索引号1060调整为1058,将“包邮”对应的索引号1061调整为1059。
基于前述示例,电子设备可以先获取待删除词汇“加厚”、“新款”对应的索引号,即索引号1056和1058;从词汇列表中删除词汇“加厚”、“新款”;从词向量矩阵中删除待删除词汇的索引号1056和1058指示的位置处的词向量;调整词索引使得经调整后的词索引中的索引号连续。调整后,词汇“韩版”的索引号为1058,其指示的词向量矩阵的位置处仍然是词汇“韩版”对应的词向量(X51,X52,X53,X54……X5k),如表4所示:
表4
在本发明的一个实施例中,由于用户的疏忽,可能存在获取的待添加词汇中的某些词汇在添加之前已经存在于Word2Vec模型词典中的情况。又或者,由于用户的疏忽,可能存在获取的待删除词汇中的某些词汇并未存在于当前的Word2Vec模型词典中的情况。由此,该方法还可以包括:在将待添加词汇添加到词汇列表之前,屏蔽待添加词汇中的与词汇列表共有的词汇;和/或在将待删除词汇从词汇列表中删除之前,屏蔽待删除词汇中的与词汇列表非共有的词汇。基于前述示例,比如用户要添加词汇“纯棉”,但是,此时Word2Vec模型词典中已经存在“纯棉”这个词汇,“纯棉”属于待添加词汇中的与词汇列表共有的词汇,将会被屏蔽,因此在随后的执行添加待添加词汇的过程中,不会执行添加词汇“纯棉”的操作。又比如,用户要删除待删除词汇“可爱”,但是,在原来的Word2Vec模型词典中,索引号1~1059对应的词汇中都没有词汇“可爱”,“可爱”属于待删除词汇中的与词汇列表非共有的词汇,因此在随后的执行删除待删除词汇的过程中,不会执行删除词汇“可爱”的操作。
应当注意的是,步骤S130和S140的执行顺序并非一定是按照图1所示的顺序执行。步骤S130和S140的执行顺序可以互换。换言之,本发明的方法可以先执行步骤S130添加待添加词汇及其对应的词向量,再执行步骤S140删除待删除词汇及其对应的词向量。或者,本发明的方法也可以先执行步骤S140删除待删除词汇及其对应的词向量,再执行步骤S130添加待添加词汇及其对应的词向量。
在步骤S150中,将经动态调整后的词汇列表、词索引和词向量矩阵保存到Word2Vec模型词典。
在本发明的一个实施例中,将经动态调整后的词汇列表、词索引和词向量矩阵保存到Word2Vec模型词典指的是保存经动态调整后的词汇列表、词索引和词向量矩阵,以形成新的Word2Vec模型词典,其可以是将内存中的经动态调整后的词汇列表、词索引和词向量矩阵从内存保存到本地的过程。比如,将电子设备的内存中经动态调整后的词汇列表、词索引和词向量矩阵保存到本地Word2Vec模型词典。通常,Word2Vec模型词典保存在本地的文件格式可以为.bin或者.model格式。
在上述实施例中,词索引包括索引号;而在另一个实施例中,词索引可以包括索引号和词汇。词索引中的索引号与词汇一一对应,且词索引中的词汇与词汇列表中的词汇一一对应。例如,参见表5:
表5
Figure BDA0002271466590000141
在词索引包括索引号和词汇的实施例中,在删除词汇列表中的待删除词汇时,词索引中对应的词汇也会被删除。比如,如果删除表5中词汇列表中的词汇“加厚”,则词索引中的词汇“加厚”也相应会被删除。在将待添加词汇添加到词汇列表中时,词索引中也会对应的添加该相应的词汇。比如,如果在表5中添加词汇“韩版”,则词索引中也会对应地添加词汇“韩版”。删除表5中的词汇“加厚”和在表5中添加词汇“韩版”后的结果可以参见表6:
表6
Figure BDA0002271466590000142
由于在整理词索引过程中可能出错,导致Word2Vec模型的数据结构之间不一致,因此在一个优选实施例中,动态调整Word2Vec模型词典的方法还可以包括:在完成调整词索引的操作之后,分析Word2Vec模型词典内的数据结构之间的一致性;在Word2Vec模型词典内的数据结构之间是一致的情况下,发出保存Word2Vec模型词典的保存请求。举例而言,分析词向量矩阵中的数据结构是否一致,其中有可能当前要调整的Word2Vec模型词典中的词向量是50维的,但因为故障或者数据传输错误等原因,从数据处理方获取的词向量是100维的,从而导致Word2Vec模型词典内的数据结构不一致,此时,可能会导致Word2Vec模型词典错误。由此,动态调整Word2Vec模型词典的方法还可以包括:在Word2Vec模型词典内的数据结构之间不一致的情况下,生成该Word2Vec模型词典的报错信息。
在本发明的一个优选实施例中,在保存Word2Vec模型词典到本地后,为了确保Word2Vec模型词典能够正常工作,可以对保存的Word2Vec模型词典进行测试,以保证新模型词典能够正常工作。由此,动态调整Word2Vec模型词典的方法还可以包括还可以包括:获取经动态调整后保存的Word2Vec模型词典,测试该Word2Vec模型词典的运行情况,在该Word2Vec模型词典能正常工作的情况下结束测试过程,在该Word2Vec模型词典能不正常工作的情况下生成该Word2Vec模型词典的报错信息。
以下结合附图介绍本发明的装置实施例。
图2示意性示出了根据本发明的一个实施例的一种动态调整Word2Vec模型词典的装置的框图。
参照图2所示,根据本发明的实施例的一种动态调整Word2Vec模型词典的装置200包括以下单元中的一个或者多个:数据收发单元201、读取单元202、添加过程执行单元203、删除过程执行单元204、词索引整理单元205、保存执行单元206、屏蔽单元207、一致性分析单元208和测试单元209。
其中,数据收发单元201可以用于获取需要添加到Word2Vec模型词典中的待添加词汇及其对应的词向量。数据收发单元201也可以用于获取需要从Word2Vec模型词典中删除的待删除词汇。数据收发单元201还可以用于将待添加词汇发送给数据处理方;至少从数据处理方获取经数据处理方对待添加词汇进行数据处理得到的待添加词汇对应的词向量。
读取单元202可以用于读取Word2Vec模型词典中的词汇列表、词索引和词向量矩阵。其中,词索引可以包括一组连续的索引号。词索引中的索引号可以与词汇列表中的词汇一一对应。词索引中的索引号可以用于指示其对应的词汇的词向量在词向量矩阵中的位置。
添加过程执行单元203可以用于将待添加词汇添加到词汇列表中且将待添加词汇对应的词向量添加到词向量矩阵中,在词索引中添加与待添加词汇对应的索引号。其中,将待添加词汇添加到词汇列表中且将待添加词汇对应的词向量添加到词向量矩阵中包括:将待添加词汇中的每个词汇依次添加到词汇列表中;获取词向量矩阵中的最后一行并将待添加词汇中的每个词汇对应的词向量依次添加到词向量矩阵中的最后一行之后。在词索引中添加与待添加词汇对应的索引号包括:对于添加到词汇列表中的每个词汇,获取词索引中的最大索引号,将最大索引号加一作为该词汇对应的索引号并添加到词索引中。
删除过程执行单元204可以用于将待删除词汇从词汇列表中删除且将待删除词汇对应的词向量从词向量矩阵中删除,将待删除词汇对应的索引号从词索引中删除,调整词索引使得经调整后的词索引中的索引号连续。其中,将待删除词汇从词汇列表中删除且将待删除词汇对应的词向量从词向量矩阵中删除包括:获取待删除词汇对应的索引号;从词汇列表中删除待删除词汇;从词向量矩阵中删除待删除词汇对应的索引号所指示的位置处的词向量,调整词向量矩阵中剩余词向量的位置使得经调整后的词向量矩阵中的词向量连续排列。
保存执行单元205可以用于将经动态调整后的词汇列表、词索引和词向量矩阵保存到Word2Vec模型词典。保存执行单元205可以是响应于保存请求,执行将经动态调整后的词汇列表、词索引和词向量矩阵保存到Word2Vec模型词典的操作。
屏蔽单元206可以用于在将待添加词汇添加到词汇列表之前,屏蔽待添加词汇中的与词汇列表共有的词汇。屏蔽单元206也可以用于在将待删除词汇从词汇列表中删除之前,屏蔽待删除词汇中的与词汇列表非共有的词汇。
一致性分析单元207,可以用于在完成调整词索引的操作之后,分析Word2Vec模型词典内的数据结构之间的一致性,在Word2Vec模型词典内的数据结构之间是一致的情况下,发出保存Word2Vec模型词典的保存请求。比如,保存Word2Vec模型词典的保存请求可以是发送给保存执行单元205。
测试单元208,可以用于获取经动态调整后保存的Word2Vec模型词典,测试该Word2Vec模型词典的运行情况,在该Word2Vec模型词典能正常工作的情况下结束测试过程,在该Word2Vec模型词典不能正常工作的情况下生成该Word2Vec模型词典的报错信息。
由于本发明的示例实施例的动态调整Word2Vec模型词典的装置的各个功能模块与上述动态调整Word2Vec模型词典的方法的示例实施例的步骤对应,因此对于本发明装置实施例中未披露的细节,请参照本发明上述的动态调整Word2Vec模型词典的方法的实施例。
下面参考图3,其示出了适于用来实现本发明实施例的电子设备的计算机***300的结构示意图。图3示出的电子设备的计算机***300仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,计算机***300包括中央处理单元(CPU)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储部分308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有***操作所需的各种程序和数据。CPU301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
以下部件连接至I/O接口305:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分307;包括硬盘等的存储部分308;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入存储部分308。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分309从网络上被下载和安装,和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元(CPU)301执行时,执行本申请的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中的动态调整Word2Vec模型词典的方法。
例如,的电子设备可以实现如图1中所示的以下步骤中的一个或者多个:步骤S110,获取需要添加到Word2Vec模型词典中的待添加词汇及其对应的词向量,并获取需要从Word2Vec模型词典中删除的待删除词汇;步骤S120,读取Word2Vec模型词典中的词汇列表、词索引和词向量矩阵;步骤S130,将待添加词汇添加到词汇列表中且将待添加词汇对应的词向量添加到词向量矩阵中,在词索引中添加与待添加词汇对应的索引号;步骤S140,将待删除词汇从词汇列表中删除且将待删除词汇对应的词向量从词向量矩阵中删除,将待删除词汇对应的索引号从词索引中删除,调整词索引使得经调整后的词索引中的索引号连续;步骤S150,将经动态调整后的词汇列表、词索引和词向量矩阵保存到Word2Vec模型词典。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种动态调整Word2Vec模型词典的方法,其特征在于,包括:
获取需要添加到Word2Vec模型词典中的待添加词汇及其对应的词向量,并获取需要从Word2Vec模型词典中删除的待删除词汇;
读取Word2Vec模型词典中的词汇列表、词索引和词向量矩阵;其中,所述词索引包括一组连续的索引号,所述词索引中的索引号与所述词汇列表中的词汇一一对应,并且所述词索引中的索引号还用于指示其对应的词汇的词向量在所述词向量矩阵中的位置;
将待添加词汇添加到所述词汇列表中且将待添加词汇对应的词向量添加到所述词向量矩阵中,在所述词索引中添加与待添加词汇对应的索引号;
将待删除词汇从所述词汇列表中删除且将待删除词汇对应的词向量从所述词向量矩阵中删除,将待删除词汇对应的索引号从所述词索引中删除,调整所述词索引使得经调整后的词索引中的索引号连续。
2.根据权利要求1所述的动态调整Word2Vec模型词典的方法,其特征在于,所述方法还包括:
将待添加词汇发送给数据处理方;
至少从所述数据处理方获取经所述数据处理方对待添加词汇进行数据处理得到的待添加词汇对应的词向量。
3.根据权利要求1或2所述的动态调整Word2Vec模型词典的方法,其特征在于,将待添加词汇添加到所述词汇列表中且将待添加词汇对应的词向量添加到所述词向量矩阵中包括:
将待添加词汇中的每个词汇依次添加到所述词汇列表中;
获取所述词向量矩阵中的最后一行并将待添加词汇中的每个词汇对应的词向量依次添加到所述词向量矩阵中的最后一行之后。
4.根据权利要求3所述的动态调整Word2Vec模型词典的方法,其特征在于,在所述词索引中添加与待添加词汇对应的索引号包括:
对于添加到所述词汇列表中的每个词汇,获取所述词索引中的最大索引号,将最大索引号加一作为该词汇对应的索引号并添加到所述词索引中。
5.根据权利要求1或2所述的动态调整Word2Vec模型词典的方法,其特征在于,将待删除词汇从所述词汇列表中删除且将待删除词汇对应的词向量从所述词向量矩阵中删除包括:
获取待删除词汇对应的索引号;
从所述词汇列表中删除待删除词汇;
从所述词向量矩阵中删除待删除词汇对应的索引号所指示的位置处的词向量,调整所述词向量矩阵中剩余词向量的位置使得经调整后的词向量矩阵中的词向量连续排列。
6.根据权利要求1或2所述的动态调整Word2Vec模型词典的方法,其特征在于,所述方法还包括:
在将待添加词汇添加到所述词汇列表之前,屏蔽待添加词汇中的与所述词汇列表共有的词汇;
在将待删除词汇从所述词汇列表中删除之前,屏蔽待删除词汇中的与所述词汇列表非共有的词汇。
7.根据权利要求1或2所述的动态调整Word2Vec模型词典的方法,其特征在于,所述方法包括:
在完成调整所述词索引的操作之后,分析Word2Vec模型词典内的数据结构之间的一致性,在Word2Vec模型词典内的数据结构之间是一致的情况下,发出保存Word2Vec模型词典的请求。
8.一种动态调整Word2Vec模型词典的装置,其特征在于,包括:
数据收发单元,用于获取需要添加到Word2Vec模型词典中的待添加词汇及其对应的词向量,并获取需要从Word2Vec模型词典中删除的待删除词汇;
读取单元,用于读取Word2Vec模型词典中的词汇列表、词索引和词向量矩阵;其中,所述词索引包括一组连续的索引号,所述词索引中的索引号与所述词汇列表中的词汇一一对应,并且所述词索引中的索引号还用于指示其对应的词汇的词向量在所述词向量矩阵中的位置;
添加过程执行单元,用于将待添加词汇添加到所述词汇列表中且将待添加词汇对应的词向量添加到所述词向量矩阵中,在所述词索引中添加与待添加词汇对应的索引号;
删除过程执行单元,用于将待删除词汇从所述词汇列表中删除且将待删除词汇对应的词向量从所述词向量矩阵中删除,将待删除词汇对应的索引号从所述词索引中删除,调整所述词索引使得经调整后的词索引中的索引号连续。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的动态调整Word2Vec模型词典的方法。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1至7中任一项所述的动态调整Word2Vec模型词典的方法。
CN201911106491.7A 2019-11-13 2019-11-13 动态调整Word2Vec模型词典的方法、装置、介质及电子设备 Active CN110852077B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911106491.7A CN110852077B (zh) 2019-11-13 2019-11-13 动态调整Word2Vec模型词典的方法、装置、介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911106491.7A CN110852077B (zh) 2019-11-13 2019-11-13 动态调整Word2Vec模型词典的方法、装置、介质及电子设备

Publications (2)

Publication Number Publication Date
CN110852077A true CN110852077A (zh) 2020-02-28
CN110852077B CN110852077B (zh) 2023-03-31

Family

ID=69600802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911106491.7A Active CN110852077B (zh) 2019-11-13 2019-11-13 动态调整Word2Vec模型词典的方法、装置、介质及电子设备

Country Status (1)

Country Link
CN (1) CN110852077B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114416213A (zh) * 2022-03-29 2022-04-29 北京沃丰时代数据科技有限公司 词向量文件加载方法、装置及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法
US20160179950A1 (en) * 2014-12-22 2016-06-23 Rovi Guides, Inc. Systems and methods for filtering techniques using metadata and usage data analysis
CN106776534A (zh) * 2016-11-11 2017-05-31 北京工商大学 词向量模型的增量式学习方法
CN106802888A (zh) * 2017-01-12 2017-06-06 北京航空航天大学 词向量训练方法和装置
CN107291696A (zh) * 2017-06-28 2017-10-24 达而观信息科技(上海)有限公司 一种基于深度学习的评论词情感分析方法及***
CN109271632A (zh) * 2018-09-14 2019-01-25 重庆邂智科技有限公司 一种监督的词向量学习方法
CN109977014A (zh) * 2019-03-22 2019-07-05 泰康保险集团股份有限公司 基于区块链的代码错误识别方法、装置、设备及存储介质
US20190286716A1 (en) * 2018-03-19 2019-09-19 Adobe Inc. Online Dictionary Extension of Word Vectors
CN110377899A (zh) * 2019-05-30 2019-10-25 北京达佳互联信息技术有限公司 一种确定词语词性的方法、装置及电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160179950A1 (en) * 2014-12-22 2016-06-23 Rovi Guides, Inc. Systems and methods for filtering techniques using metadata and usage data analysis
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法
CN106776534A (zh) * 2016-11-11 2017-05-31 北京工商大学 词向量模型的增量式学习方法
CN106802888A (zh) * 2017-01-12 2017-06-06 北京航空航天大学 词向量训练方法和装置
CN107291696A (zh) * 2017-06-28 2017-10-24 达而观信息科技(上海)有限公司 一种基于深度学习的评论词情感分析方法及***
US20190286716A1 (en) * 2018-03-19 2019-09-19 Adobe Inc. Online Dictionary Extension of Word Vectors
CN109271632A (zh) * 2018-09-14 2019-01-25 重庆邂智科技有限公司 一种监督的词向量学习方法
CN109977014A (zh) * 2019-03-22 2019-07-05 泰康保险集团股份有限公司 基于区块链的代码错误识别方法、装置、设备及存储介质
CN110377899A (zh) * 2019-05-30 2019-10-25 北京达佳互联信息技术有限公司 一种确定词语词性的方法、装置及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114416213A (zh) * 2022-03-29 2022-04-29 北京沃丰时代数据科技有限公司 词向量文件加载方法、装置及存储介质

Also Published As

Publication number Publication date
CN110852077B (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
US20230004721A1 (en) Method for training semantic representation model, device and storage medium
CN111159220B (zh) 用于输出结构化查询语句的方法和装置
CN111090641B (zh) 数据处理方法及装置、电子设备、存储介质
CN110334209B (zh) 文本分类方法、装置、介质及电子设备
WO2021217846A1 (zh) 接口数据处理方法、装置、计算机设备和存储介质
JP2022191412A (ja) マルチターゲット画像テキストマッチングモデルのトレーニング方法、画像テキスト検索方法と装置
TW201915777A (zh) 金融非結構化文本分析系統及其方法
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
US20230134615A1 (en) Method of processing task, electronic device, and storage medium
US20240220772A1 (en) Method of evaluating data, training method, electronic device, and storage medium
CN109344408A (zh) 一种译文检测方法、装置及电子设备
CN114610845A (zh) 基于多***的智能问答方法、装置和设备
CN110008807B (zh) 一种合同内容识别模型的训练方法、装置及设备
KR102608867B1 (ko) 업계 텍스트를 증분하는 방법, 관련 장치 및 매체에 저장된 컴퓨터 프로그램
CN110852077B (zh) 动态调整Word2Vec模型词典的方法、装置、介质及电子设备
CN113609100A (zh) 数据存储方法、数据查询方法、装置及电子设备
CN112667664A (zh) 数据库间语句转换方法、装置、终端设备及介质
CN111930891A (zh) 基于知识图谱的检索文本扩展方法及相关装置
CN115186738B (zh) 模型训练方法、装置和存储介质
CN114118049B (zh) 信息获取方法、装置、电子设备及存储介质
US20220382991A1 (en) Training method and apparatus for document processing model, device, storage medium and program
EP4246365A1 (en) Webpage identification method and apparatus, electronic device, and medium
US20210342379A1 (en) Method and device for processing sentence, and storage medium
CN115017256A (zh) 电力数据处理方法、装置、电子设备及存储介质
US10522246B2 (en) Concepts for extracting lab data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant