CN111523952B - 信息提取的方法及装置、存储介质和处理器 - Google Patents

信息提取的方法及装置、存储介质和处理器 Download PDF

Info

Publication number
CN111523952B
CN111523952B CN201910045546.1A CN201910045546A CN111523952B CN 111523952 B CN111523952 B CN 111523952B CN 201910045546 A CN201910045546 A CN 201910045546A CN 111523952 B CN111523952 B CN 111523952B
Authority
CN
China
Prior art keywords
target
commodity
information
word
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910045546.1A
Other languages
English (en)
Other versions
CN111523952A (zh
Inventor
王涛
李林琳
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910045546.1A priority Critical patent/CN111523952B/zh
Publication of CN111523952A publication Critical patent/CN111523952A/zh
Application granted granted Critical
Publication of CN111523952B publication Critical patent/CN111523952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种信息提取的方法及装置、存储介质和处理器。其中,该方法包括:获取目标商品的商品信息,其中,通过至少两种语种标注过目标商品的商品信息;获取商品信息的句子向量表达式和商品信息的词语向量表达式;将句子向量表达式输入至多个目标模型的共享部分,输出句子特征向量,将词语向量表达式输入至共享部分中输出词语特征向量,其中,多个目标模型的共享部分为多个不同语种的目标模型的交集部分,不同语种之间的使用范围存在差异;基于句子特征向量和词语特征向量确定商品信息中的目标信息。本发明解决了由于现有技术中对于不常用的语言的处理通常是借助大量人工标注,导致成本较高,处理效率较低的技术问题。

Description

信息提取的方法及装置、存储介质和处理器
技术领域
本发明涉及信息处理技术领域,具体而言,涉及一种信息提取的方法及装置、存储介质和处理器。
背景技术
跨语言知识迁移是一种借助于已经掌握的语言的知识来提升另外一种不熟悉的语言知识的技术方法。目前世界上已有的语言超过7000种,有些语言如中文和英文,已经拥有了比较完善和成熟的处理能力,有些语言如俄语、西班牙语、土耳其语等基本没有相应的处理能力,如果像之前中英等语种一样从0到1的进行积累,显然成本非常之高,另外业务实际需求也等不了那么长时间。
现有的提升资源稀缺型语种的方法主要是借助人工大量的标注数据,对于很多不常见的语种,如俄语、西班牙语、土耳其语等等,需要借助外包人员进行标注,一是需要花费较高的金钱成本,语言越罕见,资源就越稀缺,成本就越高;二是针对外包,技术人员需要花费很多时间去做前期的培训,让外包人员能完全掌握标注的方法和技巧;三是最后的验收还需要专门的语言专家去做质检,整个流程比较复杂,涉及人员众多,难以控制;四是在已有的***上要想获得更多的提升,则会需要越来越多的标注数据,边际成本会指数级上升。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种信息提取的方法及装置、存储介质和处理器,以至少解决由于现有技术中对于不常用的语言的处理通常是借助大量人工标注,导致成本较高,处理效率较低的技术问题。
根据本发明实施例的一个方面,提供了一种信息提取的方法,包括:获取目标商品的商品信息,其中,通过至少两种语种标注过所述目标商品的商品信息;获取所述商品信息的句子向量表达式和所述商品信息的词语向量表达式;将所述句子向量表达式输入至多个目标模型的共享部分,输出句子特征向量,将所述词语向量表达式输入至所述共享部分中输出词语特征向量,其中,所述多个目标模型的共享部分为多个不同语种的目标模型的交集部分,不同语种之间的使用范围存在差异;基于所述句子特征向量和所述词语特征向量确定所述商品信息中的目标信息。
进一步地,所述方法还包括:在将所述句子向量表达式输入至多个目标模型的共享部分之前,获取标注数据,其中,所述标注数据中包括多个目标商品的商品信息和每个商品所属的叶子类目;确定基于所述标注数据随机生成的句子向量表达式和词语向量表达式;采用所述标注数据和所述随机生成的句子向量表达式和词语向量表达式对多个目标模型上目标层的参数进行训练,确定每个目标模型上目标层的参数,以确定所述共享部分。
进一步地,采用所述标注数据和所述随机生成的句子向量表达式和词语向量表达式对多个目标模型上目标层的参数进行训练,确定每个目标模型上目标层的参数,以确定所述共享部分包括:将所述随机生成的句子向量表达式输入至所述多个目标模型,输出句子特征向量,将随机生成的词语向量表达式输入至所述多个目标模型,输出词语特征向量;根据所述句子特征向量和所述词语特征向量确定每个词语与词语所在目标商品的商品信息的相似度,以确定每个商品的目标信息;根据所述句子特征向量,确定每个目标商品的商品信息的所属叶子类目;基于确定出的每个商品的目标信息和确定出的每个目标商品的商品信息的所属叶子类目重新输入至所述多个目标模型,直到确定出的每个商品的目标信息与所述标注数据中标注出的每个商品的目标信息相同,并且确定出的每个商品所属的叶子类目与所述标注数据中的每个商品所属的叶子类目相同为止,确定出所述多个目标模型上目标层的参数,以确定所述共享部分。
进一步地,所述方法还包括:将确定所述共享部分过程中的句子向量表达式和词语向量表达式存储在词典中。
进一步地,获取所述商品信息的句子向量表达式和所述商品信息的词语向量表达式包括:基于所述商品信息从所述词典中去获取所述目标商品的商品信息对应的句子向量表达式和所述目标商品的商品信息对应的词语向量表达式。
进一步地,基于所述句子特征向量和所述词语特征向量确定所述商品信息中的目标信息包括:基于所述句子特征向量和所述词语特征向量确定出所述商品信息中的各个词语与所述商品信息的相似度;将与所述商品信息的相似度大于预设阈值的词语作为所述目标商品的商品信息。
进一步地,所述商品信息包括标题信息,所述目标信息包括中心词。
进一步地,所述方法应用于电商领域,所述目标商品为网站中的商品。
根据本发明实施例的另一方面,还提供了一种信息提取的装置,包括:第一获取单元,用于获取目标商品的商品信息,其中,通过至少两种语种标注过所述目标商品的商品信息;第二获取单元,用于获取所述商品信息的句子向量表达式和所述商品信息的词语向量表达式;输出单元,用于将所述句子向量表达式输入至多个目标模型的共享部分,输出句子特征向量,将所述词语向量表达式输入至所述共享部分中输出词语特征向量,其中,所述多个目标模型的共享部分为多个不同语种的目标模型的交集部分,不同语种之间的使用范围存在差异;第一确定单元,用于基于所述句子特征向量和所述词语特征向量确定所述商品信息中的目标信息。
进一步地,所述装置还包括:第三获取单元,用于在将所述句子向量表达式输入至多个目标模型的共享部分之前,获取标注数据,其中,所述标注数据中包括多个目标商品的商品信息和每个商品所属的叶子类目;第二确定单元,用于确定基于所述标注数据随机生成的句子向量表达式和词语向量表达式;第三确定单元,用于采用所述标注数据和所述随机生成的句子向量表达式和词语向量表达式对多个目标模型上目标层的参数进行训练,确定每个目标模型上目标层的参数,以确定所述共享部分。
进一步地,所述第三确定单元包括:输出模块,用于将所述随机生成的句子向量表达式输入至所述多个目标模型,输出句子特征向量,将随机生成的词语向量表达式输入至所述多个目标模型,输出词语特征向量;第一确定模块,用于根据所述句子特征向量和所述词语特征向量确定每个词语与词语所在目标商品的商品信息的相似度,以确定每个商品的目标信息;第二确定模块,用于根据所述句子特征向量,确定每个目标商品的商品信息的所属叶子类目;第三确定模块,用于基于确定出的每个商品的目标信息和确定出的每个目标商品的商品信息的所属叶子类目重新输入至所述多个目标模型,直到确定出的每个商品的目标信息与所述标注数据中标注出的每个商品的目标信息相同,并且确定出的每个商品所属的叶子类目与所述标注数据中的每个商品所属的叶子类目相同为止,确定出所述多个目标模型上目标层的参数,以确定所述共享部分。
根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的信息提取的方法。
根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的信息提取的方法。
在本发明实施例中,通过获取目标商品的商品信息,其中,通过至少两种语种标注过目标商品的商品信息;获取商品信息的句子向量表达式和商品信息的词语向量表达式;将句子向量表达式输入至多个目标模型的共享部分,输出句子特征向量,将词语向量表达式输入至共享部分中输出词语特征向量,其中,多个目标模型的共享部分为多个不同语种的目标模型的交集部分,不同语种之间的使用范围存在差异;基于句子特征向量和词语特征向量确定商品信息中的目标信息,达到了借助不同语言之间的内在联系,将常用的语言的知识迁移到不常用的语言上,通过共有的知识进而提升新语言上的处理能力的目的,从而达到了提升对不常用的语言的处理效率的技术效果,进而解决了由于现有技术中对于不常用的语言的处理通常是借助大量人工标注,导致成本较高,处理效率较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的计算机终端的硬件结构框图;
图2是根据本发明实施例的一种信息提取的方法的流程图;
图3是根据本发明实施例的一种可选的信息提取的方法的示意图;
图4是根据本发明实施例的一种信息提取的方法装置的示意图;以及
图5是根据本发明实施例的可选的计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
中心词:电商标题或搜索查询时与待搜索商品最接近的词。
电商类目:电商平台的商品所属的某个具体的分类,如苹果iphone 6s属于手机类目。
跨语言知识迁移:借助资源丰富型语种(如中文、英语等)的知识来提升资源稀缺型语种(俄语、西班牙语等)的处理能力的一种方法。
实施例1
根据本发明实施例,还提供了一种信息提取的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现信息提取的方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的信息提取的方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的信息提取的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
在上述运行环境下,本申请提供了如图2所示的信息提取的方法。图2是根据本发明实施例一的信息提取的方法的流程图。
步骤S201,获取目标商品的商品信息,其中,通过至少两种语种标注过所述目标商品的商品信息。
上述的目标商品的商品信息可以为俄语的松达婴儿护肤山茶油,其中,松达婴儿护肤山茶油至少采用英语和俄语标注过。
步骤S202,获取所述商品信息的句子向量表达式和所述商品信息的词语向量表达式。
将商品信息进行转化获取商品信息的句子向量表达式,将商品信息中的词语进行切分,得到多个词语,获取各个词语的词语向量表达式。
步骤S203,将所述句子向量表达式输入至多个目标模型的共享部分,输出句子特征向量,将所述词语向量表达式输入至所述共享部分中输出词语特征向量,其中,所述多个目标模型的共享部分为多个不同语种的目标模型的交集部分,不同语种之间的使用范围存在差异。
基于获取到的商品信息的句子向量表达式输入至多个目标模型的共享部分中,多个目标模型的共享部分输出句子特征向量。将词语向量表达式输入至多个目标模型的共享部分中,多个目标模型的共享部分输出词语特征向量。
需要说明的是,上述的共享部分是基于多个不同语种的目标模型的交集部分,例如,基于英语生成的语言模型和基于俄语训练生成的语言模型,其中,在电商领域,英语为常用的语言,俄语为不常用的语言,也即,英语的使用范围比俄语的使用范围大。两种模型(例如,英语,俄语)两个模型有交集,上述的共享部分可以交集部分是“共享部分”。英语模型和俄语模型可以是两个独立的深度神经网络模型(DNN),这两个深度神经网络之间有一层是相同的,这一层的节点之间的参数设置相同,也即,两个独立的深度神经网络的这一层即为共享部分。基于英语模型和俄语模型确定英语模型和俄语模型的共享部分。确定英语模型和俄语模型的共享部分是将常用的语言的知识迁移到不常用的语言上,通过共有的知识进而提升新语言上的处理能力。
步骤S204,基于句子特征向量和词语特征向量确定商品信息中的目标信息。
例如,基于共享部分输出的句子特征向量和共享部分输出的词语特征向量确定俄语的商品信息中的目标信息。从而提升处理效率。上述的商品信息可以为标题信息,目标信息可以为中心词,例如,标题信息为俄语的松达婴儿护肤山茶油,确定出的中心词为俄语的婴儿,护肤。
在本申请实施例提供的信息提取的方法中,通过获取目标商品的商品信息,其中,通过至少两种语种标注过目标商品的商品信息;获取商品信息的句子向量表达式和商品信息的词语向量表达式;将句子向量表达式输入至多个目标模型的共享部分,输出句子特征向量,将词语向量表达式输入至共享部分中输出词语特征向量,其中,多个目标模型的共享部分为多个不同语种的目标模型的交集部分,不同语种之间的使用范围存在差异;基于句子特征向量和词语特征向量确定商品信息中的目标信息,达到了借助不同语言之间的内在联系,将常用的语言的知识迁移到不常用的语言上,通过共有的知识进而提升新语言上的处理能力的目的,从而达到了提升对不常用的语言的处理效率的技术效果,进而解决了由于现有技术中对于不常用的语言的处理通常是借助大量人工标注,导致成本较高,处理效率较低的技术问题。
可选地,在本申请实施例提供的信息提取的方法中,该方法还包括:在将所述句子向量表达式输入至多个目标模型的共享部分之前,获取标注数据,其中,所述标注数据中包括多个目标商品的商品信息和每个商品所属的叶子类目;确定基于所述标注数据随机生成的句子向量表达式和词语向量表达式;采用所述标注数据和所述随机生成的句子向量表达式和词语向量表达式对多个目标模型上目标层的参数进行训练,确定每个目标模型上目标层的参数,以确定所述共享部分。
例如,商品信息为手机,苹果iphone 6s属于手机的叶子类目。基于多个目标商品的商品信息和每个商品所属的叶子类目生成的句子向量表达式,对商品信息中进行分词处理,并对分词后的词语转化为词语向量表达式。在初始确定所述共享部分时,基于标注数据随机生成句子向量表达式和词语向量表达式对多个目标模型上目标层的参数进行训练,确定每个目标模型上目标层的参数,以确定所述共享部分。
为了提升确定共享部分的准确性,可选地,在本申请实施例提供的信息提取的方法中,采用所述标注数据和所述随机生成的句子向量表达式和词语向量表达式对多个目标模型上目标层的参数进行训练,确定每个目标模型上目标层的参数,以确定所述共享部分包括:将所述随机生成的句子向量表达式输入至所述多个目标模型,输出句子特征向量,将随机生成的词语向量表达式输入至所述多个目标模型,输出词语特征向量;根据所述句子特征向量和所述词语特征向量确定每个词语与词语所在目标商品的商品信息的相似度,以确定每个商品的目标信息;根据所述句子特征向量,确定每个目标商品的商品信息的所属叶子类目;基于确定出的每个商品的目标信息和确定出的每个目标商品的商品信息的所属叶子类目重新输入至所述多个目标模型,直到确定出的每个商品的目标信息与所述标注数据中标注出的每个商品的目标信息相同,并且确定出的每个商品所属的叶子类目与所述标注数据中的每个商品所属的叶子类目相同为止,确定出所述多个目标模型上目标层的参数,以确定所述共享部分。
具体地,基于句子特征向量和词语特征向量确定出商品信息中的各个词语与商品信息的相似度;将与商品信息的相似度大于预设阈值的词语作为目标商品的商品信息。例如,根据句子特征向量和词语特征向量确定词语A与词语所在目标商品的商品信息的相似度为0.6,词语B与词语所在目标商品的商品信息的相似度为0.8,词语C与词语所在目标商品的商品信息的相似度为0.9。相似度阈值为0.85,根据词语与词语所在目标商品的商品信息的相似度大于相似度阈值的,即词语C为商品的目标信息。然后再根据句子特征向量,确定每个目标商品的商品信息的所属叶子类目;基于确定出的词语C和确定出的每个目标商品的商品信息的所属叶子类目重新输入至所述多个目标模型(可以为多个独立的卷积神经网络),直到确定出的词语C与标注数据中标注出的每个商品的目标信息相同,并且确定出的每个商品所属的叶子类目与标注数据中的每个商品所属的叶子类目相同为止,确定出多个目标模型上目标层的参数,以确定所述共享部分。
为了提升后续语言处理的效率,可选地,在本申请实施例提供的信息提取的方法中,该方法还包括:将确定所述共享部分过程中的句子向量表达式和词语向量表达式存储在词典中。
在上述方案中,在确定所述共享部分之后,将确定所述共享部分过程中的句子向量表达式和词语向量表达式存储在词典中,以便后续确定共享部分时直接从词典中获取各个词语对应的词语向量表达式和句子对应的句子向量表达式即可,提升处理效率。例如,需要获取商品的目标信息的过程中,首先要获取商品信息的句子向量表达式和商品信息的词语向量表达式,基于商品信息从词典中去获取目标商品的商品信息对应的句子向量表达式和目标商品的商品信息对应的词语向量表达式,提升处理效率。
如图3所示,图3是根据本发明实施例的一种可选的信息提取的方法的示意图,本申请实施例使用跨语言知识迁移的技术,对英语和俄语的中心词任务在模型参数、多任务学***台的多语言商品库,标注数据选择的是商品的标题以及商品所挂在的叶子类目,英语商品量是最大的,其标注数据也比较丰富,而俄语商品非常少,因此其标注数据也相对英语要少很多。英语和俄语的标注数据均包括两部分,一是商品标题及该商品对应的叶子类目所构成的标注数据;二是商品标题及该标题的中心词所构成的数据。第一部分叶子类目的标注数据主要是借助了英语和俄语在类目体系上的相似度,通过模型学***台下共有的类目体系来促进跨语言迁移能力,同时各自会有独立的中心词识别目标,在模型学习过程中,共有类目会让模型更好的学到语言无关的特性,而中心词目标则让模型为我们最终的中心词提取的目标服务,通过学到的语言无关的特性,进而带来最终目标俄语中心词任务性能。需要说明的是,在本申请实施例中的中心词任务也可以用其他任务替换,如NER、分词、POS
等,框架可以复用。另外语言上可以换成其他语言对,如英语到西班牙语,俄语到西班牙语等,语言可以任意替换。
综上所述,本发明实施例借助了语言之间的内在联系,通过技术手段将已经掌握的语言的知识迁移到没有掌握的新语言上,通过共有的知识进而提升新语言上的处理能力,在支持搜索相关性的俄语中心词的业务场景,在已有的较高准确率情况下,使用本技术方案在此基础上再次提升准确率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述信息提取的方法的装置,如图4示,该装置包括:第一获取单元401、第二获取单元402、输出单元403和第一确定单元404。
第一获取单元401,用于获取目标商品的商品信息,其中,通过至少两种语种标注过所述目标商品的商品信息;
第二获取单元402,用于获取商品信息的句子向量表达式和商品信息的词语向量表达式;
输出单元403,用于将所述句子向量表达式输入至多个目标模型的共享部分,输出句子特征向量,将所述词语向量表达式输入至所述共享部分中输出词语特征向量,其中,所述多个目标模型的共享部分为多个不同语种的目标模型的交集部分,不同语种之间的使用范围存在差异;
第一确定单元404,用于基于句子特征向量和词语特征向量确定商品信息中的目标信息。
本申请实施例提供的信息提取的装置中,第一获取单元401获取目标商品的商品信息,其中,通过至少两种语种标注过所述目标商品的商品信息;第二获取单元402获取商品信息的句子向量表达式和商品信息的词语向量表达式;输出单元403将所述句子向量表达式输入至多个目标模型的共享部分,输出句子特征向量,将所述词语向量表达式输入至所述共享部分中输出词语特征向量,其中,所述多个目标模型的共享部分为多个不同语种的目标模型的交集部分,不同语种之间的使用范围存在差异;第一确定单元404基于句子特征向量和词语特征向量确定商品信息中的目标信息,达到了借助不同语言之间的内在联系,将常用的语言的知识迁移到不常用的语言上,通过共有的知识进而提升新语言上的处理能力的目的,从而达到了提升对不常用的语言的处理效率的技术效果,进而解决了由于现有技术中对于不常用的语言的处理通常是借助大量人工标注,导致成本较高,处理效率较低的技术问题。
可选地,在本申请实施例提供的信息提取的装置中,该装置还包括:第三获取单元,用于在将所述句子向量表达式输入至多个目标模型的共享部分之前,获取标注数据,其中,所述标注数据中包括多个目标商品的商品信息和每个商品所属的叶子类目;第二确定单元,用于确定基于所述标注数据随机生成的句子向量表达式和词语向量表达式;第三确定单元,用于采用所述标注数据和所述随机生成的句子向量表达式和词语向量表达式对多个目标模型上目标层的参数进行训练,确定每个目标模型上目标层的参数,以确定所述共享部分。
可选地,在本申请实施例提供的信息提取的装置中,第三确定单元包括:输出模块,用于将所述随机生成的句子向量表达式输入至所述多个目标模型,输出句子特征向量,将随机生成的词语向量表达式输入至所述多个目标模型,输出词语特征向量;第一确定模块,用于根据所述句子特征向量和所述词语特征向量确定每个词语与词语所在目标商品的商品信息的相似度,以确定每个商品的目标信息;第二确定模块,用于根据所述句子特征向量,确定每个目标商品的商品信息的所属叶子类目;第三确定模块,用于基于确定出的每个商品的目标信息和确定出的每个目标商品的商品信息的所属叶子类目重新输入至所述多个目标模型,直到确定出的每个商品的目标信息与所述标注数据中标注出的每个商品的目标信息相同,并且确定出的每个商品所属的叶子类目与所述标注数据中的每个商品所属的叶子类目相同为止,确定出所述多个目标模型上目标层的参数,以确定所述共享部分。
可选地,在本申请实施例提供的信息提取的装置中,该装置还包括:存储单元,用于将确定所述共享部分过程中的句子向量表达式和词语向量表达式存储在词典中。
可选地,在本申请实施例提供的信息提取的装置中,第二获取单元402包括:获取模块,用于基于商品信息从词典中去获取目标商品的商品信息对应的句子向量表达式和目标商品的商品信息对应的词语向量表达式。
可选地,在本申请实施例提供的信息提取的装置中,第一确定单元404包括:第四确定模块,用于基于句子特征向量和词语特征向量确定出商品信息中的各个词语与商品信息的相似度;第五确定模块,用于将与商品信息的相似度大于预设阈值的词语作为目标商品的商品信息。
可选地,在本申请实施例提供的信息提取的装置中,商品信息包括标题信息,目标信息包括中心词。
可选地,在本申请实施例提供的信息提取的装置中,所述装置应用于电商领域,所述目标商品为网站中的商品。
此处需要说明的是,上述第一获取单元401、第二获取单元402、输出单元403和第一确定单元404对应于实施例1中的步骤S201至步骤S204,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
实施例3
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行应用程序的信息提取方法中以下步骤的程序代码:获取目标商品的商品信息,其中,通过至少两种语种标注过所述目标商品的商品信息;获取所述商品信息的句子向量表达式和所述商品信息的词语向量表达式;将所述句子向量表达式输入至多个目标模型的共享部分,输出句子特征向量,将所述词语向量表达式输入至所述共享部分中输出词语特征向量,其中,所述多个目标模型的共享部分为多个不同语种的目标模型的交集部分,不同语种之间的使用范围存在差异;基于所述句子特征向量和所述词语特征向量确定所述商品信息中的目标信息。
可选的,上述计算机终端还可以执行应用程序的信息提取方法中以下步骤的程序代码:所述方法还包括:在将所述句子向量表达式输入至多个目标模型的共享部分之前,获取标注数据,其中,所述标注数据中包括多个目标商品的商品信息和每个商品所属的叶子类目;确定基于所述标注数据随机生成的句子向量表达式和词语向量表达式;采用所述标注数据和所述随机生成的句子向量表达式和词语向量表达式对多个目标模型上目标层的参数进行训练,确定每个目标模型上目标层的参数,以确定所述共享部分。
可选的,上述计算机终端还可以执行应用程序的信息提取方法中以下步骤的程序代码:采用所述标注数据和所述随机生成的句子向量表达式和词语向量表达式对多个目标模型上目标层的参数进行训练,确定每个目标模型上目标层的参数,以确定所述共享部分包括:将所述随机生成的句子向量表达式输入至所述多个目标模型,输出句子特征向量,将随机生成的词语向量表达式输入至所述多个目标模型,输出词语特征向量;根据所述句子特征向量和所述词语特征向量确定每个词语与词语所在目标商品的商品信息的相似度,以确定每个商品的目标信息;根据所述句子特征向量,确定每个目标商品的商品信息的所属叶子类目;基于确定出的每个商品的目标信息和确定出的每个目标商品的商品信息的所属叶子类目重新输入至所述多个目标模型,直到确定出的每个商品的目标信息与所述标注数据中标注出的每个商品的目标信息相同,并且确定出的每个商品所属的叶子类目与所述标注数据中的每个商品所属的叶子类目相同为止,确定出所述多个目标模型上目标层的参数,以确定所述共享部分。
可选的,上述计算机终端还可以执行应用程序的信息提取方法中以下步骤的程序代码:所述方法还包括:将确定所述共享部分过程中的句子向量表达式和词语向量表达式存储在词典中。
可选的,上述计算机终端还可以执行应用程序的信息提取方法中以下步骤的程序代码:获取所述商品信息的句子向量表达式和所述商品信息的词语向量表达式包括:基于所述商品信息从所述词典中去获取所述目标商品的商品信息对应的句子向量表达式和所述目标商品的商品信息对应的词语向量表达式。
可选的,上述计算机终端还可以执行应用程序的信息提取方法中以下步骤的程序代码:基于所述句子特征向量和所述词语特征向量确定所述商品信息中的目标信息包括:基于所述句子特征向量和所述词语特征向量确定出所述商品信息中的各个词语与所述商品信息的相似度;将与所述商品信息的相似度大于预设阈值的词语作为所述目标商品的商品信息。
可选的,上述计算机终端还可以执行应用程序的信息提取方法中以下步骤的程序代码:所述商品信息包括标题信息,所述目标信息包括中心词。
可选的,上述计算机终端还可以执行应用程序的信息提取方法中以下步骤的程序代码:所述方法应用于电商领域,所述目标商品为网站中的商品。
可选地,图5是根据本发明实施例的一种计算机终端的结构框图。如图5所示,该计算机终端A可以包括:一个或多个(图中仅示出一个)处理器、存储器。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的信息提取方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的信息提取方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取目标商品的商品信息,其中,通过至少两种语种标注过所述目标商品的商品信息;获取所述商品信息的句子向量表达式和所述商品信息的词语向量表达式;将所述句子向量表达式输入至多个目标模型的共享部分,输出句子特征向量,将所述词语向量表达式输入至所述共享部分中输出词语特征向量,其中,所述多个目标模型的共享部分为多个不同语种的目标模型的交集部分,不同语种之间的使用范围存在差异;基于所述句子特征向量和所述词语特征向量确定所述商品信息中的目标信息。
可选的,上述处理器还可以执行如下步骤的程序代码:所述方法还包括:在将所述句子向量表达式输入至多个目标模型的共享部分之前,获取标注数据,其中,所述标注数据中包括多个目标商品的商品信息和每个商品所属的叶子类目;确定基于所述标注数据随机生成的句子向量表达式和词语向量表达式;采用所述标注数据和所述随机生成的句子向量表达式和词语向量表达式对多个目标模型上目标层的参数进行训练,确定每个目标模型上目标层的参数,以确定所述共享部分。
可选的,上述处理器还可以执行如下步骤的程序代码:采用所述标注数据和所述随机生成的句子向量表达式和词语向量表达式对多个目标模型上目标层的参数进行训练,确定每个目标模型上目标层的参数,以确定所述共享部分包括:将所述随机生成的句子向量表达式输入至所述多个目标模型,输出句子特征向量,将随机生成的词语向量表达式输入至所述多个目标模型,输出词语特征向量;根据所述句子特征向量和所述词语特征向量确定每个词语与词语所在目标商品的商品信息的相似度,以确定每个商品的目标信息;根据所述句子特征向量,确定每个目标商品的商品信息的所属叶子类目;基于确定出的每个商品的目标信息和确定出的每个目标商品的商品信息的所属叶子类目重新输入至所述多个目标模型,直到确定出的每个商品的目标信息与所述标注数据中标注出的每个商品的目标信息相同,并且确定出的每个商品所属的叶子类目与所述标注数据中的每个商品所属的叶子类目相同为止,确定出所述多个目标模型上目标层的参数,以确定所述共享部分。
可选的,上述处理器还可以执行如下步骤的程序代码:所述方法还包括:将确定所述共享部分过程中的句子向量表达式和词语向量表达式存储在词典中。
可选的,上述处理器还可以执行如下步骤的程序代码:获取所述商品信息的句子向量表达式和所述商品信息的词语向量表达式包括:基于所述商品信息从所述词典中去获取所述目标商品的商品信息对应的句子向量表达式和所述目标商品的商品信息对应的词语向量表达式。
可选的,上述处理器还可以执行如下步骤的程序代码:基于所述句子特征向量和所述词语特征向量确定所述商品信息中的目标信息包括:基于所述句子特征向量和所述词语特征向量确定出所述商品信息中的各个词语与所述商品信息的相似度;将与所述商品信息的相似度大于预设阈值的词语作为所述目标商品的商品信息。
可选的,上述处理器还可以执行如下步骤的程序代码:所述商品信息包括标题信息,所述目标信息包括中心词。
可选的,上述处理器还可以执行如下步骤的程序代码:所述方法应用于电商领域,所述目标商品为网站中的商品。
采用本发明实施例,提供了一种信息提取的方法的方案。通过获取目标商品的商品信息,其中,通过至少两种语种标注过目标商品的商品信息;获取商品信息的句子向量表达式和商品信息的词语向量表达式;将句子向量表达式输入至多个目标模型的共享部分,输出句子特征向量,将词语向量表达式输入至共享部分中输出词语特征向量,其中,多个目标模型的共享部分为多个不同语种的目标模型的交集部分,不同语种之间的使用范围存在差异;基于句子特征向量和词语特征向量确定商品信息中的目标信息,达到了借助不同语言之间的内在联系,将常用的语言的知识迁移到不常用的语言上,通过共有的知识进而提升新语言上的处理能力的目的,从而达到了提升对不常用的语言的处理效率的技术效果,进而解决了由于现有技术中对于不常用的语言的处理通常是借助大量人工标注,导致成本较高,处理效率较低的技术问题。
本领域普通技术人员可以理解,图5所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图5其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图5所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例4
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的信息提取的方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取目标商品的商品信息,其中,通过至少两种语种标注过所述目标商品的商品信息;获取所述商品信息的句子向量表达式和所述商品信息的词语向量表达式;将所述句子向量表达式输入至多个目标模型的共享部分,输出句子特征向量,将所述词语向量表达式输入至所述共享部分中输出词语特征向量,其中,所述多个目标模型的共享部分为多个不同语种的目标模型的交集部分,不同语种之间的使用范围存在差异;基于所述句子特征向量和所述词语特征向量确定所述商品信息中的目标信息。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:所述方法还包括:在将所述句子向量表达式输入至多个目标模型的共享部分之前,获取标注数据,其中,所述标注数据中包括多个目标商品的商品信息和每个商品所属的叶子类目;确定基于所述标注数据随机生成的句子向量表达式和词语向量表达式;采用所述标注数据和所述随机生成的句子向量表达式和词语向量表达式对多个目标模型上目标层的参数进行训练,确定每个目标模型上目标层的参数,以确定所述共享部分。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:采用所述标注数据和所述随机生成的句子向量表达式和词语向量表达式对多个目标模型上目标层的参数进行训练,确定每个目标模型上目标层的参数,以确定所述共享部分包括:将所述随机生成的句子向量表达式输入至所述多个目标模型,输出句子特征向量,将随机生成的词语向量表达式输入至所述多个目标模型,输出词语特征向量;根据所述句子特征向量和所述词语特征向量确定每个词语与词语所在目标商品的商品信息的相似度,以确定每个商品的目标信息;根据所述句子特征向量,确定每个目标商品的商品信息的所属叶子类目;基于确定出的每个商品的目标信息和确定出的每个目标商品的商品信息的所属叶子类目重新输入至所述多个目标模型,直到确定出的每个商品的目标信息与所述标注数据中标注出的每个商品的目标信息相同,并且确定出的每个商品所属的叶子类目与所述标注数据中的每个商品所属的叶子类目相同为止,确定出所述多个目标模型上目标层的参数,以确定所述共享部分。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:所述方法还包括:将确定所述共享部分过程中的句子向量表达式和词语向量表达式存储在词典中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取所述商品信息的句子向量表达式和所述商品信息的词语向量表达式包括:基于所述商品信息从所述词典中去获取所述目标商品的商品信息对应的句子向量表达式和所述目标商品的商品信息对应的词语向量表达式。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:基于所述句子特征向量和所述词语特征向量确定所述商品信息中的目标信息包括:基于所述句子特征向量和所述词语特征向量确定出所述商品信息中的各个词语与所述商品信息的相似度;将与所述商品信息的相似度大于预设阈值的词语作为所述目标商品的商品信息。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:所述商品信息包括标题信息,所述目标信息包括中心词。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:所述方法应用于电商领域,所述目标商品为网站中的商品。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (13)

1.一种信息提取的方法,其特征在于,包括:
获取目标商品的商品信息,其中,通过至少两种语种标注过所述目标商品的商品信息;
获取所述商品信息的句子向量表达式和所述商品信息的词语向量表达式;
将所述句子向量表达式输入至多个目标模型的共享部分,输出句子特征向量,将所述词语向量表达式输入至所述共享部分中输出词语特征向量,其中,所述多个目标模型的共享部分为多个不同语种的目标模型的交集部分,不同语种之间的使用范围存在差异,其中,所述共享部分用于将已掌握的语言的知识迁移到没有掌握的语言上,所述共享部分在中心词的多任务学习过程中,对语言无关的特征进行抽取和建模;
基于所述句子特征向量和所述词语特征向量确定所述商品信息中的目标信息,其中,所述目标信息为中心词,所述中心词为电商标题或搜索查询时与所述目标商品最接近的词。
2.根据权利要求1所述的信息提取的方法,其特征在于,所述方法还包括:
在将所述句子向量表达式输入至多个目标模型的共享部分之前,获取标注数据,其中,所述标注数据中包括多个目标商品的商品信息和每个商品所属的叶子类目;
确定基于所述标注数据随机生成的句子向量表达式和词语向量表达式;
采用所述标注数据和所述随机生成的句子向量表达式和词语向量表达式对多个目标模型上目标层的参数进行训练,确定每个目标模型上目标层的参数,以确定所述共享部分。
3.根据权利要求2所述的信息提取的方法,其特征在于,采用所述标注数据和所述随机生成的句子向量表达式和词语向量表达式对多个目标模型上目标层的参数进行训练,确定每个目标模型上目标层的参数,以确定所述共享部分包括:
将所述随机生成的句子向量表达式输入至所述多个目标模型,输出句子特征向量,将随机生成的词语向量表达式输入至所述多个目标模型,输出词语特征向量;
根据所述句子特征向量和所述词语特征向量确定每个词语与词语所在目标商品的商品信息的相似度,以确定每个商品的目标信息;
根据所述句子特征向量,确定每个目标商品的商品信息的所属叶子类目;
基于确定出的每个商品的目标信息和确定出的每个目标商品的商品信息的所属叶子类目重新输入至所述多个目标模型,直到确定出的每个商品的目标信息与所述标注数据中标注出的每个商品的目标信息相同,并且确定出的每个商品所属的叶子类目与所述标注数据中的每个商品所属的叶子类目相同为止,确定出所述多个目标模型上目标层的参数,以确定所述共享部分。
4.根据权利要求3所述的信息提取的方法,其特征在于,所述方法还包括:将确定所述共享部分过程中的句子向量表达式和词语向量表达式存储在词典中。
5.根据权利要求4所述的信息提取的方法,其特征在于,获取所述商品信息的句子向量表达式和所述商品信息的词语向量表达式包括:
基于所述商品信息从所述词典中去获取所述目标商品的商品信息对应的句子向量表达式和所述目标商品的商品信息对应的词语向量表达式。
6.根据权利要求4所述的信息提取的方法,其特征在于,基于所述句子特征向量和所述词语特征向量确定所述商品信息中的目标信息包括:
基于所述句子特征向量和所述词语特征向量确定出所述商品信息中的各个词语与所述商品信息的相似度;
将与所述商品信息的相似度大于预设阈值的词语作为所述目标商品的商品信息。
7.根据权利要求1所述的信息提取的方法,其特征在于,所述商品信息包括标题信息,所述目标信息包括中心词。
8.根据权利要求1所述的信息提取的方法,其特征在于,所述方法应用于电商领域,所述目标商品为网站中的商品。
9.一种信息提取的装置,其特征在于,包括:
第一获取单元,用于获取目标商品的商品信息,其中,通过至少两种语种标注过所述目标商品的商品信息;
第二获取单元,用于获取所述商品信息的句子向量表达式和所述商品信息的词语向量表达式;
输出单元,用于将所述句子向量表达式输入至多个目标模型的共享部分,输出句子特征向量,将所述词语向量表达式输入至所述共享部分中输出词语特征向量,其中,所述多个目标模型的共享部分为多个不同语种的目标模型的交集部分,不同语种之间的使用范围存在差异,其中,所述共享部分用于将已掌握的语言的知识迁移到没有掌握的语言上,所述共享部分在中心词的多任务学习过程中,对语言无关的特征进行抽取和建模;
第一确定单元,用于基于所述句子特征向量和所述词语特征向量确定所述商品信息中的目标信息,其中,所述目标信息为中心词,所述中心词为电商标题或搜索查询时与所述目标商品最接近的词。
10.根据权利要求9所述的信息提取的装置,其特征在于,所述装置还包括:
第三获取单元,用于在将所述句子向量表达式输入至多个目标模型的共享部分之前,获取标注数据,其中,所述标注数据中包括多个目标商品的商品信息和每个商品所属的叶子类目;
第二确定单元,用于确定基于所述标注数据随机生成的句子向量表达式和词语向量表达式;
第三确定单元,用于采用所述标注数据和所述随机生成的句子向量表达式和词语向量表达式对多个目标模型上目标层的参数进行训练,确定每个目标模型上目标层的参数,以确定所述共享部分。
11.根据权利要求10所述的信息提取的装置,其特征在于,所述第三确定单元包括:
输出模块,用于将所述随机生成的句子向量表达式输入至所述多个目标模型,输出句子特征向量,将随机生成的词语向量表达式输入至所述多个目标模型,输出词语特征向量;
第一确定模块,用于根据所述句子特征向量和所述词语特征向量确定每个词语与词语所在目标商品的商品信息的相似度,以确定每个商品的目标信息;
第二确定模块,用于根据所述句子特征向量,确定每个目标商品的商品信息的所属叶子类目;
第三确定模块,用于基于确定出的每个商品的目标信息和确定出的每个目标商品的商品信息的所属叶子类目重新输入至所述多个目标模型,直到确定出的每个商品的目标信息与所述标注数据中标注出的每个商品的目标信息相同,并且确定出的每个商品所属的叶子类目与所述标注数据中的每个商品所属的叶子类目相同为止,确定出所述多个目标模型上目标层的参数,以确定所述共享部分。
12.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至8中任意一项所述的信息提取的方法。
13.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至8中任意一项所述的信息提取的方法。
CN201910045546.1A 2019-01-17 2019-01-17 信息提取的方法及装置、存储介质和处理器 Active CN111523952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910045546.1A CN111523952B (zh) 2019-01-17 2019-01-17 信息提取的方法及装置、存储介质和处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910045546.1A CN111523952B (zh) 2019-01-17 2019-01-17 信息提取的方法及装置、存储介质和处理器

Publications (2)

Publication Number Publication Date
CN111523952A CN111523952A (zh) 2020-08-11
CN111523952B true CN111523952B (zh) 2023-05-05

Family

ID=71900067

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910045546.1A Active CN111523952B (zh) 2019-01-17 2019-01-17 信息提取的方法及装置、存储介质和处理器

Country Status (1)

Country Link
CN (1) CN111523952B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388549A (zh) * 2018-02-26 2018-08-10 腾讯科技(深圳)有限公司 信息转换方法、装置、存储介质和电子装置
CN108491380A (zh) * 2018-03-12 2018-09-04 苏州思必驰信息科技有限公司 用于口语理解的对抗多任务训练方法
CN109117483A (zh) * 2018-07-27 2019-01-01 清华大学 神经网络机器翻译模型的训练方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9779085B2 (en) * 2015-05-29 2017-10-03 Oracle International Corporation Multilingual embeddings for natural language processing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388549A (zh) * 2018-02-26 2018-08-10 腾讯科技(深圳)有限公司 信息转换方法、装置、存储介质和电子装置
CN108491380A (zh) * 2018-03-12 2018-09-04 苏州思必驰信息科技有限公司 用于口语理解的对抗多任务训练方法
CN109117483A (zh) * 2018-07-27 2019-01-01 清华大学 神经网络机器翻译模型的训练方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张爱英 ; 倪崇嘉 ; .资源稀缺蒙语语音识别研究.计算机科学.2017,(10),全文. *

Also Published As

Publication number Publication date
CN111523952A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
US12039447B2 (en) Information processing method and terminal, and computer storage medium
CN110069650B (zh) 一种搜索方法和处理设备
US11182840B2 (en) Systems and methods for mapping a predicted entity to a product based on an online query
CN108319888B (zh) 视频类型的识别方法及装置、计算机终端
CN109300059B (zh) 菜品推荐方法及装置
CN111324740B (zh) 纠纷事件的识别方法、识别装置和识别***
CN110110213B (zh) 挖掘用户职业的方法、装置、计算机可读存储介质和终端设备
CN110837581A (zh) 视频舆情分析的方法、装置以及存储介质
CN112749569A (zh) 文本的翻译方法和装置
CN112182178A (zh) 智能问答方法、装置、设备及可读存储介质
CN111552767A (zh) 搜索方法、搜索装置以及计算机设备
CN113282762A (zh) 知识图谱构建方法、装置、电子设备和存储介质
CN111274813A (zh) 语言序列标注方法、装置存储介质及计算机设备
Yin et al. Use your mobile computing devices to learn-Contextual mobile learning system design and case studies
CN111931503B (zh) 信息抽取方法及装置、设备、计算机可读存储介质
CN111523952B (zh) 信息提取的方法及装置、存储介质和处理器
CN115861606B (zh) 一种针对长尾分布文档的分类方法、装置及存储介质
CN111597296A (zh) 商品数据的处理方法、装置和***
CN113011182B (zh) 一种对目标对象进行标签标注的方法、装置和存储介质
KR101286296B1 (ko) 워드그래프 관리 방법 및 시스템
CN112749316B (zh) 翻译质量的确定方法、装置、存储介质和处理器
CN110956034B (zh) 词语的获取方法及装置、商品搜索方法
CN110826582B (zh) 图像特征训练方法、装置和***
CN112445898B (zh) 对话情感分析方法及装置、存储介质及处理器
CN111737550B (zh) 搜索结果处理方法及装置、存储介质和处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant