CN114139537A - 词向量的生成方法及装置 - Google Patents

词向量的生成方法及装置 Download PDF

Info

Publication number
CN114139537A
CN114139537A CN202111444646.5A CN202111444646A CN114139537A CN 114139537 A CN114139537 A CN 114139537A CN 202111444646 A CN202111444646 A CN 202111444646A CN 114139537 A CN114139537 A CN 114139537A
Authority
CN
China
Prior art keywords
field
text
sub
description information
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111444646.5A
Other languages
English (en)
Inventor
王倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dt Dream Technology Co Ltd
Original Assignee
Hangzhou Dt Dream Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dt Dream Technology Co Ltd filed Critical Hangzhou Dt Dream Technology Co Ltd
Priority to CN202111444646.5A priority Critical patent/CN114139537A/zh
Publication of CN114139537A publication Critical patent/CN114139537A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种词向量的生成方法及装置,该方法可以包括:获取目标字段对应的字段描述信息和字段枚举值;根据预定义的数据类型与数据特征的对应关系,确定与所述字段枚举值最匹配的数据特征所对应的目标数据类型以及相应的目标匹配概率值;对所述字段描述信息进行分词以得到至少一个子文本,并根据各个子文本的词性、所述目标数据类型以及预定义的数据类型、词性与权重的对应关系,确定各个子文本的子文本权重;根据各个子文本的子文本权重和所述目标匹配概率值对各个子文本的字向量进行计算,以得到所述字段描述信息的词向量。通过本申请的技术方案,可以更加准确的计算出字段描述信息的词向量,以更加准确的体现出字段描述信息的语义重心。

Description

词向量的生成方法及装置
技术领域
本申请涉及自然语言处理技术领域,特别是词向量的生成方法及装置。
背景技术
在自然语言处理过程中,首先需要将文本向量化得到对应于该文本的词向量,然后通过对词向量进行计算以获得自然语言的内在语义关系,从而可以让计算机可以理解自然语言的含义。
通常而言,在确定文本的词向量时可以利用文本的上下文语境对文本进行分析,使得词向量可以充分体现文本的特征信息。但在处理短文本时,由于短文本具有词语稀疏、语义离散等特点,通过对上下文语境进行分析所获得的词向量难以准确的表达短文本的语义信息,影响了自然语言处理的准确性。
发明内容
有鉴于此,本申请提供词向量的生成方法及装置。
具体的,本申请通过如下技术方案实现:
根据本申请的第一方面,提出了一种词向量的生成方法,包括:
获取目标字段对应的字段描述信息和字段枚举值;
根据预定义的数据类型与数据特征的对应关系,确定与所述字段枚举值最匹配的数据特征所对应的目标数据类型以及相应的目标匹配概率值;
对所述字段描述信息进行分词以得到至少一个子文本,并根据各个子文本的词性、所述目标数据类型以及预定义的数据类型、词性与权重的对应关系,确定各个子文本的子文本权重;
根据各个子文本的子文本权重和所述目标匹配概率值对各个子文本的字向量进行计算,以得到所述字段描述信息的词向量。
根据本申请的第二方面,提出了一种词向量的生成装置,包括:
获取单元,用于获取目标字段对应的字段描述信息和字段枚举值;
第一确定单元,用于根据预定义的数据类型与数据特征的对应关系,确定与所述字段枚举值最匹配的数据特征所对应的目标数据类型以及相应的目标匹配概率值;
第二确定单元,用于对所述字段描述信息进行分词以得到至少一个子文本,并根据各个子文本的词性、所述目标数据类型以及预定义的数据类型、词性与权重的对应关系,确定各个子文本的子文本权重;
第一计算单元,用于根据各个子文本的子文本权重和所述目标匹配概率值对各个子文本的字向量进行计算,以得到所述字段描述信息的词向量。
根据本申请的第三方面,提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如上述第一方面的实施例中所述的方法。
根据本申请实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述第一方面的实施例中所述方法的步骤。
由以上本申请提供的技术方案可见,本申请通过综合考虑字段描述信息中各个子文本的数据类型和词性,可以更加准确的计算出字段描述信息的词向量,并使得该词向量可以更加准确的体现出字段描述信息的语义重心。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据本申请一示例性实施例示出的一种词向量的生成方法的流程图;
图2是根据本申请一示例性实施例示出的一种词向量的生成方法的流程图;
图3是根据本申请一示例性实施例示出的一种词向量的生成电子设备示意图;
图4是根据本申请一示例性实施例示出的一种词向量的生成装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
接下来对本申请实施例进行详细说明。
随着计算机科学技术的发展,越来越多的数据以短文本的形式出现在互联网上,基于短文本词向量的相似度计算可以促进许多自然语言处理任务,在搜索引擎、推荐***、机器翻译、自动问答、命名实体识别、拼写纠错等领域具有广泛应用。
其中,词向量在自然语言处理中指的是用一个高维向量来表示某个词语的含义。在相关技术中,词向量通常可以通过对组成词语的各个字的字向量进行加权平均或者求和得到,或者利用注意力机制对文本的上下文进行充分交互,融合完整的上下文语境进行计算。但在计算短文本的词向量时,由于短文本通常由几个子文本组成,字段长度较短,所包含的信息量较少,因此,通过上述两种方式无法确定短文本的语义侧重点,所计算得到的词向量无法准确表达短文本的语义信息。
为例解决上述问题,本申请提供一种词向量的生成方法,图1为根据本申请一示例性实施例示出的一种词向量的生成方法的流程图。如图1所示,可以包括如下步骤:
步骤102:获取目标字段对应的字段描述信息和字段枚举值。
其中,字段描述信息即为需要生成词向量的短文本,字段枚举值则是对应于该字段描述信息的,用于对该字段描述信息进行举例说明的样例数据。例如,当字段描述信息为“性别”时,其对应的字段枚举值则可以是“男”和/或“女”;当字段描述信息为“生日”时,其对应的字段枚举值则可以是“1989.11.23”和/或“1996年3月11日”等。当目标字段为标准的数据字段时,由于标准数据一般会有相对应的字典表,字典表中记录着每个字段的字典值,因此也可以将该字段所对应的字典值作为该字段的字段枚举值。
在一实施例中,目标字段可以是目标数据表中的任一字段,在数据治理过程中经过数据探查之后的数据表通常可以包含有原始数据表的值域分布信息,因此可以通过对目标数据表进行数据探查以获取到对应于目标数据表的数据探查表,该数据探查表可以包含目标数据表中各个字段分别对应的字段描述信息和字段枚举值。通过检索该数据探查表即可确定目标字段所对应的字段描述信息和字段枚举值。
步骤104:根据预定义的数据类型与数据特征的对应关系,确定与所述字段枚举值最匹配的数据特征所对应的目标数据类型以及相应的目标匹配概率值。
在本申请的技术方案中,预先设置有数据类型与数据特征的对应关系,其中数据特征可以包括长度、格式、字符类型等特征。举例来说,根据本领域的公知常识可知,类似于“2020-07-01”或者“2020/07/01”格式的八位数字,或者包含有年、月、日等特定字符类似于“2020年7月1日”的数据通常用于表示日期,因此可以将“2020年7月1日、2020-07-01、2020/07/01这样的日期格式或者长度为8的全数字表示”作为“日期”这一数据类型的数据特征。因此,在本实施例中,数据类型与数据特征的对应关系可以由本领域技术人员可以根据常识或经验自行总结,也可以基于GB/T统一标准进行设置,本申请对此不作限制。
在此基础上,可以将获取到目标字段的字段描述信息所对应的字段枚举值与各个数据类型所对应的数据特征进行比对,判断字段枚举值的格式、长度等是否符合预定义对应关系中的数据特征,根据比对结果确定与字段枚举值最匹配的数据特征,该数据特征所对应的数据类型即为与字段枚举值所对应的字段描述信息最匹配的目标数据类型,其匹配的概率值即为字段描述信息匹配于目标数据类型的目标匹配概率值。举例而言,预定义有“日期”和“编码”两个数据类型,“日期”这一数据类型所对应的数据特征为“类似于2020年7月1日、2020-07-01、2020/07/01格式的数据或者长度为8的全数字”,“编码”这一数据类型所对应的数据特征为“全是数字且长度大于11;或者包含中文英文和数字且长度小于15,同时并不是2020年7月1日这样的格式;或者全是字母且长度大于等于5”,若目标字段的字段枚举值为“13082300470501”,则该字段枚举值最匹配于“全是数字且长度大于11”这一特征,可以确定与该目标字段所对应的字段描述信息最匹配的数据类型为“全是数字且长度大于11”这一特征所对应的“编码”。
在一实施例中,可以根据预定义的数据类型与数据特征的对应关系预先构建一多分类模型,在获取到目标字段对应的字段描述信息和字段枚举值后可以将字段枚举值输入该训练好的多分类模型,以通过该多分类模型输入的字段枚举值进行处理,输出与其相匹配的各个数据特征的匹配概率值。将各个匹配概率值中的最大值所对应的数据类型确定为与目标字段所对应的字段描述信息最匹配的目标数据类型,将该最大值确定为该字段描述信息匹配于目标数据类型的目标匹配概率值。
在另一实施例中,由于在某些情况下,字段枚举值的表述方式可能并未按照标准格式进行表示,例如当字段描述信息为“性别”时,通常而言字段枚举值应为“男”或“女”,但在某些字段中则可能会利用“0”或“1”对其进行表示,若仅基于预定义的数据类型与数据特征的对应关系对该字段枚举值进行匹配,则可能存在误差。且由于语义接近的词语对应的词向量在空间上是接近的,因此在构建多分类模型时,除了基于字段类型与字段特征的对应关系外,还可以基于预定义的词向量与数据类型的对应关系对其进行训练。在确定与字段枚举值最匹配的数据特征所对应的目标数据类型以及相应的目标匹配概率值时,可以先根据相关技术中词向量的生成方式获取字段描述信息的原始词向量,例如基于大量的中文或者行业领域的语料训练一个原始词向量模型,将字段描述信息输入该原始词向量模型即可得到对应原始词向量,该原始词向量虽然不够准确,但可以将其与字段枚举值一同输入上述训练好的多分类模型,以得到与字段枚举值和该原始词向量均匹配的各个数据特征的匹配概率值。将各个匹配概率值中的最大值所对应的数据类型确定为与目标字段所对应的字段描述信息最匹配的目标数据类型,将该最大值确定为该字段描述信息匹配于目标数据类型的目标匹配概率值。通过增加考虑字符描述信息原始词向量,可以避免字段枚举值不规范所带来的偏差,提高确定字段描述信息所属数据类型的准确性。
进一步的,在获取字段描述信息的原始词向量时,由于在相关技术中预先训练好的原始词向量模型可以同时对输入的多个字段描述进行处理,但在处理过程中需要先对字段描述信息进行补齐,以使各个字段描述信息的长度统一至输入的字段描述信息中的最大长度。因此,可以先将各个字段描述信息按照字段长度进行排序,根据排序结果对各个字段描述信息进行分组,以将预设数量的相邻字段描述信息划分至同一文本组中。举例而言,若所需处理的字段描述信息由6个,其长度分别为5、3、22、25、9、12,若预先训练好的原始词向量模型每次可以处理3个字段描述信息,相比于直接将长度为5、3、22的3个字段描述信息划分至第一文本组,将长度为25、9、12的字段描述信息划分至第二文本组,以使得原始词向量模型在对第一文本组进行处理时将其中的各个字段描述信息的长度补至22,将第二文本组中的各个字段描述信息长度补至25。本实施例可以先根据字段长度对其进行排序,将长度为3、5、12的3个字段描述信息划分至第一文本组,将长度为13、22、25的字段描述信息划分至第二文本组,以使得原始词向量模型在对第一文本组进行处理时只需要将其中的各个字段描述信息的长度补至12,将第二文本组中的各个字段描述信息长度补至25,从而提高原始词向量模型对第一文本组进行处理的效率。
步骤106:对所述字段描述信息进行分词以得到至少一个子文本,并根据各个子文本的词性、所述目标数据类型以及预定义的数据类型、词性与权重的对应关系,确定各个子文本的子文本权重。
其中,分词可以是将字段描述信息中的文本内容进行划分,划分为多个子文本,其中在对字段描述信息进行划分时可以根据上下文语义进行划分,以使得对字段描述信息的分词更加准确,例如,可以将“设备在用状态”划分为“设备”、“在”、“用”和“状态”四个词,并在对字段描述信息进行分词处理时可以将划分后的子文本进行词性标注,例如可以将“设备”、“在”、“用”和“状态”分别标注“名词”、“介词”、“介词”和“名词”。其中,字对段描述信息进行分词以及对分词后的子文本进行词性标注可以参考现有技术中的相关内容,本申请对此不作限制。
在本申请中,预先针对各个数据类型分别设置词性与权重的对应关系,同一数据类型下的不同的词性对应有不同的权重,相同词性在不同数据类型中也可以设置不同的权重。根据上述确定的目标数据类型可以确定对应的词性与权重的对应关系,再根据上述确定的各个子文本的词性确定各个子文本所对应的子文本权重。
步骤108:根据各个子文本的子文本权重和所述目标匹配概率值对各个子文本的字向量进行计算,以得到所述字段描述信息的词向量。
在一实施例中,在确定对应于目标在数据类型的子文本权重后,可以将目标匹配概率值分别与各个子文本所对应的子文本权重相乘,得到修正后权重,并将修正后的权重进行归一化处理得到各个子文本所对应的归一化权重,并基于该归一化权重对各个子文本的字向量进行加权求和,从而计算得到该字段描述信息所对应的词向量。其中各个子文本的字向量可以将各个子文本输入基于大量的中文或者行业领域的语料所训练得到的字向量模型进行处理得到。
基于上述的词向量生成方法,可以分别计算字段描述信息与标准元数据的词向量,并通过字段描述信息与标准元数据的词向量计算字段描述信息与标准元数据之间的语义相似度,以将与字段描述信息的词向量语义相似度最高的标准数据元确定为与字段描述信息相关联的目标数据源,使得在数据治理的过程中可以实现数据项和标准数据元的推荐关联。
由以上本申请提供的技术方案可见,本申请通过预先总结的各个数据类型的数据特征确定字段描述信息所属的目标数据类型以及属于该目标数据类型的概率,并基于该概率以及字段描述信息分词后的子文本所对应的词性权重对子文本的字向量进行计算,以得到该字段描述信息的词向量。可以使得生成的词向量能够更准确的表示出字段描述信息中的重点内容,以便基于该词向量进步一步实现自然语言处理任务。下面结合图3进行详细说明。其中,图2是根据本申请一示例性实施例示出的一种词向量的生成方法的流程图。如图2所示,词向量的生成方法可以包括以下步骤:
步骤201,获取目标数据表。
步骤202,对目标数据表进行数据探查,获取数据探查表
表1为针对某一干滩设备表进行分析后所获取的数据探查表。
Figure BDA0003384572270000081
Figure BDA0003384572270000091
表1
步骤203:获取字段描述信息和字段枚举值。
从表2所示的数据探查表中可也获取目标数据表中各个字段分别对应的字段描述信息和字段枚举值。例如对于“设备编号”这一字段描述信息,其所对应的字段枚举值为“13082300470501”、“42030200010103”等。
步骤204:确定目标数据类型和目标匹配概率值。
表2为预定义的数据类型与数据特征的对应关系,在本实施例中,基于表2所示的数据类型与数据特征的对应关系预先构建有一多分类模型。
Figure BDA0003384572270000092
Figure BDA0003384572270000101
表2
将表1中的各个字段描述信息输入该多分类模型,获取该多分类模型输出的与各个字段描述信息与各个数据特征相匹配的匹配概率值。表3为各个字段描述信息与各个数据类型所对应的匹配概率值。
Figure BDA0003384572270000111
表3
将各个匹配概率值中的最大值所对应的数据类型确定为与目标字段所对应的字段描述信息最匹配的目标数据类型,将该最大值确定为该字段描述信息匹配于目标数据类型的目标匹配概率值。举例而言,如表3所示,对于“设备编号”这一字段描述信息,其与各个数据类型的匹配值中的最大值为0.83,因此可以将0.83所对应的数据类型“编码”作为“设备编号”的目标数据类型,将0.83作为“设备编号”的目标匹配概率值。
步骤205:对字段描述信息进行分词处理以获取字段描述信息所对应的子文本,并对分词结果进行词性标注。
针对字段描述信息可以利用HanLP工具或者LTP工具等进行处理,以将各个字段描述信息中的文本内容划分为多个子文本,并标注各个子文本的词性。
表4示出了针对上述字段描述信息的分词以及词性标注结果,例如,针对“设备在用状态”可以将其划分为“设备”、“在”、“用”和“状态”四个子文本,其中“设备”、“在”、“用”和“状态”分别被标注为“名词”、“介词”、“介词”和“名词”。
Figure BDA0003384572270000112
Figure BDA0003384572270000121
表4
步骤206:确定各个子文本的子文本权重。
如表5所示,在预定义的数据类型、词性与权重的对应关系中同一数据类型下的不同的词性对应有不同的权重,相同词性在不同数据类型中也可以设置不同的权重。
Figure BDA0003384572270000122
表5
举例而言,“设备编号”这个字段描述信息所对应的目标数据类型为编码,其中“设备”所对应的词性为名词,则其子文本权重为0.46,而“设备在用状态”这个字段描述信息所对应的目标数据类型为代码,其中“在”所对应的词性为介词,则其子文本权重为0.32。
步骤207:确定各个子文本的字向量。
将各个子文本输入预先基于大量的中文或者行业领域的语料训练好的字向量模型,得到字向量模型输出的对应于各个子文本的字向量。
步骤208:确定字段描述信息中各个子文本的修正后权重。
在确定对应于目标在数据类型的子文本权重后,可以将目标匹配概率值分别与各个子文本所对应的子文本权重相乘,得到修正后权重,应当注意的是本申请并不限制上述步骤207与208的先后顺序。
举例而言,“设备编号”这个字段描述信息所对应的目标数据类型为编码,其目标匹配概率值为0.83,那么“设备”所对应的修正后权重就是0.83*0.46,编码这所对应的修正后权重就是0.83*0.46。而“设备在用状态”这个字段描述信息所对应的目标数据类型为代码,其目标匹配概率值为0.79,那么对于“设备在用状态”这个字段描述信息而言,“设备”所对应的修正后权重就是0.79*0.36,“在”所对应的修正后权重为0.79*0.32,“用”所对应的修正后权重为0.79*0.32,“状态”所对应的修正后权重就是0.79*0.36。
步骤209:计算得到字段描述信息的词向量。
对各个字段描述信息而言,首先将上述确定的修正后的权重进行归一化处理得到各个子文本所对应的归一化权重,再基于该归一化权重对上述确定的各个子文本的字向量进行加权求和,从而可以计算得到该字段描述信息的词向量。
与上述方法实施例相对应,本说明书还提供了一种装置的实施例。
图3是根据本申请一示例性实施例示出的一种词向量的生成电子设备的结构示意图。参考图3,在硬件层面,该电子设备包括处理器302、内部总线304、网络接口306、内存308以及非易失性存储器310,当然还可能包括其他业务所需要的硬件。处理器302从非易失性存储器310中读取对应的计算机程序到内存308中然后运行。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
图4是根据本申请一示例性实施例示出的一种词向量的生成装置的框图。参照图4,该装置包括获取单元402、第一确定单元404、第二确定单元406和第一计算单元408,其中:
获取单元402被配置为获取目标字段对应的字段描述信息和字段枚举值。
可选的,所述获取目标字段对应的字段描述信息和字段枚举值,包括:对目标数据表进行数据探查以获取对应于所述目标数据表的数据探查表,所述数据探查表包含所述目标数据表中各个字段分别对应的字段描述信息和字段枚举值;将所述目标数据表中的任一字段确定为目标字段,并获取所述数据探查表中对应于所述目标字段的字段描述信息和字段枚举值。
第一确定单元404被配置为根据预定义的数据类型与数据特征的对应关系,确定与所述字段枚举值最匹配的数据特征所对应的目标数据类型以及相应的目标匹配概率值。
可选的,所述根据预定义的数据类型与数据特征的对应关系,确定与所述字段枚举值最匹配的数据特征所对应的目标数据类型以及相应的目标匹配概率值,包括:将所述字段枚举值输入预先训练好的多分类模型,以得到与所述字段枚举值相匹配的各个数据特征的匹配概率值;其中,所述多分类模根据预定义的数据类型与数据特征的对应关系构建得到;确定各个匹配概率值中的最大值,并将对应于所述最大值的数据类型确定为目标数据类型,将所述最大值确定为目标匹配概率值。
可选的,所述根据预定义的数据类型与数据特征的对应关系,确定与所述字段枚举值最匹配的数据特征所对应的目标数据类型以及相应的目标匹配概率值,包括:获取所述字段描述信息的原始词向量;将所述原始词向量和所述字段枚举值输入预先训练好的多分类模型,以得到与所述字段枚举值和所述原始词向量相匹配的各个数据特征的匹配概率值;其中,所述预先训练好的多分类模型根据预定义的数据类型与数据特征的对应关系以及预定义的词向量与数据特征的对应关系构建得到;确定各个匹配概率值中的最大值,并将对应于所述最大值的数据类型确定为目标数据类型,将所述最大值确定为目标匹配概率值。
可选的,所述目标字段为多个,所述获取所述字段描述信息的原始词向量,包括:将各个字段描述信息按照字段长度进行排序;根据排序结果对各个字段描述信息进行分组,以将预设数量的相邻字段描述信息划分至同一文本组中;分别将各个文本组输入预先训练好的原始词向量模型,以得到各个文本组中各个字段描述信息的原始词向量。
第二确定单元406被配置为对所述字段描述信息进行分词以得到至少一个子文本,并根据各个子文本的词性、所述目标数据类型以及预定义的数据类型、词性与权重的对应关系,确定各个子文本的子文本权重。
第一计算单元408被配置为根据各个子文本的子文本权重和所述目标匹配概率值对各个子文本的字向量进行计算,以得到所述字段描述信息的词向量。
可选的,所述根据各个子文本的子文本权重和所述目标匹配概率值对各个子文本的字向量进行计算,以得到所述字段描述信息的词向量,包括:分别将各个子文本的子文本权重与所述目标匹配概率值相乘,以得到各个子文本的修正后权重;对各个子文本的修正后权重进行归一化处理,以得到各个子文本的归一化权重;根据各个子文本的归一化权重对各个子文本的字向量进行加权求和,以得到所述字段描述信息的词向量。
可选的,上述装置还包括:
第二计算单元410被配置为计算所述字段描述信息的词向量与预定义的各个标准数据元的词向量之间的语义相似度。
第三确定单元412被配置为确定与所述字段描述信息的词向量语义相似度最高的标准数据元为与所述字段描述信息相关联的目标数据元。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由词向量的生成装置的处理器执行以实现如上述实施例中任一所述的方法,比如该方法可以包括:
获取目标字段对应的字段描述信息和字段枚举值;根据预定义的数据类型与数据特征的对应关系,确定与所述字段枚举值最匹配的数据特征所对应的目标数据类型以及相应的目标匹配概率值;对所述字段描述信息进行分词以得到至少一个子文本,并根据各个子文本的词性、所述目标数据类型以及预定义的数据类型、词性与权重的对应关系,确定各个子文本的子文本权重;根据各个子文本的子文本权重和所述目标匹配概率值对各个子文本的字向量进行计算,以得到所述字段描述信息的词向量。
其中,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等,本申请并不对此进行限制。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (10)

1.一种词向量的生成方法,其特征在于,所述方法包括:
获取目标字段对应的字段描述信息和字段枚举值;
根据预定义的数据类型与数据特征的对应关系,确定与所述字段枚举值最匹配的数据特征所对应的目标数据类型以及相应的目标匹配概率值;
对所述字段描述信息进行分词以得到至少一个子文本,并根据各个子文本的词性、所述目标数据类型以及预定义的数据类型、词性与权重的对应关系,确定各个子文本的子文本权重;
根据各个子文本的子文本权重和所述目标匹配概率值对各个子文本的字向量进行计算,以得到所述字段描述信息的词向量。
2.根据权利要求1所述方法,其特征在于,所述获取目标字段对应的字段描述信息和字段枚举值,包括:
对目标数据表进行数据探查以获取对应于所述目标数据表的数据探查表,所述数据探查表包含所述目标数据表中各个字段分别对应的字段描述信息和字段枚举值;
将所述目标数据表中的任一字段确定为目标字段,并获取所述数据探查表中对应于所述目标字段的字段描述信息和字段枚举值。
3.根据权利要求1所述方法,其特征在于,所述根据预定义的数据类型与数据特征的对应关系,确定与所述字段枚举值最匹配的数据特征所对应的目标数据类型以及相应的目标匹配概率值,包括:
将所述字段枚举值输入预先训练好的多分类模型,以得到与所述字段枚举值相匹配的各个数据特征的匹配概率值;其中,所述多分类模根据预定义的数据类型与数据特征的对应关系构建得到;
确定各个匹配概率值中的最大值,并将对应于所述最大值的数据类型确定为目标数据类型,将所述最大值确定为目标匹配概率值。
4.根据权利要求1所述方法,其特征在于,所述根据预定义的数据类型与数据特征的对应关系,确定与所述字段枚举值最匹配的数据特征所对应的目标数据类型以及相应的目标匹配概率值,包括:
获取所述字段描述信息的原始词向量;
将所述原始词向量和所述字段枚举值输入预先训练好的多分类模型,以得到与所述字段枚举值和所述原始词向量相匹配的各个数据特征的匹配概率值;其中,所述预先训练好的多分类模型根据预定义的数据类型与数据特征的对应关系以及预定义的词向量与数据特征的对应关系构建得到;
确定各个匹配概率值中的最大值,并将对应于所述最大值的数据类型确定为目标数据类型,将所述最大值确定为目标匹配概率值。
5.根据权利要求4所述方法,其特征在于,所述目标字段为多个,所述获取所述字段描述信息的原始词向量,包括:
将各个字段描述信息按照字段长度进行排序;
根据排序结果对各个字段描述信息进行分组,以将预设数量的相邻字段描述信息划分至同一文本组中;
分别将各个文本组输入预先训练好的原始词向量模型,以得到各个文本组中各个字段描述信息的原始词向量。
6.根据权利要求1所述方法,其特征在于,所述根据各个子文本的子文本权重和所述目标匹配概率值对各个子文本的字向量进行计算,以得到所述字段描述信息的词向量,包括:
分别将各个子文本的子文本权重与所述目标匹配概率值相乘,以得到各个子文本的修正后权重;
对各个子文本的修正后权重进行归一化处理,以得到各个子文本的归一化权重;
根据各个子文本的归一化权重对各个子文本的字向量进行加权求和,以得到所述字段描述信息的词向量。
7.根据权利要求1所述方法,其特征在于,所述方法还包括:
计算所述字段描述信息的词向量与预定义的各个标准数据元的词向量之间的语义相似度;
确定与所述字段描述信息的词向量语义相似度最高的标准数据元为与所述字段描述信息相关联的目标数据元。
8.一种词向量的生成装置,其特征在于,所述装置包括:
获取单元,用于获取目标字段对应的字段描述信息和字段枚举值;
第一确定单元,用于根据预定义的数据类型与数据特征的对应关系,确定与所述字段枚举值最匹配的数据特征所对应的目标数据类型以及相应的目标匹配概率值;
第二确定单元,用于对所述字段描述信息进行分词以得到至少一个子文本,并根据各个子文本的词性、所述目标数据类型以及预定义的数据类型、词性与权重的对应关系,确定各个子文本的子文本权重;
第一计算单元,用于根据各个子文本的子文本权重和所述目标匹配概率值对各个子文本的字向量进行计算,以得到所述字段描述信息的词向量。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。
CN202111444646.5A 2021-11-30 2021-11-30 词向量的生成方法及装置 Pending CN114139537A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111444646.5A CN114139537A (zh) 2021-11-30 2021-11-30 词向量的生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111444646.5A CN114139537A (zh) 2021-11-30 2021-11-30 词向量的生成方法及装置

Publications (1)

Publication Number Publication Date
CN114139537A true CN114139537A (zh) 2022-03-04

Family

ID=80390137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111444646.5A Pending CN114139537A (zh) 2021-11-30 2021-11-30 词向量的生成方法及装置

Country Status (1)

Country Link
CN (1) CN114139537A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116151193A (zh) * 2023-04-13 2023-05-23 济南风驰科技有限公司 基于大数据和数字化工厂的数据管理方法及***
CN116680603A (zh) * 2023-07-26 2023-09-01 上海观安信息技术股份有限公司 一种数据分类方法、装置、存储介质及电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116151193A (zh) * 2023-04-13 2023-05-23 济南风驰科技有限公司 基于大数据和数字化工厂的数据管理方法及***
CN116151193B (zh) * 2023-04-13 2023-10-24 北京瀚博网络科技有限公司 基于大数据和数字化工厂的数据管理方法及***
CN116680603A (zh) * 2023-07-26 2023-09-01 上海观安信息技术股份有限公司 一种数据分类方法、装置、存储介质及电子设备
CN116680603B (zh) * 2023-07-26 2023-12-12 上海观安信息技术股份有限公司 一种数据分类方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN111222305B (zh) 一种信息结构化方法和装置
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
JP5356197B2 (ja) 単語意味関係抽出装置
CN112347229B (zh) 一种答案抽取方法、装置、计算机设备及存储介质
CN109002473B (zh) 一种基于词向量与词性的情感分析方法
US20100205198A1 (en) Search query disambiguation
CN110543639A (zh) 一种基于预训练Transformer语言模型的英文句子简化算法
JP4904496B2 (ja) 文書類似性導出装置及びそれを用いた回答支援システム
JP6187877B2 (ja) 同義語抽出システム、方法および記録媒体
US9645988B1 (en) System and method for identifying passages in electronic documents
CN109492213B (zh) 句子相似度计算方法和装置
JP2004110161A (ja) テキスト文比較装置
CN114329225B (zh) 基于搜索语句的搜索方法、装置、设备及存储介质
JP2006244262A (ja) 質問回答検索システム、方法およびプログラム
CN114139537A (zh) 词向量的生成方法及装置
CN113011689B (zh) 软件开发工作量的评估方法、装置及计算设备
CN114595327A (zh) 数据增强方法和装置、电子设备、存储介质
CN114528845A (zh) 异常日志的分析方法、装置及电子设备
CN108536673B (zh) 新闻事件抽取方法及装置
CN112380848A (zh) 文本生成方法、装置、设备及存储介质
CN107797981B (zh) 一种目标文本识别方法及装置
CN117390169B (zh) 表格数据问答方法、装置、设备及存储介质
CN114995903A (zh) 一种基于预训练语言模型的类别标签识别方法及装置
JP2012146263A (ja) 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム
CN107783958B (zh) 一种目标语句识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination