CN113673252A - 一种基于字段语义的数据表自动join推荐方法 - Google Patents

一种基于字段语义的数据表自动join推荐方法 Download PDF

Info

Publication number
CN113673252A
CN113673252A CN202110924937.8A CN202110924937A CN113673252A CN 113673252 A CN113673252 A CN 113673252A CN 202110924937 A CN202110924937 A CN 202110924937A CN 113673252 A CN113673252 A CN 113673252A
Authority
CN
China
Prior art keywords
field
similarity
fields
values
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110924937.8A
Other languages
English (en)
Other versions
CN113673252B (zh
Inventor
罗实
李炜铭
王永恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202110924937.8A priority Critical patent/CN113673252B/zh
Publication of CN113673252A publication Critical patent/CN113673252A/zh
Application granted granted Critical
Publication of CN113673252B publication Critical patent/CN113673252B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及多维数据分析领域,具体为一种基于字段语义的数据表自动join推荐方法,包括:步骤1,将待join的两数据表中的字段两两组合,作为计算相似度值的集合;步骤2,推断出字段的语义类型;步骤3,判断两字段的数据类型和语义类型是否一致,再判断两字段名是否一致,接着判断两字段值是否存在枚举类;步骤4,分别计算字段名相似度和字段值的相似度,后通过加权求和,得到匹配系数,即两字段的相似度;步骤5,将所有字段的相似度的分值从高到低进行排序并输出提取前20条,作为推荐。本发明通过对数据表字段名和字段值的分析来推荐join的联接子句,更准确更全面地帮助用户发现多维数据隐藏的关联信息,有效地提升大数据分析***的智能化水平。

Description

一种基于字段语义的数据表自动join推荐方法
技术领域
本发明涉及多维数据分析领域,具体涉及一种基于字段语义的数据表自动join推荐方法。
背景技术
在多维数据分析***中,两表join是频繁且常见的操作,通过对数据表字段名和字段值的分析来推荐join的联接子句,帮助用户完成join的操作,提升***的智能化水平。
多维数据关联技术已成为大数据分析领域的常见操作和基本手段,如何有效地将不同来源、不同组织,设计规范多样化,甚至缺乏数据字典的多维数据相互融合并建立统一的数据模型,对当今的数据分析任务来说至关重要。依靠人工对各个维度数据进行筛选匹配的方式虽然准确率高,但耗时长效率低,且随着工作量的增大错误率也相应增加。近年来,在多维数据分析***中,两表join是频繁且常见的操作,通过对数据表字段名和字段值的分析来推荐join的联接子句,帮助用户完成join的操作,提升***的智能化水平。基于多维数据语义分析构建关联模型具有一定参考性,但多数算法缺乏对数据内容本身的考量,特别是在不同数据类型下数据内容及其分布所隐藏的潜在关联性。
发明内容
本发明提出一种基于字段语义的数据表自动join推荐方法,在用户交互触发join操作时,给出join匹配字段的推荐,即要join的字段通常具有相似的字段名和一致的数据类型,基于字段名和字段值的相似度计算出匹配系数,根据匹配系数进行排序并推荐,其具体技术方案如下:
一种基于字段语义的数据表自动join推荐方法,包括如下步骤:
步骤1,将待join的两数据表中的字段两两组合,作为计算相似度值的集合;
步骤2,推断出字段的语义类型;
步骤3,判断两字段的数据类型和语义类型是否一致,再判断两字段名是否一致,接着判断两字段值是否存在枚举类;
步骤4,分别计算字段名相似度和字段值的相似度,后通过加权求和,得到匹配系数,即两字段的相似度;
步骤5,将所有字段的相似度的分值从高到低进行排序并输出提取前20条,作为推荐。
进一步的,所述语义类型包括经纬度、国家、省份、城市、邮编、IP地址、URL、邮箱、电话、身份证、护照、类别和空,共13种类型;其中经纬度、IP地址、URL、邮箱、电话、身份证和护照采用正则匹配;国家、省份、城市和邮编采用人工建表、查表的方式匹配;类别类型的判断依据:不同数值的数量<=12;若以上语义类型都不满足则为空类型。
进一步的,所述步骤3,具体为:匹配字段的数据类型,对不同类型的字段不进行推荐,对相同类型的字段先判断字段名是否一样,忽略大小写,若一样则直接返回相似度分值t=1,即匹配系数,否则判断两字段值是否存在枚举类,即判断是否满足:不同数值的数量/总数据量<0.02,若满足则不进行推荐。
进一步的,所述步骤4,具体为:若不是枚举类,则分别计算字段名相似度分值t1和字段值的相似度分值t2,再通过加权求和,表达式为:t=0.3×t1+0.7×t2,得到匹配系数。
进一步的,所述字段名和字段值的相似度计算均采用单词词向量来计算,单词词向量维度相同,通过计算词向量距离来衡量单词的语义相似度;所述单词词向量通过神经网络语义模型训练文本分类得到。
进一步的,所述神经网络语义模型包括输入层、隐藏层和输出层,输入层输入是构成文档的所有单词及其n-gram的热编码,n-gram为由相邻n个单词或字符组成的词组,输出层输出是文档中特定一个词的概率,隐藏层是对多个词向量的叠加平均。
进一步的,所述计算字段名相似度,具体包括如下步骤:
S1,对字段名预处理,将大写字母变成小写字,把除字母、数字和中文以外的字符变成空格;
S2,将预处理后的字段按空格划分成词组;
S3,使用FastText计算词组内各单词的词向量;
S4,各单词的词向量求平均后得到字段的词向量;
S5,计算两字段词向量的余弦夹角,作为字段名的相似度。
进一步的,所述计算字段值的相似度,按字段类型分类,包括:数值类型、日期类型、字符串类型三种情况;对于数值类型,先计算所有记录的归一化直方图,再计算直方图的余弦相似度;对于日期类型,直接设相似度分值为1,即表示匹配;对于字符串类型,各取X条随机记录作为词组来计算字段值相似度,后将X条字段值相似度按空格组合成一个新的字符串,该相似度计算参考字段名相似度计算过程。
进一步的,对于所述的数值类型,具体的,随机取字段值m条,利用m条字段值相似度中最大和最小值划分M个均等大小的空间,统计m中所有相似度值落在所述M个均等大小的空间中的个数,并做归一化处理,得到一个M维向量,计算两字段的M维向量的余弦夹角作为字段值的相似度。
进一步的,所述步骤5,具体为:对匹配系数按从高到低排序并输出前20条,若最高匹配系数大于0.8,则自动应用该推荐的字段名。
本发明结合数据元信息及其内容的自动化join推荐,更准确更全面地帮助用户发现多维数据隐藏的关联信息,有效地提升大数据分析***的智能化水平。
附图说明
图1是本发明的表自动join推荐模型整体流程示意图;
图2是本发明的字段名相似度计算流程示意图;
图3是本发明的字段值相似度计算流程示意图;
图4是本发明的神经网络语义模型架构示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图,对本发明作进一步详细说明。
如图1所示,本发明的一种基于字段语义的数据表自动join推荐方法,包括如下步骤:
步骤1,当两表连接到join节点时触发auto join推荐,分别从两表的数据库中各选5000条非空记录,将待join的两张数据表中的字段两两组合,作为计算相似度值的集合;
步骤2,首先推断出字段的语义类型,包括经纬度、国家、省份、城市、邮编、IP地址、URL、邮箱、电话、身份证、护照、类别和空共13种类型;其中经纬度、IP地址、URL、邮箱、电话、身份证和护照采用正则匹配;国家、省份、城市和邮编采用人工建表、查表的方式匹配;类别类型的判断依据:不同数值的数量<=12;若以上语义类型都不满足则为空类型。
所述人工建表的过程为:从***获取全球国家和城市的中英文列表,包括缩写,写进数据库得到国家和城市两张表。从百度百科得到中国省份的中英文列表,包括缩写,以及中国主要城市的邮编列表,写进数据库得到省份和邮编两张表。通过查询数据库的方式得到匹配结果。
步骤3,然后判断两字段的数据类型和语义类型是否一致,再判断两字段名是否一致,接着判断两字段值是否存在枚举类;具体为:匹配字段的数据类型,包括:数值、日期和字符串,对相同类型的字段先判断字段名是否一样,忽略大小写,若一样则直接返回相似度分值t=1,即匹配系数,否则判断两字段值是否存在枚举类,即判断是否满足:不同数值的数量/总数据量<0.02,由于大数据量下join枚举类存在跑不出来的情况,故不推荐枚举类;
步骤4,分别计算字段名相似度分值和字段值的相似度分值,后通过加权求和,得到匹配系数,即两字段的相似度分值;具体为:若不是枚举类则分别计算字段名相似度分值t1和字段值的相似度分值t2,再通过加权求和,表达式为:t=0.3×t1+0.7×t2,得到匹配系数;所述字段名和字段值的相似度计算都采用了单词词向量来计算。单词词向量是用一个多维数组来表征一个单词,两个单词的词向量维度相同,因此可以计算两向量的距离来衡量两单词的语义相似程度。
通过神经网络语义模型训练文本分类可以得到单词的词向量。本发明使用类似于CBOW的输入层-隐藏层-输出层的三层神经网络来构建语言模型,输入是构成文档的所有单词及其n-gram的热编码,n-gram为由相邻n个单词或字符组成的词组,输出是文档中特定一个词的概率,隐藏层是对多个词向量的叠加平均
如图4所示,是神经网络语义模型架构,其中x1k、x2k…xCk是构成文档的所有单词及其n-gram的词向量,每个词向量是N维的向量,N是自主设定的参数,V是词库的大小;
Figure DEST_PATH_IMAGE001
Figure 248632DEST_PATH_IMAGE002
维权重矩阵,与输入的热编码相乘求平均后得到N维向量hi
Figure DEST_PATH_IMAGE003
Figure 581524DEST_PATH_IMAGE004
维权重矩阵,与hi相乘后得到V维向量,再经过一个分层Softmax层,与Softmax效果一致但更快,最终得到词向量yj的分类概率。
完整训练流程如下:使用***中、英文文章作为语料库,每一条语料是文章中的一个句子,对于中文语料库,使用jieba工具进行分词;对于英文语料库,按空格或标点符号进行分词,分词后使用n-gram获得单词词组,单词和词组热编码后作为输入,随机初始化
Figure DEST_PATH_IMAGE005
矩阵或使用预训练的词向量矩阵和随机初始化
Figure 333579DEST_PATH_IMAGE003
矩阵。对于每一条输入,前向传播得到输出分类概率,计算分层Softmax损失,使用随机梯度下降法反向传播更新模型参数,模型训练后得到的副产物
Figure 624884DEST_PATH_IMAGE005
就是词向量矩阵。
分别得到中、英文词向量矩阵后,通过中英文词典在两向量矩阵中寻找一一对应的词向量对,计算投影矩阵使得投影后的词向量对的距离最短。通过投影矩阵合并两向量矩阵得到一个支持中英文双语互译的词向量矩阵,支持137万个中英文单词。由于n-gram的引入,该模型允许一定限度的单词拼写错误。最后通过降维和量化技术把模型大小从9GB压缩到了180MB。
步骤5,将所有字段的相似度分值从高到低进行排序并输出提取前20条,作为推荐。具体为:对匹配系数按从高到低排序并输出前20条推荐,若最高匹配系数大于0.8,则自动应用该推荐的字段名。
综上可得输出结果包括:匹配系数,字段名相似度,字段值相似度,匹配字段名及来源的表名。
如图2所示,所述计算字段名相似度,具体包括如下步骤:
S1,对字段名预处理,将大写字母变成小写字,把除字母、数字和中文以外的字符变成空格;
S2,将预处理后的字段按空格划分成词组;
S3,使用FastText计算词组内各单词的词向量;
S4,各单词的词向量求平均后得到字段的词向量;
S5,计算两字段词向量的余弦夹角,作为字段名的相似度。
所述FastText是facebook开源的一个词向量与文本分类工具,它结合了自然语言处理和机器学习中最成功的理念,提供简单而高效的文本分类和表征学习的方法,性能比肩深度学习而且速度更快。
通过中英文词典,将***中、英文FastText词向量投影到同一向量空间,训练了一个能同时支持中英文的模型,将词向量维度从300维压缩到了100维,结合量化技术把模型大小从9GB压缩到了46.7MB。
如图3所示,所述计算字段值的相似度,按字段类型分类,包括:数值类型、日期类型、字符串类型三种情况。对于数值类型,先计算所有记录的归一化直方图,为10维的向量,再计算直方图的余弦相似度;对于日期类型,直接设相似度为1;对于字符串类型,各取5条随机记录作为词组来计算字段值相似度,后将5条字段值相似度按空格组合成一个新的字符串,具体的,该相似度计算参考字段名相似度计算过程。
对于所述的数值类型,具体的,随机取字段值n=5000条,若不足5000则取全部,利用m条字段值相似度中最大和最小值划分10个均等大小的空间,统计m中所有相似度值落在所述10个均等大小的空间中的个数,并做归一化处理,得到一个10维向量,计算两字段的10维向量的余弦夹角作为字段值的相似度。
本发明的技术优势有:
1,在匹配数据类型和语义类型的基础上,分别计算了字段名和字段值的相似度,其中字段值的相似度根据不同数据类型采用了不同的计算方法,充分利用了数据蕴含的信息。
2,在计算字段名和字符型字段值相似度时使用了自己搭建的神经网络语义模型,该模型允许单词有一定程度的拼写错误,并且支持中英文互译。通过词向量计算语义相似度的方法只需计算采样的数据,只使用了5条随机采样的无重记录,相比于模糊匹配等需要遍历数据一一比对的方法,效率上有极大的优势,且通用性更强。通过扩充训练词库可以支持专业领域的词向量计算,比如医学领域。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于字段语义的数据表自动join推荐方法,其特征在于,包括如下步骤:
步骤1,将待join的两数据表中的字段两两组合,作为计算相似度值的集合;
步骤2,推断出字段的语义类型;
步骤3,判断两字段的数据类型和语义类型是否一致,再判断两字段名是否一致,接着判断两字段值是否存在枚举类;
步骤4,分别计算字段名相似度和字段值的相似度,后通过加权求和,得到匹配系数,即两字段的相似度;
步骤5,将所有字段的相似度的分值从高到低进行排序并输出提取前20条,作为推荐。
2.如权利要求1所述的一种基于字段语义的数据表自动join推荐方法,其特征在于,所述语义类型包括经纬度、国家、省份、城市、邮编、IP地址、URL、邮箱、电话、身份证、护照、类别和空,共13种类型;其中经纬度、IP地址、URL、邮箱、电话、身份证和护照采用正则匹配;国家、省份、城市和邮编采用人工建表、查表的方式匹配;类别类型的判断依据:不同数值的数量<=12;若以上语义类型都不满足则为空类型。
3.如权利要求1所述的一种基于字段语义的数据表自动join推荐方法,其特征在于,所述步骤3,具体为:匹配字段的数据类型,对不同类型的字段不进行推荐,对相同类型的字段先判断字段名是否一样,忽略大小写,若一样则直接返回相似度分值t=1,即匹配系数,否则判断两字段值是否存在枚举类,即判断是否满足:不同数值的数量/总数据量<0.02,若满足则不进行推荐。
4.如权利要求3所述的一种基于字段语义的数据表自动join推荐方法,其特征在于,所述步骤4,具体为:若不是枚举类,则分别计算字段名相似度分值t1和字段值的相似度分值t2,再通过加权求和,表达式为:t=0.3×t1+0.7×t2,得到匹配系数。
5.如权利要求4所述的一种基于字段语义的数据表自动join推荐方法,其特征在于,所述字段名和字段值的相似度计算均采用单词词向量来计算,单词词向量维度相同,通过计算词向量距离来衡量单词的语义相似度;所述单词词向量通过神经网络语义模型训练文本分类得到。
6.如权利要求5所述的一种基于字段语义的数据表自动join推荐方法,其特征在于,所述神经网络语义模型包括输入层、隐藏层和输出层,输入层输入是构成文档的所有单词及其n-gram的热编码,n-gram为由相邻n个单词或字符组成的词组,输出层输出是文档中特定一个词的概率,隐藏层是对多个词向量的叠加平均。
7.如权利要求5所述的一种基于字段语义的数据表自动join推荐方法,其特征在于,所述计算字段名相似度,具体包括如下步骤:
S1,对字段名预处理,将大写字母变成小写字,把除字母、数字和中文以外的字符变成空格;
S2,将预处理后的字段按空格划分成词组;
S3,使用FastText计算词组内各单词的词向量;
S4,各单词的词向量求平均后得到字段的词向量;
S5,计算两字段词向量的余弦夹角,作为字段名的相似度。
8.如权利要5所述的一种基于字段语义的数据表自动join推荐方法,其特征在于,所述计算字段值的相似度,按字段类型分类,包括:数值类型、日期类型、字符串类型三种情况;对于数值类型,先计算所有记录的归一化直方图,再计算直方图的余弦相似度;对于日期类型,直接设相似度分值为1,即表示匹配;对于字符串类型,各取X条随机记录作为词组来计算字段值相似度,后将X条字段值相似度按空格组合成一个新的字符串,该相似度计算参考字段名相似度计算过程。
9.如权利要求8所述的一种基于字段语义的数据表自动join推荐方法,其特征在于,对于所述的数值类型,具体的,随机取字段值m条,利用m条字段值相似度中最大和最小值划分M个均等大小的空间,统计m中所有相似度值落在所述M个均等大小的空间中的个数,并做归一化处理,得到一个M维向量,计算两字段的M维向量的余弦夹角作为字段值的相似度。
10.如权利要求1所述的一种基于字段语义的数据表自动join推荐方法,其特征在于,所述步骤5,具体为:对匹配系数按从高到低排序并输出前20条,若最高匹配系数大于0.8,则自动应用该推荐的字段名。
CN202110924937.8A 2021-08-12 2021-08-12 一种基于字段语义的数据表自动join推荐方法 Active CN113673252B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110924937.8A CN113673252B (zh) 2021-08-12 2021-08-12 一种基于字段语义的数据表自动join推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110924937.8A CN113673252B (zh) 2021-08-12 2021-08-12 一种基于字段语义的数据表自动join推荐方法

Publications (2)

Publication Number Publication Date
CN113673252A true CN113673252A (zh) 2021-11-19
CN113673252B CN113673252B (zh) 2024-06-14

Family

ID=78542484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110924937.8A Active CN113673252B (zh) 2021-08-12 2021-08-12 一种基于字段语义的数据表自动join推荐方法

Country Status (1)

Country Link
CN (1) CN113673252B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114896467A (zh) * 2022-04-24 2022-08-12 北京月新时代科技股份有限公司 基于神经网络的字段匹配方法和数据智能录入方法
CN115952174A (zh) * 2023-03-13 2023-04-11 青岛庚泽信息技术有限公司 一种数据表联接方法、***、终端及存储介质
CN115994261A (zh) * 2022-11-11 2023-04-21 广州宏天软件股份有限公司 一种表单联动变化中数值推荐方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704625A (zh) * 2017-10-30 2018-02-16 锐捷网络股份有限公司 字段匹配方法和装置
CN110263155A (zh) * 2019-05-21 2019-09-20 阿里巴巴集团控股有限公司 数据分类方法、数据分类模型的训练方法及***
CN111241254A (zh) * 2019-12-25 2020-06-05 江苏艾佳家居用品有限公司 一种语句相似度计算方法
CN111553151A (zh) * 2020-04-02 2020-08-18 深圳壹账通智能科技有限公司 一种基于字段相似度计算的问题推荐方法、装置和服务器
US20210149933A1 (en) * 2019-11-18 2021-05-20 Salesforce.Com, Inc. Dynamic field value recommendation methods and systems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704625A (zh) * 2017-10-30 2018-02-16 锐捷网络股份有限公司 字段匹配方法和装置
CN110263155A (zh) * 2019-05-21 2019-09-20 阿里巴巴集团控股有限公司 数据分类方法、数据分类模型的训练方法及***
US20210149933A1 (en) * 2019-11-18 2021-05-20 Salesforce.Com, Inc. Dynamic field value recommendation methods and systems
CN111241254A (zh) * 2019-12-25 2020-06-05 江苏艾佳家居用品有限公司 一种语句相似度计算方法
CN111553151A (zh) * 2020-04-02 2020-08-18 深圳壹账通智能科技有限公司 一种基于字段相似度计算的问题推荐方法、装置和服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴思颖;吴扬扬;: "一种实体模式匹配算法", 郑州大学学报(理学版), no. 01, 15 March 2011 (2011-03-15) *
曹忠升, 万劲伟: "基于语义的数据清理技术", 华中科技大学学报(自然科学版), no. 02 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114896467A (zh) * 2022-04-24 2022-08-12 北京月新时代科技股份有限公司 基于神经网络的字段匹配方法和数据智能录入方法
CN114896467B (zh) * 2022-04-24 2024-02-09 北京月新时代科技股份有限公司 基于神经网络的字段匹配方法和数据智能录入方法
CN115994261A (zh) * 2022-11-11 2023-04-21 广州宏天软件股份有限公司 一种表单联动变化中数值推荐方法
CN115994261B (zh) * 2022-11-11 2023-07-07 广州宏天软件股份有限公司 一种表单联动变化中数值推荐方法
CN115952174A (zh) * 2023-03-13 2023-04-11 青岛庚泽信息技术有限公司 一种数据表联接方法、***、终端及存储介质
CN115952174B (zh) * 2023-03-13 2023-05-30 青岛庚泽信息技术有限公司 一种数据表联接方法、***、终端及存储介质

Also Published As

Publication number Publication date
CN113673252B (zh) 2024-06-14

Similar Documents

Publication Publication Date Title
Neculoiu et al. Learning text similarity with siamese recurrent networks
CN109284352B (zh) 一种基于倒排索引的评估类文档不定长词句的查询方法
US9519634B2 (en) Systems and methods for determining lexical associations among words in a corpus
CN110321925B (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
CN111177591B (zh) 面向可视化需求的基于知识图谱的Web数据优化方法
CN113673252B (zh) 一种基于字段语义的数据表自动join推荐方法
CN106776562A (zh) 一种关键词提取方法和提取***
CN110750995B (zh) 一种基于自定义图谱的文件管理方法
CN108319583B (zh) 从中文语料库提取知识的方法与***
Suleiman et al. Comparative study of word embeddings models and their usage in Arabic language applications
CN102622338A (zh) 一种短文本间语义距离的计算机辅助计算方法
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
CN110083683B (zh) 基于随机游走的实体语义标注方法
CN114065758A (zh) 一种基于超图随机游走的文档关键词抽取方法
CN111090994A (zh) 一种面向中文网络论坛文本的事件地点归属省份识别方法
CN112231537A (zh) 基于深度学习和网络爬虫的智能阅读***
Nugraha et al. Typographic-based data augmentation to improve a question retrieval in short dialogue system
CN114064901B (zh) 一种基于知识图谱词义消歧的书评文本分类方法
CN106570196B (zh) 视频节目的搜索方法和装置
CN112632272A (zh) 基于句法分析的微博情感分类方法和***
CN112445887A (zh) 基于检索的机器阅读理解***的实现方法及装置
Randhawa et al. Study of spell checking techniques and available spell checkers in regional languages: a survey
CN112507097B (zh) 一种提高问答***泛化能力的方法
Helmy et al. Towards building a standard dataset for arabic keyphrase extraction evaluation
CN114996455A (zh) 一种基于双知识图谱的新闻标题短文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant