CN109376219A - 文本属性字段的匹配方法、装置、电子设备及存储介质 - Google Patents

文本属性字段的匹配方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN109376219A
CN109376219A CN201811284897.XA CN201811284897A CN109376219A CN 109376219 A CN109376219 A CN 109376219A CN 201811284897 A CN201811284897 A CN 201811284897A CN 109376219 A CN109376219 A CN 109376219A
Authority
CN
China
Prior art keywords
data
matching
field
result
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811284897.XA
Other languages
English (en)
Inventor
万月亮
冯宇波
火莽
火一莽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201811284897.XA priority Critical patent/CN109376219A/zh
Publication of CN109376219A publication Critical patent/CN109376219A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种文本属性字段的匹配方法、装置、电子设备及存储介质,该方法包括:获取待匹配文本属性字段的名称;基于所述字段的名称和预设的语义匹配算法推荐语义匹配结果,实现了自动根据语义推荐匹配结果,快速并且准确。解决了现有技术中人工基于经验评估多源异构数据和新旧数据属性字段间的匹配关系进行文字属性字段匹配以及后续的数据迁移等操作效率低的问题。

Description

文本属性字段的匹配方法、装置、电子设备及存储介质
技术领域
本发明涉及大数据技术领域,尤其涉及一种文本属性字段的匹配方法、装置、电子设备及存储介质。
背景技术
多源异构数据的接入以及新旧数据中心间的数据迁移等工作,占据了数据中心工程建设中的大部分工作量。这些工作一般采用人工识别手工方式对多源异构数据和新旧数据进行分析,对文本字段进行识别,然后设计文本属性字段处理逻辑,之后再转换为规则配置,最后通过数据处理程序加载人工设置的规则配置进行在线处理,以达到数据汇聚和数据迁移的目的。
其中,一个重要的过程是文本属性字段的匹配。现有技术中,人工识别方法一般是人工参考新旧数据中的文本属性字段名称、字段值的特征、字段用途描述等信息,基于经验评估多源异构数据和新旧数据属性字段间的匹配关系,然后,进一步制定数据汇聚和数据迁移中的数据转换规则。该种方法文本字段属性匹配需要有大量人工参与,故工作效率不高。另外,一些传统的改进方法是在工作环节中增加历史经验匹配信息,以辅助人工评估,但由于不能大范围替代人的分析和判别,故对后续的数据迁移等工作的效率提升有限。
发明内容
本发明提供一种文本属性字段的匹配方法、装置、电子设备及存储介质,解决了现有技术中人工基于经验评估多源异构数据和新旧数据属性字段间的匹配关系进行文字属性字段匹配以及后续的数据迁移等操作效率低的问题。
第一方面,本发明实施例提供了一种文本属性字段的匹配方法,包括:
获取待匹配文本属性字段的名称;
基于所述字段的名称和预设的语义匹配算法推荐语义匹配结果。
第二方面,本发明实施例还提供了一种文本属性字段的匹配装置,包括:
字段名称获取模块,用于获取待匹配文本属性字段的名称;
语义匹配获取模块,用于基于所述字段的名称和预设的语义匹配算法推荐语义匹配结果。
第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所述的一种文本属性字段的匹配方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明任意实施例所述的一种文本属性字段的匹配方法。
本发明实施例通过获取待匹配文本属性字段的名称;基于所述字段的名称和预设的语义匹配算法推荐语义匹配结果,实现了自动根据语义推荐匹配结果,快速并且准确。解决了现有技术中人工基于经验评估多源异构数据和新旧数据属性字段间的匹配关系进行文字属性字段匹配以及后续的数据迁移等操作效率低的问题。
附图说明
图1是本发明实施例一中的一种文本属性字段的匹配方法的流程图。
图2是本发明实施例二中的一种文本属性字段的匹配方法的流程图。
图3是本发明实施例二中的另一种文本属性字段的匹配方法的流程图。
图4是本发明实施例三中的一种文本属性字段的匹配装置的结构示意图。
图5是本发明实施例四中的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种文本属性字段的匹配方法的流程图,本实施例可适用于文本属性的字段匹配情况,该方法可以由文本属性字段的匹配装置来执行,该装置可以采用硬件和/或软件实现,该装置可以配置于电子设备中,该方法具体包括如下步骤:
S110、获取待匹配文本属性字段的名称。
具体的,在文档、网页或数据库中,文本属性可以包括字段名称以及字段对应的数据,例如一张表格数据,表头中的名称可以是字段名称,表中对应的数据可以是字段对应的具体数据。而文本属性字段的名称可以是具体针对某些数据的属性名称。示例性的,可以是企业数据中记录各个员工身份的“员工号”、“员工编码”、学校数据学生身份的“学籍”、“ID”、“学号”等字段,这些都属于字段名称。
值得注意的是,不同的行业、不同的开发者或不同数据库中制作的文本数据或存储的数据中,一些数据虽然属于同一属性,但是拥有不同的字段名称,这样在进行不同数据库中的数据迁移合并时,如果根据字段名称进行识别,就会出现不能匹配的问题。比如,员工号和学号可以是一个属性的数据,但是由于员工号和学号的字段名称不同,在进行文本匹配时,会出现匹配错误或失败,导致在数据迁移或其他后续操作中工作效率低的问题。
S120、基于所述字段的名称和预设的语义匹配算法推荐语义匹配结果。
其中,预设的语义匹配算法可以是预先设定的用于根据待匹配文本属性字段的名称进行语义匹配的规则。例如,算法可以是预设的文本语义相似度计算的方法。在本实施例中,可以基于字段名称和预设的语义匹配算法自动进行语义匹配结果的推荐。语义匹配结果可以是与待匹配字段名称的含义相同或相近的字段。示例性的,员工号和学号可以是含义相同的字段,如果待匹配字段名称为员工号,则推荐结果可以是学号以及其他相近的字段名称。
可选的,基于所述字段的名称和预设的语义匹配算法推荐语义匹配结果,包括:
基于元数据语义匹配数据库、预设语义识别模型和/或第一历史匹配数据库推荐至少一个语义匹配结果;
根据预设的分别与元数据匹配数据库、预设语义识别模型和/或历史匹配数据库对应的权重比例从所述至少一个语义匹配结果中推荐至少一个匹配结果,作为最终推荐的语义匹配结果。
其中,元数据语义匹配数据库可以包括固有的或已经经过确定的语义相近或相同的匹配数据,比如土豆、马铃薯、potato可以是互相匹配的字段名称。示例性的,在数据库A中进行匹配其他字段时,元数据语义匹配数据库可以是在数据库A中已经存在的匹配数据库或经常使用的匹配数据库。预设语义识别模型可以是预先训练好的可以进行字段的语义识别的模型,具体的,当将待匹配字段的名称输入到语义识别模型,可以得到与字段名称语义匹配的结果。历史匹配数据库可以包括用户历史匹配数据的情况。
本实施例中,可以基于元数据匹配数据库、预设语义识别模型和历史匹配数据库三个中的一个或多个进行语义匹配结果的推荐。示例性的,如果分别基于元数据匹配数据库、预设语义识别模型和历史匹配数据库得到至少一个语义匹配结果。进一步的,可以根据预设的分别与元数据匹配数据库、预设语义识别模型和/或历史匹配数据库对应的权重比例从所述至少一个语义匹配结果中推荐至少一个匹配结果,作为最终推荐的语义匹配结果。可以预先设定基于元数据匹配数据库、预设语义识别模型和历史匹配数据库对应的权重比例,示例性的,如果预设语义识别模型的权重比例最高,则可以将其对应的推荐的语义匹配结果作为最终的语义匹配结果。当然,也可以是具体根据权重比例进行推荐不同或相同的预设数量的语义匹配结果。还可以根据不同数据中的推荐结果中的对比情况进行推荐最终匹配结果,比如可以是选择对应匹配结果中的交集作为最终的语义匹配结果。
可选的,基于所述字段的名称和预设的语义匹配算法推荐语义匹配结果之后,所述方法还包括:根据所述推荐的语义匹配结果更新所述历史匹配记录数据库。即可以实时根据语义匹配的情况以及使用过程中的应用效果更新历史匹配记录数据库,以便于可以根据历史匹配记录数据库进行更准确的推荐语义匹配结果。
可选的,所述预设的语义识别模型是由神经网络基于包括各文本数据字段名称以及对应数据的数据集训练得出。示例性的,语义识别模型的训练过程可以如下:
1)收集网站和数据库中的文本数据,整理成UTF-8编码格式文本文件;
2)收集各类开放数据和相关行业全文数据,如行业设计说明书、行业宣传材料等,整理成UTF-8编码格式文本文件。
3)对上述文本进行去重、分词等处理,形成语料库,然后采用CBow(ContinuousBag-of-Words,连续词袋)模型或Skip-gram模型或其他词向量化算法进行训练,将文本中的词转化为矢量,通过矢量化算法,将语义相近的词编码为相邻近的矢量。
4)通过自监督的深度学习神经网络,将矢量转化到特征空间,形成基于深度学习的语义识别模型。
本发明实施例通过获取待匹配文本属性字段的名称;基于所述字段的名称和预设的语义匹配算法推荐语义匹配结果,可以实现文本属性字段的自动匹配。相对于纯人工方式极大的缩短了文本属性匹配的时间,提高了文本属性匹配的响应效率和工作效率。同时,通过源文本属性字段和目标文本属性字段之间的自动匹配,提高在多源异构数据接入以及新旧数据中心间数据迁移等相关工作的工作效率和准确性。
实施例二
图2是本发明实施例二提供的一种文本属性字段的匹配方法的流程图,在上述实施例的基础上,可选的,得到语义匹配结果的基础上,还可以根据数据形态进行推荐匹配结果,形成另一类匹配结果,以进一步对该方法进行优化,得到更准确的匹配结果,如图2所示,该方法具体包括:
S210、获取待匹配文本属性字段的名称。
S220、基于所述字段的名称和预设的语义匹配算法推荐语义匹配结果。
S230、基于获取到的所述待匹配文本属性字段的数据类型和预设的数据形态匹配算法推荐形态匹配结果。
数据类型可以是文本属性字段包括或对应数据的形式,示例性的,日期字段包括的数据对应的形式:X年X月X日或X-X-X,姓名对应的形式:姓+名。一般的,不同的数据都会对应一定的数据形态。当获取到字段数据的数据形态时,可以进一步根据预设的数据形态匹配算法进一步数据形态匹配的结果。预设的数据形态匹配算法是预先设定的用于根据待匹配文本属性字段包对应数据的数据形态推荐匹配的字段,具体可以是根据文本格式,比如文本长度、显示形式等。示例性的,字段中包括的数据是2010-06-28,根据数据形态匹配算法给出的匹配结果可以是日期或生日等。
S240、根据预设的融合算法、所述语义匹配结果和所述形态匹配结果推荐最终匹配结果。
在得到语义匹配结果和形态匹配结果后,可以进一步综合语义匹配结果和形态匹配结果进行最终匹配结果的推荐。预设的融合算法可以是预先设定的用于根据语义匹配结果和形态匹配结果中选择出合适的匹配结果进行推荐的规则,具体可以是普通函数加权融合,也可以是基于深度学习的加权融合等。示例性的,可以是交叉比对选择交集的方法,当语义匹配结果包括A、b,C,形态匹配结果包括:C,b,a,则在对比选择交集后可以认为最终的匹配结果包括C和b。当然,还可以在融合算法中设定权重比例或其他的规则进行筛选或者融合,还可以设定推荐结果的数量等。
具体实施过程中,在最终推荐结果的基础上,可以经由人工确认后交付其他相关应用的使用。比如,可以应用于数据中心建设或异源数据的迁移等方面,可以提高各行业应用大数据的工作效率。
可选的,基于获取到的所述待匹配文本属性字段的数据类型和预设的数据形态匹配算法推荐形态匹配结果,包括:
基于获取到的所述待匹配文本属性字段的数据类型、元数据形态匹配数据库和/或预设数据形态识别模型推荐形态匹配结果。
具体的,元数据形态匹配库可以包括固有的或已经经过确定数据形态相同或相近的匹配数据库,数据库中可以包括不同的数据类型以及对应的数据,比如日期的形态数据:X-Y-Z和X年X月X日等。示例性的,在数据库A中进行其他字段的匹配时,元数据形态匹配数据库可以是在数据库A中已经存在的形态数据匹配数据库或经常使用的匹配数据库。预设数据形态识别模型可以是预先训练好的可以进行字段的数据形态识别的模型,具体的,当获取到待匹配字段包括的数据形态时,数据形态识别模型可以识别出与字段数据形态匹配的结果。此外,也可以根据历史形态数据匹配数据情况进行数据形态的匹配。
可选的,所述预设的数据形态识别模型是由神经网路基于包括文本属性字段的数据类型以及对应数据的数据集训练得出。
示例性的,所述数据形态识别模型的训练过程具体如下:
1)收集各类开放数据集合,基于文本属性字段的数据类型形态特征,整理出对应的以数据类型名称为标签的训练样本数据集。
2)收集各数据库数据样本数据,基于文本属性字段的数据形态特征,整理出对应的以数据类型名称为标签的训练样本数据集。
3)收集行业数据,基于文本属性字段的数据类型形态特征,整理出对应的以数据类型名称为标签的训练样本数据集。
4)通过有监督的深度学习神经网络,训练以上训练样本数据集,形成基于深度学习的数据形态识别模型。
示例性的,图3是本发明实施例二中提供的另一种文本属性字段的匹配方法的流程图。如图3所示,分别获取到待匹配文本属性字段名称和字段数据采样,然后基于语义匹配算法和数据形态匹配算法进行匹配结果的推荐。其中,语义匹配算法可以包括元数据、语义识别模型、历史匹配记录数据的情况,而数据形态匹配算法包括相应的元数据和数据形态识别模型。然后根据一定的融合算法对语义匹配算法和数据形态匹配算法的推荐结果进行融合,进行综合匹配结果的推荐。进一步的,可以经过人工确认,然后交付给相应的应用进行使用。当然,最终使用过程中匹配情况以及效果可以反馈至历史匹配记录数据。
本发明实施例通过设计相关匹配算法,分别针对待匹配的文本属性字段名称和数据形态进行匹配,进行匹配结果推荐,对两种匹配推荐结果,根据实际情况进行权重调整融合,综合文本属性字段名称的语义信息和文本属性字段数据形态信息,给出最终匹配结果。相对于纯人工方式极大的缩短了文本属性匹配的时间,提高了文本属性匹配的响应效率、工作效率和准确率。
实施例三
图4为本发明实施例三提供的一种文本属性字段的匹配装置的结构示意图,如图4所示,所述装置包括:
字段名称获取模块410,用于获取待匹配文本属性字段的名称;
语义匹配获取模块420,用于基于所述字段的名称和预设的语义匹配算法推荐语义匹配结果。
可选的,所述语义匹配获取模块420,具体用于:
基于元数据语义匹配数据库、预设语义识别模型和/或第一历史匹配数据库推荐至少一个语义匹配结果;根据预设的分别与元数据匹配数据库、预设语义模型和/或历史匹配数据库对应的权重比例从所述至少一个语义匹配结果中推荐至少一个匹配结果,作为最终推荐的语义匹配结果。
可选的,所述装置还包括:
形态匹配模块,用于在基于所述字段的名称和预设的语义匹配算法推荐语义匹配结果之后,基于获取到的所述待匹配文本属性字段的数据类型和预设的数据形态匹配算法推荐形态匹配结果;
最终匹配模块,用于根据预设的融合算法、所述语义匹配结果和所述形态匹配结果推荐最终匹配结果。
可选的,所述形态匹配模块,具体用于基于获取到的所述待匹配文本属性字段的数据类型、元数据形态匹配数据库和/或预设数据形态识别模型推荐形态匹配结果。
可选的,所述装置还包括:历史匹配记录数据库更新模块,用于在基于所述字段的名称和预设的语义匹配算法推荐语义匹配结果之后,根据所述推荐结果更新所述历史匹配记录数据库。
可选的,所述预设的语义识别模型是由神经网络基于包括各文本数据字段名称以及对应数据的数据集训练得出。
可选的,所述预设的数据形态识别模型是由神经网路基于包括文本属性字段的数据类型以及对应数据的数据集训练得出。本发明实施例所提供的文本属性字段的匹配装置,可执行本发明任意实施例所提供的文本属性字段的匹配方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的一种文本属性字段的匹配方法。
实施例四
参见图5,本实施例提供了一种电子设备500,其包括:一个或多个处理器520;存储装置510,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器520执行,使得所述一个或多个处理器520实现本发明实施例所提供的一种文本属性字段的匹配方法,包括:
获取待匹配文本属性字段的名称;
基于所述字段的名称和预设的语义匹配算法推荐语义匹配结果。
当然,本领域技术人员可以理解,处理器520还可以实现本发明任意实施例所提供的一种文本属性字段的匹配方法的技术方案。
图5显示的电子设备500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:一个或者多个处理器520,存储装置510,连接不同***组件(包括存储装置510和处理器520)的总线550。
总线550表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
电子设备500典型地包括多种计算机***可读介质。这些介质可以是任何能够被电子设备500访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置510可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)511和/或高速缓存存储器512。电子设备500可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***513可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线550相连。存储装置510可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块515的程序/实用工具514,可以存储在例如存储装置510中,这样的程序模块515包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块515通常执行本发明所描述的任意实施例中的功能和/或方法。
电子设备500也可以与一个或多个外部设备560(例如键盘、指向设备、显示器570等)通信,还可与一个或者多个使得用户能与该电子设备500交互的设备通信,和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口530进行。并且,电子设备500还可以通过网络适配器540与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器540通过总线550与电子设备500的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理器520通过运行存储在存储装置510中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种文本属性字段的匹配方法。
实施例五
本发明实施例五提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种文本属性字段的匹配方法,该方法包括:
获取待匹配文本属性字段的名称;
基于所述字段的名称和预设的语义匹配算法推荐语义匹配结果。当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的一种文本属性字段的匹配方法中的相关操作。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言,Python或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种文本属性字段的匹配方法,其特征在于,所述方法包括:
获取待匹配文本属性字段的名称;
基于所述字段的名称和预设的语义匹配算法推荐语义匹配结果。
2.根据权利要求1所述的方法,其特征在于,基于所述字段的名称和预设的语义匹配算法推荐语义匹配结果,包括:
基于元数据语义匹配数据库、预设语义识别模型和/或第一历史匹配数据库推荐至少一个语义匹配结果;
根据预设的分别与元数据匹配数据库、预设语义识别模型和/或历史匹配数据库对应的权重比例从所述至少一个语义匹配结果中推荐至少一个匹配结果,作为最终推荐的语义匹配结果。
3.根据权利要求1所述的方法,其特征在于,基于所述字段的名称和预设的语义匹配算法推荐语义匹配结果之后,所述方法还包括:
基于获取到的所述待匹配文本属性字段的数据类型和预设的数据形态匹配算法推荐形态匹配结果;
根据预设的融合算法、所述语义匹配结果和所述形态匹配结果推荐最终匹配结果。
4.根据权利要求3所述的方法,其特征在于,基于获取到的所述待匹配文本属性字段的数据类型和预设的数据形态匹配算法推荐形态匹配结果,包括:
基于获取到的所述待匹配文本属性字段的数据类型、元数据形态匹配数据库和/或预设数据形态识别模型推荐形态匹配结果。
5.根据权利要求2所述的方法,其特征在于,基于所述字段的名称和预设的语义匹配算法推荐语义匹配结果之后,所述方法还包括:根据所述推荐的语义匹配结果更新所述历史匹配记录数据库。
6.根据权利要求2所述的方法,其特征在于,所述预设的语义识别模型是由神经网络基于包括各文本数据字段名称以及对应数据的数据集训练得出。
7.根据权利要求4所述的方法,其特征在于,所述预设的数据形态识别模型是由神经网路基于包括文本属性字段的数据类型以及对应数据的数据集训练得出。
8.一种文本属性字段的匹配装置,其特征在于,包括:
字段名称获取模块,用于获取待匹配文本属性字段的名称;
语义匹配获取模块,用于基于所述字段的名称和预设的语义匹配算法推荐语义匹配结果。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的一种文本属性字段的匹配方法。
10.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的一种文本属性字段的匹配方法。
CN201811284897.XA 2018-10-31 2018-10-31 文本属性字段的匹配方法、装置、电子设备及存储介质 Pending CN109376219A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811284897.XA CN109376219A (zh) 2018-10-31 2018-10-31 文本属性字段的匹配方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811284897.XA CN109376219A (zh) 2018-10-31 2018-10-31 文本属性字段的匹配方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN109376219A true CN109376219A (zh) 2019-02-22

Family

ID=65390672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811284897.XA Pending CN109376219A (zh) 2018-10-31 2018-10-31 文本属性字段的匹配方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN109376219A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941717A (zh) * 2019-11-22 2020-03-31 深圳马可孛罗科技有限公司 客票规则解析方法、装置、电子设备及计算机可读介质
CN111339910A (zh) * 2020-02-24 2020-06-26 支付宝实验室(新加坡)有限公司 文本的处理、文本分类模型的训练方法及装置
CN111859876A (zh) * 2019-04-21 2020-10-30 桂林电子科技大学 一种表格自动录入方法及***
CN112182327A (zh) * 2019-07-05 2021-01-05 北京猎户星空科技有限公司 一种数据处理方法、装置、设备及介质
CN113342786A (zh) * 2021-08-02 2021-09-03 浩鲸云计算科技股份有限公司 一种基于模型管控的在线数据治理管理方法和***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110070301A (ko) * 2009-12-18 2011-06-24 주식회사 케이티 온톨로지 구축 시스템 및 방법
CN106547732A (zh) * 2016-10-14 2017-03-29 深圳中兴网信科技有限公司 近义词识别方法和近义词识别***
CN107066497A (zh) * 2016-12-29 2017-08-18 努比亚技术有限公司 一种搜索方法和装置
CN107491556A (zh) * 2017-09-04 2017-12-19 湖北地信科技集团股份有限公司 时空全要素语义查询服务***及其方法
CN107526809A (zh) * 2017-08-23 2017-12-29 北京百度网讯科技有限公司 基于人工智能推送音乐的方法和装置
CN107704625A (zh) * 2017-10-30 2018-02-16 锐捷网络股份有限公司 字段匹配方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110070301A (ko) * 2009-12-18 2011-06-24 주식회사 케이티 온톨로지 구축 시스템 및 방법
CN106547732A (zh) * 2016-10-14 2017-03-29 深圳中兴网信科技有限公司 近义词识别方法和近义词识别***
CN107066497A (zh) * 2016-12-29 2017-08-18 努比亚技术有限公司 一种搜索方法和装置
CN107526809A (zh) * 2017-08-23 2017-12-29 北京百度网讯科技有限公司 基于人工智能推送音乐的方法和装置
CN107491556A (zh) * 2017-09-04 2017-12-19 湖北地信科技集团股份有限公司 时空全要素语义查询服务***及其方法
CN107704625A (zh) * 2017-10-30 2018-02-16 锐捷网络股份有限公司 字段匹配方法和装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859876A (zh) * 2019-04-21 2020-10-30 桂林电子科技大学 一种表格自动录入方法及***
CN112182327A (zh) * 2019-07-05 2021-01-05 北京猎户星空科技有限公司 一种数据处理方法、装置、设备及介质
CN110941717A (zh) * 2019-11-22 2020-03-31 深圳马可孛罗科技有限公司 客票规则解析方法、装置、电子设备及计算机可读介质
CN110941717B (zh) * 2019-11-22 2023-08-11 深圳马可孛罗科技有限公司 客票规则解析方法、装置、电子设备及计算机可读介质
CN111339910A (zh) * 2020-02-24 2020-06-26 支付宝实验室(新加坡)有限公司 文本的处理、文本分类模型的训练方法及装置
CN111339910B (zh) * 2020-02-24 2023-11-28 支付宝实验室(新加坡)有限公司 文本的处理、文本分类模型的训练方法及装置
CN113342786A (zh) * 2021-08-02 2021-09-03 浩鲸云计算科技股份有限公司 一种基于模型管控的在线数据治理管理方法和***

Similar Documents

Publication Publication Date Title
US11748555B2 (en) Systems and methods for machine content generation
CN109376219A (zh) 文本属性字段的匹配方法、装置、电子设备及存储介质
WO2022141861A1 (zh) 情感分类方法、装置、电子设备及存储介质
US20230252224A1 (en) Systems and methods for machine content generation
CN109767318A (zh) 贷款产品推荐方法、装置、设备及存储介质
CN109934721A (zh) 理财产品推荐方法、装置、设备及存储介质
CN109087135A (zh) 用户意图的挖掘方法及装置、计算机设备及可读介质
CN109299245B (zh) 知识点召回的方法和装置
CN106982256A (zh) 信息推送方法、装置、设备及存储介质
CN110968695A (zh) 基于弱监督技术主动学***台
CN105938477A (zh) 用于整合和格式化搜索结果的方法和***
US20180293678A1 (en) Method and apparatus for the semi-autonomous management, analysis and distribution of intellectual property assets between various entities
CN111680165B (zh) 信息匹配方法、装置、可读存储介质和电子设备
US20200192921A1 (en) Suggesting text in an electronic document
CN113627797B (zh) 入职员工画像生成方法、装置、计算机设备及存储介质
CN109214417A (zh) 用户意图的挖掘方法及装置、计算机设备及可读介质
CN108920543A (zh) 查询和交互的方法及装置、计算机装置、存储介质
CN111612581A (zh) 一种物品推荐的方法、装置、设备及存储介质
CN115547466B (zh) 基于大数据的医疗机构登记评审***及其方法
CN109214418A (zh) 用户意图的挖掘方法及装置、计算机设备及可读介质
AU2020202730B2 (en) Method and system for personalizing software based on real time tracking of voice-of-customer feedback
CN111221881A (zh) 用户特征数据合成方法、装置及电子设备
CN107798137B (zh) 一种基于可加模型的多源异构数据融合架构***
CN105975508A (zh) 个性化元搜索引擎检索结果合成排序方法
CN114429384B (zh) 基于电商平台的产品智能推荐方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Dong Qingfeng

Inventor after: Feng Yubo

Inventor after: Huo Yimang

Inventor before: Wan Yueliang

Inventor before: Feng Yubo

Inventor before: Huo Yimang

CB03 Change of inventor or designer information
RJ01 Rejection of invention patent application after publication

Application publication date: 20190222

RJ01 Rejection of invention patent application after publication