CN106933901A - 数据集成方法及*** - Google Patents

数据集成方法及*** Download PDF

Info

Publication number
CN106933901A
CN106933901A CN201511032263.1A CN201511032263A CN106933901A CN 106933901 A CN106933901 A CN 106933901A CN 201511032263 A CN201511032263 A CN 201511032263A CN 106933901 A CN106933901 A CN 106933901A
Authority
CN
China
Prior art keywords
data
input source
similarity
entropy
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201511032263.1A
Other languages
English (en)
Other versions
CN106933901B (zh
Inventor
王亚沙
赵俊峰
赵梓棚
崔达
夏丁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201511032263.1A priority Critical patent/CN106933901B/zh
Publication of CN106933901A publication Critical patent/CN106933901A/zh
Application granted granted Critical
Publication of CN106933901B publication Critical patent/CN106933901B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的数据集成方法及***,通过获取不同输入源中的每个输入源的第一数据;根据语义对所述每个输入源的第一数据进行聚类,得到每个输入源的第二数据,其中,在每个输入源的第一数据中,语义相近的元素将用相同的元素表示并被聚类;将每个输入源的第二数据中任意第一元素与其他输入源的第二数据中的各元素进行并行匹配计算,并获得所述第一元素与各元素的相似度熵;根据所述第一元素与各元素的相似度熵,确定符合预设条件的第二元素,采用目标元素对所述第一元素进行替换。从而使本发明通过聚类使整个集成过程所需的计算量减小,提高集成效率,同时通过匹配算法,使整个数据集成的质量得到保证。

Description

数据集成方法及***
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据集成方法及***。
背景技术
随着城市化进程,信息通信技术进入城市的各行各业,尤其是民生领域,例如,房产交易,网购,外卖等。在这些领域中,往往存在大量的数据信息以供用专业人员分析和开发。这些数据信息来源多样,模式异构,数据量很大,不利于分析和开发利用。因此,通常使用数据集成的方法以实现数据的异构集成以及共享。
在现有技术中,一般采用如下两种算法进行数据集成:
一种算法为COMA/COMA++,其通过利用多种匹配算法并行计算元素相似度,再结合某种策略计算综合相似度,以迭代的方式筛选出最匹配的结果。但是当其面对大量异构模式时,需要面向每一种模式对进行一次匹配,且每次匹配过程均计算一次所有元素对的相似度,效率不高。
而另一种算法为PORSCHE,其是利用元素聚类的整体匹配方式对多个输入的源模式进行匹配的算法,具体的,在构造中介模式的同时,不断为模式匹配过程提供新的目标元素,并产生一个包含全部的源模式定义的中介模式以及该源模式与中介模式的匹配结果。但是,PORSCHE的数据集成完全依赖于模式匹配结果。但在其模式匹配过程中并不存在多种类的匹配算法的并行计算,综合计算以及人工干预的过程,而是仅仅简单利用元素名称字符串和少量上下文信息产生匹配结果,因此,匹配质量难以令人满意。
发明内容
本发明提供一种数据集成方法及***,用以解决在现有的数据集成方法中,集合效率低下,集成质量不高的问题。
一方面,本发明提供一种数据集成方法,包括:
获取不同输入源中的每个输入源的第一数据;
根据语义对所述每个输入源的第一数据进行聚类,得到每个输入源的第二数据,其中,在每个输入源的第一数据中,语义相近的元素将用相同的字符表示并被聚类;
将每个输入源的第二数据中任意第一元素与其他输入源的第二数据中的各元素进行并行匹配计算,并获得所述第一元素与各元素的相似度熵;
根据所述第一元素与各元素的相似度熵,确定符合预设条件的第二元素,采用目标元素对所述第二元素进行替换。
另一方面,本发明还提供一种数据集成***,包括:
获取模块,用于获取不同输入源中每一输入源的第一数据;
聚类模块,根据语义对所述每个输入源的第一数据进行聚类,得到每个输入源的第二数据,其中,在每个输入源的第一数据中,语义相近的元素将用相同的元素表示并被聚类;
匹配模块,用于将每个输入源的第二数据中任意第一元素与其他输入源的第二数据中的各元素进行并行匹配计算,并获得所述第一元素与各元素的相似度熵;
替换模块,用于根据所述第一元素与各元素的相似度熵,确定符合预设条件的第二元素,采用目标元素对所述第一元素进行替换。
本发明提供的数据集成方法及***,通过获取不同输入源中的每个输入源的第一数据;根据语义对所述每个输入源的第一数据进行聚类,得到每个输入源的第二数据,其中,在每个输入源的第一数据中,语义相近的元素将用相同的元素表示并被聚类;将每个输入源的第二数据中任意第一元素与其他输入源的第二数据中的各元素进行并行匹配计算,并获得所述第一元素与各元素的相似度熵;根据所述第一元素与各元素的相似度熵,确定符合预设条件的第二元素,采用目标元素对所述第一元素进行替换。本发明提供的数据集成方法及***,先根据语义对不同输入源的第一数据进行聚类并的到第二数据,再对每个输入源中的第二数据的任意第一元素与其他输入源的第二数据中的各元素进行匹配计算,根据相似度熵和预设条件进行元素替换等处理,从而使在集成不同输入源的数据时,一方面通过聚类使整个集成过程所需的计算量减小,提高集成效率;另一方面,通过匹配算法,使整个数据集成的质量得到保证。
附图说明
图1为为本发明实施例一提供的一种数据集成方法的流程示意图;
图2为为本发明实施例二提供的一种数据集成方法的流程示意图;
图3为为本发明实施例三提供的一种数据集成***的结构示意图;
图4为为本发明实施例四提供的一种数据集成***的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
图1为本发明实施例一提供的一种数据集成方法的流程示意图,如图1所示,本实施例一提供的数据集成方法,包括以下步骤:
步骤101、获取不同输入源中的每个输入源的第一数据。
具体的,本发明实施例一提供的数据集成方法的执行主体为数据集成***,其具体包括网页***中所使用的搜索引擎,专门用于大数据集成和处理的***装置等。
本实施例一中的步骤101具体可为获取不同输入源,例如,输入源A,B。其中,输入源A的第一数据为A{a,b,c,a’},输入源B的第一数据为B{a’,c’,d’}。
步骤102、根据语义对所述每个输入源的第一数据进行聚类,得到每个输入源的第二数据,其中,在每个输入源的第一数据中,语义相近的元素将用相同的字符表示并被聚类。
具体的,例如当输入源A的第一数据中“a”和“a’”为同义词,而其他均表示不同语义,将第一数据中的“a”和“a’”使用“a”或“a’”或任意例如“{a,a’}”的相同字符表示,并得到A{a,b,c,a},在聚类后得到输入源A的第二数据A{a,b,c};而输入源B也进行相同过程,不同的是,由于输入源B的第一数据中“a’”,“c’”,“d’”分别代表不同语义,则经过步骤102后的输入源B的第二数据依旧为B{a’,c’,d’}。
进一步地,步骤102可通过以下方式实现:
首先,对所述每个输入源中的第一数据进行分词处理,例如当某一输入源C中的第一数据为C{yaijuhua}时,可对其进行分词处理并得到C{y,a,i,j,u,h,u,a’}的分词处理结果;
随后,对每个输入源中的元素进行语义和相关度计算,确定语义相近的元素,并将每个输入源的第一数据中所述语义相近的元素采用相同的元素表示,C{y,a,i,j,u,h,u,a’}中“a”与“a’”为语义相近元素,采用“a”来表示“a”与“a’”,则该第一数据变为C{y,a,i,j,u,h,u,a};
最后,剔除在所述每个输入源的第一数据中多余的字符相同的元素并得到每个输入源的第二数据,使所述第二数据中的每个元素的字符均不相同,例如,在上述C{y,a,i,j,u,h,u,a}中,将多余的“u”和“a”剔除,并得到每个元素的字符均不相同的第二数据C{y,a,i,j,u,h}。
步骤103、将每个输入源的第二数据中任意第一元素与其他输入源的第二数据中的各元素进行并行匹配计算,并获得所述第一元素与各元素的相似度熵。
具体的,例如将到输入源A的第二数据A{a,b,c}中的“a”与输入源B的第二数据中的每一元素进行匹配计算并得到相似度熵,即“a”与“a’”进行匹配计算,得到的相似度熵为1;“a”与“c’”进行匹配计算,得到的相似度熵为0.1;“a”与“d’”进行匹配计算,得到的相似度熵为0.8。同样的,对输入源A中的其他元素“b”,“c”也进行相同的计算,并得到“b”与“a’”的相似度熵为0.5,“b”与“c’”的相似度熵为0.2,“b”与“d’”的相似度熵为0.3,“c”与“a’”的相似度熵为0.1,“c”与“c’”的相似度熵为1,“c”与“d’”的相似度熵为0.8的结果。
进一步地,在上述并行匹配计算中,具体可采用字符串匹配算法、或者上下文结构匹配算法、或者实例信息匹配算法中的一种或多种算法,对每个输入源的第二数据中任意第一元素与其他输入源的第二数据中的各元素进行并行匹配计算。
具体的,在进行并行匹配计算的时候,可使用字符串匹配算法,上下文结构匹配算法以及实例信息匹配算法中的一种算法进行计算;或者,也可使用其中的多种算法依次进行匹配计算,例如,依次使用字符串匹配算法,上下文结构匹配算法以及实例信息匹配算法进行匹配计算。其中,字符串匹配算法具体可包括:柔性字符串匹配算法,通配符串匹配算法等;上下文结构匹配算法具体可包括:祖先路径匹配算法和树编辑距离匹配算法等;实施例信息匹配算法则可为神经网络匹配算法等。上述算法具体可由本领域技术人员进行自行选择和设置,本发明实施例对此不做限定。
步骤104、根据所述第一元素与各元素的相似度熵,确定符合预设条件的第二元素,采用目标元素对所述第一元素和所述第二元素进行替换。
具体的,例如预设条件第一元素与第二元素的相似度熵大于等于为0.9,则符合该条件的相似度熵分别为“a”与“a’”,“c”与“c’”,采用目标元素对所述第一元素和所述第二元素进行替换,例如,使用例如“{a,a’}”的目标元素分别对“a”和“a’”进行替换,使用例如“{c,c’}”的目标元素对“c”和“c’”。经此步骤后的输入源A的第二数据变为A{{a,a’},b,{c,c’}},而输入源B的第二数据变为B{{a,a’},{c,c’},d’}。
因此,当用户使用搜索引擎搜索包括a和c’这两个特征的信息时,数据集成***将反馈出A{{a,a’},b,{c,c’}}以及B{{a,a’},{c,c’},d’}的信息;或者当使用实施例一中的数据集成方法进行大数据的集成和处理时,输入源A的数据A{a,b,c,a’}与输入源B中的数据B{a’,c’,d’},将被分别集成为A{{a,a’},b,{c,c’}}与B{{a,a’},{c,c’},d’}。
进一步地,为了使根据相似度熵所选出的第二元素更加贴合第一元素,使数据集成的结果更加准确,上述实施方式中的预设条件可由本领域技术人员根据实际情况进行自行设定,例如:
根据所述第一元素与各元素的相似度熵,从所述各元素中选出与所述第一元素的相似度熵最高的元素作为所述第二元素;
或者,将所述第一元素与各元素的相似度熵进行乘方计算,从所述各元素中选出与所述第一元素的相似度熵经过所述乘方计算后取值最高的元素作为所述第二元素,例如,当计算出的各相似度熵之间的差距非常小时,可对相似度熵进行乘方计算,以选出更贴切第一元素的第二元素;
或者,根据所述第一元素与各元素的相似度熵,从所述各元素中选出与所述第一元素的相似度熵大于预设阈值的第三元素,从所述第三元素中选出符合用户期望的第二元素,其中用户期望可根据用户实际需要进行设定,例如期望第二元素与第一元素的相似度熵为某一固定值等。
本发明实施例一提供的数据集成方法,先根据语义对不同输入源的第一数据进行聚类并的到第二数据,再对每个输入源中的第二数据的任意第一元素与其他输入源的第二数据中的各元素进行匹配计算,根据相似度熵和预设条件进行元素替换等处理,从而使在集成不同输入源的数据时,一方面通过聚类使整个集成过程所需的计算量减小,提高集成效率;另一方面,通过匹配算法,使整个数据集成方法的集成质量得到保证。
图2为本发明实施例二提供的一种数据集成方法的流程示意图,在上述图1所示方法的基础上,如图2所示,步骤102之前,还包括:
步骤201、对每个所述输入源中的第一数据进行停用词过滤处理。
具体的,例如,若第一数据的元素中存在例如“的”,“了”“啊”等没有实际意义的连词或语尾助词,可将其进行过滤处理,以使得整个数据集成过程更加有效率,减少后续步骤的计算量。
本发明实施例二通过在所述根据语义对所述每个输入源的第一数据进行聚类,得到每个输入源的第二数据之前,还对每个所述输入源中的第一数据进行停用词过滤处理,以使得减少了本发明提供的数据集成方法的计算量,使整个数据集成过程更加有效率。
需要说明的是,本发明上述实施例所提供的数据集成方法可运用在民生领域,例如,二手房交易领域,网上购物领域,网上订餐领域等一些存在大量不同的输入源的领域。为了使本发明的各实施例更加清楚和容易理解,本发明提供一种以二手房交易领域为例的具体实现方式,对于本发明在其他民生领域的应用则可参照二手房交易领域的应用和实现方式,本发明对此不作限定。
在二手房交易领域中,用户可以从多种二手房交易平台搜索到相关的二手房信息,例如,我爱我家,链家,安居客,搜房网,爱屋吉屋,房通网等,同时,用户还可以从多种本地生活服务网站中搜索到相关的二手房信息,例如,新浪乐居,西祠胡同房产,搜狐焦点,大量以城市名称命名的本地综合论坛。因此,每一个二手房交易平台均为一个输入源,而其中的大量二手房信息数据则为输入源的第一数据。
作为上述各实施例执行主体的数据集成***通过访问我爱我家的数据库可获得例如“我爱我家{出售一套朝阳区的二手房,位于朝阳区花园小区2号楼3层301室,2号楼有电梯,二室一厅面积为50平米,其中主卧向阴次卧向阳,售价200万,交通便利,每平米4万。联系人:李某,电话:130xxxxxxxx}”的第一数据,而访问新浪乐居的数据库获得例如“新浪安居{出售二手房大产权房位于朝阳区花园小区的2号楼,两房一厅,南北通透,建筑面积50平米,总的价200万,每4万每平米出行方便,交通便利,地铁直达,售房人:李某,联系方式:130xxxxxxxx}”的第一数据。
数据集成***可先对上述第一数据进行停用词过滤处理,用以过滤上述第一数据中的无意义的字符“的”“其中”“位于”,并得到例如“我爱我家{出售一套朝阳区二手房,朝阳区花园小区2号楼3层301室,2号楼有电梯,二室一厅面积为50平米,主卧向阴次卧向阳,售价200万,交通便利,每平米4万。联系人:李某,电话:130xxxxxxxx}”和“新浪安居{出售二手房大产权房朝阳区花园小区2号楼,两房一厅,南北通透,建筑面积50平米,总价200万,每4万每平米出行方便,交通便利,地铁直达,售房人:李某,联系方式:130xxxxxxxx}”。
随后,数据集成***对每个输入源中的第一数据进行分词处理:例如,“我爱我家{出售,一套,朝阳区,二手房,朝阳区,花园小区,2号楼,3层,301室,2号楼,有电梯,二室一厅,面积为50平米,主卧向阴次卧向阳,售价200万,交通便利,每平米4万,联系人,李某,电话,130xxxxxxxx}”以及“新浪安居{出售,二手房,大产权房,朝阳区,花园小区,2号楼,两房一厅,南北通透,建筑面积50平米,总价200万,每4万每平米,出行方便,交通便利,地铁直达,售房人,李某,联系方式:130xxxxxxxx}”。
数据集成***对每个输入源中的元素进行语义和相关度计算,确定语义相近的元素,并将每个输入源的第一数据中所述语义相近的元素采用相同的元素表示。例如在新浪安居中“出行方便”与“交通便利”为语义相近的元素,将上述语义相近的元素采用相同的元素表示并得到:“新浪安居{出售,二手房,大产权房,朝阳区,花园小区,2号楼,两房一厅,南北通透,建筑面积50平米,总价200万,每4万每平米,出行方便,出行方便,地铁直达,售房人,李某,联系方式,130xxxxxxxx}”。
数据集成***剔除在所述每个输入源的第一数据中多余的字符相同的元素并得到每个输入源的第二数据,使所述第二数据中的每个元素的字符均不相同,例如,剔除在我爱我家的输入源中多余的“朝阳区”,“2号楼”。通过该操作可得到每个输入源的第二数据:“我爱我家{出售,一套,朝阳区,二手房,花园小区,2号楼,3层,301室,有电梯,二室一厅,面积为50平米,主卧向阴次卧向阳,售价200万,交通便利,每平米4万,联系人,李某,电话,130xxxxxxxx}”以及“新浪安居{出售,二手房,大产权房,朝阳区,花园小区,2号楼,两房一厅,南北通透,建筑面积50平米,总价200万,每4万每平米,出行方便,地铁直达,售房人,李某,联系方式,130xxxxxxxx}”
随后,数据集成***将每个输入源的第二数据中任意第一元素与其他输入源的第二数据中的各元素进行并行匹配计算,并获得所述第一元素与各元素的相似度熵。比如,采用字符串匹配算法、或者上下文结构匹配算法、或者实例信息匹配算法中的一种或多种算法,对每个输入源的第二数据中任意第一元素与其他输入源的第二数据中的各元素进行并行匹配计算。例如:对于我爱我家的输入源中的“二手房”这个元素来说,将该元素与新浪安居的输入源中的每一个元素进行匹配计算,并得出例如与“大产权房”相似度熵为0.5,与“两房一厅”相似度熵为0.6,与“二手房”相似度熵为1,与“李某”相似度熵为0等的结果。再例如:对于我爱我家的输入源中的“交通便利”这个元素来说,将该元素与新浪安居的输入源中的每一个元素进行匹配计算,并得出例如与“出行方便”相似度熵为0.9,与“地铁直达”相似度熵为0.8,与“联系方式”相似度熵为0.2,与“南北通透”相似度熵为0.3,与“花园小区”相似度熵为0.3等的结果。
数据集成***根据上述结果以及预设条件选出符合预设条件的第二元素,其中的预设条件可例如,对于我爱我家的输入源中的“二手房”这个元素来说预设条件为相似度熵的值最高的作为第二元素,则新浪安居的输入源中“二手房”这个元素作为第二元素;或者对于我爱我家的输入源中的“交通便利”这个元素来说,相似度熵的值大于等于0.8的元素作为第二元素,则新浪安居的输入源中“出行方便”以及“地铁直达”这两个元素作为第二元素。其中,预设条件可由本领域技术人员根据实际情况自行设定。
数据集成***将采用目标元素对所述第二元素进行替换。例如,对与上述新浪安居的输入源中“出行方便”以及“地铁直达”,可采用“交通便利”进行替换,得到“新浪安居{出售,二手房,大产权房,朝阳区,花园小区,2号楼,两房一厅,南北通透,建筑面积50平米,总价200万,每4万每平米,交通便利,交通便利,售房人,李某,联系方式,130xxxxxxxx}”的第二数据。
进一步地,数据集成***还可再次对第二数据执行聚类过程,以使第二数据中的各元素更加简练,进一步减少后续流程计算量,例如的到“新浪安居{出售,二手房,大产权房,朝阳区,花园小区,2号楼,两房一厅,南北通透,建筑面积50平米,总价200万,每4万每平米,交通便利,售房人,李某,联系方式,130xxxxxxxx}”。
因此,当用户二手房交易领域额搜索引擎中搜索例如“二手房&交通便利”的关键词时,搜索引擎将反馈上述的包括我爱我家的输入源以及新浪安居的输入源在内的搜索结果,使搜索引擎在搜索二手房交易领域更加智能化。或者当有关部门进行特定调研时,例如,有关部门统计影响二手房交易的因素等,可使用该数据集成方法对不同输入源的数据进行统计。
图3为本发明实施例三提供的一种数据集成***的结构示意图,如图3所示,本发明提供的数据集成***包括:
获取模块10,用于获取不同输入源中每一输入源的第一数据;
聚类模块20,用于根据语义对所述每个输入源的第一数据进行聚类,得到每个输入源的第二数据,其中,在每个输入源的第一数据中,语义相近的元素将用相同的字符表示并被聚类;
匹配模块30,用于将每个输入源的第二数据中任意第一元素与其他输入源的第二数据中的各元素进行并行匹配计算,并获得所述第一元素与各元素的相似度熵;
替换模块40,用于根据所述第一元素与各元素的相似度熵,确定符合预设条件的第二元素,采用目标元素对所述第二元素进行替换。
具体的,获取模块10获取来自不同输入源的每一输入源的第一数据,聚类模块20根据语义对获取模块10获取的每个输入源的第一数据进行聚类,并得到经聚类处理后的每个输入源的第二数据,其中,在每个输入源的第一数据中,语义相近的元素将用相同的字符表示并被聚类;匹配模块30将聚类模块20得到的每个输入源的第二数据中任意第一元素与其他输入源的第二数据中的各元素进行并行匹配计算,并获得所述第一元素与各元素的相似度熵;替换模块40,用于根据匹配模块30将得到的第一元素与各元素的相似度熵,确定符合预设条件的第二元素,采用目标元素对所述第二元素进行替换。本发明提供的数据集成方法及***,通过获取不同输入源中的每个输入源的第一数据;根据语义对所述每个输入源的第一数据进行聚类,得到每个输入源的第二数据,其中,在每个输入源的第一数据中,语义相近的元素将用相同的元素表示并被聚类;将每个输入源的第二数据中任意第一元素与其他输入源的第二数据中的各元素进行并行匹配计算,并获得所述第一元素与各元素的相似度熵;根据所述第一元素与各元素的相似度熵,确定符合预设条件的第二元素,采用目标元素对所述第一元素进行替换。
优选地,在上述实施方式的基础上,为了使数据集成的计算过程更加简单和有效,聚类模块20具体用于:对每个所述输入源中的第一数据进行分词处理;对每个输入源中的元素进行语义和相关度计算,确定语义相近的元素,并将每个输入源的第一数据中所述语义相近的元素采用相同的元素表示;剔除所述每个输入源的第一数据中多余的字符相同的元素并得到每个输入源的第二数据,使所述第二数据中的每个元素的字符均不相同。通过聚类模块20使数据集成***在匹配计算之前对第一数据的各元素进行聚类,简化后续计算的复杂程度,使整个数据集成***更加高效。
优选地,在上述实施方式的基础上,为了使匹配过程更加准确,结果更加精准,匹配单元30具体用于:
采用字符串匹配算法、或者上下文结构匹配算法、或者实例信息匹配算法对每个输入源的第二数据中任意第一元素与其他输入源的第二数据中的各元素进行并行匹配计算。
其中,在进行并行匹配计算的时候,可使用多种算法依次进行计算,例如,先采用字符串匹配算法进行计算,再使用实施例信息匹配算法中的实例重复度匹配算法进行计算,得出第一元素与各元素的相似度熵;或者先采用上下文结构匹配算法中的祖先路径匹配算法进行计算,再采用上下文结构匹配算法中的树编辑距离匹配算法进行计算,最后采用实施例信息匹配算法中神经网络匹配算法进行计算,得出第一元素与各元素的相似度熵。本实施方式通过匹配单元30使用多种算法进行并行匹配计算,从而使数据集成后的结果更加精准。
优选地,在上述实施方式的基础上,替换模块40具体用于:根据所述第一元素与各元素的相似度熵,从所述各元素中选出与所述第一元素的相似度熵最高的元素作为所述第二元素;或者,将所述第一元素与各元素的相似度熵进行乘方计算,从所述各元素中选出与所述第一元素的相似度熵经过所述乘方计算后取值最高的元素作为所述第二元素;或者,根据所述第一元素与各元素的相似度熵,从所述各元素中选出与所述第一元素的相似度熵大于预设阈值的第三元素,从所述第三元素中选出符合用户期望的第二元素。为了使根据相似度熵所选出的第二元素更加贴合第一元素,数据集成的结果更加准确,上述实施方式中对预设条件进行了限定,同时,需要说明的是,本领域技术人员也可根据实际需要自行设定。
上述实施例三提供的数据集成***的实施方式与实施例一中的数据集成方法的实施方式相对应,具体实现方法参见上述实施例一的记载,在此不做赘述。
本发明上述实施例三提供的数据集成***,先根据语义对不同输入源的第一数据进行聚类并的到第二数据,再对每个输入源中的第二数据的任意第一元素与其他输入源的第二数据中的各元素进行匹配计算,根据相似度熵和预设条件进行元素替换等处理,从而使在集成不同输入源的数据时,一方面通过聚类使整个集成过程所需的计算量减小,提高集成效率;另一方面,通过匹配算法,使整个集成的质量得到保证,使数据集成***高效且精准。
图4为本发明实施例四提供的一种数据集成***的结构示意图,在图3所示结构的基础上,如图4所示,还包括:
停用词模块50,用于对每个所述输入源中的第一数据进行停用词过滤处理。
具体的,例如,在聚类模块20进行操作之前,若第一数据的元素中存在例如“的”,“了”“啊”等没有实际意义的连词或语尾助词,停用词模块50可将其进行过滤处理,以使得整个数据集成过程更加有效率,减少后续步骤的计算量。
上述实施例四提供的数据集成***的实施方式与实施例二中的数据集成方法的实施方式相对应,具体实现方法参见上述实施例一的记载,在此不做赘述。
本发明实施例四通过在所述根据语义对所述每个输入源的第一数据进行聚类,得到每个输入源的第二数据之前,还对每个所述输入源中的第一数据进行停用词过滤处理,以使得减少了本发明提供的数据集成方法的计算量,使整个数据集成过程更加有效率。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种数据集成方法,其特征在于,包括:
获取不同输入源中的每个输入源的第一数据;
根据语义对所述每个输入源的第一数据进行聚类,得到每个输入源的第二数据,其中,在每个输入源的第一数据中,语义相近的元素将用相同的字符表示并被聚类;
将每个输入源的第二数据中任意第一元素与其他输入源的第二数据中的各元素进行并行匹配计算,并获得所述第一元素与各元素的相似度熵;
根据所述第一元素与各元素的相似度熵,确定符合预设条件的第二元素,采用目标元素对所述第二元素进行替换。
2.根据权利要求1所述的方法,其特征在于,所述根据语义对所述每个输入源的第一数据进行聚类,得到每个输入源的第二数据,其中,在每个输入源的第一数据中,语义相近的元素将用相同的字符表示并被聚类,具体包括:
对所述每个输入源中的第一数据进行分词处理;
对每个输入源中的元素进行语义和相关度计算,确定语义相近的元素,并将每个输入源的第一数据中所述语义相近的元素采用相同的元素表示;
剔除在所述每个输入源的第一数据中多余的字符相同的元素并得到每个输入源的第二数据,使所述第二数据中的每个元素的字符均不相同。
3.根据权利要求1所述的方法,其特征在于,所述将每个输入源的第二数据中任意第一元素与其他输入源的第二数据中的各元素进行并行匹配计算,并获得所述第一元素与各元素的相似度熵,具体包括:
采用字符串匹配算法、或者上下文结构匹配算法、或者实例信息匹配算法中的一种或多种算法,对每个输入源的第二数据中任意第一元素与其他输入源的第二数据中的各元素进行并行匹配计算。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述第一元素与各元素的相似度熵,确定符合预设条件的第二元素,具体包括:
根据所述第一元素与各元素的相似度熵,从所述各元素中选出与所述第一元素的相似度熵最高的元素作为所述第二元素;或者,
将所述第一元素与各元素的相似度熵进行乘方计算,从所述各元素中选出与所述第一元素的相似度熵经过所述乘方计算后取值最高的元素作为所述第二元素;或者,
根据所述第一元素与各元素的相似度熵,从所述各元素中选出与所述第一元素的相似度熵大于预设阈值的第三元素,从所述第三元素中选出符合用户期望的第二元素。
5.根据权利要求1所述的方法,其特征在于,所述根据语义对所述每个输入源的第一数据进行聚类,得到每个输入源的第二数据之前,还包括:
对所述每个输入源中的第一数据进行停用词过滤处理。
6.一种数据集成***,其特征在于,包括:
获取模块,用于获取不同输入源中每一输入源的第一数据;
聚类模块,用于根据语义对所述每个输入源的第一数据进行聚类,得到每个输入源的第二数据,其中,在每个输入源的第一数据中,语义相近的元素将用相同的字符表示并被聚类;
匹配模块,用于将每个输入源的第二数据中任意第一元素与其他输入源的第二数据中的各元素进行并行匹配计算,并获得所述第一元素与各元素的相似度熵;
替换模块,用于根据所述第一元素与各元素的相似度熵,确定符合预设条件的第二元素,采用目标元素对所述第二元素进行替换。
7.根据权利要求6所述的***,其特征在于,所述聚类模块还用于:
对每个所述输入源中的第一数据进行分词处理;
对每个输入源中的元素进行语义和相关度计算,确定语义相近的元素,并将每个输入源的第一数据中所述语义相近的元素采用相同的元素表示;
剔除所述每个输入源的第一数据中多余的字符相同的元素并得到每个输入源的第二数据,使所述第二数据中的每个元素的字符均不相同。
8.根据权利要求6所述的***,其特征在于,匹配单元具体用于:
采用字符串匹配算法、或者上下文结构匹配算法、或者实例信息匹配算法对每个输入源的第二数据中任意第一元素与其他输入源的第二数据中的各元素进行并行匹配计算。
9.根据权利要求6-8任一项所述的***,其特征在于,替换模块具体用于:
根据所述第一元素与各元素的相似度熵,从所述各元素中选出与所述第一元素的相似度熵最高的元素作为所述第二元素;或者,
将所述第一元素与各元素的相似度熵进行乘方计算,从所述各元素中选出与所述第一元素的相似度熵经过所述乘方计算后取值最高的元素作为所述第二元素;或者,
根据所述第一元素与各元素的相似度熵,从所述各元素中选出与所述第一元素的相似度熵大于预设阈值的第三元素,从所述第三元素中选出符合用户期望的第二元素。
10.根据权利要求6所述的***,其特征在于,还包括:
停用词模块,用于对每个所述输入源中的第一数据进行停用词过滤处理。
CN201511032263.1A 2015-12-31 2015-12-31 数据集成方法及*** Active CN106933901B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511032263.1A CN106933901B (zh) 2015-12-31 2015-12-31 数据集成方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511032263.1A CN106933901B (zh) 2015-12-31 2015-12-31 数据集成方法及***

Publications (2)

Publication Number Publication Date
CN106933901A true CN106933901A (zh) 2017-07-07
CN106933901B CN106933901B (zh) 2020-07-17

Family

ID=59443790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511032263.1A Active CN106933901B (zh) 2015-12-31 2015-12-31 数据集成方法及***

Country Status (1)

Country Link
CN (1) CN106933901B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763405A (zh) * 2009-11-16 2010-06-30 陆嘉恒 基于同义词规则的近似字符串搜索技术
CN101777042A (zh) * 2010-01-21 2010-07-14 西南科技大学 基于神经网络和标签库的语句相似度算法
CN102129479A (zh) * 2011-04-29 2011-07-20 南京邮电大学 一种基于概率潜在语义分析模型的万维网服务发现方法
CN102184256A (zh) * 2011-06-02 2011-09-14 北京邮电大学 一种针对海量相似短文本的聚类方法和***
US20140019617A1 (en) * 2012-07-11 2014-01-16 Ca, Inc. Managing access to resources of computer systems using codified policies generated from policies
CN104392247A (zh) * 2014-11-07 2015-03-04 上海交通大学 一种用于数据聚类的相似性网络融合快速方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763405A (zh) * 2009-11-16 2010-06-30 陆嘉恒 基于同义词规则的近似字符串搜索技术
CN101777042A (zh) * 2010-01-21 2010-07-14 西南科技大学 基于神经网络和标签库的语句相似度算法
CN102129479A (zh) * 2011-04-29 2011-07-20 南京邮电大学 一种基于概率潜在语义分析模型的万维网服务发现方法
CN102184256A (zh) * 2011-06-02 2011-09-14 北京邮电大学 一种针对海量相似短文本的聚类方法和***
US20140019617A1 (en) * 2012-07-11 2014-01-16 Ca, Inc. Managing access to resources of computer systems using codified policies generated from policies
CN104392247A (zh) * 2014-11-07 2015-03-04 上海交通大学 一种用于数据聚类的相似性网络融合快速方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WILLIAM W. COHEN 等: ""Learning to Match and Cluster Large High-Dimensional Data Sets For Data Integration"", 《KDD "02 PROCEEDINGS OF THE EIGHTH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 *
岳晓东: ""面向科技文献的术语翻译一致性检查技术的研究"", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 *

Also Published As

Publication number Publication date
CN106933901B (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
Tabassum et al. Social network analysis: An overview
CN105117422B (zh) 智能社交网络推荐***
Noirhomme‐Fraiture et al. Far beyond the classical data models: symbolic data analysis
CN109255586B (zh) 一种面向电子政务办事的在线个性化推荐方法
Xiaomei et al. Microblog sentiment analysis with weak dependency connections
CN106844407B (zh) 基于数据集相关性的标签网络产生方法和***
Franceschini et al. Prioritization of QFD customer requirements based on the law of comparative judgments
CN106557558A (zh) 一种数据分析方法及装置
Kim et al. Inter-cluster connectivity analysis for technology opportunity discovery
Tiwari et al. A bijective soft set theoretic approach for concept selection in design process
CN112528163B (zh) 一种基于图卷积网络的社交平台用户职业预测方法
Vick et al. The effects of standardizing names for record linkage: Evidence from the United States and Norway
Jalali et al. Research trends on big data domain using text mining algorithms
Zineb et al. An intelligent approach for data analysis and decision making in big data: a case study on e-commerce industry
Sandeep Kumar et al. Location identification for real estate investment using data analytics
CN107809370B (zh) 用户推荐方法及装置
CN105869058A (zh) 一种多层潜变量模型用户画像提取的方法
CN112287674B (zh) 企业间同名大节点识别方法、***、电子设备及存储介质
Huang et al. Hourly water demand forecasting using a hybrid model based on mind evolutionary algorithm
Nguyen et al. Estimating county health indices using graph neural networks
Mrvar et al. Partitioning signed two-mode networks
Wang et al. Clustered coefficient regression models for poisson process with an application to seasonal warranty claim data
Putri et al. Content-based filtering model for recommendation of Indonesian legal article study case of klinik hukumonline
CN106933901A (zh) 数据集成方法及***
Muir et al. Using Machine Learning to Improve Public Reporting on US Government Contracts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant