CN108090082B - 信息处理方法及信息处理装置 - Google Patents
信息处理方法及信息处理装置 Download PDFInfo
- Publication number
- CN108090082B CN108090082B CN201611036969.XA CN201611036969A CN108090082B CN 108090082 B CN108090082 B CN 108090082B CN 201611036969 A CN201611036969 A CN 201611036969A CN 108090082 B CN108090082 B CN 108090082B
- Authority
- CN
- China
- Prior art keywords
- property
- information
- type
- attribute
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 59
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000005034 decoration Methods 0.000 claims description 12
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 148
- 238000010586 diagram Methods 0.000 description 35
- 238000004891 communication Methods 0.000 description 12
- 230000002776 aggregation Effects 0.000 description 11
- 238000004220 aggregation Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 230000009286 beneficial effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000010267 cellular communication Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 101150060512 SPATA6 gene Proteins 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000735234 Ligustrum Species 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种信息处理方法及信息处理装置;方法包括:获取由多个信息构成的信息集;从各所述信息中提取相应信息所描述对象对应多个属性的属性值;将所述对象对应各个属性的属性值进行编码处理,得到所述对象对应各个属性的数字特征值;将所述对象对应各个属性的数字特征值组合,形成所述对象的数字特征;确定各所述信息所描述对象的数字特征之间的相似度,将数字特征的相似度满足相似度条件的所述对象识别为同一对象;识别出所述信息集中对应同一对象的重复信息。实施本发明,能够从信息集中高效及精确识别出对应同一对象的重复信息。
Description
技术领域
本发明涉及计算机技术,尤其涉及一种信息处理方法及信息处理装置。
背景技术
目前互联网得到广泛应用,各种信息聚合平台会在所架设网站的页面上展示各种信息供用户浏览,涉及到获取信息以及对信息进行组织和存储。
例如,闲置物品(如闲置图书和闲置)信息平台会对接各种线上和线下的发布闲置物品的信息源,从不同的信息源获取闲置物品的发布信息,基于地区、物品类别等在网站的页面中显示,供访问用户浏览选择需要的物品。
又例如,房产信息平台对接线上和线下的房产信息的信息源(如不同房产中介机构)获取待出售的房产的相关信息,根据地区和价格区间等维度进行分类,在网站的页面显示,供用户快速定位感兴趣的房产。
信息聚合平台存在如下示例中的问题:
1)例如,用户在两个闲置物品网站发布的针对同一闲置物品的发布的信息的描述存在差异,导致在信息聚合平台重复发布了该闲置物品的信息。
2)又例如,由于用户向不同中介机构提供的同一房产的信息存在差异,导致信息聚合平台将同一房产的来自多个中介机构的房产信息作为不同房产信息发布,给受众造成信息干扰。
从上述示例可以看出,由于存在从不同信息源获取的多个信息重复描述同一对象的情况,由于从不同信息源获取的描述同一对象的信息存在差异,导致无法准确区分哪些信息是重复的,一方面增大了信息聚合平台组织存储信息的成本,另一方面,针对同一对象重复发布信息造成干扰、也影响了信息的准确性。
发明内容
本发明实施例提供一种信息处理方法及信息处理装置,能够从信息集中高效及精确识别出对应同一对象的信息。
本发明实施例的技术方案是这样实现的:
第一方面,本发明实施例提供一种信息处理方法,包括:
获取由多个对象对应的信息构成的信息集;
从各所述对象对应的信息中提取相应对象的多个属性的属性值;
将所述对象的各个属性的属性值进行编码处理,形成所述对象在各个维度的数字特征值;
将所述对象对应各个维度的数字特征值组合,形成所述对象的数字特征;
比较各所述对象的数字特征,将数字特征相似度满足预设条件的对象识别为同一对象;
识别出所述信息集中对应同一对象的重复信息。
第二方面,本发明实施例提供一种信息处理装置,包括:
获取单元,用于获取由多个信息构成的信息集;
提取单元,用于从各所述信息中提取相应信息所描述对象对应多个属性的属性值;
编码单元,用于将所述对象对应各个属性的属性值进行编码处理,得到所述对象对应各个属性的数字特征值;
组合单元,用于将所述对象对应各个属性的数字特征值组合,形成所述对象的数字特征;
比较单元,用于确定各所述信息所描述对象的数字特征之间的相似度,将数字特征的相似度满足相似度条件的所述对象识别为同一对象;
识别单元,用于识别出所述信息集中对应同一对象的重复信息。
第三方面,本发明实施例提供一种信息处理装置,包括处理器和存储器;存储器中存储有可执行指令,用于引起处理器执行以下的操作:
获取由多个对象对应的信息构成的信息集;
从各所述对象对应的信息中提取相应对象的多个属性的属性值;
将所述对象的各个属性的属性值进行编码处理,形成所述对象在各个维度的数字特征值;
将所述对象对应各个维度的数字特征值组合,形成所述对象的数字特征;
比较各所述对象的数字特征,将数字特征相似度满足预设条件的对象识别为同一对象;
识别出所述信息集中对应同一对象的重复信息。
第四方面,本发明实施例提供一种存储介质,存储有可执行指令,用于执行本发明实施例提供的信息处理方法。
本发明实施例具有以下有益效果:
一方面,由于对象的不同属性被量化为数字特征,基于数字特征的相似度可以高效、精确判断信息集中各信息所描述的对象是否为同一对象;
另一方面,基于识别出的同一对象,能够对信息集中针对同一对象的重复信息进行去重处理,节省维护信息集中的重复信息造成的资源消耗,消除了信息集中描述同一对象的多个信息被受众感知为多个对象,避免对受众造成的干扰,保证信息集的精度。
附图说明
图1是本发明实施例提供的信息处理方法的一个可选的流程示意图;
图2-1为本发明实施例提供的将信息集中各信息的第二类属性值进行排序并划分为取值空间的一个可选的示意图;
图2-2为本发明实施例提供的将信息集中各信息的第二类属性值进行排序并划分为取值空间的一个可选的示意图;
图3-1是本发明实施例提供的信息处理装置部署在网络侧服务器时的一个可选的应用场景示意图;
图3-2是本发明实施例提供的信息处理装置部署在用户侧终端时的一个可选的应用场景示意图;
图4是本发明实施例提供的信息处理装置10的一个可选的软硬件结构示意图;
图5是本发明实施例提供的信息处理装置的一个可选的结构示意图;
图6-1为本发明实施例提供的对信息集的房产信息中识别同一房产的多个房产信息的处理示意图;
图6-2是本发明实施例提供的构成房产DNA的属性的分类示意图;
图6-3是本发明实施例提供的对房产的A类属性的属性值进行编码处理的编码规则的一个可选的示意图
图6-4是本发明实施例提供的信息集中各房产信息的A类属性的属性值的数字特征值的一个可选示意图;
图6-5是是本发明实施例提供的信息集中各房产信息的B类属性的属性值的数字特征值的一个可选的流程示意图;
图6-6是本发明实施例提供的对房产的面积进行排序的一个可选的排序结果示意图;
图6-7是本发明实施例提供的对房产的面积进行分组后为每个分组分配的数字特征值的一个可选的示意图;
图6-8是本发明实施例提供的房产的B类属性值的数字特征值的一个可选的示意图;
图6-9是信息集中各房产信息的C类属性的属性值的数字特征值的一个可选的流程示意图;
图6-10为本发明实施例提供的房产的D NA的一个可选的示意图;
图6-11为本发明实施例提供的基于房产信息计算房产的DNA、并基于DNA相似度识别相同房产的另一个可选的流程示意图。
具体实施方式
以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所提供的实施例仅仅用以解释本发明,并不用于限定本发明。另外,以下所提供的实施例是用于实施本发明的部分实施例,而非提供实施本发明的全部实施例,在本领域技术人员不付出创造性劳动的前提下,对以下实施例的技术方案进行重组所得的实施例、以及基于对发明所实施的其他实施例均属于本发明的保护范围。
需要说明的是,在本发明实施例中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素,而且还包括没有明确列出的其他要素,或者是还包括为实施方法或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的方法或者装置中还存在另外的相关要素(例如方法中的步骤或者装置中的单元)。
例如,本发明实施例提供的信息处理方法包含了一系列的步骤,但是本发明实施例提供的信息处理方法不限于所记载的步骤,同样地,本发明实施例提供的信息处理装置包括了一系列单元,但是本发明实施例提供的信息处理装置不限于包括所明确记载的单元,还可以包括为获取相关信息、或基于信息进行处理时所需要设置的单元。
对本发明进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)信息集,也即用于描述对象的信息,一条信息以所包括的一个或多个类型的属性描述对象,属性用于定性或定量描述对象在某一维度的特征。
2)属性,包括属性名称(attribute name)和对应的属性值(attribute value),属性值可以采用定性或定量的描述方式,如房产的楼层属性(即属性名称为楼层),可以采用“高层”这样定性的属性值,也可以采用18层这样定量的属性值。
3)编码,是指用用数字化的特征值(数字特征值)是来统一表示信息中各种属性的属性值,通过将信息中各种属性的数字特征值组合而形成信息的数字特征,从而使得可以使用计算机对信息中携带的各种属性处理和分析。
需要指出地,数字特征值以及数字特征,均与使用哈希算法对文件计算哈希序列不同,哈希序列仅能表征文件的唯一性,而绝无可能携带信息中的属性。
相关技术从多个信息源获取的信息存在对同一对象进行重复描述的情况,即信息集中存在对应同一对象进行重复描述的多个信息,并且对于同一对象进行描述的多个信息的描述方式不完全相同,导致难以区分是否是针对同一对象的重复信息。
例如,针对同一房产的描述的信息,信息中可以包括如下的属性:城市(**);小区(**);楼层(20层/高层);装修程度(一般/豪华);价格(20万/30万)。处于保护隐私的考虑,从不同中介获取的房产信息不会包括楼号和门牌号,因此,无法区分信息集中是否存在对应同一房产的重复信息。
对于从不同中介获取的同一小区的房产信息来说,信息的数量甚至会超出小区中全部房产的数量,对于聚合房产信息的信息聚合平台来说,冗余的信息会导致后台为进行数据存储和组织的资源的过度消耗,同时也对房产信息的受众造成干扰。
针对上述问题,根据本发明实施例提供一种信息处理方法、以及用于实施信息处理方法的信息处理装置,参见图1示出的本发明实施例提供的信息处理方法的一个可选的流程示意图,包括以下步骤:
步骤101,获取由多个信息构成的信息集。
在一个实施例中,从多个信息源以定期或不定期的方式获取信息,对所获取的信息组织形成信息集。
以房产信息的信息集为例,从网络中各个房产信息的网站获取房产信息,还可以与各个中介的数据库对接,获取中介机构开放的房产信息,按照来源、发布时间等方式组织形成信息集。
实际应用中,信息集更新频率很高,例如房产信息的信息集可能在一小时内会发生多次更新并且更新涉及的信息量很大,为了避免频繁获取信息形成信息集导致负载过高的问题,也可以在网络侧部署一专用于从不同信息源获取信息的服务,由服务对各信息源进行信息收集形成信息集,信息处理装置直接从服务获取信息集,从而节约在信息处理装置的计算资源和通信资源的占用,有利于降低信息处理装置的部署难度,特别是易于在用户侧的终端部署。
需要指出地,由于信息集中的每条信息用于描述一个对象,并且在获取到信息集时并未获知是否有多个信息重复描述同一对象的情况,因此存在以下2种情况:
情况1)信息集中的各个信息描述的对象均为不同的对象。
情况2)信息集中存在部分信息针对同一对象进行描述的情况,也就是存在多个对象中部分对象是同一对象的情况。
步骤102,从信息集中各信息中提取相应信息所描述对象对应多个属性的属性值。
在一个实施例中,鉴于信息集由一系列的信息构成,每条信息基于所包括的属性(包括属性名称和相应的属性值)描述一个对象,因此,以预设的多个属性的属性名称为关键字,在信息集的各对象的信息中,查询相应对象对应多个属性的属性值。
以房产信息为例,以下述属性的属性名称为关键字检索信息集中的每条信息:房产所在城市、区县、商圈、小区名(或别名)、户型和朝向;在信息中查询得到房产对应多个属性的属性值,如房产对应上述多个属性的下述属性值:北京、朝阳、安贞、紫御华府、一室一厅和东向。
步骤103,将信息集中各信息所描述对象对应的各个属性的属性值进行编码处理,得到对象对应各个属性的数字特征值。
在一个实施例中,每个维度的属性对应有一个编码规则,在编码规则中包括相应属性的不同属性值与所对应的数字特征值的对应关系,以对象的各个属性的属性值为索引,查询相应属性的编码规则中的对应关系,能够得到与相应属性的属性值对应的数字特征值。
以下述的房产信息为例,对不同属性的属性值进行编码处理进行说明:所处城市:北京;所处区县;朝阳;小区名称:紫御华府;户型:一室一厅;朝向:东向。
具体来说,属性名称为房产所处城市时,房产所处的不同城市(属性值)与对应的数字特征值的对应关系如图6-3所示,当信息集中的一条房产信息中关乎房产的所属城市为“北京”时,则基于表1示出的对应关系查询到“0001”的数字特征值;
关于房产所属城市的区县为“朝阳”时,则基于图6-3示出的对应关系查询到“0001”的数字特征值;
关于房产的所属城市的小区为“紫御华府”时,则基于图6-3示出的对应关系查询到“0002”的数字特征值;
关于房产的所属城市的户型为“一室一厅”时,则基于图6-3示出的对应关系查询到“0001”的数字特征值;
关于房产的所属城市的产朝向为“东”时,则基于图6-3示出的对应关系查询到“0001”的数字特征值。
在另一个实施例中,不同的属性可以划分多个类型,相应地,根据对象的属性值所对应的属性的类型,对属性值进行有针对地编码形成数字特征值,下面针对不同类似属性的属性值编码形成数字特征值进行说明。
示例性地,不同的属性划分为以下可选的类型:
1)第一类属性,信息集的信息中对应同一对象的第一类的属性值具有唯一性,也就是说,对于同一对象的来自不同信息源的多个信息来说,多个信息中针对第一类属性的取值具有稳定不变的特性。
以房产信息为例,第一类属性可以包括:所在的城市、区县、商圈、小区名(或别名)、户型和朝向等。不论是房主提供的房产信息,还是中介提供俄房产信息,同一房产的多个房产信息中,针对第一类属性的属性值不会存在差异。
由于信息集中同一对象的多个信息选中针对第一类属性的属性值唯一的特性,对于任意第一类属性的编码规则来说,编码规则中可以形成所示的每个第一类属性的属性值与数字特征值之间的对应关系,这样使得基于第一类属性值(第一类属性的属性值)形成的数字特征值,能够实现在第一类属性的层面准确识别相同对象的效果。
示例性地,以这样的方式对第一类属性的属性值编码形成相应的数字特征值:以对象的各个第一类属性的属性值为索引,查询相应第一类属性的编码规则中属性值与数字特征值之间的对应关系,得到与相应第一类维度的属性值对应的数字特征值。
仍以房产信息为例,对于如下的房产信息:所处城市:北京;所处区县;朝阳;小区名称:紫御华府;户型:一室一厅;朝向:东向。由于涉及的属性属于第一类属性,因此可以基于如图6-3所示的第一类属性的编码规则查询不同属性值对应的数字特征值(数字特征值),依次为:“北京”对应的“0001”的数字特征值;“紫御华府”对应的“0002”的数字特征值;“一室一厅”对应的“0001”的数字特征值;朝向“东”对应的“0001”的数字特征值。
2)第二类属性,信息集中同一对象对应第二类属性的属性值具有连续的取值空间。对于同一对象的来自不同信息源的多个信息来说,多个信息中针对第二类属性的属性值的取值具有不稳定的特性,并且可能的取值构成一个连续的取值空间。
以房产信息为例,第二类属性可以包括:楼层、面积、楼型、年代和价格等。由于各种原因(如房主提供的信息的差异,或中介有益模糊房产信息),同一房产的来自多个中介的房产信息中,针对楼层范围这一属性的属性值可能存在差异,如可能为“18层”,也可能为“高层”,处于(18,30)这一个取值空间。
由于信息集中同一对象的多个信息中针对第二类属性的属性值存在差异,而在一个取值空间内相对稳定的特性,如果在第二位属性的编码规则中采用如前述第一类属性与数字特征值一一的对应关系,将会使同一房产的第二类属性值(第二类属性的属性值)的数字特征值构成区别,不利于基于第二类属性值的数字特征值识别同一对象,而如果在第二类属性的编码规则中使用属性值的取值空间与数字特征值的对应关系,为处于同一取值空间的属性值分配相同的数字特征值,则能够实现基于数字特征值准确识别相同对象的效果,避免因同一对象的多个信息中因第二类属性的属性值村咋差异而误识别为不同对象的情况。
……。
2.1)作为一个编码方案,各个第二类属性的编码规则中,包括第二位属性的属性值的预先设定的取值空间与数字特征值之间的对应关系,编码规则的一个可选的结构如下:
第二类属性 编码
预设取值空间1 编码结果1
预设取值空间2 编码结果2
相应地,以对象的各个第二类属性的属性值为索引,查询相应第二类属性的编码规则,得到与相应第二类属性的属性值对应的数字特征值,可以采用这样的方式:
查询相应第二类属性的编码规则中取值空间与数字特征值之间的对应关系,确定第二类属性值所处的取值空间,将编码规则中与所处的取值空间对应的数字特征值作为相应第二位属性值的编码结果。
以房产信息中的第二类属性“楼层”为例,编码规则的一个可选的示例如下所示:
楼层 编码
1-10层 0001
11-30层,高层 0002
如前,同一房产的房产信息中关于楼层的属性值可能存在差异,如可能为“18层”,也可能为“10层以上”,但是对应的编码均为“0003”,避免了因为第二类属性的属性值存在差异而导致识别为不同房产的情况。
2.2)上述编码方案2.1)中,第二类属性的编码规则中采用预定的取值空间,但是信息集的信息涉及的第二类属性值的分布是随机的,不具有规律性,也就是说第二类属性值的分布不可能是均匀。可能出现以下情况,信息集中第二位属性值在某个取值空间过于集中地分布,导致信息集中各对象的第二类属性的数字特征值出现大部分一致的情况,进而导致基于第二位属性的数字特征值无法对对象进行有效区分。
例如,房产信息的信息集中,房产信息的楼层集中分布1-5层,那么基于上述的编码规则会得到相同的第二类属性的数字特征值“0001”,导致基于第二类属性的数字特征值难以区分不同的房产。
针对上述问题,编码方案2.2)提供在第二类属性的编码规则中动态划分取值空间并进行编码的方案,有如下2中示例性的划分取值空间并进行编码的方案:
2.2.1)作为划分取值空间并进行编码的一个示例,将信息集中各信息中第二类属性的属性值排序,将排序结果对应的取值范围划分为满足预定条件的取值空间。
参见图2-1,图2-1为本发明实施例提供的将信息集中各信息的第二类属性值进行排序并划分为取值空间的一个可选的示意图,将取值空间划分为3个取值空间。
结合图2-1,示例性地,划分后的取值空间之间满足以下取值空间划分条件之一:
条件1)取值空间之间的距离超出距离阈值,从而将取值相近的属性值划分到同一取值空间,由于同一取值空间的属性值对应的编码方式相同(分配相同的数字特征值),因此实现了描述同一对象的多个信息中第二类属性值的编码结果(数字特征值相同)最大程度趋近的效果,能够基于不同信息的第二类属性值的编码结果的差异度准确识别所描述的对象是否为同一对象。
条件2)划分的取值空间的数量至少为2个;当然,当第二类属性值的分布空间较大时取值空间的数量可以相应增大,一般地,第二类属性值的分布空间的跨度与取值空间的数量线性正相关。
在各个第二类属性的编码规则中,包括根据信息集中各信息(每个信息用于描述一个对象)第二位属性的属性值的取值范围而动态划分的取值空间。基于动态划分的取值空间,相应地,以对象的各个第二类属性的属性值为索引,查询相应第二类属性的编码规则,得到与相应第二类属性的属性值对应的数字特征值,还可以采用这样的方式:
以对象对应各个第二类属性的属性值所处的取值空间为索引,查询相应第二类属性的编码规则中取值空间与数字特征值之间的对应关系,得到与对象的各个第二类属性的属性值对应的数字特征值。
例如,对于图2-1示出的第二类维度属性值的取值范围而划分的取值空间来说,对应的编码规则的一个可选的结构如下:
信息集中信息的第二类属性的分布范围被动态划分为3个取值空间,则各信息的第二类属性值的有3种编码结果,实现了编码结果的差异化,避免了第二类属性值编码结果相同的情况,能够基于第二类属性的编码结果区分对象。
2.2.2)作为划分取值空间并进行编码的另一个示例,将信息集划分为第一类属性的数字特征值相同的分组,也即每个分组的信息中第一类属性的数字特征值相同;对于每个分组划分取值空间:对分组的信息中第二类属性的属性值排序,将排序结果对应的取值范围划分为满足取值空间划分条件的至少两个取值空间。
参见图2-2,图2-2为本发明实施例提供的将信息集中各信息的分组中,对每个分组的第二类属性值进行排序并划分为取值空间的一个可选的示意图。
结合图2-2,示例性地,划分后的取值空间之间满足以下取值空间划分条件之一:
条件1)取值空间之间的距离(包括距离1至距离4)超出距离阈值,从而将取值相近的属性值划分到同一取值空间(包括将分组1的第二类属性值的取值范围划分形成的取值空间1至3,以及将分组2的第二类属性值的取值范围划分形成的取值空空间4至6),由于同一取值空间的属性值对应的编码方式相同(分配相同的数字特征值),因此保证了同一对象的多个信息中第二类属性值的编码结果(数字特征值相同),能够基于第二类属性值的编码结果准确识别同一对象。
条件2)划分的取值空间的数量至少为2个;当然,当第二类属性值的其值范围的跨度较大时取值空间的数量可以相应增大,一般地,第二类属性值的取值范围的跨度与取值空间的数量线性正相关。
在各个第二类属性的编码规则中,包括根据信息集中各信息(每个信息用于描述一个对象)第二位属性的属性值的取值范围而动态划分的取值空间。基于动态划分的取值空间,相应地,以对象的各个第二类属性的属性值为索引,查询相应第二类属性的编码规则,得到与相应第二类属性的属性值对应的数字特征值,还可以采用这样的方式:
以对象对应各个第二类属性的属性值所处的取值空间为索引,查询相应第二类属性的编码规则中取值空间与数字特征值之间的对应关系,得到与对象的各个第二类属性的属性值对应的数字特征值。
由于同一对象的多个信息中的第一类维度属性具有唯一性(即相同),在第一类属性值的信息分组中参考分组中第二类属性值的分布划分取值空间,使得同一对象的多个信息中的第二类属性值最大程度地被划分到同一取值空间,进而可以为同一取值空间的第二类属性值分配相同的数字特征值,实现不同对象的第二类型属性值的数字特征值与相似度精确拟合的效果。
3)第三类属性,信息集中同一对象对应第三类属性的属性值具有离散的取值空间,信息集的信息中对应同一对象的第三类属性的属性值具有离散的取值空间。
以房产信息为例,第三类属性可以包括:装修、满五(是指购房者拥有房屋的时间满5年。)、唯一(指购房者是家庭唯一住房楼层、面积、楼型、年代和价格等。由于各种原因(如房主提供的信息的差异,或中介有益模糊房产信息),同一房产的来自多个中介的房产信息中,针对装修这一属性的属性值可能存在差异,如可能为“精装修””,也可能为“豪华装修”,处于(毛坯房,一般装修,精装修,豪华装修)这一个离散的取值空间。
第三类属性的编码规则包括第三类属性的属性值与数字特征值之间的对应关系,一个可选的示例为
是否满五 编码
是 0001
否 0002
相应地,第三类属性的属性值进行编码,可以采用如下的方式:
以对象各个第三类属性的属性值为索引,查询相应第三类属性的编码规则中属性值与数字特征值之间的对应关系,得到与对象的各个第三类属性的属性值对应的数字特征值。
步骤104,将对象对应各个维度的数字特征值组合,形成对象的数字特征。
示例性地,按照第一类属性的数字特征值+第二类属性的数字特征值+第三类属性的数字特征值的方式组合形成特征,当然,可以采用任意其他形式的组合。
步骤105,确定各对象的数字特征之间的相似度,将数字特征的相似度满足预设条件的对象识别为同一对象。
在一个实施例中,比较信息集中任意2个信息所描述的对象的数字特征,将数字特征相似度高于相似度阈值(如99%)的2个信息所描述的对象识别为同一对象。
特别地,由于信息集中同一对象的各个信息中第一类属性值相同,因此对应的数字特征值也必然相同,那么,比较各对象的数字特征,得到第一类属性的数字特征值同一的候选对象,排除了将第一类属性值不同的对象识别为相同对象的情况,然后,将第二类属性的数字特征值的相似度满足预定条件、且第三类属性的数字特征值的相似度满足预定条件的候选对象识别为同一对象,最大程度上保证了识别同一对象的精度。
在另一个实施例中,比较信息集中任意2个信息所描述的对象的数字特征,将数字特征相似度最高的预定数量的对象识别为同一对象,这里的预定数量为根据以往信息集中信息重复描述同一对象的比例确定。
步骤106,识别出信息集中对应同一对象的重复信息。
在一个实施例中,删除信息集的描述同一对象的信息中的满足删除条件的信息。例如,删除中同一对象的信息中时效优先级信息非最高的信息,或者删除来源可靠优先级非最高的信息,保证信息集中信息的可靠性和时效性。
在另一个实施例中,将信息集的描述同一对象对应的信息中同一属性的不同属性值进行整合:并删除重复的属性值,如城市“北京”等,一方面,避免信息冗余,另一方面,保证信息的全面性,避免信息损失。
作为整合的一个示例,将信息集的描述同一对象的信息中同一属性的不同属性值以并列的方式形成新的属性值,对于同一房产的2条房产信息,将楼层属性值的“顶楼”以及“18楼,待阁楼”整合为“顶楼18层/带阁楼”。
作为整合的另一个示例,保留同一属性的不同属性值中具有最大信息量的属性值,例如,对于同一房产的2条房产信息,将信息量最大楼层属性“18层”作为整合后房产信息的楼层属性值。
根据本发明实施例,提供应用上述信息处理方法的信息处理装置,信息处理装置可以采用多种方式实施,以下示例性地说明。
在一个实施例中,信息处理装置基于网络侧服务器的资源(例如,处理器、存储供处理器执行的可执行指令的存储器等)和通信资源(如用于实现无线网络通信和蜂窝通信的集成电路芯片等)实现。
图3-1是本发明实施例提供的信息处理装置部署在网络侧服务器时的一个可选的应用场景示意图,由服务器从不同信息源获取多个对象的信息形成信息集,根据上述记载的信息处理方法而识别出同一对象并去除同一对象的重复信息,对处理后的信息集发布到前端的前端页面供用户访问,实现网络侧服务器的信息聚合服务。
一般地,服务器对信息集(去除了同一对象的重复信息)中的信息按照特定方式分类或者排序,便于访问用户快速定位感兴趣的信息。
以房产信息的信息集为例,按照房产信息的发布先后顺序排序,时效性最新的房产信息排布在页面的顶端或页面中其他的显著位置,以避免用户遗漏关注最新的房产信息。
当然,服务器还可以根据用户的浏览记录或订阅计算用户偏好向用户推送信息集中符合用户偏好的信息,或者,在用户访问服务器的前端页面时,将符合用户偏好的房产信息在前端页面的显著位置显示。
例如,如根据用户近期浏览/订阅的小区、户型和价格区间等偏好,定期或不定期地向用户侧设备推送信息集中具有相应属性的房产信息,避免了重复推送同一房产对用户造成干扰的情况,一方面实现了精确推送信息的效果,另一方面保证了推送信息的时效性。
在另一个实施例中,信息处理装置可以基于用户侧终端的计算资源(例如,处理器、存储供处理器执行的可执行指令的存储器等)和通信资源(如用于实现无线网络通信和蜂窝通信的集成电路芯片等)实现。
图3-2是本发明实施例提供的信息处理装置部署在用户侧终端时的一个可选的应用场景示意图,由终端从不同信息源获取多个对象的信息形成信息集,根据上述记载的信息处理方法而识别出同一对象并去除同一对象的重复信息,对处理后的信息集在用户侧终端提示用户观看,实现用户侧终端的信息聚合服务。
一般地,终端对信息集(去除了同一对象的重复信息)按照特定方式分类或者排序,便于访问用户快速定位感兴趣的信息。当然,终端还可以根据用户以往的浏览记录或订阅计算用户偏好,将信息集中符合用户偏好的信息以各种方式呈现给用户。
如前,信息处理装置部署在网路侧服务器或者部署在用户侧终端,在硬件实现方式上,实现信息处理装置的硬件资源包括如处理器和内存的计算资源,还可包括如用于进行各种方式(如无线局域网通信和蜂窝通信)通信的集成电路芯片的通信资源;
在软件实现方式上,信息处理装置可以实施为存储于存储介质中的可执行指令(包括诸如程序、模块之类的计算机可执行指令),可执行指令可以在上述处理器使用一个线程或多个并行的线程执行。
如上,以信息处理装置基于网络用户侧终端的计算资源和通信资源实现时,参见图4示出的信息处理装置10的一个可选的软硬件结构示意图,信息处理装置10包括硬件层、中间层、操作***层和软件层。然而,本领域的技术人员应当理解,图4示出的信息处理装置10的结构仅为示例,并不构成对信息处理装置10结构的限定。例如,信息处理装置10可以根据实施需要设置较图4更多的组件,或者根据实施需要省略设置部分组件。
信息处理装置10的硬件层包括处理器11、输入/输出接口13,存储介质14以及网络接口12,组件可以经***总线连接通信。
处理器11可以采用中央处理器(CPU)、微处理器(MCU,Microcontroller Unit)、专用集成电路(ASIC,Application Specific Integrated Circuit)或逻辑可编程门阵列(FPGA,Field-Programmable Gate Array)实现。
输入/输出接口13可以采用如显示屏、触摸屏、扬声器等输入/输出器件实现。
存储介质14可以采用闪存、硬盘、光盘等非易失性存储介质实现,也可以采用双倍率(DDR,Double Data Rate)动态缓存等易失性存储介质实现,其中存储有用以执行上述信息处理方法的可执行指令。
示例性地,存储介质14可以与信息处理装置10的其他组件集中设置,也可以相对于信息处理装置10中的其他组件分布设置。网络接口12向处理器11提供外部数据如异地设置的存储介质14的访问能力,示例性地,网络接口12可以基于近场通信(NFC,Near FieldCommunication)技术、蓝牙(Bluetooth)技术、紫蜂(ZigBee)技术进行的近距离通信,另外,还可以实现如基于码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband Code Division Multiple Access)等通信制式及其演进制式的蜂窝通信,又例如,基于无线相容性认证(WiFi)方式经由接入无线接入点(AP,Access Point)接入网络侧的通信。
驱动层包括用于供操作***16识别硬件层并与硬件层各组件通信的中间件15,例如可以为针对硬件层的各组件的驱动程序的集合。
操作***16用于提供面向用户的图形界面,示例性地,包括插件图标、桌面背景和应用图标,操作***16支持用户经由图形界面对设备的控制本发明实施例对上述设备的软件环境如操作***类型、版本不做限定,例如可以是Linux操作***、UNIX操作***或其他操作***。
应用层包括用户侧终端运行的客户端,例如提供各种信息的聚合服务的信息聚合应用17和应用插件等。
再对信息处理装置的功能结构进行说明,参见图5示出的信息处理装置20的一个可选的结构示意图,包括:获取单元21、提取单元22、编码单元23、组合单元24、比较单元25和识别单元26,分别说明。
获取单元21,用于获取由多个信息构成的信息集。
提取单元22,用于从各信息中提取相应信息所描述对象对应多个属性的属性值。
在一个实施例中,以预设的多个属性的属性名称为关键字,在信息集的各信息中,查询相应信息所描述对象对应多个属性的属性值。
编码单元23,用于将对象对应各个属性的属性值进行编码处理,得到对象对应各个属性的数字特征值。
在一个实施例中,编码单元23用于以对象对应各个属性的属性值为索引,查询相应属性的编码规则,得到与相应属性的属性值对应的数字特征值。
在另一个实施例中,不同的属性可以划分以下可选的类型:
1)第一类属性,信息集的信息中对应同一对象的第一类属性的属性值具有唯一性。2)第二类属性,信息集中同一对象对应第二类属性的属性值具有连续的取值空间。3)第三类属性,信息集中同一对象对应第三类属性的属性值具有离散的取值空间。
对于第一类属性,编码单元23,还用于以对象对应各个第一类属性的属性值为索引,查询相应第一类属性的编码规则中属性值与数字特征值之间的对应关系,得到与相应第一类属性的属性值对应的数字特征值,其中,信息集的信息中对应同一对象的第一类的属性值具有唯一性。
对于第二类属性,编码单元23,还用于以对象对应各个第二类属性的属性值所处的取值空间为索引,查询相应第二类属性的编码规则中取值空间与数字特征值之间的对应关系,得到与对象的各个第二类属性的属性值对应的数字特征值;其中,信息集的信息中对应同一对象的第二类属性的属性值具有连续的取值空间。
对于取值空间来说,编码单元23可以采用这样的方式确定,还将信息集中各信息的第二类属性的属性值排序,将排序结果对应的取值范围划分为距离满足取值空间划分条件的至少两个取值空间。
对于取值空间来说,编码单元23还可以采用这样的方式确定,编码单元23,还用于将信息集划分为第一类属性的数字特征值相同的分组,对各个分组的信息中的第二类属性的属性值排序,将排序结果对应的取值范围划分为满足取值空间划分条件的至少两个取值空间。
对于第三类属性,编码单元23,还用于以对象对应各个第三类属性的属性值为索引,查询相应第三类属性的编码规则中属性值与数字特征值之间的对应关系,得到与相应第三类属性的属性值对应的数字特征值。
组合单元24,用于将对象对应各个属性的数字特征值组合,形成对象的数字特征。
组合单元25,用于确定各信息所描述对象的数字特征之间的相似度,将数字特征的相似度满足相似度条件的对象识别为同一对象。
识别单元26,用于识别出信息集中对应同一对象的重复信息。
识别单元26,还用于比较信息集中各信息所描述的对象的数字特征,将数字特征相似度高于相似度阈值的对象,或者将数字特征相似度最高的预定数量的对象识别为同一对象。
在一个实施例中,识别单元26,还用于比较信息集中各信息所描述的对象的数字特征,得到第一类属性的数字特征值相同的候选对象,将第二类属性的数字特征值的相似度、以及第三类属性的数字特征值的相似度超出相似度阈值的候选对象识别为同一对象;
其中,信息集的信息中对应同一对象的第一类的属性值具有唯一性;信息集的信息中对应同一对象的第二类属性的属性值具有连续的取值空间;信息集的信息中对应同一对象的第三类属性的属性值具有离散的取值空间。
在一个实施例中,识别单元26,还用于删除信息集的描述同一对象的信息中的满足删除条件的信息。
在一个实施例中,识别单元26,还用于将信息集的描述同一对象的信息中同一属性的不同属性值以并列的方式形成新的属性值,或者,删除同一属性的不同属性值中未具有最大信息量的属性值;删除相同属性的重复的属性值。
可以理解地,上述对象根据实际应用场景中信息集描述的主体而有所区别,例如,从不同房产的中介获取房产信息描述的对象是房产,从不同的限制物品交易平台获取的信息描述的对象是待销售(交换)的闲置物品,根据不同的对象,本领域基于人员可以轻易划分上述的三类属性,从而基于属性的属性值的编码结果形成数字特征,进而基于相似度识别信息描述的房产(或闲置物品)是否为同一房产(或为同一闲置物品)。
再以从不同信息源获取房产信息信息源为例,从不同信息源(例如,不同的中介机构,线上的各种发布房产信息的网站等)获取的房产信息形成的信息集为例,由于房产信息中没有包括具体的楼号和门牌信息,因此无法直接对房产信息直接进行排重处理(也就是从信息集中找出对应同一房产的多个房产信息),从信息集的房产信息识别出同一房产的多个房产信息(多个房产信息的针对同一属性的属性值存在差异)的过程进行说明。
首先对处理过程中涉及的名词解释如下。
1)房产DNA,房产的特征,指从房产的基本属性中挑选出来的能够有效区分房产不同的特定属性,对房产的多个属性的属性值编码形成数字特征值(数字特征值),并组合数字特征值所形成。
房产的属性分为A、B和C三类,每一类又包括若干具体的属性。
1.1)A类属性(第一类属性)包括:房产所在的城市、区县、商圈、小区名(或别名)、户型和朝向共6项。
房产信息中房产的A类属性的属性值具有唯一性,也就是说,对于同一房产的不同来源的房产信息来说,A类属性的属性值不会发生变化。
1.2)B类属性(第二类属性)包括:房产的楼层范围、面积范围、楼型、年代和价格范围共5项。
房产信息中房产的B类属性的属性值的取值具有连续的取值空间,也就是说,对于同一房产的不同来源的房产信息来说,B类属性的属性值属于一个连续的取值空间。
对于价格来说,房产主可能给出多次不同的报价,如可以在(200万,300万)的连续取值空间内任意取值。
对于楼层来说,房产主处于保护隐私有可能向不同的中介报错楼层,或者,给出楼层的大概范围,如高层,10层以上等,相应地,楼层的取值空间可以根据不同地区楼房的实际层数情况确定。
对于楼型来说,由于对不同的楼型预先以数字进行标识,因此楼型的属性值也可以视为属于连续的取值空间。
1.3)C类属性(第三类属性)包括装修程度、满五(是指购房者拥有房屋的时间满5年)和唯一(指购房者是家庭唯一住房)共3项。
房产信息中房产的C类属性的属性值的取值具有离散的取值空间,也就是说,对于同一房产的不同来源的房产信息来说,C类属性的属性值属于一个离散的取值空间。
对于装修程度来说,其取值空间可以为:一般装修;精装修;豪华装修。
对于满五和唯一来说,其取值空间可以为:是;否。
2)房产属性编码:指某一特定房产按照某类属性(比如A类)进行数字编码的过程。编码过程每个属性的数字特征值使用4位十进制数字表示,当然,可以使用其他位数以及其他进制,各属性对应的编码值按照特定的先后顺序排列在一起,形成房产的DNA(数字特征)。
3)编码标准,包括一系列的对不同属性的属性值进行编码的编码规则,例如房产的每个属性对应的一套编码规则,编码规则包括房产属性的属性值和4位数值的数字特征值的对应关系。
对于房产的A、C类属性的属性值来说,编码规则包括属性值与数字特征值的对应关系,因此是静态的编码方式,一旦一个房产的属性的属性值确定,则该属性值对应的数字特征值是确定的。
对于房产的B类属性的一个属性值来说,编码规则包括属性值所处的取值空间与数字特征值的对应关系,由于属性值所处的取值空间是对信息集中所有房产的对应的属性值进行排序并划分取值空间的方式得到,因此房产的属性值所处的取值空间具有动态随机性,以动态的方式确定属性值的数字特征值。
动态的编码方式,能够避免将取值接近的B类属性的属性值划分到同一个取值空间,避免划分到不同的取值空间导致数字特征值出现差异的情况,使得B类属性的属性值的数字特征值拟合房产属性之间的相似度。
4)房产属性聚合:指为了将模糊化的房产信息进行有效归类为如上的A、B、C三类的属性,而采取的属性的合并以及分类方法,特别是指针对房产的B类属性的楼层范围、面积范围和价格范围等属性进行特殊分类的方法。
5)房产相似度公式:指评估任意两个房产是否为相似房产的计算方法,通过计算房产DNA、比对房产DNA以及基于比对得到的差异计算相似度的方法得到房产之间的相似度。
参见图6-1,图6-1为本发明实施例提供的对信息集的房产信息中识别同一房产的多个房产信息的处理示意图,在图6-1中,从信息集的各房产信息中提取相应房产的DNA,从所提取的各房产的DNA中,提取各房产对应A、B、C共3类属性的编码,比对各个房产的对应A、B、C共3类属性的编码,基于编码的相似度计算各房产之间的相似程度,识别出房产信息所对应的相同的房产(房产排重)。
参见图6-2,图6-2是本发明实施例提供的构成房产DNA的属性的分类示意图,具体来说,房产属性包括如图6-2示出的A、B、C共3类,房产的A类属性包括:房产所在的城市、区县、商圈、小区名(或别名)、户型和朝向共6项;B类属性包括楼层范围、面积范围、楼型、年代、价格范围共5项;C类属性包括装修、满五和唯一共3项。
由于A、B、C共3类包括的属性不同,对相应的属性值的编码处理也有所区别,对A、B、C类属性的属性值进行编码的处理做如下说明。
1)A类属性编码
对于A类属性的属性值的编码来说,参见图6-3,图6-3是本发明实施例提供的对房产的A类属性的属性值进行编码处理的编码规则的一个可选的示意图,包括A类属性的多个属性值与数字特征值的对应关系,以城市属性来说,属性值“北京”对应的数字特征值为“0001”,属性值“上海”对应的数字特征值为“0002”,编码规则的其他对应关系可根据上述说明而理解,不再一一说明。
对于信息集中的每条房产信息,将房产信息中所记载的房产所在的城市、区县、商圈、小区名(或别名)、户型和朝向四个属性的属性值,在编码规则中查询相应属性的数字特征值(数字特征值),数字特征值使用4位十进制数字进行表示,A类的各个属性的属性值对应的数字特征值按照预定的先后顺序排列组合,形成的房产A类属性的数字特征值,用于作为房产对应A类属性的标识。
参见图6-4,图6-4是信息集中各房产信息的A类属性的属性值的数字特征值的一个可选示意图,每个房产的A类属性的数字特征值由6组4位十进制数字构成,结合图6-3,以图6-4中编号为“000001”的房产信息为例,假设该房产信息包括的属性值为:北京、朝阳、安贞、紫御华府、一室一厅、东向,则基于图6-3,该房产的A类属性的数字特征值是000100010001000200010002。
2)B类属性编码
对于B类属性的属性值的编码来说,对于信息集中的每个房产的房产信息,对房产的A类属性的属性值进行编码之后,对房产的B类属性(包括楼层范围、面积范围、价格范围动态)对应的属性值进行动态编码(可以理解地,对于B类属性的属性值来说,也可以采用类似A类属性的属性值进行编码的方式)。
对于房产的楼层、面积和价格的属性来说,对应属性值的取值空间是自然地处于连续的取值空间,如楼层的属性值处于(0,18)的连续取值空间,面积属性的属性值处于(20,200)的连续的取值空间,价格处于(100万、200万)的连续的取值空间。
而对房产的楼型、年代(建筑年代)来说,可以预先分配数字标识来与不同的楼型、不同的年代对应,使得房产的楼型、年代具有连续的取值空间。
对于信息集中各房产信息中提取B类属性的属性值,对于B类属性值(B类属性的属性值。即指标数据)按照大小排序,计算排序结果中相邻房产的B类属性值(B类属性的属性值)的差值δ,取差值最大的两组B类属性值作为分组临界,以分组临界将排序结果对应的取值范围划分为三个空间,相当于将各房产的B类属性值划分为三个分组(分组与取值空间一一对应),为分组内的B类属性值(数据)分配预定的统一的数字特征值。
以对房产的B类属性为面积时编码处理举例说明。
提取A类属性值的数字特征值相同的房产信息中的面积,按照面积的大小对房产进行分组。参见图6-5,图6-5是信息集中各房产信息的B类属性的属性值的数字特征值的一个可选的流程示意图。
首先,将房产的面积按照从小到大排序。参见图6-6,图6-6是本发明实施例提供的对房产的面积进行排序的一个可选的排序结果示意图。
其次,计算排序结果中相邻2房产的面积之间的差值,依次取差值最大的2组房产作为分组临界。按照分组临界,将房产分成3组。
再次,为每个分组的分配对应面积属性的统一的数字特征值,根据房产的面积对所在的分组为房产分配面积属性的数字特征值。参见图6-7,图6-7是本发明实施例提供的对房产的面积进行分组后为每个分组分配的数字特征值的一个可选的示意图,当房产的面积处于第1分组时,其面积对应的数字特征值为0001,同理,,当房产的面积处于第2分组时,其面积对应的数字特征值为0002,当房产的面积处于第3分组时,其面积对应的数字特征值为0003。
对于房产B类的其他(如楼层、价格、楼型和年代对应)的属性值的数字特征值可以根据上述计算面积的数字特征值而实施,对每个房产的B类属性值的数字特征值进行排列组合形成5组4位数字的序列,参见图6-8,图6-8是本发明实施例提供的房产的B类属性值的数字特征值的一个可选的示意图。
3)C类属性值编码
对房产的装修程度、满五和唯一3个属性按照与A类属性值的编码方式进行编码,C类属性的编码规则包括C类属性值与数字特征值的一一对应关系,以C类属性值为索引查询编码规则中的对应关系,得到房产的C类属性值对应的数字特征值,将房产的各个C类属性值的数字特征值排列组合形成C类属性的数字特征值。。参见图6-9,图6-9是信息集中各房产信息的C类属性的属性值的数字特征值的一个可选的流程示意图。
将房产的A、B和C类属性的数字特征值排列组合形成各房产的DNA,参见图6-10,图6-10为本发明实施例提供的房产的DNA的一个可选的示意图。
房产DNA对比
比较各房产的DNA以计算DNA的相似度,示例性地,基于表1示出的规则计算2个房产的相似度,如当信息集中2个房产信息的A、B和C类属性的数字特征值一致时判定相似度为99%,当信息集中2个房产信息的A、B属性的数字特征值一致,而C类属性的数字特征值不一致时房产的相似度为50%,根据相似度与相似度阈值的比较结果判断2个房产是否为相同房产。
表1
与上述识别相同房产的方案不同,参见图6-11,图6-11为本发明实施例提供的基于房产信息计算房产的DNA、并基于DNA相似度识别相同房产的另一个可选的流程示意图,首先计算各房产的A类属性的数字特征值,汇总A类属性的数字特征值相同的房产。
其次,对汇总的房产(A类属性的数字特征值一致)的B类属性的属性值进行分组,基于分组为房产的B类属性值动态分配数字特征值。
再次,基于汇总B类属性的数字特征值一致的房产,计算对应的C类属性的数字特征值,通过比较2个房产的C类属性的数字特征值的相似度作为房产的DNA的相似度,通过相似度与相似度阈值比较判决2个房产是否为同一房产。
综上所述,本发明实施例实现以下有益效果:
1)将信息集中各信息所描述的对象的不同属性量化为数字特征,基于数字特征的相似度可以高效、精确判断信息集中对应同一对象重复描述的信息。
2)基于识别出的同一对象,能够对信息集中针对同一对象的重复信息进行去重处理,节省维护信息集中的重复信息造成的资源消耗,消除了信息集中对应同一对象重复描述的信息对受众的造成的干扰。
3)将对象的属性进行分类,单独使用各个类别的属性的数字特征值计算不同信息所描述对象的相似度,当信息来源受限如只能获取包括对象的部分属性的信息的情况下,能够对信息集中所描述对象进行识别,适用性强。
4)结合多个类别的属性的数字特征值计算对象之间的相似度,避免了某些对象在某一类属性的数字特征值,但是在其他类别属性的数字特征值区别较大时的误识别的情况,实现了对相同对象的精确识别。
5)对信息集中描述同一对象的多个信息进行去重融合方式的去重处理,既避免了信息重复的情况,也避免了因删除重复信息导致的信息量的损失。
本领域的技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储装置、随机存取存储器(RAM,Random Access Memory)、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机、服务器、或者网络装置等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储装置、RAM、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (9)
1.一种信息处理方法,其特征在于,包括:
从不同信息源获取由多个信息构成的信息集;其中,所述信息集中的每条信息用于描述一个房产;
从各所述信息中提取相应信息所描述房产对应多个属性的属性值;
将所述属性划分为第一类属性、第二类属性和第三类属性;
其中,所述第一类属性的属性值具有唯一性,所述第二类属性的属性值具有连续的取值空间,所述第三类属性的属性值具有离散的取值空间;
所述第一类属性包括:所述房产所在的城市、区县、商圈、小区名、户型和朝向;所述第二类属性包括:房产的楼层、面积、楼型、年代和价格;所述第三类属性包括:装修程度、满五情况、唯一情况;
当所述房产对应属性为所述第一类属性时,以所述房产对应各个所述第一类属性的属性值为索引,在所述第一类属性的编码规则中查询属性值与设定长度的数字特征值之间的对应关系,得到与所述第一类属性的各个属性的属性值对应的数字特征值,将所述第一类属性中各个属性的属性值对应的数字特征值以预设顺序组合,得到所述房产的第一类属性的数字特征值;
当所述房产对应属性为所述第二类属性时,将所述信息集中各所述信息的所述第二类属性的属性值排序,根据排序结果对应的取值范围划分取值空间;其中,划分后的所述取值空间之间满足以下取值空间划分条件之一:所述取值空间之间的距离超出距离阈值或所述取值空间的数量至少为两个;或者,
将所述信息集中各所述信息的所述第二类属性的属性值排序,将排序结果中相邻属性值的差值最大的至少一组相邻属性值作为分组临界,根据所述分组临界将所述排序结果对应的取值范围划分为至少两个取值空间;
以所述房产对应各个第二类属性的属性值所处的所述取值空间为索引,在所述第二类属性的编码规则中查询所述取值空间与设定长度的数字特征值之间的对应关系,得到与所述第二类属性的各个属性的属性值对应的数字特征值,将所述第二类属性中各个属性的属性值对应的数字特征值以预设顺序组合,得到所述房产的第二类属性的数字特征值;
当所述房产对应属性为所述第三类属性时,以所述房产对应各个第三类属性的属性值为索引,在所述第三类属性的编码规则中查询属性值与设定长度的数字特征值之间的对应关系,得到与所述第三类属性的各个属性的属性值对应的数字特征值,将所述第三类属性中各个属性的属性值对应的数字特征值以预设顺序组合,得到所述房产的第三类属性的数字特征值;
将所述房产对应各个属性的数字特征值以所述第一类属性的数字特征值、所述第二类属性的数字特征值和所述第三类属性的数字特征值的顺序组合,形成所述房产的数字特征;
比较所述信息集中各所述信息所描述的房产的数字特征,将数字特征相似度高于相似度阈值的房产识别为同一房产,或者将数字特征相似度最高的预定数量的房产识别为同一房产;其中,所述预定数量为根据信息集中信息重复描述同一房产的比例确定;
将所述信息集的描述同一对象的信息中同一属性的不同属性值以并列的方式形成新的属性值,或者,删除所述同一属性的不同属性值中未具有最大信息量的属性值;
删除所述信息集中对应同一房产的重复信息。
2.如权利要求1所述的方法,其特征在于,所述从各所述信息中提取相应信息所描述房产对应多个属性的属性值,包括:
以预设的多个属性的属性名称为关键字,在所述信息集的各所述信息中,查询相应信息所描述房产对应所述多个属性的属性值。
3.如权利要求1所述的方法,其特征在于,所述将所述信息集中各所述信息的所述第二类属性的属性值排序,包括:
将所述信息集划分为第一类属性的数字特征值相同的分组,对各个所述分组的信息中所述第二类属性的属性值排序。
4.如权利要求1所述的方法,其特征在于,所述比较所述信息集中各所述信息所描述的房产的数字特征,将数字特征相似度高于相似度阈值的房产识别为同一房产,包括:
比较所述信息集中各所述信息所描述的房产的数字特征,得到第一类属性的数字特征值相同的候选房产,将第二类属性的数字特征值的相似度、以及第三类属性的数字特征值的相似度超出相似度阈值的所述候选房产识别为同一房产。
5.如权利要求1所述的方法,其特征在于,所述删除所述信息集中对应同一房产的重复信息,包括:
删除所述信息集的描述同一房产的信息中的满足删除条件的信息。
6.一种信息处理装置,其特征在于,包括:
获取单元,用于从不同信息源获取由多个信息构成的信息集;其中,所述信息集中的每条信息用于描述一个房产;
提取单元,用于从各所述信息中提取相应信息所描述房产对应多个属性的属性值;
编码单元,用于将所述属性划分为第一类属性、第二类属性和第三类属性;其中,所述第一类属性的属性值具有唯一性,所述第二类属性的属性值具有连续的取值空间,所述第三类属性的属性值具有离散的取值空间;所述第一类属性包括:所述房产所在的城市、区县、商圈、小区名、户型和朝向;所述第二类属性包括:房产的楼层、面积、楼型、年代和价格;所述第三类属性包括:装修程度、满五情况、唯一情况;
当所述房产对应属性为所述第一类属性时,所述编码单元,还用于以所述房产对应各个所述第一类属性的属性值为索引,在所述第一类属性的编码规则中查询属性值与设定长度的数字特征值之间的对应关系,得到与所述第一类属性的各个属性的属性值对应的数字特征值,将所述第一类属性中各个属性的属性值对应的数字特征值以预设顺序组合,得到所述房产的第一类属性的数字特征值;
当所述房产对应属性为第二类属性时,所述编码单元,还用于将所述信息集中各所述信息的所述第二类属性的属性值排序,根据排序结果对应的取值范围划分取值空间;其中,划分后的所述取值空间之间满足以下取值空间划分条件之一:所述取值空间之间的距离超出距离阈值或所述取值空间的数量至少为两个;或者,将所述信息集中各所述信息的所述第二类属性的属性值排序,将排序结果中相邻属性值的差值最大的至少一组相邻属性值作为分组临界,根据所述分组临界将所述排序结果对应的取值范围划分为至少两个取值空间;
以所述房产对应各个第二类属性的属性值所处的取值空间为索引,在所述第二类属性的编码规则中查询取值空间与设定长度的数字特征值之间的对应关系,得到与所述第二类属性的各个属性的属性值对应的数字特征值,将所述第二类属性中各个属性的属性值对应的数字特征值以预设顺序组合,得到所述房产的第二类属性的数字特征值;
当所述房产对应属性为第三类属性时,所述编码单元,还用于以所述房产对应各个第三类属性的属性值为索引,在所述第三类属性的编码规则中查询属性值与设定长度的数字特征值之间的对应关系,得到与所述第三类属性的各个属性的属性值对应的数字特征值,将所述第三类属性中各个属性的属性值对应的数字特征值以预设顺序组合,得到所述房产的第三类属性的数字特征值;
组合单元,用于将所述房产对应各个属性的数字特征值以所述第一类属性的数字特征值、所述第二类属性的数字特征值和所述第三类属性的数字特征值的顺序组合,形成所述房产的数字特征;
比较单元,用于比较所述信息集中各所述信息所描述的房产的数字特征,将数字特征相似度高于相似度阈值的房产识别为同一房产,或者将数字特征相似度最高的预定数量的房产识别为同一房产;其中,所述预定数量为根据信息集中信息重复描述同一房产的比例确定;
识别单元,将所述信息集的描述同一对象的信息中同一属性的不同属性值以并列的方式形成新的属性值,或者,删除所述同一属性的不同属性值中未具有最大信息量的属性值;删除所述信息集中对应同一房产的重复信息。
7.如权利要求6所述的装置,其特征在于,
所述编码单元,还用于将所述信息集划分为第一类属性的数字特征值相同的分组,对各个所述分组的信息中的所述第二类属性的属性值排序。
8.一种信息处理装置,其特征在于,所述信息处理装置包括处理器和存储器;所述存储器中存储有可执行指令,用于引起所述处理器执行如权利要求1至5任一项所述的信息处理方法。
9.一种计算机可读存储介质,其特征在于,其上存储有可执行指令,所述可执行指令被执行时实现如权利要求1至5任一项所述的信息处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611036969.XA CN108090082B (zh) | 2016-11-22 | 2016-11-22 | 信息处理方法及信息处理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611036969.XA CN108090082B (zh) | 2016-11-22 | 2016-11-22 | 信息处理方法及信息处理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108090082A CN108090082A (zh) | 2018-05-29 |
CN108090082B true CN108090082B (zh) | 2021-06-11 |
Family
ID=62168638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611036969.XA Active CN108090082B (zh) | 2016-11-22 | 2016-11-22 | 信息处理方法及信息处理装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108090082B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991177B (zh) * | 2018-09-18 | 2021-05-04 | 北京国双科技有限公司 | 一种物料排重方法及装置 |
CN109840080B (zh) * | 2018-12-28 | 2022-08-26 | 东软集团股份有限公司 | 字符属性比较方法、装置、存储介质及电子设备 |
CN110012150B (zh) * | 2019-02-20 | 2021-07-30 | 维沃移动通信有限公司 | 一种消息显示方法及终端设备 |
CN109920016B (zh) * | 2019-03-18 | 2021-06-25 | 北京市商汤科技开发有限公司 | 图像生成方法及装置、电子设备和存储介质 |
CN110244886B (zh) * | 2019-05-20 | 2022-05-27 | 北京百度网讯科技有限公司 | 信息显示方法、装置、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1679625B1 (en) * | 2005-01-10 | 2012-09-12 | Xerox Corporation | Method and apparatus for structuring documents based on layout, content and collection |
CN104182517A (zh) * | 2014-08-22 | 2014-12-03 | 北京羽乐创新科技有限公司 | 数据处理的方法及装置 |
CN105139134A (zh) * | 2015-08-31 | 2015-12-09 | 丁澄天 | 房政在线房地产综合信息管理***的登记薄管理*** |
CN105740380A (zh) * | 2016-01-27 | 2016-07-06 | 北京邮电大学 | 数据融合方法及*** |
CN106033510A (zh) * | 2015-03-13 | 2016-10-19 | 阿里巴巴集团控股有限公司 | 一种用户设备识别方法及*** |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7941442B2 (en) * | 2007-04-18 | 2011-05-10 | Microsoft Corporation | Object similarity search in high-dimensional vector spaces |
CN104281525B (zh) * | 2014-10-28 | 2016-12-07 | 中国人民解放军装甲兵工程学院 | 一种缺陷数据分析方法及利用其缩减软件测试项目的方法 |
CN105279277A (zh) * | 2015-11-12 | 2016-01-27 | 百度在线网络技术(北京)有限公司 | 知识数据的处理方法和装置 |
CN105488176A (zh) * | 2015-11-30 | 2016-04-13 | 华为软件技术有限公司 | 数据处理方法和装置 |
-
2016
- 2016-11-22 CN CN201611036969.XA patent/CN108090082B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1679625B1 (en) * | 2005-01-10 | 2012-09-12 | Xerox Corporation | Method and apparatus for structuring documents based on layout, content and collection |
CN104182517A (zh) * | 2014-08-22 | 2014-12-03 | 北京羽乐创新科技有限公司 | 数据处理的方法及装置 |
CN106033510A (zh) * | 2015-03-13 | 2016-10-19 | 阿里巴巴集团控股有限公司 | 一种用户设备识别方法及*** |
CN105139134A (zh) * | 2015-08-31 | 2015-12-09 | 丁澄天 | 房政在线房地产综合信息管理***的登记薄管理*** |
CN105740380A (zh) * | 2016-01-27 | 2016-07-06 | 北京邮电大学 | 数据融合方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN108090082A (zh) | 2018-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108090082B (zh) | 信息处理方法及信息处理装置 | |
CN110866181B (zh) | 资源推荐的方法、装置及存储介质 | |
Patil et al. | Comparison of C5. 0 & CART classification algorithms using pruning technique | |
CN104794242B (zh) | 一种搜索方法 | |
CA3059929C (en) | Text searching method, apparatus, and non-transitory computer-readable storage medium | |
CN108416030B (zh) | 一种职位推荐方法、装置及计算机可读存储介质 | |
CN104077407A (zh) | 一种智能数据搜索***及方法 | |
CN106951527B (zh) | 一种歌曲推荐方法及装置 | |
CN104021125A (zh) | 一种搜索引擎排序的方法、***以及一种搜索引擎 | |
CN111782686A (zh) | 用户数据的查询方法、装置、电子设备及存储介质 | |
US10169464B2 (en) | System and method for a bidirectional search engine and its applications | |
CN111858922A (zh) | 服务方信息查询方法、装置、电子设备以及存储介质 | |
CN115145871A (zh) | 文件查询方法、装置和电子设备 | |
CN109685573A (zh) | 一种商圈数据的处理方法、装置、电子设备和存储介质 | |
WO2019055385A8 (en) | SYSTEMS AND METHODS FOR AUTOMATED HARMONIZED (HS) CODE ALLOCATION | |
CN108874813B (zh) | 一种信息处理方法、装置及存储介质 | |
JP5884293B2 (ja) | 類似文字コード群検索支援方法、類似候補抽出方法、類似候補抽出プログラムおよび類似候補抽出装置 | |
US20160042042A1 (en) | In-database connectivity components analysis of data | |
CN114780606A (zh) | 一种大数据挖掘方法及*** | |
CN107291951B (zh) | 数据处理方法、装置、存储介质和处理器 | |
CN113327132A (zh) | 多媒体推荐方法、装置、设备及存储介质 | |
CN106959960B (zh) | 数据获取方法及装置 | |
CN110895590A (zh) | 候选对象的获取方法和装置、电子设备和存储介质 | |
CN112527813A (zh) | 业务***的数据处理方法及装置、电子设备、存储介质 | |
CN109783052B (zh) | 数据排序方法、装置、服务器及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |