CN104573133A - 存储数据的方法和设备 - Google Patents

存储数据的方法和设备 Download PDF

Info

Publication number
CN104573133A
CN104573133A CN201510083879.5A CN201510083879A CN104573133A CN 104573133 A CN104573133 A CN 104573133A CN 201510083879 A CN201510083879 A CN 201510083879A CN 104573133 A CN104573133 A CN 104573133A
Authority
CN
China
Prior art keywords
entity
data
class
stored
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510083879.5A
Other languages
English (en)
Inventor
王杰雄
杨扬
富卫军
陈一宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shenma Mobile Information Technology Co Ltd
Original Assignee
Guangzhou Shenma Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shenma Mobile Information Technology Co Ltd filed Critical Guangzhou Shenma Mobile Information Technology Co Ltd
Priority to CN201510083879.5A priority Critical patent/CN104573133A/zh
Publication of CN104573133A publication Critical patent/CN104573133A/zh
Priority to RU2017131861A priority patent/RU2671044C1/ru
Priority to PCT/CN2016/070323 priority patent/WO2016127739A1/zh
Priority to US15/671,260 priority patent/US20170337260A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种存储数据方法和设备。从网页中获取与实体相关的实体相关数据,实体相关数据包括表示实体的实体数据、描述实体的属性的实体属性数据、以及描述两个实体之间的关系的实体间关系数据。将实体数据和与其对应的实体属性数据关联地存储在实体数据库中。将实体间关系数据存储在关系数据库中。由此,将与单个实体相关的实体数据及其属性数据集中存储在实体数据库,而将涉及两个实体的实体间关系数据区分存储到关系数据库;这种数据存储方法避免了数据存储冗余和查询聚合,节省存储空间,又便于查询;同时,也避免了在线查询时需要聚合大量的属性信息的问题,从而节省了查询时间,提升了用户体验。

Description

存储数据的方法和设备
技术领域
本发明涉及互联网领域,特别涉及存储数据的方法和设备。
背景技术
目前,在网络搜索查询时,用户的查询词中会包含大量的精确意图,这些精确意图是无法通过网页粒度得到满足,是需要在查询时直接返回答案的。例如:查询“刘德华的身高”,期望返回“174CM”;查询“身高超过180cm的明星”,期望返回结果如“古巨基,郑少秋”等身高在规定范围的明星列表;输入“唐宋八大家”,期望返回“柳宗元”等人。
然而,传统的搜索产品是通过比对用户的查询词和收录网页的文本匹配程度返回网页链接作为查询结果,通过相关性算法保证返回的结果符合用户的查询意图。但是,用户需要连接到所找到的网页,进行阅读,才能得到所需要的答案。
目前,一些搜索公司开始采用知识库***对知识进行结构化描述,建立实体间关系,但是现有知识库***通常使用节点-边-节点三元组的简单数据结构来表示实体属性和实体关系,这样会产生存在许多相同实体的冗余节点。
另一方面,使用三元组的知识库由于表示过于松散,也存在查询时需要对返回结果进行大量的过滤及数据组合拼接操作的问题,不便于后期的查询操作。
因此,需要一种节省存储空间,又便于查询的数据存储的方法和设备。
发明内容
本发明所要解决的一个技术问题是提供了一种节省存储空间,又便于查询的数据存储的方法和设备。
根据本发明的一个方面,提供了一种存储数据的方法,包括:
从网页中获取与实体相关的实体相关数据,实体相关数据包括表示实体的实体数据、描述实体的属性的实体属性数据、以及描述两个实体之间的关系的实体间关系数据;
将实体数据和与其对应的实体属性数据关联地存储在实体数据库中;以及
将实体间关系数据存储在关系数据库中。
由此,将实体数据及其属性数据集中存储在实体数据库,而将实体间关系数据区分存储到关系数据库;这种数据存储方法避免了数据存储冗余和查询聚合,节省存储空间,又便于查询。另外,实体数据字段可以对应一个或多个可变属性字段实体,使得同一实体的属性数据信息整合存储,避免了在线查询时需要聚合大量的属性信息的问题,也不需要对查询返回结果进行大量的过滤及数据组合拼接操作,从而大量地节省了查询时间,进一步提升了用户体验。
优选地,实体数据库中针对一个实体的记录可以包括实体数据字段和一个或多个与实体数据字段相关联的可变属性字段,其中,将实体数据存储在实体数据字段中,将实体属性数据存储在可变属性字段中。
优选地,关系数据库中的每条记录可以包括两个节点和边信息,其中,将分别表示两个实体的两个实体数据分别存储在两个节点中,将表示两个实体之间的关系的实体间关系数据存储在边信息中。
优选地,实体数据库中针对一个实体的记录还可以包括元信息字段。
实体相关数据还可以包括与实体相关的元信息,元信息是使实体区别于其他实体的信息。
该方法还可以包括:将元信息存储在实体数据库中针对实体的记录中的元信息字段中。
这样,作为实体数据中的核心信息数据,元信息,就将不同的实体和实体数据进行了区分,特别是相同实体名称的不同实体。以便后期在对实体查询的时候可以准确地获得实体的相关信息。
优选地,实体相关数据还可以包括描述实体的类别的实体类别数据。该方法还可以包括:将与实体类别数据对应的类别标签存储在实体数据库中针对实体的记录中的元信息字段中,作为元信息字段中存储的内容的一部分。
其中,在类别数据库中,对应地存储有多个实体类别数据和类别标签,多个实体类别数据被划分为多个层次,较低层次的实体类别数据从属于与其关联的较高层次的实体类别数据。
这样,将实体类别数据分层次存储,使得实体相关数据的存储结构灵活,分类清晰。
优选地,在类别数据库中,可以与每个实体类别数据关联地存储有针对该实体类别数据所表示的实体类别定义的实体类别相关属性。
获取实体属性数据的步骤可以包括:
从类别数据库获得针对该实体所属的实体类别定义的实体类别相关属性;以及
从网页中获取描述该实体类别相关属性的实体属性数据。
这样,可以根据实体类别有针对性地获取实体属性数据,便于响应后期针对性地查询操作。在获取实体属性数据时,针对具体的实体,可以根据其类别,有针对性地获取实体属性数据,而不必去考虑与其无关的实体属性数据。例如,不会针对演员获取其国土面积。
优选地,可以将从多个网页获取的针对同一个实体的实体相关数据整合在一起;和/或
将所获取的实体相关数据转换为用标准方式表示的实体相关数据。
这样,将所获得的同一实体相关数据整理,并将表达方式不同的实体相关数据统一化处理,避免了存储冗余问题。
优选地,当针对同一个实体的同一个实体属性所获取的多个实体属性数据不同时,可以保留置信度高的实体属性数据,并删除置信度低的实体属性数据。
这样,可以保证所存储的实体属性数据的可靠性和准确性。
根据本发明的另一个方面,提供了一种用于存储数据的设备,包括:
数据获取装置,用于从网页中获取与实体相关的实体相关数据,数据获取装置包括:
实体数据获取装置,用于从网页中获取表示实体的实体数据;
属性数据获取装置,用于从网页中获取描述实体的属性的实体属性数据;以及
关系数据获取装置,用于从网页中获取描述两个实体之间的关系的实体间关系数据;
实体数据库存储装置,用于将实体数据和与其对应的实体属性数据关联地存储在实体数据库中;以及
关系数据库存储装置,用于将实体间关系数据存储在关系数据库中。
优选地,实体数据库中针对一个实体的记录可以包括实体数据字段和一个或多个与实体数据字段相关联的可变属性字段,实体数据库存储装置可以包括:
实体数据存储装置,用于将实体数据存储在实体数据字段中;以及
属性数据存储装置,用于将实体属性数据存储在可变属性字段中。
优选地,关系数据库中的每条记录可以包括两个节点和边信息,其中,将分别表示两个实体的两个实体数据分别存储在两个节点中,将表示两个实体之间的关系的实体间关系数据存储在边信息中。
优选地,实体数据库中针对一个实体的记录还可以包括元信息字段。
数据获取装置还可以包括元信息获取装置,用于从网页中获取与实体相关的元信息,元信息是使实体区别于其他实体的信息;并且
实体数据库存储装置还可以包括元信息存储装置,用于将元信息存储在实体数据库中针对实体的记录中的元信息字段。
优选地,数据获取装置还可以包括类别数据获取装置,用于从网页中获取描述实体类别的实体类别数据。
元信息存储装置可以包括类别数据存储装置,用于将与实体类别数据对应的类别标签存储在实体数据库中针对实体的记录中的元信息字段中,作为元信息字段中存储的内容的一部分。
在类别数据库中,可以对应地存储有多个实体类别数据和类别标签,多个实体类别数据被划分为多个层次,较低层次的实体类别数据从属于与其关联的较高层次的实体类别数据。
优选地,在类别数据库中,可以与每个实体类别数据关联地存储有针对该实体类别数据所表示的实体类别定义的实体类别相关属性。
属性数据获取装置可以包括:
实体属性检索装置,用于从类别数据库获得针对该实体所属的实体类别定义的实体类别相关属性;以及
实体属性数据获取装置,用于从网页中获取描述该实体类别相关属性的实体属性数据。
这样,在获取实体属性数据时,针对具体的实体,可以根据其类别,有针对性地获取实体属性数据,而不必去考虑与其无关的实体属性数据。例如,不会针对演员获取其国土面积。
通过采用根据本发明的方法和设备,将实体数据及其属性数据集中存储在实体数据库,而将实体间关系数据区分存储到关系数据库;这种数据存储方法避免了数据存储冗余和查询聚合,节省存储空间,又便于查询。
另外,实体数据字段可以对应一个或多个可变属性字段实体,使得同一实体的属性数据信息聚合,避免了在线查询时需要聚合大量的属性信息的问题,也不需要对查询返回结果进行大量的过滤及数据组合拼接操作,从而大量地节省了查询时间,进一步提升了用户体验。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1是根据本发明的一个实施例的存储数据的方法的示意性流程图。
图2是根据本发明的改进实施例的存储数据的方法的示意性流程图。
图3是本发明的又一改进实施例存储数据的方法的示意性流程。
图4是本发明可以采用的示例性的获取实体属性数据的方法的示意性流程图。
图5是图1的步骤S100可以包括的子步骤。
图6是根据本发明的一个实施例存储数据的设备的示意性方框图。
图7是根据本发明的改进实施例存储数据的设备的数据获取装置示意性方框图。
图8是根据本发明的改进实施例存储数据的设备的数据库存储装置示意性方框图。
图9是根据本发明的又一改进实施例存储数据的设备的数据获取装置示意性方框图。
图10是根据本发明的又一改进实施例存储数据的设备的数据库存储装置示意性方框图。
图11是图1中存储数据的设备的属性数据获取装置的示意性方框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
图1是根据本发明的一个实施例的存储数据的方法的示意性流程图。
首先,在步骤S100,从网页中获取与实体相关的实体相关数据,实体相关数据至少可以包括表示实体的实体数据、描述实体的属性的实体属性数据、以及描述两个实体之间的关系的实体间关系数据。
其中,实体数据及实体属性数据可以根据网页模板抽取得到,实体间关系数据可以通过页面间的链接挖掘得到。
步骤S200,将在步骤S100中所获取的实体数据和与其对应的实体属性数据进行存储。将实体数据和与其对应的实体属性数据关联地存储在实体数据库中,实体数据库中针对一个实体的记录包括实体数据字段和一个或多个与实体数据字段相关联的可变属性字段,其中,将实体数据存储在实体数据字段中,将实体属性数据存储在可变属性字段中。
这样,将实体数据字段相对一个或多个与上述实体数据字段相关联的可变属性字段进行存储,使得同一实体的属性数据信息整合存储,避免了在线查询时需要聚合大量的属性信息的问题,也不需要对查询返回结果进行大量的过滤及数据组合拼接操作,从而大量地节省了查询时间,进一步提升了用户体验。
例如,刘德华是一个实体数据,则刘德华的身高、刘德华的年龄都属于这个实体相关的实体属性数据,因此,可以对同一实体相关的实体属性数据进行合并,整合存储。
步骤S300,将在步骤S100中所获取的实体间关系数据存储在关系数据库中。关系数据库中的每条记录包括两个节点和边信息,其中,将分别表示两个实体的两个实体数据分别存储在两个节点中,将表示两个实体之间的关系的实体间关系数据存储在边信息中。在一些实施例中,两个节点可以区分为入节点和出节点,分别存储实体A和实体B。此时边信息中存储的则是有方向性的关系数据。
这样,将实体间关系数据存储在与用于存储实体数据及其实体相关数据的实体数据库不同的关系数据库中。这种数据存储方法避免了数据存储冗余和查询聚合,节省了存储空间。
另外,关系数据库可以由两个节点和边信息构成,还可进一步的对两个节点和边分别建立索引,以提高查询效率。
例如:从网页上获取得到刘德华和朱丽倩资料并从外链关系挖掘到他们之间是夫妻关系,其中从刘德华的资料抽取得到身高和体重数据,从朱丽倩的资料中抽取得到出生日期和国籍数据,此时,这两个实体相关的实体相关数据的存储方法具体为:
首先,将刘德华这个实体及身高和体重数据存储在实体数据库中,并且,将刘德华的实体数据存储在实体数据字段中,将刘德华的身高174cm、体重信息68kg分别存储在与上述实体数据字段相关联的可变属性字段1与可变属性字段2中。
其次,将朱丽倩这个实体及出生日期和国籍存储在数据实体数据库中,并且,将朱丽倩的实体数据存储在实体数据字段中,将朱丽倩的出生日期1966年4月6日、国籍马来西亚分别存储在与该实体数据字段相关联的可变属性字段1与可变属性字段2中。
并且,将刘德华与朱丽倩两人的关系存储在关系数据库中,如刘德华与朱丽倩两人的关系是夫妻,则将刘德华实体数据存储在关系数据库的节点1中,将朱丽倩实体数据存储在关系数据库的节点2中,将两人的关系夫妻存储在这两个实体的边信息中。
由此,通过步骤S100至S300将实体数据及其属性数据集中存储在实体数据库,而将实体间关系数据区分存储到关系数据库;这种数据存储方法避免了数据存储冗余和查询聚合,节省存储空间,又便于查询。
图2是示出了改进实施例的存储数据的方法的示意性流程图。
在步骤S200之前,该存储数据的方法还包括步骤S001;
在步骤S001中,实体数据库中针对一个实体的记录还可以包括元信息字段。
实体相关数据还可以包括与实体相关的元信息,元信息是使实体区别于其他实体的信息。
这样,该方法还可以包括:
将元信息存储在实体数据库中针对该实体的记录中的元信息字段中。
这里,通过元信息可以在所获取的不同实体之间进行区分。例如:在网页中可以同时获取到很多实体名字为“刘德华”的实体相关信息,但是,这其中包括不同的实体,有的是演员刘德华,也有的是也叫做刘德华的医生或者老师等。由此可知,同一个实体名字的实体可能具有不同的实体数据。其中,不同的实体通过所包含的元信息字段可以进行区分。
图3是示出了又一改进实施例的存储数据的方法的示意性流程图。
实体相关数据还可以包括描述实体的类别的实体类别数据。
这样,该方法还可以包括:
将与实体类别数据对应的类别标签存储在实体数据库中针对实体的记录中的元信息字段中,作为元信息字段中存储的内容的一部分。
其中,在类别数据库中,对应地存储有多个实体类别数据和类别标签,多个实体类别数据被划分为多个层次,较低层次的实体类别数据从属于与其关联的较高层次的实体类别数据。
这里,在元信息字段中存储与表示实体类别数据对应的类别标签,可以通过不同元信息字段中的类别标签的不同,来确定实体类别数据。而通过实体类别数据对实体进行类别区分,存储结构灵活,分类清晰,便于后期的分类查找。
进一步的,实体类别数据被划分为多个层次,较低层次的实体类别数据从属于与其关联的较高层次的实体类别数据;例如:当实体的类别是演员,则其上较高层次类别为娱乐人物,其下较低层次类别可以为电影演员、戏曲演员等。详细的多层分类,数据的存储格式更加清晰,存储结构划分的更加细致,更便于后期的精确查找。
上述步骤S200,S300,S001,S002的顺序并不是一定的,应当了解,这些步骤是可以同时进行,也可以无先后顺序的选择进行。
图4是示出了本发明可以采用的示例性的获取实体属性数据的方法的示意性流程图。
在类别数据库中,与每个实体类别数据关联地存储有针对该实体类别数据所表示的实体类别定义的实体类别相关属性。
实体属性数据可以通过下述步骤来获取。
首先,在步骤S410,从类别数据库获得针对该实体所属实体类别定义的实体类别相关属性。
接下来,在步骤S420,从网页中获取描述该实体类别相关属性的实体属性数据。
这样,可以从类别数据库先确定实体所属实体类别所关联的实体类别相关属性,然后再在网页中获取描述该实体类别相关属性的实体属性数据。根据实体类别的不同获取不同的实体属性数据,可以区分获取和存储,便于后期有针对性的可区分查找。
例如:类别数据库之中的一个实体类别数据所表示的实体类别可以为演员,而针对演员定义了与演员相关的若干实体类型相关属性,如演员类型(电视演员、电影演员、以及戏剧演员等)、性别、国籍等。相应地,针对作为演员的实体,可以从网页中获取其演员类型、性别、国籍等实体属性数据,并予以存储。
又例如,针对体育明星这一实体类别,可以定义所从事的体育项目、性别、国籍等实体类别相关属性。相应地,针对作为体育明星的实体,可以从网页中获取有关体育项目、性别、国籍等实体属性数据,并予以存储。
又例如,针对国家这一实体类别,可以定义洲别(亚洲、欧洲、美洲、非洲、大洋洲)、人口、国土面积等实体类别相关属性。针对作为国家的实体,可以从网页中获取有关洲别、人口、国土面积等实体属性数据,并予以存储。
这样,在获取实体属性数据时,针对具体的实体,可以根据其类别,有针对性地获取实体属性数据,而不必去考虑与其无关的实体属性数据。例如,不会针对演员获取其国土面积。
图5示出了根据本发明的方法还可以包括的步骤。
如图5所示,在步骤S100中从网页中获取实体相关数据之后,可以执行下述步骤S110和/或步骤S120。
在步骤S110,可以将从多个网页获取的针对同一个实体的实体相关数据整合在一起。
在这里,可以将从若干个网页获得的与同一实体相关的实体相关数据进行整理并且整合成同一实体的相关数据。
在步骤S120,可以将所获取的实体相关数据转换为用标准方式表示的实体相关数据。
例如:实体相关数据中英文统一表达或者单位标准化统一处理。这样,避免了相同实体的相同的实体相关数据均占据存储空间,而造成存储冗余的问题;同时,也避免了实体相关数据表示方式不同而造成的存储结构不清晰的问题。
优选地,在步骤S110和S120中,当针对同一个实体的同一个实体属性所获取的多个实体属性数据不同时,保留置信度高的实体属性数据,并删除置信度低的实体属性数据。
在步骤S110、S120之后,可以执行步骤S001、S002、S200或S300。
这样,可以保证所存储的实体属性数据的可靠性和准确性。
上面参考图1-5详细描述了存储数据的方法。下面参照附图描述存储数据的设备。
下面描述的设备很多功能分析与上面参考图1-5描述的相应方法步骤的功能相同。为了避免重复,这里重点描述设备具有的装置结构,而对一些细节则不再赘述,可以参考上文的相关描述。
图6是根据本发明的一个实施例存储数据的设备的示意性方框图。
根据本发明的用于存储数据的设备包括数据获取装置100、实体数据库存储装置200和关系数据库存储装置300。
数据获取装置100用于从网页中获取与实体相关的实体相关数据。数据获取装置可以包括:
实体数据获取装置101,用于从网页中获取表示实体的实体数据;
属性数据获取装置102,用于从网页中获取描述实体的属性的实体属性数据;以及
关系数据获取装置103,用于从网页中获取描述两个实体之间的关系的实体间关系数据。
实体数据库存储装置200用于将实体数据和与其对应的实体属性数据关联地存储在实体数据库中,实体数据库中针对一个实体的记录包括实体数据字段和一个或多个与实体数据字段相关联的可变属性字段。实体数据库存储装置200可以包括:
实体数据存储装置201,用于将实体数据存储在实体数据字段中;以及
属性数据存储装置202,用于将实体属性数据存储在可变属性字段中;以及
关系数据库存储装置300,用于将实体间关系数据存储在关系数据库中,关系数据库中的每条记录包括两个节点和边信息,其中,将分别表示两个实体的两个实体数据分别存储在两个节点中,将表示两个实体之间的关系的实体间关系数据存储在边信息中。
这样,该设备可以通过实体数据获取装置101在网页中获取实体数据,属性数据获取装置102在网页中获取实体属性数据,关系数据获取装置103在网页中获取实体间关系数据;然后,将实体数据存储在实体数据存储装置201中,将属性数据存储在属性数据存储装置202中,将实体间关系数据区分存储在关系数据库存储装置300中。这种数据存储方法避免了数据存储冗余和查询聚合,节省存储空间,又便于查询。
图7和图8示出了改进实施例的存储数据的设备的数据获取装置和数据库存储装置的示意性方框图。
实体数据库中针对一个实体的记录还可以包括元信息字段。
数据获取装置100还可以包括元信息获取装置104,用于从网页中获取与实体相关的元信息,元信息是使实体区别于其他实体的信息。
实体数据库存储装置200还可以包括元信息存储装置203,用于将元信息存储在实体数据库中针对实体的记录中的元信息字段。
这样,通过元信息获取装置104可以辨别获得相同实体名字的不同实体数据,通过元信息存储装置203可以有区别地存储相同实体名字的不同实体数据。
图9和图10示出了又一改进实施例的存储数据的设备的数据获取装置和数据库存储装置的示意性方框图。
数据获取装置100还可以包括类别数据获取装置105,用于从网页中获取描述实体类别的实体类别数据。
元信息存储装置203可以包括类别数据存储装置204,用于将与实体类别数据对应的类别标签存储在实体数据库中针对实体的记录中的元信息字段中,作为元信息字段中存储的内容的一部分。
在类别数据库中,对应地存储有多个实体类别数据和类别标签,多个实体类别数据被划分为多个层次,较低层次的实体类别数据从属于与其关联的较高层次的实体类别数据。
这样,通过类别数据获取装置105在网页中辨别获得某类别的实体类别数据,再通过类别数据存储装置204将对应的类别标签可区分存储在元信息字段中,作为元信息字段中存储的内容的一部分。
图11示出了属性数据获取装置的示意性方框图。
在类别数据库中,可以与每个实体类别数据关联地存储有针对该实体类别数据所表示的实体类别定义的实体属性。
属性数据获取装置102可以包括:
实体属性检索装置1021,用于从类别数据库获得针对该实体所属的实体类别数据定义的实体类别相关属性;以及
实体属性数据获取装置1022,用于从网页中获取描述该实体类别相关属性的实体属性数据。
这样,可以通过实体属性检索装置1021从类别数据库中确定某实体类别所关联的实体类别相关属性,然后通过实体属性数据获取装置1022再在网页中获取描述该实体类别相关属性的实体属性数据。由此,在获取实体属性数据时,针对具体的实体,可以根据其类别,有针对性地获取实体属性数据,而不必去考虑与其无关的实体属性数据。
至此,已详细描述了根据本发明的存储数据的方法和设备。
此外,根据本发明的方法还可以实现为一种计算机程序产品,该计算机程序产品包括计算机可读介质,在该计算机可读介质上存储有用于执行本发明的方法中限定的上述功能的计算机程序。本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的***和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (12)

1.一种存储数据的方法,包括:
从网页中获取与实体相关的实体相关数据,所述实体相关数据包括表示实体的实体数据、描述实体的属性的实体属性数据、以及描述两个实体之间的关系的实体间关系数据;
将所述实体数据和与其对应的所述实体属性数据关联地存储在实体数据库中;以及
将所述实体间关系数据存储在关系数据库中。
2.根据权利要求1所述的方法,其中,
所述实体数据库中针对一个实体的记录包括实体数据字段和一个或多个与所述实体数据字段相关联的可变属性字段,其中,将所述实体数据存储在所述实体数据字段中,将所述实体属性数据存储在所述可变属性字段中;
所述关系数据库中的每条记录包括两个节点和边信息,其中,将分别表示两个实体的两个实体数据分别存储在所述两个节点中,将表示两个实体之间的关系的实体间关系数据存储在所述边信息中。
3.根据权利要求2所述的方法,其中,
所述实体数据库中针对一个实体的记录还包括元信息字段,
所述实体相关数据还包括与实体相关的元信息,所述元信息是使所述实体区别于其他实体的信息,
该方法还包括:
将所述元信息存储在所述实体数据库中针对所述实体的记录中的元信息字段中。
4.根据权利要求3所述的方法,其中,
所述实体相关数据还包括描述实体的类别的实体类别数据;
该方法还包括:
将与所述实体类别数据对应的类别标签存储在所述实体数据库中针对所述实体的记录中的元信息字段中,作为元信息字段中存储的内容的一部分;
其中,在类别数据库中,对应地存储有多个实体类别数据和类别标签,所述多个实体类别数据被划分为多个层次,较低层次的实体类别数据从属于与其关联的较高层次的实体类别数据。
5.根据权利要求4所述的方法,其中,
在所述类别数据库中,与每个实体类别数据关联地存储有针对该实体类别数据所表示的实体类别定义的实体类别相关属性;
获取实体属性数据的步骤包括:
从所述类别数据库获得针对所述实体所属的实体类别定义的实体类别相关属性;以及
从所述网页中获取描述所述实体类别相关属性的实体属性数据。
6.根据权利要求1至5中任何一项所述的方法,还包括:
将从多个网页获取的针对同一个实体的实体相关数据整合在一起;和/或
将所获取的实体相关数据转换为用标准方式表示的实体相关数据。
7.根据权利要求6所述的方法,还包括:
当针对同一个实体的同一个实体属性所获取的多个实体属性数据不同时,保留置信度高的实体属性数据,并删除置信度低的实体属性数据。
8.一种用于存储数据的设备,包括:
数据获取装置,用于从网页中获取与实体相关的实体相关数据,所述数据获取装置包括:
实体数据获取装置,用于从所述网页中获取表示实体的实体数据;
属性数据获取装置,用于从所述网页中获取描述实体的属性的实体属性数据;以及
关系数据获取装置,用于从所述网页中获取描述两个实体之间的关系的实体间关系数据;
实体数据库存储装置,用于将所述实体数据和与其对应的所述实体属性数据关联地存储在实体数据库中;以及
关系数据库存储装置,用于将所述实体间关系数据存储在关系数据库中。
9.根据权利要求8所述的设备,其中,
所述实体数据库中针对一个实体的记录包括实体数据字段和一个或多个与所述实体数据字段相关联的可变属性字段,所述实体数据库存储装置包括:
实体数据存储装置,用于将所述实体数据存储在所述实体数据字段中;以及
属性数据存储装置,用于将所述实体属性数据存储在所述可变属性字段中,
所述关系数据库中的每条记录包括两个节点和边信息,其中,将分别表示两个实体的两个实体数据分别存储在所述两个节点中,将表示两个实体之间的关系的实体间关系数据存储在所述边信息中。
10.根据权利要求9所述的设备,其中,
所述实体数据库中针对一个实体的记录还包括元信息字段,
所述数据获取装置还包括元信息获取装置,用于从所述网页中获取与实体相关的元信息,所述元信息是使所述实体区别于其他实体的信息;并且
所述实体数据库存储装置还包括元信息存储装置,用于将所述元信息存储在所述实体数据库中针对所述实体的记录中的元信息字段中。
11.根据权利要求10所述的设备,其中,
所述数据获取装置还包括类别数据获取装置,用于从所述网页中获取描述实体类别的实体类别数据,
所述元信息存储装置包括类别数据存储装置,用于将与所述实体类别数据对应的类别标签存储在所述实体数据库中针对所述实体的记录中的元信息字段中,作为元信息字段中存储的内容的一部分,
在类别数据库中,对应地存储有多个实体类别数据和类别标签,所述多个实体类别数据被划分为多个层次,较低层次的实体类别数据从属于与其关联的较高层次的实体类别数据。
12.根据权利要求11所述的设备,其中,
在所述类别数据库中,与每个实体类别数据关联地存储有针对该实体类别数据所表示的实体类别定义的实体类别相关属性,
所述属性数据获取装置包括:
实体属性检索装置,用于从所述类别数据库获得针对所述实体所属的实体类别定义的实体类别相关属性;以及
实体属性数据获取装置,用于从所述网页中获取描述所述实体类别相关属性的实体属性数据。
CN201510083879.5A 2015-02-13 2015-02-13 存储数据的方法和设备 Pending CN104573133A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201510083879.5A CN104573133A (zh) 2015-02-13 2015-02-13 存储数据的方法和设备
RU2017131861A RU2671044C1 (ru) 2015-02-13 2016-01-06 Способ и устройство для сохранения данных
PCT/CN2016/070323 WO2016127739A1 (zh) 2015-02-13 2016-01-06 存储数据的方法和设备
US15/671,260 US20170337260A1 (en) 2015-02-13 2017-08-08 Method and device for storing data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510083879.5A CN104573133A (zh) 2015-02-13 2015-02-13 存储数据的方法和设备

Publications (1)

Publication Number Publication Date
CN104573133A true CN104573133A (zh) 2015-04-29

Family

ID=53089194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510083879.5A Pending CN104573133A (zh) 2015-02-13 2015-02-13 存储数据的方法和设备

Country Status (4)

Country Link
US (1) US20170337260A1 (zh)
CN (1) CN104573133A (zh)
RU (1) RU2671044C1 (zh)
WO (1) WO2016127739A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016127739A1 (zh) * 2015-02-13 2016-08-18 广州神马移动信息科技有限公司 存储数据的方法和设备
CN106557472A (zh) * 2015-09-24 2017-04-05 阿里巴巴集团控股有限公司 用户数据库的建立方法和装置
CN106933853A (zh) * 2015-12-30 2017-07-07 阿里巴巴集团控股有限公司 一种文件上传处理方法及装置
CN107844600A (zh) * 2017-11-23 2018-03-27 浪潮软件集团有限公司 一种数据存储方法和装置
CN108345625A (zh) * 2017-01-25 2018-07-31 北京搜狗科技发展有限公司 一种信息挖掘方法和装置、一种用于信息挖掘的装置
CN108647288A (zh) * 2018-05-04 2018-10-12 苏州朗动网络科技有限公司 企业关系的挖掘方法、装置、计算机设备及存储介质
CN109558468A (zh) * 2018-12-13 2019-04-02 北京百度网讯科技有限公司 资源的处理方法、装置、设备和存储介质
CN109815270A (zh) * 2019-01-16 2019-05-28 北京明略软件***有限公司 一种关系计算的方法、装置、计算机存储介质及终端
WO2019127373A1 (en) * 2017-12-29 2019-07-04 Electronic Arts Inc. Layered graph data structure
CN110245197A (zh) * 2019-05-20 2019-09-17 北京百度网讯科技有限公司 一种全网实体关联方法及***

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10607074B2 (en) * 2017-11-22 2020-03-31 International Business Machines Corporation Rationalizing network predictions using similarity to known connections
CN108509599B (zh) * 2018-04-02 2021-10-19 北京中电普华信息技术有限公司 一种数据模型的创建方法及装置
CN110851486A (zh) * 2018-07-26 2020-02-28 珠海格力电器股份有限公司 数据存储方法及装置
CN111310469A (zh) * 2020-01-16 2020-06-19 北京明略软件***有限公司 实体间隐形关系的查找方法及装置、电子设备、存储介质
CN111309821B (zh) * 2020-01-20 2023-07-14 上海依图网络科技有限公司 基于图数据库的任务调度方法、装置及电子设备
CN111274410A (zh) * 2020-01-21 2020-06-12 北京明略软件***有限公司 一种数据存储方法、装置及数据查询方法、装置
CN113177142A (zh) * 2021-03-23 2021-07-27 杭州费尔斯通科技有限公司 一种扩展图数据库存储结构方法、***、设备和储存介质
CN117573698B (zh) * 2024-01-15 2024-04-05 广州思迈特软件有限公司 数据查询方法及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1866250A (zh) * 2005-10-12 2006-11-22 华为技术有限公司 对***数据进行管理的方法和***
CN102141992A (zh) * 2010-01-28 2011-08-03 广州市西美信息科技有限公司 多维数据库存储及查询的方法
CN102214206A (zh) * 2011-04-27 2011-10-12 百度在线网络技术(北京)有限公司 一种用于在信息实体之间建立关联关系的方法与设备
CN103309922A (zh) * 2012-03-11 2013-09-18 国际商业机器公司 用于实体搜索的访问控制的方法和***
CN104102713A (zh) * 2014-07-16 2014-10-15 百度在线网络技术(北京)有限公司 推荐结果的展现方法和装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8200775B2 (en) * 2005-02-01 2012-06-12 Newsilike Media Group, Inc Enhanced syndication
US20050177358A1 (en) * 2004-02-10 2005-08-11 Edward Melomed Multilingual database interaction system and method
US8126908B2 (en) * 2008-05-07 2012-02-28 Yahoo! Inc. Creation and enrichment of search based taxonomy for finding information from semistructured data
US20100250599A1 (en) * 2009-03-30 2010-09-30 Nokia Corporation Method and apparatus for integration of community-provided place data
US20110066645A1 (en) * 2009-09-16 2011-03-17 John Cooper System and method for assembling, verifying, and distibuting financial information
US9665643B2 (en) * 2011-12-30 2017-05-30 Microsoft Technology Licensing, Llc Knowledge-based entity detection and disambiguation
JP2016520913A (ja) * 2013-04-23 2016-07-14 クイクシー インコーポレイテッド エンティティ入札
CN103617181A (zh) * 2013-11-07 2014-03-05 宁波保税区攀峒信息科技有限公司 一种亲缘关系通用数据库构建方法和装置
CN104573133A (zh) * 2015-02-13 2015-04-29 广州神马移动信息科技有限公司 存储数据的方法和设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1866250A (zh) * 2005-10-12 2006-11-22 华为技术有限公司 对***数据进行管理的方法和***
CN102141992A (zh) * 2010-01-28 2011-08-03 广州市西美信息科技有限公司 多维数据库存储及查询的方法
CN102214206A (zh) * 2011-04-27 2011-10-12 百度在线网络技术(北京)有限公司 一种用于在信息实体之间建立关联关系的方法与设备
CN103309922A (zh) * 2012-03-11 2013-09-18 国际商业机器公司 用于实体搜索的访问控制的方法和***
CN104102713A (zh) * 2014-07-16 2014-10-15 百度在线网络技术(北京)有限公司 推荐结果的展现方法和装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016127739A1 (zh) * 2015-02-13 2016-08-18 广州神马移动信息科技有限公司 存储数据的方法和设备
CN106557472B (zh) * 2015-09-24 2020-07-31 阿里巴巴集团控股有限公司 用户数据库的建立方法和装置
CN106557472A (zh) * 2015-09-24 2017-04-05 阿里巴巴集团控股有限公司 用户数据库的建立方法和装置
CN106933853A (zh) * 2015-12-30 2017-07-07 阿里巴巴集团控股有限公司 一种文件上传处理方法及装置
CN108345625A (zh) * 2017-01-25 2018-07-31 北京搜狗科技发展有限公司 一种信息挖掘方法和装置、一种用于信息挖掘的装置
CN108345625B (zh) * 2017-01-25 2022-09-30 北京搜狗科技发展有限公司 一种信息挖掘方法和装置、一种用于信息挖掘的装置
CN107844600A (zh) * 2017-11-23 2018-03-27 浪潮软件集团有限公司 一种数据存储方法和装置
WO2019127373A1 (en) * 2017-12-29 2019-07-04 Electronic Arts Inc. Layered graph data structure
US11030247B2 (en) 2017-12-29 2021-06-08 Electronic Arts Inc. Layered graph data structure
CN108647288A (zh) * 2018-05-04 2018-10-12 苏州朗动网络科技有限公司 企业关系的挖掘方法、装置、计算机设备及存储介质
CN109558468A (zh) * 2018-12-13 2019-04-02 北京百度网讯科技有限公司 资源的处理方法、装置、设备和存储介质
CN109815270B (zh) * 2019-01-16 2020-11-27 北京明略软件***有限公司 一种关系计算的方法、装置、计算机存储介质及终端
CN109815270A (zh) * 2019-01-16 2019-05-28 北京明略软件***有限公司 一种关系计算的方法、装置、计算机存储介质及终端
CN110245197A (zh) * 2019-05-20 2019-09-17 北京百度网讯科技有限公司 一种全网实体关联方法及***
CN110245197B (zh) * 2019-05-20 2022-01-28 北京百度网讯科技有限公司 一种全网实体关联方法及***

Also Published As

Publication number Publication date
WO2016127739A1 (zh) 2016-08-18
US20170337260A1 (en) 2017-11-23
RU2671044C1 (ru) 2018-10-29

Similar Documents

Publication Publication Date Title
CN104573133A (zh) 存储数据的方法和设备
CN105677764A (zh) 信息提取方法和装置
CN110515896B (zh) 模型资源管理方法、模型文件制作方法、装置和***
US10042880B1 (en) Automated identification of start-of-reading location for ebooks
CN109492177B (zh) 一种基于网页语义结构的网页分块方法
CN102810094A (zh) 报表生成方法及装置
WO2014206151A1 (en) System and method for tagging and searching documents
US10489024B2 (en) UI rendering based on adaptive label text infrastructure
US20150026159A1 (en) Digital Resource Set Integration Methods, Interfaces and Outputs
CN110705226A (zh) 电子表格的创建方法、装置及计算机设备
CN112699232A (zh) 文本标签提取方法、装置、设备和存储介质
CN111339248A (zh) 数据属性填充方法、装置、设备及计算机可读存储介质
CN112463986A (zh) 信息存储的方法及装置
CN109992665A (zh) 一种基于问题目标特征扩展的分类方法
CN113360654A (zh) 文本分类方法、装置、电子设备及可读存储介质
CN111782683A (zh) 设备管理方法、装置、设备查询方法、装置及云端设备
CN111160699A (zh) 一种专家推荐方法及***
CN113760902A (zh) 数据拆分方法、装置、设备、介质及程序产品
CN101996190A (zh) 一种从网页中抽取信息的方法及装置
CN108805290B (zh) 一种实体类别的确定方法及装置
US20170344638A1 (en) Method and apparatus for enriching metadata via a network
CN111552527A (zh) 用户界面内文字翻译方法、装置、***及存储介质
CN111339214A (zh) 一种知识库自动构建方法与***
CN111125379A (zh) 知识库扩充方法、装置、电子设备和存储介质
WO2021135103A1 (zh) 一种语义分析方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150429