FR3032290A1 - METHOD FOR THE AUTOMATIC PRODUCTION OF A DATABASE FROM A GENERIC DATA MODEL AND A TAXINOMY - Google Patents

METHOD FOR THE AUTOMATIC PRODUCTION OF A DATABASE FROM A GENERIC DATA MODEL AND A TAXINOMY Download PDF

Info

Publication number
FR3032290A1
FR3032290A1 FR1550821A FR1550821A FR3032290A1 FR 3032290 A1 FR3032290 A1 FR 3032290A1 FR 1550821 A FR1550821 A FR 1550821A FR 1550821 A FR1550821 A FR 1550821A FR 3032290 A1 FR3032290 A1 FR 3032290A1
Authority
FR
France
Prior art keywords
taxonomy
category
entity
database
types
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR1550821A
Other languages
French (fr)
Inventor
Frederic Nowak
Gomez Carlos Moreno
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shootshareshow
Original Assignee
Shootshareshow
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shootshareshow filed Critical Shootshareshow
Priority to FR1550821A priority Critical patent/FR3032290A1/en
Priority to PCT/FR2016/050213 priority patent/WO2016124851A1/en
Publication of FR3032290A1 publication Critical patent/FR3032290A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/219Managing data history or versioning

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

L'invention concerne un procédé de production automatique d'une base de données à partir d'un modèle de données générique et d'une taxinomie caractérisée en ce qu'une partie au moins des données est versionnée, et comporte une information temporelle requétable déterminant la période de pertinence de chacune des versions, l'information temporelle comprenant au moins une relation avec au moins une autre donnée, le procédé de production de ladite base de donnée consistant à déterminer une taxinomie unique commune à l'ensemble d'un domaine.The invention relates to a method for automatically generating a database from a generic data model and a taxonomy characterized in that at least part of the data is versioned, and comprises a temporal information requétable determinant the period of relevance of each of the versions, the time information comprising at least one relationship with at least one other datum, the method for producing said database consisting in determining a single taxonomy common to an entire domain.

Description

PROCÉDÉ DE PRODUCTION AUTOMATIQUE D'UNE BASE DE DONNÉES À PARTIR D'UN MODÈLE DE DONNÉES GÉNÉRIQUE ET D'UNE TAXINOMIE Domaine de l'invention La présente invention concerne le domaine de la constitution et l'exploitation de bases de données informatiques permettant des traitements d'extraction et d'analyse des contenus.TECHNICAL FIELD OF THE INVENTION The present invention relates to the field of building and operating computer databases for processing extraction and analysis of contents.

Etat de la technique L'article "Ontologies for Enterprise Knowledge Management" Maedche, Alexander, et al., IEEE Intelligent Systems, IEEE Computer Society, Mar./Apr. 2003, pp. 26-33 décrit le principe général des architectures de gestion, et notamment de la prise en charge de plusieurs ontologies et la gestion de l'évolution des ontologies. On connaît dans l'état de la technique le brevet américain U58768928 concernant un procédé de construction d'un modèle ontologique. Cette solution propose un procédé pour générer une pluralité de sources d'informations dérivées d'une plate-forme de développement de logiciels, le procédé comprenant: a) la définition d'une ontologie à fournir une représentation basée sur une pluralité de sources d'informations d'origine, ces sources d'informations ayant des formes de représentation hétérogènes; b) la transformation par un traitement informatique 30 de la pluralité de sources d'informations d'origine c) la génération automatique d'une pluralité de sources d'informations dérivées à partir de l'ontologie, pour générer la source de l'information dérivée dans des formats respectifs de la pluralité de sources d'informations et de dérivés correspondants étant dérivés de la pluralité de sources d'information d'origine.Prior Art The "Ontologies for Enterprise Knowledge Management" article Maedche, Alexander, et al., IEEE Intelligent Systems, IEEE Computer Society, Mar./Apr. 2003, pp. 26-33 describes the general principle of management architectures, including the support of several ontologies and the management of the evolution of ontologies. In the state of the art, US Pat. No. 5,868,689 relates to a method for constructing an ontological model. This solution provides a method for generating a plurality of information sources derived from a software development platform, the method comprising: a) defining an ontology to provide a representation based on a plurality of sources of information; original information, these sources of information having heterogeneous forms of representation; b) transforming the plurality of original information sources by computer processing; c) automatically generating a plurality of information sources derived from the ontology, to generate the source of the information; derived in respective formats of the plurality of information sources and corresponding derivatives being derived from the plurality of original information sources.

Inconvénient de l'art antérieur La solution de l'art antérieur présente plusieurs inconvénients. En premier lieu, elle ne permet l'enregistrement et l'exploitation que des données pleinement conformes à l'ontologie définie pendant la phase de construction. Des entités non représentables dans cette ontologie générée à partir de la taxinomie ne peuvent pas être traitées par la base de données constituée selon l'art antérieur.Disadvantage of the Prior Art The solution of the prior art has several disadvantages. Firstly, it allows registration and operation only data fully compliant with the ontology defined during the construction phase. Non-representable entities in this ontology generated from the taxonomy can not be processed by the database constituted according to the prior art.

Ces entités devraient être traitées dans une deuxième base de données pour l'enregistrement et le traitement des exceptions, avec des traitements globaux pour coordonner l'utilisation des deux bases données. Ceci entraînerait des temps de traitements importants.These entities should be processed in a second database for registration and exception handling, with global processing to coordinate the use of both databases. This would result in significant processing times.

En deuxième lieu, lorsque les relations entre des entités varient, il est nécessaire de procéder à une recherche des enregistrements qui ne sont plus pertinents et leur remplacement par des données actualisées, ce qui entraîne une grande lourdeur de la maintenance de la base de données.Second, when relationships between entities vary, it is necessary to search for records that are no longer relevant and replace them with updated data, which results in a great deal of database maintenance.

En troisième lieu, la solution de l'art antérieur ne permet pas de réaliser de manière simple une mise en concordance manuelle ou automatique avec un modèle de données extérieur, distinct de celui construit selon le procédé décrit dans ce brevet afin d'insérer les données venant de ce référentiel extérieur. Solution apportée par l'invention Afin de remédier à ces inconvénients, la présente invention concerne selon son acception la plus générique un procédé de production automatique d'une base de données unique à partir d'un modèle de données générique et d'une taxinomie 5 caractérisée en ce qu'une partie au moins des données sont versionnées, et comporte une information temporelle requétable déterminant la période de pertinence de chacune des versions, l'information temporelle comprend au moins une relation avec au moins une autre donnée, le procédé de constitution de 10 ladite base de donnée consistant à déterminer une taxinomie unique commune à l'ensemble d'un domaine, le procédé de production automatique de la base de données comportant : a) une étape de définition de la taxinomie-racine par l'enregistrement d'un fichier structuré de représentation 15 arborescente de N niveaux de catégories descriptives d'un domaine de connaissances [fichier XML, exemple l'ensemble des sports des grandes familles et de ses variantes] b) une étape de définition d'un modèle de données sous forme de fichier structuré [RDF] décrivant des types 20 entités et leurs relations génériques [exemple : évènements, personnes, lieu,...] c) une étape de spécialisation de chaque type d'entité par rapport à ladite taxinomie-racine, consistant à définir un fichier structuré [rdf] comportant des types 25 d'entités et leurs relations spécifiques à certaines catégories ainsi que leurs relations de spécialisation d'appartenance à une catégorie de niveau supérieur [exemple un joueur de tennis est une personne (spécialisation) et participe à une compétition de tennis (événement)] 30 d) une étape de création de types d'entités additionnelles, non prévues dans la taxinomie racine et spécifiques à une catégorie [exemple voiture pour « sport automobile »] décrites sous forme de fichier structuré [RDF] décrivant des types entités et leurs relations spécialisées e) la réitération de l'étape de spécialisation de chaque type d'entité par rapport à ladite taxinomie, consistant à définir un fichier structuré [rdf] comportant des types d'entités additionnelles et leurs relations spécifiques à certaines catégories ainsi que leurs relations de spécialisation d'appartenance à une catégorie de niveau supérieur [exemple un joueur de tennis est une personne (spécialisation) et participe à une compétition de tennis (événement)] f) la définition des types d'entités versionnables temporellement, dont les relations ne sont pas constantes mais dépendantes du temps, h) une étape d'enregistrement de chacune des nouvelles entrées consistant à définir sa période de validité 15 temporelles et les relations avec d'autres entités pendant la période de validité. Description détaillée d'un exemple non limitatif de l'invention 20 La présente invention sera mieux comprise à la lecture de la description qui suit, se référant aux dessins annexés représentant de façon non limitative un exemple de mise en oeuvre de l'invention, où : 25 - la figure 1 représente le schéma de principe du traitement pour la constitution d'une base de données - la figure 2 représente un exemple de fichier html pour la construction des catégories - la figure 3 représente un exemple de fichier XML 30 produit par l'analyseur - la figure 4 représente une représentation graphique d'une otologie racine - la figure 5 représente une vue graphique d'une ontologie spécialisée (7) - la figure 6 est une représentation graphique d'une ontologie de raffinement - la figure 7 représente un schéma du processus itératif des types d'entités générées - la figure 8 représente une vue schématique du processus versionnage. La figure 1 représente le schéma de principe du traitement pour la constitution d'une base de données Le traitement pour la construction d'un fichier (1) 10 représentatif de la taxinomie consiste à extraire d'un document racine (2) les liens hypertextes par un analyseur syntaxique (3) (« parser »). L'analyseur syntaxique est configuré pour éliminer les liens hypertextes identifiés et non représentatifs de l'arborescence de type. Cette analyse se 15 fait à partir d'un enregistrement des balises et des attributs délimitant les zones contenant des informations à analyser, ainsi que des termes représentatifs de l'arborescence à construire. L'analyseur syntaxique (3) procède également au 20 chargement des fichiers liés par les liens hypertextes, et procède de manière itérative à leur analyse pour compléter les données enregistrées dans le fichier (1). Ce fichier (1) est par exemple un fichier XML contenant une représentation de N niveaux d'une arborescence. Chaque niveau est représenté par 25 un identifiant unique, par exemple l'URL de l'hyperlien, un nom et une description déterminés par extraction du contenu des fichiers (2) par l'analyseur syntaxique (3). Après cette première étape de définition de l'arborescence, on formalise un ensemble de type d'entités et 30 leurs relations dans un fichier (5) de type « rdf » par exemple. On utilise ensuite un générateur (6) pour produire un fichier (7) de type « rdf » contenant l'ensemble des types d'entités et de leurs relations spécialisées par rapport à des types d'entités parentes en fonction de l'arborescence de catégorie définie dans le fichier XML (2). Pour chaque sous-domaine identifié dans le fichier XML (1), nécessitant des types d'entités spécifiques, on redéfinit un ou plusieurs fichiers « rdf » (8) pour formaliser les nouveaux types d'entités et leurs relations spécialisées avec les autres types d'entités dans le fichier (5). On réapplique l'étape de génération (6) avec le même traitement, appliqué au sous-ensemble des types de 10 fichiers associés au sous-ensemble susvisé. On détermine ensuite dans les fichiers (5) et (8) les types d'entités versionnables, c'est-à-dire dont les entités peuvent présenter une variabilité temporelle, soit en ce qui concerne leurs propriétés soit en ce qui concerne leurs 15 instances de relations avec d'autres entités. Cette variabilité peut se traduire par des instances de relation valables pendant une période temporelle donnée seulement, et d'autres instances de relations pour d'autres périodes temporelles. 20 Le modèle de données obtenu présente une structure comprenant des types d'entités, des relations et des plages temporelles. Une donnée comprend : 25 -un identifiant unique commun à toutes les versions de la même entité -un ensemble de propriété d'une entité -une version exprimée sous forme de date, ou d'un intervalle de temps 30 -un ensemble d'instances de relations -un identifiant unique, pour chacune les versions de la même entité -des instances de relation de type « parent » ou « fils » et d'instances de relations de type « précédent » ou « suivant » par rapport à d'autres versions représentatives de la même entité. L'utilisation de cette base ainsi constituée consiste à l'interroger par une requête comprenant un ensemble de critères ainsi qu'un intervalle de temps permettant de sélectionner les données dont la version est comprise dans l'intervalle de temps. La figure 2 représente un exemple du code d'un fichier structuré (2). Il s'agit d'un fichier HTML avec des balises introduisant une taxinomie non structurée, que le traitement par l'analyseur syntaxique (3) permettra de construire une ontologie. Chacune des balises peut contenir une catégorie de la taxinomie à générer.Thirdly, the solution of the prior art does not make it possible to simply perform a manual or automatic matching with an external data model, distinct from that constructed according to the method described in this patent in order to insert the data. coming from this external reference. Solution Provided by the Invention In order to overcome these drawbacks, the present invention relates, according to its most generic meaning, to a method for automatically generating a single database from a generic data model and a taxonomy. characterized in that at least a part of the data is versioned, and includes a requetable temporal information determining the period of relevance of each of the versions, the temporal information comprises at least one relation with at least one other datum, the method of constitution of said database consisting in determining a single taxonomy common to an entire domain, the method of automatic production of the database comprising: a) a step of defining the root taxonomy by the registration of a structured file of tree representation of N levels of descriptive categories of a knowledge domain [XML file, ex for example, all sports of large families and its variants] b) a step of defining a data model in the form of a structured file [RDF] describing entity types and their generic relations [example: events, persons, place, ...] c) a step of specialization of each type of entity with respect to said root taxonomy, consisting in defining a structured file [rdf] containing types of entities and their specific relationships to certain categories as well as their relationship of specialization belonging to a category of higher level [example a tennis player is a person (specialization) and participates in a tennis competition (event)] 30 d) a step of creation of additional types of entities , not provided for in the root taxonomy and category-specific [car example for "motor sport"] described as structured file [RDF] describing types of entities t their specialized relationships e) the reiteration of the step of specialization of each type of entity with respect to the said taxonomy, consisting of defining a structured file [rdf] containing additional types of entities and their specific relationships to certain categories as well as their relationship of specialization belonging to a higher level category [eg a tennis player is a person (specialization) and participates in a tennis competition (event)] f) the definition of the time-variantable feature types, including the relationships are not constant but time-dependent, h) a step of recording each of the new entries consisting of defining its validity period and relations with other entities during the period of validity. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENT OF THE INVENTION The present invention will be better understood on reading the description which follows, with reference to the appended drawings showing in a nonlimiting manner an example of implementation of the invention, where Fig. 1 shows the schematic diagram of the processing for the constitution of a database - Fig. 2 shows an example of a html file for the construction of the categories - Fig. 3 shows an example of an XML file produced by the analyzer - FIG. 4 represents a graphical representation of a root otology - FIG. 5 represents a graphical view of a specialized ontology (7) - FIG. 6 is a graphical representation of a refinement ontology - FIG. represents a diagram of the iterative process of the generated entity types - Figure 8 shows a schematic view of the versioning process. FIG. 1 represents the basic diagram of the processing for the constitution of a database The processing for the construction of a file (1) representative of the taxonomy consists in extracting from a root document (2) the hypertext links by a parser (3) ("parser"). The parser is configured to remove the identified and unrepresentative hyperlinks from the type tree. This analysis is done from a record of the tags and attributes delimiting the areas containing information to be analyzed, as well as terms representative of the tree to be built. The parser (3) also loads the files linked by the hypertext links, and iteratively proceeds to their analysis to supplement the data stored in the file (1). This file (1) is for example an XML file containing a representation of N levels of a tree. Each level is represented by a unique identifier, for example the URL of the hyperlink, a name and a description determined by extracting the content of the files (2) by the parser (3). After this first step of defining the tree, one formalizes a set of type of entities and their relations in a file (5) of the type "rdf" for example. A generator (6) is then used to produce a file (7) of the type "rdf" containing all the types of entities and their specialized relations with respect to parent entity types according to the tree structure. category defined in the XML file (2). For each sub-domain identified in the XML file (1), requiring specific entity types, one or more "rdf" (8) files are redefined to formalize new entity types and their specialized relationships with other types of entities in the file (5). The generation step (6) is reapplied with the same processing, applied to the subset of the file types associated with the aforementioned subset. Files (5) and (8) then determine the types of verifiable entities, that is to say whose entities can exhibit temporal variability, either with respect to their properties or with respect to their properties. relationship instances with other entities. This variability can result in valid relationship instances during a given time period only, and other instances of relationships for other time periods. The resulting data model has a structure including entity types, relationships, and time ranges. Data includes: -a unique identifier common to all versions of the same entity -a property set of an entity -a version expressed as a date, or a time interval 30 -a set of instances relationships - a unique identifier, for each version of the same entity - "parent" or "child" type relationship instances and "previous" or "next" relationship instances compared to others representative versions of the same entity. The use of this base thus constituted consists in interrogating it by a request comprising a set of criteria as well as a time interval making it possible to select the data whose version is within the time interval. Figure 2 shows an example of the code of a structured file (2). It is an HTML file with tags introducing an unstructured taxonomy, which processing parser (3) will build an ontology. Each of the tags may contain a category of the taxonomy to generate.

Le traitement par l'analyseur (3) consiste à : - identifier si la balise contient une catégorie, en fonction du type de la balise et de son ou ses attribut(s) - s'il a reconnu une catégorie, déterminer le niveau de la catégorie dans l'arborescence en fonction du niveau d'imbrication de la balise correspondante, en omettant les balises de niveau d'imbrication supérieur ne correspondant pas à des balises de catégorie - à enregistrer la séquence de caractères correspondante dans la taxinomie, au niveau de catégorie déterminé lors de l'étape précédente - à associer des informations associées telles que l'URL et les traductions, figurant dans la même balise ; L'analyseur (3) procède également au remplacement des caractères accentués par des caractères non accentués, à la suppression des caractères non-alphanumériques, puis au dédoublonnage de la taxinomie. Le résultat de ce traitement est un fichier XML dont la figure 3 représente un exemple. Ce ficher XML (1) définit la taxinomie du domaine.The processing by the analyzer (3) consists in: - identifying whether the tag contains a category, depending on the type of the tag and its attribute (s) - if it has recognized a category, determine the level of the category in the tree according to the nesting level of the corresponding tag, omitting the upper nesting level tags not corresponding to category tags - to save the corresponding character sequence in the taxonomy, at the level category determined in the previous step - to associate related information such as URL and translations in the same tag; The parser (3) also replaces the accented characters with unaccented characters, deletes the non-alphanumeric characters, and then duplicates the taxonomy. The result of this processing is an XML file whose figure 3 represents an example. This XML file (1) defines the taxonomy of the domain.

Chaque niveau correspond à une catégorie à laquelle sont associés des attributs notamment : - un identifiant unique au sein de la taxinomie - une URL pointant vers une page HTML descriptive correspondant à la catégorie - le cas échéant, les traductions en langue étrangère du nom de la catégorie - et toute autre information disponible et associée à la catégorie concernée.Each level corresponds to a category to which attributes are associated including: - a unique identifier within the taxonomy - a URL pointing to a descriptive HTML page corresponding to the category - where applicable, the foreign language translations of the name of the Category - and any other information available and associated with the category concerned.

A titre d'exemple, une taxinomie simplifiée à trois niveaux dans le domaine du sport comprend des catégories telles que - « Formule 1 « (niveau inférieur) - « sport mécanique » (niveau intermédiaire) - « sport » (niveau supérieur) La figure 4 représente une représentation graphique d'une ontologie racine. La catégorie racine de la taxinomie est représentée par une classe « Sport » (10) dans l'ontologie racine.For example, a simplified taxonomy at three levels in the field of sport includes categories such as - "Formula 1" (lower level) - "Mechanical sport" (intermediate level) - "Sport" (higher level) Figure 4 represents a graphical representation of a root ontology. The root category of taxonomy is represented by a class "Sport" (10) in the root ontology.

Tous les types d'entités (11 à 13) sont liés entre eux et à la classe (10) par des relations sémantiques, telles que « pratique », « participe à », « couvre », « se déroule à » définies par un opérateur en fonction d'une nomenclature standardisée.All types of entities (11 to 13) are related to each other and to class (10) by semantic relationships, such as "practice", "participates in", "covers", "unfolds to" defined by a operator according to a standardized nomenclature.

La figure 5 représente une vue graphique d'une ontologie spécialisée (7). Le traitement par le cominateur (6) conduit à générer de nouveaux types d'entités (21 à 24) complétant les entités (10, 20, 30) de la taxinomie racine. Ces catégories sont calculées en fonction des types d'entités (11 à 13) de l'entité racine ainsi que des relations sémantiques. Elles sont reproduites à l'identique au niveau des niveaux inférieurs des types d'entités.Figure 5 shows a graphical view of a specialized ontology (7). The treatment by the cominator (6) leads to generating new types of entities (21 to 24) completing the entities (10, 20, 30) of the root taxonomy. These categories are calculated based on the entity types (11 to 13) of the root entity as well as semantic relationships. They are reproduced identically at the lower levels of the entity types.

La figure 6 est une représentation graphique d'une ontologie de raffinement associée à une sous-catégorie de la taxinomie. Cette ontologie permet de décrire des types 5 d'entités spécifiques à toutes les sous-catégories de la sous-catégorie précitée. Par exemple, un nouveau type d'entité « voiture » (25) est introduit au niveau de l'entité « sport mécanique automobile » (20). L'opérateur définit les relations entre ce nouveau type d'entité (20) aux types d'entités (20 à 10 22) qui ont déjà été définies dans l'ontologie générée à l'itération précédente. La figure 7 représente un schéma du processus itératif des types d'entités générées. A partir d'une ontologie existante (40) et d'une 15 taxinomie (46) - au départ l'ontologie racine, on procède à un traitement par un combinateur-applicateur (44) pour générer une nouvelle ontologie (45) consistant à déduire des informations des ontologies spécialisées (41 à 43) génériques d'une sous-catégorie de la taxinomie la liste de types 20 d'entités nouvelles. Gestion des versions La figure 8 représente une vue schématique du processus versionnage. 25 Ce processus consiste à générer à partir d'une ontologie une ontologie versionnée permettant de gérer des versions pour un sous-ensemble de ses types d'entités. Ce versionnage peut notamment consister à enregistrer pour une entité donnée des informations ou des 30 relations différentes en fonction d'un paramètre tel que la date ou une période temporelle. On enregistre une liste de versions ordonnées (50) sous forme d'un fichier XML. On définit une ontologie (51) correspondant à un modèle de représentation des entités 35 versionnées et de leurs versions.Figure 6 is a graphical representation of a refinement ontology associated with a subcategory of taxonomy. This ontology makes it possible to describe types of entities specific to all the subcategories of the aforementioned subcategory. For example, a new type of "car" entity (25) is introduced at the level of the entity "motorsports" (20). The operator defines the relationships between this new entity type (20) and the entity types (20 to 10 22) that have already been defined in the ontology generated at the previous iteration. Figure 7 shows a diagram of the iterative process of generated entity types. From an existing ontology (40) and a taxonomy (46) - starting from the root ontology, a combinator-applicator (44) is processed to generate a new ontology (45) consisting of deduce from the generic specialized ontologies (41 to 43) of a sub-category of the taxonomy the list of types of new entities. Version Management Figure 8 shows a schematic view of the versioning process. This process consists of generating from an ontology a versioned ontology for managing versions for a subset of its entity types. This versioning can in particular consist of recording for a given entity different information or relations depending on a parameter such as the date or a time period. A list of ordered versions (50) is saved as an XML file. An ontology (51) corresponding to a representation model of the versioned entities and their versions is defined.

On définit également une liste des types racines (52) versionnables dans l'ontologie applicative (53). Le générateur de l'arbre de versions (54) et des nouvelles classes versionnables construit une ontologie (55) 5 d'entités versionnables. Cette ontologie (55) permet d'enregistrer des entités associées à des versions multiples.A list of root types (52) that can be versioned in the application ontology (53) is also defined. The generator of the version tree (54) and new versionable classes builds an ontology (55) of versionable entities. This ontology (55) makes it possible to register entities associated with multiple versions.

Claims (1)

REVENDICATIONS1 - Procédé de production automatique d'une base de 5 données à partir d'un modèle de données générique et d'une taxinomie caractérisée en ce qu'une partie au moins des données sont versionnées, et comporte une information temporelle requétable déterminant la période de pertinence de chacune des versions, l'information temporelle comprend au 10 moins une relation avec au moins une autre donnée, le procédé de constitution de ladite base de donnée consistant à déterminer une taxinomie unique commune à l'ensemble d'un domaine, le procédé de production automatique de la base de données comportant : 15 - une étape de définition de la taxinomie par l'enregistrement d'un fichier structurée de représentation arborescente de N niveaux de catégories descriptives d'un domaine de connaissances - une étape de définition d'un modèle de données 20 sous forme de fichier structuré décrivant des types entités et leurs relations génériques - une étape de spécialisation de chaque type d'entité par rapport à ladite taxinomie, consistant à définir un fichier structuré comportant des types d'entités et leurs 25 relations spécifiques à certaines catégories ainsi que leurs relations de spécialisation d'appartenance à une catégorie de niveau supérieur - une étape de création de types d'entités additionnelles, spécifiques à une catégorie [exemple voiture 30 pour « sport automobile)] décrites sous forme de fichier structuré [RDF] décrivant des types entités et leurs relations spécialisées - la réitération de l'étape de spécialisation de chaque type d'entité par rapport à ladite taxinomie,consistant à définir un fichier structuré [rdf] comportant des types d'entités additionnelles et leurs relations spécifiques à certaines catégories ainsi que leurs relations de spécialisation d'appartenance à une catégorie de niveau supérieur [exemple un joueur de tennis est une personne (spécialisation) et participe à une compétition de tennis (événement)] - Une étape de définition des types d'entités versionnables temporellement, dont les relations ne sont pas 10 constantes mais dépendent du temps, - l'enregistrement de chacune des nouvelles entrées consistant à définir sa période de validité temporelles et les relations avec d'autres entités pendant la période de validité. 15CLAIMS 1 - A method for automatically generating a database from a generic data model and a taxonomy characterized in that at least a portion of the data is versioned, and includes a time-dependent information determining the period of relevance of each of the versions, the temporal information includes at least one relationship with at least one other datum, the method of constituting said database of determining a single taxonomy common to an entire domain, the automatic database production method comprising: a step of defining the taxonomy by recording a structured tree representation file of N levels of descriptive categories of a knowledge domain; a data model 20 in the form of a structured file describing entity types and their generic relationships - a step of specializing each type of entity with respect to said taxonomy, consisting of defining a structured file comprising entity types and their category-specific relationships as well as their specialization relations of belonging to a higher level category - a step of creating additional category-specific feature types [car example 30 for "motor sport"] described as a structured [RDF] file describing entity types and their specialized relationships - the reiteration of the step of specialization of each type of entity with respect to said taxonomy, consisting in defining a structured file [rdf] including additional entity types and their category-specific relationships as well as their specialization relations of membership in a category of level superior [example a tennis player is a person (specialization) and gone cine at a tennis competition (event)] - A step of definition of the temporally versionable entity types, whose relations are not constant but depend on the time, - the recording of each of the new entries consisting of defining its period temporal validity and relations with other entities during the period of validity. 15
FR1550821A 2015-02-03 2015-02-03 METHOD FOR THE AUTOMATIC PRODUCTION OF A DATABASE FROM A GENERIC DATA MODEL AND A TAXINOMY Withdrawn FR3032290A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR1550821A FR3032290A1 (en) 2015-02-03 2015-02-03 METHOD FOR THE AUTOMATIC PRODUCTION OF A DATABASE FROM A GENERIC DATA MODEL AND A TAXINOMY
PCT/FR2016/050213 WO2016124851A1 (en) 2015-02-03 2016-02-02 Method for automatically producing a database from a generic data model and a taxonomy

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1550821A FR3032290A1 (en) 2015-02-03 2015-02-03 METHOD FOR THE AUTOMATIC PRODUCTION OF A DATABASE FROM A GENERIC DATA MODEL AND A TAXINOMY

Publications (1)

Publication Number Publication Date
FR3032290A1 true FR3032290A1 (en) 2016-08-05

Family

ID=53491605

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1550821A Withdrawn FR3032290A1 (en) 2015-02-03 2015-02-03 METHOD FOR THE AUTOMATIC PRODUCTION OF A DATABASE FROM A GENERIC DATA MODEL AND A TAXINOMY

Country Status (2)

Country Link
FR (1) FR3032290A1 (en)
WO (1) WO2016124851A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902069A (en) * 2019-03-04 2019-06-18 重庆科技学院 A kind of intelligent mathematical model stocking system and method

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2706743A1 (en) 2010-06-30 2010-09-08 Ibm Canada Limited - Ibm Canada Limitee Dom based page uniqueness indentification

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Grid and cooperative computing - GCC 2004 : third international conference, Wuhan, China, October 21 - 24, 2004IN: Lecture notes in computer science , ISSN 0302-9743 ; Vol. 3251", vol. 6050, 19 May 2011, SPRINGER VERLAG, DE, ISBN: 978-3-642-24711-8, ISSN: 0302-9743, article GEORGIOS PETASIS ET AL: "Ontology Population and Enrichment: State of the Art", pages: 134 - 166, XP055236201, 032548, DOI: 10.1007/978-3-642-20795-2_6 *
"Ingénierie des connaissances: évolutions récentes et nouveaux défis", 22 February 2000, EYROLLES, ISBN: 978-2-212-09110-6, article BRUNO BACHIMONT: "Engagement sémantique et engagement ontologique : conception et réalisation d'ontologies en Ingénierie des connaissances", XP055236266 *
BRANDT ET AL: "An ontology-based approach to knowledge management in design processes", COMPUTERS & CHEMICAL ENGINEERING, PERGAMON PRESS, OXFORD, GB, vol. 32, no. 1-2, 1 November 2007 (2007-11-01), pages 320 - 342, XP022324497, ISSN: 0098-1354, DOI: 10.1016/J.COMPCHEMENG.2007.04.013 *
JOHANNES HEINECKE: "Génération automatique des représentations ontologiques", TRAITEMENT AUTOMATIQUE DES LANGUES NATURELLES, 10 April 2006 (2006-04-10), pages 502 - 511, XP055236154 *

Also Published As

Publication number Publication date
WO2016124851A1 (en) 2016-08-11

Similar Documents

Publication Publication Date Title
US11847574B2 (en) Systems and methods for enriching modeling tools and infrastructure with semantics
EP1880325B1 (en) Dynamic method for generating xml documents from a database
US8504492B2 (en) Identification of attributes and values using multiple classifiers
US8386482B2 (en) Method for personalizing information retrieval in a communication network
US20160098433A1 (en) Method for facet searching and search suggestions
CN110717049A (en) Text data-oriented threat information knowledge graph construction method
US20120179453A1 (en) Preprocessing of text
US20020065857A1 (en) System and method for analysis and clustering of documents for search engine
US20110078206A1 (en) Tagging method and apparatus based on structured data set
EP1364316A2 (en) Device for retrieving data from a knowledge-based text
KR20150031234A (en) Updating a search index used to facilitate application searches
WO2009014361A2 (en) Method, system, and computer readable recording medium for filtering obscene contents
JPWO2008146807A1 (en) Ontology processing apparatus, ontology processing method, and ontology processing program
EP1828941B1 (en) Device for processing formally defined data
Wrembel Data integration, cleaning, and deduplication: Research versus industrial projects
US10990881B1 (en) Predictive analytics using sentence data model
FR3032290A1 (en) METHOD FOR THE AUTOMATIC PRODUCTION OF A DATABASE FROM A GENERIC DATA MODEL AND A TAXINOMY
CN115080636A (en) Big data analysis system based on network service
Singh et al. User specific context construction for personalized multimedia retrieval
JP6557959B2 (en) Information presentation program, information presentation method, and information presentation apparatus
Werkmeister Schema Inference on Wikidata
Squire A replicable infrastructure for empirical studies of email archives
TWI703453B (en) Suggestion creating device, computer readable recording medium with suggestion creating program recorded thereon, and suggestion creating method
Kumar et al. Multi-Document Summarization using CS-ABC Optimization Algorithm
EP1435055B1 (en) Method and system for managing multimedia databases

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20160805

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 6

PLFP Fee payment

Year of fee payment: 7

ST Notification of lapse

Effective date: 20221005