FR2816734A1 - Procede de recherche, de selection et de representation cartographique de pages web - Google Patents

Procede de recherche, de selection et de representation cartographique de pages web Download PDF

Info

Publication number
FR2816734A1
FR2816734A1 FR0014744A FR0014744A FR2816734A1 FR 2816734 A1 FR2816734 A1 FR 2816734A1 FR 0014744 A FR0014744 A FR 0014744A FR 0014744 A FR0014744 A FR 0014744A FR 2816734 A1 FR2816734 A1 FR 2816734A1
Authority
FR
France
Prior art keywords
sep
sites
pages
site
links
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR0014744A
Other languages
English (en)
Other versions
FR2816734B1 (fr
Inventor
Christophe Vaucher
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LINKKIT
Original Assignee
LINKKIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LINKKIT filed Critical LINKKIT
Priority to FR0014744A priority Critical patent/FR2816734B1/fr
Priority to PCT/FR2001/003561 priority patent/WO2002041174A1/fr
Priority to EP01996802A priority patent/EP1334444A1/fr
Priority to AU2002218366A priority patent/AU2002218366A1/en
Publication of FR2816734A1 publication Critical patent/FR2816734A1/fr
Application granted granted Critical
Publication of FR2816734B1 publication Critical patent/FR2816734B1/fr
Priority to US10/436,599 priority patent/US20040059732A1/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

L'invention concerne un procédé de recherche et de sélection de pages Web en relation avec une équation de recherche, comprenant une étape de détermination, par l'intermédiaire d'au moins un moteur de recherche, d'un ensemble initial de pages Web. Selon l'invention, le procédé comprend une étape de détermination d'un premier ensemble de sites Web (ES1) comprenant les sites correspondant aux pages Web de l'ensemble initial, dans lequel des sites sont reliés par des liens intersite, un site étant relié à un autre site par lien intersite lorsqu'il existe un ou plusieurs liens hypertexte entre des pages Web des deux sites considérés. Le procédé comprend ensuite au moins une opération de filtrage fondée sur les liens intersite, appliquée à un ensemble de sites comprenant initialement tout ou partie des sites du premier ensemble de sites (ES1), permettant d'obtenir un ensemble de sites réduit comportant un nombre de sites plus faible que le premier ensemble de sites (ES1), et enfin une étape de présentation, sur un moyen d'affichage, des sites d'au moins un ensemble de sites réduit ou des pages de l'ensemble initial de pages (EP1) appartenant aux sites d'au moins un ensemble de sites réduit. Application à la navigation sur l'Internet.

Description

<Desc/Clms Page number 1>
PROCEDE DE RECHERCHE, DE SELECTION ET DE REPRESENTATION
CARTOGRAPHIQUE DE PAGES WEB
Figure img00010001

La présente invention concerne la navigation sur le réseau Internet et plus particulièrement la recherche de pages Web en relation avec une équation de recherche.
Ces dernières années, le développement rapide du réseau Internet et plus particulièrement de la partie du réseau Internet accessible au public appelée le"Web" (World Wide Web), a entraîné un important développement d'outils destinés à faciliter la recherche d'informations parmi lesquels on distingue les"moteurs de recherche" ("search engines") et les annuaires. Les annuaires permettent de trouver des pages Web à partir d'une classification de pages faite manuellement par des opérateurs humains. Les moteurs de recherche sont des"robots"informatiques qui explorent toutes les pages du Web et permettent de rechercher des pages Web à partir d'une équation de recherche, et ainsi de"trouver sa route"dans le gigantesque ensemble de sites Web que représente le réseau Internet. Ainsi, à l'heure actuelle, divers outils comme Alta Vista, Yahoo !, Lycos, Excite, Google... ayant une grande puissance de calcul sont accessibles au public à partir de tout microordinateur pourvu d'un moyen de connexion au réseau Internet et d'un logiciel de navigation ("Browser").
En pratique, un moteur de recherche consiste en un ou plusieurs ordinateurs dotés d'une importante base de données dans laquelle sont indexées des millions de pages Web, qui est enrichie et mise à jour en permanence par des incursions du moteur de recherche sur le Web. Pour chaque page Web indexée, les informations stockées dans la base de données comprennent généralement l'adresse (URL) et le contenu de la page, le titre et les mots clefs décrivant le site Web auquel la page est rattachée, l'indice de popularité de la page (indicateur construit à partir du nombre de pages Web désignant la page par des liens hypertexte), les adresses des pages Web désignées par les liens hypertexte contenus dans la page, etc..
Ainsi, en réponse à une équation de recherche comprenant un ou plusieurs mots clefs combinés, un moteur de recherche sélectionne dans sa base de données des pages Web pertinentes en appliquant divers critères de sélection qui peuvent varier d'un moteur de recherche à l'autre mais sont généralement basés sur le nombre d'occurrences des termes de l'équation de
<Desc/Clms Page number 2>
Figure img00020001

recherche dans les pages examinées, leur position dans les pages, l'analyse de balises (mots clés présents dans les pages, titre des pages...) et l'indice de popularité des pages. Le résultat de la recherche est renvoyé sous la forme d'une liste de pages Web, chaque page étant présentée à l'utilisateur sous la forme d'une adresse hypertexte (URL) accompagnée souvent d'autres informations telles qu'un résumé de la page, la position du ou des mots clés de l'équation de recherche dans leur contexte au sein de la page,...
Un inconvénient notoire des moteurs de recherche est que la liste de pages Web renvoyée à l'utilisateur est généralement très longue et peut comprendre plusieurs centaines de pages rangées selon un ordre de pertinence qui s'avère en pratique rarement satisfaisant. L'utilisateur est ainsi contraint de lire les informations fournies avec l'adresse de chaque page et, dans la plupart des cas, de"visiter"un grand nombre de pages parmi la liste proposée avant de trouver celle qu'il recherche ou celle qui l'intéresse le plus.
Pour pallier ces inconvénients, il est connu par la demande internationale WO 99/53418 d'appliquer à un ensemble initial de pages Web fournies par un moteur de recherche une étape de tri complémentaire basée sur un critère de distance lexicale. Il est également proposé dans cette demande d'ajouter à l'ensemble initial de pages, des pages Web qui désignent les pages de l'ensemble initial ainsi que des pages Web qui sont désignées par les pages de l'ensemble initial, avant d'appliquer l'étape de tri complémentaire. Un tel procédé reclasse les pages sélectionnées selon un ordre présumé plus pertinent mais ne simplifie pas la tâche de l'utilisateur, qui reste confronté à une importante liste de pages Web.
Egalement, il est connu par la demande WO 98/36343 de présenter des pages Web sous la forme d'objets sélectionnables agencés dans un espace virtuel tridimensionnel. Il est également connu par cette demande internationale d'afficher les liens hypertexte entre une page et les autres pages représentées dans l'espace tridimensionnel, lorsque la page considérée est sélectionnée par un utilisateur. Toutefois, malgré les avantages ergonomiques d'une telle présentation de pages Web, ce procédé ne réduit pas le nombre de pages présentées à l'utilisateur qui s'étend à l'infini dans la représentation tridimensionnelle proposée.
On connaît également un prototype de moteur de recherche baptisé CLEVER, développé par la société IBM, dont les caractéristiques principales sont décrites dans l'article"Recherche Intelligente sur l'Internet"du
<Desc/Clms Page number 3>
Figure img00030001

magazine"Pour La Science"du mois d'août 1999. Le moteur de recherche CLEVER repose sur un algorithme itératif et convergent qui met en évidence, parmi un ensemble de base de pages Web, des pages dites de référence et des pages dites pivot. Un tel algorithme est basé sur le postulat selon lequel une bonne page de référence est citée par un grand nombre de bonnes pages pivot et une bonne page pivot pointe vers un grand nombre de pages de référence.
Les notions de"bonne page pivot"ou de"bonne page de référence"sont quantifiées par une première note attribuée à la page en tant que pivot et par une seconde note attribuée à la page en tant que page de référence. Lors de la première itération, les notes attribuées à chaque page sont arbitraires. Après plusieurs itérations, les notes attribuées à chaque page convergent vers des valeurs stables et les pages Web de l'ensemble de base peuvent être présentées à l'utilisateur sous la forme d'une liste de pages de référence ayant des notes décroissantes et d'une liste de pages pivot ayant des notes décroissantes.
Bien que procurant un résultat satisfaisant, ce procédé de tri itératif est complexe à mettre en oeuvre et nécessite une puissance de calcul importante pour l'obtention d'un temps d'exécution satisfaisant, car il repose sur un calcul mathématique complexe nécessitant des calculs matriciels sous forme de produits de matrices et/ou de recherche de vecteurs propres, faisant intervenir une matrice comportant un grand nombre de lignes et un grand nombre de colonnes, chaque cellule de la matrice représentant un lien hypertexte (hyperlien) entre deux pages de l'ensemble de base de pages Web.
On connaît également un moteur de recherche baptisé Google dont l'algorithme de classement repose sur la technologie Pagerank. Cette technologie est décrite sur le site Web de l'Université de Standford à l'adresse suivante : http ://hci. standford. edu/-page/papers/pagerank/pptrame. htm
Le point de départ de cet algorithme est de considérer le Web comme un ensemble de pages reliées par des liens hypertextes. On étudie alors la façon dont un visiteur se propage de pages en pages en empruntant les liens existants. Le pagerank d'une page correspond au nombre de visiteur théorique sur une page compte tenu du modèle. Pagerank est obtenu par calcul matriciel (recherche de vecteurs propres de la matrice de passage entre pages) ou par un processus itératif. Compte tenu de ce mode de calcul, on constate qu'un Pagerank est associé à une page Web indépendamment de l'équation de recherche
<Desc/Clms Page number 4>
Figure img00040001

adressée au moteur de recherche, ce qui peut être considéré comme un inconvénient.
Un objectif général de la présente invention est de prévoir un procédé permettant de réduire le nombre de pages Web présentées à un utilisateur en réponse à une équation de recherche, qui soit simple à mettre en oeuvre tout en étant statistiquement fiable en ce qui concerne la pertinence des pages retenues.
Un objectif plus particulier de la présente invention est de prévoir un procédé de sélection de pages Web dans un ensemble initial de pages pouvant comprendre un très grand nombre de pages Web sélectionnées au moyen d'un ou plusieurs moteurs de recherche.
Un autre objectif de la présente invention est de présenter des pages Web à un utilisateur sous une forme facilitant la visualisation et la sélection des pages pertinentes tout en offrant une vision synthétique du résultat d'une recherche.
Un autre objectif de la présente invention est de présenter à un utilisateur plusieurs aspects du champ des réponses possibles à une équation de recherche.
Pour atteindre ces objectifs, la présente invention se fonde, comme les procédés du type CLEVER, sur le postulat selon lequel une page désignée par de nombreuses autres pages et/ou désignant de nombreuses autres pages est susceptible d'être plus pertinente qu'une page isolée sans lien avec les autres pages du Web.
L'analyse des liens hypertexte existant dans un ensemble de pages Web étant complexe à mettre en oeuvre et nécessitant une puissance de calcul non négligeable, une première idée de la présente invention est de réduire un ensemble initial de pages Web à un premier ensemble de sites Web dans lequel les sites sont liés par des liens"intersite". Selon l'invention, un lien intersite reliant deux sites correspond à un ou plusieurs liens hypertexte existant entre des pages des deux sites considérés, de sorte qu'il existera statistiquement beaucoup moins de liens intersite dans le premier ensemble de sites Web que dans l'ensemble initial de pages Web. L'ensemble de sites Web selon l'invention est donc plus aisé à manipuler du point de vue du traitement informatique, et permet d'éliminer efficacement les multiples redondances pouvant exister entre les liens hypertexte de l'ensemble initial de pages Web.
Une autre idée de la présente invention est d'appliquer divers types de filtrage, basés sur les liens intersite, aux sites Web d'un tel ensemble de
<Desc/Clms Page number 5>
Figure img00050001

sites, pour obtenir un ensemble résultat comportant un nombre réduit de sites. De tels filtrages, parmi lesquels on distingue un filtrage par effeuillage, un filtrage sur les paires et un filtrage sur les sommets, sont indépendants les uns des autres mais peuvent être combinés pour l'obtention de trois résultats différents représentant trois aspects différents du champ des réponses possibles à une équation de recherche. Certains filtrages, comme le filtrage sur les paires et sur les sommets, reposent sur une pondération initiale des liens intersite qui constitue également un aspect de l'invention.
Enfin, encore une autre idée de la présente invention est de présenter à l'utilisateur le résultat du ou des filtrages sous la forme d'une cartographie de sites Web dans laquelle les sites sélectionnés et les liens intersite sont représentés, de sorte que l'utilisateur a un aperçu immédiat de l'importance de chaque site au regard des autres sites.
Encore une autre idée de la présente invention est que la sélection d'un site représenté sur une telle cartographie fasse apparaître les pages Web de l'ensemble initial de pages qui appartiennent au site sélectionné.
Ainsi, essentiellement, la présente invention prévoit un procédé de recherche et de sélection de pages Web en relation avec une équation de recherche, comprenant une étape de détermination, par l'intermédiaire d'au moins un moteur de recherche, d'un ensemble initial de pages Web, une étape de détermination d'un premier ensemble de sites Web comprenant les sites correspondant aux pages Web de l'ensemble initial, dans lequel des sites sont reliés par des liens intersite, un site étant relié à un autre site par lien intersite lorsqu'il existe un ou plusieurs liens hypertexte entre des pages Web des deux sites considérés, au moins une opération de filtrage fondée sur les liens intersite, appliquée à un ensemble de sites comprenant initialement tout ou partie des sites du premier ensemble de sites, permettant d'obtenir un ensemble de sites réduit comportant un nombre de sites plus faible que le premier ensemble de sites, et une étape de présentation, sur un moyen d'affichage, des sites d'au moins un ensemble de sites réduit ou des pages de l'ensemble initial de pages appartenant aux sites d'au moins un ensemble de sites réduit.
Selon un mode de réalisation, un lien intersite correspond à un ou plusieurs liens hypertexte entre des pages Web des deux sites considérés, quel que soit le sens des liens hypertexte.
Selon un mode de réalisation, le procédé comprend une opération de filtrage d'un premier type appliquée à un second ensemble de sites comprenant
<Desc/Clms Page number 6>
Figure img00060001

initialement tout ou partie des sites du premier ensemble de sites, l'opération de filtrage du premier type comprenant une étape consistant à éliminer du second ensemble de sites les sites reliés par moins de N liens intersite aux autres sites du second ensemble de sites, N étant un paramètre de filtrage au moins égal à 1.
Selon un mode de réalisation, l'étape d'élimination de sites est répétée pour des valeurs de N croissantes à commencer par une valeur initiale No jusqu'à une valeur limite NL définissant une profondeur de filtrage.
Selon un mode de réalisation, le procédé comprend une étape de pondération des liens intersite du premier ensemble de sites, consistant à attribuer un poids déterminé à chaque lien intersite.
Selon un mode de réalisation, le procédé comprend une opération de filtrage d'un second type appliquée à un troisième ensemble de sites comprenant initialement tout ou partie des sites du premier ensemble de sites, l'opération de filtrage du second type comprenant une étape consistant à éliminer des liens intersite de poids inférieur à un paramètre W suivie d'une étape d'élimination des sites qui ne sont reliés à aucun autre site par un lien intersite.
Selon un mode de réalisation, les étapes d'élimination de liens intersite et d'élimination de sites sont répétées pour des valeurs croissantes du paramètre W à commencer par une valeur initiale Wo jusqu'à une valeur limite WL définissant une profondeur de filtrage.
Selon un mode de réalisation, le procédé comprend une opération de filtrage d'un troisième type, appliquée aux sites d'un quatrième ensemble de sites constitué initialement par tout ou partie des sites du premier ensemble de sites, l'opération de filtrage du troisième type comprenant une étape de pondération de chacun des sites du quatrième ensemble de sites et une étape d'élimination des sites de poids inférieur à un paramètre W.
Selon un mode de réalisation, les étapes de pondération et d'élimination de sites sont répétées pour des valeurs croissantes du paramètre W'à commencer par une valeur initiale WO'jusqu'à une valeur limite Wu définissant une profondeur de filtrage.
Selon un mode de réalisation, la pondération d'un site consiste à attribuer au site considéré un poids égal à la somme des poids de chacun des liens intersite reliant le site considéré aux autres sites du quatrième ensemble de sites.
Selon un mode de réalisation, la pondération d'un lien intersite comprend une étape préliminaire consistant à attribuer un poids déterminé aux
<Desc/Clms Page number 7>
Figure img00070001

liens hypertexte reliant les pages respectives de deux sites considérés, et une étape consistant à faire la somme des poids de chacun des liens hypertexte qui sous-tendent le lien intersite.
Selon un mode de réalisation, le poids attribué à un lien hypertexte reliant deux pages faisant partie de l'ensemble initial de pages est plus fort que le poids attribué à un lien hypertexte reliant deux pages dont l'une au moins n'appartient pas à l'ensemble initial de pages.
Selon un mode de réalisation, le poids attribué à un lien hypertexte désignant une page d'un site récent est plus fort que le poids attribué un lien hypertexte désignant une page d'un site ancien.
Selon un mode de réalisation, le poids attribué à un lien hypertexte désignant une page d'un site comprenant un faible nombre de pages est plus fort que le poids attribué à un lien hypertexte désignant une page d'un site comprenant un grand nombre de pages.
Selon un mode de réalisation, l'adresse d'un site Web est définie en recherchant le suffixe de l'adresse d'une page Web comprise dans le site considéré, et en ajoutant au suffixe d'autres termes de l'adresse de la page Web si l'adresse obtenue correspond à l'adresse d'un site d'hébergement.
Selon un mode de réalisation, le procédé comprend la présentation de sites Web sur un moyen d'affichage sous forme d'objets interactifs sélectionnables par un utilisateur, la sélection d'un objet site par un utilisateur déclenchant l'affichage, sous forme d'objets interactifs sélectionnables, des pages Web appartenant au site sélectionné et à l'ensemble initial de pages.
Selon un mode de réalisation, le procédé comprend la présentation de sites Web sur un moyen d'affichage, avec affichage des liens intersite sous une forme visuelle compréhensible pour un utilisateur.
Selon un mode de réalisation, les étapes de détermination d'un ensemble initial de pages et d'un premier ensemble de sites comprennent les étapes suivantes : rechercher des pages susceptibles d'être pertinentes au regard d'une équation de recherche, pour former un premier ensemble primaire de pages (Pl), déterminer les sites correspondant aux pages du premier ensemble primaire de pages, pour former un premier ensemble primaire de sites, rechercher des pages liées aux pages du premier ensemble primaire de pages et/ou aux sites du premier ensemble primaire de sites par des liens hypertexte, pour former au moins un second ensemble primaire de pages, déterminer les sites correspondant aux pages du second ensemble primaire de pages, pour former au moins un second ensemble primaire de sites, fusionner
<Desc/Clms Page number 8>
Figure img00080001

le premier et le second ensembles primaires de pages pour former l'ensemble initial de pages, et fusionner le premier et le second ensembles primaires de sites pour former le premier ensemble de sites.
Selon un mode de réalisation, le second ensemble primaire de pages comprend des pages désignant des pages appartenant aux sites du premier ensemble primaire de sites.
Selon un mode de réalisation, le second ensemble primaire de pages comprend des pages désignées par des pages appartenant aux sites du premier ensemble primaire de sites.
La présente invention concerne également un ordinateur numérique programmé pour exécuter le procédé selon l'invention.
La présente invention concerne également un produit"programme d'ordinateur"enregistré sur un support et chargeable dans la mémoire d'un ordinateur numérique, contenant des codes-programme exécutables par l'ordinateur, agencés pour l'exécution des étapes du procédé selon l'invention.
Ces objets, caractéristiques et avantages ainsi que d'autres de la présente invention seront exposés plus en détail dans la description suivante du procédé selon l'invention, faite à titre non limitatif en relation avec les figures jointes parmi lesquelles : - la figure 1 est un organigramme décrivant l'organisation générale du procédé de l'invention, - la figure 2 représente schématiquement le réseau Internet et illustre un exemple de mise en oeuvre du procédé selon l'invention, - la figure 3 est un organigramme décrivant des étapes de formation d'un ensemble initial de pages Web et d'un premier ensemble de sites Web, - la figure 4 illustre schématiquement le procédé décrit par l'organigramme de la figure 3, les figures 5A à SB illustrent un procédé selon l'invention de détermination de liens intersite et de pondération de ces liens, - la figure 6 illustre un exemple simplifié d'ensemble de sites Web comprenant des sites reliés par des liens intersite, la figure 7 illustre un procédé selon l'invention de filtrage par effeuillage, - la figure 8 est un organigramme décrivant le procédé de filtrage par effeuillage, - la figure 9 est un organigramme décrivant un procédé selon l'invention de filtrage sur les paires,
<Desc/Clms Page number 9>
Figure img00090001

- la figure 10 est un organigramme décrivant un procédé selon l'invention de filtrage sur les sommets, et - les figures 11A à 11C illustrent une étape de représentation cartographique du résultat d'un filtrage selon l'invention.
Dans ce qui suit, le procédé selon l'invention sera également décrit en référence aux tableaux figurant en Annexe 3, qui font partie intégrante de la description et dont certains sont illustrés par les figures jointes : - tableau 1 : illustré par l'organigramme de la figure 1, - tableau 2 : illustré par l'organigramme de la figure 3, - tableau 3A : illustré par l'organigramme de la figure 8, - tableau 4A : illustré par l'organigramme de la figure 9, - tableau SA illustré par l'organigramme de la figure 10.
Toute référence à l'une des figures susmentionnées vaudra donc référence au tableau correspondant, et réciproquement.
Présentation générale du procédé selon l'invention
L'organigramme de la figure 1 décrit l'organisation générale du procédé de recherche et de sélection de pages Web selon l'invention. On y distingue deux étapes préliminaires 10 et 20 visant à former un premier ensemble ES1 de sites Web. L'étape 10 vise à former un ensemble initial EP1 de pages Web à partir d'une équation de recherche et l'étape 20 vise à former un premier ensemble ES1 de sites correspondants aux pages de l'ensemble initial EPI. A l'étape 25, on détermine les liens intersite entre les sites de l'ensemble
Figure img00090002

ES1, d'une manière qui sera décrite plus loin.
Après formation de l'ensemble de sites ES1, la présente invention prévoit trois types de filtrages parmi lesquels on distingue un filtrage FI dit"filtrage par effeuillage", un filtrage F2 dit"filtrage sur les paires" et un filtrage F3 dit"filtrage sur les sommets". Les notions de filtrage par effeuillage, de filtrage sur les paires et de filtrage sur les sommets sont des concepts selon l'invention qui seront expliqués plus loin. Chaque type de filtrage est appliqué à un ensemble de sites Web référencé respectivement ES2, ES3, ES4, qui contient initialement tout ou partie des sites de l'ensemble ES1.
A la différence du filtrage FI, les filtrages F2 et F3 nécessitent une pondération préalable des liens intersite de l'ensemble ES1, représentée par une étape 26 sur la figure 1. Une telle pondération consiste à attribuer un poids déterminé à chaque lien intersite selon une méthode qui sera décrite plus loin. D'autre part, le filtrage F3 nécessite une pondération des sites selon une méthode également décrite plus loin.
<Desc/Clms Page number 10>
Figure img00100001
Après réalisation des opérations de filtrage FI, F2, F3, on obtient trois ensembles de sites réduits ES2', ES3', ES4'comprenant un faible nombre de sites, ce nombre étant fonction d'une part de la topographie du premier ensemble de sites ES1 et d'autre part de la profondeur de filtrage choisie.
De façon générale, les trois filtrages FI, F2, F3 sont indépendants et optionnels chacun au regard de l'autre. La mise en oeuvre du procédé selon l'invention peut ainsi comprendre la mise en oeuvre de l'un des trois filtrages seulement, pour l'obtention d'un seul ensemble résultat, ou toute combinaison des filtrages FI, F2, F3 pour l'obtention de trois résultats différents. D'autre part, chaque filtrage peut lui-même permettre d'obtenir plusieurs résultats, en modifiant le paramétrage du filtrage ou la topographie de l'ensemble de départ, de sorte que le nombre d'ensembles résultat pouvant être obtenu peut être supérieur à trois.
L'avantage intrinsèque des opérations de filtrage est de sélectionner de façon pertinente un nombre réduit de sites, donnant immédiatement un aperçu synthétique des réponses les plus pertinentes à une équation de recherche, plus pratique qu'une longue liste de pages que l'utilisateur ne consulte généralement pas en totalité. D'autre part, l'avantage d'une combinaison de ces opérations de filtrage est de pouvoir offrir à l'utilisateur plusieurs"visions"différentes du champ des réponses possibles à une équation de recherche. Ainsi, il sera plus facile à l'utilisateur, en examinant chacun des résultats, de trouver les pages Web susceptibles de répondre au mieux à sa recherche.
Enfin, toujours en référence à la figure 1, ces étapes de détermination par filtrage d'un ou de plusieurs ensembles réduits de sites Web sont suivies d'opérations d'affichage du ou des résultats de filtrage, référencées Al, A2, A3 en figure 1. Selon un aspect de l'invention, ces opérations d'affichage consistent en une présentation des sites sélectionnés sous forme d'objets sites interactifs, avec possibilité de visualiser les pages Web de l'ensemble initial EP1 en sélectionnant les objets sites au moyen d'un pointeur d'écran, puis de sélectionner les pages Web visualisées pour accéder directement à ces pages. Une telle présentation interactive des résultats constitue une interface homme-machine efficace et pratique pour trouver des pages Web recherchées, comme cela apparaîtra clairement par la suite.
Avant de décrire plus en détail ces divers aspects du procédé de l'invention, on se référera à la figure 2 qui représente très schématiquement le réseau Internet et un exemple de mise en oeuvre de ce procédé.
<Desc/Clms Page number 11>
Figure img00110001
Mise en oeuvre du procédé selon l'invention On considèrera dans ce qui suit, à titre non limitatif, que le procédé selon l'invention est exécuté par un micro-ordinateur 10 qui est connecté au réseau Internet 20 et peut accéder à divers moteurs de recherche et à divers sites Web. Trois moteurs de recherche El, E2, E3 et quatre sites Web ST1, ST2, ST3, ST4 sont représentés en figure l, le site ST4 étant un site d'hébergement recevant des sites STA, STB et STC.
Le micro-ordinateur 10 comprend de façon classique une unité centrale 11, un écran 12, un clavier 13, une souris 14 ou tout autre moyen de commande d'un pointeur d'écran, ainsi qu'un moyen de connexion 15 au réseau Internet comme un modem ou un routeur. L'unité centrale 11 comprend divers éléments non représentés mais bien connus de l'homme de l'art, notamment un microprocesseur, une mémoire vive RAM, une mémoire ROM et/ou FLASH EEPROM recevant le système d'exploitation du microprocesseur (BIOS) et une mémoire de masse comme un disque dur, recevant le système d'exploitation du microordinateur et divers programmes application. La mémoire de masse comprend notamment un programme de navigation sur le Web et un programme de recherche et de sélection de sites Web selon l'invention. Ce programme est chargé dans le disque dur de l'unité centrale au moyen d'un support de programme, par exemple un CD-ROM ou DVD-RCM 16. Le programme selon l'invention peut également être chargé dans l'unité centrale par l'intermédiaire d'un réseau privé Intranet. Il pourrait également, à l'avenir, être téléchargé par l'intermédiaire du réseau Internet.
Rappels sur l'analyse syntaxique des adresses de pages Web
Sur la figure 2, chaque site représenté ST1 à ST4 comprend une pluralité de pages Web 30 accessibles directement au moyen de leurs adresses, appelées"URL" (Uniform Resource Locator). Pour la bonne compréhension de ce qui suit, il sera rappelé ici que l'adresse d'un site Web constitue de façon générale le radical des adresses des pages de ce site. Par exemple, l'adresse
Figure img00110002

du site ST2 est du type : http ://www. sites2. com et constitue le radical des adresses des pages du site ST2, une page"x"du site ST2 ayant par exemple l'adresse suivante : http ://www. sites2. com/acceuil/pagex. html
<Desc/Clms Page number 12>
Figure img00120001

Par ailleurs, l'adresse du site d'hébergement ST4, par exemple : http ://www. sites4. fr constitue le radical de l'adresse des sites hébergés, l'adresse du site STA étant par exemple : http ://www. sites4. fr/site~STA L'adresse du site STA constitue elle-même le radical de l'adresse des pages
Figure img00120002

du site STA, une page"x"du site STA ayant par exemple l'adresse suivante : http ://www. sites4. fr/siteSTA/pagex. html De ces exemples, on retiendra que l'adresse d'un site Web peut être extraite de l'adresse d'une page Web en recherchant le radical de l'adresse au moyen d'un sous-programme appelé"analyseur syntaxique" ("parser"), en soi connu de l'homme de l'art. Un tel analyseur syntaxique lit l'adresse de la page en commençant par sa première lettre jusqu'à trouver la première barre de séparation"/,, après les deux barres de séparation"//"de la racine http (Hyper Text Transfer Protocol), ce qui permet d'extraire l'adresse du site.
Dans le cas d'un site hébergé, l'extraction de l'adresse du site à partir de l'adresse d'une page nécessite de poursuivre l'analyse syntaxique jusqu'à la seconde barre de séparation après la racine http, car le premier radical de l'adresse des pages est l'adresse du site d'hébergement que l'on ne souhaite pas retenir en tant qu'adresse de site dans le cadre d'une recherche de sites pertinents au regard d'une équation de recherche.
Formation d'un ensemble initial de pages Web et d'un premier ensemble de sites Web
Selon l'invention, ces propriétés des adresses Internet sont utilisées pour définir un premier ensemble de sites ES1 au cours des étapes 10,20 mentionnées plus haut, décrites plus en détail par l'organigramme de la figure 3 et illustrées schématiquement en figure 4.
Les étapes 10 et 20 comprennent respectivement des étapes 100 à 130 et 200 à 230 entrelacées. Les étapes 100,110 et 120 sont des étapes de recherche de pages Web et les étapes 200,210 et 220 sont des étapes d'extraction de sites Web à partir des adresses des pages Web trouvées au
<Desc/Clms Page number 13>
Figure img00130001

cours des étapes 100, 110 et 120. Les étapes 130 et 230 sont des étapes de fusion des résultats.
Les étapes de recherche 100,110 et 120 sont réalisées au moyen d'un ou plusieurs moteurs de recherche, de préférence plusieurs moteurs de recherche afin de collecter le plus grand nombre de sites Web susceptibles d'être pertinents au regard d'une équation de recherche. Dans ce qui suit, on considèrera toutefois dans un souci de simplicité de l'exposé que ces étapes sont réalisées au moyen d'un seul moteur de recherche Ei, par exemple l'un des moteurs El, E2, E3 représentés en figure 2.
A l'étape 100, l'utilisateur formule une question, ou équation de recherche Rl, au moyen du clavier 13 du micro-ordinateur 10. L'équation de recherche est envoyée au moteur de recherche Ei par l'unité centrale 11 et comprend classiquement un ou plusieurs termes combinés (lettres, mots, chiffres, symboles...). En réponse à l'équation de recherche Rl, le moteur de recherche E, renvoie les adresses de diverses pages Web, formant un premier ensemble primaire Pl de pages Web représenté en figure 4. Les pages de l'ensemble Pl sont extraites de la base de données du moteur de recherche E, de façon classique, par exemple en fonction du nombre d'occurrences des termes de l'équation de recherche dans les pages examinées, leur position dans les pages et divers autres critères pouvant différer d'un moteur de recherche à l'autre.
A l'étape 200, l'unité centrale extrait les adresses des sites s, correspondants aux pages p, de l'ensemble PI, par la méthode d'analyse syntaxique mentionnée plus haut, pour former un ensemble primaire SI de sites Web.
Après l'étape 200, on voit en figure 3 que les étapes 110,210 ("option sont en parallèle avec les étapes 120 et 220 ("option 2"). En pratique, le procédé selon l'invention peut en effet être mis en oeuvre en exécutant seulement les étapes 110 et 210 ou seulement les étapes 120 et 220. Les étapes 110,210 et 120,220 peuvent également être cumulées.
L'étape 110 comprend une étape principale 110a et une étape
Figure img00130002

complémentaire 110b. A l'étape 1Oa, l'unité centrale envoie au moteur de recherche E, une série de requêtes R2a, chaque requête étant accompagnée de l'adresse de l'un des sites s, de l'ensemble primaire SI. Chaque requête R2a est une demande de communication des adresses des pages Web qui désignent par des liens hypertexte au moins une page du site s, et qui satisfont l'équation de recherche Rl. La requête R2a est par exemple formulée au moyen d'une commande LINK de la façon suivante :
<Desc/Clms Page number 14>
Figure img00140001

R2a = LINKE adresse du site s, > + < Rl > -HOST < adresse du site si > ce qui signifie :"trouver les pages qui désignent au moins une page du site spécifié Si et qui satisfont l'équation de recherche RI, sauf celles qui appartiennent au site s,". La préposition"sauf"correspond à la commande HOS qui permet à l'unité centrale de ne pas recevoir en réponse à la requête R2a des pages appartenant au site concerné afin de ne pas trop valoriser les sites à fort taux d'autoréférencement, c'est-à-dire qui comprennent de nombreuses pages se désignant mutuellement.
A chaque requête R2a, le moteur de recherche E, renvoie une liste d'adresses de pages Web qui désignent une page du site spécifié Si (accompagnées d'informations sur ces pages et sur les sites dont elles relèvent). Cette liste peut bien entendu être vide s'il n'existe pas de page Web qui renvoie à la page concernée. Lorsque des requêtes R2a ont été envoyées pour tous les sites si de l'ensemble SI, l'unité centrale dispose d'un deuxième ensemble primaire de pages P2.
A l'étape complémentaire 110b, l'unité centrale envoie au moteur de recherche E1 une série de requêtes R2b accompagnées chacune de l'adresse d'une page pi de l'ensemble P1. Chaque requête R2b est une demande de communication des adresses des pages Web qui désignent par des liens hypertexte la page
Figure img00140002

spécifiée pi et qui satisfont l'équation de recherche Rl. La requête R2b est par exemple formulée de la façon suivante : R2b = LL"NK, < aczresse de la page p R2b = LINKA < adresse de la page Pi > + < R1 > -HaST < adresse du site Si > ce qui signifie :"trouver les pages qui désignent la page pi spécifiée et qui satisfont l'équation de recherche Rl, sauf celles qui appartiennent au site S1 contenant la page pi". Lorsque des requêtes R2b ont été envoyées pour toutes les pages pi de l'ensemble Pl, l'unité centrale dispose d'un ensemble primaire P2'qui est exclusivement constitué par des pages qui désignent des pages appartenant à l'ensemble Pl tout en satisfaisant l'équation de recherche.
L'ensemble P2'est compris dans l'ensemble P2 car ce dernier comprend des pages qui désignent des pages de l'ensemble PI (ensemble P2') et des pages qui désignent des pages appartenant aux sites de l'ensemble SI mais qui
Figure img00140003

n'appartiennent pas à l'ensemble Pl (ensemble P2 moins ensemble P2'). On notera ici que la détermination de l'ensemble P2'au cours de l'étape 110b vise à faire une distinction entre deux types de liens hypertexte, d'une part
<Desc/Clms Page number 15>
Figure img00150001

ceux qui pointent vers des pages de l'ensemble Pl et d'autre part ceux qui ne pointent que vers des pages d'un site de l'ensemble SI n'appartenant pas à l'ensemble PI. Cette distinction intervient dans une étape de pondération de liens intersite décrite plus loin. Toutefois, l'étape 120a pourrait être omise dans un mode de réalisation du procédé de l'invention où l'on ne souhaiterait pas relever les liens hypertexte comprenant un point d'arrivée n'appartenant pas à l'ensemble PI. En pratique, elle n'est pas nécessaire au filtrage FI et peut être omise pour les filtrages F2 et F3 si les règles de pondération sont modifiées.
A l'étape suivante 210, l'unité centrale détermine les adresses des sites correspondant aux pages de l'ensemble P2, toujours par analyse syntaxique, pour obtenir un second ensemble primaire S2 de sites Web.
Les étapes 120 et 220 complètent les étapes 110 et 210 et visent à extraire des pages désignées par des pages appartenant aux sites de l'ensemble SI. L'étape 120 comprend une étape principale 120a au cours de laquelle l'unité centrale envoie au moteur de recherche une série de requêtes R3a pour la formation d'un ensemble de pages P3, et une étape complémentaire 120b au cours de laquelle l'unité centrale envoie au moteur de recherche une série de requêtes R3b pour la détermination d'un ensemble de pages P3'. Les requêtes R3a et R3b sont par exemple formulées au moyen d'une commande LINK ; visant à rechercher des pages désignées en aval par des liens hypertexte :
R3a = LINKg < adresse du site s > + < Rl > -HOST < adresse du site s >
R3b = LINKB < adresse de la page p1 > + < R1 > - HOST < adresse du site s > ce qui signifie, respectivement :"trouver les pages qui désignent une page du site si spécifié et qui satisfont l'équation de recherche RI, sauf celles qui appartiennent au site sil", et : "trouver les pages qui désignent la page pi spécifiée et qui satisfont l'équation de recherche RI, sauf celles qui appartiennent au site s1 contenant la page pl".
Comme on le voit en figure 4, l'ensemble P3 comprend des pages désignées par des pages de l'ensemble Pl (ensemble P3') ainsi que des pages exclusivement désignées par des pages qui appartiennent aux sites de l'ensemble SI mais qui n'appartiennent pas à l'ensemble Pl (ensemble P3 moins ensemble P3'). Bien entendu, l'étape 120b pourrait être omise dans un mode de réalisation du procédé de l'invention où l'on ne souhaiterait pas relever les
<Desc/Clms Page number 16>
Figure img00160001

liens hypertexte comprenant un point de départ n'appartenant pas à l'ensemble PI.
A l'étape 220, l'unité centrale détermine les adresses des sites correspondant aux pages de l'ensemble P3 pour obtenir un ensemble primaire S3 de sites Web.
Les étapes finales 130 et 230 (seule l'étape 230 est représentée en figure 4) consistent à fusionner les ensembles primaires de pages et les ensembles primaires de sites pour obtenir respectivement l'ensemble initial de pages EP1 et le premier ensemble ES1 de sites Web, qui va servir de base aux étapes de filtrage FI à F3. Par"fusion", on désigne le fait d'additionner les ensembles de pages et les ensembles de sites en éliminant les doublons. Comme représenté en figure 4, l'ensemble ES1 est égal au résultat de la fusion des ensembles SI, S2 et S3 si les options 1 et 2 sont simultanément choisies. Sinon, l'ensemble ES1 est égal au résultat de la fusion des ensembles SI et S2 quand seule l'option 1 est choisie ou au résultat de la fusion des ensembles SI et S3 quand seule l'option 2 est choisie. Toujours selon l'option choisie, l'ensemble initial EP1 de pages Web calculé à l'étape 130 est égal au résultat de la fusion des ensembles PI, P2 et P3, ou au résultat de la fusion des ensembles Pl et P2 ou Pl et P3.
L'unité centrale dispose ainsi, au terme de ces étapes de recherche, d'un premier ensemble de sites ES1 mémorisé sous la forme d'une matrice A comportant m colonnes et m lignes,"m"désignant le nombre de sites de l'ensemble ES1, de manière à faire apparaître les liens intersite. Pour fixer les idées, considérons par exemple en référence à la figure SA un ensemble ES1 comprenant trois sites si, s2, s3 comportant des pages pl, p2,... p8 qui appartiennent à l'ensemble EP1 ainsi que des pages qui n'appartiennent pas à l'ensemble EP1 (non représentées). Ces diverses pages désignent par des liens hypertexte des pages des autres sites. Selon l'invention, on définit entre deux sites un lien intersite et un seul lorsqu'il existe au moins un lien hypertexte entre deux pages des sites considérés, quelles que soient les pages et quelle que soit l'orientation du lien hypertexte. Ainsi, sur la figure 5B, chacun des sites si, s2, s3 est lié aux autres sites par un lien intersite, respectivement L (1, 2), L (1, 3), L (2,3), car il existe au moins un lien hypertexte entre deux pages respectives de chacun des sites. Une matrice A correspondant à l'exemple de la figure SB est représentée ci-après à titre d'exemple.
<Desc/Clms Page number 17>
Figure img00170001

MATRICE A (exemple simplifié)
Figure img00170002
<tb>
<tb> Site <SEP> de <SEP> référence <SEP> Sites <SEP> liés <SEP> au <SEP> site <SEP> de <SEP> référence
<tb> si <SEP> s2 <SEP> s3
<tb> s2 <SEP> si <SEP> s3
<tb> S3 <SEP> s1 <SEP> s2
<tb>
De façon similaire, l'unité centrale dispose d'un ensemble initial de pages EPI mémorisé sous la forme d'une matrice B à n+m lignes et n+m colonnes incluant les liens hypertexte,"n"désignant le nombre de pages de l'ensemble EPI. Si l'on considère à nouveau l'ensemble ES1 représenté en figure SA, la matrice B prend la forme décrite ci-après. Dans cette matrice, les pages p (sl), p (s2), p (3) sont des pages anonymes n'appartenant pas à l'ensemble EPI bien qu'appartenant à l'un des sites sl, s2, s3 de l'ensemble ES1. La prise en compte de ces pages permet de tenir compte de liens hypertexte ayant une page point de départ ou point d'arrivée n'appartenant pas à l'ensemble EPI, ces liens ayant été mis en évidence par les étapes 110b et 120b décrites plus haut. Cette prise en compte de tels liens hypertexte intervient d'une part dans la définition des liens intersite (mais de façon optionnelle) et d'autre part dans le mode d'exécution préféré de la méthode de pondération de liens intersite décrite plus loin.
MATRICE B (exemple simplifié)
Figure img00170003
<tb>
<tb> Pages <SEP> de <SEP> Pages <SEP> désignées <SEP> appartenant <SEP> à <SEP> l'ensemble <SEP> Autres <SEP> pages
<tb> référence <SEP> EP1 <SEP> désignées
<tb> p1 <SEP> p <SEP> (s2)
<tb> p2 <SEP> p(s2)
<tb> p3 <SEP> p7
<tb> p4 <SEP> p5
<tb> p5 <SEP> p3
<tb> P6
<tb> p7
<tb> P8
<tb> p9 <SEP> p5
<tb> p <SEP> (si) <SEP> P8 <SEP> 1
<tb> p <SEP> (s2)
<tb> p(s3)
<tb>
<Desc/Clms Page number 18>
Figure img00180001

Le procédé selon l'invention est bien entendu susceptible de diverses variantes de réalisation en ce qui concerne la définition des liens intersite et la définition des ensembles EP1 et ES1. En ce qui concerne la définition des ensembles EP1 et ES1, un variante avantageuse consiste à étendre encore plus en amont et encore plus en aval la recherche de pages liées à celles de l'ensemble primaire PI, en recherchant les pages qui désignent les pages de l'ensemble P2 et/ou P3 et les pages qui sont désignées par les pages de l'ensemble P3 et/ou P2, etc.. D'autre part, dans une variante illustrée en figure SC, la transformation des liens hypertexte en liens intersite consiste à définir deux liens intersite lorsqu'il existe entre les deux sites considérés des liens hypertexte de directions opposées. Ainsi, sur la figure 5C, les sites si, s2 sont liés par deux liens intersite Ll, 2 et L2, l car il existe au moins une page du site si qui pointe vers une page du site s2 et au moins une page du site s2 qui pointe vers une page du site si. Cette variante dans la définition des liens intersite conduit à une modification sensible de la topographie de l'ensemble ES1 et est susceptible dans certains cas de modifier le résultat de l'étape de filtrage FI. Elle est sans incidence sur les filtrages F2 et F3 qui reposent sur une pondération des liens intersite.
Figure img00180002
Un filtrage Fi appliqué à un ensemble de sites du type représenté en figure SB et un filtrage Fi appliqué à un ensemble de sites du type représenté en figure 5C pourraient donc être combinés dans un mode'de réalisation de l'invention afin de présenter à l'utilisateur deux résultats complémentaires.
Filtrage FI
La figure 6 représente schématiquement un autre exemple de premier
Figure img00180003

ensemble de sites ES1, auquel on se référera dans ce qui suit pour illustrer l'étape de filtrage FI. L'ensemble ES1 représenté comprend un faible nombre de sites s, pour des raisons de lisibilité de la figure, et peut en pratique comprendre plusieurs centaines voire plusieurs milliers de sites. L'ensemble ES1 est représenté sous la forme d'un graphe comprenant des"sommets" (sites sj reliés par des liens non orientés qui représentent les liens intersite ou "paires".
Figure img00180004
L'opération de filtrage FI, décrite par l'organigramme de la figure 8 et le tableau 3A annexé, est appliquée à un ensemble de sites ES2 qui est initialement choisi égal à l'ensemble ES1 (étape 300). Toutefois, une sélection de sites parmi les sites de l'ensemble ES1 pourrait être prévue avant le commencement de l'opération de filtrage FI, par exemple une sélection faite en appliquant un préfiltrage du type F2 ou F3 avec une faible profondeur de filtrage.
<Desc/Clms Page number 19>
Figure img00190001
Le filtrage FI consiste à réaliser une sorte"d'effeuillage"de l'ensemble ES2 et comprend une étape 301 consistant à éliminer les sites qui sont connectés aux autres sites par moins de N liens intersite, en commençant par une valeur initiale NO, fixée ici à 1, qui est ensuite incrémentée.
Pour chaque valeur de N, l'étape de suppression 301 doit parfois être répétée plusieurs fois car la suppression de sites présentant moins de N liens fait disparaître des liens intersite et fait généralement apparaître de nouveaux sites désignés moins de N fois, ce qui est détecté au cours d'une étape 302. Si l'on se réfère à l'ensemble ES1 représenté en figure 6, on voit que la suppression du site s8 lors de l'étape de filtrage des sites comprenant moins de 2 liens (étape 301 avec N = 2) fait que le site s7 ne comporte plus qu'un seul lien intersite (le reliant au site s5), ce qui est détecté à l'étape 302. Ainsi, l'étape 301"recherche des sites comprenant moins de 2 liens"est répétée, conduisant à la suppression du site s7.
Le paramètre de filtrage N est incrémenté d'une unité à une étape 304 et les sites comprenant moins de 3 liens sont supprimés, par exemple le site s5 sur la figure 6, puis le site s6. Après un certain nombre d'incrémentations du paramètre N, l'unité centrale atteint puis dépasse le noyau de l'ensemble ES2, de sorte que ce dernier ne contient plus aucun site, ce qui est détecté à une étape de vérification 303 qui intervient avant chaque étape 304. A cet instant, la valeur limite Nz pour laquelle il n'existe plus de site dans l'ensemble ES2 est connue. Une valeur limite NL du paramètre de filtrage N est alors calculée au cours d'une étape 305 au moyen de la relation : NL = N,-S, dans laquelle"S"est un paramètre de sélectivité définissant la profondeur de filtrage, dont la valeur est un entier naturel. Les sites éliminés au cours des"S"dernières étapes de filtrage sont réintroduits dans l'ensemble ES2 au cours d'une étape 306, pour former un ensemble réduit désigné ES2', qui est le résultat du filtrage FI.
Pour fixer les idées, le processus de filtrage FI selon l'invention est illustré sur la figure 7 qui représente l'ensemble ES2 sous la forme de couches concentriques. On distingue une couche LO comprenant les sites qui ne sont pas désignés par d'autres sites, une couche L1 comprenant les sites désignés une fois après retrait de la couche LO, une couche L2 comprenant les sites désignés deux fois après retrait de la couche Ll, et une couche L3
<Desc/Clms Page number 20>
comprenant les sites désignés trois fois après retrait des autres couches, la couche L3 constituant ici le noyau de l'ensemble ES2. La couche LO est supprimée par l'opération de filtrage F1 (N=1), la couche L1 est supprimée par l'opération de filtrage FI (N=2) et la couche L2 est supprimée par l'opération de filtrage FI (N=3). Le noyau L3 est supprimé par l'opération de filtrage FI (N=4). Si le paramètre S est choisi égal à 1, seul le noyau L3 est réintroduit dans l'ensemble ES2 après la dernière étape de filtrage. Si le paramètre S est choisi égal à 2, le noyau L3 et la couche L2 sont réintroduits dans l'ensemble ES2 pour forme l'ensemble réduit ES2'.
Dans l'exemple de la figure 6, on voit que le noyau est constitué par les sites si, s2, s3 et s4 qui sont mutuellement connectés par 3 liens. Ces sites sont supprimés par une étape de filtrage dans laquelle N=4 et sont réintroduit dans l'ensemble vide en choisissant NL = 3.
L'ensemble réduit ES2'obtenu au terme de l'opération de filtrage est présenté à l'utilisateur au cours de l'étape Al décrite plus loin.
Bien entendu, ce procédé de filtrage selon l'invention est susceptible de diverses variantes et modes de réalisation. Notamment, une alternative à la méthode de recherche du noyau est décrite par le tableau 3B annexé. Cette variante consiste à remplacer l'étape 303 de détection de l'ensemble vide par une étape 303'de détermination de la complexité de l'ensemble ES2, et à arrêter le filtrage quand la densité de liens est suffisamment importante. La densité de liens peut être évaluée au moyen de l'indicateur de complexité DI suivant :
DI = N/2 [Ns (NsnE-l)] dans lequel"N"est le nombre de liens entre les sites restants de l'ensemble ES2 et"NgE"le nombre de sites restants. Le filtrage est arrêté lorsque l'indicateur DI devient supérieur à une valeur K représentant la densité recherchée. La valeur limite NL du paramètre de filtrage est la valeur courante de N au moment où le filtrage est arrêté.
Une autre variante consiste à répéter l'opération de filtrage FI après avoir trouvé le noyau, en réintroduisant dans l'ensemble ES2 tous les sites qui s'y trouvaient originellement à l'exception des sites formant le noyau.
Ce deuxième filtrage FI permet de trouver des"sous-noyaux"qui ont été éliminés au cours du premier filtrage FI, afin de les présenter à l'utilisateur. On obtient donc deux ensemble résultats ES2'-1 et ES2'-2 au lieu d'un seul. D'autres résultats peuvent également être obtenus en
<Desc/Clms Page number 21>
Figure img00210001

choisissant la deuxième définition des liens intersite décrite plus haut en relation avec la figure 5C.
Comme cela apparaîtra clairement à l'homme de l'art, l'opération de filtrage Fl selon l'invention ne nécessite aucun calcul mathématique complexe tel un produit matriciel, et peut ainsi être effectuée par un microordinateur de type PC de puissance moyenne. Dans la matrice A représentant les liens intersite, le nombre de liens que présente un site apparaît immédiatement en comptant le nombre de sites se trouvant en regard du site concerné (en se plaçant sur la ligne où le site concerné figure en tant que site de référence). De même, la suppression d'un site au cours du processus de filtrage consiste à supprimer le site de toutes les cases de la matrice où il est mentionné, et à supprimer la ligne où le site se trouve en tant que site de référence. Considérons par exemple que le site s3 soit supprimé de la matrice A décrite plus haut. Après suppression, la matrice A présente l'aspect suivant : MATRICE A après suppression du site s3
Figure img00210002
<tb>
<tb> Site <SEP> de <SEP> référence <SEP> Sites <SEP> liés <SEP> au <SEP> site <SEP> de <SEP> référence
<tb> si <SEP> s2
<tb> s2 <SEP> si
<tb>
Figure img00210003

Pondération des liens intersite de l'ensemble ES1
Les étapes de filtrages F2 et F3 décrites plus loin reposent sur une pondération des liens intersite, réalisée par l'unité centrale au cours de l'étape 26 mentionnée dans l'organigramme de la figure 1. A l'origine, l'idée initiale de l'invention était d'attribuer à chaque lien intersite un poids égal à la somme des liens hypertexte qui sous-tendent le lien intersite, afin de mettre en évidence les sites fortement reliés entre eux. Par la suite, il est apparu avantageux d'attribuer tout d'abord un poids à chacun des liens hypertexte qui sous-tendent un lien intersite puis d'attribuer au lien intersite un poids égal à la somme des poids attribués aux liens hypertexte.
Cette deuxième méthode est équivalente à la première lorsque l'on attribue un poids égal à chaque lien hypertexte. Dans le cas contraire, elle permet d'affiner le processus de pondération des liens intersite en appliquant des valeurs différentes aux poids des divers liens hypertexte.
Ainsi, selon un aspect optionnel mais avantageux de l'invention, la pondération d'un lien hypertexte reliant deux pages appartenant à l'ensemble primaire EPI est choisie plus forte que la pondération d'un lien hypertexte
<Desc/Clms Page number 22>
Figure img00220001

reliant deux pages dont une n'appartient pas à l'ensemble EP1. Ce deuxième type de lien a été mis en évidence au cours des étapes de formation des ensembles EP1 et ES1 et apparaît dans la matrice B décrite plus haut en tant qu'exemple (liens entre une page anonyme et une page de l'ensemble EP1, une page dite anonyme n'appartenant pas à l'ensemble initial EP1 bien qu'appartenant à un site de l'ensemble ES1). Ainsi, on attribue un poids wl aux liens hypertexte qui relient des pages appartenant à l'ensemble initial de pages EP1 et on attribue un poids w2 inférieur à wl à un lien hypertexte dont le point de départ ou d'arrivée est une page anonyme.
Sur l'exemple de la figure 5B, le poids W (1, 2) attribué au lien L (1, 2) reliant les sites si et s2 est ainsi égal à : Wl, 2 = 3wl + 2w2 car le lien intersite L (1, 2) est sous-tendu par trois liens hypertexte de poids wl et deux liens de poids w2, comme on le voit en figure SA.
Toujours de façon optionnelle, il est également avantageux de moduler la pondération des liens hypertexte en prenant en considération divers critères qui donnent ou non de la valeur à ces liens. Parmi les critères pouvant être retenus, citons l'âge d'un site et le nombre de pages que comprend un site. Ainsi, on peut considérer qu'un lien hypertexte reliant deux pages a plus de"valeur"lorsque l'une des deux pages au moins appartient à un site récent que lorsque les deux pages appartiennent à un site ancien. Egalement, on peut considérer qu'un lien hypertexte a plus de valeur lorsque au moins l'une des deux pages appartient à un site comportant un faible nombre de pages que lorsque les deux pages appartiennent à un site très vaste.
Les pages en Annexe 1 et Annexe 2 décrivent deux exemples d'algorithmes mis en oeuvre par l'unité centrale pour la pondération des liens hypertexte et la pondération de liens intersite. Dans ces exemples, qui font partie intégrante de la description, les poids wi, j attribués à des liens hypertexte sont pondérés par combinaison linéaire de critères tels que la nature du lien, l'âge de la page et la taille du site.
Filtrage F2
L'opération de filtrage F2, ou filtrage sur les paires, est décrite par l'organigramme de la figure 9 et le tableau 4A annexé. Ce filtrage du second type repose sur un principe d'élimination par valeurs croissantes proche de
<Desc/Clms Page number 23>
Figure img00230001

celui de l'opération de filtrage FI mais qui est appliqué ici à des poids de liens intersite au lieu d'être appliqué à un nombre de liens intersite.
Le filtrage F2 est appliqué à un ensemble ES3 qui est initialement choisi égal à l'ensemble ES1 mais pourrait également comprendre une sélection des sites de l'ensemble ES2, obtenue par exemple par préfiltrage du type FI ou F3. L'ensemble ES3 ainsi qu'une valeur initiale WO d'un paramètre de filtrage W sont définis au cours de l'étape préliminaire 320. A l'étape 321, l'unité centrale élimine de l'ensemble ES3 tous les liens intersite de poids inférieur à W. Cette étape est suivie d'une étape 322 de suppression des sites isolés, qui ne se trouvent plus liés aux autres sites de l'ensemble ES3 en raison de la suppression de certains liens intersite (ou qui initialement n'étaient liés à aucun autre site). A l'étape 323, un test sur le contenu résiduel de l'ensemble ES3 permet à l'unité centrale de savoir si l'ensemble ES3 est vide. Si la réponse est négative, le paramètre W est incrémenté d'un poids élémentaire"w", par exemple la plus petite valeur incrémentale définie par les paramètres a, b, c, al, bl, cl utilisés dans l'algorithme décrit en Annexe 1. L'unité centrale retourne ensuite à l'étape 321 pour reprendre le processus d'élimination avec une profondeur de filtrage plus grande. Si la réponse est positive, cela signifie que la valeur limite Wz pour laquelle il n'existe plus de site dans l'ensemble ES3 est connue. Une valeur limite W, du
Figure img00230002

paramètre de filtrage W est alors calculée au cours d'une étape 325 au moyen de la relation : WL = Wz-S*w, dans laquelle"S"est un paramètre de sélectivité qui est multiplié par l'incrément"w", la valeur limite WL définissant la profondeur de filtrage. Les liens éliminés au cours des"S"dernières étapes de filtrage et les sites rattachés à ces liens sont réintroduits dans l'ensemble ES3 au cours d'une étape 326, pour former l'ensemble réduit désigné ES3'. Ainsi, seules restent dans l'ensemble réduit ES3'les"paires"de plus fort poids.
L'opération de filtrage F2 est bien entendu susceptible de diverses variantes. Le tableau 4B annexé décrit une variante dans laquelle la méthode de filtrage par épuisement est remplacée par une méthode d'arrêt conditionnel reposant sur un indicateur d'information restante WI. Cet indicateur est par exemple le suivant :
WI = Somme des poids des liens restants/Somme des poids des liens initiaux
<Desc/Clms Page number 24>
Figure img00240001

Ainsi, l'étape 323 de recherche de l'ensemble vide est remplacée par une étape 323'au cours de laquelle l'unité centrale détermine si l'indicateur d'information restante est inférieur à une constante K représentant la limite d'information recherchée. Si la réponse est négative, le paramètre W est incrémenté à l'étape 324 et le processus de filtrage recommence avec une profondeur de filtrage plus grande. Si la réponse est positive, la valeur limite WL du paramètre de filtrage est alors calculée au cours d'une étape 325'en retranchant l'incrément"w"à la valeur courante du paramètre W. L'étape 325'est suivie par l'étape 326 de réintroduction de sites.
Au terme de l'opération de filtrage F2, l'unité centrale dispose d'un ensemble de sites réduit ES3'destiné à être présenté à l'utilisateur au cours de l'étape d'affichage A2. En règle générale, l'ensemble ES3'réduit par le filtrage F2 est très différent de l'ensemble ES2'réduit par filtrage FI. Si l'on se reporte à nouveau à l'exemple de la figure 6 en supposant que le lien L (7,8) entre les sites s7 et s8 est d'un poids W (7,8) plus important que celui des autres liens, il apparaît que les ensembles s7 et s8 sont présents dans l'ensemble ES3'après filtrage F2 alors qu'ils sont supprimés dès la première étape du filtrage FI. Le filtrage F2 permet ainsi de présenter à l'utilisateur des sites qui sont fortement liés entre eux par des liens hypertexte. A l'inverse, le filtrage FI tend à mettre en évidence les sites qui sont souvent cités ou ceux qui citent de nombreuses fois d'autres sites. En pratique, la mise en oeuvre du filtrage F2 est aussi simple que celle du filtrage FI et ne nécessite aucun produit matriciel, ainsi que la mise en oeuvre du filtrage F3 décrit ci-après.
Filtrage F3
Le filtrage F3, décrit par l'organigramme de la figure 10 et les tableaux 5A et 5B annexés, repose sur un principe d'élimination progressive de sites de poids croissant à commencer par une valeur initiale WO'd'un paramètre de filtrage W'. Le filtrage F3 est appliqué à un ensemble ES4 choisi ici égal à l'ensemble ES1 mais qui pourrait ne comprendre qu'une partie des sites de l'ensemble ES1 si un préfiltrage était prévu. Le poids de chaque site, calculé à l'étape 341, est égal à la somme des poids des liens hypertextes auxquels le site est attaché. Ainsi, en se référant à l'exemple de la figure 6, le poids attribué au site s2 est égal à la somme des poids W (2,6), W (2,5), W (2,4), W (2,3) et W (2, 1) attribués aux liens reliant le site s2 aux autres sites de l'ensemble ES4. Après suppression des sites de poids
<Desc/Clms Page number 25>
Figure img00250001

WO'et des liens correspondants, le paramètre W est incrémenté d'une valeur w'et les sites de poids WO'+ w'sont supprimés. Après chaque cycle de suppression, le poids des sites restant en lice est recalculé à l'étape 343 pour tenir compte des liens supprimés (les liens ayant une extrémité non connectée à un site n'étant pas conservés). Comme précédemment, le filtrage est arrêté en appliquant la méthode de l'épuisement (tableau 5A) ou en appliquant la méthode de l'arrêt conditionnel (tableau 5B) faisant intervenir l'indicateur d'information restante WI décrit plus haut. On obtient un ensemble réduit référencé ES4'.
Au terme du processus de filtrage F3, seuls restent les"sommets"du graphe de plus fort poids. A noter que le filtrage F3 est sensible à la manière dont le calcul de pondération des liens intersite est effectué, et est par conséquent sensible aux paramètres pris en compte pour la pondération (âge et taille des sites, etc..). Si le poids appliqué à chaque lien intersite est égal à 1, l'opération de filtrage F3 devient équivalente à l'opération de filtrage FI car le poids de chaque site est dans ce cas proportionnel au nombre de liens rattachés au site.
En pratique, il est envisageable de prévoir plusieurs modes de pondération pour l'obtention de plusieurs résultats de filtrage F2 et/ou de filtrage F3 mettant en relief tel ou tel aspect du champ des réponses possibles à l'équation de recherche, par exemple en modulant les valeurs des paramètres a, b, c, al, bl, cl dans l'algorithme décrit en Annexe 1. Une liste de paramètres pouvant intervenir dans le processus de pondération peut par ailleurs être proposée à l'utilisateur afin que ce dernier configure à son goût le"moteur de sélection"selon l'invention.
Affichages Al, A2, A3
Une fois les opérations de filtrage FI, F2, F3 terminées, les résultats sont présentés sur l'écran 12 du micro-ordinateur 10 de l'utilisateur. La présentation du résultat peut être faite de façon classique, par exemple sous la forme de trois listes de pages Web correspondant respectivement aux pages de l'ensemble initial EP1 appartenant aux sites présents dans les ensembles réduits ES2', ES3', ES4'.
Toutefois, selon un aspect de l'invention, les sites contenus par les ensembles ES2', ES3', ES4'sont de préférence présentés sous forme d'objets interactifs sélectionnables, en représentant simultanément les liens intersite entre les sites sous une forme compréhensible par l'utilisateur, par exemple sous forme de traits.
<Desc/Clms Page number 26>
Figure img00260001
A titre d'exemple, la figure 11A représente l'affichage du résultat d'une recherche faite sur la base de l'équation de recherche suivante :
RI ="dsml" qui vise à rechercher des informations sur le langage de programmation appelé "dsml".
Le résultat du filtrage, ici un filtrage FI, est représenté sous la forme d'objets sites prenant la forme de rectangles sélectionnables à l'intérieur desquels sont mentionnées les adresses des sites, les liens intersite entre les objets sites étant matérialisés par des flèches. Cette méthode de représentation graphique combinée à l'affichage des liens intersite fait immédiatement apparaître les sites du noyau de l'ensemble ES2.
Une telle représentation confère au graphique une grande clarté et oriente immédiatement l'utilisateur vers les sites centraux. Le nombre de sites rattachés par des liens intersite aux sites centraux est représenté, à titre d'information, par un nombre entouré dans un cercle. Comme on le voit en figure 11B, la sélection interactive d'un site (par exemple au moyen d'un pointeur d'écran et d'un"clic"de souris) fait apparaître les pages Web de l'ensemble initial EPI qui appartiennent au site sélectionné, ainsi que des informations relatives à ces pages (une seule page est représentée en figure 11B car le site sélectionné ne comprend qu'une page appartenant à l'ensemble initial EPI). Les pages apparaissant suite à la sélection d'un site sont elles-mêmes des objets sélectionnables pour l'accès direct au contenu des pages. Les liens intersite sont également des objets interactifs dont la sélection entraîne l'affichage d'informations (non représenté), par exemple le nombre de liens hypertexte qui sous-tendent le lien intersite ou des informations sur les sites liés par le lien sélectionné. Les liens intersite sont représentés par des flèches bidirectionnelles lorsqu'ils sont soustendus par des liens hypertexte de sens contraires, ou par des flèches unidirectionnelles lorsqu'ils sont sous-tendus par des liens hypertexte de même sens. Enfin, les liens intersite sont présentés avec des couleurs différentes pour informer l'utilisateur du nombre de liens hypertexte qui les sous-tendent, le noir étant par exemple réservé aux liens intersite comprenant le plus grand nombre de liens hypertexte, le rouge réservé aux liens intersite comprenant moins de liens hypertexte, etc.. Dans le cas d'un filtrage F2 ou F3, la couleur représente le poids attribué aux liens intersite plutôt que le nombre de liens hypertexte sous-jacents. Comme
<Desc/Clms Page number 27>
Figure img00270001

illustré en figure 11C, il est également possible de remplacer les diverses couleurs par des épaisseurs de liens, un lien intersite étant plus ou moins épais selon le nombre de liens hypertexte qui le sous-tendent (filtrage FI) ou selon leur poids (filtrage F2, F3).
De façon générale, il ressort de ce qui précède que la combinaison des étapes de filtrage selon l'invention et de la représentation graphique du résultat de filtrage sous forme d'objets sites et de liens intersite, ainsi que le fait que la sélection d'un objet-site entraîne l'affichage des pages Web de l'ensemble initial EPI, elles-mêmes présentées sous forme d'objets sélectionnables, constituent un outil de recherche et de sélection de pages Web d'une efficacité et d'une convivialité remarquables.
Un tel affichage est bien entendu susceptible de diverses variantes, les objets sites pouvant être représentés sous diverses formes, dans un espace à deux ou à trois dimensions. En outre, diverses options peuvent être proposées à l'utilisateur en vue d'ajuster la présentation des résultats à l'écran, notamment des options concernant le filtrage lui-même. En particulier, la possibilité peut être offerte à l'utilisateur de changer à tout instant le paramètre de sélectivité"S"décrit plus haut, ou encore la valeur limite autorisée de l'indice de complexité DI ou celle de l'indicateur d'information WI. Ce paramétrage des caractéristiques de filtrage permet à l'utilisateur d'augmenter ou de diminuer le nombre de sites présentés à l'écran.
Bien qu'étant indépendantes, les opérations de filtrage FI, F2, F3 selon l'invention pourront avantageusement être combinées pour offrir à l'utilisateur trois résultats différents, voire plus, représentant trois aspects du champ des réponses possibles à l'équation de recherche. Les trois résultats peuvent être présentés simultanément sur l'écran d'un microordinateur, par exemple en divisant l'écran en quatre parties distinctes. Le premier quart d'écran représente l'ensemble ES2'et les liens intersite entre les sites. Le second quart d'écran représente l'ensemble ES3'et les liens intersite, par exemple sous forme de traits d'épaisseurs différentes. Le troisième quart d'écran représente l'ensemble ES4'et des sites de couleurs différentes selon le poids attribué aux sites. Enfin, le quatrième quart d'écran peut être réservé à l'affichage, sous forme d'objets sélectionnables, des pages Web de l'ensemble initial EPI appartenant aux sites Web que l'utilisateur sélectionne dans l'un des trois autres quarts d'écran.
Il apparaîtra clairement à l'homme de l'art que la présente invention est susceptible de diverses variantes et modes de réalisation, tant en ce qui
<Desc/Clms Page number 28>
Figure img00280001

concerne les étapes de filtrage que les étapes de formation de l'ensemble initial EP1 de pages Web.
Notamment, bien que l'on ait indiqué dans ce qui précède que les étapes 10,20 et les opérations de filtrage FI, F2 et F3 sont réalisées par l'unité centrale d'un micro-ordinateur, de telles étapes et opérations peuvent également être réalisées par un moteur de recherche, par exemple l'un des moteurs El, E2 ou E3 représentés en figure 1. Dans ce cas, seules les opérations d'affichage Al, A2, A3 sont exécutées par le terminal de l'utilisateur, ainsi que l'étape d'envoi de l'équation de recherche Rl. Le terminal de l'utilisateur est alors déchargé des opérations de calcul et de filtrage et peut revêtir diverses formes autres que celle d'un microordinateur, par exemple un téléphone portable ou un poste de télévision connecté à Internet. Le terminal de l'utilisateur constitue dans ce cas le "client"qui émet une équation de recherche et reçoit en réponse les résultats de l'une ou de chacune des opérations de filtrage FI, F2, F3.
D'autre part, il résulte de ce qui précède que les caractéristiques de l'invention relatives à l'affichage des résultats sous forme d'objets sites demeurent optionnelles au regard de celles relatives au filtrage, notamment lorsqu'elles ne peuvent être mises en oeuvre pour des raisons techniques, ce qui est le cas lorsque l'utilisateur effectue une recherche au moyen d'un dispositif ne comprenant qu'un afficheur de faibles dimensions, comme un téléphone portable connecté à Internet. Dans ce cas, un affichage des résultats sous la forme d'une liste de sites Web peut être envisagé, ou encore un affichage classique d'une liste de pages Web. Une telle liste est toutefois réduite en ce qu'elle ne comprend que les pages de l'ensemble initial pi qui appartiennent aux sites de l'un des ensembles ES2', ES3', ES4'.
<Desc/Clms Page number 29>
Figure img00290001
Exemple d'algorithme de pondération des liens hypertexte "Pi"= page de rang i "pj"= page de rang j "si"= site d'appartenance de pi "sj"= site d'appartenance de pj "L (i, j)"= lien de Pi vers pj "w (i, j)" : poids du lien L (i, j) "n"= nombre de pages dans EP1
Figure img00290002

CRIT1 = valeur affectée au premier critère CRIT2 = valeur affectée au second critère CRIT3 = valeur affectée au troisième critère a, b, c réels positifs tels que : a + b + c = 1 al appartient à l'ensemble [0, 1] bl appartient à l'ensemble [0, 1] cl appartient à l'ensemble [0, 1] pour i allant de 1 à n pour j allant de 1 à n < départ > w (i, j) = 0, CRIT1 = 0, CRIT2 = 0, CRIT3 = 0 Si"pi"ne désigne pas"p"aller à < boucle 1 > Si "p1" et "pj" appartiennent à EP1 : CRIT1 = al, sinon CRIT1 = 1-al Si âge de"si"et âge de "sj" supérieurs à X années : CRIT2 = bl sinon CRIT2 =
Figure img00290003

1-bl Si "Si" et "sj" contiennent plus de Y pages : CRIT3 = cl sinon CRIT3 = 1-cl w (i, j) = a CRIT1 + b CRIT2 + c CRIT3 < boucle 1 > j =j+l Si j n : aller à < départ > < boucle 2 >
Figure img00290004

j= 0 i = i+l Si i n : aller à < départ > fin
<Desc/Clms Page number 30>
Figure img00300001

Exemple d'algorithme de pondération des liens intersite "si"= site de rang i "sj" = site de rang j "pk"= pages de rang k "Pi"= page de rang l "jk, l" = lien hypertexte de "pk" vers "p1" "w (k, l)" = poids de "jk, l" "L (i, j)" = lien intersite de "si" vers "sj" "W =poids du lien"L (i, j)" "n"= nombre de pages dans EP1 "m"nombre de sites dans ES1 pour k allant de 1 à n, pour 1 allant de 1 à n, pour i allant de 1 à m, pour j allant de 1 à m, < départ > w (i, j) = 0
Figure img00300002

Si"p"ne désigne pas"pi" : aller à < boucle 1 > Si'Ipk"appartient à"si"et"pl"appartient à'Isj" : W (i, j) = W (i, j) + w (k, l) < boucle 1 > 1 = 1+1, si 1 n : aller à < départ > < boucle 2 > 1= 0 k = k+l Si k n : aller à < départ > < boucle 3 > k = 1 = 0 j = J+l, si j m : aller à < départ > < boucle 4 > k = 1 = j = 0, i = i+1 Si i n : aller à < départ > fin
<Desc/Clms Page number 31>
ANNEXE 3 (faisant partie intégrante de la description)
Tableau 1 (et figure 1)
Figure img00310001
<tb>
<tb> Etape <SEP> 10
<tb> Recherche <SEP> de <SEP> pages <SEP> Web <SEP> au <SEP> moyen <SEP> d'un <SEP> moteur <SEP> de <SEP> recherche,
<tb> en <SEP> relation <SEP> avec <SEP> une <SEP> équation <SEP> de <SEP> recherche, <SEP> pour <SEP> former <SEP> un <SEP> ensemble <SEP> initial <SEP> EPI <SEP> de <SEP> pages <SEP> Web
<tb> Etape <SEP> 20
<tb> Détermination <SEP> d'un <SEP> premier <SEP> ensemble <SEP> ES <SEP> 1 <SEP> de <SEP> sites <SEP> Web <SEP> à <SEP> partir <SEP> de <SEP> l'ensemble <SEP> initial <SEP> EPI <SEP> de
<tb> pages <SEP> Web
<tb> Etape <SEP> 25
<tb> Détermination <SEP> des <SEP> liens <SEP> intersite <SEP> reliant <SEP> les <SEP> sites <SEP> de <SEP> l'ensemble <SEP> ES <SEP> 1
<tb> Etape <SEP> 26
<tb> Filtrage <SEP> FI <SEP> Pondération <SEP> des <SEP> liens <SEP> de <SEP> l'ensemble <SEP> ES <SEP> 1
<tb> Filtrage <SEP> par <SEP> effeuillage
<tb> Filtrage <SEP> F2 <SEP> Filtrage <SEP> F3
<tb> Ensemble <SEP> de <SEP> départ <SEP> : <SEP> Filtrage <SEP> sur <SEP> les <SEP> paires <SEP> Filtrage <SEP> sur <SEP> les <SEP> sommets
<tb> ES2 <SEP> = <SEP> ES <SEP> 1 <SEP> (avec <SEP> pondération <SEP> des <SEP> sites)
<tb> Ensemble <SEP> d'arrivée <SEP> : <SEP> Ensemble <SEP> de <SEP> départ <SEP> : <SEP> Ensemble <SEP> de <SEP> départ <SEP> :
<tb> ES2'= <SEP> F1 <SEP> (ES1) <SEP> ES3 <SEP> = <SEP> ES1 <SEP> ES4 <SEP> = <SEP> ES1
<tb> Ensemble <SEP> d'arrivée <SEP> : <SEP> Ensemble <SEP> d'arrivée <SEP> :
<tb> ES3'= <SEP> F2 <SEP> (ESI) <SEP> ES4'= <SEP> F3 <SEP> (ESI)
<tb> Affichage <SEP> A1 <SEP> Affichage <SEP> A2 <SEP> Affichage <SEP> A3
<tb> Affichage <SEP> des <SEP> sites <SEP> de <SEP> l'ensemble <SEP> Affichage <SEP> des <SEP> sites <SEP> de <SEP> Affichage <SEP> des <SEP> sites <SEP> de
<tb> ES2'en <SEP> tant <SEP> qu'objets <SEP> interactifs <SEP> l'ensemble <SEP> ES3'en <SEP> tant <SEP> l'ensemble <SEP> ES4'en <SEP> tant
<tb> sélectionnables <SEP> qu'objets <SEP> interactifs <SEP> qu'objets <SEP> interactifs
<tb> ou <SEP> : <SEP> sélectionnables <SEP> sélectionnables
<tb> Affichage <SEP> des <SEP> pages <SEP> de <SEP> ou <SEP> : <SEP> ou <SEP> :
<tb> l'ensemble <SEP> initial <SEP> EPI <SEP> Affichage <SEP> des <SEP> pages <SEP> de <SEP> Affichage <SEP> des <SEP> pages <SEP> de
<tb> appartenant <SEP> aux <SEP> sites <SEP> de <SEP> l'ensemble <SEP> initial <SEP> EP <SEP> 1 <SEP> l'ensemble <SEP> initial <SEP> EP <SEP> 1
<tb> l'ensemble <SEP> ES2'appartenant <SEP> aux <SEP> sites <SEP> de <SEP> appartenant <SEP> aux <SEP> sites <SEP> de
<tb> l'ensemble <SEP> ES3'l'ensemble <SEP> ES4'
<tb>
<Desc/Clms Page number 32>
Tableau 2 (et figure 3)
Figure img00320001
<tb>
<tb> Etape <SEP> 100
<tb> Recherche <SEP> de <SEP> pages <SEP> Web <SEP> au <SEP> moyen <SEP> d'un <SEP> moteur <SEP> de <SEP> recherche, <SEP> en <SEP> relation <SEP> avec <SEP> une <SEP> équation <SEP> de
<tb> recherche
<tb> Résultat <SEP> = <SEP> Ensemble <SEP> primaire <SEP> PI
<tb> Etape <SEP> 200
<tb> Extraction <SEP> des <SEP> sites <SEP> correspondant <SEP> aux <SEP> pages <SEP> de <SEP> l'ensemble <SEP> PI
<tb> Résultat <SEP> = <SEP> ensemble <SEP> primaire <SEP> SI
<tb> Option <SEP> 1 <SEP> Option <SEP> 2
<tb> Etape <SEP> 110 <SEP> Etape <SEP> 120
<tb> 110a <SEP> : <SEP> Recherche <SEP> de <SEP> pages <SEP> Web <SEP> désignant <SEP> au <SEP> 120a <SEP> : <SEP> Recherche <SEP> de <SEP> pages <SEP> Web <SEP> désignées <SEP> par
<tb> moins <SEP> une <SEP> page <SEP> appartenant <SEP> à <SEP> un <SEP> site <SEP> de <SEP> au <SEP> moins <SEP> une <SEP> page <SEP> appartenant <SEP> à <SEP> un <SEP> site <SEP> de
<tb> l'ensemble <SEP> SI <SEP> et <SEP> satisfaisant <SEP> l'équation <SEP> de <SEP> l'ensemble <SEP> SI <SEP> et <SEP> satisfaisant <SEP> l'équation <SEP> de
<tb> recherche <SEP> recherche
<tb> Résultat <SEP> = <SEP> ensemble <SEP> primaire <SEP> P2 <SEP> Résultat <SEP> = <SEP> ensemble <SEP> primaire <SEP> P3
<tb> 110b <SEP> : <SEP> Recherche <SEP> de <SEP> pages <SEP> Web <SEP> désignant <SEP> au <SEP> 120b <SEP> : <SEP> Recherche <SEP> de <SEP> pages <SEP> Web <SEP> désignées <SEP> par
<tb> moins <SEP> une <SEP> page <SEP> de <SEP> l'ensemble <SEP> Pl <SEP> et <SEP> satisfaisant <SEP> au <SEP> moins <SEP> une <SEP> page <SEP> de <SEP> l'ensemble <SEP> Pl <SEP> et
<tb> l'équation <SEP> de <SEP> recherche <SEP> satisfaisant <SEP> l'équation <SEP> de <SEP> recherche
<tb> Résultat <SEP> = <SEP> ensemble <SEP> primaire <SEP> P2'Résultat <SEP> = <SEP> ensemble <SEP> primaire <SEP> P3'
<tb> Etape <SEP> 210 <SEP> Etape <SEP> 220
<tb> Extraction <SEP> des <SEP> sites <SEP> correspondant <SEP> aux <SEP> pages <SEP> Extraction <SEP> des <SEP> sites <SEP> correspondant <SEP> aux <SEP> pages
<tb> de <SEP> l'ensemble <SEP> P2 <SEP> de <SEP> l'ensemble <SEP> P3
<tb> Résultat <SEP> = <SEP> ensemble <SEP> primaire <SEP> S2 <SEP> Résultat <SEP> = <SEP> ensemble <SEP> primaire <SEP> S3
<tb> Etape <SEP> 130
<tb> Détermination <SEP> de <SEP> l'ensemble <SEP> initial <SEP> de <SEP> pages <SEP> Web <SEP> :
<tb> Option <SEP> 1= > EP1=P1+P2
<tb> Option <SEP> 2 <SEP> = > EP1 <SEP> = <SEP> P1+P3
<tb> Option <SEP> 1 <SEP> et <SEP> Option <SEP> 2
<tb> EPI <SEP> = <SEP> P1+P2+P3
<tb> Etape <SEP> 230
<tb> Détermination <SEP> du <SEP> premier <SEP> ensemble <SEP> de <SEP> sites <SEP> Web <SEP> :
<tb> Option <SEP> 1 <SEP> = > <SEP> ES <SEP> 1= <SEP> S1+S2
<tb> Option <SEP> 2 <SEP> = > <SEP> ES <SEP> 1 <SEP> =S1+S3
<tb> Option <SEP> 1 <SEP> et <SEP> Option <SEP> 2
<tb> = > <SEP> ES1 <SEP> = <SEP> S1+S2+S3
<tb>
<Desc/Clms Page number 33>
Figure img00330001

5
Figure img00330002

Tableau 3A (et figure 8) : filtrage par effeuillage (FI) avec épuisement
Figure img00330003
<tb>
<tb> Etape <SEP> 300
<tb> Ensemble <SEP> de <SEP> départ <SEP> ES2, <SEP> Aller <SEP> à <SEP> 301
<tb> avec <SEP> ES2 <SEP> = <SEP> ES <SEP> 1
<tb> N= <SEP> 1
<tb> Etape <SEP> 301
<tb> Suppression <SEP> des <SEP> sites <SEP> comprenant <SEP> moins <SEP> de <SEP> N <SEP> liens <SEP> avec <SEP> Aller <SEP> à <SEP> 302
<tb> autres <SEP> sites <SEP> et <SEP> suppression <SEP> des <SEP> liens <SEP> correspondants
<tb> Etape302 <SEP> Oui <SEP> : <SEP> aller <SEP> à <SEP> 301
<tb> Reste-t-il <SEP> des <SEP> sites <SEP> comprenant <SEP> moins <SEP> de <SEP> N <SEP> liens <SEP> ? <SEP> Non <SEP> : <SEP> aller <SEP> à <SEP> 303
<tb> Etape <SEP> Non <SEP> : <SEP> aller <SEP> à <SEP> 304
<tb> ES2 <SEP> = <SEP> vide <SEP> ? <SEP> Oui <SEP> : <SEP> aller <SEP> à <SEP> 305
<tb> Etape <SEP> 304 <SEP> Aller <SEP> à <SEP> 301
<tb> N=N+1
<tb> Etape <SEP> 305 <SEP> Aller <SEP> à <SEP> 306
<tb> Ni <SEP> = <SEP> N
<tb> NL <SEP> = <SEP> Nz-S
<tb> Etape <SEP> 306 <SEP> Fin
<tb> Réintroduire <SEP> dans <SEP> ES2 <SEP> les <SEP> sites <SEP> comprenant <SEP> au <SEP> moins <SEP> NL
<tb> liens <SEP> avec <SEP> les <SEP> autres <SEP> sites
<tb>
Tableau 3B : filtrage par effeuillage (FI) avec arrêt conditionnel
Figure img00330004
<tb>
<tb> Etape <SEP> 300 <SEP> aller <SEP> à <SEP> 301
<tb> Ensemble <SEP> de <SEP> départ <SEP> ES2,
<tb> avec <SEP> ES2 <SEP> = <SEP> ES <SEP> 1
<tb> N <SEP> = <SEP> 1
<tb> Etape <SEP> 301 <SEP> aller <SEP> à <SEP> 302
<tb> Suppression <SEP> des <SEP> sites <SEP> désignés <SEP> comprenant <SEP> moins <SEP> N <SEP> liens
<tb> avec <SEP> les <SEP> autres <SEP> sites <SEP> et <SEP> suppression <SEP> des <SEP> liens <SEP> correspondants
<tb> Etape <SEP> 302 <SEP> oui <SEP> : <SEP> aller <SEP> à <SEP> 301
<tb> Reste-t-il <SEP> des <SEP> sites <SEP> comprenant <SEP> moins <SEP> de <SEP> N <SEP> liens <SEP> ? <SEP> non <SEP> : <SEP> aller <SEP> à <SEP> 303'
<tb> Etape <SEP> 303'oui <SEP> : <SEP> aller <SEP> à <SEP> 307
<tb> Indicateur <SEP> de <SEP> complexité <SEP> non <SEP> : <SEP> aller <SEP> à <SEP> 304
<tb> DI > K <SEP> ?
<tb> Etape <SEP> 304 <SEP> aller <SEP> à <SEP> 301
<tb> N=N+1
<tb> Etape <SEP> 307
<tb> Fin
<tb> NL=N
<tb>
<Desc/Clms Page number 34>
Tableau 4A (et figure 9) : filtrage sur les paires (F2) avec épuisement
Figure img00340001
<tb>
<tb> Etape <SEP> 320
<tb> Ensemble <SEP> de <SEP> départ <SEP> ES3, <SEP> Aller <SEP> à <SEP> 321
<tb> avec <SEP> ES3 <SEP> = <SEP> ES <SEP> 1
<tb> W=WO
<tb> Etape <SEP> 321
<tb> Suppression <SEP> des <SEP> liens <SEP> de <SEP> poids <SEP> inférieur <SEP> à <SEP> W <SEP> Aller <SEP> à <SEP> 322
<tb> Etape <SEP> 322
<tb> Suppression <SEP> des <SEP> sites <SEP> non <SEP> liés <SEP> par <SEP> des <SEP> liens <SEP> aux <SEP> autres <SEP> sites <SEP> de <SEP> Aller <SEP> à <SEP> 322
<tb> l'ensemble <SEP> ES3
<tb> Etape <SEP> Non <SEP> : <SEP> aller <SEP> à <SEP> 324
<tb> ES3 <SEP> = <SEP> vide <SEP> ? <SEP> Oui <SEP> : <SEP> aller <SEP> à <SEP> 325
<tb> Etape324 <SEP> Aller <SEP> à <SEP> 321
<tb> W=W+w
<tb> Etape <SEP> 325 <SEP> Aller <SEP> à <SEP> 326
<tb> WZ=W
<tb> WL=WZ-S*w
<tb> Etape <SEP> 326 <SEP> Fin
<tb> Réintroduire <SEP> dans <SEP> ES3 <SEP> les <SEP> liens <SEP> intersite <SEP> de <SEP> poids <SEP> au <SEP> moins <SEP> égal <SEP> à
<tb> WL <SEP> et <SEP> les <SEP> sites <SEP> points <SEP> de <SEP> départ <SEP> et <SEP> d'arrivée <SEP> des <SEP> liens
<tb>
Tableau 4B : filtrage sur les paires (F2) avec arrêt conditionnel
Figure img00340002
<tb>
<tb> Etape <SEP> 320 <SEP> aller <SEP> à <SEP> 321
<tb> Ensemble <SEP> de <SEP> départ <SEP> ES2,
<tb> avec <SEP> ES2 <SEP> = <SEP> ES <SEP> 1
<tb> W=WO
<tb> Etape <SEP> aller <SEP> à <SEP> 322
<tb> Suppression <SEP> des <SEP> liens <SEP> de <SEP> poids <SEP> inférieur <SEP> à <SEP> W
<tb> Etape <SEP> 322
<tb> aller <SEP> à <SEP> 323'
<tb> Suppression <SEP> des <SEP> sites <SEP> non <SEP> liés <SEP> par <SEP> des <SEP> liens <SEP> aux <SEP> autres <SEP> sites <SEP> de
<tb> l'ensemble <SEP> ES3
<tb> Etape <SEP> 323'oui <SEP> : <SEP> aller <SEP> à <SEP> 325'
<tb> Indicateur <SEP> d'information <SEP> restante <SEP> non <SEP> : <SEP> aller <SEP> à <SEP> 324
<tb> WI < K <SEP> ?
<tb> Etape <SEP> 324 <SEP> aller <SEP> à <SEP> 321
<tb> W=W+w
<tb> Etape <SEP> 325'aller <SEP> à <SEP> 326
<tb> WL <SEP> = <SEP> W-w
<tb> Etape <SEP> 326 <SEP> Fin
<tb> Réintroduire <SEP> dans <SEP> ES3 <SEP> les <SEP> liens <SEP> intersite <SEP> de <SEP> poids <SEP> au <SEP> moins <SEP> égal <SEP> à
<tb> WL <SEP> et <SEP> les <SEP> sites <SEP> points <SEP> de <SEP> départ <SEP> et <SEP> d'arrivée <SEP> des <SEP> liens
<tb>
<Desc/Clms Page number 35>
Tableau SA (et figure 10) : filtrage sur les sommets (F3) avec épuisement
Figure img00350001
<tb>
<tb> Etape <SEP> 340
<tb> Ensemble <SEP> de <SEP> départ <SEP> ES4, <SEP> Aller <SEP> à <SEP> 341
<tb> avec <SEP> ES4 <SEP> = <SEP> ES1, <SEP> W'= <SEP> WO'
<tb> Etape <SEP> 341
<tb> Calcul <SEP> du <SEP> poids <SEP> de <SEP> chaque <SEP> site <SEP> Aller <SEP> à <SEP> 342
<tb> Etape <SEP> 342
<tb> Suppression <SEP> des <SEP> sites <SEP> de <SEP> poids <SEP> inférieur <SEP> à <SEP> W'et <SEP> suppression <SEP> des <SEP> Aller <SEP> à <SEP> 343
<tb> liens <SEP> correspondants
<tb> Etape <SEP> 343
<tb> Calcul <SEP> du <SEP> poids <SEP> résiduel <SEP> de <SEP> chaque <SEP> site <SEP> Aller <SEP> à <SEP> 344
<tb> Etape <SEP> Oui <SEP> : <SEP> aller <SEP> à <SEP> 342
<tb> Reste-t-il <SEP> des <SEP> sites <SEP> de <SEP> poids <SEP> inférieur <SEP> à <SEP> W' <SEP> ? <SEP> Non <SEP> : <SEP> aller <SEP> à <SEP> 345
<tb> Etape <SEP> Non <SEP> : <SEP> aller <SEP> à <SEP> 346
<tb> ES4 <SEP> = <SEP> vide <SEP> ? <SEP> Oui <SEP> : <SEP> aller <SEP> à <SEP> 347
<tb> Etape <SEP> 346 <SEP> : <SEP> W'= <SEP> W'+ <SEP> w'Aller <SEP> à <SEP> 342
<tb> Etape <SEP> 347 <SEP> Aller <SEP> à <SEP> 348
<tb> W'z <SEP> = <SEP> W
<tb> W'L <SEP> = <SEP> W'z-S'*w
<tb> Etape <SEP> 348 <SEP> Fin
<tb> Réintroduire <SEP> dans <SEP> ES4 <SEP> les <SEP> sites <SEP> de <SEP> poids <SEP> au <SEP> moins <SEP> égal <SEP> à <SEP> W'L <SEP> et <SEP> les
<tb> sites <SEP> points <SEP> de <SEP> départ <SEP> ou <SEP> d'arrivée <SEP> des <SEP> liens <SEP> intersite
<tb>
Tableau 5B : filtrage sur les sommets (F3) avec arrêt conditionnel
Figure img00350002
<tb>
<tb> Etape <SEP> 340
<tb> Ensemble <SEP> de <SEP> départ <SEP> ES4, <SEP> Aller <SEP> à <SEP> 341
<tb> avecES4=ESl, <SEP> W'=WO'
<tb> Etape <SEP> 341
<tb> Calcul <SEP> du <SEP> poids <SEP> de <SEP> chaque <SEP> site <SEP> Aller <SEP> à <SEP> 342
<tb> Etape <SEP> 342
<tb> Suppression <SEP> des <SEP> sites <SEP> de <SEP> poids <SEP> inférieur <SEP> à <SEP> W'et <SEP> suppression <SEP> des <SEP> Aller <SEP> à <SEP> 343
<tb> liens <SEP> correspondants
<tb> Etape <SEP> 343
<tb> Calcul <SEP> du <SEP> poids <SEP> résiduel <SEP> de <SEP> chaque <SEP> site <SEP> Aller <SEP> à <SEP> 344
<tb> Etape <SEP> 344 <SEP> Oui <SEP> : <SEP> aller <SEP> à <SEP> 342
<tb> Reste-t-il <SEP> des <SEP> sites <SEP> de <SEP> poids <SEP> inférieur <SEP> à <SEP> W' <SEP> ? <SEP> Non <SEP> : <SEP> aller <SEP> à <SEP> 345'
<tb> Etape <SEP> 345'oui <SEP> : <SEP> aller <SEP> à <SEP> 347'
<tb> Indicateur <SEP> d'information <SEP> restante <SEP> non <SEP> : <SEP> aller <SEP> à <SEP> 346
<tb> WI' < <SEP> K <SEP> ?
<tb> Etape <SEP> 346 <SEP> : <SEP> W'= <SEP> W'+ <SEP> w'aller <SEP> à <SEP> 342
<tb> Etape <SEP> 347' <SEP> : <SEP> W'L <SEP> = <SEP> W'-w'Aller <SEP> à <SEP> 348'
<tb> Etape <SEP> 348'
<tb> Réintroduire <SEP> dans <SEP> ES4 <SEP> les <SEP> sites <SEP> de <SEP> poids <SEP> au <SEP> moins <SEP> égal <SEP> à <SEP> W'L <SEP> et <SEP> les
<tb> sites <SEP> points <SEP> de <SEP> départ <SEP> ou <SEP> d'arrivée <SEP> des <SEP> liens <SEP> intersite
<tb>

Claims (22)

  1. Figure img00360001
    initialement tout ou partie des sites du premier ensemble de sites (ES1), permettant d'obtenir un ensemble de sites réduit (ES2', ES3', ES4') comportant un nombre de sites plus faible que le premier ensemble de sites (ES1) - une étape (Al, A2, A3) de présentation, sur un moyen d'affichage, des sites d'au moins un ensemble de sites réduit (ES2', ES3', ES4') ou des pages de l'ensemble initial de pages (EPI) appartenant aux sites d'au moins un ensemble de sites réduit (ES2', ES3', ES4').
    Figure img00360002
    REVENDICATIONS 1. Procédé de recherche et de sélection de pages Web en relation avec une équation de recherche, comprenant une étape de détermination, par l'intermédiaire d'au moins un moteur de recherche, d'un ensemble initial de pages Web (EP1), caractérisé en ce qu'il comprend : - une étape de détermination d'un premier ensemble de sites Web (ES1) comprenant les sites correspondant aux pages Web de l'ensemble initial (EP1), dans lequel des sites sont reliés par des liens intersite, un site (s étant relié à un autre site (s) par lien intersite (L (i, j)) lorsqu'il existe un ou plusieurs liens hypertexte entre des pages Web des deux sites considérés, - au moins une opération de filtrage (FI, F2, F3) fondée sur les liens intersite, appliquée à un ensemble de sites (ES2, ES3, ES4) comprenant
  2. 2. Procédé selon la revendication 1, dans lequel un lien intersite correspond à un ou plusieurs liens hypertexte entre des pages Web des deux sites considérés, quel que soit le sens des liens hypertexte.
  3. 3. Procédé selon l'une des revendications 1 à 2, comprenant une opération de filtrage d'un premier type (FI) appliquée à un second ensemble de sites (ES2) comprenant initialement tout ou partie des sites du premier ensemble de sites (ES1), l'opération de filtrage du premier type comprenant une étape (301) consistant à éliminer du second ensemble de sites (ES2) les sites reliés par moins de N liens intersite aux autres sites du second ensemble de sites (ES2), N étant un paramètre de filtrage au moins égal à 1.
    <Desc/Clms Page number 37>
    Figure img00370001
  4. 4. Procédé selon la revendication 3, dans lequel l'étape d'élimination de sites est répétée pour des valeurs de N croissantes à commencer par une valeur initiale No jusqu'à une valeur limite NL définissant une profondeur de filtrage.
  5. 5. Procédé selon l'une des revendications 1 à 4, comprenant une étape de pondération des liens intersite (L (i, j)) du premier ensemble de sites, consistant à attribuer un poids déterminé (W (i, j)) à chaque lien intersite.
  6. 6. Procédé selon la revendication 5, comprenant une opération de filtrage d'un second type (F2) appliquée à un troisième ensemble de sites (ES3) comprenant initialement tout ou partie des sites du premier ensemble de sites (ES1), l'opération de filtrage du second type comprenant une
    Figure img00370002
    étape (321) consistant à éliminer des liens intersite de poids inférieur à un paramètre W, suivie d'une étape (322) d'élimination des sites qui ne sont reliés à aucun autre site par un lien intersite.
  7. 7. Procédé selon la revendication 6, dans lequel les étapes (321, 322) d'élimination de liens intersite et d'élimination de sites sont répétées pour des valeurs croissantes du paramètre W à commencer par une valeur initiale Wo jusqu'à une valeur limite WL définissant une profondeur de filtrage.
  8. 8. Procédé selon l'une des revendications 5 à 7, comprenant une opération de filtrage d'un troisième type (F3), appliquée aux sites d'un quatrième ensemble de sites (ES4) constitué initialement par tout ou partie des sites du premier ensemble de sites (ES1), l'opération de filtrage du troisième type comprenant une étape (341) de pondération de chacun des sites du quatrième ensemble de sites (ES4) et une étape (342) d'élimination des sites de poids inférieur à un paramètre W.
  9. 9. Procédé selon la revendication 8, dans lequel les étapes (341, 342) de pondération et d'élimination de sites sont répétées pour des
    Figure img00370003
    valeurs croissantes du paramètre W à commencer par une valeur initiale WO'jusqu'à une valeur limite Il définissant une profondeur de filtrage.
    <Desc/Clms Page number 38>
    Figure img00380001
  10. 10. Procédé selon l'une des revendications 8 et 9, dans lequel la pondération d'un site consiste à attribuer au site considéré un poids égal à la somme des poids de chacun des liens intersite reliant le site considéré aux autres sites du quatrième ensemble de sites (ES4).
  11. 11. Procédé selon l'une des revendications 5 à 10, dans lequel la pondération d'un lien intersite comprend une étape préliminaire consistant à attribuer un poids déterminé (wl, w2) aux liens hypertexte reliant les pages respectives de deux sites considérés, et une étape consistant à faire la somme des poids de chacun des liens hypertexte qui sous-tendent le lien intersite.
  12. 12. Procédé selon la revendication 11, dans lequel le poids (al) attribué à un lien hypertexte reliant deux pages faisant partie de l'ensemble initial de pages (EPI) est plus fort que le poids (1-al) attribué à un lien hypertexte reliant deux pages dont l'une au moins n'appartient pas à l'ensemble initial de pages (pi).
  13. 13. Procédé selon l'une des revendications 11 et 12, dans lequel le poids (bel) attribué à un lien hypertexte désignant une page d'un site récent est plus fort que le poids (1-bl) attribué un lien hypertexte désignant une page d'un site ancien.
  14. 14. Procédé selon l'une des revendications 11 à 13, dans lequel le poids (cl) attribué à un lien hypertexte désignant une page d'un site comprenant un faible nombre de pages est plus fort que le poids (1-cl) attribué à un lien hypertexte désignant une page d'un site comprenant un grand nombre de pages.
  15. 15. Procédé selon l'une des revendications 1 à 14, dans lequel l'adresse d'un site Web est définie en recherchant le suffixe de l'adresse d'une page Web comprise dans le site considéré, et en ajoutant au suffixe d'autres termes de l'adresse de la page Web si l'adresse obtenue correspond à l'adresse d'un site d'hébergement.
  16. 16. Procédé selon l'une des revendications 1 à 15, comprenant la présentation de sites Web sur un moyen d'affichage sous forme d'objets
    <Desc/Clms Page number 39>
    interactifs sélectionnables par un utilisateur, la sélection d'un objet site par un utilisateur déclenchant l'affichage, sous forme d'objets interactifs sélectionnables, des pages Web appartenant au site sélectionné et à l'ensemble initial de pages (EPl !).
    Figure img00390001
  17. 17. Procédé selon l'une des revendications 1 à 16, comprenant la présentation de sites Web sur un moyen d'affichage, avec affichage des liens intersite sous une forme visuelle compréhensible pour un utilisateur.
  18. 18. Procédé selon l'une des revendications 1 à 17, dans lequel les étapes de détermination d'un ensemble initial de pages (EPI) et d'un premier ensemble de sites (ES1) comprennent les étapes suivantes : - rechercher des pages susceptibles d'être pertinentes au regard d'une équation de recherche, pour former un premier ensemble primaire de pages (pal), - déterminer les sites correspondant aux pages du premier ensemble primaire de pages, pour former un premier ensemble primaire de sites (SI), - rechercher des pages liées aux pages du premier ensemble primaire de
    Figure img00390002
    pages (pal) et/ou aux sites du premier ensemble primaire de sites (SI) par des liens hypertexte, pour former au moins un second ensemble primaire de pages (P2, P3), - déterminer les sites correspondant aux pages du second ensemble primaire de pages (P2, P3), pour former au moins un second ensemble primaire de sites (S2, S3), - fusionner le premier (pal) et le second (P2, P3) ensembles primaires de pages pour former l'ensemble initial de pages (EP1), et - fusionner le premier (SI) et le second (S2, S3) ensembles primaires de sites pour former le premier ensemble de sites (ES1).
  19. 19. Procédé selon la revendication 18, dans lequel le second ensemble primaire de pages (P2) comprend des pages désignant des pages appartenant aux sites du premier ensemble primaire de sites (S1).
  20. 20. Procédé selon l'une des revendications 18 et 19, dans lequel le second ensemble primaire de pages (P3) comprend des pages désignées par
    <Desc/Clms Page number 40>
    des pages appartenant aux sites du premier ensemble primaire de sites (SI).
    Figure img00400001
  21. 21. Ordinateur numérique (10), caractérisé en ce qu'il est programmé pour exécuter le procédé selon l'une des revendications 1 à 20.
  22. 22. Produit"programme d'ordinateur"enregistré sur un support (16) et chargeable dans la mémoire d'un ordinateur numérique (10), caractérisé en ce qu'il contient des codes-programme exécutables par l'ordinateur, agencés pour l'exécution des étapes du procédé selon l'une des revendications 1 à 20.
FR0014744A 2000-11-15 2000-11-15 Procede de recherche, de selection et de representation cartographique de pages web Expired - Fee Related FR2816734B1 (fr)

Priority Applications (5)

Application Number Priority Date Filing Date Title
FR0014744A FR2816734B1 (fr) 2000-11-15 2000-11-15 Procede de recherche, de selection et de representation cartographique de pages web
PCT/FR2001/003561 WO2002041174A1 (fr) 2000-11-15 2001-11-14 Procede de recherche, de selection et de representation cartographique de pages web
EP01996802A EP1334444A1 (fr) 2000-11-15 2001-11-14 Procede de recherche, de selection et de representation cartographique de pages web
AU2002218366A AU2002218366A1 (en) 2000-11-15 2001-11-14 Method for searching, selecting and mapping web pages
US10/436,599 US20040059732A1 (en) 2000-11-15 2003-05-13 Method for searching for, selecting and mapping web pages

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0014744A FR2816734B1 (fr) 2000-11-15 2000-11-15 Procede de recherche, de selection et de representation cartographique de pages web

Publications (2)

Publication Number Publication Date
FR2816734A1 true FR2816734A1 (fr) 2002-05-17
FR2816734B1 FR2816734B1 (fr) 2003-03-14

Family

ID=8856509

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0014744A Expired - Fee Related FR2816734B1 (fr) 2000-11-15 2000-11-15 Procede de recherche, de selection et de representation cartographique de pages web

Country Status (5)

Country Link
US (1) US20040059732A1 (fr)
EP (1) EP1334444A1 (fr)
AU (1) AU2002218366A1 (fr)
FR (1) FR2816734B1 (fr)
WO (1) WO2002041174A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112241005A (zh) * 2019-07-19 2021-01-19 杭州海康威视数字技术股份有限公司 雷达探测数据的压缩方法、装置及存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030131005A1 (en) * 2002-01-10 2003-07-10 International Business Machines Corporation Method and apparatus for automatic pruning of search engine indices
US7284195B2 (en) * 2002-01-31 2007-10-16 International Business Machines Corporation Structure and method for linking within a website
US7076477B2 (en) * 2002-12-19 2006-07-11 International Business Machines Corporation Fast and robust optimization of complex database queries
US7346839B2 (en) * 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
US7707265B2 (en) * 2004-05-15 2010-04-27 International Business Machines Corporation System, method, and service for interactively presenting a summary of a web site
US7904440B2 (en) * 2007-04-26 2011-03-08 Microsoft Corporation Search diagnostics based upon query sets

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6112203A (en) * 1998-04-09 2000-08-29 Altavista Company Method for ranking documents in a hyperlinked environment using connectivity and selective content analysis

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5694594A (en) * 1994-11-14 1997-12-02 Chang; Daniel System for linking hypermedia data objects in accordance with associations of source and destination data objects and similarity threshold without using keywords or link-difining terms
US6745181B1 (en) * 2000-05-02 2004-06-01 Iphrase.Com, Inc. Information access method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6112203A (en) * 1998-04-09 2000-08-29 Altavista Company Method for ranking documents in a hyperlinked environment using connectivity and selective content analysis

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CARRIERE S J ET AL: "WebQuery: searching and visualizing the Web through connectivity", COMPUTER NETWORKS AND ISDN SYSTEMS, NORTH HOLLAND PUBLISHING, vol. 29, no. 8-13, 1 September 1997 (1997-09-01), AMSTERDAM, NL, pages 1257 - 1267, XP004095322, ISSN: 0169-7552 *
TERVEEN L ET AL: "Constructing, organizing, and visualizing collections of topically related Web resources", ACM TRANSACTIONS ON COMPUTER-HUMAN INTERACTION, ACM, USA, vol. 6, no. 1, March 1999 (1999-03-01), pages 67 - 94, XP002173294, ISSN: 1073-0516 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112241005A (zh) * 2019-07-19 2021-01-19 杭州海康威视数字技术股份有限公司 雷达探测数据的压缩方法、装置及存储介质
CN112241005B (zh) * 2019-07-19 2024-05-31 杭州海康威视数字技术股份有限公司 雷达探测数据的压缩方法、装置及存储介质

Also Published As

Publication number Publication date
WO2002041174A1 (fr) 2002-05-23
US20040059732A1 (en) 2004-03-25
EP1334444A1 (fr) 2003-08-13
FR2816734B1 (fr) 2003-03-14
AU2002218366A1 (en) 2002-05-27

Similar Documents

Publication Publication Date Title
FR2840088A1 (fr) Moteur de recherche et base de donnees, et procedes pour leur mise en oeuvre
EP1470501B1 (fr) Procedes et systemes de recherche et d&#39;association de ressources d&#39;information telles que des pages web
FR2973134A1 (fr) Procede pour affiner les resultats d&#39;une recherche dans une base de donnees
FR2802671A1 (fr) Methode, systeme et produit pour classer des resultats de recherche a l&#39;aide d&#39;un indice d&#39;audience
US20040049486A1 (en) Image relationships derived from thresholding of historically tracked user data for facilitating image based searching
EP1184796A1 (fr) Procédé de navigation associative dans des bases de données multimédia
EP2011043A2 (fr) Identification des articles les plus pertinents d&#39;une demande courante sur la base d&#39;une activité utilisateur par rapport aux résultats de demandes similaires
FR3043816B1 (fr) Procede de suggestion de contenus extraits d’un ensemble de sources d’information
FR2807849A1 (fr) Procede et systeme de recherche et d&#39;aide au choix
WO2001035269A2 (fr) Systeme de partage d&#39;informations entre au moins deux utilisateurs sur un reseau informatique
WO2004017228A2 (fr) Plateforme de type logicielle dediee au referencement de sites du reseau internet
FR2816734A1 (fr) Procede de recherche, de selection et de representation cartographique de pages web
EP1290578B1 (fr) Procede de recherche de donnees automatise et securise au moyen d&#39;un reseau de transmission de donnees
WO2007034096A1 (fr) Procede de tri d&#39;un ensemble de documents electroniques
EP1763790A1 (fr) Procede et dispositif de recherche avec conservation personnalisee des resultats
EP1170677A9 (fr) Procédé et système de retourner des informations pondérées du contexte pour améliorer les résultats de récupération d&#39;informations
EP2834757A1 (fr) Procédé et dispositif de fourniture rapide d&#39;information
WO2009136069A1 (fr) Procede et dispositif permettant d&#39;afficher sur un ecran d&#39;ordinateur une information associee a un ou plusieurs mots-cles
EP1408428A1 (fr) Système et procédé de traitement et de visualisation des résultats de recherches effectuées par un moteur de recherche à base d&#39;indexation, modèle d&#39;interface et méta-modèle correspondants
BE1013153A3 (fr) Procede et systeme de prelevement d&#39;information.
FR2917518A1 (fr) Procede de tri d&#39;informations
FR2806184A1 (fr) Systeme de navigation mis en oeuvre dans un systeme informatique pour acceder a des pages fournies par des serveurs via un reseau informatique
JP2000123033A (ja) 情報検索方法および情報検索装置および記録媒体
WO2020229760A1 (fr) Procede d&#39;indexation multidimensionnelle de contenus textuels
Becheru et al. Complex Network Analysis of a Tourism Content Sharing Network

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20060731