WO2017080090A1

WO2017080090A1 - Procédé d'extraction et de comparaison pour un texte de page internet

Info

Publication number: WO2017080090A1
Application number: PCT/CN2015/100180
Authority: WO
Inventors: 孙燕群
Original assignee: 孙燕群
Priority date: 2015-11-14
Filing date: 2015-12-31
Publication date: 2017-05-18
Also published as: CN106528583A

Abstract

L'invention concerne un procédé d'extraction et de comparaison, pour un texte d'une page Internet, qui consiste : A : à déterminer si une page Internet est une page de texte selon un onglet spécifique d'une page Internet ou non ; B : à identifier une page Internet parallèle. L'étape A comprend en outre les sous-étapes suivantes : 1, le pré-traitement de la page Internet et la construction d'un arbre HTML ; 2, la réduction de l'arbre HTML ; 3, l'acquisition des thèmes de page Internet ; 4, l'extraction d'un contenu de chaîne de caractères dans des sous-blocs ; 5, le calcul de la distance entre un thème S et un contenu y dans un bloc ; 6, la comparaison d'une distance d'édition L et un maximum (p, q). Le procédé d'extraction et de comparaison de texte de page Internet présente les avantages suivants : des pages Internet ayant un texte court peuvent être extraites, et la correction de sélection n'est pas touchée quelle que soit la longueur du contenu. Quelle que soit la longueur du texte, le texte peut participer au calcul et n'est pas ignoré. Tous les onglets « table » peuvent être traités de manière cohérente lorsqu'une page Internet à imbrication de « table » compliquée est traitée.