IT201900005778A1 - INDEPENDENT INTERNET SEARCH METHOD - Google Patents

INDEPENDENT INTERNET SEARCH METHOD Download PDF

Info

Publication number
IT201900005778A1
IT201900005778A1 IT102019000005778A IT201900005778A IT201900005778A1 IT 201900005778 A1 IT201900005778 A1 IT 201900005778A1 IT 102019000005778 A IT102019000005778 A IT 102019000005778A IT 201900005778 A IT201900005778 A IT 201900005778A IT 201900005778 A1 IT201900005778 A1 IT 201900005778A1
Authority
IT
Italy
Prior art keywords
search
pages
results
parameters
text
Prior art date
Application number
IT102019000005778A
Other languages
Italian (it)
Inventor
Roberto Montelatici
Original Assignee
Roberto Montelatici
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Roberto Montelatici filed Critical Roberto Montelatici
Priority to IT102019000005778A priority Critical patent/IT201900005778A1/en
Publication of IT201900005778A1 publication Critical patent/IT201900005778A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

DESCRIZIONE DESCRIPTION

METODO INDIPENDENTE DI RICERCA SU INTERNET INDEPENDENT INTERNET SEARCH METHOD

La presente invenzione presenta una soluzione tecnica per ricercare sui principali motori di ricerca accedendo a una elevata quantità di pagine web e selezionando la ricerca in modo puramente tecnico indipendente da spese pubblicitarie. The present invention presents a technical solution for searching on the main search engines by accessing a large number of web pages and selecting the search in a purely technical way independent of advertising costs.

STATO DELL'ARTE STATE OF THE ART

Nei principali motori di ricerca può essere fatta una ricerca con una parola chiave o un gruppo di parole. Nel caso di gruppo di parole le parole vengono connesse secondo la UNIONE dei gruppi di siti ricercati per le varie parole, quindi accedendo a molti siti assolutamente non desiderati dal ricercatore, mentre unendo le parole con una condizione lessicale stretta, generalmente ponendole tra virgolette, la ricerca è molto spesso insufficiente ed esclude molti risultati voluti. Inoltre generalmente i motori di ricerca presentano pagine di risultati con 10 soluzioni di siti per volta, quindi generalmente il ricercatore si ferma alla prima pagina presentata, solo raramente va alla seconda, e solo chi cerca risultati particolari perde tanto tempo per esplorare le pagine successive del motore di ricerca. Questa abitudine di ricerca porta alla vendita delle prime posizioni sui motori di ricerca, una tecnica chiamata S.E.O. che porta a spese notevoli anche perché c'è sempre qualcuno che spende di più. Se primeggiare col nome della propria azienda è abbastanza facile, primeggiare con parole chiave più generiche, come "pensioni" o "obama" o altre parole chiave di interesse generale porta a spese notevoli in una continua corsa a chi è più visibile, con evidente danno per chi resta dalla seconda pagina web trovata in poi. Il fatto di avere una ricerca lessicale porta inoltre a mettere in primo piano siti che hanno poco o niente a che fare con la ricerca impostata. Poniamo che si tratti di scarpe italiane" probabilmente in cima alla lista può comparire un sito cinese che ha indicizzato col S.E.O. la frase "scarpe italiane". In the main search engines, a search can be made with a keyword or a group of words. In the case of a group of words, the words are connected according to the UNION of the groups of sites searched for the various words, thus accessing many sites absolutely not desired by the researcher, while joining the words with a strict lexical condition, generally placing them in quotation marks, the research is very often insufficient and excludes many desired results. Furthermore, search engines generally present pages of results with 10 site solutions at a time, so generally the researcher stops at the first page presented, only rarely goes to the second, and only those looking for particular results waste a lot of time to explore the following pages of the search engine. This search habit leads to the sale of the top positions on search engines, a technique called S.E.O. which leads to considerable expenses also because there is always someone who spends more. If excelling with the name of your company is easy enough, excelling with more generic keywords, such as "pensions" or "obama" or other keywords of general interest leads to considerable expenses in a continuous race to who is most visible, with evident damage for those who remain from the second web page found onwards. The fact of having a lexical search also leads to highlighting sites that have little or nothing to do with the search set. Let's say they are Italian shoes "probably at the top of the list there may be a Chinese site that has indexed the phrase" Italian shoes "with the S.E.O.

SINTESI DELL'INVENZIONE SUMMARY OF THE INVENTION

La tecnologia informatica permette, come possiamo vedere in altri nostri brevetti, di esplorare un sito web e ricavare automaticamente tutti i siti e tutte le pagine richiamate. Questo non è possibile chiedendo l'accesso a un motore di ricerca, dove deve essere specificato un parametro, per esempio "Google pensioni". La ricerca con un parametro dà esito vuoto, Esisteva anche una possibilità di usare Google da riga comando (Google CL) ma è una strada abbandonata. Si ritiene quindi necessario organizzare un metodo semiautomatico che realizzi l'obiettivo di affinare una ricerca su un elevato numero di pagine web scartando i risultati non pertinenti alla richiesta fatta. Information technology allows, as we can see in our other patents, to explore a website and automatically obtain all the sites and pages accessed. This is not possible by asking for access to a search engine, where a parameter must be specified, for example "Google pensions". The search with a parameter gives an empty result, There was also a possibility to use Google from the command line (Google CL) but it is an abandoned road. It is therefore considered necessary to organize a semi-automatic method that achieves the objective of refining a search on a large number of web pages, discarding the results that are not relevant to the request made.

Per realizzare questo obiettivo per prima cosa si cambiano i parametri di Google, che permette di avere fino a 100 risultati per pagina web di risultati, invece dei soliti IO. Questa è una semplificazione operativa che non altera lo schema logico di funzionamento, ma è evidente che se abbiamo on-line 100 risultati al primo colpo è come esplorare 10 pagine da 10 risultati, cosa che ovviamente fa meno dell'uno per cento dei ricercatori. Con un semplice processo iterativo possono essere acquisiti i successivi 100 risultati e via dicendo. To achieve this goal, you first change the parameters of Google, which allows you to have up to 100 results per web page of results, instead of the usual IOs. This is an operational simplification that does not alter the logical scheme of operation, but it is evident that if we have 100 results online the first time it is like exploring 10 pages of 10 results, which obviously less than one percent of researchers do. With a simple iterative process the next 100 results can be acquired and so on.

La scelta del parametro 100 è una scelta iniziale del browser e quindi viene fatta un volta per tutte, quindi resta fuori dal metodo che andiamo a descrivere. The choice of parameter 100 is an initial choice of the browser and therefore is made once and for all, so it remains outside the method we are going to describe.

Il metodo si basa su una proprietà del linguaggio HTML, che caratterizza ii mondo internet, che è un linguaggio scritto "in chiaro", non è compilato né crittografato. Ogni browser permette la funzione "VISUALIZZA SORGENTE PAGINA" in cui ii testo appare come è scritto, senza l'interpretazione grafica che fa il browser. A questo punto la funzione "SALVA PAGINA CON NOME" permette di salvare su un file di testo su una opportuna cartella del proprio computer una o più pagine di codice sorgente. Queste due operazioni sono la parte "MANUALE" del metodo proposto, le operazioni successive sono algoritmi realizzabili in automatico in un dispositivo elettronico tipo "computer". The method is based on a property of the HTML language, which characterizes the internet world, which is a written language "in the clear", it is not compiled or encrypted. Each browser allows the "VIEW SOURCE PAGE" function in which the text appears as it is written, without the graphic interpretation that the browser makes. At this point, the "SAVE PAGE AS NAME" function allows you to save one or more pages of source code to a text file in a suitable folder on your computer. These two operations are the "MANUAL" part of the proposed method, the subsequent operations are algorithms that can be carried out automatically in an electronic device such as "computer".

I testi salvati hanno tutti i sotto-link presenti nella pagina salvata, ma questi link sono parametrizzati e prendendoli cosi come sono non darebbero alcun accesso a internet. Viene quindi scandito ii testo salvato ricostruendo tutti i link presenti con la opportuna sostituzione di parametri in modo da renderli funzionanti autonomamente. The saved texts have all the sub-links present in the saved page, but these links are parameterized and taking them as they are would not give any access to the internet. The saved text is then scanned by reconstructing all the links present with the appropriate substitution of parameters in order to make them work autonomously.

Si crea quindi una lista di link che con le tecnologie informatiche esistenti permette di accedere a tutti i sotto-link esistenti nella gerarchia di pagine e di creare un testo globale di tutte le informazioni presenti. Nel testo globale vengono ricercate le parole chiave nel modo tecnicamente corretto, vantaggiosamente creando una "BLACK LIST" di parole da non ricercare e quindi presentare in tempo reale la ricerca voluta. Vantaggiosamente conviene utilizzare un metodo iterativo, analizzare cioè i primi cento risultati e quindi, a richiesta, passare a quelli successivi. Questo semplifica l'elaborazione software, anche perché, come visto prima, con 100 risultati si esaurisce la quasi totalità delle richieste . A list of links is then created which, with existing information technologies, allows access to all the sub-links existing in the hierarchy of pages and to create a global text of all the information present. In the global text the keywords are searched in the technically correct way, advantageously creating a "BLACK LIST" of words not to be searched and then present the desired search in real time. Advantageously, it is convenient to use an iterative method, that is, to analyze the first hundred results and then, upon request, to move on to the following ones. This simplifies the software processing, also because, as seen before, almost all requests are exhausted with 100 results.

BREVE DESCRIZIONE DEI DISEGNI BRIEF DESCRIPTION OF THE DRAWINGS

Nella fig. 1 si può vedere ii flowchart di funzionamento del metodo proposto . In fig. 1 you can see the operating flowchart of the proposed method.

Dopo l'impostazione del parametro iniziale inizia un ciclo che esplora le diverse pagine successive chiedendo al ricercatore se intende proseguire la ricerca o si ritiene soddisfatto dei risultasti trovati. After setting the initial parameter, a cycle begins that explores the various subsequent pages asking the researcher if he intends to continue the search or is satisfied with the results found.

La parte che analizza una singola serie di risultati è costituita da una pane manuale e da una parte costituita da algoritmi automatizzabili su un elaboratore elettronico (computer). The part that analyzes a single series of results consists of a manual part and a part made up of algorithms that can be automated on an electronic processor (computer).

La parte manuale si basa su due step: The manual part is based on two steps:

A) VISUALIZZA SORGENTE PAGINA A) VIEW SOURCE PAGE

B) SALVA PAGINA CON NOME B) SAVE PAGE WITH NAME

La parte automatizzabile si basa sui seguenti step: The automatable part is based on the following steps:

C) SOSTITUZIONE DEI PARAMETRI NEL TESTO GENERATO IN B) PER CREARE UNS LISTA DI LINK INDIPENDENTI C) REPLACEMENT OF PARAMETERS IN THE TEXT GENERATED IN B) TO CREATE A LIST OF INDEPENDENT LINKS

D) ESPLORAZIONE DI TUTTE LE SOTTOPAGINE DELLA LISTA C) FINO A UN LIMITE PREFISSATO D) EXPLORATION OF ALL THE SUB-PAGES OF THE LIST C) UP TO A PRE-FIXED LIMIT

E) GENERAZIONE DI UN TESTO GLOBALE DELLE PAGINE C) E DELLE SOTTOPAGINE D) E) GENERATION OF A GLOBAL TEXT OF PAGES C) AND SUB-PAGES D)

F) FILTRAGGIO DEL TESTO GLOBALE E) CON I PARAMETRI DI RICERCA INIZIALE ELIMINANDO LE PAGINE NON RELATIVE ALLA RICERCA VOLUTA F) FILTERING OF THE GLOBAL TEXT E) WITH THE INITIAL SEARCH PARAMETERS DELETING THE PAGES NOT RELATED TO THE WANTED SEARCH

G) CREAZIONE DI UNA BLACK LIST GENERALIZZATA E DI UNSA BLACK LIST RELATIVA ALLA SINGOLA RICERCA PER ELIMINARE I RISULTATI NON CONGRUENTI ALLA RICERCA DESIDERATA G) CREATION OF A GENERALIZED BLACK LIST AND AN UNSA BLACK LIST RELATING TO THE SINGLE SEARCH TO ELIMINATE THE RESULTS THAT ARE NOT CONGRUENT TO THE DESIRED SEARCH

H) RICHIESTA AL RICERCATORE SE e SODDISFATTO DEI RISULTATI CON EVENTUALE STAMPA DEI RISULTATI STESSI H) REQUEST TO THE RESEARCHER IF HE IS SATISFIED WITH THE RESULTS WITH POSSIBLE PRINTING OF THE SAME RESULTS

I) NEL CASO CHE IL RICERCATORE NON SIA SODDISFATTO DEI RISULTATI PROCEDERE SU UNA NUOVA PAGINA DI RISULTATI DAL PUNTO A) I) IF THE RESEARCHER IS NOT SATISFIED WITH THE RESULTS, PROCEED ON A NEW RESULTS PAGE FROM POINT A)

Claims (4)

RIVENDICAZIONI 1. Un metodo per eseguire una ricerca di contenuto su Internet, attuabile da un utilizzatore mediante almeno un apparato informatico, comprendente le seguenti fasi in successione: esecuzione di una ricerca su Internet di un contenuto mediante inserimento di parametri di ricerca iniziali in un motore di ricerca, visualizzazione della pagina sorgente di una prima pagina HTML risultante dalla ricerca, salvataggio della pagina sorgente come testo con nome in una memoria dell'apparato informatico, scansione del testo salvato, selezione delle stringhe di testo associate ai link presenti nelle sotto pagine HTML risultanti dalla prima ricerca e creazione di una lista di link indipendenti in formato apribile mediante il motore di ricerca, apertura mediante il motore di ricerca di un numero prefissato di link indipendenti e visualizzazione delle pagine HTML associate ai link aperti e delle relative sottopagine, generazione di un testo globale contenente le pagine sorgente delle pagine HTML associate ai link aperti e delle rispettive sotto pagine, filtraggio del testo globale con i parametri di ricerca iniziali eliminando le pagine non contenenti i parametri di ricerca, visualizzazione su di un visualizzatore associato all'apparato di ricerca di una opzione di conclusione della ricerca e ed eventuale stampa dei risultati stessi o di reiterazione i) nel caso che il ricercatore non sia soddisfatto dei risultati procedere su una nuova pagina HTML risultante dalla ricerca iniziale . CLAIMS 1. A method for carrying out a search for content on the Internet, which can be carried out by a user using at least one computer device, comprising the following steps in succession: performing an Internet search for content by entering initial search parameters in a search engine, display of the source page of a first HTML page resulting from the search, saving the source page as text with name in a memory of the computer system, scan of the saved text, selection of the text strings associated with the links present in the HTML sub-pages resulting from the first search and creation of a list of independent links in a format that can be opened using the search engine, opening through the search engine of a predetermined number of independent links and display of the HTML pages associated with the open links and their sub-pages, generation of a global text containing the source pages of the HTML pages associated with the open links and the respective sub-pages, global text filtering with initial search parameters by deleting pages not containing search parameters, display on a viewer associated with the search device of an option to terminate the search and, if necessary, print the results or repeat the results i) if the researcher is not satisfied with the results, proceed to a new HTML page resulting from the initial search . 2. Metodo secondo la rivendicazione 1, in cui detta fase di filtraggio comprende una fase di creazione di almeno una black list di parametri di ricerca di pagine da escludere. Method according to claim 1, wherein said filtering step comprises a step of creating at least a black list of search parameters of pages to be excluded. 3. Metodo secondo la rivendicazione 2, comprendente una fase di creazione di una black list di parametri generali allo scopo di eliminare risultati con contenuti non desiderati. Method according to claim 2, comprising a step of creating a black list of general parameters in order to eliminate results with unwanted contents. 4. Metodo secondo la rivendicazione 2, comprendente una fase di creazione di una black list di parametri relativi alla ricerca iniziale allo scopo di eliminare risultati con contneuti non congruenti alla ricerca. Method according to claim 2, comprising a step of creating a black list of parameters relating to the initial search in order to eliminate results with contents not congruent to the search.
IT102019000005778A 2019-04-17 2019-04-17 INDEPENDENT INTERNET SEARCH METHOD IT201900005778A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
IT102019000005778A IT201900005778A1 (en) 2019-04-17 2019-04-17 INDEPENDENT INTERNET SEARCH METHOD

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
IT102019000005778A IT201900005778A1 (en) 2019-04-17 2019-04-17 INDEPENDENT INTERNET SEARCH METHOD

Publications (1)

Publication Number Publication Date
IT201900005778A1 true IT201900005778A1 (en) 2020-10-17

Family

ID=67660609

Family Applications (1)

Application Number Title Priority Date Filing Date
IT102019000005778A IT201900005778A1 (en) 2019-04-17 2019-04-17 INDEPENDENT INTERNET SEARCH METHOD

Country Status (1)

Country Link
IT (1) IT201900005778A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6819339B1 (en) * 2000-02-24 2004-11-16 Eric Morgan Dowling Web browser with multilevel functions
US20060106793A1 (en) * 2003-12-29 2006-05-18 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
US20120323888A1 (en) * 2011-06-17 2012-12-20 Osann Jr Robert Automatic Webpage Characterization and Search Results Annotation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6819339B1 (en) * 2000-02-24 2004-11-16 Eric Morgan Dowling Web browser with multilevel functions
US20060106793A1 (en) * 2003-12-29 2006-05-18 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
US20120323888A1 (en) * 2011-06-17 2012-12-20 Osann Jr Robert Automatic Webpage Characterization and Search Results Annotation

Similar Documents

Publication Publication Date Title
Appel Modern compiler implementation in C
CN104199871B (en) A kind of high speed examination question introduction method for wisdom teaching
US7680646B2 (en) Retrieval method for translation memories containing highly structured documents
US6516308B1 (en) Method and apparatus for extracting data from data sources on a network
US7958444B2 (en) Visualizing document annotations in the context of the source document
US9098479B2 (en) Methods and apparatus for improved navigation among controlled terms in one or more user documents
CN104142985A (en) Semi-automatic vertical crawler generation tool and method
CN104063498A (en) Method and device for searching for bookmark of browser
JP2004513458A (en) User-changeable translation weights
Littell et al. Waldayu and Waldayu Mobile: Modern digital dictionary interfaces for endangered languages
CN112257462A (en) Hypertext markup language translation method based on neural machine translation technology
Lanfranchi et al. Semantic Web-based document: editing and browsing in AktiveDoc
Ngo et al. EVBCorpus-a multi-layer English-Vietnamese bilingual corpus for studying tasks in comparative linguistics
CN113343717A (en) Neural machine translation method based on translation memory library
IT201900005778A1 (en) INDEPENDENT INTERNET SEARCH METHOD
JPH06348750A (en) Document preparation supporting device
Kaur et al. Hybrid approach for spell checker and grammar checker for Punjabi
BG109996A (en) Natural language formalization
Wong et al. A flexible example annotation schema: Translation corresponding tree representation
Barbierik et al. Simple and Effective User Interface for the Dictionary Writing System
CN108897730B (en) PDF text processing method and device
Hernández et al. Towards discovering conceptual models behind web sites
JP3483585B2 (en) Document search device and document search method
Pantelia ‘Noûs, INTO CHAOS’: THE CREATION OF THE THESAURUS OF THE GREEK LANGUAGE
Lam et al. Web information extraction