IT201900005778A1 - INDEPENDENT INTERNET SEARCH METHOD - Google Patents
INDEPENDENT INTERNET SEARCH METHOD Download PDFInfo
- Publication number
- IT201900005778A1 IT201900005778A1 IT102019000005778A IT201900005778A IT201900005778A1 IT 201900005778 A1 IT201900005778 A1 IT 201900005778A1 IT 102019000005778 A IT102019000005778 A IT 102019000005778A IT 201900005778 A IT201900005778 A IT 201900005778A IT 201900005778 A1 IT201900005778 A1 IT 201900005778A1
- Authority
- IT
- Italy
- Prior art keywords
- search
- pages
- results
- parameters
- text
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 13
- 238000001914 filtration Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
DESCRIZIONE DESCRIPTION
METODO INDIPENDENTE DI RICERCA SU INTERNET INDEPENDENT INTERNET SEARCH METHOD
La presente invenzione presenta una soluzione tecnica per ricercare sui principali motori di ricerca accedendo a una elevata quantità di pagine web e selezionando la ricerca in modo puramente tecnico indipendente da spese pubblicitarie. The present invention presents a technical solution for searching on the main search engines by accessing a large number of web pages and selecting the search in a purely technical way independent of advertising costs.
STATO DELL'ARTE STATE OF THE ART
Nei principali motori di ricerca può essere fatta una ricerca con una parola chiave o un gruppo di parole. Nel caso di gruppo di parole le parole vengono connesse secondo la UNIONE dei gruppi di siti ricercati per le varie parole, quindi accedendo a molti siti assolutamente non desiderati dal ricercatore, mentre unendo le parole con una condizione lessicale stretta, generalmente ponendole tra virgolette, la ricerca è molto spesso insufficiente ed esclude molti risultati voluti. Inoltre generalmente i motori di ricerca presentano pagine di risultati con 10 soluzioni di siti per volta, quindi generalmente il ricercatore si ferma alla prima pagina presentata, solo raramente va alla seconda, e solo chi cerca risultati particolari perde tanto tempo per esplorare le pagine successive del motore di ricerca. Questa abitudine di ricerca porta alla vendita delle prime posizioni sui motori di ricerca, una tecnica chiamata S.E.O. che porta a spese notevoli anche perché c'è sempre qualcuno che spende di più. Se primeggiare col nome della propria azienda è abbastanza facile, primeggiare con parole chiave più generiche, come "pensioni" o "obama" o altre parole chiave di interesse generale porta a spese notevoli in una continua corsa a chi è più visibile, con evidente danno per chi resta dalla seconda pagina web trovata in poi. Il fatto di avere una ricerca lessicale porta inoltre a mettere in primo piano siti che hanno poco o niente a che fare con la ricerca impostata. Poniamo che si tratti di scarpe italiane" probabilmente in cima alla lista può comparire un sito cinese che ha indicizzato col S.E.O. la frase "scarpe italiane". In the main search engines, a search can be made with a keyword or a group of words. In the case of a group of words, the words are connected according to the UNION of the groups of sites searched for the various words, thus accessing many sites absolutely not desired by the researcher, while joining the words with a strict lexical condition, generally placing them in quotation marks, the research is very often insufficient and excludes many desired results. Furthermore, search engines generally present pages of results with 10 site solutions at a time, so generally the researcher stops at the first page presented, only rarely goes to the second, and only those looking for particular results waste a lot of time to explore the following pages of the search engine. This search habit leads to the sale of the top positions on search engines, a technique called S.E.O. which leads to considerable expenses also because there is always someone who spends more. If excelling with the name of your company is easy enough, excelling with more generic keywords, such as "pensions" or "obama" or other keywords of general interest leads to considerable expenses in a continuous race to who is most visible, with evident damage for those who remain from the second web page found onwards. The fact of having a lexical search also leads to highlighting sites that have little or nothing to do with the search set. Let's say they are Italian shoes "probably at the top of the list there may be a Chinese site that has indexed the phrase" Italian shoes "with the S.E.O.
SINTESI DELL'INVENZIONE SUMMARY OF THE INVENTION
La tecnologia informatica permette, come possiamo vedere in altri nostri brevetti, di esplorare un sito web e ricavare automaticamente tutti i siti e tutte le pagine richiamate. Questo non è possibile chiedendo l'accesso a un motore di ricerca, dove deve essere specificato un parametro, per esempio "Google pensioni". La ricerca con un parametro dà esito vuoto, Esisteva anche una possibilità di usare Google da riga comando (Google CL) ma è una strada abbandonata. Si ritiene quindi necessario organizzare un metodo semiautomatico che realizzi l'obiettivo di affinare una ricerca su un elevato numero di pagine web scartando i risultati non pertinenti alla richiesta fatta. Information technology allows, as we can see in our other patents, to explore a website and automatically obtain all the sites and pages accessed. This is not possible by asking for access to a search engine, where a parameter must be specified, for example "Google pensions". The search with a parameter gives an empty result, There was also a possibility to use Google from the command line (Google CL) but it is an abandoned road. It is therefore considered necessary to organize a semi-automatic method that achieves the objective of refining a search on a large number of web pages, discarding the results that are not relevant to the request made.
Per realizzare questo obiettivo per prima cosa si cambiano i parametri di Google, che permette di avere fino a 100 risultati per pagina web di risultati, invece dei soliti IO. Questa è una semplificazione operativa che non altera lo schema logico di funzionamento, ma è evidente che se abbiamo on-line 100 risultati al primo colpo è come esplorare 10 pagine da 10 risultati, cosa che ovviamente fa meno dell'uno per cento dei ricercatori. Con un semplice processo iterativo possono essere acquisiti i successivi 100 risultati e via dicendo. To achieve this goal, you first change the parameters of Google, which allows you to have up to 100 results per web page of results, instead of the usual IOs. This is an operational simplification that does not alter the logical scheme of operation, but it is evident that if we have 100 results online the first time it is like exploring 10 pages of 10 results, which obviously less than one percent of researchers do. With a simple iterative process the next 100 results can be acquired and so on.
La scelta del parametro 100 è una scelta iniziale del browser e quindi viene fatta un volta per tutte, quindi resta fuori dal metodo che andiamo a descrivere. The choice of parameter 100 is an initial choice of the browser and therefore is made once and for all, so it remains outside the method we are going to describe.
Il metodo si basa su una proprietà del linguaggio HTML, che caratterizza ii mondo internet, che è un linguaggio scritto "in chiaro", non è compilato né crittografato. Ogni browser permette la funzione "VISUALIZZA SORGENTE PAGINA" in cui ii testo appare come è scritto, senza l'interpretazione grafica che fa il browser. A questo punto la funzione "SALVA PAGINA CON NOME" permette di salvare su un file di testo su una opportuna cartella del proprio computer una o più pagine di codice sorgente. Queste due operazioni sono la parte "MANUALE" del metodo proposto, le operazioni successive sono algoritmi realizzabili in automatico in un dispositivo elettronico tipo "computer". The method is based on a property of the HTML language, which characterizes the internet world, which is a written language "in the clear", it is not compiled or encrypted. Each browser allows the "VIEW SOURCE PAGE" function in which the text appears as it is written, without the graphic interpretation that the browser makes. At this point, the "SAVE PAGE AS NAME" function allows you to save one or more pages of source code to a text file in a suitable folder on your computer. These two operations are the "MANUAL" part of the proposed method, the subsequent operations are algorithms that can be carried out automatically in an electronic device such as "computer".
I testi salvati hanno tutti i sotto-link presenti nella pagina salvata, ma questi link sono parametrizzati e prendendoli cosi come sono non darebbero alcun accesso a internet. Viene quindi scandito ii testo salvato ricostruendo tutti i link presenti con la opportuna sostituzione di parametri in modo da renderli funzionanti autonomamente. The saved texts have all the sub-links present in the saved page, but these links are parameterized and taking them as they are would not give any access to the internet. The saved text is then scanned by reconstructing all the links present with the appropriate substitution of parameters in order to make them work autonomously.
Si crea quindi una lista di link che con le tecnologie informatiche esistenti permette di accedere a tutti i sotto-link esistenti nella gerarchia di pagine e di creare un testo globale di tutte le informazioni presenti. Nel testo globale vengono ricercate le parole chiave nel modo tecnicamente corretto, vantaggiosamente creando una "BLACK LIST" di parole da non ricercare e quindi presentare in tempo reale la ricerca voluta. Vantaggiosamente conviene utilizzare un metodo iterativo, analizzare cioè i primi cento risultati e quindi, a richiesta, passare a quelli successivi. Questo semplifica l'elaborazione software, anche perché, come visto prima, con 100 risultati si esaurisce la quasi totalità delle richieste . A list of links is then created which, with existing information technologies, allows access to all the sub-links existing in the hierarchy of pages and to create a global text of all the information present. In the global text the keywords are searched in the technically correct way, advantageously creating a "BLACK LIST" of words not to be searched and then present the desired search in real time. Advantageously, it is convenient to use an iterative method, that is, to analyze the first hundred results and then, upon request, to move on to the following ones. This simplifies the software processing, also because, as seen before, almost all requests are exhausted with 100 results.
BREVE DESCRIZIONE DEI DISEGNI BRIEF DESCRIPTION OF THE DRAWINGS
Nella fig. 1 si può vedere ii flowchart di funzionamento del metodo proposto . In fig. 1 you can see the operating flowchart of the proposed method.
Dopo l'impostazione del parametro iniziale inizia un ciclo che esplora le diverse pagine successive chiedendo al ricercatore se intende proseguire la ricerca o si ritiene soddisfatto dei risultasti trovati. After setting the initial parameter, a cycle begins that explores the various subsequent pages asking the researcher if he intends to continue the search or is satisfied with the results found.
La parte che analizza una singola serie di risultati è costituita da una pane manuale e da una parte costituita da algoritmi automatizzabili su un elaboratore elettronico (computer). The part that analyzes a single series of results consists of a manual part and a part made up of algorithms that can be automated on an electronic processor (computer).
La parte manuale si basa su due step: The manual part is based on two steps:
A) VISUALIZZA SORGENTE PAGINA A) VIEW SOURCE PAGE
B) SALVA PAGINA CON NOME B) SAVE PAGE WITH NAME
La parte automatizzabile si basa sui seguenti step: The automatable part is based on the following steps:
C) SOSTITUZIONE DEI PARAMETRI NEL TESTO GENERATO IN B) PER CREARE UNS LISTA DI LINK INDIPENDENTI C) REPLACEMENT OF PARAMETERS IN THE TEXT GENERATED IN B) TO CREATE A LIST OF INDEPENDENT LINKS
D) ESPLORAZIONE DI TUTTE LE SOTTOPAGINE DELLA LISTA C) FINO A UN LIMITE PREFISSATO D) EXPLORATION OF ALL THE SUB-PAGES OF THE LIST C) UP TO A PRE-FIXED LIMIT
E) GENERAZIONE DI UN TESTO GLOBALE DELLE PAGINE C) E DELLE SOTTOPAGINE D) E) GENERATION OF A GLOBAL TEXT OF PAGES C) AND SUB-PAGES D)
F) FILTRAGGIO DEL TESTO GLOBALE E) CON I PARAMETRI DI RICERCA INIZIALE ELIMINANDO LE PAGINE NON RELATIVE ALLA RICERCA VOLUTA F) FILTERING OF THE GLOBAL TEXT E) WITH THE INITIAL SEARCH PARAMETERS DELETING THE PAGES NOT RELATED TO THE WANTED SEARCH
G) CREAZIONE DI UNA BLACK LIST GENERALIZZATA E DI UNSA BLACK LIST RELATIVA ALLA SINGOLA RICERCA PER ELIMINARE I RISULTATI NON CONGRUENTI ALLA RICERCA DESIDERATA G) CREATION OF A GENERALIZED BLACK LIST AND AN UNSA BLACK LIST RELATING TO THE SINGLE SEARCH TO ELIMINATE THE RESULTS THAT ARE NOT CONGRUENT TO THE DESIRED SEARCH
H) RICHIESTA AL RICERCATORE SE e SODDISFATTO DEI RISULTATI CON EVENTUALE STAMPA DEI RISULTATI STESSI H) REQUEST TO THE RESEARCHER IF HE IS SATISFIED WITH THE RESULTS WITH POSSIBLE PRINTING OF THE SAME RESULTS
I) NEL CASO CHE IL RICERCATORE NON SIA SODDISFATTO DEI RISULTATI PROCEDERE SU UNA NUOVA PAGINA DI RISULTATI DAL PUNTO A) I) IF THE RESEARCHER IS NOT SATISFIED WITH THE RESULTS, PROCEED ON A NEW RESULTS PAGE FROM POINT A)
Claims (4)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IT102019000005778A IT201900005778A1 (en) | 2019-04-17 | 2019-04-17 | INDEPENDENT INTERNET SEARCH METHOD |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IT102019000005778A IT201900005778A1 (en) | 2019-04-17 | 2019-04-17 | INDEPENDENT INTERNET SEARCH METHOD |
Publications (1)
Publication Number | Publication Date |
---|---|
IT201900005778A1 true IT201900005778A1 (en) | 2020-10-17 |
Family
ID=67660609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
IT102019000005778A IT201900005778A1 (en) | 2019-04-17 | 2019-04-17 | INDEPENDENT INTERNET SEARCH METHOD |
Country Status (1)
Country | Link |
---|---|
IT (1) | IT201900005778A1 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6819339B1 (en) * | 2000-02-24 | 2004-11-16 | Eric Morgan Dowling | Web browser with multilevel functions |
US20060106793A1 (en) * | 2003-12-29 | 2006-05-18 | Ping Liang | Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation |
US20120323888A1 (en) * | 2011-06-17 | 2012-12-20 | Osann Jr Robert | Automatic Webpage Characterization and Search Results Annotation |
-
2019
- 2019-04-17 IT IT102019000005778A patent/IT201900005778A1/en unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6819339B1 (en) * | 2000-02-24 | 2004-11-16 | Eric Morgan Dowling | Web browser with multilevel functions |
US20060106793A1 (en) * | 2003-12-29 | 2006-05-18 | Ping Liang | Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation |
US20120323888A1 (en) * | 2011-06-17 | 2012-12-20 | Osann Jr Robert | Automatic Webpage Characterization and Search Results Annotation |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Appel | Modern compiler implementation in C | |
CN104199871B (en) | A kind of high speed examination question introduction method for wisdom teaching | |
US7680646B2 (en) | Retrieval method for translation memories containing highly structured documents | |
US6516308B1 (en) | Method and apparatus for extracting data from data sources on a network | |
US7958444B2 (en) | Visualizing document annotations in the context of the source document | |
US9098479B2 (en) | Methods and apparatus for improved navigation among controlled terms in one or more user documents | |
CN104142985A (en) | Semi-automatic vertical crawler generation tool and method | |
CN104063498A (en) | Method and device for searching for bookmark of browser | |
JP2004513458A (en) | User-changeable translation weights | |
Littell et al. | Waldayu and Waldayu Mobile: Modern digital dictionary interfaces for endangered languages | |
CN112257462A (en) | Hypertext markup language translation method based on neural machine translation technology | |
Lanfranchi et al. | Semantic Web-based document: editing and browsing in AktiveDoc | |
Ngo et al. | EVBCorpus-a multi-layer English-Vietnamese bilingual corpus for studying tasks in comparative linguistics | |
CN113343717A (en) | Neural machine translation method based on translation memory library | |
IT201900005778A1 (en) | INDEPENDENT INTERNET SEARCH METHOD | |
JPH06348750A (en) | Document preparation supporting device | |
Kaur et al. | Hybrid approach for spell checker and grammar checker for Punjabi | |
BG109996A (en) | Natural language formalization | |
Wong et al. | A flexible example annotation schema: Translation corresponding tree representation | |
Barbierik et al. | Simple and Effective User Interface for the Dictionary Writing System | |
CN108897730B (en) | PDF text processing method and device | |
Hernández et al. | Towards discovering conceptual models behind web sites | |
JP3483585B2 (en) | Document search device and document search method | |
Pantelia | ‘Noûs, INTO CHAOS’: THE CREATION OF THE THESAURUS OF THE GREEK LANGUAGE | |
Lam et al. | Web information extraction |