ITMI20100986A1

ITMI20100986A1 - Distanza di editazione generalizzata per interrogazioni

Info

Publication number: ITMI20100986A1
Application number: IT000986A
Authority: IT
Inventors: Massimiliano Ciaramita; Amac Herdagdelen; Daniel Mahler
Original assignee: Google Inc
Priority date: 2010-05-31
Filing date: 2010-05-31
Publication date: 2011-12-01
Also published as: US9251206B2; US20130226950A1; IT1400269B1; US8417692B2; US20110295840A1

Description

DESCRIZIONE

Annessa a domanda di brevetto per INVENZIONE INDUSTRIALE avente per titolo:

"DISTANZA DI EDITAZIONE GENERALIZZATA PER INTERROGAZIONI"

La presente descrizione si riferisce a servizi digitali di ricerca di informazioni. Per gli utilizzatori di un motore di ricerca non Ã ̈ sempre facile trovare la migliore interrogazione per soddisfare le loro necessitÃ di informazioni. Talvolta essi usano un'espressione ambigua che fa trovare documenti relativi ad altri significati dei termini usati, o trascurano di aggiungere termini pertinenti all'interrogazione. Per offrire un aiuto in questo compito, alcuni servizi di ricerca forniscono servizi di suggerimenti di interrogazione che aiutano gli utilizzatori a riformulare le interrogazioni per descrivere meglio le loro necessitÃ di informazione e ridurre il tempo richiesto per trovare le informazioni che soddisfino i loro bisogni. I servizi di ricerca forniscono suggerimenti per l'interrogazione di ricerca come alternative alle interrogazioni di ricerca immesse dagli utilizzatori. Ad esempio, un motore di ricerca puÃ² fornire una risorsa che comprende un campo di immissione del'interrogazione che riceve una interrogazione di ricerca in entrata. In risposta a ricevere i termini deH'interrogazione di ricerca immessi nel campo di immissione dell'interrogazione, un servizio di ricerca puÃ² fornire all'utilizzatore suggerimenti per l'interrogazione di ricerca per i termini dell'interrogazione di ricerca immessi. Un utilizzatore puÃ² scegliere un suggerimento per l'interrogazione di ricerca da usare come interrogazione di ricerca.

Inoltre, un problema simile puÃ² verificarsi con altri scenari dove gli utilizzatori necessitano di immettere un testo simile a un'interrogazione, come ad esempio parole chiave. Ad esempio, gli inserzionisti forniscono parole chiave che devono abbinarsi con le interrogazioni degli utilizzatori affinchÃ ̈ siano visualizzate le loro inserzioni. Sistemi di suggerimento di interrogazioni possono anche aiutare gli inserzionisti suggerendo parole chiave che sono correlate alle parole chiave che essi hanno immesso.

Quando i servizi di ricerca hanno una forte certezza che i risultati mostrati in risposta ad una interrogazione di ricerca di un utilizzatore possano essere migliorati estendendo o sostituendo l'interrogazione di ricerca dell'utilizzatore con un'interrogazione di ricerca collegata, Ã ̈ possibile fare questa sostituzione automaticamente con una interrogazione suggerita, invisibile all'utilizzatore, e mostrare direttamente i risultati corrispondenti a questa interrogazione suggerita, o una combinazione dei risultati per l'interrogazione originale di ricerca dell'utilizzatore e le interrogazioni suggerite. Similmente, parole chiave dell'inserzionista possono essere automaticamente estese con sinonimi, per aumentare la serie di interrogazioni dell'utilizzatore che si accordano con una campagna di inserzionista. Questi procedimenti sono rispettivamente noti come "espansione di interrogazione" e "abbinamento ampio espanso".

La presente descrizione illustra tecnologie relative alla generazione di suggerimenti di interrogazione, suggerimenti di parole chiave, espansioni di interrogazioni o abbinamenti espansi di parole chiave. In questa descrizione, con il termine "suggerimento di interrogazione" si intende imo qualsiasi fra suggerimento di ricerca, suggerimento di parola chiave, espansione di interrogazione o espansione di parola chiave.

In generale, un aspetto innovativo della materia esposta in questa descrizione puÃ² essere realizzato in metodi che comprendono le azioni di selezionare coppie di interrogazioni relative a interrogazioni consecutive provenienti da sessioni utilizzatore, ciascuna coppia di interrogazione essendo una prima interrogazione ed una seconda interrogazione le quali sono state sottoposte consecutivamente come interrogazioni separate durante una sessione di ricerca, ciascuna prima e seconda interrogazione comprendendo almeno un termine. Il metodo comprende anche per ogni coppia di interrogazioni il selezionare coppie di termini dalla coppia di interrogazioni, ogni coppia di termini essendo un primo termine nella prima interrogazione ed un secondo termine nella seconda interrogazione; e il determinare un valore di co-ricorrenza per ogni coppia di termini selezionata. Il metodo comprende anche il determinare i costi di transizione basati sui valori di co-ricorrenza per coppie di termini delle coppie di interrogazioni, ogni costo di transizione essendo indicativo di un costo per passare da un primo termine in una prima interrogazione ad un secondo termine in una seconda interrogazione consecutiva alla prima interrogazione.

Un altro aspetto innovativo della materia definita da questa descrizione puÃ² essere realizzato in metodi che comprendono le azioni di selezionare coppie di interrogazione relative ad interrogazioni provenienti da sessioni utilizzatore, ogni coppia di interrogazioni essendo una prima interrogazione ed una seconda interrogazione le quali sono state sottoposte come interrogazioni separate durante una sessione di ricerca entro un numero massimo di interrogazioni che sono intervenute, ogni prima e ogni seconda interrogazione comprendendo almeno un termine. I metodi comprendono anche per ogni coppia di interrogazioni, il selezionare coppie di termini dalla coppia di interrogazioni, ogni coppia di termini essendo un primo termine nella prima interrogazione ed un secondo termine nella seconda interrogazione. I metodi comprendono anche il determinare un valore di co-ricorrenza per ciascuna coppia di termini selezionata.

I metodi comprendono anche il determinare costi di transizione basati sui valori di co-ricorrenza per coppie di termini delle coppie di interrogazione, ogni costo di transizione essendo indicativo di un costo per passare da un primo termine in una prima interrogazione ad un secondo termine in una seconda interrogazione che Ã ̈ consecutiva alla prima interrogazione.

Un altro aspetto innovativo della materia esposta in questa descrizione puÃ² essere realizzato in sistemi che comprendono un apparato di elaborazione dati, e una memoria per immagazzinare istruzioni eseguibili dall'apparato di elaborazione dati che all'atto di tale esecuzione determinano che l'apparato di elaborazione dati esegua operazioni comprendenti le azioni di selezionare coppie di interrogazioni relative ad interrogazioni consecutive provenienti da sessioni utilizzatore, ogni coppia di interrogazioni essendo una prima interrogazione ed una seconda interrogazione, le quali sono state sottoposte consecutivamente come interrogazioni separate durante una sessione di ricerca, ogni prima ed ogni seconda interrogazione comprendendo almeno un termine. Il metodo comprende anche per ogni coppia di interrogazioni il selezionare coppie di termini dalla coppia di interrogazioni, ogni coppia di termini essendo un primo termine nella prima interrogazione ed un secondo termine nella seconda interrogazione; e il determinare un valore di co-ricorrenza per ogni coppia di termini selezionata. Il metodo comprende anche il determinare costi di transizione sulla base dei valori di co-ricorrenza per coppie di termini delle coppie di interrogazioni, ogni costo di transizione essendo indicativo di un costo per passare da un primo termine in una prima interrogazione ad un secondo termine in una seconda interrogazione consecutiva alla prima interrogazione.

Un altro aspetto innovativo della materia esposta in questa descrizione puÃ² essere realizzato in un mezzo di memorizzazione per computer codificato con un programma per computer, il programma comprendendo istruzioni che quando eseguite dall'apparato di elaborazione dati fanno sÃ¬ che l'apparato di elaborazione dati esegua operazioni comprendenti le azioni di selezionare coppie di interrogazioni relative ad interrogazioni consecutive provenienti da sessioni utilizzatore, ogni coppia di interrogazioni essendo una prima interrogazione ed una seconda interrogazione le quali sono state sottoposte consecutivamente come interrogazioni separate durante una sessione di ricerca, ogni prima ed ogni seconda interrogazione comprendendo almeno un termine. Il metodo comprende anche per ogni coppia di interrogazioni il selezionare coppie di termini dalla coppia di interrogazioni, ogni coppia di termini essendo un primo termine nella prima interrogazione ed un secondo termine nella seconda interrogazione; e il determinare un valore di co-ricorrenza per ogni coppia di termini selezionata. Il metodo comprende anche il determinare costi di transizione sulla base dei valori di co-ricorrenza per coppie di termini delle coppie di interrogazioni, ogni costo di transizione essendo indicativo di un costo per passare da un primo termine in una prima interrogazione ad un secondo termine in una seconda interrogazione consecutiva alla prima interrogazione.

Uno o piÃ¹ aspetti della materia definita da questa descrizione possono essere facoltativamente una o piÃ¹ delle azioni seguenti. Il determinare il valore di coricorrenza puÃ² comprendere identificare un primo set di termini inclusi nella prima interrogazione e non inclusi nella seconda interrogazione; identificare un secondo set di termini inclusi nella seconda interrogazione e non inclusi nella prima interrogazione; e per ciascuna coppia di interrogazioni, in risposta all'identificazione che il primo termine Ã ̈ un elemento del primo set e il secondo termine Ã ̈ un elemento del secondo set, assegnare un codice di transizione inversamente proporzionale al prodotto della dimensione del primo set per la dimensione del secondo set. Il determinare i costi di transizione puÃ² comprendere per ogni coppia di termini di interrogazione, aggregare i valori di co-ricorrenza determinati per la coppia di termini di interrogazione; determinare una probabilitÃ che la coppia di termini di interrogazione co-ricorra; determinare un costo di transizione basato sulla probabilitÃ ; e immagazzinare il costo di transizione in una matrice di costo. Il determinare i costi di transizione puÃ² anche comprendere normalizzare i costi di transizione nella matrice di costo sulla base di almeno una di una probabilitÃ che una prima interrogazione della coppia di termini di interrogazione co-ricorra con una qualsiasi interrogazione e di una probabilitÃ che una seconda interrogazione della coppia di termini di interrogazione co-ricorra con una qualsiasi interrogazione. Il determinare i costi di transizione puÃ² anche comprendere creare matrici di costo multiple, ciascuna matrice di costo comprendendo il costo di transizione normalizzato sulla base di un fattore di normalizzazione diverso, in cui i fattori di normalizzazione includono la probabilitÃ che la prima interrogazione della coppia di termini di interrogazione co-ricorra con una qualsiasi interrogazione, la probabilitÃ che la seconda interrogazione della coppia di termini di interrogazione co-ricorra con una qualsiasi interrogazione, ed il prodotto della probabilitÃ che la prima interrogazione co-ricorra con una qualsiasi interrogazione con la probabilitÃ che la seconda interrogazione co-ricorra con una qualsiasi interrogazione.

I metodi possono anche comprendere le azioni di ricevere una interrogazione corrente ed una pluralitÃ di interrogazioni suggerite, ciascuna delle interrogazioni correnti e suggerite comprendendo uno o piÃ¹ termini. Il metodo puÃ² anche comprendere per ogni interrogazione suggerita, calcolare un costo di transizione fra l'interrogazione suggerita e rinterrogazione corrente sulla base di un costo di transizione di un termine corrente e di un termine suggerito; e selezionare un'interrogazione suggerita fra una pluralitÃ di interrogazioni suggerite sulla base della distanza di editazione. Calcolare la distanza di editazione puÃ² comprendere identificare un valore in una matrice di costo sulla base di una coppia di interrogazione di sostituzione comprendenti il termine corrente ed il termine suggerito. Calcolare la distanza di editazione puÃ² comprendere identificare valori in una pluralitÃ di matrici di costo sulla base di una coppia di interrogazioni di sostituzione comprendenti il termine corrente e il termine suggerito; e fare la media dei valori identificati.

Altre implementazioni di questo aspetto comprendono sistemi, apparati e programmi di computer corrispondenti, configurati per eseguire le azioni dei metodi, codificati sui dispositivi di memorizzazione di computer.

Realizzazioni particolari della materia esposta in questa descrizione possono essere implementate in modo da ottenere uno o piÃ¹ dei vantaggi seguenti.

I suggerimenti di interrogazione incorporano informazioni-interpretazioni teoriche di relazioni tassonomiche quali specificazione e generalizzazione. I risultati dell'interrogazione possono essere migliorati mediante sostituzione di interrogazione ed espansione di interrogazione. Possono essere identificate le relative parole chiave. PuÃ² essere migliorata la pertinenza dell'inserzione o annuncio pubblicitario fornito agli utilizzatori. PuÃ² essere migliorata la classificazione delle interrogazioni. E' possibile migliorare il completamento delle interrogazioni per riflettere le somiglianze semantiche fra i termini immessi e i completamenti suggeriti. Il suggerimento dell'interrogazione puÃ² essere adattato per combaciare con l'intento dell'utilizzatore in termini di generalizzazione o specializzazione.

I dettagli di una o piÃ¹ realizzazioni della materia esposta in questa descrizione sono illustrati nei disegni allegati e nella descrizione che segue. Altre caratteristiche, aspetti e vantaggi della materia risulteranno evidenti dalla descrizione, dai disegni e dalle rivendicazioni.

BREVE DESCRIZIONE DEI DISEGNI:

- la figura 1 Ã ̈ uno schema a blocchi di un ambiente esemplificativo in cui un sistema di ricerca fornisce servizi di ricerca;

- la figura 2 mostra un sotto-sistema esemplificativo di suggerimenti di interrogazione il quale puÃ² essere usato in un sistema di ricerca;

- la figura 3 mostra un esempio di trattamento di una registrazione di interrogazioni per determinare i conteggi di co-ricorrenza;

- la figura 4 mostra un esempio per calcolare una distanza di editazione generalizzata;

- la figura 5 Ã ̈ un diagramma di flusso di un procedimento esemplificativo per determinare i costi di transizione fra termini di interrogazione.

Numeri di riferimento e designazioni uguali nei vari disegni indicano elementi uguali.

La figura 1 Ã ̈ uno schema a blocchi di un ambiente esemplificativo 100 in cui un sistema di ricerca fornisce servizi di ricerca. L'ambiente esemplificativo 100 comprende una rete 102, ad esempio una rete locale (LAN), una rete geografica (WAN), Internet, o una loro combinazione, che collega i siti web 104, i dispositivi utilizzatore 106, e il sistema di ricerca 110. L'ambiente 100 puÃ² comprendere un gran numero di siti web 104 e dispositivi utilizzatore 106.

Un sito web 104 Ã ̈ una o piÃ¹ risorse 105 associate ad un nome del dominio e ospitato da uno o piÃ¹ server. Un sito web di esempio Ã ̈ una raccolta di pagine web formattate nel linguaggio di marcatura di ipertesto (HTML). Le pagine web possono contenere testo, immagini, contenuto multimediale, ed elementi di programmazione (ad esempio sequenze di istruzioni o script). Un sito web 104 Ã ̈ generalmente mantenuto da un editore, ad esempio un'entitÃ che gestisce e/o possiede il sito web.

Una risorsa 105 Ã ̈ qualsiasi dato che puÃ² essere fornito sulla rete 102 e che Ã ̈ associato ad un indirizzo delle risorse. Le risorse 105 comprendono ad esempio, pagine HTML, documenti di elaborazione testi, documenti nel formato di documento portabile (PDF), immagini, video e sorgenti di alimentazione (feed). Le risorse 105 possono comprendere il contenuto, ad esempio parole, frasi, immagini e suoni e possono comprendere informazioni incorporate (ad esempio metainformazioni e collegamenti ipertestuali) e/o istruzioni incorporate (ad esempio codice di programmazione JavaScript). Una risorsa puÃ² corrispondere, ma non necessariamente, ad un file.

Un dispositivo utilizzatore 106 Ã ̈ un dispositivo elettronico che, nel funzionamento, Ã ̈ sotto il controllo di un utilizzatore ed Ã ̈ in grado di richiedere e ricevere risorse 105 sulla rete 102. Esempi di dispositivi utilizzatore 106 comprendono i PC (personal computer), i dispositivi di comunicazione mobili, e altri dispositivi che possono inviare e ricevere dati attraverso la rete 102. Un dispositivo utilizzatore 106 tipicamente comprende un'applicazione di utilizzatore, ad esempio un browser web o un browser WAP, per facilitare l'invio e la ricezione di dati attraverso la rete 102.

Per facilitare la ricerca di risorse 105, il sistema di ricerca 110 identifica le risorse 105 mediante "crawling" e indicizzazione delle risorse 105 fomite sui siti web 104. 1 dati circa le risorse 105 possono essere indicizzati sulla base della risorsa alla quale corrispondono i dati. Le copie indicizzate e cache delle risorse 105 sono immagazzinate in una cache indicizzata 112.

I dispositivi utilizzatore 106 sottopongono le interrogazioni di ricerca 109 al sistema di ricerca 110. In risposta, il sistema di ricerca 110 identifica risorse sensibili e genera risultati di ricerca 111 che identificano le risorse sensibili 105 e restituiscono i risultati di ricerca 111 ai dispositivi utilizzatore 106. Ogni risultato di ricerca 111 identifica una risorsa 105 che Ã ̈ sensibile ad una interrogazione e comprende un collegamento con la risorsa 105. Un risultato di ricerca 111 puÃ² comprendere un titolo di pagina web, uno snippet di testo o una porzione di una immagine (o una miniatura del'immagine) estratta dalla pagina web, e l'URL della pagina web.

In risposta al ricevimento di una interrogazione di ricerca 109, il sistema di ricerca 110 accede ai dati storici 114 e ai dati di co-ricorrenza 116 per identificare interrogazioni di ricerca alternative che sono simili allinterrogazione di ricerca 109 e fornisce suggerimenti di interrogazione 113 al dispositivo utilizzatore 106.

II dispositivo utilizzatore 106 riceve i suggerimenti di interrogazione 113, ad esempio nella forma di una raccolta di una o piÃ¹ interrogazioni di ricerca alternative, e rende i suggerimenti di interrogazione 113 come voce contenuta in un elemento di lista a discesa, visualizzato in combinazione con un elemento di casella di testo su una pagina web resa o in una finestra del browser. In altre realizzazioni, i suggerimenti di interrogazione 1 13 possono essere presentati con i risultati della ricerca 111. Ad esempio, i suggerimenti di interrogazione 113 possono essere presentati come una lista di suggerimenti resa sul fondo di una pagina di risultati di ricerca 111.

In risposta ad un utilizzatore che seleziona una interrogazione di ricerca alternativa fra i suggerimenti di interrogazione 113, il dispositivo utilizzatore 106 sottopone l'interrogazione di ricerca alternativa al sistema di ricerca 110 attraverso la rete 102. Il sistema di ricerca 110 fornisce i risultati di ricerca 111 e, facoltativamente, uno o piÃ¹ suggerimenti di interrogazione supplementari 113, in risposta all'interrogazione di ricerca alternativa.

Il dispositivo utilizzatore 106 riceve i risultati di ricerca 111, ad esempio nella forma di una o piÃ¹ pagine web, e rende i risultati di ricerca per la presentazione agli utilizzatori. In risposta all'utilizzatore che seleziona un collegamento in un risultato di ricerca in corrispondenza di un dispositivo utilizzatore 106, il dispositivo di utilizzatore 106 puÃ² richiedere la risorsa 105 identificata dal collegamento. Il sito web 104 che ospita la risorsa 105 riceve la richiesta per la risorsa dal dispositivo utilizzatore 106 e fornisce la risorsa 105 al dispositivo utilizzatore 106 che la richiede.

In alcune realizzazioni, il sistema di ricerca 110 fornisce risultati di ricerca 111 e suggerimenti di interrogazione 113 indipendenti fra loro. Ad esempio, il sistema di ricerca 110 riceve, in aggiunta ad un termine di interrogazione parziale, ogni carattere, numero o simbolo del termine di interrogazione parziale o dei termini di interrogazione supplementari dell'interrogazione di ricerca 109 di mano in mano che sono immessi dall'utilizzatore. In un altro esempio, il sistema di ricerca 110 riceve, in aggiunta ad almeno un termine di interrogazione, ogni termine di interrogazione supplementare dell'interrogazione di ricerca 109 di mano in mano che essi sono immessi dall'utilizzatore. In risposta allinterrogazione di ricerca 109 immessa parzialmente (ad esempio, il termine o i termini di interrogazione parziali), il sistema di ricerca fornisce suggerimenti di interrogazione 113 al dispositivo utilizzatore 106.

In alcune forme di realizzazione, il sistema di ricerca 110 fornisce risultati di ricerca 111 per un suggerimento di interrogazione in aggiunta o in sostituzione dell'interrogazione di ricerca 109. Quando i motori di ricerca determinano che, con alta probabilitÃ , i risultati mostrati in risposta ad una interrogazione dellutilizzatore potrebbero essere notevolmente migliorati estendendo o sostituendo l'interrogazione di utilizzatore con una interrogazione collegata, una tale sostituzione puÃ² essere effettuata automaticamente, ad esempio in modo invisibile all'utilizzatore. In tali casi, possono essere mostrati i risultati corrispondenti ad una interrogazione suggerita, o corrispondenti ad una combinazione delle interrogazioni originale e suggerita.

In alcune forme di realizzazione, il sistema di ricerca 110 puÃ² anche essere in comunicazione di dati con un sistema di gestione di annuncio pubblicitario o inserzione 118, e puÃ² comprendere inserzioni che sono sensibili alle interrogazioni di ricerca 109 fomite dal sistema di gestione di annunci pubblicitari 118. In alternativa, la pagina dei risultati di ricerca puÃ² comprendere istruzioni eseguibili, ad esempio istruzioni JavaScriptâ„¢, che possono essere eseguite in corrispondenza del dispositivo di utilizzatore 106 per richiedere annunci pubblicitari dal sistema di gestione di annunci pubblicitari 118. La richiesta puÃ² comprendere l'interrogazione di ricerca in modo che il sistema di gestione di annunci pubblicitari 118 possa fornire interrogazioni sensibili.

In alcune forme di realizzazione, puÃ² anche essere incorporata nel sistema di gestione di annunci pubblicitari 118 la funzionalitÃ del sottosistema di suggerimento di interrogazione 120, come descritto sotto, oppure il sistema di gestione di annunci pubblicitari 118 puÃ² comunicare con il sottosistema di suggerimento di interrogazione 120, per estendere le parole chiave dell'inserzionista per aumentare il set di interrogazioni di utilizzatore abbinato alla campagna pubblicitaria.

I dati per le interrogazioni di ricerca 109 sottoposte durante le sessioni utilizzatore sono memorizzati in una memoria di dati, ad esempio la memoria di dati storici 114. Ad esempio, per le interrogazioni di ricerca che sono sotto forma di testo, il testo delfinterrogazione viene memorizzato nella memoria di dati storici 114. Inoltre, i suggerimenti di interrogazione 113 e le interrogazioni 109 per le quali sono stati fomiti i suggerimenti di interrogazione 113 possono pure essere memorizzati nella memoria di dati storici 114. La memoria di dati storici 114 memorizza informazioni sufficienti per identificare l'ordine in cui le interrogazioni di ricerca 109 sono state sottoposte dagli utilizzatori per ciascuna sessione utilizzatore.

I dati di selezione specificanti le azioni intraprese in risposta ai risultati di ricerca fomiti in risposta a ciascuna interrogazione di ricerca sono pure memorizzati nella memoria di dati storici 114. Queste azioni possono comprendere se un risultato di ricerca 111 Ã ̈ stato selezionato, e per ciascuna selezione, per quale interrogazione di ricerca 109 Ã ̈ stato fornito il risultato di ricerca 111. Queste azioni possono anche o in alternativa comprendere se Ã ̈ stato selezionato un suggerimento di interrogazione 113, e per ciascuna selezione, per quale interrogazione di ricerca 109 Ã ̈ stato fornito il suggerimento di interrogazione 113.

Gli utilizzatori di un motore di ricerca necessitano di trovare un'interrogazione di ricerca idonea per soddisfare le loro necessitÃ di informazioni. I motori di ricerca sostengono gli utilizzatori in questo compito in modo esplicito ed implicito; in modo esplicito suggerendo le interrogazioni collegate o i completamenti delle interrogazioni; in modo implicito espandendo linterrogazione per migliorare la qualitÃ e il richiamo dei risultati.

In alcune forme di realizzazione i suggerimenti di interrogazione 113 sono fomiti in un ordine di classifica, con il suggerimento di interrogazione 113 classificato piÃ¹ in alto fornito per primo. In altre forme di realizzazione, viene fornito solo un suggerimento di interrogazione, e la selezione del suggerimento di interrogazione da fornire si basa su una classifica o ordinamento, ad esempio quando si determina quale suggerimento di interrogazione usare per generare risultati di ricerca.

In alcune forme di realizzazione, la classifica Ã ̈ basata su una misura della somiglianza semantica fra rinterrogazione sottoposta 109 e i suggerimenti di interrogazione 113.

Ad esempio, linterrogazione "diventare un chirurgo orale" puÃ² essere un suggerimento di interrogazione migliore per rinterrogazione "diventare un dentista" piuttosto che "diventare un dottore". A sua volta, "diventare un dottore" puÃ² essere un suggerimento di interrogazione migliore che non "diventare un deista".

Il sottosistema di suggerimento di interrogazione 120 viene usato per determinare suggerimenti di interrogazione basati su una misura di somiglianza semantica fra due interrogazioni di ricerca. Sebbene descritto come un sottosistema, il sottosistema di suggerimento di interrogazione 120 puÃ² essere implementato come un sistema completamente separato nella comunicazione di dati con il sistema di ricerca 110 o il sistema di gestione di inserzione 118.

La figura 2 mostra un sottosistema di suggerimento di interrogazione 200 che puÃ² essere usato in un sistema di ricerca 110. Ad esempio, il sottosistema di suggerimento di interrogazione 200 puÃ² essere il sottosistema di suggerimento di interrogazione 120 della figura 1. Il sottosistema di suggerimento di interrogazione 200 comprende una creazione di matrice di costo 202, una memoria di dati di costo transazionali 204, un motore di costo di interrogazione 206, ed un motore di suggerimento di interrogazione 208.

In una forma di realizzazione esemplificativa, la memoria di dati di costo transazionali 204 Ã ̈ realizzata come una struttura di dati a matrice di costo. Tuttavia, altre strutture di dati possono pure essere usate.

II motore di costo di interrogazione 206 riceve linterrogazione corrente 130. In alcune forme di realizzazione, rinterrogazione corrente viene fornita ad un motore di suggerimento di interrogazione 208 e il motore di suggerimento di interrogazione 208 fornisce un set di suggerimenti di interrogazione. In altre realizzazioni, i suggerimenti di interrogazione possono essere fomiti al motore di costo di interrogazione 206 assieme allinterrogazione corrente 130. Il motore di costo di interrogazione 206 determina punteggi per i suggerimenti di interrogazione sulla base di una misura di somiglianza semantica fra rinterrogazione corrente e ciascuno dei suggerimenti di interrogazione.

Misure di somiglianza semantica possono comprendere una misura di distanza di editazione generalizzata fra le due interrogazioni. La distanza di editazione tradizionale Ã ̈ una misura della somiglianza fra due stringhe. La distanza tradizionale Ã ̈ rappresentata dalle aggiunte, cancellazioni e sostituzioni in numero che verrebbero richieste per la transizione di un termine in un altro. Ad esempio, per cambiare "dentista" in "deista" richiederebbe due cancellazioni da dentista, la "n" e la "t". Pertanto da "dentista" a "deista" ha una distanza di editazione tradizionale di 2. Similmente, la transizione di "dentista" a "dottore" ha una distanza di editazione tradizionale di 5. Le operazioni richieste comprendono il cambiamento della "e" in "o", il cambiamento della "n" in "c", il cambiamento della "i" in "o", il cambiamento della "s" in "r", la cancellazione della "t".

Invece di, o in aggiunta a questo approccio tradizionale, il sottosistema di distanza di editazione di interrogazione determina la distanza di editazione fra due interrogazioni sulla base della sostituzione dei termini. Ad esempio, viene assegnato un costo alla sostituzione del termine "dentista" in "deista". Inoltre, il costo associato alla trasformazione non Ã ̈ fisso ma Ã ̈ pesato sulla base della somiglianza semantica dei termini. Ad esempio, la sostituzione di termini strettamente correlati, come "dentista" e "dottore" ha un costo minore, e pertanto una distanza piÃ¹ corta, che non sostituire termini non correlati come "dentista" e "pollo". La somiglianza semantica puÃ² essere determinata dall'elaborazione di log di interrogazione, come sarÃ descritto in maggior dettaglio nel seguito.

Il costo associato con la sostituzione di un termine di interrogazione con un altro puÃ² essere calcolato al tempo di esecuzione; tuttavia, piÃ¹ comunemente i costi associati alla sostituzione di un termine di interrogazione con un altro sono memorizzati nella memoria di dati transazionali come matrice di costo 204. La matrice di costo indicizza i costi mediante il termine di interrogazione ed il termine di sostituzione, all'intersezione dei due termini si trova il costo associato alla transizione. Sebbene si effettui la transizione del costo associato con una singola sostituzione di interrogazione, lo stesso metodo puÃ² essere usato per determinare un costo di transizione associato con la sostituzione di frasi di interrogazione o n-gramma di interrogazione. Ad esempio, date le interrogazioni "essere un dentista" e "essere un assistente dentistico", il procedimento potrebbe essere usato per determinare un costo per sostituire "dentista" con "assistente dentistico".

La matrice di costo 204 Ã ̈ generata da un costruttore di matrice di costo 202. Il costruttore di matrice di costo 202 analizza le sessioni utilizzatore memorizzate nei dati storici 114 per calcolare una misura di somiglianza semantica fra le due interrogazioni. Il costo viene poi basato sulla misura. In alcune forme di realizzazione, il costruttore di matrice di costo genera la misura analizzando interrogazioni sottoposte consecutivamente le quali sono sottoposte durante sessioni utilizzatore. Come qui usato, le interrogazioni sottoposte consecutivamente sono interrogazioni che si susseguono tra loro secondo una successione o un ordine non interrotti. Ad esempio, per tre interrogazioni Ql, Q2 e Q3 sottoposte durante una sessione interrogazione, le interrogazioni Ql e Q2 sono interrogazioni sottoposte consecutivamente, come lo sono le interrogazioni Q2 e Q3.

In alcune forme di realizzazione, il requisito di stretta adiacenza fra due interrogazioni di ricerca in una sessione di ricerca puÃ² essere leggermente mitigato ed un intervallo di una o due interrogazioni intermedie puÃ² non escludere (squalificare) le due interrogazioni di ricerca dall'essere interrogazioni di ricerca sequenziali fra loro. In alcune forme di realizzazione, le interrogazioni non vengono considerate squalificate purchÃ© le interrogazioni siano separate da non piÃ¹ di un numero massimo di interrogazioni (cioÃ ̈, 2, 3 o 4). Ad esempio, se un utilizzatore ha sottoposto tre interrogazioni (A, B e C) durante una sessione di ricerca, la terza interrogazione di ricerca (ad esempio "C") puÃ² essere una interrogazione di ricerca sequenziale della prima interrogazione di ricerca (ad esempio "A") sottoposta durante la sessione di ricerca. In altre forme di realizzazione, la somiglianza semantica fra due interrogazioni puÃ² essere non considerata sulla base della quantitÃ di tempo che Ã ̈ trascorso fra quando vengono sottoposte.

Informazioni PMI (Pointwise Mutual Information

In alcune realizzazioni, la misura della somiglianza semantica comprende una misura delle informazioni PMI (Pointwise Mutual Information). PMI Ã ̈ una misura dell'associazione fra due termini o frasi. PMI per due termini x e y Ã ̈ il logaritmo della probabilitÃ che i due termini co-ricorrano nei dati storici 114 diviso per la probabilitÃ che il primo termine co-ricorra con qualsiasi altro termine nei dati storici 114 moltiplicato per la probabilitÃ che il secondo termine co-ricorra con qualsiasi altro termine nei dati storici 114.

PMI(x, y) = log p(x ,y)

p(x)p(y)

Dove p(x,y) Ã ̈ la probabilitÃ dei termini che co-ricorrono nei dati storici 114 ,p(x) Ã ̈ la probabilitÃ del termine di interrogazione x che ricorre nei dati storici 114, e p(y) Ã ̈ la probabilitÃ di y che ricorre nei dati storici.

Per garantire che sostituire due termini che ricorrono assieme meno frequentemente rispetto a casualmente non penalizzi piÃ¹ di due termini non collegati, cioÃ ̈ quando p(x)p(y) Ã ̈ maggiore di p(x,y), al valore PMI viene dato un limite inferiore a zero. Ai valori PMI di meno di zero Ã ̈ assegnato il valore di 0. In alcune realizzazione, dove la necessitÃ di una stretta adiacenza fra due interrogazioni di ricerca Ã ̈ mitigata, il valore PMI puÃ² essere ridotto sulla base della distanza fra le interrogazioni. Ad esempio, un peso puÃ² essere applicato al valore PMI. Il peso puÃ² essere inversamente proporzionale alla quantitÃ di tempo che Ã ̈ trascorsa fra il sottoporre le interrogazioni.

Determinazione delle probabilitÃ

Per determinare la probabilitÃ che x ed y co-ricorrano, p(x,y) e la probabilitÃ che x ed y ricorrano, p(x) e p(y), il costruttore della matrice di costo 202 determina conteggi co-ricorrenti sulla base di transizioni di interrogazioni consecutive memorizzate nei dati storici. Il valore di co-ricorrenza per un termine x nella prima interrogazione e un termine y nella seconda interrogazione puÃ² essere determinato da

0 altrimenti

Dove nx,y(qs,qt) Ã ̈ il valore di co-ricorrenza per i termini di interrogazione x e y nelle interrogazioni qse qt, q'sÃ ̈ il set di termini di interrogazione in qse non in qt. e q'tÃ ̈ il set di termini di interrogazione in qte non in qs.

La formula assegna un valore di 1 alle coppie di termini di interrogazione x e y quando x e y sono uguali. Ad esempio, se il termine "fiore" appare in entrambe le interrogazioni la formula assegna un valore di co-ricorrenza di 1 alla transizione da "fiore" a "fiore". Queste sostituzioni sono chiamate sostituzioni di identitÃ . Le sostituzioni di identitÃ hanno sempre il piÃ¹ alto valore di coricorrenza e pertanto il piÃ¹ basso costo di transizione.

In un'altra forma di realizzazione, certe sostituzioni di identitÃ possono essere associate ad un valore ridotto di co-ricorrenza se il termine Ã ̈ disapprovato. Ad esempio comuni errori di battitura possono essere eliminati assegnando alla sostituzione di identitÃ una probabilitÃ minore e un alto costo di transizione. Ad esempio, il valore di co-ricorrenza per "dentista" e "deista" puÃ² essere ridotto da 1 a 0, poichÃ© "deista" Ã ̈ una battitura errata nota di dentista.

La figura 3 mostra un esempio di trattamento di un log di interrogazione per determinare i conteggi di co-ricorrenza. Una sessione utilizzatore log 300, che puÃ² essere memorizzata ad esempio nei dati storici 114 della figura 1, contiene interrogazioni sottoposte consecutivamente 302, 304, 306. Per facilitÃ di illustrazione, sono rappresentati solo i dati per una sessione utilizzatore. In pratica, sono elaborati i dati da molte sessioni utilizzatore.

Rappresentata dalla freccia di procedimento 310, una prima interrogazione 302 Ã ̈ divisa nei suoi termini 312, 314, 316. Similmente una seconda interrogazione 304, sottoposta consecutivamente alla prima interrogazione, Ã ̈ divisa nei suoi termini 318, 320, 322, 324.

Rappresentato dalla freccia di procedimento 330, un primo set di termini 332 comprende termini che sono nella prima interrogazione 302 e non sono nella seconda interrogazione 304. Similmente, un secondo set di termini 334 comprende termini che sono nella seconda interrogazione 304 ma non sono nella prima interrogazione 302. Applicando questo esempio alla forma di cui sopra qsÃ ̈ l'interrogazione 302 "essere un dentista", qtÃ ̈ l'interrogazione 304 "essere un assistente dentistico", q'sÃ ̈ il set 332 "dentista" e q Ã ̈ il set 334 "assistente dentistico".

Rappresentato dalla freccia di procedimento 340, un valore di co-ricorrenza viene assegnato per ciascuna coppia di termini di interrogazione nelle interrogazioni 302, 304. Ad esempio, il termine di interrogazione "essere" appare in entrambe le interrogazioni 302, 304. Pertanto, viene creato un record di co-ricorrenza 342 per i termini "essere" ed "essere" con un valore di coricorrenza 1. Il termine di interrogazione "essere" e "un" ricorrono entrambi in entrambe le interrogazioni; tuttavia, dal momento che "essere" non Ã ̈ "un", viene assegnato un valore di co-ricorrenza di 0. In alcune realizzazioni, i valori di coricorrenza di 0 non sono memorizzati.

Il termine di interrogazione "dentista" ricorre nel primo set 332, e il termine "dentistico" ricorre nel secondo set 334. Pertanto, viene determinato un valore di co-ricorrenza sulla base del numero di termini di interrogazione nel primo set 332, qui 1, e il numero di termini di interrogazione nel secondo set 334, qui 2. In questo caso alla coppia "dentista" e "dentistico" Ã ̈ assegnato un valore di coricorrenza di 0,5 o 1 diviso per 1 per 2.

Sono possibili diverse ottimizzazioni di questo procedimento. Ad esempio, poichÃ© il numero di termini di interrogazione nel primo set 332 e nel secondo set 334 Ã ̈ costante, deve essere eseguito solo un singolo calcolo per determinare il valore di co-ricorrenza per ciascuna coppia di interrogazioni dove una interrogazione Ã ̈ proveniente dalla prima interrogazione e non c'Ã ̈ nella seconda interrogazione e l'altra interrogazione si trova nella seconda interrogazione e non nella prima interrogazione.

Una volta che sono state trattate la prima interrogazione 302 e la seconda interrogazione 304, il procedimento continua con la seconda interrogazione 304 e la terza interrogazione 306.

Una volta che sono state trattate tutte le interrogazioni, sono sommati i conteggi di co-ricorrenza per ciascuna coppia di interrogazioni,

Dove Nx,yÃ ̈ la somma dei conteggi di co-ricorrenza (nxy) per i termini di interrogazione x e y su tutte le coppie di interrogazioni consecutive qse qt.

Tutti i conteggi sommati di co-ricorrenza sono sommati per ottenere un conteggio totale.

Dove N Ã ̈ il totale dei conteggi sommati di co-ricorrenza per tutte le interrogazioni x e y.

La probabilitÃ della co-ricorrenza del termine di interrogazione x e del termine di interrogazione y Ã ̈ il conteggio sommato di co-ricorrenza per x e y diviso per il conteggio totale.

La probabilitÃ della co-ricorrenza di x come primo termine del'interrogazione con qualsiasi altro termine di interrogazione Ã ̈ la somma dei valori di coricorrenza per tutte le coppie di termini di interrogazione dove x Ã ̈ il primo termine di interrogazione diviso per il conteggio totale.

Similmente, la probabilitÃ della co-ricorrenza di y come il secondo termine di interrogazione con qualsiasi altro termine di interrogazione Ã ̈ la somma dei valori di co-ricorrenza per tutte le coppie di termini di interrogazione dove y Ã ̈ il secondo termine di interrogazione diviso per il conteggio totale.

In altre forme di realizzazione, le probabilitÃ possono essere identificate usando un modello interno di raggruppamento che produce probabilitÃ sopra le stringhe. Le probabilitÃ possono anche essere determinate usando conteggi normalizzati di documenti web.

Normalizzazione di PMI

Una volta determinati, i valori di PMI possono essere normalizzati. Sono fomiti tre metodi esemplificativi di normalizzazione. Uno Ã ̈ un metodo di normalizzazione simmetrico indicato come normalizzazione unita, e due sono metodi asimmetrici indicati come normalizzazione di specializzazione e normalizzazione di generalizzazione. Le tre normalizzazioni forniscono una rappresentazione piÃ¹ ricca dell'associazione fra due stringhe. Inoltre, unitamente, i metodi di normalizzazione asimmetrica modellano in un significato teorico di informazioni direttamente la dimensione di generalizzazione-specializzazione, cioÃ ̈ quante informazioni sono condivise fra i termini di interrogazione.

Il valore PMI normalizzato in modo unito Ã ̈ una misura della quantitÃ di informazioni condivise fra i due termini rispetto alla somma delle singole informazioni dei termini. E' calcolato dalla formula

Il valore PMI normalizzato di specializzazione fornisce generalmente un valore PMI normalizzato piÃ¹ elevato quando il secondo termine di interrogazione Ã ̈ una specializzazione del primo. Ad esempio, sostituire "appiÃ ̈" con "macintosh" sarebbe preferibile rispetto alla sostituzione con "fruit". Il PMI di specializzazione deve essere calcolato dalla formula

Il valore PMI normalizzato di generalizzazione generalmente fornisce un valore PMI normalizzato piÃ¹ elevato quando la seconda interrogazione Ã ̈ piÃ¹ generale della prima. Ad esempio, sostituire "apple" con "fruit" sarebbe preferito rispetto a "macintosh". E' calcolato dalla formula

Ciascuno dei valori PMI Ã ̈ fra 0 e 1.

Le definizioni di cui sopra possono essere caratterizzate anche in termini di informazioni Shannon

i(x) = - log (p (x)) .

L'informazione PMI allora diventa

PMI(x, y ) = i(x) i(y) - i(x, y) .

CiÃ² mostra che PMI(x,y) Ã ̈ la quantitÃ di informazioni che Ã ̈ comune sia a x sia a y.

Usando questa sostituzione, il PMI normalizzato unito Ã ̈ descritto dalla formula

Pertanto il PMI normalizzato unito Ã ̈ la frazione delle informazioni totali che Ã ̈ comune tanto a x che a y.

Il PMI normalizzato di specializzazione Ã ̈ descritto dalla formula

Pertanto il PMI normalizzato di specializzazione Ã ̈ la frazione di informazioni di x che Ã ̈ condivisa con y.

Il PMI normalizzato di generalizzazione Ã ̈ descritto dalla formula:

Pertanto il PMI normalizzato di generalizzazione Ã ̈ la frazione di informazioni di y che Ã ̈ condivisa con x.

Calcolo del costo

Una volta che Ã ̈ stato determinato il PMI normalizzato, il costruttore di matrice di costo determina un costo da associare alla transizione da un'interrogazione all'altra. In alcune forme di realizzazione, il costo Ã ̈ descritto dall'equazione:

= k -kf(x,y) Îµ

Dove s(x,y) Ã ̈ il PMI normalizzato fra due termini x e y. Il valore k Ã ̈ il valore assegnato ad una aggiunta e ad una cancellazione, ad esempio, 1,5, 2 2,5, o un valore con una tale gamma. Possono anche essere usati altri valori. Il valore â–¡ Ã ̈ un valore di costante usato per garantire che la sostituzione non Ã ̈ preferita all'aggiunta ed alla cancellazione in casi vicini. f(x,y) Ã ̈ un valore basato sull'informazione PMI (pointwise mutuai Information) fra i termini x e y.

In alcune realizzazioni, sono generate matrici di costo multiple. Ad esempio, puÃ² essere generata una matrice per ogni algoritmo di normalizzazione, e il valore di f(x,y) puÃ² essere basato su una media o qualche altra tendenza centrale dei diversi valori di PMI normalizzati.

In alcune forme di realizzazione, la matrice di costo usata per calcolare il costo di transizione puÃ² dipendere da un intento derivato dell'utilizzatore. Se vi Ã ̈ la prova che l'utilizzatore sta cercando risultati piÃ¹ generali (cioÃ ̈ desidererebbe vedere i risultati di un'interrogazione piÃ¹ generale), allora l'applicazione puÃ² decidere di usare la matrice di costo basata sulla normalizzazione di generalizzazione che favorirÃ interrogazioni piÃ¹ generali nel procedimento di suggerimento.

Calcolo della distanza di editazione generalizzata

Dopo che Ã ̈ generata la matrice di costo il motore di costo dell'interrogazione riceve una interrogazione corrente ed uno o piÃ¹ suggerimenti di interrogazione. Per determinare una distanza di editazione generalizzata il motore di costo deH'interrogazione confronta i termini nell'interrogazione corrente con i termini nel suggerimento di interrogazione. In alcune realizzazioni, i termini dell'interrogazione sono ordinati per semplificare il confronto. Alle aggiunte ed alle cancellazioni Ã ̈ assegnato un costo k, alle sostituzioni Ã ̈ assegnato un costo basato sui valori nella matrice di costo. Il costo di ogni trasformazione Ã ̈ descritto dalla formula:

âˆ€x, y âˆˆ T, CGE(x, y) = s(x, y)

se a e b non sono zero, altrimenti k

Dove x e y sono termini di interrogazione. T Ã ̈ un vocabolario finito che definisce i limiti della matrice di costo. CGEÃ ̈ il costo di editazione generalizzato, e s(x,y) Ã ̈ il costo descritto sopra. Il valore k Ã ̈ il valore assegnato ad una aggiunta e ad una cancellazione, come descritto sopra, ad esempio 1,5 2 2,5, o un valore con una tale gamma. Possono anche essere usati altri valori. PoichÃ© linserimento e la cancellazione hanno un costo unitario, un termine Ã ̈ sostituito solo se una sostituzione Ã ̈ piÃ¹ "economica" che non il cancellare e l'inserire un altro termine, cioÃ ̈ se la somiglianza fra i termini non Ã ̈ zero.

In alcune forme di realizzazione, in scenari ad esempio dove il sistema di ricerca puÃ² essere configurato per interpretare i suggerimenti preferiti di interrogazione dell'utilizzatore, ad esempio basati sulla storia dell'utilizzatore, allora puÃ² essere usata la matrice di costo normalizzata unita, la matrice di costo normalizzata di specializzazione oppure la matrice di costo normalizzata di generalizzazione, in funzione della storia dell'utilizzatore. In altri scenari si puÃ² usare una o piÃ¹ delle matrici di costo, ad esempio si puÃ² fare la media del costo di una particolare trasformazione, come descritto sopra.

La figura 4 mostra un esempio per calcolare una distanza di editazione generalizzata. La trasformazione deH'interrogazione "essere un dentista" 400 in "essere un assistente dentistico" 402 Ã ̈ un caso di esempio. Questo esempio mostra tre percorsi potenziali. Il percorso 404 comprende le operazioni "cancellare dentista" con un costo di k, "aggiungere dentistico" con un costo di k, e "aggiungere assistente" con un costo di k. L'aggiungere dei costi assieme ai risultati in un costo totale di 3 k. Un altro percorso 406 comprende le operazioni "sostituire a dentista dentistico" con un costo di s("dentista", "dentistico") e "aggiungere assistente" con un costo di k. Il costo totale del percorso 406 Ã ̈ s("dentistico", "dentistico") k. Un altro percorso 408 comprende "sostituire a dentista assistente" con un costo s"dentista", "assistente") e "aggiungere dentista" con un costo k. Il costo totale del percorso 408 Ã ̈ ^("dentista", "assistente") k. Per evitare congestione nei disegni, non tutti i confronti necessari vengono mostrati. Ad esempio, tutto il percorso 400, 402, e 404 comprende la sostituzione di identitÃ implicata "essere" con "essere e "un" con "un". Come discusso sopra, poichÃ© le sostituzioni di identitÃ hanno sempre il costo piÃ¹ basso (ad esempio 0), si preferiscono le sostituzioni di identitÃ . In alcune forme di realizzazione, le sostituzioni di identitÃ sono identificate prima di calcolare la distanza di editazione generalizzata per migliorare le prestazioni, eliminando cosÃ¬ la necessitÃ di eseguire calcoli di costo non necessari.

Il costo totale per la trasformazione Ã ̈ il costo piÃ¹ piccolo per uno qualsiasi dei percorsi.

La figura 5 Ã ̈ un diagramma di flusso di un procedimento esemplificativo 500 per determinare i costi di transizione fra termini di interrogazione. Il procedimento esemplificativo 500 puÃ² essere realizzato da un sistema di ricerca 110, ad esempio nel sottosistema di suggerimento di interrogazione 120 della figura 1. Per comoditÃ , il procedimento 500 Ã ̈ descritto rispetto ad un sistema che esegue il procedimento 500.

Il procedimento 500 seleziona coppie di interrogazioni relative ad interrogazioni consecutive da sessioni utilizzatore (502). Le sessioni utilizzatore contengono interrogazioni sequenziali sottoposte da un utilizzatore. Viene scelta per l'analisi una coppia di interrogazioni. La prima interrogazione Ã ̈ immediatamente precedente alla seconda interrogazione nella sessione di utilizzatore. Questo metodo permette al sistema di catturare perfezionamenti di interrogazione. Un perfezionamento di interrogazione Ã ̈ una modifica ad una interrogazione per tentare di ottenere risultati di ricerca migliorati. Ad esempio, un utilizzatore che tenta di trovare un dentista per eseguire un trattamento canalare puÃ² immettere linterrogazione iniziale "dentista locale" e quindi successivamente "odontoiatra locale". Tali coppie di interrogazioni possono esistere molte volte su molte sessioni utilizzatore per utilizzatori differenti.

Il procedimento seleziona coppie di termini (504). Ogni coppia di termini, un termine dalla prima interrogazione ed un termine dalla seconda interrogazione vengono trattati. Usando l'esempio sopra le coppie di termini sono ("locale", "locale"), ("locale" "odontoiatra"), ("dentista", "locale"), e ("dentista", "odontoiatra").

Il procedimento determina un valore di co-ricorrenza per ciascuna coppia di termini selezionata (506). Il valore di co-ricorrenza Ã ̈ una misura di come un termine puÃ² prendere bene il posto di un altro. Ad esempio, nell'interrogazione "dentista locale", e "odontoiatra locale" il termine "dentista" Ã ̈ stato eliminato ed Ã ̈ stato aggiunto il termine "odontoiatra".

In alcune forme di realizzazione, i termini eliminati sono identificati come un primo set di termini ed i termini aggiunti sono identificati come un secondo set di termini. Il sistema determina che odontoiatra Ã ̈ una sostituzione a dentista. Dal momento che Ã ̈ stato tolto un termine e ne Ã ̈ stato aggiunto un altro, il sistema assegna un valore di co-ricorrenza di 1 alla sostituzione. In un altro esempio, l'interrogazione "diventare un tecnico di computer" Ã ̈ seguita dall'interrogazione "diventare un programmatore di sistemi". In questo caso due termini sono stati eliminati e due termini sono stati aggiunti. Qualsiasi data combinazione ha solo un 25% di possibilitÃ di essere una sostituzione appropriata, ad esempio computer potrebbe essere stato cambiato in sistemi o programmatore, e tecnico potrebbe essere stato cambiato in computer o programmatore. Pertanto, ad ogni possibilitÃ Ã ̈ assegnato un valore ridotto, qui uno 0,25.

Il procedimento determina se vi sono piÃ¹ coppie rispetto al procedimento (508). Se vi sono piÃ¹ coppie rispetto al procedimento, il procedimento ritorna allo stadio 504. Altrimenti, il procedimento determina i costi di transizione sulla base dei valori di co-ricorrenza (510). Come discusso sopra, una volta che le coppie di interrogazioni sono state trattate puÃ² essere determinato un valore di coricorrenza sulla base dei dati raccolti. In generale, il valore di co-ricorrenza Ã ̈ confinato fra 0 e 1. 0 indicando che non vi Ã ̈ relazione fra i termini e 1 indicando che essi sono sinonimi intercambiabili. Il determinare il costo di transizione puÃ² comprendere l'aggregare tutti i valori di co-ricorrenza per ogni coppia di termini di interrogazione.

Sebbene venga descritto il procedimento in termini di suggerimenti di interrogazione come parte di un'operazione di ricerca, il procedimento descritto sopra puÃ² anche essere usato per sostituzioni semantiche ed espansioni. Ad esempio, il procedimento puÃ² essere usato per espansioni di parole chiave, ad esempio puÃ² identificare parole chiave di annunci pubblicitari che sono correlate alle parole chiave fomite da un inserzionista.

Le forme di realizzazione della materia e le operazioni sviluppate in questa descrizione possono essere implementate in una circuiteria elettronica digitale, o in un software, firmware o hardware di computer, comprese le strutture illustrate in questa descrizione ed i loro equivalenti strutturali, o in combinazioni di uno o piÃ¹ di questi. Realizzazioni della materia illustrata in questa descrizione possono essere implementate come uno o piÃ¹ programmi di computer, cioÃ ̈ uno o piÃ¹ moduli di istruzioni di programma di computer, codificato sul mezzo di memorizzazione di computer per l'esecuzione da parte del, o per controllare il funzionamento dell'apparato di elaborazione dati. In alternativa o in aggiunta, le istruzioni di programma possono essere codificate su un segnale propagato generato artificialmente, ad esempio un segnale elettrico, ottico o elettromagnetico generato a macchina il quale Ã ̈ generato per codificare informazioni per la trasmissione ad un apparecchio ricevente idoneo per l'esecuzione da parte di un apparato di elaborazione dati. Un mezzo di memorizzazione a computer puÃ² essere o essere incluso in un dispositivo di memoria leggibile a computer, un substrato di memoria leggibile a computer, un dispositivo o array di memoria ad accesso seriale o casuale, o una combinazione di uno o piÃ¹ di essi. Inoltre, sebbene un mezzo di memorizzazione a computer non sia un segnale propagato, un mezzo di memorizzazione a computer puÃ² essere una sorgente o destinazione di istruzioni di programma di computer codificate in un segnale propagato generato artificialmente. Il mezzo di memorizzazione a computer puÃ² anche essere, o essere incluso in uno o piÃ¹ componenti o supporti fisici separati (ad esempio CD multipli, dischi, o altri dispositivi di memoria).

Le operazioni illustrate in questa descrizione possono essere implementate come operazioni eseguite da un apparato di elaborazione dati su dati memorizzati su uno o piÃ¹ dispositivi di memorizzazione leggibili da computer o ricevuti da altre sorgenti.

Il termine "apparato di elaborazione dati" abbraccia tutti i tipi di apparati, dispositivi e macchine per elaborare dati, compresi a titolo esemplificativo un processore programmabile, un computer, un sistema su un chip, o sistemi multipli, o combinazioni di quanto precede. L'apparato puÃ² comprendere circuiteria logica a scopi speciali, ad esempio FPGA (rete logica programmabile dall'utilizzatore) o ASIC (circuito integrato ad applicazioni specifiche). L'apparato puÃ² anche comprendere, in aggiunta all'hardware, un codice che crea un ambiente di esecuzione per il programma di computer in questione, ad esempio un codice che costituisce firmware di processore, una memoria di stack di protocollo, un sistema di gestione di base di dati, un sistema operativo, un ambiente di tempo di esecuzione a piattaforma incrociata, una macchina virtuale, o una combinazione di uno o piÃ¹ di essi. L'apparato e l'ambiente di esecuzione possono realizzare varie differenti infrastrutture di modelli di calcolo, quali servizi web, infrastrutture di calcolo a griglia e di calcolo distribuito.

Un programma di computer (pure noto come programma, software, applicazione software, script, o codice) puÃ² essere scritto in qualsiasi forma di linguaggio di programma, compresi i linguaggi interpretati o compilati, i linguaggi procedurali o dichiarativi, e puÃ² essere sviluppato in qualsiasi forma, incluse le forme di programma autonomo o a sÃ ̈ stante o di modulo, componente, sottoroutine, oggetto, o altra unitÃ idonea per l'uso in un ambiente informatico. Un programma di computer puÃ² ma non necessariamente corrispondere ad un file o ad un sistema di file. Un programma puÃ² essere memorizzato in una porzione di un file che contiene altri programmi o dati (ad esempio uno o piÃ¹ script memorizzati in un documento a linguaggio di marcatura), in un singolo file dedicato al programma in questione, o in file multipli coordinati (ad esempio file che memorizzano uno o piÃ¹ moduli, sottoprogrammi, o porzioni di codice). Un programma di computer puÃ² essere sviluppato per essere eseguito su un computer o su computer multipli che sono situati in un sito o distribuiti in siti multipli ed interconnessi da una rete di comunicazione.

I procedimenti ed i flussi logici illustrati in questa descrizione possono essere eseguiti da uno o piÃ¹ processori programmabili che eseguono uno o piÃ¹ programmi di computer per svolgere azioni operando su dati in ingresso e generando un'uscita. I procedimenti ed i flussi logici possono anche essere eseguiti da un apparato che puÃ² anche essere implementato come circuiteria logica a scopi speciali, ad esempio FPGA (rete logica programmabile dall'utilizzatore) o ASIC (circuito integrato ad applicazioni specifiche).

I processori adatti per l'esecuzione di un programma di computer comprendono, a titolo esemplificativo, microprocessori sia per scopi generali sia per scopi speciali, e uno qualsiasi o piÃ¹ processori di qualsiasi tipo di computer digitale. Generalmente, un processore riceverÃ istruzioni e dati da una memoria a sola lettura o una memoria ad accesso casuale o da entrambe. Gli elementi essenziali di un computer sono un processore per eseguire azioni secondo le istruzioni ed uno o piÃ¹ dispositivi di memoria per memorizzare le istruzioni ed i dati. Generalmente, un computer comprenderÃ anche, o sarÃ accoppiato operativamente per ricevere dati da o trasferire dati a, o entrambe le cose, uno o piÃ¹ dispositivi di memoria di massa per memorizzare dati, ad esempio dischi magnetici, magneto-ottici o dischi ottici. Tuttavia, un computer non necessita di avere tali dispositivi. Inoltre, un computer puÃ² essere incorporato in un altro dispositivo, ad esempio un telefono cellulare, un palmare (PDA), un lettore video o audio portatile, una console giochi, un ricevitore di sistema di posizionamento globale (GPS), o un dispositivo di memorizzazione portatile (ad esempio un drive flash USB - Universal Drive Bus), per citarne solo alcuni. I dispositivi idonei per memorizzare istruzioni di programmi di computer e dati comprendono tutte le forme di memoria non volatile, dispositivi di supporto e di memoria, compresi a titolo di esempio dispositivi di memoria a semiconduttore, ad esempio dispositivi di memoria EPROM, EEPROM e flash; dischi magnetici, ad esempio dischi rigidi interni o dischetti; dischi magneto-ottici; e dischi CD-ROM e DVD-ROM. Il processore e la memoria possono essere integrati da, o incorporati in una circuiteria logica per scopi speciali.

Per fornire lâ€™interazione con un utilizzatore, realizzazioni della materia illustrata in questa descrizione possono essere implementate su un computer avente un dispositivo di visualizzazione, ad esempio un monitor CRT (tubo a raggi catodici) o LCD (display a cristalli liquidi) per visualizzare informazioni all'utilizzatore ed una parola chiave e un dispositivo puntatore, ad esempio un mouse o una pallina tracciante (trackball), mediante i quali l'utilizzatore puÃ² fornire dispositivi di ingresso al computer. Altri tipi di dispositivi possono pure essere usati per fornire interazione con un utilizzatore; ad esempio la retroazione fornita all'utilizzatore puÃ² essere qualsiasi forma di retroazione sensoriale, ad esempio retroazione visiva, retroazione auditiva, o retroazione tattile; e l'ingresso proveniente dall'utilizzatore puÃ² essere ricevuto in qualsiasi forma, compreso l'ingresso acustico, di linguaggio o tattile. Inoltre, un computer puÃ² interagire con un utilizzatore inviando documenti a, e ricevendo documenti da un dispositivo che viene usato dall'utilizzatore; ad esempio inviando pagine web a un browser web su un dispositivo cliente di un utilizzatore in risposta a richieste ricevute dal browser web.

Realizzazioni della materia illustrata in questa descrizione possono essere implementate in un sistema informatico che comprende un componente di retro, ad esempio un server di dati, o che comprende un componente standard, ad esempio un server di applicazione, o che comprende un componente frontale, ad esempio un computer di cliente avente un'interfaccia grafica di utilizzatore o un browser web attraverso il quale un utilizzatore puÃ² interagire con una realizzazione della materia illustrata nella descrizione, o qualsiasi combinazione di imo o piÃ¹ di tali componenti di retro, standard o frontale. I componenti del sistema possono essere interconnessi da qualsiasi forma o supporto di comunicazione di dati digitale, ad esempio una rete di comunicazione. Esempi di reti di comunicazione comprendono una rete locale ("LAN") e una rete geografica ("WAN"), un'inter-rete (ad esempio Internet), e reti da pari a pari (P2P) (ad esempio reti P2P ad hoc).

Il sistema informatico puÃ² comprendere clienti e server. Un cliente ed un server sono generalmente lontani fra loro e tipicamente interagiscono attraverso una rete di comunicazione. La relazione di cliente e server sorge grazie a programmi di computer che funzionano sui rispettivi computer e aventi tra loro una relazione cliente-server. In alcune realizzazioni, un server trasmette dati (ad esempio una pagina HTML) ad un dispositivo cliente (ad esempio allo scopo di visualizzare dati a, e ricevere immissione di dati da un utilizzatore interagente con il dispositivo cliente). I dati generati in corrispondenza del dispositivo cliente (ad esempio un risultato dell'azione di utilizzatore) possono essere ricevuti dal dispositivo cliente in corrispondenza del server.

Sebbene questa descrizione contenga molti dettagli di realizzazioni specifiche, questi non devono essere intesi come limitazioni dell'ambito di una qualsiasi invenzione o di ciÃ² che puÃ² essere rivendicato, ma piuttosto come descrizioni di caratteristiche specifiche per particolari realizzazioni di invenzioni particolari. Certe caratteristiche che sono illustrate in questa descrizione nel contesto di realizzazioni separate possono anche essere implementate in combinazione in una singola realizzazione. Al contrario, varie caratteristiche che sono descritte nel contesto di una singola realizzazione possono anche essere implementate in realizzazioni multiple separatamente o in qualsiasi sotto-combinazione idonea. Inoltre, sebbene possano essere descritte sopra caratteristiche come agenti in certe combinazioni ed anche inizialmente rivendicate come tali, una o piÃ¹ caratteristiche da una combinazione rivendicata possono in alcuni casi essere estratte dalla combinazione e la combinazione rivendicata puÃ² essere rivolta ad una sotto-combinazione o variazione di sottocombinazione.

Similmente, sebbene siano illustrate operazioni nei disegni secondo un ordine particolare, ciÃ² non va inteso come il richiedere che tali operazioni siano eseguite nel particolare ordine rappresentato o in un ordine sequenziale, o che tutte le operazioni illustrate siano eseguite per ottenere risultati desiderabili. In certe circostanze, un'elaborazione parallela e contemporanea di due o piÃ¹ programmi puÃ² essere vantaggiosa. Inoltre, la separazione di vari componenti di sistema nelle realizzazioni descritte sopra non va intesa come richiedente tale separazione in tutte le realizzazioni, e si comprenderÃ anche che i componenti ed i sistemi di programma descritti possono generalmente essere integrati assieme in un singolo prodotto software o impaccati in prodotti software multipli.

CosÃ¬, sono state descritte particolari realizzazioni della materia. Altre realizzazioni rientrano neH'ambito delle rivendicazioni che seguono. In alcuni casi, le azioni recitate nelle rivendicazioni possono essere eseguite in un ordine differente e ottenere ancora i risultati desiderati. Inoltre, i procedimenti illustrati nelle figure allegate non richiedono necessariamente il particolare ordine rappresentato, o ordine sequenziale, per realizzare i risultati desiderati. In certe realizzazioni, possono risultare vantaggiose elaborazioni parallele e di esecuzione contemporanea di due o piÃ¹ programmi.

Claims

RIVENDICAZIONI 1. Metodo implementato da computer eseguito da unâ€™apparecchiatura di elaborazione dati, il metodo comprendendo: - selezionare coppie di interrogazioni relative ad interrogazioni provenienti da sessioni utilizzatore, ciascuna coppia di interrogazioni essendo una prima interrogazione ed una seconda interrogazione, le quali sono state sottoposte come interrogazioni separate durante una sessione di ricerca, ciascuna prima e seconda interrogazione comprendendo almeno un termine; per ciascuna coppia di interrogazioni: - selezionare coppie di termini dalla coppia di interrogazioni, ciascuna coppia di termini essendo formata da un primo termine nella prima interrogazione e da un secondo termine nella seconda interrogazione; - determinare un valore di co-ricorrenza per ciascuna coppia di termini selezionata, e - determinare costi di transizione basati sui valori di co-ricorrrenza per coppie di termini delle coppie di interrogazioni, ciascun costo di transizione essendo indicativo di un costo per passare da un primo termine in una prima interrogazione ad un secondo termine in una seconda interrogazione consecutiva alla prima interrogazione.
2. Metodo della rivendicazione 1, in cui determinare il valore di co-ricorrenza comprende: - identificare un primo set di termini compresi nella prima interrogazione e non compresi nella seconda interrogazione; - identificare un secondo set di termini compresi nella seconda interrogazione e non compresi nella prima interrogazione; e - per ciascuna coppia di interrogazioni, in risposta allâ€™ identificazione che il primo termine Ã ̈ un elemento del primo set e che il secondo termine Ã ̈ un elemento del secondo set, assegnare un codice di transizione inversamente proporzionale al prodotto della dimensione del primo set con la dimensione del secondo set.
3. Metodo della rivendicazione 1 o della rivendicazione 2, in cui determinare i costi di transizione comprende: per ciascuna coppia di termini di interrogazione: - aggregare i valori di co-ricorrenza determinati per la coppia di termini di interrogazione; - determinare una probabilitÃ che la coppia di termini di interrogazione coricorra; - determinare un costo di transizione basato sulla probabilitÃ ; - immagazzinare il costo di transizione in una matrice di costo.
4. Metodo della rivendicazione 3, in cui determinare costi di transizione comprende inoltre: - normalizzare i costi di transizione nella matrice di costo sulla base di almeno uno di una probabilitÃ che una prima interrogazione della coppia di termini di interrogazione co-ricorra con una qualsiasi interrogazione e di una probabilitÃ che una seconda interrogazione della coppia di termini di interrogazione coricorra con una qualsiasi interrogazione.
5. Metodo della rivendicazione 4, in cui determinare i costi di transizione comprende inoltre: - creare matrici di costo multiple, ciascuna matrice di costo includendo il costo di transizione normalizzato sulla base di un diverso fattore di normalizzazione, in cui i fattori di normalizzazione includono la probabilitÃ che la prima interrogazione della coppia di termini di interrogazione co-ricorra con una qualsiasi interrogazione, la probabilitÃ che la seconda interrogazione della coppia di termini di interrogazione co-ricorra con una qualsiasi interrogazione, ed il prodotto della probabilitÃ che la prima interrogazione co-ricorra con una qualsiasi interrogazione con la probabilitÃ la seconda interrogazione co-ricorra con una qualsiasi interrogazione.
6. Metodo di una qualsiasi delle precedenti rivendicazioni comprendente inoltre: - ricevere una interrogazione corrente ed una pluralitÃ di interrogazioni suggerite, ciascuna delle interrogazioni correnti e suggerite comprendendo uno o piÃ¹ termini; per ciascuna delle interrogazioni suggerite: - calcolare una distanza di editazione tra l interrogazione suggerita e l interrogazione corrente sulla base di un costo di transizione del termine corrente e del termine suggerito; e - selezionare unâ€™interrogazione suggerita da una pluralitÃ di interrogazioni suggerite sulla base della distanza di editazione.
7. Metodo della rivendicazione 6 in cui il calcolo della distanza di editazione comprende: - identificare un valore in una matrice di costo sulla base di una coppia di interrogazioni di sostituzione comprendenti il termine corrente ed il termine suggerito; oppure in cui il calcolo della distanza di editazione comprende: - identificare valori in una pluralitÃ di matrici di costo sulla base di una coppia di interrogazioni di sostituzione comprendenti il termine corrente ed il termine suggerito; - fare la media dei valori identificati.
8. Metodo secondo una qualsiasi delle precedenti rivendicazioni, in cui selezionare comprende selezionare coppie di interrogazioni relative ad interrogazioni consecutive provenienti da sessioni utilizzatore, ciascuna coppia di interrogazioni essendo una prima interrogazione ed una seconda interrogazione le quali sono state consecutivamente sottoposte come interrogazioni separate durante una sessione di ricerca.
9. Metodo secondo una qualsiasi delle precedenti rivendicazioni, in cui ciascuna coppia di interrogazioni Ã ̈ una prima interrogazione ed una seconda interrogazione sottoposte come interrogazioni separate durante una sessione di ricerca allâ€™ interno di un numero massimo di interrogazioni che sono intervenute.
10. Un sistema comprendente: - un apparato di elaborazione dati, e - una memoria per immagazzinare istruzioni eseguibili dallâ€™apparato di elaborazione dati, le quali a seguito di detta esecuzione determinano che lâ€™apparato di elaborazione dati svolga il metodo di una qualsiasi delle precedenti rivendicazioni.
11. Un mezzo di memorizzazione per computer o un mezzo leggibile da computer codificato con un programma per computer, il programma comprendendo istruzioni che quando eseguite da apparecchiature per elaborazione dati determinano che lâ€™apparato di elaborazione dati svolga il metodo di una qualsiasi delle rivendicazioni da 1 a 9.