NL1016056C2

NL1016056C2 - Methode en systeem voor personalisatie van digitale informatie.

Info

Publication number: NL1016056C2
Application number: NL1016056A
Authority: NL
Inventors: Egidius Petrus Maria Va Liempd; Renu Martin Bultje
Original assignee: Koninkl Kpn Nv
Priority date: 2000-08-30
Filing date: 2000-08-30
Publication date: 2002-03-15
Also published as: EP1362298A2; WO2002019158A3; US20040030996A1; AU2002210472A1; WO2002019158A2

Description

Methode en systeem voor personalisatie van digitale informatie ACHTERGROND VAN DE UITVINDING 5 De uitvinding heeft betrekking op een methode voor automatische selectie en presentatie van digitale berichten ten behoeve van een gebruiker, alsmede een systeem voor automatische selectie en presentatie van digitale berichten uit een berichtenbron aan een gebruikersterminal.

10 Dergelijke methoden en systemen voor "personalisatie” van informatievergaring zijn van algemene bekendheid. Personalisatie wordt steeds belangrijker als "added value" in diensten. Door.de explosieve groei van het informatieaanbod en het karakter van internet wordt het 15 steeds noodzakelijker dat informatie (automatisch) wordt toegesneden op de persoonlijke wensen en eisen.van de gebruiker. Diensten die dit bieden hebben·daardoor een "competitive edge". Daarnaast is er de opkomst van kleine terminals: niet alleen zijn er nu "Personal Digital 20 Assistants" (PDAs) zoals de "Palm Pilot", die steeds krachtiger worden, ook mobiele telefoons schuiven op in de richting van computers. Deze kleine "devices" zijn altijd λ persoonlijk, en zullen (ten opzichte van vaste computers) toch altijd relatief beperkt blijven in rékenkracht, .25 opslagcapaciteit en bandbreedte. Ook hiervoor is toepassing van personalisatietechnieken (om alleen de juiste data op het apparaat te krijgen) noodzakelijk.

Het probleem is: hoe.kan een gebruiker op een kleine persoonlijke computer op eën makkelijke manier die 30 informatie krijgen die hét beste aansluit bij de persoonlijke behoeften van de gebruiker. Onder "kleine persoonlijke computer" wordt verstaan computers kleiner dan een laptop, dus PDAs (Palm Pilot e.d.), mobiele telefoons zoals WAP-telefoons, etc. De informatie zou bijvoorbeeld 35 kunnen bestaan uit het nieuws van de dag, maar wellicht ook •i O 4 r- r\ r λ ·„

Is» » 4 I 1 · I iTÏ -2- rapporten e.d.

Op dit moment zijn er al nieuwsdiensten beschikbaar op mobiele telefoons (bijvoorbeeld via de service "Θ-Info" van KPN). Deze zijn echter niet gepersonaliseerd. Om toch om te 5 kunnen gaan met de beperkte bandbreedte/opslagcapaciteit betekent dat ofwel dat de berichten erg kort worden, dus niet op het gewenste detailniveau ofwel de gebruiker moet via veel "menukliks" en wachten precies aangeven wat deze wil zien.

10 Via standaard browsers worden op het internet wel gepersonaliseerde informatiediensten aangeboden. Meestal gaat de .personalisatie echter niet verder dan de mogelijkheid de layout van de informatieonderdelen in te kunnen stellen. Voor zover personalisatie betrekking heeft 15 op de inhoud, vereist het meestal van de gebruiker dat deze informatiecategorieën aangeeft waarin de gebruiker geïnteresseerd is. Dit is meestal ofwel te grof. Bijvoorbeeld kan men aangeven in "sport" geïnteresseerd te zijn maar men is feitelijk niet geïnteresseerd in voetbal 20 maar wel in roeien. Ofwel het kost de gebruiker veel werk. Bijvoorbeeld is men niet geïnteresseerd in roeien in het algemeen, maar wel in wedstrijdroeien. Als men voor elke interesse een exacte afbakening moet geven is men lang bezig. Bovendien weet de gebruiker vaak niet expliciet wat 25 nu precies zijn interessegebieden zijn.

Bij sommige nieuwsdiensten en "search engines" wordt aangeboden de informatie te selecteren op basis van "keywords" uit de tekst of uit de headers. Dit is een rekenintensieve methode (er zijn duizenden verschillende 30 woorden) die bovendien allerlei ambiguïteiten en missers oplevert. Als men bijvoorbeeld iets zoekt over "vliegen", betreft het dan insecten of vliegreizen?

SAMENVATTING VAN DE UITVINDING

De onderhavige uitvinding beoogt te voorzien in een 35 geavanceerde en gepersonaliseerde dienst voor het zoeken en - * ‘ -3- presenteren van (tekstuele) informatie op kleine devices.

Daartoe voorziet de uitvinding in een methode voor automatische selectie en presentatie van digitale berichten ten behoeve van een gebruiker, alsmede een systeem voor 5. automatische selectie en presentatie van digitale berichten uit een berichtenbron aan een gebruikersterminal. De methode volgens de uitvinding voorziet in de volgende stappen: a. van de gebruiker wordt een interesseprofiel gegenereerd 10 in de vorm van een interessevector in een K-dimensionale ruimte waarin K het aantal kenmérken is dat discrimineert of een document voor de gebruiker wel of niet relevant wordt geacht, waarbij aan elk woord door de gebruiker een * gewicht wordt toegekend in overeenstemming met het door de · 15 gebruiker aan. het.woord toegekend belang; b. van elk bericht wordt aan de hand van in het bericht, voorkomende woorden een inhoudsvector gegenereerd in een N-dimensionale ruimte, waarin N het totale aantal relevante woorden over alle berichten is, waarbij aan elk in het 20 bericht voorkomende woord een gewicht wordt toegekend naar . rato van het aantal keren dat het woord in het bericht-voorkomt ten opzichte van het aantal keren dat het woord in ’ alle berichten voorkomt ("Term Frequency - Inverse Document Frecuency", TF-IDF) ; 25 c. de inhoudsvector wordt met de interessevector vergeleken en -de cosinusmaat van- hun onderlinge afstand berekend; d. berichten waarvan de afstand tussen de inhoudsvector en de interessevector een bepaalde drempelwaarde niet overschrijdt worden aan de gebruiker gepresenteerd.

30 De inhoudsvector wordt, alvorens met de interessevector te worden vergeleken, gereduceerd door middel van "Latent Semantic Indexing", ondermeer bekend uit US4839853 en US5301109. LSI zorgt ervoor dat documenten en gebruikers worden gerepresenteerd door vectoren van een paar honderd 35 elementen, in tegenstelling tot de vectoren van duizenden -4- dimensies nodig voor keywords. Het rekenwerk wordt daardoor een stuk minder en sneller, en bovendien zorgt LSI voor een natuurlijke aggregatie van documenten die over. hetzelfde onderwerp gaan, ook al bevatten ze niet dezelfde woorden.

5 Van de afstand tussen de inhoudsvector en de interessevector wordt doorgaans de "cosinusmaat" berekend. De berichten worden bij voorkeur gesorteerd op relevantie aan de hand van de respectievelijke afstanden van de hun inhoudsvector tot de interessevector. De berichten worden 10 daarna gesorteerd op relevantie aan de gebruiker aangeboden.

De gebruiker kan bij voorkeur aan elk gepresenteerde bericht een eerste relevantiegewicht toekennen waarmee het interesseprofiel van de gebruiker kan worden, bij gesteld.

15 Verder kunnen bij behandeling door de gebruiker van het gepresenteerde bericht behandelingsvariabelen worden gemeten. Uit de gebeten waarden van die behandelingsvariabelen kan vervolgens een tweede relevantiegewicht worden berekend waarmee het 20 interesseprofiel van de gebruiker automatisch kan worden bijgesteld.

UITVOERINGSVOORBEELDEN

Figuur 1 toont schematisch een systeem waarmee de methode 25 volgens de uitvinding kan worden uitgevoerd. Figuur 1 toont, aldus een systeem voor automatische selectie en presentatie van digitale berichten uit een berichtenbron, bijvoorbeeld een nieuwsserver 1 aan een gebruikersterminal 2. De automatische selectie en presentatie van de digitale 30 berichten wordt uitgevoerd door een selectieserver 3 die de berichten ontvangt van de nieuwsserver 1, via.een netwerk 4 (bijvoorbeeld het internet). De selectieserver 3 omvat een register 5 waarin een interesseprofiel van de terminalgebruiker is opgeslagen, in de vorm van een 35 interessevector in .een K-dimensionale ruimte waarin K het ί ·_ ..

-5- aantal kenmerken is dat discrimineert of een document voor de gebruiker wel of niet relevant wordt geacht. Aan elk woord is tevoren door de. gebruiker een gewicht is toegekend in overeenstemming met het door de gebruiker aan het woord 5 toegekende belang. Van nieuwsserver 1 afkomstige berichten, worden in server 3 via een interface 6 aangeboden aan een vectoriseermodule. Daarin wordt per bericht een inhoudsvector gegenereerd aan de hand van in het bericht voorkomende woorden, in een N-dimensionale ruimte, waarin N 10 het totale aantal relevante woorden over alle berichten is. De vectoriseermodule 7 kent aan elk in het bericht voorkomende woord een gewicht toe naar rato van het aantal keren dat het woord in het bericht voorkomt ten opzichte van het aantal keren dat het woord in alle berichten 15 voorkomt. De vectoriseermodule 7 reduceert vervolgens de inhoudsvector door middel van "Latent Semantic Indexing", waardoor de vector aanzienlijk kleiner· wordt. De inhoud van het bericht wordt vervolgens tezamen met de bijhorende inhoudsvector in een database 8 ingeschreven. In een 20 vergelijkingsmodule 9 wordt de inhoudsvector met de interessevector vergeleken en de cosinusmaat van hun onderlinge afstand berekend. Via de als transmissiemodule werkende interface 6 worden berichten waarvan de afstand tussen de inhoudsvector en de interessevector een bepaalde .25 drempelwaarde niet overschrijdt aan de mobiele gebruikersterminal 2 overgedragen via het netwerk 4 en een basisstation 10. Voorafgaande aan de overdracht naar de . mobiele terminal 2 sorteert de vergelijkingsmodule 9 of de transmissiemodule 6 de berichten nog op relevantie aan de 30 hand van de respectievelijke afstanden van de hun inhoudsvector tot de interessevector.

De gebruikersterminal 2 omvat een module 12 -een "browser" incl. een ("touch screen") beeldscherm- waarmee de via een interface 11 van de server 3 ontvangen berichten kunnen 35 worden geselecteerd en gedeeltelijk of geheel gelezen.

-6-

Voorts kan door middel van de browser aan elk ontvangen bericht een (eerste) relevantiegewicht of -code worden toegekend, welk via de interface 11, het basisstation 10 en het netwerk 4 naar de server 3 overgedragen wordt..Via 5 interface 6 van server 3 wordt het relevantiegewicht ·-doorgezonden aan.een update-module 13, waarin het in database 5 opgeslagen interesseprofiel aan de hand van het overgedragen.eerste relevantiegewicht door de terminalgebruiker bijgesteld. De gebruikersterminal 2 omvat 10 bovendien een meetmodule 14 voor het bij behandeling door de gebruiker van 'het gepresenteerde bericht meten van behandelingsvariabelen. Die behandelingsvariabelen worden via de interfaces 11 en 6 overgedragen naar de server 3, die, in een update-module 13, uit de gemeten waarden van 15 die behandelingsvariabelen een tweede relevantiegewicht berekent, Vervolgens stelt de terminalgebruiker met behulp van de update-module 13 het in database 5 opgeslagen interesseprofiel bij aan de hand van het eerste relevantiegewicht.

20 De browser module zit 12 omvat dus een functionaliteit om de relevantie-"feedback" van de gebruiker te registreren. Deze bestaat allereerst per bericht uit een vijfpuntsschaal, waarop de gebruiker zijn expliciete waardering voor het bericht kan geven (de eerste 25 relevantiecode). Daarnaast wordt impliciet per bericht door de meetmodule 14 gedetecteerd welke acties de gebruiker uitvoert: heeft hij op het bericht geklikt, heeft hij doorgeklikt op de samenvatting, heeft hij het. bericht helemaal gelezen, hoe lang, etc. De meetmodule omvat.dus 30 uit een "logging" mechanisme, waarvan het bewerkte resultaat als tweede relevantiecode naar de server 3 wordt gezonden om tezamen met de eerste relevantiecode het gebruikersprofiel te corrigeren.

Samenvattend kan gesteld worden dat het voorgestelde 35 systeem een modulaire architectuur heeft, waarbij het -7- mogelijk is dat alle functies noodzakelijk voor geavanceerde personalisatie worden uitgevoerd, terwijl het overgrote deel van het rekenwerk niet op het kleine mobiele device 2 plaatsvindt, maar op de server 3. Bovendien kan 5 het meest rekenintensieve deel parallel aan het dagelijks gebruik plaatsvinden. Voorts is het voorgestelde systeem in staat om betere personalisatie (dan bijvoorbeeld via keywords) te realiseren door gebruik te maken van Latent Semantic Indexing (LSI) voor de in de databases 5 en 8 • 10 opgeslagen profielen' van gebruikers en documenten. LSI zorgt ervoor dat documenten en gebruikers worden gerepresenteerd door vectoren van een paar honderd elementen, in tegenstelling tot de vectoren van duizënden dimensies nodig voor keywords. Het rekenwerk wordt daardoor 15 een stuk minder en sneller, en bovendien zórgt LSI voor een natuurlijke aggregatie van documenten die over hetzelfde . onderwerp gaan, ook al bevatten ze niet dezelfde woorden.

Door middel van een combinatie van expliciete en impliciete feedback, middels de eerste resp. tweede relevantiecode, 20 kan het personalisatiesyèteem het profiel van de gebruiker automatisch aanpassen en bijleren. Expliciete feedback, dwz een explciete waardering van de gebruiker voor een door hem gelezen item is de beste bron van informatie maar vereist moeite van de gebruiker. Impliciete feedback bestaat uit 25 niets meer dan de registratie van het gedrag van de terminalgebruiker (welke'items heeft hij gelezen, hoe lang, heeft hij door een item heen gescrolled, etc.) , vereist dus geen extra moeite van de gebruiker, maar kan met behulp van "data mining" technieken gebruikt worden om, namens de 30 gebruiker, diens waardering in te schatten. Dit is echter minder betrouwbaar dan directe feedback. Een combinatie van impliciete en expliciete feedback heeft de voordelen* van beide. Overigens wordt opgemerkt dat expliciete feedback, ingevoerd door de gebruiker, uiteraard niet'voor elk 35 bericht noodzakelijk is; vaak kan worden volstaan met -8- impliciete feedback vanuit het systeem.

Tenslotte wordt hieronder nog een uitgewerkt voorbeeld gegeven van personalisatie op basis van Latent Semantic Indexing (LSI).

5 Personalisatie houdt in het afstemmen van aanbod op de behoeften van gebruikers. Hiervoor is het in het algemeen noodzakelijk dat drie activiteiten worden uitgevoerd.

Aanbod en gebruikersbehoeften moeten worden gerepresenteerd op een manier die het mogelijk maakt ze met elkaar te 10 vergelijken, en vervolgens moeten ze daadwerkelijk met elkaar worden vergeleken om vast te kunnen stellen welk (deel van het) aanbod gebruikersbehoeften bevredigt en welk deel niet. Hierbij is het noodzakelijk dat veranderende gebruikersbehoeften worden gevolgd en dat de representatie 15 van die behoeften (het gebruikersprofiel) wordt aangepast. In dit document wordt aangegeven op welke manier Latent Semantic Indexing (LSI) kan worden gebruikt voor het beschrijven van aanbod—in dit geval nieuwsberichten—en welke consequenties dit heeft voor de beide andere 20 processen, het beschrijven van gebruikersbehoeften en het vergelijken daarvan met het aanbod.

Documenten en termen worden door LSI geïndexeerd op basis van een collectie documenten. Dit wil zeggen dat de LSI-representatie van een bepaald document afhankelijk is van de andere 25 documenten in de collectie; als het document onderdeel is van een andere collectie, zal een andere LSI-representatie (kunnen) ontstaan.

Er wordt gestart met een collectie documenten, waaruit opmaak, hoofdletters, leestekens, stopwoorden en dergelijke 30 worden verwijderd en waarin termen eventueel tot hun stam worden teruggebracht: fietsen, fietste en gefietst -> fiets. De collectie wordt weergegeven als een term-document matrix A, met documenten als kolommen en termen als rijen. In de cellen van de matrix staat weergegeven hoe vaak elke 35 term (stam) in elk van de documenten voorkomt. Deze scores -9- in de cellen kunnen nog gecorrigeerd worden met een lokale weging van het belang van de term in het document en met een globale weging van het belang van de term in de gehele collectie documenten: termen die in alle documenten in een 5 collectie vaak voorkomen zijn bijvoorbeeld niet erg onderscheidend en krijgen daarom een laag gewicht. Voor de voorbeeldcollectie documenten in Tabel 1, resulteert de term-document matrix A in Tabel 2.

cl I Human Machine Interface for Lab ABC Computer Applications "c2 A Survey of User Opinion of Computer System Response Time "c3 The EPS User Interface Management System "c4 System and Human System Engineering . . . .

Testing of EPS * "c5 Relation of User-Perceived Response Time to.Error Measurement ml The Generation of Random, Binary, : ~.

Unordered Trees- m2 The Intersection Graph of Paths in Trees m3 Graph Minors IV: Widths of Trees and Well-Quasi-Ordering m4 Graph Minors: A Survey io Tabel 1 Voorbeeldverzameling documenten.

Bij het construeren van de matrix A in Tabel 2 zijn uit de documenten in het voorbeeld alleen de woorden meegenomen die minstens 2 keer in de gehele collectie voorkomen en die 15 bovendien niet op een lijst met stopwoorden ("the", "of", etc.) staan. In Tabel 1 zijn deze woorden cursief weergegeven; ze vormen de rijen in de matrix A.

A= [documenten ’ · termen ~ cl c2 c3 c4 c5 [ml [m2 [m3 Im4 human "I Ö 0 1' 0 0 0 0 0 -10- interf 10 10 0 ~Ö Ö Ö Ö ace comput 1 1 0 0 0 ”Ö Ö Ö Ö er user 0 110 1 "Ö 5 Ö Ö system 0 112 0 ~Ö Ö Ö Ö respon 0 10 0 1 "Ö Ö Ö Ö se time 0 10 0 1 "Ö Ö Ö Ö "ËPS "Ö “Ö Ί ï Ö Ί) Ί) "Ö ~Ö

survey 0 1 0 0 0 "Ö Ö Ö I

trees Ti “Ö "Ö "Ö "Ö Ί Ί Ί Ί) graph 0 0 0 0 0 "Ö I 1 ~ï minors 0 0 0 0 0 "Ö Ö ï ï ~

Tabel 2 Term-document matrix A op basis van het voorbeeld in Tabel 1.

De kern van LSI wordt gevormd door de matrix operatie 5 Singular Value Decomposition (SVD), die een matrix ontleedt in het product van 3 andere matrices: A = U· Σ·ντ (txd) (ixt) (txd) (dxd)

De afmetingen van de matrices zijn eronder weergegeven. Ze worden hieronder duidelijker gemaakt.

d t d 1 1 Γσ. 0 0 0 ·. 0 d - 10 t =t t 0 0 d o ··· o

J [ J [o o J vT

A U Σ

Hierin is p = min(t,d). De waarden in de matrix Σ zijn gerangschikt, zodanig dat σι £ 02 > - t Or > Or+l = ... = Op = 0 .

Omdat het onderste deel van Σ leeg is (alleen nullen

Mi ; ; i . · J i -11-

bevat), komt de vermenigvuldinging neer op A = U Σ · VT

M) (txp) (ρχρ) (pxd)

Dit maakt duidelijk dat documenten niet op termen en vice versa worden afgebeeld, zoals in matrix A (txd), maar dat 5 zowel termen als documenten-in matrices U (txp) en V (dxp), respectievelijk-op p onafhankelijke dimensies worden afgebeeld. De singuliere waarden in de matrix Σ maken duidelijk wat de 'kracht' van elk van die p dimensies is.

* · Slechts r dimensies (r < p) hebben een singuliere waarde 10 groter dan 0; de anderen tellen helemaal niet mee. De essentie van LSI bestaat erin dat niet a!lle r dimensies met een positieve singuliere waarde in de beschrijving mee worden genomen, maar dat slechts de grootste k dimensies (k « r) van belang worden geacht. De zwakste dimensies worden 15 verondersteld alleen ruis, ambiguïteit en variabiliteit in woordkeuze te representeren, zodat, door deze dimensies weg te laten, LSI niet alleen een efficiëntere, maar tegelijkertijd een effectievere representatie van woorden en documenten tot gevolg heeft.

20 De SVD van de matrix A in het voorbeeld (Tabel 2), levert de volgende matrices ü, Σ en VT op.

0.2 1- |o.2 |- “p p |o.5 p p : U= 2 0.1 9 0.4 0.1 0.3 2 0.0 0.4 1 114 6 1 ~ÖT2 - ~ön~~ -072--075-- 0 0.04 0.58 0 0.00.0 0.1 7 5 7 1 1 0.2 0.0 - ~ - - - 0.0 0.4 4 4 0.1 0.5 0.1 0.2 0.3 6 9 6 9 1 5 0 -12- 0.4 10.0 I- 10.1 10.3 10.3 10.0 |0.0 10.0 06 0.3 03800 1 4 0.6 - Ό OTT""1 “ ~ ÖTÖ 072 4 0.1 6 3 0.1 0.2 0.1 3 7 7 '617 0.2 0.1 “ 0.0 0.0 “ 0.2 ~ “ 7 1 0.4 7 8 0.1 8 0.0 0.0 3 7 2 5 0.2 0.1 - 0.0 0.0 - 0.2 “ “ 7 1 0.4 7 8 0.1 8 0.0 0.0 3 7 2 5 0.3 - 0.3 0.1 0.1 0.2 0.0 ~ ~ 0 0.1 3 9 1 7 3 '0.0 0.1 .4. 2 7 0.2 0.2 “ - - 0.0 - ~ ~ 1 7 0.1 0.0 0.5 8 0.4 0.0 0.5 8 3 4 .7 4 · 8 0.0 0.4 0.2 0.0 0.5 - ' ~ 0.2 - 1 9 3 3 9 0.30.2 5 0.2 9 9 3 0.0 0.6 0.2 0.0 - 0.1 0.1 ~ 0.2 4 2 2 O 0.0 1 6 0.6 3 7 8 0.0 0.4 0.1 ~ - 0.2 0.3 0.6 0.1 3 5 4 0.0 0.3 8 4 8 8

1 O

3.3 “ 4 __ ; -4 —— 5 -13- 11.6 Ί Γ 4 __ Ο __ : 1 · .. 0.8 5 __ 6 ___ 6 τ 10.2 10.6 10.4 10.5 10.2 10.0 10.0 10.0 |0.0 ντ= 0 1 6 4 8 0 1 2 8.

” 0.1 ~ ~ 0.1 0.1 0.4 Ο,. 6 0.5 ' 0.07 0.10.21 9 4 2 3 * 6 3 3 0.1 ~ 0.2 0.5 - 0.1 0.1 . 0.2. 0.0 10.51 7 0.5, Ο 9 5 8 . Ο 1 , .

~ “ 0.0 0.2 0.1 0.0 0.0 0.0 “ 0.9 0.0 4 7 5 2 2 1 0.0 5 3 3 0.0 - 0.3 ~ 0.3 0.3 0.3 0.1 “ 5 0.2 8 0.2 3 9 5 5 0.6 1 1 Ο - - 0.7 ~ 0.0 - “ "ÖTÖ Ö7T~ 0.0 0.2 2 0.3 3 0.3 0.2 Ο 6 8 6 7 0 1 0.1 - - 0.2 0.6 - - 0.2 0.0 8 0.4 0.2 6 7 0.3 0.1 5 4 3 4 4 5 1 ϋ I c ;,ι'.ν:·Λ -14- “ 10.0 I 0.0 I- P I 0.4 I- 10.4 I- 0.0 5 1 0.0 0.0 5 0.7 5 0.0 1 2 6 6 7 - 0.2 0.0 ~ - ~~ Ö.0 0.5 ” 0.0 4 2 0.0 0.2 0.6 2 2 0.4 6 8 6 2 5

De singuliere waarden in matrix £ zijn in Figuur 1 in grafiekvorm weergegeven.

4 -.-:---:_ - ♦ 3.....................*......................................................

♦ ♦ 2-...........................................................................

♦ ♦ ♦ 1-..........................................................................

♦ ♦ ♦ 0 -J-1-1-1-1-1-1-1-1- 123456789 5

Figuur 1 Singuliere waarden.

Wanneer in het kader van LSI bijvoorbeeld wordt gesteld dat slechts de 2 belangrijkste, in plaats van alle 9 singuliere 10 waarden van belang zijn, betekent dit dat alle termen en documenten (in matrices U en V, respectievelijk), in termen van slechts de eerste 2 kolommen kunnen worden beschreven. Weergaven in twee dimensies kunnen in het platte vlak goed worden gevisualiseerd, wat in Figuur 2 is gebeurd.

15 x

U

-15-

Cn) 0> « c d)

E

73 m3 “graph ^minors •survey nm1 respons nc2 time ^c5 *comp.· user _c1 dimensie 1 . interface * human «EPS °c3 eSyStem nc4

Figuur 2 Geometrische interpretatie van LSI.

Hieruit blijkt dat de beide groepen documenten, die in 5 Tabel 1 kunnen worden onderscheiden, als gevolg van LSI ook daadwerkelijk van elkaar worden gescheiden: de m-documenten liggen met name langs de 'verticale' dimensie,· en de c-documenten langs de horizontale.

Wanneer van een gebruiker bekend is dat hij document m4 10 interessant vond, dan kan op deze manier worden voorspeld dat hij documenten ml, m2 en m3 ook interessant zal vinden, omdat die documenten in termen van de woorden die erin worden gebruikt, sterk lijken op het interessante document m4. In geometrische termen is de hoek tussen documenten m4 15 en de andere 3 m-documenten klein, en dus de cosinus groot (die is 1 bij een hoek van 0°, 0 bij een hoek van 90°, en -1 bij een hoek van 180°) . Het feit dat een gebruiker een document interessant vindt, wordt gerepresenteerd doordat het profiel van die gebruiker, dat net als de termen en 20 documenten ook een vector in de k-dimensionale LSI-ruimte is, aangepast ('verschoven') wordt in de richting van het gewaardeerde document. Op dezelfde manier doet een -16- negatieve waardering de profielvector opschuiven in de | richting van het omgekeerde van (de negatief gewaardeerde) documentvector: een oninteressant document leidt tot een gewaardeerde documentvector die in tegengestelde richting 5 van de oorspronkelijke documentvector ligt, zodat het verschuiven van de profielvector in de richting van de gewaardeerde documentvector ertoe leidt, dat de profielvector verder verwijderd raakt van de oorspronkelijke documentvector. Dit leidt ertoe dat nieuwe 10 documenten die gerepresenteerd worden door vectoren die . lijken op die oorspronkelijke documentvector, voorspeld zullen worden minder interessant te zijn, wat precies de bedoeling is.

1Q

Claims

1. Methode voor automatische selectie en presentatie van digitale berichten ten behoeve van een gebruiker, gekenmerkt 5 door de volgende stappen: - van de gebruiker wordt een interesseprofiel gegenereerd in de vorm van een interessevector in een K-dimensionale ruimte waarin K het aantal kenmerken is dat discrimineert of een document voor de gebruiker wel of niet relevant 10 wordt geacht, waarbij aan elk woord door de gebruiker een gewicht wordt toegekend in overeenstemming met het door de gebruiker aan het woord toegekend belang; - van elk bericht wordt aan. de hand van in het bericht voorkomende woorden een' inhoudsvector gegenereerd in een N- 15, dimensionale ruimte, waarin N het totale aantal relevante woorden over alle berichten is, waarbij aan elk in het bericht voorkomende woord een gewicht wordt toegekend naar rato van het aantal keren dat het woord in het bericht voorkomt ten opzichte van het aantal keren dat het woord iji 20 alle berichten voorkomt; - de inhoudsvector wordt met de interessevector vergeleken e.n hun onderlinge afstand berekend; - berichten waarvan de afstand tussen de inhoudsvector en de interessevector een bepaalde drempelwaarde niet 25 overschrijdt worden aan de gebruiker gepresenteerd.

2. Methode volgens conclusie 1, met het kenmerk dat dat de inhoudsvector, alvorens met de interessevector te worden vergeleken, wordt gereduceerd door middel van "Latent Semantic Indexing".

3. Methode volgens ^conclusie 1, met het kenmerk dat van de afstand tussen de inhoudsvector en de interessevector de "cosinusmaat" wordt berekend.

4. Methode volgens conclusie 1, met het kenmerk dat de berichten worden gesorteerd op relevantie aan de hand van 35 de respectievelijke afstanden van de hun inhoudsvector tot 1L· -18- de interessevector, en dat de berichten gesorteerd op relevantie aan de gebruiker worden aangeboden.

5. Methode volgens conclusie 1, met het kenmerk dat de gebruiker aan elk gepresenteerde bericht een eerste 5 relevantiegewicht kan toekennen waarmee het interesseprofiel van de gebruiker wordt bijgesteld.

6. Methode volgens conclusie 1. met het kenmerk dat bij behandeling door de gebruiker van het gepresenteerde bericht behandelingsvariabelen worden gemeten eh dat uit de 10 gemeten waarden van.die behandelingsvariabelen een. tweede relevantiegewicht wordt berekend waarmee het interesseprofiel van de gebruiker wordt bijgesteld.

7. Systeem voor automatische selectie en presentatie van digitale berichten uit een berichtenbron (1) aan een 15. gebruikersterminal (2), gekenmerkt door een server (3)/ omvattende een register (5) voor het registreren van een interesseprofiel van de terminalgebruiker, in de vorm van een interessevector in een K-dimensionale ruimte waarin K het aantal kenmerken is dat discrimineert of een document 20 voor de gebruiker wel of niet relevant wordt geacht, waarbij aan elk woord door de gebruiker een gewicht is toegekend in overeenstemming met het door de gebruiker aan het woord toegekende belang; vectoriseermiddelen (7) voor het per bericht genereren van 25 een inhoudsvector aan de hand van in het bericht voorkomende woorden, in een N-dimensionale ruimte, waarin N < het totale aantal relevante woorden over alle berichten is, waarbij de genoemde middelen aan elk in het bericht voorkomende woord een gewicht toekennen naar rato van het 30 aantal keren dat het woord in het bericht voorkomt ten opzichte van het aantal keren dat het woord in alle berichten voorkomt; - vergelijkingsmiddelen (9) voor het vergelijken van de inhoudsvector met de interessevector en het berekenen van 35 hun onderlinge afstand; ï o - c* - ! -19- - transmissiemiddelen (6) voor het aan de gebruikersterminal overdragen van berichten waarvan de afstand tussen de inhoudsvector en de interessevector een bepaalde drempelwaarde niet overschrijdt.

8. Systeem volgens conclusie 1, met het kenmerk dat dat de vectoriseermiddelen de inhoudsvector reduceren door middel van "Latent Semantic Indexing".

9. Systeem volgens conclusie 1, met het kenmerk dat de vergelijkingsmiddelen de "cosinusmaat" van de afstand 10 tussen de inhoudsvector en de interessevector berekenen.

10. Systeem volgens conclusie 1, met het kenmerk dat vergelij kingsmiddelen en de transmissiemiddelen de berichten gesorteerd op relevantie aan de hand van de respectievelijke afstanden van de hun inhoudsvector tot de 15 interessevector aan de gebruikersterminal overdragen.

11. Systeem volgens conclusie 1, met het kenmerk dat de gebruikersterminal (2) middelen (12) omvat voor het aan elk overgedragen bericht toekennen van een eerste relevantiegewicht en het naar de server (3) overdragen 20 daarvan, alsmede middelen (13) in de server voor het aan de hand van het overgedragen eerste relevantiegewicht bijstellen van het interesseprofiel van de terminalgebruiker.

12. Systeem volgens conclusie 1. met het kenmerk dat de 25 gebruikersterminal (2) middelen (14) omvat voor het bij behandeling door de gebruiker van het gepresenteerde bericht meten van behandelingsvariabelen en het uit de gemeten waarden van die behandelingsvariabelen berekenen van een tweede relevantiegewicht en het naar de server (3) 30 overdragen daarvan, alsmede middelen (13) in de server voor het aan de hand van hét overgedragen tweede relevantiegewicht bijstellen van het interesseprofiel van de terminalgebruiker.