IT201800007812A1

IT201800007812A1 - A 3D visual search and AI-based recommendation system

Info

Publication number: IT201800007812A1
Application number: IT102018000007812A
Authority: IT
Inventors: Andrey Golub
Original assignee: Else Corp Srl
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2020-02-03

Description

"Sistema di ricerca visiva 3D e di raccomandazione basato sull'IA"

SFONDO

Campo tecnico

La presente invenzione riguarda i sistemi di ricerca visiva basati sull'Intelligenza Artificiale (IA). In particolare, la presente invenzione si riferisce a ricerche visive che coinvolgono la visualizzazione 3D e il rendering 3D, applicabile ai settori del fashion design, della moda al dettaglio, shopping on-line di articoli di moda e potrebbe essere estesa a qualsiasi categoria di prodotto per il consumatore, dove la ricerca visiva e i suggerimenti abbiano senso.

Descrizione della tecnica nota

Con riferimento all'industria della moda e del design, lo shopping online sembra essere di particolare interesse. Lo shopping online è una forma di e-commerce che consente ai consumatori di acquistare beni o servizi direttamente da un venditore, un marchio o rivenditore o distributore, attraverso i canali internet usando un browser web o un'applicazione per cellulare o un'installazione in negozio, che porti l'inventario online in un negozio. I consumatori possono trovare un prodotto di loro interesse visitando direttamente il sito web di un rivenditore o cercando tra venditori alternativi usando un motore di ricerca generalista o di shopping, che normalmente visualizza la disponibilità e i prezzi dello stesso prodotto presso rivenditori elettronici diversi e ha la possibilità di acquistare direttamente dal venditore o indirettamente tramite terzi.

La tecnologia di Ricerca Visiva trasforma le immagini di interesse (dalla vita reale, da internet o dai contenuti dei social media) in opportunità di shopping dall'inventario dei rivenditori. La tecnologia di Ricerca Visiva Avanzata usa l'IA (intelligenza artificiale) e in particolare le reti antagoniste generative per comprendere una scena visiva e agire su di essa, normalmente con l'aiuto della visione artificiale, del riconoscimento delle immagini, del deep learning. Fino ad oggi questa tecnologia è stata usata nella vendita al dettaglio online, aiutando i consumatori a individuare ad esempio i vestiti e gli accessori che visualizzano nei media come immagini e video, o che vedono nella vita reale e che possono fotografare.

Esempi di sistemi di ricerca visiva noti disponibili su internet sono: Style Match proposto da ASOS, Google's Lens, Shoes.com, Bing's Visual Search, eBay's Visual Search, Alibaba's Visual Search per citarne solo alcuni.

Il seguente documento è utile per una comprensione completa della presente descrizione: US-2017-15692825 che descrive un sistema telematico per la configurazione di un articolo.

Breve riepilogo dell'invenzione

Il Richiedente ha notato che gli approcci di ricerca visiva avanzata attualmente impiegati mostrano limitazioni riguardanti, ad esempio, la richiesta di dati per l'addestramento su larga scala, un'eccessiva complicazione delle computazioni richieste, limitazioni generali degli algoritmi di deep learning che fondamentalmente mancano di comprensione e ragionamento teorico, di un ciclo per l'addestramento/riaddestramento troppo lungo da zero a un modello pronto per i suggerimenti e di efficienza computazionale dell'addestramento delle reti neurali.

Secondo un primo aspetto, la presente invenzione riguarda una ricerca visiva 3D e un sistema di IA di raccomandazione come definito dalla rivendicazione 1 allegata. Particolari forme di realizzazione del sistema sono descritte dalle rivendicazioni dipendenti da 2 a 9. Secondo un altro aspetto, la presente invenzione riguarda una ricerca visiva 3D e un metodo di IA di raccomandazione definito dalla rivendicazione indipendente 10.

Breve descrizione dei disegni:

Ulteriori caratteristiche e vantaggi risulteranno più evidenti dalla seguente descrizione di una forma di realizzazione preferita e delle sue alternative fornite a titolo di esempio con riferimento ai disegni allegati, in cui:

la figura 1 mostra schematicamente un esempio di sistema di ricerca visiva e di raccomandazione;

la figura 2 è un diagramma di flusso che rappresenta un esempio di metodo di configurazione del design 3D che detto sistema può impiegare;

la figura 3 mostra schematicamente un esempio di configurazione di design implementabile con detto metodo: la figura 3a mostra una categoria di articoli (scarpe); la figura 3b mostra diversi tipi di oggetti; la figura 3c mostra una parte selezionata della scarpa; la figura 3d mostra una parte scelta; la figura 3e mostra i materiali e i colori per la parte selezionata;

la figura 4 mostra schematicamente un esempio di metodo di ricerca visiva e di raccomandazione;

la figura 5 mostra esempi di rendering di immagine di una scarpa e dei suoi componenti.

DESCRIZIONE DETTAGLIATA DEGLI ESEMPI

La figura 1 si riferisce ad un esempio di sistema di ricerca visiva e di raccomandazione 100.

In particolare, il sistema di ricerca visiva 100 (di seguito denominato anche "sistema") è dotato dei seguenti dispositivi: almeno un processore 1 (PU), almeno un'interfaccia utente 2 (interfaccia utente) e uno o più database 3 (DB). I suddetti dispositivi sono interconnessi tra loro, ad esempio con una rete telematica, come internet e/o sono parte di un cloud o di una combinazione delle due tecnologie. I collegamenti tra i dispositivi sopra indicati possono essere wireless, cablati o una combinazione di entrambi.

Almeno un processore 1 può includere, ad esempio, personal computer, dispositivi mobili, server e computer client o unità di cloud computing. Secondo esempi specifici, l'interfaccia utente 2 può essere un telefono cellulare, un personal computer, un tablet o occhiali per la realtà virtuale (aumentata, mista) o una tastiera, un touch screen di un ulteriore dispositivo elettronico. L'interfaccia utente 2 può essere parte di un dispositivo avente un processore che è uno dei suddetti almeno un processore 1. L'interfaccia utente 2 è associata ad un utente e collabora con almeno un processore 1 e/o il database 3.

Preferibilmente, l'interfaccia utente 2 e/o il processore 1 sono dotati di un display 5 che può caricare interfacce grafiche utili all'utente (chiamato anche cliente) per il funzionamento con il sistema 100.

Il sistema 100 è inoltre dotato di una pluralità di moduli di elaborazione che collaborano con almeno un processore 1 e l'interfaccia utente 2. I moduli di elaborazione possono essere moduli software con istruzioni che possono essere eseguite da almeno un processore 1 e/o un'interfaccia utente 2.

La pluralità di moduli di elaborazione include un modulo di configurazione 3D 4 (interfaccia di implementazione per la ricerca visiva 3D), un modulo di rendering 3D 6, un modulo di metadati 7, un modulo per l'addestramento dell'IA 8 e un modulo di riconoscimento dell'intelligenza artificiale 9. In particolare, la pluralità di moduli di elaborazione è dotata anche di un modulo di raccomandazione 10.

Il modulo di configurazione del prodotto 3D 4 viene adattato per definire, mediante interazione con l'utente, le caratteristiche associate a un oggetto e i modelli di configurazione dell'oggetto, come verrà chiarito nella seguente descrizione con riferimento alla figura 2.

Inoltre, il modulo di rendering 3D 6 è configurato per elaborare detti modelli di configurazione e generare rendering di immagine dell'oggetto e rendering di immagine di componenti di detto oggetto, possibilmente, come richiesto dal sistema di apprendimento di IA, impiegando un insieme di materiali e colori di tale oggetto e dei suoi componenti.

Il modulo di metadati 7 è configurato per elaborare dette funzionalità associate all'oggetto e fornire blocchi di metadati associati ai rendering e definire le caratteristiche dell'oggetto e dei componenti rappresentati nei rendering. In questo contesto viene fatto riferimento ai rendering di immagine e i metadati associati come dati sintetici, generati per le sole esigenze del processo di apprendimento.

Il modulo per l'addestramento 8 è configurato per addestrare il modulo di riconoscimento dell'intelligenza artificiale 9 a riconoscere ulteriori oggetti simili a tale oggetto; l'addestramento è effettuato utilizzando i dati sintetici. In particolare, l'addestramento viene effettuato usando dati sintetici combinati con caratteristiche specifiche del modello e regole di classificazione (classificatori), definite attraverso dizionari adattivi, che accompagnano gli insiemi di dati generati.

Il modulo di riconoscimento dell'intelligenza artificiale 9 può essere una Rete Neurale e funzionare secondo un algoritmo di deep learning, o in alternativa, potrebbe essere un insieme di algoritmi proprietari basati sull'apprendimento automatico(Regressione Lineare o altro noto), ottimizzati per dati di allenamento su piccola scala, molto più facili da addestrare.

I documenti:

- J. Tremblay et al. “Training Deep Networks with Synthetic Data: Bridging the Reality Gap by Domain Randomization”, April 2018; (https://arxiv.org/pdf/1804.06516.pdf);

- X. Peng et al., “Learning Deep Object Detectors from 3D Model”, (http://www.karimali.org/publications/PSAS_ICCV15.p df);

forniscono insegnamenti che possano essere applicati alla configurazione e all'addestramento del modulo di riconoscimento dell'intelligenza artificiale 9, nel caso di un approccio di deep learning.

Il modulo di raccomandazione 10 è configurato per collaborare con detto modulo di riconoscimento dell'intelligenza artificiale 9 per cercare esternamente immagini di ulteriori oggetti, simili (visivamente e come ontologia/classificazione) a detto oggetto e inviare le immagini risultanti dalla ricerca all'utente, mediante l'interfaccia utente 2.

La figura 2 mostra, con un diagramma di flusso, un esempio del metodo di configurazione del design 200 implementabile dal modulo di configurazione 4 del sistema 100. Il metodo di configurazione del design 200 fa parte di un metodo di ricerca visiva e di raccomandazione 300 (figura 4) descritto di seguito.

Dopo una fase iniziale START, il metodo di configurazione del design 200 fornisce una prima fase 201 (CONF) in cui l'utente, tramite l'interfaccia utente 2, seleziona le opzioni di design e le caratteristiche di fabbricazione di un oggetto da configurare.

In particolare, il modulo di configurazione 4 consente all'utente di configurare un oggetto specifico effettuando una pluralità di scelte tra le diverse opzioni fornite dal modulo, che gli vengono proposte dal sistema 100.

Tali opzioni vengono proposte in modo visivo visualizzando (ad esempio, sul display 5) scene 3D e/o immagini e/o testo e/o vocale/voce e/o simboli corrispondenti a tali opzioni.

La rappresentazione visiva dell'oggetto o di parti (vale a dire componenti) dell'oggetto può essere fatta, ad esempio, usando un avatar standard o in un ambiente di realtà virtuale o mista.

Con la dicitura "configurare un oggetto" si intende definire una pluralità di opzioni e caratteristiche di design e di fabbricazione (all'interno di un insieme prestabilito) in modo da consentire di progettare l'oggetto in modo particolare, riflettendo il concetto di personalizzazione del prodotto. I termini "configurazione di un oggetto", "oggetto su misura", "personalizzazione di un oggetto" o "configurazione del design di un oggetto" sono terminologie intercambiabili secondo la presente descrizione.

Ad esempio, le caratteristiche di design possono riguardare la forma dell'oggetto e in particolare le parti di design stilistico, le caratteristiche di fabbricazione possono riguardare i materiali da impiegare, i colori, che compongono l'intero oggetto e potrebbero avere forme alternative. Inoltre, la configurazione può riguardare il design o la fabbricazione di elementi essenziali e/o di elementi accessori e/o di elementi puramente decorativi dell'oggetto.

Il modulo di configurazione 4 può essere impiegato per configurare oggetti (detti anche articoli) di diverse tipologie primarie appartenenti alle industrie della moda e del design come ad esempio articoli di abbigliamento (ad esempio abiti, completi o loro elementi), accessori moda (ad esempio borse, ecc.), calzature, gioielli, gioielli di moda, orologi, accessori per dispositivi elettronici, oggetti di design, arredamento, prodotti personali. Inoltre, il modulo di configurazione 4 può essere impiegato per configurare oggetti di design e di arredamento come tavoli, sedie, ecc. (nel caso di prodotti di design e di arredamento, le dimensioni e l'avatar diventano irrilevanti, mentre la logica di configurazione di base rimane simile).

Secondo una forma di realizzazione, il modulo di configurazione 4 consente all'utente il design di un elemento da una vasta gamma di opzioni non regolamentate, simile al processo di configurazione su un 'DIY Configurator', dove DIY sta per fai-da-te.

Ad esempio, l'utente può effettuare le seguenti operazioni (si veda la figura 3), con riferimento alla configurazione di una scarpa:

a) selezionare una categoria di articoli di suo interesse (ad esempio una SCARPA, figura 3a);

b) selezionare un tipo di scarpa (ad esempio SCARPA CON ZEPPA CON PUNTA APERTA, figura 3b);

c) configurare ogni parte (vale a dire ogni componente) della scarpa (ad esempio TACCO, figura 3c), selezionando il tipo della parte (es. ZEPPA, figura 3d); e

d) selezionare il tipo di materiali e colori per quella parte selezionata (ad esempio, BLU SCAMOSCIATO, figura 3e);

Le operazioni di cui sopra possono essere ripetute, se necessario, per ciascuna parte del tipo di articolo selezionato fino a quando l'utente non è soddisfatto della configurazione. Il riferimento a una scarpa è solo esplicativo e non limitativo.

Le selezioni elencate sopra a)-c) forniscono un esempio di caratteristiche associate all'oggetto e ai suoi componenti che possono essere ottenute dall'interazione dell'utente con il modulo di configurazione 4. Queste caratteristiche, che forniscono una descrizione dell'oggetto e dei suoi componenti, possono essere definite come specifiche del prodotto (opzioni del prodotto, look and feel del prodotto, metadati del prodotto) e sono indicate con il simbolo O-PS nelle figure.

Il metodo di configurazione del design 200 include una seconda fase 202 (STORE-INF), in cui le informazioni di selezione vengono memorizzate nel database 3; tali informazioni di selezione riguardano le scelte fatte dall'utente dopo aver selezionato le caratteristiche di fabbricazione.

Inoltre, l'utente può fornire al sistema "dati sul corpo del cliente", vale a dire misure standard dell'industria della moda per il corpo umano come collo, petto, busto, vita, fianchi, ecc. ottenuti, ad esempio, da uno scanner del corpo 3D o da uno scanner di una parte specifica del corpo (piede, testa, mano), o semplicemente misurati manualmente.

Inoltre, secondo un esempio preferenziale, il modulo di configurazione 4, in una terza fase 203 (LEARN), analizza le informazioni di selezione memorizzate per ottenere, vale a dire per apprendere, le preferenze di stile ST-PR associate all'utente. In particolare, il modulo di configurazione 4 è fornito di un modulo di apprendimento 11 configurato per usare l'Intelligenza Artificiale (IA) per apprendere le preferenze di stile dell'utente, in relazione a ciascun tipo di prodotto e anche alcune opzioni di stile preferite indipendenti dal prodotto (più legate alla personalità dell'utente). In particolare, il modulo di apprendimento opzionale 11 è un modulo diverso dal modulo di riconoscimento dell'intelligenza artificiale 9. Secondo l'esempio di figura 3, una lista esemplare di informazioni che possono essere raccolte dal modulo di apprendimento 11:

• la categoria e la sottocategoria dell'articolo (figura 3a) che l'utente probabilmente acquisterà con maggiore probabilità, poiché l'ha selezionato direttamente;

• lo stile dell'articolo e la sua connotazione (figura 3b): la punta aperta, ad esempio, può essere considerata uno stile di scarpa più romantico/femminile/da ragazza che una scarpa a punta; • le parti della scarpa scelte per la configurazione (figura 3c), il tipo di parte scelta (figura 3d); i materiali e i colori per quella parte selezionata figura 4e): questo dato è relativo alla parte specifica del prodotto che si sta configurando.

Quindi, in questo esempio in cui si sta configurando un tacco, la scelta dell'utente di un tacco più basso indica l'altezza che l'utente sta probabilmente cercando e poi la selezione del colore e del materiale indica nuovamente le preferenze del cliente. Queste fasi vengono ripetute per ciascuna parte della scarpa. Preferibilmente, i risultati sono legati al profilo di ricerca dell'utente e risultano in prodotti suggeriti per il cliente.

Si noti che, più un utente usa il sistema 100, più preciso può diventare il sistema e predire ciò che piace o non piace all'utente dei prodotti e delle loro opzioni. Ad esempio, se quattro volte su cinque un utente seleziona un articolo con un tacco più basso, è indicazione che è più probabile che l'utente acquisti un prodotto con il tacco basso.

A titolo di esempio, anche le seguenti informazioni riguardanti il comportamento e le preferenze dell'utente possono essere dedotte dal modulo degli strumenti 4 dalle azioni dell'utente nella prima fase 201:

• l'occasione/evento specifico che gli utenti stanno cercando (per quell'esempio specifico),

• il clima, quindi influisce sulle tipologie di prodotti suggeriti (se diverso da quanto automaticamente previsto dallo strumento),

• forme preferite,

• colori preferiti,

• modelli preferiti,

• tessuti preferiti,

• la fascia di prezzo desiderata per ogni particolare ricerca.

Si osserva che il modulo di apprendimento 4 apprende le preferenze dell'utente in modo visivo poiché apprende ciò che piace o non piace all'utente dalle selezioni (vale a dire dalle scelte positive) fatte durante la procedura di configurazione, in cui vengono visualizzate le opzioni proposte. In particolare, le preferenze di stile non vengono apprese chiedendo direttamente all'utente cosa gli piace o cosa non gli piace.

Inoltre, il modulo di apprendimento 11 può apprendere le preferenze del cliente sulla base di un insieme aperto di proprietà e attributi, come:

• marchio (ad esempio "nome dell'azienda")

• silhouette (ad esempio "jeans")

• forma (ad esempio "taglio slim")

• colore (ad esempio "blu")

• materiale (ad esempio "jeans di cotone slavato")

• gruppi target (ad esempio "adulto", "maschio")

• fascia di prezzo

• immagini selezionate o "non gradite" dal cliente (come nel caso dei siti di e-commerce)

• opinioni di clienti ed esperti.

In particolare, il modulo di apprendimento 11 può anche definire una classificazione di prodotto P-CL specificando le categorie di stile o le preferenze di stile associate all'utente, come: classificazione accettata dall'industria (mediante tabelle di definizioni di stile), classificazione dinamica per stile, tendenze, occasioni ecc., fino a tag completamente dinamici, creati per una singola sessione utente e qualsiasi insieme specifico di caratteristiche come preferenze visive o sensoriali (mediante esempi di caratteristiche tattili dei materiali). Secondo un esempio particolare, il modulo di apprendimento 11, usando le preferenze di stile ST-PR ottenute nella terza fase 203, genera suggerimenti in una quarta fase 204. In particolare, i suggerimenti riguardano articoli che devono essere configurati dallo stesso utente in un'altra sessione di configurazione o nella stessa sessione di configurazione.

In base a questo esempio, il modulo di apprendimento 11 effettua un'analisi delle manipolazioni dell'utente (vale a dire le selezioni o sostituzioni) mischiando in modo intuitivo le parti e le opzioni date degli articoli, verso la creazione di una configurazione del prodotto "ideale" dal punto di vista dell'utente, che porti a un certo punto a risultati soddisfacenti, corrispondenti ai criteri definiti dall'utente stesso: dai risultati soddisfacenti si ottiene la raccomandazione.

I suggerimenti possono essere forniti all'utente (ad esempio tramite l'interfaccia utente 2 o altri componenti del sistema 100). In particolare, si osserva che i suggerimenti possono essere forniti (ad esempio all'utente) in qualsiasi momento durante la procedura di configurazione (prima fase 201), vale a dire anche quando la procedura di configurazione della prima fase 201 non è ancora terminata.

L'accettazione o il rifiuto di tale raccomandazione da parte dell'utente è un'altra informazione da impiegare dal modulo di apprendimento 11 per apprendere le preferenze di stile e fornire ulteriori suggerimenti.

Si noti ancora una volta che la terza 203 e quarta 204 fase sono facoltative.

Le specifiche di prodotto O-PS (vale a dire le caratteristiche O dell'oggetto e dei suoi componenti) inviate dal modulo di configurazione 4 nella seconda fase 202 e, opzionalmente, almeno una parte dei suggerimenti della quarta fase 204 sono forniti a un modulo di definizione dello schema 12 (figura 1).

In una quinta fase 205 (PATT-DES) il modulo di definizione dello schema 12 genera, da tale specifica di prodotto O-PS (e opzionalmente dai suggerimenti), uno schema di configurazione dell'oggetto che definisce un articolo configurato (vale a dire progettato) corrispondente e le sue parti. Questo schema di configurazione (indicato in figura 2 con il simbolo CN-PT) fornisce dati che definiscono completamente la forma e la dimensione tridimensionale dell'oggetto e dei suoi componenti come risultato dell'interazione con l'utente. In particolare, il modulo di definizione dello schema 12 può essere un software CAD (Computer-Aided Design) e lo schema di configurazione CN-PT può essere un modello 3D dell'oggetto configurato dall'utente.

Ad esempio, il modello 3D (come quello associato allo schema di configurazione CN-PT) di una scarpa è costituito da una raccolta di parti di componenti, che vengono create in un sistema CAD e strutturate all'interno di un sistema di rendering 3D. La gerarchia di un tipico modello di scarpa è costituita da diversi nodi di trasformazione, che portano informazioni utili per identificare ciascuna parte del prodotto. Ciascun nodo contiene uno o più oggetti 3D che, insieme, descrivono un componente. Ogni oggetto 3D include una o più maglie geometriche, che descrivono la forma del componente e come le texture del materiale si rapportano allo spazio 3D. Quindi, la gerarchia del modello normalmente include tre livelli di riferimento indiretto dalla radice della scena. Ciascun livello presenta le sue trasformazioni e definisce il suo spazio geometrico.

Inoltre, si osserva che lo schema di configurazione CN-PT dell'oggetto fornisce dati strutturali (relativi al CAD) che includono, ad esempio:

• Dimensione dei componenti

• Tipi/categorie

• Scala di dimensione

• Coordinate

• Geometria 2D, modelli

• Componenti corrispondenti

• Punti di integrazione con altri componenti

Si osserva che i modelli di configurazione CN-PT possono essere ottenuti non solo dalle fasi del metodo 200 di cui sopra, ma anche dall'applicazione di Intelligenza Artificiale, o da un'impostazione predefinita, come risultati dell'uso di metodi prevedibili più semplici o dai suggerimenti di esperti.

La figura 4 mostra mediante un diagramma di flusso un metodo di ricerca visiva e di raccomandazione 300 che può essere implementato dal sistema 100.

Il metodo di ricerca visiva e di raccomandazione 300 comprende: il metodo di design e configurazione 200 già descritto (CONF-M), una fase di rendering 301 (REND), una fase di metadati 302 (MDT), una fase di addestramento 303 (TRN), una fase di ricerca visiva 304 (VIS-SR) e, preferibilmente, una fase di raccomandazione 305 (RECCOM).

Nella fase del rendering 301, lo schema di configurazione CN-PT ottenuto con il metodo di design e configurazione 200 viene fornito al modulo di rendering 6 insieme, in particolare, alle specifiche di prodotto O-PS.

Il modulo di rendering 6 genera, dai dati associati allo schema di configurazione CN-PT (e opzionalmente, anche usando le specifiche di prodotto O-PS), i rendering di immagine IR1 dell'oggetto e i rendering di immagine IR2 del componente dell'oggetto. Come è noto, il rendering o la sintesi dell'immagine è il processo automatico di generazione di immagini fotorealistiche da un modello 2D o 3D (o da modelli in quello che collettivamente potrebbe essere chiamato un file di scena) mediante programmi per computer.

In questo articolo viene descritto un metodo per la creazione di dati sintetici da programmi CAD e di rendering 3D: https://towardsdatascience.com/deep-learning-withsynthetic-data-will-make-ai-accessible-to-the-masses-15b99343dd0e, ma riguarda ancora il metodo tradizionale di apprendimento- dai big data, dai dati overhead e applicando i metodi di deep learning.

Nella fase di metadati 302, il modulo di metadati 7 elabora le specifiche di prodotto O-PS e fornisce i metadati MD-F ciascuno associato al primo e secondo rendering di immagine IR1 e IR2 corrispondente e definendo le caratteristiche dell'oggetto e dei componenti rappresentati nei rendering. Si noti che i metadati MD-F e i rendering di immagine IR1 e IR2 sono forniti secondo una struttura prestabilita.

Vantaggiosamente, il modulo di metadati 7 collabora con il modulo di classificazione 13 (figura 1) che è configurato per fornire la struttura dei dati del modello del prodotto (regole di classificazione), vale a dire classificatori basati su modello M-CL. I classificatori includono, ad esempio: dimensioni del prodotto, colori principali, forma geometrica). In particolare, i classificatori basati sul modello M-CL vengono usati per l'addestramento del modulo di riconoscimento dell'intelligenza artificiale 9.Con riferimento ai metadati MD-F e considerando l'esempio relativo alle scarpe, si possono definire le seguenti caratteristiche per descrivere una scarpa:

• Tipologie/caratteristiche del prodotto: ad esempio Oxford, Brogue a coda di rondine, Derby, Mocassino, a punta aperta, Stiletto, ecc...

• Caratteristiche del prodotto: ad esempio Brogue a coda di rondine: Foratura, Coda di rondine, traforazioni decorative, tacco basso, dentellatura sui bordi, pezzi multipli, ecc...

• Tipi di parti del prodotto: ad esempio punta, tomaia, lacci, suola, ecc...

• Caratteristiche delle parti del prodotto: ad esempio, Punta Brougue a coda di rondine: Traforazione decorativa su punta, code di rondine, foratura sulle cuciture

• Tipi di materiali: ad esempio pelle, pelle verniciata, tela, camoscio, ecc...

• Caratteristiche visive dei materiali: ad esempio ruvido, liscio, lucido, opaco, luccicante, liso, ecc. • Tipi di colori: ad esempio blu marino, magenta, giallo, ecc.

Tipi di gruppi di colori: ad esempio caldi, freddi, color carne, luminosi, ecc.

La figura 5 riguarda esempi di rendering di immagine di una scarpa e dei suoi componenti. La figura 5a rappresenta un modello 3D di una scarpa e i metadati associati possono essere:

- Brogue a coda di rondine

- Colori a contrasto

- Stravagante

- Business Casual

- Elenco dei componenti:

- Tomaia superiore xx, materiale, colore

- Tomaia xx, materiale, colore

- Punta xx... materiale, colore

La figura 5b mostra i rendering (rappresentazioni 2D) della scarpa e la figura 5c mostra i rendering di porzioni (vale a dire componenti) della scarpa. La figura 5d mostra forme/modelli di dettagli di una punta di scarpa; a detti rendering possono essere associati i seguenti metadati:

- Traforazione decorativa

- Code di rondine

- Foratura su cuciture.

La figura 5e) riguarda rendering di materiali e colori di parti della scarpa.

Nella fase di addestramento 303, il primo e il secondo rendering di immagine IR1 e IR2 e i metadati MD-F sono usati dal modulo per l'addestramento 8 come input di riferimento per addestrare il modulo di riconoscimento dell'intelligenza artificiale 9. L'apprendimento viene effettuato per adattare il modulo di riconoscimento dell'intelligenza artificiale 9 a effettuare la ricerca visiva per riconoscere prodotti simili o identici all'oggetto definito dal primo e dal secondo rendering di immagine IR1 e IR2 e dai metadati MD-F.

Questa fase di apprendimento 303 viene effettuata, ad esempio, con immagini e foto esterne che vengono confrontate con l'input di riferimento (IR1, IR2 e MD-F) per selezionare le immagini che soddisfano un criterio di somiglianza: ad esempio, le immagini per cui un indice di somiglianza è superiore a una soglia prestabilita, come normalmente funziona un processo di deep learning.

Si noti che, in particolare, i dati corrispondenti al primo e al secondo rendering di immagine IR1 e IR2 e i metadati MD-F possono essere definiti come small data, vale a dire sufficientemente "piccoli" perché siano compresi dall'uomo.

In particolare, il modulo per l'addestramento 8 addestra il modulo di riconoscimento dell'intelligenza artificiale 9 anche con i classificatori basati sul modello M-CL fornito dal modulo di classificazione 13.

Si osserva che invece di definire micro raggruppamenti di prodotti per tipo e altre caratteristiche specifiche, come normalmente fanno i sistemi di apprendimento profondo noti e basati su di essi i sistemi di ricerca visiva e di raccomandazione (come quello di cui sopra: Ricerca visiva di Asos, ricerca visiva di Bing, ricerca visiva di Google Lens e simili), il metodo qui descritto impiega un algoritmo di apprendimento automatico separato per ciascuna singola richiesta del cliente.

Questo approccio basato sui small data implica conoscere esattamente su quali dati si sta operando ed è più simile a un sistema esperto, che ha una conoscenza abbastanza limitata, ma è una conoscenza "completa" ed è molto ben strutturata. Questo approccio non potrebbe essere raggiunto con il tradizionale deep learning o con altri tipi di algoritmi statistici avanzati.

Il modulo di riconoscimento dell'intelligenza artificiale 9 qui descritto può evitare la conoscenza attraverso deep learning e i big data. I dati vengono invece inseriti nel modulo di riconoscimento dell'intelligenza artificiale 9 direttamente dalle conoscenze strutturate ottenute dal sistema intelligente di configurazione del prodotto.

Secondo un'altra forma di realizzazione, l'addestramento del modulo di riconoscimento dell'intelligenza artificiale 9 può essere fatto anche considerando le preferenze di stile ST-PR definite sopra e/o la classificazione del prodotto P-CL descritta con riferimento alla figura 2.

In particolare, nella fase di ricerca visiva 304 viene effettuata una ricerca visiva usando il modulo di riconoscimento dell'intelligenza artificiale 9 per selezionare immagini di prodotti (ad esempio disponibili sull'e-market) che soddisfano i criteri di somiglianza. Ad esempio, la ricerca visiva viene realizzata tra cataloghi di prodotti associati a marchi specifici o tra immagini disponibili on-line e non classificate. In particolare, la ricerca visiva può essere effettuata tra i prodotti di un catalogo MTO (Make-To-Order) o tra i prodotti in stock dell'e-commerce, in un database storico di un marchio o direttamente su un social network come Instagram, dove il contenuto è taggato e quindi classificato in modo adatto per una ricerca a due livelli: confronto di immagine e confronto di metadati (tag).

Nella fase di raccomandazione 305 viene mostrato all'utente il risultato della ricerca visiva (ad esempio una o più immagini di uno specifico prodotto calzaturiero).

In particolare, l'utente può visualizzare l'immagine risultante dalla fase di ricerca visiva 304 e, secondo una particolare forma di realizzazione, fornire un feedback informativo (fase di feedback 306- FEEDBACK) al modulo di configurazione 4.

Se l'utente non accetta il prodotto proposto, le sue informazioni di feedback rappresentano una richiesta di modifica (fase di modifica 307 - MOD-REQ). La richiesta di modifica corrisponde (direttamente o indirettamente) a una richiesta di modifica di almeno alcune caratteristiche dell'oggetto proposto, da riproporre poi al sistema di raccomandazione.

La ripetizione di alcune sotto-fasi del metodo di configurazione 200 e di altre fasi del metodo di ricerca visiva e di raccomandazione 300 avviene fino alla generazione di ulteriori suggerimenti. Ad esempio, viene definito un altro schema di configurazione CN-PT con le corrispondenti specifiche di prodotto O-PS. In questo modo, insieme ai metadati MD-F, vengono generati diversi rendering di immagine dell'oggetto IR1 e dei componenti IR2 e si può effettuare un'ulteriore fase di addestramento 303.

In alternativa, se il feedback fornito dall'utente corrisponde ad un'accettazione dell'articolo proposto: si è verificata una corrispondenza (fase di accettazione 308-ACCEPT) e il metodo arriva a una fase finale.

Si noti che il sistema e il metodo descritti sopra consentono di semplificare e ottimizzare il processo di addestramento del modulo di riconoscimento dell'intelligenza artificiale, risparmiando energia CPU/GPU che verrebbe spesa per i calcoli e rende la ricerca visiva disponibile anche alle aziende che non possiedono enormi quantità di dati, in modo da procedere con gli algoritmi di deep learning ampiamente utilizzati, basati sui big data. Inoltre, il metodo sopra descritto fa sì che il processo sia quasi in tempo reale, indipendentemente dalla potenza CPU dietro il modulo di intelligenza artificiale.

Claims

RIVENDICAZIONI 1. Sistema di ricerca visiva 3D e di raccomandazione dell'IA (100) comprendente: almeno un processore (1) e un'interfaccia utente (2) associati a un utente e che collaborano con almeno detto un processore (1); una pluralità di moduli di elaborazione che collaborano con l'almeno un processore (1) e con l'interfaccia utente (2), comprendenti: un modulo di configurazione (4) adattato per definire, mediante interazione con l'utente, le caratteristiche (O-PS) associate a un oggetto e uno schema di configurazione (CN-PT) dell'oggetto; un modulo di rendering 3D (6) configurato per elaborare detto schema di configurazione (CN-PT) e generare il primo rendering di immagine (IR1) dell'oggetto e il secondo rendering di immagine (IR2) dei componenti di detto oggetto; un modulo di metadati (7) configurato per elaborare dette caratteristiche (O-PS) associate all'oggetto e fornire metadati (MD-F) ciascuno associato al corrispondente primo (IR1) e secondo rendering di immagine (IR2) e che definisce le caratteristiche dell'oggetto e dei componenti rappresentati nel rispettivo primo (IR1) e secondo rendering (IR2); un modulo per l'addestramento (8) configurato per addestrare un modulo di riconoscimento dell'intelligenza artificiale (9) a riconoscere ulteriori oggetti simili a detto oggetto usando detto primo rendering di immagine (IR1), detto secondo rendering di immagine (IR2), detti metadati (MD-F).
2. Sistema (100) della rivendicazione 1, ulteriormente comprendente un modulo di classificazione (13) configurato per fornire classificatori basati sul modello (M-CL) dell'oggetto; il modulo per l'addestramento (8) è configurato per addestrare il modulo di riconoscimento dell'intelligenza artificiale (9) con detti classificatori basati sul modello (M-CL).
3. Sistema (100) della rivendicazione 1, ulteriormente comprendente un modulo di raccomandazione (10) configurato per collaborare con detto modulo di riconoscimento dell'intelligenza artificiale (9) per cercare immagini di ulteriori oggetti simili a detto oggetto e inviare immagini risultanti dalla ricerca all'utente mediante l'interfaccia utente (2).
4. Sistema (100) della rivendicazione 1, in cui il modulo di riconoscimento dell'intelligenza artificiale (9) comprende un algoritmo selezionato da: Algoritmi di deep learning; Algoritmi di rete neurale; Algoritmi lineari; Apprendimento automatico.
5. Sistema della rivendicazione 1, in cui il modulo di riconoscimento dell'intelligenza artificiale (9) è ottimizzato per lavorare con insiemi di small data e classificazione strutturata.
6. Sistema (100) della rivendicazione 1, in cui detto schema di configurazione (CN-PT) fornisce dati strutturali, che includono: dimensione dei componenti, scala di dimensione, coordinate, geometria 2D, componenti corrispondenti, punti di integrazione con altri componenti.
7. Sistema (100) della rivendicazione 2, in cui il detto modulo di riconoscimento dell'intelligenza artificiale (9) è configurato per effettuare una delle seguenti ricerche visive: ricerche di immagini su siti web, ricerca di immagini su una collezione predefinita.
8. Sistema (100) della rivendicazione 2, in cui il modulo di configurazione (4) è configurato per selezionare le caratteristiche dell'oggetto scelto dall'utente.
9. Sistema (100) della rivendicazione 2, in cui il modulo di configurazione (4) è configurato per modificare dette caratteristiche (O-PS) e detto schema di configurazione (CN-PT) in risposta a un feedback da parte dell'utente tramite l'interfaccia utente (2).
10. Sistema della rivendicazione 4, in cui i metadati (MD-F), il primo (IR1) e il secondo rendering di immagine (IR2) sono small data.
11. Metodo di ricerca visiva 3D e di raccomandazione dell'IA (300) comprendente: definire con un'interazione visiva di configurazione (200) almeno un processore (1) con caratteristiche (O-PS) di un'interfaccia utente (2) associate a un oggetto e uno schema di configurazione (CN-PT) dell'oggetto; elaborare (301) detto schema di configurazione (CN-PT) e generare il primo rendering di immagine (IR1) dell'oggetto e il secondo rendering di immagine (IR2) dei componenti di detto oggetto; elaborare dette caratteristiche (O-PS) e fornire metadati (MD-F) ciascuno associato al corrispondente primo (IR1) e secondo rendering di immagine (IR2) e che definiscono le caratteristiche dell'oggetto e dei componenti rappresentati nel rispettivo primo (IR1) e secondo rendering di immagine (IR2); addestrare (303) un modulo di riconoscimento dell'intelligenza artificiale (9) a riconoscere ulteriori oggetti simili a detto oggetto usando detto primo rendering di immagine (IR1), detto secondo rendering di immagine (IR2), detti metadati (MD-F).