ReFr, un framework per la comprensione del linguaggio umano

Di - 11 October 2012 - in

Una delle sfide con le quali Google, nel suo trattare e catalogare dati, ha piú spesso a che fare è la comprensione del linguaggio umano. Come abbiamo visto piú volte su questo blog, si tratta di un’operazione che rientra nel campo dell’intelligenza artificiale, e che è quindi particolarmente complessa per una macchina.

I due sistemi nei quali Google applica maggiormente questo tipo di tecnologia per fornire servizi sono il riconoscimento della voce (ciò che viene “compreso” da quello che l’utente dice va poi trasformato in una frase di senso compiuto, anche semplicemente separando le parole), e la traduzione di testi.

In genere sistemi di questo tipo confrontano ciò che leggono o ascoltano con un dizionario, ottengono una serie di possibili risultati, e associano ogni risultato a un punteggio, legato a quanto il risultato è vicino alla forma originale di quello che hanno letto. Dovendo in genere fornire un solo risultato, forniscono quello con il punteggio piú elevato, che non è detto sia migliore, anche perché tale sistema è piú puramente algoritmico che intelligente.

Esistono quindi dei software, chiamati reranker (riordinatori), che in base a regole (modelli) in genere provenienti da un sistema di apprendimento automatico, prendono tutti i risultati dati dal sistema, e li riordinano. In questo modo, generalmente, si ottiene un ordine diverso da quello originale, basato su quanto ogni risultato sia vicino a ciò che hanno imparato.

Google ha affrontato questo problema nell’ambito di un workshop al quale hanno partecipato alcuni suoi dipendenti presso il Center for Language and Speech Processing della Johns Hopkins University di Baltimora. Durante il workshop, guidato da Brian Roark, della Oregon Health & Science University, è iniziato il lavoro su un sistema generico per creare ed allenare modelli di reranking. Questo sistema è stato rilasciato recentemente come software Open Source con il nome di ReFr, reranker framework, ed è disponibile su Google Code.

Molto flessibile e configurabile, anche in runtime, e ben documentato, ReFr è scritto in C++ e  fa uso di Hadoop per permettere anche la creazione di modelli su larga scala che sfruttino sistemi distribuiti.

Un altro grande contributo di Google al mondo dell’Open Source, e l’ennesima conferma di come Google si sia resa conto delle potenzialità di questo modello di sviluppo, che le permette di godere di tutti i contributi che la comunità Open Source potrà in futuro dare a questo software.

Via | Google Research

Leave a Reply

Lorenzo Breda Articolo scritto da

Studente di Informatica a Roma, si occupa di programmazione web sopratutto lato server, e di accessibilità del web. Utilizza e ama Debian GNU/Linux, e si interessa di fisica, fumetto, trekking e fotografia (gli ultimi due possibilmente abbinati). Collabora con Googlab da aprile 2012.

Contatta l'autore

Previous post:

Next post: