Google rilascia un dataset con alberi di dipendenza tra parole inglesi

Di - 4 June 2013 - in
Post image for Google rilascia un dataset con alberi di dipendenza tra parole inglesi

Google ha rilasciato un enorme dataset contenente piú di dieci miliardi di frammenti di alberi di dipendenza sintattica fra parole, ottenuti dall’analisi dei libri raccolti nel Google Books in lingua inglese.

Un albero di dipendenza fra parole è una struttura ad albero nella quale i nodi sono parole di una frase, e i ponti collegano tra loro parole sintatticamente dipendenti. Un esempio molto semplice è il seguente:

Dal verbo like, dipendono direttamente tutti gli altri elementi: il soggetto we, l’avverbio really e il complemento oggetto syntax.

In lingue come l’inglese, nelle quali la struttura sintattica è relativamente rigida (ciò vale meno per l’italiano, ma non troppo), inferire sulla sintassi, anche in maniera algoritmica, è relativamente semplice. Comprendendo la struttura sintattica della frase, e quindi i legami tra le parole, e avendo a disposizione i campi semantici delle stesse, si può poi inferire sulla struttura semantica, ovvero sul significato della frase presa in analisi. Capire la struttura semantica, molto più interessante di quella sintattica, in maniera più diretta è invece pressoché impossibile. Non avendo invece a disposizione i campi semantici, è possibile comunque individuarli, osservando quali parole sono solitamente legate.

Se si ha infatti una serie di frasi del tipo “x è buono”, “ordina un x”, “x è saporito” e un altro set simile con “y” al posto di “x”, si deduce banalmente che x e y sono oggetti molto simili, e che appartengono al medesimo campo semantico delle altre parole. Se poi si sa che “saporito” e “ordinare” appartengono al campo semantico delle cibarie, si capisce che è di cibo che si parla.

Inferire sulla sintassi di una frase è cosí semplice che lo si può fare anche su frasi prive di significato: come noi sappiamo benissimo inferire la sintassi (e persino la semantica, grazie alle poche parole dotate di significato e al suono) dell’incipit della famosa poesia nonsense Il Lonfo di Fosco Maraini (Il Lonfo non vaterca né gluisce / e molto raramente barigatta, / ma quando soffia il bego a bisce bisce / sdilenca un poco e gnagio s’archipatta), anche l’algoritmo utilizzato da Google è in grado di assegnare una serie credibile di dipendenze sintattiche ad una frase nonsense come the krumpets gnorked the koof with a shlap:

Considerando la struttura abbastanza modulare delle frasi, un algoritmo del genere può andare ben oltre queste espressioni abbastanza semplici. Google ci mostra come se la cava con l’incipit in lingua inglese di Cent’anni di solitudine, di Gabriel García Márquez:

Il risultato è davvero sorprendente.

Ora, immaginiamo di avere dieci miliardi di strutture di questo tipo, tratte da tre milioni e mezzo di libri, dal 1800 ad oggi. Ognuna marcata con la data del libro.

Le ricerche fattibili su una tale mole di dati è enorme. Un esempio banale è lo studio del significato di una parola nel tempo: l’articolo di presentazione evidenzia il caso della parola rock, che è entrata in un momento storico molto preciso nel campo semantico musicale, al quale non apparteneva. L’evoluzione nel tempo la si può studiare anche dei legami tra le parole: la parola food, cibo, sarà legata a pietanze del tutto differenti nella storia. Infine, avendo un database che associ le parole ai loro possibili campi semantici (qualcosa meno di un dizionario), si potrà seriamente inferire la semantica delle frasi e, ad esempio, tradurle da una lingua all’altra con maggiore accuratezza.

Il dataset è presentato da un articolo, non dettagliatissimo ma interessante soprattutto nella bibliografia, ed è disponibile online liberamente se l’uso non è commerciale. Ancora una volta Google mette a disposizione di tutti i dati creati per utilizzi da parte sua, contribuendo consistentemente alla ricerca scientifica.

Via | Google Research Blog

Leave a Reply

Lorenzo Breda Articolo scritto da

Studente di Informatica a Roma, si occupa di programmazione web sopratutto lato server, e di accessibilità del web. Utilizza e ama Debian GNU/Linux, e si interessa di fisica, fumetto, trekking e fotografia (gli ultimi due possibilmente abbinati). Collabora con Googlab da aprile 2012.

Contatta l'autore

Previous post:

Next post: