Wikilinks Corpus: Dati utili per contestualizzare pagine web

Di - 14 March 2013 - in
Post image for Wikilinks Corpus: Dati utili per contestualizzare pagine web

Google, da sempre, è alla ricerca di metodi per comprendere il significato dei dati che raccoglie: i dati, infatti, sono spesso ambigui, e coglierne il reale significato è fondamentale per far ottenere ai suoi utenti risultati davvero affidabili.

La recente proposta sul mercato di risultati estremamente precisi tramite Google Knowledge Graph ha reso ancora piú pressante questa necessità, in quanto il sistema deve classificare i dati proprio in base al significato che hanno, evitando del tutto errori dovuti ad ambiguità. Alcune parole assumono moltissimi significati, anche molto diversi, e questo è il principale problema da affrontare.

Nei giorni scorsi, Google ha rilasciato il Wikilinks Corpus. Si tratta di una raccolta di quaranta milioni di associazioni tra parole contenute in dieci milioni di pagine web in inglese ai relative voci su Wikipedia.

In sostanza, sono stati raccolti in un campione di dieci milioni di pagine tutti i link che portavano da una parola a una voce di Wikipedia con titolo molto simile alla parola. Le voci di Wikipedia coperte in questo modo sono poco meno di tre milioni, piú della metà di tutte le voci di Wikipedia in lingua inglese. In questo modo, si sono potute contestualizzare le informazioni contenute in queste pagine, che possono fornire una buona base per contestualizzare eventuali altre informazioni che utilizzino parole simili.

L’idea alla base di questa operazione è un’assunzione abbastanza specifica, ma vera con buona approssimazione: si suppone che ogni voce di Wikipedia rappresenti una e una sola entità, ovvero un solo oggetto o concetto, permettendo così alle parole linkate di identificare in maniera inequivocabile il campo semantico nel quale ci si trova.

Esperimenti di questo genere sono stati fatti già in precedenza, ma mai su questa scala: la raccolta di dati proposti da Google è cento volte piú grande della piú grande realizzata finora, ed è fatta su una quantità di pagine web molto maggiore.

La raccolta è stata resa pubblica, ed è quindi disponibile per qualsiasi utilizzo da parte di analisti e sviluppatori, purché accreditino a Google la provenienza dei dati.

Gli utilizzi che si possono fare sono svariati. Ecco le idee che Google propone:

  • Analizzare le diverse menzioni (parole o frasi nelle pagine web) che portano alla stessa entità (oggetto rappresentato da una voce di Wikipedia)
  • Lavorare sui metodi per associare parole in documenti non linkati a Wikipedia a voci di Wikipedia, interpretando il campo semantico a cui appartengono (ricerca che potrebbe essere di enorme utilità per Google)
  • Lavorare sui metodi per scoprire nuove cose riguardo oggetti, aggregando le informazioni contenute nelle pagine che li menzionano.
  • Provare ad assegnare dei tipi (ampi, come “persona” o “luogo”, o specifici come “parco divertimenti”) alle varie entità. Spesso queste informazioni sono contenute in Wikipedia e sono facili da estrapolare, ma non è sempre così. In ogni caso, può essere semplice elaborare sistemi per annotare le entità estrapolando dati da Wikipedia, utilizzando così anche le informazioni che contiene, oltre al fatto che ogni pagina si riferisce ad uno e un solo oggetto.
  • Lavorare su una o più di queste cose, ma su insiemi di dati più piccoli, come ad esempio le stazioni ferroviarie, o i musicisti: su dieci milioni di dati, è difficile non trovare un campione rappresentativo per ciò che si desidera fare.

Per lavorarci, è necessario comprendere il formato dei dati, che Google spiega piuttosto bene. Ogni entry ha questa struttura:

URL http://1967mercurycougar.blogspot.com/2009_10_01_archive.html
MENTION Lincoln Continental Mark IV 40110 http://en.wikipedia.org/wiki/Lincoln_Continental_Mark_IV
MENTION 1975 MGB roadster 41481 http://en.wikipedia.org/wiki/MG_MGB
MENTION Buick Riviera 43316 http://en.wikipedia.org/wiki/Buick_Riviera
MENTION Oldsmobile Toronado 43397 http://en.wikipedia.org/wiki/Oldsmobile_Toronado
TOKEN seen 58190
TOKEN crush 63118
TOKEN owners 69290
TOKEN desk 59772
TOKEN relocate 70683
TOKEN promote 35016
TOKEN between 70846
TOKEN re 52821
TOKEN getting 68968
TOKEN felt 41508

URL è l’indirizzo della pagina web contenente il link. Ogni MENTION è seguito da tre campi: il primo è il testo linkato, e il secondo è la posizione nella pagina (in byte dall’inizio). Infine, i dieci TOKEN sono seguiti da ognuna delle dieci parole piú frequenti nella pagina, anche loro seguite dalla posizione. Questi ultimi dati potrebbero essere molto utili per fare confronti con pagine web non analizzate, e classificarle.

Ovviamente manca l’intero contenuto di ogni pagina web, che per motivi di copyright non è generalmente ridistribuibile.

Sul sito del laboratorio di estrazione dei dati della University of Massachussets, sono però stati resi disponibili strumenti che permettono l’estrazione e l’analisi dei dati utili, comprese le pagine web di origine. Tali strumenti contengono tutte le funzioni più utili, compresa la possibilità di ottenere le parole che circondano il link e che sono quindi più probabilmente legate al suo campo semantico.

Va notato come queste informazioni sono state probabilmente piuttosto facili da ottenere per Google, che le ha tutte a disposizione sui propri server in quanto sono tutte utili per le sue euristiche di ricerca. Il renderle disponibili pubblicamente è un ulteriore prova di come Google abbia compreso perfettamente come il pubblicare cose di questo genere possa dare grandi spinte alla ricerca in questo campo, con benefici importanti anche per l’azienda.

Leave a Reply

Lorenzo Breda Articolo scritto da

Studente di Informatica a Roma, si occupa di programmazione web sopratutto lato server, e di accessibilità del web. Utilizza e ama Debian GNU/Linux, e si interessa di fisica, fumetto, trekking e fotografia (gli ultimi due possibilmente abbinati). Collabora con Googlab da aprile 2012.

Contatta l'autore

Previous post:

Next post: