La possibilita’ di accedere ai dati di ricerca di Google ha stimolato notevole interesse in diversi ambiti. Fra questi, quello della previsioni politiche e’ probabilmente quello piu’ recente, mentre in ambito economico, finanziario e medico, la ricerca (accademica e non) ha gia’ ottenuto importanti risultati.
Il motivo principale che ha finora limitato gli sviluppi nell’ambito delle previsioni elettorali e’ sicuramente da attribursi al cosidetto problema dell’Auto-Selezione, piu’ comunemente noto in inglese come Self-Selection Bias: in questo caso, gli individui appartenenti al campione oggetto di analisi non sono scelti in maniera casuale, bensi’ sono essi stessi che decidono di entrare nel campione stesso, in tal modo creando un campione distorto, poco rappresentativo della intera popolazione. Questo purtroppo e’ esattamente quello che succede con GTI, che riporta i dati solo degli individui che effettuano una ricerca su Google, ad esempio per cercare informazioni su un candidato alle prossime elezioni.
Ad esempio, i dati GTI contengono solo un piccolo numero di ricerche di natura politica da parte di persone sopra i 60 anni, che come e’ noto utilizzato internet in modo estremamente limitato (per ovvie ragioni): purtroppo, questo gruppo e’ anche quello che piu’ di tutti va a votare. Similmente, se internet non e’ molto diffuso fra la popolazione locale, la distorsione da auto-selezione del campione risultera’ notevole. Si veda qui per maggiori dettagli e referenze:
Questo problema e’ noto da tempo a chi effettua sondaggi online usando la cosidetta tecnica Computer-assisted web interviewing (CAWI):
Tuttavia, in questo caso,e’ possibile conoscere (approssimativamente) quali gruppi di individui sono sotto-rappresentati e quali sovra-rappresentati, confrontando le caratterische qualitative del campione del sondaggio online con quelle della popolazione, e creando di conseguenza appositi pesi campionari per correggere la distorsione presente nel campione originario del sondaggio. A questo riguardo, si rimanda all’articolo divulgativo pubblicato su Termometro Politico il 09/06/2009 intitolato Sovrastime e sottostime nei sondaggi CAWI, mentre per un maggiore approfondimento si veda questo articolo e questa discussione.
Purtroppo, lavorando con i dati GTI, NON si ha accesso a questo genere di informazioni qualitative, per cui non e’ possibile ri-balanciare i volumi di ricerca per un candidato o un partito politico al fine di avere un campione rappresentativo della popolazione.
Detto questo, ci troviamo quindi di fronte a quattro possibilita’:
Usare i soli dati GTI: questa opzione attualmente e’ possibile con un numero limitato di elezioni, solo e esclusivamente a carattere nazionale, con un numero di votanti e una penetrazione internet molto elevati. Uno di questi casi sono al momento le elezioni presidenziali USA: