Notte prima degli esami: tutti su Google

Test medicina 2019: qualcuno conosceva in anticipo le domande?

Nei giorni scorsi anche a Parma quasi mille aspiranti si sono presentati ai test di ammissione alla Facoltà di Medicina, che si sono svolti contemporaneamente in tutta Italia con le stesse domande. In occasione dei test dello scorso anno erano state segnalate ricerche anomale su Google: possibili indizi che alcuni studenti avessero chiesto un “aiutino” al noto motore di ricerca per rispondere ad alcune domande.

Vediamo su cosa si basa il metodo e cosa è possibile ottenere dai dati del 2019.

Lo strumento: Google Trends

Ogni volta che chiediamo qualcosa a Google, da un lato otteniamo informazioni (la risposta) e dall’altro forniamo informazioni: Google sa che un certo computer, da una certa regione d’Italia, ha cercato un determinato argomento.

Queste informazioni vengono usate da Google per migliorare l’usabilità: ad esempio, se Google nota che nel 95% dei casi chi cerca “Garibaldi” da Milano dopo pochi secondi cerca “Metro Garibaldi”, userà tali dati per anticipare le intenzioni dell’utente e proporgli da subito risultati più rilevanti.

Google mette a disposizione dei ricercatori una piccolissima parte di queste informazioni su un sito ad accesso gratuito, Google Trends, che ci permette di misurare l’interesse nel tempo per una determinata ricerca.

L’esempio classico è la ricerca della parola “palestra”, che ha una netta periodicità annuale.

Si nota chiaramente che durante l’anno ci sono due picchi, uno proprio in questa settimana (inizio settembre: ritorno delle vacanze) e un altro nella prima settimana di gennaio, coincidente con i buoni propositi di inizio anno. E lo schema si ripropone sostanzialmente invariato tutti gli anni.

Quali sono i limiti di Google Trends?

  1. Non abbiamo modo di verificare indipendentemente i risultati: dobbiamo fidarci dei dati che ci fornisce Google. Qualsiasi altro strumento lavora solo su un sottoinsieme delle ricerche.
  2. Possiamo vedere l’andamento ma non possiamo vedere i numeri assoluti: nell’esempio della palestra, sappiamo che durante questa settimana cercheranno “palestra” più persone che in qualsiasi altra settimana dell’anno; ma non sappiamo se stiamo parlando di 10mila, 100mila o 1 milione di persone. Altri strumenti di Google, a pagamento, permettono di avere una stima numerica, ma vedremo che nel nostro caso non è indispensabile.
  3. Google ci dà solo i totali giornalieri, che ai nostri fini sono poco utili. Però, per eventi dell’ultima settimana, ci fornisce anche i totali ora per ora, che sono perfetti per il nostro scopo.

Metodologia: parole chiave comuni e di nicchia

Il nostro scopo è vedere se alcuni argomenti del test sono stati cercati con frequenza “sospetta” nelle ore del test (che si è tenuto il 3 settembre dalle 11 alle 13) o nelle ore prima del test. E’ del tutto normale, infatti, che nelle ore dopo il test, quando le domande sono state pubblicate da varie testate giornalistiche, migliaia di persone abbiano cercato le risposte, anche solo per semplice curiosità.

Tutti i grafici da qui in poi si riferiscono agli ultimi 5 giorni prima del test e si interrompono quindi il 3 settembre alle 10. Nelle ore durante il test si può infatti notare qualche anomalia, ma è più interessante analizzare le ore precedenti.

Vogliamo lavorare su ricerche “di nicchia”. Infatti su una ricerca come la seguente (“leonardo da vinci”) sarebbe molto difficile notare anomalie:

perché presenta un andamento da ricerca comune: mostra una evidente periodicità giornaliera, il numero di ricerche non va mai a zero e di notte (ovviamente) le ricerche hanno un volume inferiore rispetto al giorno – sottolineiamo che tutti i grafici sono ristretti al territorio italiano, quindi non sono influenzati da fuso orario o traduzioni.

Viceversa, una ricerca “di nicchia” ha l’andamento seguente (l’esempio è “kernel linux”, un argomento specialistico di informatica):

Contrariamente all’esempio precedente, non c’è periodicità giorno/notte, l’andamento è molto irregolare, spesso le ricerche vanno a zero e presumibilmente i volumi di ricerca sono decisamente inferiori.

Questo è il tipo di parole chiave a cui siamo interessati: su una ricerca “di nicchia” possiamo infatti notare effetti statistici anche con poche decine/centinaia di ricerche.

Dai testi delle domande del 2019 estraiamo alcune parole chiave di nicchia: “cellule epiteliali”, “crisi missili cuba”, “filippo tommaso marinetti”, “khomeini”.

Analisi sui dati 2019

Filippo Tommaso Marinetti non è particolarmente popolare su Google. Tuttavia, in modo inspiegabile, alle 4 di notte del 2 settembre (due notti prima degli esami) viene cercato con una frequenza superiore di 20 volte rispetto a tutti i giorni precedenti.

La crisi dei missili di Cuba è un altro argomento che presumibilmente, a 57 anni di distanza, pochi sentono il bisogno di cercare su Google, soprattutto nel cuore della notte; eppure, proprio fra le 3 e le 4 della notte prima degli esami, registra un picco di ricerca superiore a tutte le ore (diurne e notturne) dei giorni precedenti. Le ricerche per argomenti correlati quali “Baia dei Porci” non mostrano invece alcun picco.

Anche l’ayatollah Khomeini ha fatto il suo tempo, ed è scomparso da ormai 30 anni, ma è tornato popolare alla stessa ora, le 3 della notte prima degli esami. Da notare che la ricerca che ha avuto una netta impennata è solo quella per la grafia “Khomeini” usata nel testo della domanda (e comunemente usata dai mezzi d’informazione); se si ripete l’analisi per “Khomeyni”, la grafia accettata ad esempio da Wikipedia, non si nota alcun fenomeno.

Un ultimo esempio è la ricerca “cellule epiteliali“. La situazione è completamente diversa rispetto alle precedenti: a differenza dei test di cultura generale, questo argomento rientra tra quelli prevedibili e l’andamento delle ricerche lo dimostra, con le ricerche concentrate in orari diurni nei giorni precedenti e un forte incremento del volume il giorno prima del test, nei momenti del frenetico ripasso. Ma anche in questo caso, dopo un azzeramento delle ricerche alle 2 della notte prima degli esami (in linea con tutte le precedenti notti), alle 3 l’argomento torna improvvisamente di interesse.

Può essere stato un caso?

In conclusione, i dati di Google Trends mostrano che fra le 3 e le 4 della notte prima dei test di Medicina ci sono stati picchi di ricerca per Khomeini, Cellule epiteliali, Crisi missili Cuba. Proprio tre degli argomenti del test. Inoltre nella notte precedente si è registrato un picco di ricerca per Filippo Tommaso Marinetti, altro argomento del test.

Si potrebbe obiettare che, dato che Google Trends non ci fornisce i valori assoluti, i picchi riscontrati potrebbero riguardare anche ricerche isolate. Ma non è così, come si può facilmente dedurre dal video seguente che copre la fascia fino alle 19, quindi 6 ore dopo la fine dell’esame. Nell’ultima parte del grafico, ad esame finito e domande pubblicate, tutte le ricerche schizzano verso l’alto, e sicuramente parliamo di migliaia di studenti e curiosi, e i picchi notturni sono dello stesso ordine di grandezza, per cui possiamo escludere distorsioni dovute a casi isolati.

Non possiamo escludere che i picchi riscontrati siano casuali, anche se la coincidenza temporale di almeno tre di questi picchi è davvero improbabile. Anche se non fossero casuali, non è detto che siano dovuti a una fuga di notizie: quasi sicuramente le domande sono preparate da un team di esperti ed è assolutamente ragionevole che vengano sottoposte a controlli incrociati (notturni?) appena prima dello svolgimento del test.

Solo Google sa la risposta: la presenza di ricerche di più argomenti dallo stesso PC avrebbe il sapore di una prova inequivocabile che quelle ricerche venissero da qualcuno che aveva in mano il testo delle domande. Ma, contrariamente a quello a cui siamo abituati, a questo quesito Google certamente non darà una risposta semplice e veloce.

Ringrazio la Dott.ssa Sonia Tondolo, che ha collaborato alla definizione della metodologia di analisi come parte della sua tesi di laurea specialistica in Data Journalism (2018), e lo studio Leone-Fell, che ha descritto una variante di questo metodo di indagine nell’articolo del 2018 sopra citato. 

Andrea Pescetti