Si può misurare il calcio?

Le statistiche sono arrivate nel calcio. Attenzione, però, al loro utilizzo.

La statistica possiede un magnifico potere: soccorre l’irreparabile incompletezza del nostro sapere; si fa bastare frammenti di realtà conosciuta (questo sono i campioni statistici) per produrre informazioni sull’inconosciuto tutto. Servirsi della statistica significa riconoscere che nella vita non si avrà il tempo di conoscere di persona tutti gli uomini che hanno qualcosa da dire, di leggere tutti i libri che si dovrebbero leggere o di guardare tutte le partite che si vorrebbero guardare. Ma che selezionando opportunamente un certo numero di elementi di ciascuna delle categorie precedenti, e di tutte le categorie del mondo, esiste la possibilità di ricavare un’approssimazione molto buona dell’intero complesso di oggetti, persone e idee che ci circondano. Di individuare un qualche tipo di regolarità nel dominio supremo dell’irregolarità.

Per riassumere: il teorema del limite centrale, la legge che esprime in termini matematici il concetto che è alla base di gran parte delle applicazioni della statistica moderna, è questa cosa che a un certo punto – a cavallo tra Settecento e Ottocento, per la precisione – arriva e dice: “Datemi un bel po’ di dati su un evento misurabile qualsiasi e io sarò in grado di esprimerlo in termini matematici, quindi universali”. Si tratta di un’offerta estremamente allettante: poter scoprire i segreti più intimi di mondi diversissimi, dalla finanza alla demografia, dall’epidemiologia allo sport.

Cosa c’entra lo sport in tutto questo?

Nel mondo dello sport, il basket sembra essere stato pensato apposta per diventare territorio di conquista dell’analisi statistica. Una delle condizioni necessarie per poter mettere in moto i motori della statistica è, difatti, la riproducibilità del fenomeno che si vuole studiare. Ora: in una partita di NBA ci sono in media circa 200 tiri a canestro, e una percentuale tra il 50 e il 60 di essi viene realizzata: avvengono moltissimi eventi misurabili in una singola partita. In più, in ogni stagione regolare si giocano ben 1230 partite. La somma di tutto questo non è l’infinito richiesto dal teorema del limite centrale, ma per molti scopi pratici è più che sufficiente. Negli ultimi decenni sono state messe a punto statistiche che rispondono a interrogativi sempre più precisi. La domanda di ricerca è passata da “Qual è la probabilità di segnare un canestro?” a “Qual è la probabilità di segnare un canestro da una determinata posizione del campo, con una determinata situazione difensiva in un determinato momento della partita?”. Dal punto di vista statistico, rispondere a questa seconda domanda significa aggiungere nuove variabili alla propria misurazione. Significa per prima cosa creare una base di dati enorme, che per ogni tiro tentato in una partita non fornisca solo l’esito conclusivo (segnato/non segnato), ma tutta una serie di dettagli aggiuntivi. Al di là della disponibilità concreta di dati di questo tipo (che esistono: da alcuni anni su tutti i campi della NBA sono installate avanzatissime telecamere grazie alle quali si tiene traccia dei movimenti di tutti e 10 i giocatori in campo secondo dopo secondo), il punto-chiave è che il basket si presta perfettamente ad essere descritto da tali dati.

Il basket sembra essere stato pensato apposta per l’analisi dei dati avanzati: una delle condizioni necessarie per poter mettere in moto i motori della statistica è la riproducibilità del fenomeno che si vuole studiareLa grande quantità di eventi che hanno luogo durante una partita fa sì che non solo i tiri liberi – che forse sono il gesto sportivo che in assoluto più si avvicina alle condizioni sperimentali ideali – anche i tiri da 2 e 3 punti possano essere analizzati, in ultima analisi, quasi come fossero lanci di una monetina: se ne registrano così tanti che è addirittura possibile costruire statistiche che consentano di capire (e prevedere) l’efficacia dei singoli giocatori in precisi contesti spazio-temporali di una partita. Oggi sappiamo che Stephen Curry durante una gara di play-off, con il proprio difensore a una distanza compresa tra 50 centimetri e 1 metro, realizza 44 tiri da 3 su 100. Ogni volta che sta per rilasciare un tiro in quelle condizioni è legittimo prevedere che segnerà con una probabilità del 44%, e compagni e avversari devono tenerlo presente. Perché si tratta di una previsione non solo solida dal punto di vista statistico, ma anche ragionevole dal punto di vista cestistico: Curry ha fatto molti canestri in condizioni come quella. L’abbiamo visto. Nel database c’è memoria di questi suoi precedenti. L’esplosione delle advanced stats nel mondo della palla a spicchi è quindi merito delle leggi della statistica, certo, ma soprattutto della natura stessa del gioco.

Perché nel calcio sembra molto più difficile proporre un approccio numerico simile?

A differenza del basket, gli eventi che decidono una partita sono rari, in certi casi del tutto assenti: fare gol è molto più difficile che fare canestroPerché il calcio è un gioco “a punteggio basso”. A differenza del basket, gli eventi che decidono una partita di calcio sono rari; in certi casi, del tutto assenti. Semplicemente, fare gol è molto più difficile che fare canestro: nel calcio gli avversari sono più numerosi, il campo da gioco più grande, il pallone meno controllabile, l’obiettivo da raggiungere protetto da un portiere. Come abbiamo visto, alcune delle assunzioni fondamentali della statistica hanno bisogno di grandi numeri, di ripetibilità, di cose che assomiglino più possibile a esperimenti controllati – tipo il lancio di una monetina. Invece i gol non hanno proprio nulla in comune con il lancio di una monetina. I gol sono diversi l’uno dall’altro, sia nella fase che precede la conclusione a rete sia nel gesto finale del tiro. Se il basket è il paradiso della riproducibilità, il calcio lo è della variabilità. Quanti gol del tutto identici tra loro riuscite a ricordarvi? Certo, va detto che i database in possesso delle società di elaborazione di dati e delle (sempre più numerose) squadre professionistiche che investono nell’analisi statistica sono molto più profondi delle nostre memorie di appassionati. Contengono centinaia di migliaia di informazioni sui gol e le occasioni da gol create nelle ultime stagioni nei maggiori campionati europei. Ecco: tutti questi zelanti collezionisti di gol e azioni pericolose scommettono sul fatto che dentro i loro database ci sia qualcosa di sovrapponibile; giocate avvenute in passato che possano essere utilizzate come riferimento per fare previsioni sull’esito di azioni simili che avvengono nel presente.

Cosa sono gli expected goals?

Gli expected goals, la statistica più sofisticata attualmente in uso nel mondo del calcio, si basano su quest’idea: date determinate condizioni iniziali – distanza dalla porta, angolo di tiro, tipo di assist ricevuto, punteggio della partita al momento dell’azione, fattore campo, numero di difensori tra l’attaccante e la porta, eccetera – qual è la probabilità che tale azione si traduca in gol, considerando tutti i precedenti simili presenti nel database? Cioè: quante volte in media, nelle stagioni e nei campionati di cui si ha traccia, un’azione paragonabile a quella in corso ha prodotto un gol? Il numero di expected goals (xG da qui in avanti) è in definitiva il numero di gol che ci si aspetterebbero da una squadra – o da un singolo calciatore – che si comportasse in fase di realizzazione in modo atteso, vale a dire come la media di tutte le squadre – o tutti i calciatori – presenti nel campione. Esempio: se al termine di una partita una squadra ha segnato 1 gol ma ha prodotto un valore di xG pari a 2.5, significa che la squadra ha raccolto meno (1 gol) di quanto ha prodotto (2.5 gol); che avrebbe meritato di più – se solo i suoi attaccanti fossero stati precisi almeno quanto l’attaccante medio – e che in definitiva ha giocato meglio di quanto non dica un risultato bugiardo.

Calcolare gli Expected Goals comporta il ricorso alla stregoneria: i gol sono tutti diversi tra loro, ma se noi ne mettiamo insieme tantissimi, prima o poi saremo in grado di renderli prevedibiliL’idea alla base degli xG è senz’altro ingegnosa. Preso atto che il calcio non è il basket, e che i gol sono bestie molto diverse dai canestri, troviamo un modo per rendere i numeri piccoli del calcio grandi abbastanza da poter diventare digeribili dalle potenti macchine della statistica. Calcolare gli xG, infatti, comporta il ricorso alla stregoneria cui si accennava prima, quella per cui quando si ha a disposizione un campione molto grande di dati anche i fenomeni irregolari possono mostrare qualche tipo di regolarità: i gol sono eventi rari e diversissimi tra loro, ma se noi ne mettiamo insieme tantissimi, prima o poi saremo in grado di renderli prevedibili. Nient’altro che il teorema del limite centrale all’opera. Dal punto di vista matematico, più che legittimo – almeno in teoria. Perché, essendo gli xG una creazione astratta (nella realtà non esistono giocatori o squadre che si comportino in modo medio), essi possono essere calcolati con sfumature diverse. Difatti non esiste un modello unico per calcolare gli xG, ma ciascun proponente ha una sua diversa versione. Alcuni per esempio ritengono fondamentale considerare il fattore campo; altri no. Alcuni utilizzano la distanza dalla porta, cert’altri aggiungono al modello anche il logaritmo della distanza dalla porta. E così via.

Ci sono anche alcuni punti deboli di questa statistica che prescindono dalla bontà matematica del modello che la generi. Uno per tutti, il modo con cui viene valutata l’opposizione dei difensori a un determinato tiro in porta. La “presenza di un difensore a meno di 2 metri di distanza dall’attaccante”, che è forse la variabile difensiva più precisa ad oggi considerata nei modelli di xG è evidentemente insufficiente. Quel “difensore a meno di 2 metri di distanza dall’attaccante” può essere un corpulento centrale difensivo pronto a opporsi al tentativo di conclusione a rete oppure un esausto centrocampista rientrato disperatamente in difesa. Il modello statistico tutto questo non lo sa. A livello di xG, le due situazioni sopra descritte producono lo stesso valore: per il modello, la probabilità di far gol è la stessa, sebbene in realtà è chiaro che non sia così. Non è difficile immaginare altre situazioni in cui a valori di xG uguali corrispondano in realtà contesti di gioco molto diversi tra loro.

Attenzione, però: questo non è un problema di expected goals. Il punto, ancora una volta, è che i gol sono eventi talmente particolari che per descriverli univocamente da un punto di vista matematico servirebbe inserire nei modelli una quantità spropositata di variabili. Si può fare, e si farà – soprattutto quando, in un futuro non molto lontano, saranno disponibili anche per il calcio i dati sulla posizione dei calciatori in campo secondo dopo secondo. Il rischio tuttavia è che a quel punto si finisca col costruire modelli talmente complicati da infrangere un importante principio che i bravi statistici tengono sempre bene a mente: quello «di parsimonia», secondo cui bisogna pensarci bene prima di infarcire un modello di variabili esplicative. Lo scopo originale della statistica è semplificare, dopotutto. “A parità di fattori la spiegazione più semplice è sempre quella da preferire”, disse già nel Trecento il frate Guglielmo di Occam, criticando l’uso eccessivo di subordinate e diramazioni all’interno di teorie filosofiche e scientifiche che sembravano avere come unico scopo quello di evidenziare l’originalità del loro autore.

Qual è dunque il futuro dell’uso della statistica nel calcio?

Non si vuole liquidare gli xG come un sopravvalutato giochino da nerd. Un loro utilizzo misurato, come ultimo e più raffinato complemento delle statistiche un tempo note come “tiri in porta”, o “occasioni create”, o anche “possesso palla”, ha tutte le carte in regola per consolidarsi nel discorso calcistico di medio-alto livello – già lo ha fatto, a dire il vero. Può avere senso menzionare gli xG in un pezzo di approfondimento, a patto che si sia in grado di fare due cose. Prima: frenare le proprie ambizioni predittive. Perché la regressione verso la media, che è uno dei modi con cui si identifica questa legge secondo cui prima o poi tutte le cose si allontanano dagli estremi e convergono verso un valore medio (e il numero di teste si avvicina sempre più al numero di croci, ripetendo molte volte il lancio una monetina non truccata), difficilmente funziona se applicata a tempi statisticamente brevi come la seconda parte di un campionato di calcio. Pensare che ai modelli calcistici siano sufficienti poche partite per fornire indicazioni illuminanti sul prosieguo di un’intera stagione e che, più in generale, regole valide su durate lunghe possano essere trasferite a durate più corte, è il più delle volte un’illusione statistica – e genera non di rado situazioni bizzarre. Il Telegraph nel 2015 riportò una conversazione tra Jermaine Defoe e Harry Kane nella quale l’esperto attaccante inglese confessò al rampante collega che: «Se fallisco un’occasione, significa che alla prossima avrò una probabilità più alta di segnare. Perché sbagliare due volta di fila è meno probabile che sbagliare una volta sola.» Caro, vecchio Jermaine.

L’impiego delle advanced stats deve essere contestualizzato e comprensibile, altrimenti si rischia di passare per depositari della verità che acconsentono di tanto in tanto a elargirne pezzetti alla plebeSecondo punto da tenere a mente quando si maneggiano le advanced stats: il loro impiego va reso il più possibile contestualizzato e comprensibile – altrimenti si rischia per passare da depositari della verità che acconsentono di tanto in tanto a elargirne pezzetti alla plebe. Insomma risulta poco convincente l’ipotesi secondo cui gli xG e i loro derivati siano il sacro Graal dell’analisi numerica del gioco del calcio, l’approdo finale della misurazione oggettiva delle performance di un calciatore e di una squadra. Questi tipi di modelli saranno perfezionati in futuro; saranno loro dedicati tempo e risorse. Resterà però immutato il loro peccato originale: l’idea di poter ingabbiare dentro un’equazione la primordiale capricciosità dell’evento-gol. A ben vedere, non è nemmeno troppo chiaro perché la valutazione di una prestazione debba necessariamente ruotare intorno alla probabilità che ha un tiro di finire in fondo alla rete. La crescente rilevazione di dati di movimento dei giocatori in campo apre scenari gustosi a chi abbia voglia di provare a sostituire l’oggetto della propria analisi: non più il gol, magari qualcosa di meno unico. Si potrebbe per esempio potenziare il conteggio – e l’analisi statistica – del numero di volte in cui un attaccante attacca con successo la linea difensiva avversaria, o i casi in cui un trequartista si inserisce tra le linee, o un incontrista raddoppia con successo sul portatore di palla. Chiaro, si tratta di eventi singolarmente meno affascinanti – e decisivi – di un gol. Ma avvengono più spesso, sono ripetibili e possono rivelarsi altamente informativi riguardo le prestazioni di calciatori non direttamente coinvolti nella fase finale di un’azione.

A proposito. Da alcuni mesi si discute di una nuova statistica, semplice e immediata, messa a punto da due calciatori. Stefan Reinartz e Jens Hegeler, entrambi centrocampisti difensivi con un passato in Bundesliga, hanno inventato il packing. Si tratta di una misura che ha l’obiettivo di sintetizzare il lavoro oscuro dei costruttori di gioco: il packing assegna a ogni calciatore 1 punto per ciascun avversario aggirato grazie a una propria azione (cross, dribbling, passaggio corto o lungo). Se per esempio l’azione comincia con cinque avversari tra il pallone e la porta e termina con due, l’autore del passaggio in grado di provocare tale miglioramento guadagna 3 punti. La compagnia fondata da Reinartz e Hegeler per rilevare il packing nei maggiori campionati europei è in rapida crescita: conta 65 dipendenti e vende i propri dati alla tv tedesca, oltre che a 15 squadre di Bundesliga e a una di Premier League (l’Huddersfield). Una sola variabile, grande successo. L’esito di una partita di pallone continua a fregarsene di tutto: del giocar bene, del giocar male, delle variabili quantificabili e di quelle non quantificabili.  E per questo il principio di parsimonia, nel calcio, è ancora e più che mai valido.

Dal numero 26 di Undici
Immagini Getty Images