Tratto da: UIF
Autori: Pasquale Cariello, Marco De Simoni e Stefano Iezzi.
Nello studio in questione viene sviluppato un algoritmo di machine learning per rilevare aziende potenzialmente collegate alla criminalità organizzata (CO). A questo scopo, si utilizza un dataset di imprese italiane ottenuto integrando informazioni finanziarie provenienti da varie fonti, tra cui principalmente dati di bilancio. Per addestrare e testare il modello, un campione di oltre 28.000 aziende italiane, caratterizzate da una elevata probabilità di essere collegate alla CO, viene confrontato con sottoinsiemi di aziende presumibilmente “sane” selezionati casualmente. I risultati ottenuti mostrano che, in fase di test, l’algoritmo identifica con successo circa il 76% delle aziende collegate alla CO (recall) e il 74% delle aziende presumibilmente “sane” (specificity). Il principale output dell’algoritmo è un punteggio di rischio, che potrebbe essere utilizzato a livello operativo per supportare l’azione delle autorità anti-riciclaggio e delle forze dell’ordine (ad esempio, come strumento di screening preliminare).
I risultati delle prime versioni statistiche del modello sono stati confrontati massivamente sia con i dati UIF delle Segnalazioni di operazioni sospette, sia con le evidenze del Nucleo Speciale di Polizia Valutaria della Guardia di Finanza, con esiti sostanzialmente positivi. Da ultimo, la versione più aggiornata del modello è stata validata utilizzando alcuni dati relativi a 1) le aziende colpite da provvedimenti prefettizi di interdittiva antimafia e, all’opposto, 2) quelle incluse nelle cd. “white list” (ossia imprese operanti in specifici settori economici, maggiormente esposti al rischio di infiltrazione mafiosa, per le quali è attestata a livello prefettizio l’assenza di connessioni note con la criminalità organizzata). Le imprese soggette a interdittiva presentano uno score di rischio mediano che supera di oltre due volte e mezzo quello delle imprese incluse nelle “white list”. Inoltre, il modello individua il 64,6% delle imprese soggette a interdittiva come infiltrate; simmetricamente, il 70,5% delle imprese nelle “white list” è riconosciuto come non infiltrato dal modello. L’ordine di grandezza di questi riscontri, ottenuti ‘sul campo’ con dati del tutto indipendenti dallo studio, non si discosta troppo da quello delle misure out-ofsample di recall e specificity prima riportate. L’indicatore di rischio proposto nello studio – che è ancora in versione sperimentale – ha varie potenziali applicazioni. In ambito strategico, può consentire ad esempio l’elaborazione di mappe di rischio a livello territoriale o settoriale. In ambito operativo, può contribuire al patrimonio informativo che supporta le funzioni istituzionali dell’UIF; potrebbe anche essere utilizzato come strumento preliminare di screening per contribuire a orientare l’azione degli organi investigativi, ad esempio nel monitoraggio dell’utilizzo dei fondi pubblici (PNRR). Conferme della sua validità operativa dovranno tuttavia venire da ulteriori applicazioni ‘sul campo’.
TESTO DELLA PUBBLICAZIONE
- N. 22 – Un modello di machine learning per l’identificazione di aziende collegate alla criminalità organizzata in Italiapdf119.0 KB(estratto non tecnico, in italiano)
- N. 22 – A machine learning approach for the detection of firms linked to organised crime in Italypdf2.2 MB(studio completo, in inglese)