FIghting Cybercrime with OSINT (FICO)

Stato dell'Arte

Indipendentemente dalle motivazioni economiche, politiche o personali dietro le minacce informatiche, assicurare il nostro futuro benessere, le libertà, la governance democratica e la prosperità dipendono dal miglioramento della nostra capacità di proteggerci dagli attacchi malevoli e di affrontare le debolezze della sicurezza digitale in generale.

Il progetto, in questa ottica e anche basandosi su progetti esistenti in ambito horizon Europe [36, 37], affronterà problematiche di cybercrime a vari livelli. Studierà come rilevare traffico di rete e possibili minacce in sistemi edge, oggi oggetto di ricerca attiva [1, 2]. Punto centrale e di raccolta delle informazioni raccolte via rete ma anche con sistemi di OSINT sarà un innovativo SIEM. La ricerca nei sistemi SIEM risale al 1999 [3], e successivamente ampliata con i tre Request for Comments (RFC) che hanno formalizzato il dominio SIEM: i) i requisiti (RFC 4766 [4]), il formato Intrusion Detection Message Exchange Format (IDMEF) (RFC 4765 [5]) e l'Intrusion Detection eXchange Protocol (IDXP) (RFC 4767 [6]. I primi SIEM si basavano su regole e relazioni logiche tra gli avvisi e le minacce [8,9,10]. Succesivamente, anche per ragioni di performance, si è fatto uso di modelli NOSQL, di modelli statistici [13] e di altre tecniche che coinvolgono l’IA [14].

Oltre ad ottenere informazioni con tecnologie di Signal Intelligence (SigInt) il nostro sistema SIEM si doterà di sonde per acquisire dati da Social networks e altre fonti aperte (OSINT) automatizzando per quanto possibile la raccolta di dati e le attività di Human Intelligence (HumInt). Le ricerche esistenti [20] evidenziano questioni statistiche [18], tecnico, giuridiche, informatiche e politologiche [15, 19, 16].

Necessariamente, l’uso di quanto raccolto dal sistema SIEM dovrà prevedere una protezione del dato stesso considerando sia quanto attualmente previsto dal punto di vista regolatorio sia quanto disponibile tecnologicamente dal punto di vista crittografico. Infatti, sebbene le tecniche OSINT non siano oggetto di una disciplina specifica e dedicata [21], il GDPR apre la strada all’utilizzabilità dei dati personali raccolti [23, 22]. In ambito crittografico, le tecnologie emergenti, che tengono conto anche della diffusione del cloud computing, delle nuove infrastrutture di Distributed Storage Systems (DSS), e degli avanzamenti nella costruzione di un computer quantistico fanno uso di sofisticate tecniche di Teoria dei Codici ed in particolare i Private Information Retrieval codes [25, 26, 27], i Locally Recoverable Codes [28, 29] e i codici quantici [24].

Obbiettivi

Il progetto persegue obbiettivi scientifici (nei wp1—4) e di comunicazione e networking nel wp5. Scientificamente il progetto si propone di ottenere una definizione funzionale di un framework edge basato su componenti open source per rilevare scambi di traffico malevoli. Attenzione sarà posta nel minimizzare i fallimenti della rilevazione automatica delle minacce, sia in termini di undetected threat rate, sia in termini di falsi allarmi, seppur garantendo un tempo di risposta adeguato per le esigenze operative. Cuore della ricerca sarà la specifica e Proof of Concept di un sistema SIEM che analizzerà quanto rilevato dalle sonde su rete e tramite sorgenti OSINT. Il SIEM sarà potenziato da differenti tecniche di analisi, basate su intelligenza artificiale, algoritmi specializzati su grafi, e analisi statistica. Nel lato della HUMINT, l’obbiettivo principale riguarda l’automazione delle analisi collegate a reati posti in essere (anche) online, differenziando la qualificazione normativa penale delle diverse fenomenologie di comportamento individuale interagente con l’esperienza sociale. Rispetto alla studio regolatorio, gli obbiettivi sono di due ordini. Su un piano generale, ricostruire il quadro giuridico applicabile al trattamento dei dati personali tratti da fonti OSINT, evidenziando le condizioni di legittimità e liceità dei trattamenti in relazione alla tipologia di dati trattati, dalla fonte, dal tipo di attività cui sono destinati. Su un piano più particolare, fornire indicazioni specifiche circa i presupposti e le soluzioni da applicare per assicurare la praticabilità e la liceità delle soluzioni. Rispetto allo studio crittografico rivolto alla protezione del dato, il progetto si propone di produrre contributi, a livello di primitive matematiche, protocolli o Proof of Concept, nello studio di famiglie di codici lineari che trovano applicazioni in sistemi di immagazzinamento dell’informazione di tipo distribuito per il recupero di informazioni private, nel bilanciamento del carico della memoria, in protocolli crittografici, o in scenari post-quantum. In particolare, riguardo il tema della privacy e della sicurezza di Distributed Storage Systems, intendiamo determinare nuove costruzioni di codici PIR e codici Locally Recoverable. In ambito post- quantum, si intende invece studiare codici additivi quaternari ottimali di bassa dimensione.

Consideriamo obbiettivi specifici del progetto anche le attività di comunicazione e disseminazione, che oltre che a dare risalto ai risultati scientifici, assumono in questo progetto rilevanza particolare visto l’obbiettivo generale di creare una rete di collaborazioni utile in una successiva fase di progettazione europea. In tale ottica obbiettivo specifico del progetto è di interagire durante i workshop di progetto con i principal investigators di alcuni progetti europei attualmente in corso collegati agli obbiettivi scientifici di FICO.

Metodologia

Il progetto raccoglierà fonti di informazione pubblicamente disponibili e le elaborerà con tecniche di Open Source Intelligence (OSINT). Le fonti che considereremo saranno collegate alle tematiche di cybercrime oggetto della ricerca multidisciplinare (cyberterrorismo, possibilità di corruzione, reati offensivi della libertà personale (pedopornografia)). Il progetto prevede una strutturazione in 6WP: i WP 1--4 per specifiche attività scientifiche e tecnologiche, il WP0 di gestione e il WP6 per le attività di comunicazione, disseminazione e exploitation, collegato anche agli obbiettivi di networking del progetto. Del WP di management farà parte un comitato tecnico scientifico composto dai leader dei vari WP in modo da poter facilmente avere un punto di incontro e di discussione, oltre che di continuo monitoraggio dell’avanzamento delle attività del progetto. Evidenziamo che nella parte di management è realizzato un monitoraggio dei risultati e un controllo sui possibili rischi di progetto. Due di essi sono già da ora individuati e ne è definita la soluzione: 1: Il rischio che bando per risorsa assegnista di ricerca per sviluppo in WP1 e WP2 vada deserto: Si ridurranno i deliverable che prevedono Proof of Concept alla sola progettazione e si utilizzeranno informazioni note per stimare risultati. 2: Il rischio che fonti dati non risultino accessibili o generale mancanza di dati reali da esaminare: Si procederà allo studio con dati artificiali.

Le attività scientifiche nei 4 WP avranno uno sviluppo simile. Dopo una prima fase di analisi della letteratura le attività saranno rivolte all’ottenimento dei deliverable specifici. Il WP1 prevede la progettazione di un ambiente edge dove poter studiare una sonda di cattura del traffico. Dopo una definizione funzionale delle entità e delle interfacce coinvolte l’attività si sposterà sul piano algoritmico per l’individuazione di strategie che presuppongono l’uso di un volume di dati difficilmente trattabile mediante un classico approccio relazionale. Approccio simile sarà seguito nella realizzazione della sonda, collegata agli aspetti di cybercrime che saranno evidenziati nel WP3. Nel WP2, che ha come obbiettivo primario la creazione del sistema SIEM, si individueranno quindi le fonti (aperte) dei dati da analizzare, come prelevarli dalla fonte, si riassumerà il loro formato, si descriverà inoltre le specifiche del sistema di gestione dei dati per la loro memorizzazione. Si procederà all’utilizzo di database non-relazionali, vista l’eterogeneità dei dati acquisiti da più fonti, contenenti testo, immagini, semplici valori, etc. Per l’analisi dei dati si useranno tecniche di Intelligenza Artificiale (e di Explainability), Algoritmiche, e statistiche. La validazione del sistema avverrà attraverso l’applicazione su casi studio pratici, per esempio iniettando dati sintetici al fine di ottenere la rilevazione di un problema di sicurezza. Verranno inoltre utilizzate le metriche della letteratura per misurare le performance del SIEM (ad esempio FAR/FRR). Nel WP3, lato HUMINT, prevediamo di trattare i tre casi di studio attraverso la contestualizzazione e la ricostruzione tipologica delle dinamiche criminale-vittima- testimone rispetto alle specificità criminali studiate. Ciò dovrebbe condurre all’individuazione delle vulnerabilità e dei comportamenti anomali e/o illegali, sia con riferimento ai casi di studio, ma anche con generale riferimento alle fattispecie penali possibili. Le attività del WP4 sono collegate alla data protection. Lato normativo, si procederà alla ricostruzione del quadro di riferimento secondo modalità consolidate di esegesi dei testi, da completare con l’analisi della giurisprudenza rilevante e della prassi, con specifico riferimento alle opzioni di regolazione, auditing e enforcement delle autorità di settore, oltre che mediante il confronto con la produzione scientifica rilevante. Per quanto concerne invece l’attività di counselling/coaching rispetto alle soluzioni elaborate all’interno del progetto, si tratta invece di applicare una metodologia bottom-up, che muove dalla identificazione della tipologia di dati utilizzati, relativa fonte, tipologia di trattamento, rispetto alla specifica soluzione in corso di elaborazione, e la verifica delle modalità più opportune di compliance con la disciplina rilevante (ove effettivamente percorribili), anche al fine di contribuire all’architettura privacy by design che deve caratterizzare i prodotti cantierabili. Lato crittografico, l'approccio sarà quello di studiare nuove famiglie di codici lineari associando a tali problemi particolari strutture geometriche e combinatorie. Nel caso di codici per il recupero privato delle informazioni (PIR) sfrutteremo la loro connessione con vari oggetti discreti, come configurazioni, sistemi di Steiner e particolari sottoinsiemi di punti in spazi proiettivi di Galois. In maniera simile studieremo le famiglie di Locally Recoverable codes (a partire da curve algebriche) e i codici quantici (traducendo la correzione di errori in ambito quantico nel linguaggio della teoria dei codici sopra campi finiti).

Impatto del Progetto

Risultati attesi

Le attività del progetto e i relativi deliverables avranno impatti chiaramente in ambito cybersecurity ma anche in altre discipline. Otterremo infatti:

Oltre ai risultati complessivi del progetto ogni singolo WP produrrà impatti specifici. In particolare, l’impatto del WP1 in termini di risultati attesi consiste nella disponibilità di un sistema di monitoraggio per threat analysis personalizzabile, adatto all’individuazione di flussi di beaconing, derivanti da attività illecite come l’uso improprio del sistema DSN, query a black list, e per recupero di attività su social. Risultato piu’ importante che ci aspettiamo nel WP2 è di declinare un sistema SIEM verso allarmi provenienti oltre che da traffico di rete, anche da fonti di informazioni OSINT (social, blog, dati economici, etc.), creando nuovi allarmi dedicati e integrandoli in un’analisi globale. In tal modo, la previsione e la forensics di attacchi è resa possibile anche verso il mondo OSINT, cosa normalmente non considerata. La centralizzazione degli allarmi di un SIEM abilita quindi ulteriori algoritmi e tecniche di rilevamento che possono scaturire solamente da un’analisi globale.

L’impatto per le attività svolte nel WP3 consisteranno nel mettere a disposizione della comunità scientifica, degli esperti e delle autorità strumenti e tecniche adeguate all’analisi dei reati online, sia nell’accrescere il livello di consapevolezza delle dinamiche criminali e dei problemi sociali collegati, sia nel far diminuire i tassi di criminalità online. Per finire, nel WP4, sotto il profilo del regime di gestione dei dati personali, il principale impatto atteso del progetto è quello di delineare in modo chiaro ed esplicito le condizioni di utilizzabilità dei dati personali ritratti da fonti OSINT, a seconda delle tipologie di finalità perseguire e di attori coinvolti, così da facilitare e accompagnare lo sviluppo delle soluzioni. Inoltre, il progetto costituirà un’occasione per “allenare” la collaborazione cross-disciplinare, indispensabile ai fini della progettazione di soluzioni tecnologicamente complesse che presuppongono l’utilizzo di dati personali. Inoltre, da un punto di vista crittografico, i risultati attesi del progetto vanno nella direzione di un migliore bilanciamento tra privacy e sicurezza delle informazioni.

Impatto di progetto in termini di contributo scientifico, economico e sociale

Il progetto contribuirà ad affrontare la criminalità e il terrorismo più efficacemente, nel rispetto dei diritti fondamentali, grazie a una prevenzione, preparazione e risposta più incisive, a una migliore comprensione dei relativi aspetti umani, sociali e tecnologici, e allo sviluppo di capacità all'avanguardia per le autorità di polizia comprese misure contro la criminalità informatica. Fornirà una maggiore sicurezza informatica e un ambiente online più sicuro sviluppando e utilizzando efficacemente le capacità nelle tecnologie digitali a sostegno della protezione dei dati e delle reti nel rispetto della privacy e di altri diritti fondamentali. Contribuirà a rafforzare la consapevolezza e ad una gestione e cultura comune della sicurezza informatica.

Più in dettaglio, considerando i singoli deliverables dei Wps, le attività di threat analysis in ambito edge e social sviluppate nel WP1 potranno essere introdotte in ambienti reali e produrre impatti in realtà industriali sia a livello regionale che nazionale. L’intera suite potrà essere sviluppata a TRL più alti ed usata come base per progetti europei a più alto grado di TRL. L’attività nel WP2 collegata all’avanzamento dei sistemi SIEM nell’uso di fonti OSINT permetterà di incrociare flussi di informazioni ben distanti ma correlati tra loro, ed abilitare quindi una piattaforma di intelligence, monitoraggio e sicurezza data-oriented altrimenti impossibile localmente su ciascuna fonte. Una tale avanzata gestione dell’informazione migliorerà il processo decisionale di enti ed aziende pubbliche e private, con conseguenti effetti benefici diretti e indiretti sulla sicurezza e benessere dei loro clienti e della società tutta. Le attività nel WP3 avranno un impatto sociale in termini di aumento del livello di consapevolezza (dei problemi e delle soluzioni) tra esperti e stakeholders. I deliverables del WP3 potranno essere proposti in sede pubblica, discussi e comunicati alla comunità di interesse, in modo da accrescere l’impatto sociale e il consolidamento delle competenze. Anche sul piano della data Protection (WP4), il contributo del progetto appare essenziale, perché consentirà di verificare sul campo la tenuta e la modulazione degli istituti di tutela dei dati personali nella progettazione di soluzioni basate su fonti aperte. La conciliazione tra esigenze di tutela della riservatezza e consolidamento della capacità di rilevare e contrastare le minacce costituiscono uno degli assi portanti della politica digitale dell'Unione Europea. Le ricadute sul piano sociale sono evidenti (contributo in termini di sicurezza e di resilienza), così come quelle di carattere economico, dal momento che il successo nella definizione di condizioni e percorsi applicativi chiari, è un volano indispensabile di investimenti nel mercato dei prodotti digitali.

Reti di collaborazione

Il progetto nasce come attività multidisciplinare tra vari dipartimenti e gruppi di ricerca, che affrontano attualmente problematiche di cybersecurity con metodologie diverse. Insieme il gruppo rafforzerà le proprie competenze e sfrutterà la caratteristica multidisciplinare che ha per interagire con gruppi di ricerca italiani e stranieri. Parte dei deliverable e attività del progetto sono indirizzati alle attività di networking e non solo verso la componente scientifica. Siamo confidenti che gli obbiettivi di networking siano oltre che rilevanti anche raggiungibili. Il team di progetto già da ora con alcuni dei suoi componenti infatti è coinvolto in molte iniziative rilevanti. In particolare:

Nell’ottica del networking, il progetto ha specifiche attività e deliverables. In particolare:

Bibliografia

  1. T. Takahashi et al., “Designing Comprehensive Cyber Threat Analysis Platform: Can We Orchestrate Analysis Engines?”, IEEE PerCom 2021, 376-379, 2021.
  2. C. Wilhjelm and A. A. Younis, “A Threat Analysis Methodology for Security Requirements Elicitation in Machine Learning Based Systems”, 20th IEEE Int. Conf. on Software Quality, Reliability and Security Companion, 426-433, 2020.
  3. R. Lippmann, J. W. Haines, D. J. Fried, J. Korba, and K. Das, “The 1999 DARPA off-line intrusion detection evaluation”, Comput. Netw. 34(4):579-595, 2000.
  4. M. A. Erlinger and M. Wood, “Intrusion Detection Message Exchange Requirements”, RFC 4766, 2007.
  5. B. Feinstein, D. Curry, and H. Debar, “The Intrusion Detection Message Exchange Format (IDMEF)”, RFC 4765, 2007.
  6. G. Matthews and B. Feinstein, “The Intrusion Detection Exchange Protocol (IDXP)”, RFC 4767, 2007.
  7. R. Gerhards, "The Syslog Protocol", RFC 5424:1-38, 2009.
  8. M. Almgren, H. Debar, and M. Dacier, “A lightweight tool for detecting web server attacks”, Network and Distributed System Security Symposium, 2000.
  9. E. Tombini, H. Debar, L. Mé, and M. Ducassé, “A serial combination of anomaly and misuse IDSes applied to http traffic”, Computer Security Applications Conf., 428-437, 2004.
  10. T. T. T. Nguyen and G. Armitage, “A survey of techniques for internet traffic classification using machine learning”, IEEE Commun. Surv. Tutor. 10(4):56-76, 2008.
  11. B. Kolosnjaji, A. Zarras, G. Webster, and C. Eckert, “Deep learning for classification of malware system call sequences”, Australasian Joint Conf. on AI. Springer, 137-149, 2016.
  12. S. M. Tabish, M. Z. Shafiq, and M. Farooq, “Malware detection using statistical analysis of byte-level file content”, ACM Workshop on CyberSecurity and Intelligence Informatics, 23-31, 2009.
  13. P. Laskov and N. Šrndić, “Static detection of malicious Javascript-bearing pdf documents”, 27th Annual Computer Security Applications Conf., 373-382, 2011.
  14. D. Maiorca, I. Corona, and G. Giacinto, “Looking at the bag is not enough to find the bomb: an evasion of structural methods for malicious pdf files detection”, 8th ACM Symp. on Information, Computer and Communications security, 119-130, 2013.
  15. A. Cadoppi, S. Canestrari, “Cybercrime - Diritto e procedura penale dell'informatica”, Utet Giuridica, 2019.
  16. M. Fazekas, L. Cingolani, B. Tóth, “A comprehensive review of objective corruption proxies in public procurement: risky actors, transactions, and vehicles of rent extraction”. GTI-WP/2016:03, Budapest: Government Transparency Institute, 2017.
  17. B. Feuillet-Liger, K. Orfali, “The Reality of Human Dignity in Law and Bioethics: Comparative Perspectives”, Springer, 2018.
  18. A. Fronzetti Colladon, E. Remondi, “Using social network analysis to prevent money laundering”, Expert Syst. Appl. 67:49-58, 2017.
  19. D. Hallinan, R. Leenes, S. Gutwirth, P. Hert, “Data Protection And Privacy: Data Protection And Democracy”, Hart Publishing, 2020.
  20. A. Yeboah-Ofori, A. Brimicombe, “Cyber Intelligence & OSINT: Developing Mitigation Techniques Against Cybercrime Threats on Social Media. A Systematic Review”, Int. J. Electron. Secur. Digit. Forensics 7(1): 87-98, 2018.
  21. L. Hulsen, OPEN SOURCING EVIDENCE FROM THE INTERNET - THE PROTECTION OF PRIVACY IN CIVILIAN CRIMINAL INVESTIGATIONS USING OSINT (OPEN-SOURCE INTELLIGENCE). Amsterdam Law Forum, 12(2):3-48, 2020.
  22. E. Dove, “The EU General Data Protection Regulation: Implications for International Scientific Research in the Digital Era, Currents in Contemporary Bioethics”, J. Law Med. Ethics, 46(4):1013-1030, 2018.
  23. I. Kindylidi, I. Antas De Barros, “AI Training Datasets & Article 14 GDPR: A Risk Assessment for the Proportionality Exemption of the Obligation to Provide Information”. Law, State Telecomm. Rev. 13(2):1-27, 2021.
  24. A. R. Calderbank, E. M. Rains, P. M. Shor and N. J. A. Sloane, “Quantum error- correction via codes over GF(4)”, IEEE Trans. Inform. Th. 44(4):1369-1387, 1998.
  25. S. Kurz, E. Yaakobi, “PIR Codes with Short Block Length”, Des. Codes, Cryptogr. 89(3):559-587, 2021.
  26. A. Fazeli, A. Vardy, E. Yaakobi, “Codes for distributed PIR with low storage overhead”, IEEE International Symposium on Information Th., 2852-2856, 2015.
  27. M. Nassar and E. Yaakobi, "Array Codes for Functional PIR and Batch Codes", IEEE Trans. Inf. Th. 68(2):839-862, 2022.
  28. A.S. Rawat, D.S. Papailiopoulos, A.G. Dimakis, S. Vishwanath, “Locality and availability in distributed storage”. IEEE Trans. Inf. Th. 62(8):4481-4493, 2016.
  29. V. Skachek, “Batch and PIR codes and their connections to locally repairable codes”, Network Coding and Subspace Designs, 427-442, 2018.
  30. H. Y. Lin, E. Rosnes, “Lengthening and extending binary private information retrieval codes”, International Zurich Seminar on Information and Communication, 113-117, 2018.
  31. A. Barg, I. Tamo, S. Vladuţ, "Locally recoverable codes on algebraic curves”, IEEE Trans. Inf. Th. 63(8):4928-4939, 2017.
  32. C. Munuera, W. Tenòrio, F. Torres, “Locally recoverable codes from algebraic curves with separated variables”, Adv. Math. Commun. 14(2):265-278, 2020.
  33. D. Bartoli, M. Montanucci, L. Quoos, “Locally Recoverable Codes From Automorphism Group of Function Fields of Genus g≥1”, IEEE Trans. Inf. Th. 66(11):6799-6808, 2020.
  34. L. Jin, L. Ma, C. Xing, “Construction of Optimal Locally Repairable Codes via Automorphism Groups of Rational Function Fields”, IEEE Trans. Inf. Th. 66(1):210- 221, 2020.
  35. J. Bierbrauer, G. Faina, M. Giulietti, S. Marcugini, F. Pambianco, “The geometry of quantum codes”, Innov. Incidence Geom. 6(7):53-71, 2009.
  36. HORIZON-CL3-2022-CS-01-01: Improved monitoring of threats, intrusion detection and response in complex and heterogeneous digital systems and infrastructures.
  37. HORIZON-CL3-2021-CS-01-04: Scalable privacy-preserving technologies for cross- border federated computation in Europe involving personal data.