NIST: identificate tipologie di attacchi informatici che manipolano il comportamento dei sistemi di Intelligenza Artificiale

Il National Institute of Standards and Technology (NIST) ha individuato diverse tipologie di attacchi informatici volti a manipolare il comportamento dei sistemi di intelligenza artificiale (IA) e di apprendimento automatico (ML), descrivendo strategie di mitigazione e le loro limitazioni.

Il rapporto, dal titolo “Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations”, fa parte di un impegno più ampio del NIST per sostenere lo sviluppo di un’intelligenza artificiale affidabile e offre una guida pratica per mettere in atto il NIST’s AI Risk Management Framework.

La pubblicazione, frutto di una collaborazione tra governo, accademia e industria, si propone di aiutare gli sviluppatori e gli utenti di IA a comprendere gli attacchi possibili e a implementare strategie di mitigazione. Tuttavia, si sottolinea che non esiste una soluzione definitiva e che ulteriori difese sono necessarie.

Apostol Vassilev, uno degli autori della pubblicazione, afferma: “Stiamo fornendo una panoramica delle tecniche di attacco e delle metodologie che considerano tutti i tipi di sistemi di intelligenza artificiale. Descriviamo anche le attuali strategie di mitigazione riportate nella letteratura, ma attualmente queste difese disponibili mancano di assicurazioni robuste che mitigano completamente i rischi. Stiamo incoraggiando la comunità a trovare difese migliori.”

Gli attacchi di IA hanno permeato la società moderna, lavorando con capacità che vanno dalla guida di veicoli all’aiuto nella diagnosi di malattie da parte dei medici, fino all’interazione con i clienti come chatbot online. Tuttavia, una delle principali sfide è la non affidabilità dei dati stessi su cui vengono addestrati questi sistemi. Le opportunità per gli attori malevoli di corrompere questi dati sono numerose, durante il periodo di addestramento del sistema e successivamente, mentre l’IA continua a perfezionare i suoi comportamenti interagendo con il mondo fisico.

Il rapporto esamina quattro tipi principali di attacchi: di evasione, di avvelenamento, privacy e di abuso. Classifica tali attacchi in base a diversi criteri come gli obiettivi dell’attaccante, le capacità e la conoscenza.

Gli attacchi di evasione si verificano dopo l’implementazione di un sistema di intelligenza artificiale e cercano di alterare un input per influenzare la risposta del sistema. Ad esempio, ciò potrebbe includere l’aggiunta di segnaletica orizzontale ai segnali di stop, inducendo un veicolo autonomo a interpretarli erroneamente come segnali di limite di velocità, o la creazione di segnaletiche di corsia confuse per indurre il veicolo a deviare dalla strada.

Gli attacchi di avvelenamento (poisoning attack) avvengono durante la fase di addestramento introducendo dati corrotti. Un esempio potrebbe consistere nell’inserire numerosi esempi di linguaggio inappropriato nei registri delle conversazioni, inducendo così un chatbot a interpretare tali esempi come linguaggio comune da utilizzare nelle sue interazioni con i clienti.

Gli attacchi alla privacy tentano di ottenere informazioni sensibili sull’IA o sui dati su cui è stata addestrata. Un avversario potrebbe porre al chatbot numerose domande legittime, utilizzando successivamente le risposte per decodificare il modello e individuare i suoi punti deboli o indovinare le fonti. L’aggiunta di esempi indesiderati a fonti online potrebbe portare l’intelligenza artificiale a comportarsi in modo inappropriato, e rimuovere successivamente tali esempi indesiderati potrebbe rivelarsi complesso.

Gli attacchi di abuso inseriscono informazioni errate in una fonte legittima da cui un’IA le assimila, come una pagina web o un documento online. A differenza degli attacchi di avvelenamento, gli attacchi di abuso cercano di fornire informazioni errate da una fonte legittima ma compromessa, al fine di alterare l’uso previsto del sistema di intelligenza artificiale.

Il rapporto fornisce una panoramica degli attacchi e approcci per mitigarli, ma riconosce che le difese sviluppate finora dagli esperti di IA sono incomplete. La consapevolezza di queste limitazioni è cruciale per gli sviluppatori e le organizzazioni che intendono implementare e utilizzare la tecnologia IA, afferma Vassilev.

“Nonostante i notevoli progressi fatti dall’IA e dal machine learning, queste tecnologie sono vulnerabili ad attacchi che possono causare fallimenti spettacolari con conseguenze gravi”, conclude Vassilev. “Ci sono problemi teorici con la sicurezza degli algoritmi di IA che semplicemente non sono stati risolti ancora. Se qualcuno sostiene il contrario, sta vendendo fumo.”

https://www.nist.gov/news-events/news/2024/01/nist-identifies-types-cyberattacks-manipulate-behavior-ai-systems

NIST: identificate tipologie di attacchi informatici che manipolano il comportamento dei sistemi di Intelligenza Artificiale

Articoli Correlati: