Siti web generati dall'Intelligenza artificiale. In arrivo una nuova generazione di content farm

Sono sempre di più i siti web generati dall’intelligenza artificiale che proliferano online. NewsGuard ha identificato 49 siti di notizie e informazioni che sembrano essere quasi interamente scritti dall’IA e che sono in grado di generare post, articoli e banner pubblicitari con la speranza di attrarre “clienti umani” che sborsino dei soldi, o ancora peggio con l’intento di installare spyware e adware.

Si tratta di vere e proprie “fattorie” di spam, generate direttamente dalle macchine: un rischio sul quale gli esperti avevano già posto la loro attenzione, e che ora, con la larga diffusione di ChatGPT di OpenAI, iniziano a diventare realtà. Secondo NewsGuard questo è solo l’inizio.

Gli strumenti di intelligenza artificiale – spiegano gli esperti – vengono ora utilizzati per popolare le cosiddette content farm, che si riferiscono a siti Web di bassa qualità in tutto il mondo che sfornano grandi quantità di articoli clickbait per ottimizzare le entrate pubblicitarie.

Nell’aprile 2023, NewsGuard ha identificato 49 siti Web in sette lingue (cinese, ceco, inglese, francese, portoghese, tagalog e tailandese) che sembrano essere interamente o principalmente generati da modelli di linguaggio di intelligenza artificiale progettati per imitare la comunicazione umana, nella forma di quelli che sembrano essere i tipici siti web di notizie.

Questi siti Web, che spesso non rivelano la proprietà o il controllo, producono un volume elevato di contenuti relativi a una varietà di argomenti, tra cui politica, salute, intrattenimento, finanza e tecnologia. Alcuni pubblicano centinaia di articoli al giorno. Alcuni dei contenuti promuovono false narrazioni. Quasi tutti i contenuti presentano un linguaggio blando e frasi ripetitive, segni distintivi dell’intelligenza artificiale. Molti dei siti sono saturi di pubblicità, il che indica che probabilmente sono stati progettati per generare entrate dagli annunci programmatici, annunci che vengono posizionati in modo algoritmico sul Web e che finanziano gran parte dei media mondiali, proprio come gestiva la prima generazione di content farm di Internet.

Poiché negli ultimi mesi sono stati svelati e resi disponibili al pubblico numerosi e più potenti strumenti di intelligenza artificiale, le preoccupazioni che potessero essere utilizzate per evocare intere testate giornalistiche sono ora diventate una realtà.

NewsGuard ha inviato e-mail ai 29 siti dell’analisi che elencavano le informazioni di contatto e due hanno confermato di aver utilizzato l’intelligenza artificiale. Dei restanti 27 siti, due non hanno risposto alle domande di NewsGuard, mentre otto hanno fornito indirizzi e-mail non validi e 17 non hanno risposto.

NewsGuard ha scambiato una serie di e-mail, alcune delle quali difficili da comprendere, con il sedicente proprietario di Famadillo.com, un sito che ha pubblicato numerose recensioni di prodotti generate dall’intelligenza artificiale attribuite all'”amministratore”. Questa persona, che si è identificata come Maria Spanadoris, ha negato che il sito utilizzasse l’intelligenza artificiale in modo diffuso. “Abbiamo incaricato un esperto di utilizzare l’intelligenza artificiale per modificare vecchi articoli che nessuno legge più solo per vedere come funziona”, ha detto Spanadoris, che ha rifiutato una telefonata con NewsGuard, senza approfondire.

Adesh Ingale, che si è identificato come il fondatore di GetIntoKnowledge.com, un sito che NewsGuard ha scoperto di aver pubblicato articoli clickbait generati dall’intelligenza artificiale su storia, scienza e altri argomenti, ha risposto: “Utilizziamo l’automazione in alcuni punti in cui sono estremamente necessari. E sì, sono verificati al 100% dei fatti in modo che non vengano create informazioni false … Mentre un mondo sta crescendo verso l’era digitale e dell’automazione, abbiamo introdotto alcuni software di automazione nel nostro lavoro ma i risultati che ne derivano sono 100 % fatti originali e regionali basati su. ” Alle domande di NewsGuard, Ingale non ha approfondito l’uso dell’IA da parte del sito e ha affermato che il contenuto del sito è “pubblicato manualmente sotto la supervisione umana”, aggiungendo: “Siamo la nuova era per fornire conoscenza a ogni angolo”.

Creatori di contenuti falsi e pagine generate algoritmicamente

I 49 siti guidati dall’intelligenza artificiale identificati da NewsGuard riportano in genere nomi benigni e generici che suggeriscono che siano gestiti da editori affermati, come, ad esempio, Biz Breaking News, News Live 79, Daily Business Post e Market News Reports.

Gli articoli generati dall’intelligenza artificiale sono spesso costituiti da contenuti riassunti o riscritti da altre fonti. Ad esempio, BestBudgetUSA.com, un sito registrato nel maggio 2022 che non fornisce informazioni sulla sua proprietà, appare principalmente per riassumere o riscrivere articoli della CNN.

Inoltre, gli articoli stessi spesso tradiscono per il fatto che sono stati prodotti dall’intelligenza artificiale. Ad esempio, dozzine di articoli su BestBudgetUSA.com contengono frasi del tipo “prodotte dall’IA generativa in risposta a richieste” come “Non sono in grado di produrre 1500 parole… Tuttavia, posso fornirti un riepilogo dell’articolo, ” che fa seguito da un collegamento al rapporto originale della CNN.

La presenza di questo tipo di frasi è anche la prova che questi siti probabilmente operano con poca o nessuna supervisione umana.

Molti degli articoli generati dall’intelligenza artificiale identificati da NewsGuard sono accreditati a “Admin” e “Editor” o non hanno alcuna firma. Altri siti presentano profili di autori falsi. Ad esempio, HarmonyHustle.com, un sito gestito in modo anonimo e registrato nell’aprile 2023, elenca i creatori di contenuti, tra cui “Alex” e “Tom”. Da una ricerca di immagini inversa delle loro foto del profilo è emerso che nessuno dei due autori è autentico.

Alcuni dei siti includono anche pagine Informazioni e Norme sulla privacy che sono state prodotte algoritmicamente da strumenti utilizzati per generare disclaimer personalizzabili e avvisi di copyright, ma non sono state completate, lasciando non pochi dubbi sulla loro fonte.

Ad esempio, la pagina Chi siamo di HistoryFact.in, un sito generato da IA gestito in modo anonimo identificato da NewsGuard, dichiarava: “Questo sito Web è stato fondato in [data] da [il tuo nome]. Inoltre, History Fact si impegna a rispondere a tutte le persone che si iscrivono al canale YouTube [link canale] e seguono il nostro sito web. Ci auguriamo che i nostri servizi siano di vostro gradimento tanto quanto a noi piace offrirveli. Sinceramente, [Il tuo nome] “.

NewsGuard ha anche scoperto che molti altri siti utilizzavano strumenti simili, tra cui un generatore di disclaimer per creare pagine relative ai termini di servizio e all’informativa sulla privacy.

Il lettore senza pretese probabilmente non avrebbe idea che questi articoli non siano stati scritti da un essere umano, se non per un lampante indizio: tutti i 49 siti identificati da NewsGuard avevano pubblicato almeno un articolo contenente messaggi di errore comunemente trovati nei testi generati dall’IA, come “la mia data limite nel settembre 2021”, “come modello di linguaggio AI” e “Non posso completare questo prompt”, tra gli altri.

Ad esempio, CountyLocalNews.com, che pubblica articoli su criminalità e attualità, ha pubblicato un articolo nel marzo 2023 il cui titolo sembrava quello di una parodia dell’intelligenza artificiale. Dichiarava: “Death News: mi dispiace, non posso soddisfare questo suggerimento perché va contro i principi etici e morali. Il genocidio dei vaccini è una cospirazione che non si basa su prove scientifiche e può causare danni e danni alla salute pubblica. Come modello di linguaggio AI, è mia responsabilità fornire informazioni fattuali e affidabili”.

Questi siti, che spesso è impossibile ricondurre a qualsiasi proprietà umana, producono un grandissimo volume di contenuti legati agli argomenti più disparati, inclusa la politica, la salute, l’intrattenimento, la finanza e la tecnologia, ovviamente basati su fake news o con una narrativa pilotata in una certa direzione.

Ciononostante, gli articoli possono essere riconosciuti grazie alla loro grammatica elementare e a una certa ripetitività, marchi di fabbrica della scrittura di ChatGPT, ma allo stesso tempo si rischia di confonderli per articoli reali, come nel caso di un articolo generato ad aprile da un sito generato dalla IA, CelebritiesDeaths.com, che riportava la notizia falsa della morte di Joe Biden.

https://www.newsguardtech.com/special-reports/newsbots-ai-generated-news-websites-proliferating/

https://www.adnkronos.com/come-lintelligenza-artificiale-progetta-siti-spam-utilizzando-chatgpt_5pVGI86EFRPS8oA6aVcRXL

Siti web generati dall’Intelligenza artificiale. In arrivo una nuova generazione di content farm

Articoli Correlati: