Sofisticati sistemi di intelligenza artificiale possono aiutarti a evitare una multa per divieto di sosta, scrivere un saggio accademico o indurti a pensare che papa Francesco sia uno stilista. Tuttavia, le biblioteche virtuali alla base di questa straordinaria tecnologia sono vaste e si teme che stia operando in violazione delle leggi sui dati personali e sul copyright.
Gli enormi set di dati utilizzati per addestrare l’ultima generazione di questi sistemi di intelligenza artificiale, come quelli che alimentano ChatGPT e Stable Diffusion, probabilmente contengono miliardi di immagini prese da Internet, milioni di e-book piratati, che completano 16 anni di EP e la versione inglese completa Da Wikipedia.
Tuttavia, il vorace appetito del settore per i big data sta iniziando a causare problemi, poiché le autorità di regolamentazione e i tribunali di tutto il mondo reprimono i ricercatori che raccolgono contenuti senza consenso o preavviso. In risposta, AI Labs sta lottando per mantenere segreti i propri set di dati o addirittura sfidando le autorità di regolamentazione a fare pressioni per ottenerli.
In Italia, l’attività di ChatGPT è stata vietata dopo che l’autorità di regolamentazione della protezione dei dati del paese ha affermato che non vi era alcuna base legale per giustificare la raccolta e la “memorizzazione di massa” dei dati personali per la formazione AI di GPT. Martedì, il Commissario canadese per la privacy ha seguito l’esempio, avviando un’indagine sulla società in risposta a un reclamo relativo alla “raccolta, utilizzo e divulgazione di informazioni personali senza consenso”.
Il controllore dei dati del Regno Unito ha espresso preoccupazione. “La legge sulla protezione dei dati si applica ancora quando le informazioni personali trattate provengono da fonti disponibili al pubblico”, ha affermato Stephen Almond, direttore della tecnologia e dell’innovazione presso l’Ufficio del Commissario per le informazioni (ICO).
I “Large Language Models” (LLM), come quelli dietro ChatGPT di OpenAI e Google Bard, accumulano enormi quantità di dati, afferma Michael Wooldridge, professore di informatica all’Università di Oxford.
“E questo include l’intero World Wide Web: tutto. Ogni collegamento su ogni pagina viene esaminato, ogni collegamento su queste pagine viene referenziato… In questa enorme quantità di dati, ci sono probabilmente molti dati su di te e su di me”, spiega , Aggiungendo che anche i commenti su una persona e sul suo lavoro possono essere raccolti dal LLM. “E non è memorizzato in un grande database da qualche parte: non possiamo guardare in alto per vedere esattamente che tipo di informazioni ho. È tutto sepolto in enormi reti neurali oscure”.
Wooldridge commenta che il copyright è una “tempesta in piscina” per le aziende di intelligenza artificiale. Gli LLM possono avere accesso a materiale protetto da copyright, come articoli di giornale. Infatti, il chatbot con l’aiuto del motore di ricerca Bing GPT-4 di Microsoft cita pagine web di notizie nelle sue risposte.
“Non ho dato il permesso esplicito affinché il mio lavoro venisse utilizzato come dati di addestramento, ma quasi certamente lo era, e ora contribuisce a ciò che sanno questi modelli”, afferma.
“Molti artisti sono profondamente preoccupati che i loro mezzi di sussistenza saranno a rischio a causa dell’IA generativa. Preparati ad assistere a battaglie legali”.
Le azioni legali sono già state intentate e la società fotografica Immagini Getty La startup britannica Stability AI – la società dietro il fotografo di intelligenza artificiale Stable Diffusion – è stata citata in giudizio dopo aver affermato che la società di fotografia ha violato il copyright utilizzando milioni di immagini Getty senza il permesso di addestrare il suo sistema.
Negli Stati Uniti, un gruppo di artisti ha citato in giudizio Midjourney e Stability AI sostenendo di aver “violato i diritti di milioni di artisti” sviluppando i propri prodotti utilizzando il lavoro di artisti senza il loro permesso.
Scomodo per la stabilizzazione, Stable Diffusion a volte ripristinerà le immagini con filigrana Immagini Getty Salima, la cui agenzia fotografica ha incluso alcuni esempi nella sua causa. A gennaio, i ricercatori di Google sono riusciti persino a convincere il sistema Stable Diffusion a ricreare perfettamente una delle immagini non autorizzate su cui era stato addestrato, una foto dell’evangelista americana Anne Graham Lotz.
Le rivendicazioni sul copyright e le azioni normative contro OpenAI sono ostacolate dall’assoluta segretezza dell’azienda sui suoi dati di addestramento.
In risposta al divieto italiano, Sam Altman, CEO di OpenAI, che ha sviluppato ChatGPT, ha dichiarato: “Riteniamo di rispettare tutte le leggi sulla privacy”. Tuttavia, la società si rifiuta di fornire informazioni sui dati utilizzati per addestrare GPT-4, l’ultima versione della piattaforma che esegue ChatGPT.
Anche nel suo “white paper”, che descrive l’intelligenza artificiale, la società osserva solo che è stata addestrata “utilizzando dati disponibili pubblicamente (come dati Internet) e dati autorizzati da fornitori di terze parti”.
Spiega che nessun’altra informazione viene nascosta a causa “sia del panorama competitivo che delle implicazioni sulla sicurezza di modelli su larga scala come GPT-4”.
Altri la pensano diversamente. EleutherAI si descrive come un “laboratorio di ricerca sull’intelligenza artificiale senza scopo di lucro” ed è stato fondato nel 2020 con l’obiettivo di ricreare GPT-3 e renderlo disponibile al pubblico. A tal fine, il gruppo ha creato The Pile, un set di dati da 825 GB raccolti da Internet. Include 100 GB di e-book strappati dalla pagina hacker della biblioteca, altri 100 GB di codice informatico strappato da Github e una raccolta di 228 GB di pagine Web raccolte da Internet dal 2008, il tutto, ammette il gruppo. , senza il consenso dei rispettivi autori.
Tutti i set di dati di The Pile, sostiene Eleuther, sono stati condivisi così ampiamente in passato che raccoglierli “non fa molto più male”. Tuttavia, il gruppo non si assume il rischio legale di ospitare direttamente i dati, rivolgendosi invece a un gruppo anonimo di “appassionati di dati” chiamato Eye, la cui politica di rimozione del copyright consiste in un video di un coro di donne in costume che fingono di masturbarsi sui loro membri fantasma. . mentre canta.
Anche alcune delle informazioni prodotte dai chatbot sono false. ChatGPT ha falsamente accusato un professore di diritto americano, Jonathan Turley, che lavora alla George Washington University, di aver molestato sessualmente una sua studentessa, citando un articolo di giornale che non esisteva.
Il regolatore italiano ha anche sottolineato il fatto che le risposte di ChatGPT “non sempre corrispondono a circostanze reali” e “vengono elaborati dati personali inesatti”.
Un rapporto annuale sugli sviluppi dell’IA rivela che gli attori commerciali stanno dominando il settore, superando il mondo accademico e i governi.
Secondo il 2023 AI Index Report, pubblicato dalla Stanford University in California, lo scorso anno sono stati creati dall’industria 32 modelli significativi di machine learning, rispetto ai tre creati dal mondo accademico.
Fino al 2014, i modelli più importanti provenivano dal mondo accademico, tuttavia, da allora il costo dello sviluppo di modelli di intelligenza artificiale, incluso il personale e la potenza di elaborazione, è aumentato.
“In generale, i modelli linguistici di grandi dimensioni ei modelli multimediali stanno diventando più grandi e più costosi”, osserva il rapporto. La prima iterazione dell’LLM abilitato per ChatGPT, noto come GPT-2, aveva 1,5 milioni di parametri, paragonabili ai neuroni nel cervello umano, e si stima che il suo addestramento costi circa $ 50.000 (circa $ 900.000). In confronto, PaLM di Google aveva 540 miliardi di parametri e un costo stimato di 8 milioni di dollari.
Questa situazione fa temere che le entità aziendali possano adottare un approccio al rischio meno conservativo rispetto ai progetti accademici o sostenuti dal governo.
La scorsa settimana, la lettera firmata da Elon Musk e dal co-fondatore di Apple Steve Wozniak richiedeva l’immediata sospensione della creazione di “giganteschi esperimenti di intelligenza artificiale” per almeno sei mesi. La lettera citata riguarda il fatto che le aziende tecnologiche stiano creando “menti digitali sempre più potenti” che nessuno può “comprendere, prevedere o controllare in modo affidabile”.
Il dottor Andrew Rogowski, dell’Institute for People-Centered Artificial Intelligence presso l’Università del Surrey in Inghilterra, ha commentato: “Una grande intelligenza artificiale significa che è creata esclusivamente da grandi società a scopo di lucro, il che sfortunatamente significa che i nostri interessi come esseri umani non sono necessariamente buoni rappresentato».
Ha aggiunto: “Dobbiamo concentrare i nostri sforzi per rendere l’IA più piccola, più efficiente e richiede meno dati e meno elettricità in modo da poter democratizzare l’accesso all’IA”..
“Appassionato di musica. Amante dei social media. Specialista del web. Analista. Organizzatore. Pioniere dei viaggi.”