Vuoi ricevere i nostri aggiornamenti?
Dati di qualità per lo sviluppo dell’intelligenza artificiale
AI e Dati
I sistemi di Intelligenza Artificiale sono sviluppati sulla base di set di dati di addestramento, convalida e prova.
L’AI Act prevede che i set di dati debbano soddisfare i requisiti indicati ai paragrafi da 2 a 5 dell’art. 10 e, in particolare, richiede che siano soggetti a pratiche di governance e gestione dei dati adeguate alla finalità prevista dal sistema di IA. Tali pratiche riguardano in primo luogo i processi di raccolta dei dati e l’origine dei dati, nonché la finalità originaria della raccolta nel caso di dati personali (Art. 10, comma 2 lettera b).
L’AI Act prevede anche che i fornitori di modelli di AI ad alto rischio e con finalità generali debbano dare informazioni dettagliate sui dati utilizzati per l’addestramento, la prova e la convalida, compresi il tipo e la provenienza dei dati e le metodologie di organizzazione, il numero di punti di dati, la loro portata e le principali caratteristiche; il modo in cui i dati sono stati ottenuti e selezionati e tutte le altre misure per rilevare l’inadeguatezza delle fonti di dati e i metodi per rilevare distorsioni identificabili (Allegato IV punto 2d – Allegati IXa e IXb).
Da una ricerca condotta lo scorso anno del Center for Research on Foundation Models dell’Università di Stanford emerge che raramente i fornitori rendono noto in modo adeguato le fonti dei dati utilizzati, che spesso vengono reperiti su internet per lo più in violazione della normativa sul diritto d’autore.
È evidente che una tale modalità operativa non sia affatto adeguata ai requisiti richiesti dall’AI Act, che a breve sarà legge e il cui rispetto sarà obbligatorio per tutti quei soggetti che intendano operare all’interno dell’Unione.
Eppure, le fonti di dati utilizzabili sono numerose.
L’Unione europea ha messo in campo da anni una propria strategia di digitalizzazione EU Digital Strategy - EU4Digital (eufordigital.eu) e sono numerosi gli interventi normativi che riguardano i dati (personali e non).
Il Data Governance Act
Il Regolamento (UE) 2022/868 o più semplicemente DGA (Data Governance Act) mira a stabilire una cornice normativa per la gestione, lo scambio e l’utilizzo dei dati all’interno dell’UE.
Il DGA si applica a partire dal 24 settembre 2023 e fissa importanti linee guida per il riutilizzo all’interno dell’Unione di determinate categorie di dati detenuti da enti pubblici, nonché un quadro per la raccolta e fornitura di servizi di intermediazione di dati.
Il Regolamento si applica ai sensi dell’art. 3 ai dati detenuti da enti pubblici per ragioni di:
- riservatezza commerciale, inclusi segreti commerciali, professionali o aziendali;
- riservatezza statistica;
- protezione dei diritti di proprietà intellettuale di terzi; o
- protezione dei dati personali, nella misura in cui tali dati non rientrano nell’ambito di applicazione della direttiva (UE) 2019/1024 sugli Open Data.
Gli enti pubblici hanno la facoltà e non l’obbligo di permettere l’accesso ai dati protetti per il loro riutilizzo. In sede di riutilizzo, gli enti pubblici garantiscono ai sensi dell’art. 5 il rispetto dei seguenti requisiti:
- concedere l’accesso per il riutilizzo dei dati soltanto qualora l’ente pubblico abbia garantito che i dati sono stati anonimizzati, nel caso di dati personali; e modificati, aggregati o trattati nel caso di informazioni commerciali riservate;
- accedere ai dati e riutilizzare gli stessi da remoto all’interno di un ambiente di trattamento sicuro, fornito o controllato dall’ente pubblico;
- accedere ai dati e riutilizzare gli stessi all’interno dei locali fisici in cui si trova l’ambiente di trattamento sicuro.
Il Regolamento intende pertanto favorire l’atteggiamento altruista dei titolari dei dati non personali e degli interessati, incoraggiando la condivisione dei dati per beneficio comune.
Dati personali e dati non personali
La politica europea dei dati ha, poi, i suoi cardini in due importanti regolamenti:
- regolamento (UE) 2016/679 relativo ai dati personali
- regolamento (UE) 2018/1807 relativo ai dati non personali
Il Regolamento (UE) 2016/679, noto anche come GDPR, dà una definizione intenzionalmente ampia di “dato personale”, specificando che si tratta di «qualsiasi informazione riguardante una persona fisica identificata o identificabile». Il GDPR, come noto, oltre alla tutela dei dati delle persone fisiche disciplina anche le modalità con cui tali dati possono circolare e possono essere legittimamente utilizzati.
Il Regolamento (UE) 2018/1807 disciplina la libera circolazione dei dati non personali nel territorio dell’Unione europea. Si tratta in particolare di dati che possono essere qualificati in base alla loro origine:
- dati anonimi ex-ante, ossia dati che in origine non si riferiscono ad una persona fisica identificata o identificabile;
- dati anonimi ex-post, ovvero dati che inizialmente erano personali e che successivamente sono stati resi non personali attraverso un processo di anonimizzazione.
L’obiettivo principale del Regolamento è quello di garantire che i dati non personali possano essere trattati liberamente su tutto il territorio dell’UE, che possano circolare liberamente e che ne venga garantita la portabilità in un formato strutturato, di uso comune e leggibile elettronicamente, anche in formati standard aperti ove necessario o richiesto dal fornitore di servizi che riceve i dati.
Spesso accade che dati personali e non personali siano raccolti in un insieme di dati misti (es. i dati sanitari). Ove sia possibile una separazione potranno essere applicate le normative di riferimento per ciascun insieme di dati (personali e non personali), laddove invece, l’insieme di dati misti contenga dati che tra loro risultino “indissolubilmente legati”, l’art. 2, par. 2 del regolamento (UE) 2018/1807 prevede che si applichi il GDPR all’intero set di dati misti, anche nei casi in cui i dati personali ne rappresentino solo una minima parte.
La libera circolazione dei dati
Certamente, il dato comune tra i due regolamenti è la costante promozione del principio di libera circolazione dei dati all’interno del territorio dell’Unione europea, il quale però vede l’apposizione di limiti differenti:
- il regolamento sui dati non personali si basa sul principio del libero flusso transfrontaliero di dati personali e quindi sul divieto per gli Stati di imporre “obblighi di localizzazione” dei dati «(…) a meno che non siano giustificati da motivi di sicurezza pubblica nel rispetto del principio di proporzionalità». Inoltre, le norme del regolamento non si applicheranno qualora le attività di trattamento dei dati siano condotte al di fuori del territorio dell’UE.
- il regolamento sui dati personali dispone invece che la libera circolazione dei dati all’interno del territorio dell’Unione non possa essere limitata né vietata«per motivi attinenti alla protezione delle persone fisiche con riguardo al trattamento dei dati personali», e che le norme relative al trasferimento dei dati si applicheranno anche nelle interazioni verso paesi terzi ma impone importanti restrizioni al trasferimento dei dati personali verso Stati fuori dal territorio dell’UE o che non garantiscano un livello adeguato di protezione dei dati.
La portabilità dei dati
Entrambi i regolamenti disciplinano la portabilità dei dati mirando a facilitarne il loro trasferimento, e ciò al fine di evitare pratiche di “vendor lock-in”, che si verificano quando gli utenti non possono cambiare il fornitore di servizi perché i dati risultano bloccati nel sistema del fornitore.
Il diritto alla portabilità dei dati assume connotazioni differenti a seconda che si tratti di:
- dati personali, nei quali la portabilità si riferisce al rapporto tra l’interessato e il titolare del trattamento, quindi in un rapport “business-to-consumer”;
- dati non personali, nei quali invece la portabilità dei dati riguarda le interazioni “business-to-business” intercorrenti tra un utente professionale e un fornitore di servizi.
Open data
Il Considerando 9 della Direttiva (UE) 2019/1024 stabilisce che l’informazione del settore pubblico rappresenta una fonte straordinaria di dati che può contribuire al miglioramento del mercato interno e allo sviluppo di nuove applicazioni per i consumatori e le imprese.
Nello specifico, la direttiva fissa norme minime per favorire il riutilizzo dei documenti in possesso degli enti e delle imprese pubbliche, nonché dei dati della ricerca. Secondo il principio base introdotto dalla direttiva Open Data, i contenuti del settore pubblico accessibili in base alle norme nazionali sull’accesso ai documenti sono in linea di principio liberamente disponibili per il riutilizzo, a fini commerciali o non commerciali.
Gli enti pubblici che rendono disponibili i dati devono rispettare i principi di trasparenza, non discriminazione e non esclusività nella fornitura dei dati, garantendo altresì l’utilizzo di formati e modalità di diffusione adeguati.
La Direttiva (UE) 2019/1024 è stata recepita in Italia con il D.lgs. 8 novembre 2021, n. 200, che è entrato in vigore il 15 dicembre 2021. Con questo decreto, le pubbliche amministrazioni e gli organismi di diritto pubblico si impegnano a garantire che i documenti siano riutilizzabili sia a fini commerciali che non commerciali. Le richieste di accesso ai documenti devono essere esaminate entro 30 giorni e, qualora venga negato l’accesso, deve essere fornita adeguata motivazione.
In particolare, il D.lgs. n. 200/2021 stabilisce le basi per la promozione dell’apertura dei dati pubblici in Italia, incoraggiando il riutilizzo dei dati e favorendo la trasparenza e l’efficienza delle pubbliche amministrazioni.
Nei primi mesi del 2023, è stato inoltre pubblicato il Regolamento di esecuzione (UE) 2023/138 che identifica un elenco specifico di dati ad elevato valore e le relative modalità di pubblicazione e riutilizzo.
Per questi specifici set di dati è prevista l’accessibilità alle condizioni della licenza Creative Commons BY 4.0 o di una licenza aperta equivalente o meno restrittiva. Queste licenze consentono agli utenti di copiare, distribuire ed esporre pubblicamente i dati, nonché modificarli anche a fini commerciali, con l’obbligo di attribuire la paternità dei dati, fornire un collegamento alla licenza e indicare le eventuali modifiche apportate.
Data act
Il 27 novembre 2023 il Consiglio dell’Unione europea ha approvato il Data Act “norme di armonizzazione sull’accesso equo ai dati e sul loro utilizzo”, con lo scopo di regolare il riutilizzo dei dati rimuovendo gli ostacoli allo sviluppo dell’economia dei dati europea.
Alcuni punti chiave del Data Act includono:
- accesso e utilizzo dei dati, facilitando l’accesso ai dati e il relativo utilizzo da parte dei consumatori e delle imprese;
- interoperabilità dei dati e dei meccanismi e servizi di condivisione dei dati;
- adottare garanzie contro trasferimenti illeciti di dati;
- obblighi per i data holder quali: fornire informazioni complete sui dati generati, permettere agli utenti di accedere ai dati generati e condividere i dati generati con altri soggetti indicati dagli utenti.
Particolare approfondimento è poi dedicato alla disciplina dei segreti commerciali o c.d. trade secrets, al fine di preservarne la riservatezza, anche mediante l’utilizzo di modelli contrattuali raccomandati dalla Commissione, accordi di riservatezza, rigidi protocolli di accesso, standard tecnici e l’applicazione di codici di condotta.
Questa iniziativa promuove pertanto l’apertura, la trasparenza e l’accessibilità dei dati generati dall’uso di un prodotto o di un servizio correlato al relativo utente, mettendo a disposizione un maggior numero di dati a vantaggio delle imprese, dei cittadini e delle pubbliche amministrazioni.
L’obiettivo del Data Act è quello di creare un ambiente in cui i dati siano considerati una risorsa strategica per prendere decisioni informate, stimolare l’innovazione e migliorare la collaborazione tra le diverse istituzioni.
Spazio europeo dei dati sanitari
La Proposta COM (2022) 197 del 3 maggio 2022 sullo “spazio europeo dei dati sanitari” (c.d. European Health Data Space - EHDS) mira a creare uno spazio europeo comune per i dati sanitari, consentendo la condivisione sicura e interoperabile delle informazioni mediche tra i paesi membri dell’Unione Europea.
L'obiettivo principale è agevolare la ricerca, l’innovazione e l’efficacia delle politiche sanitarie, nonché promuovere la salute pubblica.
L’EHDS si propone di garantire un alto livello di protezione dei dati e la fiducia dei cittadini nella gestione delle informazioni personali, assicurando al contempo il rispetto delle normative sulla privacy e la sicurezza dei dati. Questa iniziativa promette di rafforzare la cooperazione tra gli Stati membri UE e di contribuire a un sistema sanitario europeo più integrato ed efficiente.
In attesa quindi che vada a compimento la proposta di regolamento sull’European Health Data Space stanno nascendo molte iniziative pubbliche e private finalizzate alla creazione di Data Base aperti per la condivisione dei dati sanitari.
_________________
L’attenzione ai dati che compongono i data set di addestramento, convalida e prova dei sistemi di AI permetterà non solo una maggiore aderenza ai requisiti imposti dall’AI ACT ma anche risultati di out put migliori; un algoritmo addestrato con dati di buona qualità non potrà che generare out put di qualità.
Rubrica "AI LEGAL, un prisma da comporre"
Leggi gli altri articoli presenti nella nostra rubrica dedicata.