AI modely, využití osobních dat a soulad s GDPR
- Datum: 06.01.2025
- Autor: Andrea Diligent
Na konci roku 2024 vydal Evropský sbor pro ochranu osobních údajů (EDPB) stanovisko, které přináší sadu doporučení, jak zajistit ochranu osobních údajů při vývoji a nasazení modelů umělé inteligence (AI).
Stanovisko obsahuje základní návod jednak pro dozorové úřady, jednak pro vývojáře a provozovatele AI modelů, jak posoudit a zajistit soulad s obecným nařízením o ochraně osobních údajů (GDPR).
Anonymita AI modelu
Evropský sbor primárně řešil, zda lze AI model trénovaný na osobních údajích považovat za anonymní. Anonymita totiž zásadně ovlivňuje, zda se na model vztahují pravidla GDPR. Pokud AI model není anonymní, musí být dodrženy právní povinnosti pro zpracování osobních údajů, jako je získání právního základu pro zpracování, ochrana práv subjektů údajů nebo minimalizace rizika identifikace. Anonymita by naopak znamenala, že GDPR se na model nevztahuje, což má významné dopady na právní a technické požadavky při vývoji a zavádění AI.
Existují AI modely, které jsou trénované tak, aby poskytly mj. i určitý údaj o konkrétní osobě. Pokud se zeptáte na datum narození slavného herce, tak vám tuto informaci poskytnou. Tyto modely za anonymní považovat nelze v zásadě nikdy. EDPB se proto při posuzování anonymity soustředí na AI modely, které nejsou určeny k poskytování osobních údajů, nicméně při jejich trénování osobní údaje byly použity.
Doposud ohledně této problematiky panovaly nejasnosti. Např. hamburský dozorový úřad uvedl, že velké jazykové modely (LLM) vůbec neobsahují osobní údaje, protože informace v nich obsažené jsou rozloženy na anonymní tokeny. AI model pak skládá tokeny do smysluplných výstupů na základě pravděpodobnostních vzorců. Takové zacházení s daty dle německého úřadu neumožňuje přímou identifikaci jednotlivců.
S tímto názorem se však EDPB neztotožnil. Proč?
Riziko extrakce osobních údajů
Evropský sbor uvedl, že anonymitu AI modelů nelze předpokládat automaticky. Přestože AI model nebude primárně určen k poskytování informací o konkrétních lidech, existuje riziko, že dojde, ať už úmyslně či nikoliv, k extrakci osobních údajů z tréninkových dat. Dokonce i modely, které neobsahují explicitní osobní údaje, mohou skrývat riziko nepřímé identifikace, například prostřednictvím inference nebo regurgitace dat.
Co tyto pojmy znamenají?
Útočník může model opakovaně dotazovat na konkrétní scénáře a z odpovědí odvodit, že určitá osoba byla zahrnuta v tréninkových datech. Pokud model trénovaný na lékařských datech odpovídá přesnými detaily o vzácném onemocnění, může z toho být odvozeno (tzv. inference), že konkrétní pacient byl v tréninkovém souboru.
K regurgitaci dochází za situace, pokud byl jazykový model trénován např. na e-mailech obsahujících osobní údaje a na základě promptu model vrátí část reálného e-mailu.
EDPB proto uzavřel, že AI model nelze považovat automaticky za anonymní, aniž by bylo provedeno jeho další testování a prokazování odolnosti vůči útokům na zpětnou identifikaci.
Opatření k zajištění anonymity AI modelů
Evropský sbor uvedl, že pro zajištění anonymity AI modelu je nezbytné minimalizovat pravděpodobnost znovuzískání osobních údajů. Mezi klíčová opatření, která mohou pomoci při hodnocení anonymity AI modelu, patří:
Minimalizace nebo úplné vyloučení osobních údajů již při výběru tréninkových dat. Například pro vývoj AI modelu, který zpracovává zákaznické recenze, se použijí pouze veřejně dostupné a anonymní recenze, nikoli interní databáze obsahující osobní údaje zákazníků (e-mailové adresy apod.).
Pseudonymizace nebo anonymizace dat a jejich omezení na minimum. Např. v tréninkovém datasetu pro model zdravotní péče jsou odstraněny všechny přímé identifikátory (jméno, adresa) a jsou nahrazeny pseudonymizovanými ID. Navíc se v rámci trénování AI uchovávají pouze atributy nezbytné pro naplnění účelu AI modelu (např. věk namísto data narození).
Implementace metod zvyšujících anonymitu. Během tréninku jazykového modelu je implementována např. metoda differential privacy, která přidává statistický šum k údajům, aby bylo znemožněno zpětné získání původních dat i v případě útoku.
Redukce rizik získání osobních údajů v rámci výstupů z AI modelu. Model chatbotu, který odpovídá na zákaznické dotazy, je nakonfigurován tak, aby odmítl vracet citlivé informace, jako jsou adresy nebo osobní identifikátory, i kdyby byly uživateli explicitně či nepřímo požadovány.
Testování odolnosti vůči útokům. To může spočívat například v ověření, zda model nedokáže generovat konkrétní sekvence dat ani při sofistikovaně formulovaných dotazech.
Ověření účinnosti ochranných opatření, jako je zjištění, zda přidaný šum dostatečně zabraňuje zpětnému získání osobních údajů.
Pravidelné audity, zda navržený model splňuje plánované standardy.
Vedení řádné dokumentace, včetně vyhodnocení a aktualizace posouzení vlivu na ochranu osobních údajů (DPIA), popisu technických a organizačních opatření, vyjádření DPO, reportů o způsobech a výsledcích testování apod.
EDPB zároveň upozorňuje, že jde pouze o příkladmý výčet opatření. Každý případ a každý AI model musí být hodnocen individuálně. Jiná opatření bude nutno aplikovat na veřejné AI modely přístupné neomezenému počtu uživatelů, kteří mohou použít řadu metod k pokusům o extrakci osobních údajů, jiná opatření na interní AI model dostupný pouze zaměstnancům.
I přes všechny zavedené instrumenty nemusí být anonymita konkrétního modelu dosažena, případně ani chtěna, což je obzvláště relevantní u modelů, jejichž cílem je zpracování osobních údajů i na výstupu. U AI modelu, který zpracovává životopisy, motivační dopisy a výsledky testů uchazečů, aby vyhodnotil jejich vhodnost na konkrétní pozici, nebude anonymita žádoucí. V takových případech bude klíčové dodržení právního rámce ochrany osobních údajů.
Oprávněný zájem jako právní titul ke zpracování dat v AI
Při tréninku, vývoji i využívání neanonymního AI modelu je nezbytné splnění povinností podle GDPR, včetně existence tzv. právního titulu ke zpracování (čl. 6 GDPR). Právní titul je konkrétní právní důvod, který ospravedlňuje zpracování osobních údajů a zajišťuje, že je v souladu s právními předpisy.
Právním titulem, který v tomto případě připadá v úvahu především, je oprávněný zájem správce nebo třetí strany. To vyvolává diskuse o použitelnosti oprávněného zájmu při vývoji a používání AI modelů. Otázkou bylo, zda například oprávněný zájem vývojáře trénovat AI model nebo zájem uživatele tento model nasadit může být dostatečný pro zpracování údajů konkrétních osob, aniž by bylo nutné získat výslovný souhlas takových osob nebo s nimi uzavřít smlouvu.
EDPB jasně konstatoval, že oprávněný zájem může být právním titulem pro zpracování osobních údajů prostřednictvím AI modelů, pokud správce provede standardní tříkrokový test:
Identifikace oprávněného zájmu: Správce musí prokázat a doložit, že jeho zájem je zákonný, jasně definovaný a reálný (např. zavedení konverzačního agenta asistujícího uživatelům webových stránek).
Posouzení nezbytnosti zpracování: Zpracování musí být nezbytné pro dosažení daného zájmu a nesmí existovat méně invazivní alternativa (např. zlepšování bezpečnostních mechanismů pomocí analýzy uživatelských dat).
Provedení balančního testu: Správce musí zhodnotit, zda nad jeho zájmem nepřevažují práva a svobody dotčených jednotlivců. Přitom bude třeba zohlednit řadu kritérií. Zda osobní údaje již byly veřejně dostupné, vztah mezi subjektem údajů a správcem (jestli vůbec nějaký existuje), povahu dané služby nebo zdroj, z jakého jsou osobní údaje získány či očekávání subjektů údajů.
Očekávání dotčených osob
Pro běžného uživatele může být složité pochopit, jakým způsobem jsou jeho osobní údaje v rámci modelů umělé inteligence využívány. Právě proto je při zpracování osobních údajů nezbytné zohlednit, zda dotčené osoby mohou rozumně očekávat, že jejich údaje budou takto využity.
EDPB zdůrazňuje, že pouhé uvedení informací o tomto účelu zpracování v obecných zásadách ochrany osobních údajů nestačí. Organizace musí podniknout další kroky, aby zajistily, že jednotlivci skutečně chápou, jak budou jejich údaje při vývoji či nasazení AI zpracovány.
Ve fázi vývoje AI modelu závisí rozumná očekávání subjektů údajů například na tom, zda:
byly osobní údaje zveřejněny samotným subjektem údajů,
subjekt poskytl údaje přímo správci, například v rámci využívání služby, nebo
správce získal údaje z jiných zdrojů, od konkrétní třetí strany nebo pomocí web scrapingu.
Ve fázi nasazení AI modelu je důležité zohlednit očekávání subjektů údajů v kontextu schopností modelu. U modelů, které se přizpůsobují na základě vstupů od uživatelů, může být relevantní zvážit, zda si uživatelé byli vědomi, že poskytnutím osobních údajů dosáhnou přizpůsobení služby přímo jim, nebo celkového zlepšení modelu pro všechny uživatele.
Jak prokázat soulad AI modelu s GDPR? Jaké jsou důsledky nezákonného zpracování osobních údajů v AI? Odpovědi na tyto otázky naleznete v plném znění článku na GDPR.cz.