Velké jazykové modely (LLM) a GDPR: Ochrana dat v AI systémech

S rostoucím využíváním velkých jazykových modelů (LLM) v systémech umělé inteligence nabývají na významu otázky týkající se souladu s předpisy na ochranu údajů, zejména s GDPR. Úřady pro ochranu osobních údajů radí, jak na to.

LLM, jako jsou modely GPT od OpenAI, zpracovávají vstupy v přirozeném jazyce a generují výstupy, často v rámci větších AI systémů. To vyvolává zásadní otázky, jak LLM nakládají s osobními údaji a jak se na jejich uložení, trénink a provoz vztahují pravidla obecného nařízení o ochraně osobních údajů (GDPR).

Diskusní materiál od hamburského komisaře pro ochranu dat a svobodu informací z 15. července tohoto roku osvětluje aplikaci GDPR na LLM a nabízí klíčové poznatky a praktické pokyny pro organizace, které tyto modely umělé inteligence nasazují. Tento článek se zabývá technickými a právními aspekty LLM právě v kontextu ochrany dat a zkoumá důsledky pro firmy a veřejné orgány, které využívají nebo vyvíjejí systémy založené na LLM.

Porozumění LLM a zpracování osobních údajů

Klíčovou otázkou při posuzování LLM podle GDPR je určit, zda ukládají či jinak zpracovávají osobní údaje. LLM jsou součástí širšího AI systému, který obvykle zahrnuje další prvky, jako jsou uživatelská rozhraní, filtry pro vstupy a výstupy, případně externí databáze. Inferenční proces, při kterém LLM generuje výstupy na základě promptů, může někdy zahrnovat i informace související s fyzickými osobami, často tedy právě osobní údaje ve smyslu definice GDPR.

Technické součásti LLM: Tokenizace a embedding

LLM rozdělují vstupní text na menší jazykové fragmentynazývané tokeny. Tyto tokeny jsou následně převedeny na číselné hodnoty a zpracovávány jako součást tréninkového a inferenčního procesu. Například věta „Ukládá LLM osobní údaje?“ je rozdělena na tokeny a prezentována matematicky. Tento proces abstrakce znamená, že LLM neukládá text ve své původní podobě, ale jako fragmentované číselné reprezentace.

LLM ukládají naučené vztahy mezi těmito tokeny v silně abstraktní podobě. Tyto vztahy, známé jako embeddingy, umožňují LLM generovat koherentní jazykový výstup, aniž by ukládaly konkrétní osobní informace. Tato abstrakce snižuje pravděpodobnost, že by v modelu zůstaly zachovány původně použité osobní údaje.

Odpovědnost za požadavky subjektů údajů

Jedním z kontroverzních aspektů LLM chatbotů je otázka, kdo je považován za správce osobních údajů, a kdo tedy odpovědný za požadavky subjektů údajů, např. uplatnění práva na přístup. Podle zprávy hamburského úřadu by odpovědnost za zpracování údajů měly nést organizace, které LLM chatboty v praxi nasazují, nikoli poskytovatelé modelu.

Pokud je však LLM chatbot nabízen k využitím přímo spotřebitelům, vzniká otázka, zda by právě jednotlivci používající tento nástroj měli být považováni za správce zpracování jejich promptů a výstupů. Podle GDPR mohou jednotlivci za určitých okolností působit jako správci údajů, ale v mnoha případech se na takové zpracování vztahuje tzv. "domácí výjimka", což znamená, že tyto aktivity nespadají pod GDPR.

Tato výjimka ale může s ohledem na rozsah údajů, které takovéto nástroje zpracování, vést k tomu, že by za související zpracování osobních nebyl odpovědný nikdo. To by samozřejmě vytvořilo výraznou mezeru v ochraně osobních údajů.

Klíčové teze o LLM a souladu s GDPR

Zpráva hamburského dozorového úřadu uvádí tři klíčové teze týkající se vztahu mezi LLM a GDPR:

  • Uložení dat v LLM není zpracováním: Samotné uložení osobních údajů v LLM na serveru není považováno za zpracování dat podle článku 4(2) GDPR. LLM totiž obvykle neukládají osobní údaje způsobem, který by aktivoval povinnosti podle GDPR. Nicméně pokud LLM zpracovává osobní údaje v rámci komplexnějšího AI systému, fungování a výstupy tohoto systému musí být v souladu s GDPR.

  • Práva subjektů údajů se nevztahují na LLM: Práva subjektů údajů, jako je právo na přístup, výmaz či opravu osobních údajů, nelze uplatnit přímo na LLM samotné, protože neukládá osobní údaje ve formě, která by se vztahovala na identifikovatelné jednotlivce. Tato práva se však stále vztahují na vstupní a výstupní data zpracovaná AI systémem využívajícím LLM.

  • Trénink LLM a soulad s ochranou dat: Použití osobních údajů při trénování LLM musí být v souladu s GDPR. I když LLM během tréninku osobní údaje abstrahují, organizace musí zajistit, že mají pro takovéto zpracování údajů dostatečný právní základ, a během vývoje modelu musí rovněž dodržovat další práva subjektů údajů.

Ukládání osobních údajů v LLM

Podle GDPR jsou „osobními údaji“ jakékoliv informace vztahující se k identifikované nebo identifikovatelné fyzické osobě. Evropský soudní dvůr (CJEU) rozhodl, že za osobní údaje musí být považovány i informace jako IP adresy, identifikační čísla nebo odpovědi na testovací otázky, pokud je lze spojit s jednotlivcem.

V LLM jednotlivé tokeny představují jazykové fragmenty a neobsahují specifické informace o jednotlivcích. Dokonce ani embeddingy v LLM nepředstavují konkrétní charakteristiky nebo odkazy na fyzické osoby. Podle judikatury CJEU tedy osobní údaje nejsou v LLM uloženy, protože chybí přímé spojení mezi daty a jednotlivci.

Podobě se vyjádřil i dánský úřad pro ochranu osobních údajů, podle kterého neobsahuje samotný AI model žádné osobní údaje. Je to pouze výsledek zpracování osobních údajů. Jedná se do jisté míry analogii ke statistické zprávě, která také není považována za dokument obsahující osobní údaje, pokud obsahuje pouze závěry a agregovaná data, která jsou výsledkem statistické analýzy.

Princip spravedlnosti a prevence rizik

Zásada spravedlnosti podle GDPR zahrnuje nejen transparentnost a zákonnost zpracování, ale také povinnost zajistit, že organizace nepřenášejí rizika spojená s technologií na koncové uživatele. To je zásadní právě v případě LLM chatbotů, kde by mohlo dojít k tomu, že uživatelé neúmyslně zadají osobní údaje, které se poté stanou součástí modelu. EDPB ve své zprávě jasně uvádí, že poskytovatelé chatbotů by měli předpokládat, že k takovému zadání osobních údajů dojde. A proto nesou odpovědnost za to, aby model zpracovával tato data v souladu s GDPR.

Praktické důsledky pro organizace

Jaké jsou klíčové důsledky pro organizace nasazující LLMs?

  • Odpovědnost za konečné nastavení
  • Provoz LLM třetích stran
  • Zajištění spravedlivého zpracování

Před odpovědností za zpracování údajů v LLM nelze utéci

Nasazování LLM představuje složité výzvy i pro ochranu osobních údajů. Aby byl zajištěn soulad s GDPR, musí být organizace využívající či nasazující LLM zodpovědné za související zpracování osobních údajů a za zajištění práv subjektů údajů. Princip spravedlnosti vyžaduje, aby odpovědnost za ochranu osobních údajů nesli provozovatelé těchto technologií a nikoli jednotliví uživatelé. To zajišťuje spravedlivé a férové zpracování údajů a předchází nechtěnému přenesení rizik na uživatele.

Článek byl publikován také na GDPR.cz

Chcete získat dárek k narozeninám?