Web scraping neboli těžení informací z internetu
- Datum: 05.12.2024
- Autor: Beáta Fecáková
Pojem web scraping se používá pro získávání velkého množství textových dat z internetu, například pro trénování Large Language Modelů (LLM) jako typu umělé inteligence. Je možné data plošně stahovat v souladu s GDPR?
Jako web scraping nebo data scraping se označuje automatizovaný sběr a zachycování informací z webových stránek. Kromě shromažďování informací pro trénování algoritmů se tato technika používání například proto, aby soukromé společnosti shromažďovaly dotazy a stížností (potenciálních) zákazníků ze sociálních médií a stránek s recenzemi. Tato technika také umožňuje sledovat online příspěvky o společnosti, aby na ně mohla reagovat v rámci řízení reputace, prodeje nebo marketingu.
Jedna z nejznámějších aplikací, která spočívá na získání dat právě prostřednictvím scrapingu, je Clearview AI. Ta na základě volně dostupných dat vytváří software pro rozpoznávání obličejů, nebo také databáze Open AI, která se užívá pro trénink LLM modelů.
Prostřednictvím scrapingu můžeme v krátkém čase shromáždit velké množství dat, včetně osobních údajů. Na standardně prováděný web scraping proto dopadá obecné nařízení o ochraně osobních údajů (GDPR).
Co to znamená v praxi?
Při získávání dat plošným stahováním z internetu musíte obvykle dodržet pravidla stanovená GDPR, zejména mít dostatečný právní základ proto toto zpracování. Pokud však shromažďujete údaje z otevřených zdrojů jako jednotlivec, pro osobní účely nebo účely domácnosti, GDPR se na vás nevztahuje.
Web scraping a oprávněný zájem podle GDPR
GDPR se nevztahuje pouze na evropské společnosti. Stanoví také pravidla zpracování osobních údajů i pro společnosti mimo Evropskou unii, pokud nabízejí zboží nebo služby subjektům údajů v EU nebo sledují chování zúčastněných stran v rámci EU. Pro nelimitovaný web scraping (bez předem stanovených podmínek) je téměř nemyslitelné, aby nezískal nějaké osobní údaje obyvatel EU. Proto se na web scraping použije GDPR.
Aby mohl být celý proces v souladu s GDPR, doporučuji již ve fázi vývoje (Privacy by Design) zakomponovat základní principy zpracování údajů uvedené v čl. 5 odst. 1 GDPR. Jedná se zejména o zásady zákonnosti, korektnosti, bezpečnosti, minimalizace či transparentnosti zpracování. Potíže však mohou nastat právě se zásadou transparentnosti, podle které musíte o zpracování údajů účinně informovat všechny dotčené osoby a také se ujistit, že nemáte nepřiměřené množství sesbíraných údajů (dodržení zásady minimalizace).
Na začátku shromažďování údajů pomocí scrapingu je nezbytné definovat dostatečný právní základ pro zpracování osobních údajů. To má na starosti vždy správce, který určí účel a prostředky zpracování. Není proto možné použít totiž již stávající základ, na základě kterého jsou osobní údaje či data obecně zveřejněná. Pokud web scraping provozuje soukromá společnost nebo jednotlivec, nabízí se zejména použití oprávněného zájmu podle článku 6 odst. 1 písm. f) GDPR.
Při samotném použití oprávněného zájmu je potřeba splnit podmínky balančního testu, a to kumulativně. Správce tedy musí splnit všechny tři podmínky najednou:
Správce musí jasně definovat oprávněný zájem na zpracování osobních údajů vytěžených z internetu.
Zpracování musí být nezbytné pro naplnění definovaného oprávněného zájmu.
Zásah do základních práv a svobod subjektu údajů nesmí převažovat nad oprávněným zájmem správce.
Správce by měl taky zavést filtraci pro nepotřebné data a provést výmaz těchto shromážděných dátdat ihned po jejich získaní nebo po identifikaci. Důležitou součastí je zdokumentovaní balančního testu, kde by mělo dojít k zhodnotení všech již spomenutých parametrů.
Oprávněný zájem na zpracování údajů pro komerční účely
Některé dozorové úřady, typicky ten nizozemský, zastávají názor, že podmínkou aplikovatelnosti oprávněného zájmu musí být určitý způsob reflexe společenského zájmu, nebo musí vyplývat ze zákona. Podle nizozemského úradu nelze použít oprávněný zájem ke komerčním zájmům.
Takhle argumentoval Nizozemský dozorový úřad ve sporu s Nizozemskou královskou tenisovou asociací, které v roce 2019 udělil pokutu ve výši 525.000 EUR pro protiprávní sdílení osobních údajů svých členů se dvěma sponzory za marketingové účely.
V tomto případě došlo k sdílení osobních údajů členů tenisové asociace na základě oprávněného zájmu za účelem jejich monetizace. Tenisová asociace argumentovala, že prostřednictvím „výměny“ osobních údajů a následným obdržením příspěvku od sponzorů umožní členům hrát tenis za přijatelnou a dostupnou cenu. Úřad ale dospěl k závěru, že v tomto případě šlo výhradně o zájem komerční povahy, a proto oprávněný zájem podle GDPR nelze uplatnit. Podle úřadu musí oprávněný zájem „patřit k právu, být zákonný a zakotvený v zákoně“, což zájem, které tenisová asociace použila pro marketing postrádala.
Použití oprávněného zájmu na jakýkoliv komerční účel není dle nizozemského úřadu možné ani s pozitivným balančným testem, neboť podle úřadu základní práva a svobody subjektu údajů převažují nad ryze komerčním zájmem správce.
Soudní dvůr EU: I komerční cíl může být oprávněným zájmem správce
Striktní postoj úřadu překvapil jak odbornou veřejnost, tak i samotnou Evropskou komisi. Případ byl předložen Amsterdamskému okresnímu soudu, který se v roce 2022 obrátil na Soudní dvůr EU s předběžnými otázkami, aby vysvětlil, jak má být vykládán pojem „oprávněný zájem“. Ve věci C-621/22, Koninklijke Nederlandse Lawn Tennisbond, položil Amsterdamský soud otázku, zda lze za oprávněný zájem považovat čistě obchodní zájem a zájem na projednávané věci (tj. sdílení osobních údajů s třetí stranou za úplatu bez souhlasu subjektu údajů)? A pokud ano, za jakých okolností? Odpověď soudního dvoru naleznete v plném znění článku na GDPR.cz.
Web scraping a další GDPR povinnosti
Když se rozhodnete své scrapovaní dat z internetu opřít o oprávněný zájem dle čl. 6 odst.1 písm. f) GDPR, kromě přípravy balančního testu jste také o tomto zpracování povinni informovat subjekty údajů, jejichž osobní údaje jste právě získali. Rozsah poskytovaných informací a lhůtu pro jejích poskytnutí upravuje čl. 14 GDPR. V případě plošného stahování dat bude obvykle přímé informování subjektů údajů obtížné. Proto lze zvažovat uplatnění některé z výjimek z informační povinnosti dle čl. 14 odst. 5 GDPR. Její splnění je ale správce povinen v konkrétním případě doložit a odůvodnit.
Musíme také připomenout další základní principy GDPR, jako je minimalizace a přesnost údajů či jejich zabezpečení. Tyto principy je nutné uplatnit, a dokumentovat, již od počátku, při přípravě a spuštění data scrapingu.