Před několika dny vyšlo najevo, že Google systematicky poslouchá zvukové soubory a záznamy pořízené inteligentními reproduktory Google Home a aplikací Google Asistant. Nejenže je poslouchá, ale dává je k analýzám svým zaměstnancům, a to přes to, že obsahují citlivé údaje o jednotlivých uživatelích. Zarážející je také to, že některé záznamy neměly být vůbec pořízeny.
Není to poprvé, co je Google skloňován v souvislosti s únikem dat a jejich dalším použitím. Tento technologický gigant o nás má tolik informací, že je zde reálná obava, jak s nimi nakládá a kdo všechno s nimi pracuje. To, že jsou uživatelská data cenným artiklem asi netřeba připomínat.
Okay Google
Google představil zařízení Google Home v roce 2016. Od té doby si jej do svých domácností a kanceláří instalovalo několik miliónů lidí. Chytrý asistent, který pomocí hlasu dokáže ovládat některé další technologie nebo zjišťovat informace z dalších zdrojů, je velmi žádaný a získal si svou jednoduchostí mnoho uživatelů.
Stačí říct „Okay Google, jak rychle se dostanu do kanceláře?“ Za několik okamžiků z reproduktoru dostávám informaci o dopravní situaci. Obdobně to funguje v aplikaci Google Asistent. Jednoduché a prosté řešení, tedy, pokud by tu nebylo jedno „ale“…
Vše, co do přístroje a aplikace diktujeme, odchází ve stejné podobě na servery Google. Tam se náš dotaz převede na text, následně systém vyhledá odpověď, převede ji na hlas a pošle zpět do vybraného zařízení, kde nám ji hlas Google přednese.
Tedy vše, co říkáme chytrým asistentům Google, je zaznamenáno a uloženo. Ne každý si je vědom toho, že k tomu dal Googlu souhlas. Je to zcela jasně uvedeno v podmínkách společnosti Google, které jsme před prvním použitím zařízení či aplikace museli odsouhlasit. Co už se v podmínkách nedočteme, je to, že Google umožňuje svým zaměstnancům tyto záznamy a výňatky z nich odposlouchávat.
Povolené naslouchání
Po celém světě sedí tisíce zaměstnanců Google v kancelářích se sluchátky na uších a analyzují získané záznamy, díky kterým mají vylepšit vyhledávací nástroje. Zpravidla se nezajímají o to, co říkáme, ale analyzují způsob, jak to říkáme.
Google používá spoustu inteligentních a samoučících algoritmů, které ale v některých případech prostě nestačí a Google má problém rozpoznat, co bylo určitým hlasovým příkazem myšleno. Když tato situace nastane, předá Google záznam některému ze zaměstnanců, aby analyzoval, co příkaz obsahoval. Ti k tomu použijí nástroj Google Crowdsource.
Aby se předešlo tomu, že nahrávky budou ztotožněny s jejich majiteli, tedy s námi uživateli, je u nich smazáno uživatelské jméno a je nahrazeno anonymním číslem. Zaměstnanec po jejich obdržení dvojí kontrolou ověří, zda byl hlas ženský, mužský nebo dětský a co bylo řečeno. Zapíše také každý nádech, povzdychnutí, kašel nebo další zvuky, které v záznamu rozpoznají. V aplikaci vygenerují skript, který společně s nahrávkou uloží.
Odhalené úniky
Společnost VRT NWS se dostala k více jak tisícovce záznamů a díky jejich poslechu dokázala u několika vybraných ztotožnit majitele hlasu. Zašli až tak daleko, že dali jeden ze záznamů poslechnout páru z Waansmesteru, který v nich rozpoznal hlas svého syna a vnuka.
Jak to dokázali? Naprosto triviálně. Záznamy obsahovaly mnoho citlivých informací, mimo jiné jména a adresy. Stačilo si je napsat, vyhledat jejich majitele a konfrontovat je s nahrávkou.
To ale není vše, co se jim podařilo odhalit. V oné tisícovce záznamů našli 153 rozhovorů, které neměly být zaznamenány, respektive pro pořízení záznamu nebyla vyřčena potřebná věta „Okay Google”. Šlo o neúmyslně pořízené záznamy konverzací z ložnic, rozhovorů rodičů s dětmi, partnerské výměny názorů nebo o pracovní rozhovory s celou spoustou důvěrných informací.
K pořízení těchto nahrávek došlo chybným vyhodnocením příkazu, kdy někdo v místnosti řekl v běžné větě výraz, který mohl připomínat „Okay Google“ nebo chybným stiskem tlačítka na telefonu.
Je zvláštní, co vše bylo v nahrávkách nalezeno. V některém ze záznamů byl údajně hlas ženy, která se nacházela v určité úzkosti (násilí), v jiném zase někdo podrobně popisoval své zdravotní potíže. Mnoho záznamů směřovalo k hledání pornografie na internetu.
Už jen sama informace o tom, že v Google slyší náš hlas, nepotěší, ale to, že se někdo mimo Google dostal k našim záznamům je alarmující. Zarážející je také to, co vše v nich bylo a že se jednalo i o záznamy, které Google pořídit vůbec neměl, tedy byly pořízeny v rozporu s podmínkami, ke kterým jsme dali souhlas.
Většina expertů na kybernetickou bezpečnost se shoduje, že je to šokující zjištění, které v hlubším kontextu může vést ke zneužívání informací pořízených kdekoliv, tedy i v ordinacích lékařů, u policie či soudu nebo v místech, kde se pracuje s citlivými a soukromými informacemi.
Rozvoj na úkor soukromí
Reakce společnosti Google na tato zjištění se samozřejmě opírá o argument, že tato práce, tedy práce s nahrávkami, je zásadní pro rozvoj nových technologií a služeb. Společnost přiznala, že na nahrávkách pracují nejen jejich kmenoví zaměstnanci, ale že je poskytuje k analýzám i externím odborníkům, kteří působí po celém světě. Zdůraznila, že cílem je zlepšit technologii rozpoznání řeči.
Google také uvedl, že jejich jazykoví experti posuzují pouze 0,2 procenta všech audio fragmentů. Ty prý nejsou spojeny s žádnými osobními nebo identifikovatelnými informacemi o uživatelích.
Hey Siri
Ať už se na vyjádření společnosti Google podívám z jakéhokoliv směru, jsem si naprosto jist, že je zde mnoho otázek bez odpovědi. Jak jsem uvedl na začátku, není to poprvé ani naposledy, co čteme o zneužívání uživatelských dat a údajů společností Google.
Ale buďme objektivní. Není tomu tak dávno, co se ukázalo, že i Alexa, která patří Amazonu, pracuje s daty obdobným způsobem, a i u nich dochází k narušování soukromí uživatelů. Dokonce na internetu pořídíte rušičky, které zajišťují, že vás Alexa neslyší, když nechcete – no, nekupte to!
Samozřejmě, že je na místě otázka: „A co Apple a její Siri?“ Obdobně jako produkty Google a Amazon i virtuální asistentka Siri v produktech vyráběných společností Apple, používá hlasové dotazy ve svém uživatelském rozhraní.
Technologie rozpoznání řeči Siri využívá sofistikované techniky strojového učení, včetně konvolučních neuronových sítí a dlouhodobé a krátkodobé paměti. Hodně zjednodušeně řečeno se rozpoznání hlasu odehrává přímo v hardwaru jednotlivých zařízení a k serverům jsou dotazy zasílány ve formě textu. Po vyhodnocení jsou odpovědi ve formě textu zaslány do zařízení a Siri je následně předčítá. Některé odpovědi jsou již předdefinované, a dotaz tak ani není na servery zasílán.
Přestože je Siri stále v doslechu, aktivuje se až na základě vyslovení oněch dvou kouzelných slov „Hey Siri“. Nejdříve je pomocí Deep Neural Network (DNN) ověřen hlas. Posléze systém vypočítá, s jakou pravděpodobností jsme opravdu vyslovili příkaz „Hey Siri“. Pokud je pravděpodobnost dostatečně vysoká, začne Siri reagovat.
Zdá se tedy, že chytrá asistentka Applu je na tom s ochranou výrazně lépe. Pravda, textové záznamy jsou rovněž ukládány a slouží k rozvoji samotné technologie. Nejsou však pořizovány náhodně a z pravidla nejsou na serverech uložena data, která byla pořízena z naší běžné komunikace. Apple pracuje jen s dotazy, které Siri obdržela, a navíc s naším souhlasem, který jsme mu v podmínkách o jejím používání potvrdili. Samozřejmě anonymně.
Pokud navíc sledujete Apple déle, tak víte, že je to on, kdo je lídrem v oblasti bezpečnosti uživatelských dat. Nejednou stál Apple před soudem a byla tlačen ke zveřejnění uživatelských dat, a to jak přímo ze zařízení, tak ze serverů, kde jsou data ukládána. Apple několikrát soudy, a potažmo Kongres, přesvědčil o tom, že zákaznická data jsou na jeho serverech šifrována a ani sám Apple není schopen je dešifrovat podle jednotlivých ID účtů.
Nikdo není dokonalý
Samozřejmě, že i Apple mé své maléry spojené s bezpečností. Určitě si pamatujete, jak čelil nařčení z nedostatečného zabezpečení iCloudu, kdy byly napadeny účty několika celebrit a hackeři následně zveřejnili citlivé akty.
Šetřením se ukázalo, že napadené účty neměly dvoufaktorové ověřování iCloudu, a navíc, že byly zabezpečeny slabými hesly. Hackerům pak stačilo použít programovací jazyk Python a tipovat náhodná hesla na stránce aplikace Find My Phone. Apple po prověření útoku autorizaci upravil tak, že se po pátém nesprávně zadaném hesle účet zablokuje.
Mějte proto na paměti, že nikdo není dokonalý. Je jen na nás, jaké chytré asistenty si do domácnosti pustíme a jak je používáme. Osobně jsem dalek tomu, že bych chtěl používat některý z produktů od Google a na jejich aplikace mám podobný názor. Ani Alexa mě neoslovila. Nejen pro technologii, kterou používají, ale právě proto, že jejich vztah k datům a získaným informacím je, řekněme, kontroverzní. Navíc mi to „Okay Google“ nějak nechce z pusy.
Článek byl publikován v příspěvku „Google poslouchá“ na iPure.cz.