Využívají strachu o milovaného člověka nebo obav z nadřízeného. A mají k dispozici umělou inteligenci. S její pomocí dokážou podvodníci simulovat hlas nebo podobu jakéhokoli člověka. Investigace.cz mapuje, jak nová generace podvodů funguje. 

Když loni v červenci zazvonil Američance Sharon Brightwell mobilní telefon, číslo na displeji ukazovalo, že volá její dcera. Bylo to jako zlý sen. V telefonu se ozval známý hlas její dcery. Zajíkavě jí vysvětlovala, že právě autem srazila těhotnou ženu a potřebuje naléhavě pomoc. Potom si vzal telefon do rukou muž, který se představil jako právník její dcery a vysvětlil jí, že dcera naléhavě potřebuje patnáct tisíc dolarů, aby mohla zaplatit kauci.

Nakonec se domluvili, že matka ze svého účtu vybere peníze a předá je v krabici pomocníkovi právníka, který si pro ně přijede. Jak se domluvili, tak se stalo. A tak Sharon Brightwell přišla o své peníze, stala se totiž obětí podvodu využívajícího umělou inteligenci a takzvaný deepfake hlasu.

Raketový nárůst podvodů

Podle statistik počet pokusů o podobný podvod od roku 2023 raketově vzrostl – o tři tisíce procent. Vytvořit takový deepfake je totiž jednoduché a levné. To, co dříve dělala jen velká filmová studia, zvládne dnes útočník za pár minut s využitím běžně dostupných internetových služeb nebo s pomocí vlastního počítače. 

Základní technologie jsou přitom v podstatě dvě. Tou první je syntéza hlasu. Syntetizátory jsou založeny na dvou principech: text-to-speech, takzvaný TTS, převod textu na řeč, kdy se vytvoří model schopný generovat hlas oběti dle textového vstupu, a konverze hlasu, kdy útočník mapuje svůj hlas na nahrávku oběti. „Z důvodu kvality výstupů se pro útoky používá téměř výhradně TTS a jde o předem připravenou nahrávku,“ vysvětluje postup útoku pro server investigace.cz docent Kamil Malinka z Fakulty informačních technologií VUT v Brně.

Dnes stačí přibližně 3 až 10 sekund vašeho hlasu, aby z něj AI zvládla vytvořit model, který říká cokoli, co si přejete. Pro jistotu však útoky probíhají podle zavedeného scénáře – oběť slyší krátký emotivní projev blízkého, načež hovor přebírá „právník“ nebo „policista“ a interaktivní část hovoru už pak nevyžaduje napodobení hlasu ad hoc. Obětí právě tohoto typu útoku se stala Sharon Brightwell.

Druhou technologií, stále častěji využívanou pro kyberpodvody, je generování umělého videa. AI se naučí tvář i pohyby falšované oběti a buď je generuje přímo, nebo synchronizuje pohyby rtů s podvrženým zvukem. Zatím neumí dokonale udržet konzistenci tváře, ale to je jen otázka času. 

Obětí takového podvodu se stal finanční pracovník hongkongské pobočky britské inženýrské firmy Arup. V lednu 2024 se připojil k videokonferenci, na níž viděl svého finančního ředitele i další kolegy z londýnské centrály. Všichni ale byli deepfake – útočníci použili veřejně dostupná videa k natrénování AI modelů. Výsledkem bylo patnáct převodů v celkové hodnotě 25,6 milionu dolarů (přibližně 530 milionů korun). Také v České republice máme s těmito útoky zkušenosti, jejich cílem se stala například společnost GymBeam. Nutno dodat, že útok byl neúspěšný.

Přímé podvody jsou ovšem jen jednou z možností, jak zneužít technologii deepfake v kyberzločinu. Stále častěji se setkáváme s případy, kdy jsou deepfakes použity pro obcházení biometrického ověřování. Tomuto typu útoku se říká Injection Attack a představuje zásadní hrozbu pro KYC (Know Your Customer) procesy. Viděli jsme ho třeba v případu hongkongské sítě podvodníků rozbité v roce 2025, která pomocí deepfakes a ukradených dokladů zakládala podvodné bankovní účty. Celkové ztráty činily 193 milionů dolarů (zhruba 4,05 miliardy Kč). 

„Biometrické systémy jsou totiž z principu náchylné k deepfake útokům – pokud je falzifikát dostatečně kvalitní, jeho charakteristiky jsou identické s originálem. Biometrika sama o sobě nemá šanci deepfake odhalit. Ochrana proto stojí na dodatečné kontrole živosti, tzv. liveness detection, která má ověřit, že před kamerou sedí skutečný člověk, a dále na detektoru deepfakes – spolehlivost obou přístupů ovšem v kontextu aktuálních AI-based útoků není dostatečná,“ vysvětluj Malinka.

Demokratizace útoků

S tím, jak se snižují náklady na provedení tohoto typu útoku, roste i počet zasažených skupin. Na pomyslném vrcholu stojí tzv. CEO podvody, kdy se útočníci vydávají za vysoké manažery firmy a nařizují urgentní převody peněz. Vzhledem k náročnosti přípravy útoku se zatím opravdu vyplatí cílit na velké částky. Známým případem je útok na britskou energetickou firmu z roku 2019, kdy „generální ředitel německé mateřské společnosti“ zavolal a nařídil urgentní převod 220 000 eur (přes 5 milionů korun). 

Novějším příkladem je pokus o podvod na Ferrari z července 2024. Útočníci kontaktovali vedoucího pracovníka přes WhatsApp a následně telefonicky – použili AI klon hlasu CEO Benedetta Vigni včetně jeho charakteristického jihoitalského přízvuku. Podvod však selhal, protože vedoucí položil ověřovací otázku o knize, kterou mu Vigna nedávno doporučil. Podvodník nedokázal odpovědět a zavěsil. 

Šíří se i zmíněné útoky využívající nouzové situace. Říká se jim Grandparent Scams (nebo obecněji Family Emergency Scams). Jsou vlastně evolucí podvodných telefonátů. Dříve volal údajný kamarád vnuka nebo policista s tím, že váš blízký měl nehodu. Nyní místo kamaráda vnuka volá přímo sám „vnuk“ svým vlastním hlasem. To výrazně zvyšuje úspěšnost útoku, protože oběť slyší hlas, který důvěrně zná. Hlavní roli hrají emoce a pocit naléhavosti.

Jiným typem útoku jsou případy okradení lidí, kteří uvěří dlouhodobě budovaným vztahům na seznamkách či sociálních sítích, které končí okradením oběti o celoživotní úspory. Tomuto typu útoku se říká Romance Scam nebo také pohrdlivě Pig Butchering. Podvodníci se nesnaží vydávat za konkrétní existující osobu. AI generované selfies a deepfake videohovory vytvářejí iluzi skutečného člověka, zatímco podvodník může vést desítky paralelních vztahů s různými oběťmi. 

V říjnu 2024 hongkongská policie rozbila organizovanou skupinu sedmadvaceti podvodníků, kteří pomocí deepfakes na seznamovacích platformách okradli oběti napříč Asií o 46 milionů dolarů (skoro 1 milarda korun). Podvodníci se nevyhýbají ani falšování celebrit. Nejznámějším případem roku 2025 se stala francouzská žena jménem Anne, která přišla o 850 000 dolarů (více než 17 a půl milionu korun) po osmnáctiměsíční komunikaci s údajným Bradem Pittem.

Konečně pak dalším cílem bývají bankovní a finanční instituce. V nich podvodníci používají deepfakes k zakládání bankovních účtů na cizí jména, aby mohli například prát špinavé peníze. Příkladem je platforma OnlyFake odhalená v roce 2024, která za pouhých 15 dolarů generovala falešné doklady totožnosti. Útok na bankovní systémy je typicky dvoustupňový: prvním krokem je výroba kvalitního falzifikátu dokumentu, druhým krokem pak překonání biometrického ověření a kontroly živosti při zakládání účtu. Oba kroky AI výrazně usnadňuje.

Jak se bránit

Všechny tyto podvody spojuje často vlastně jednoduchá psychologická manipulace. Buď je to strach o blízkého nebo z nadřízeného, nebo láska k virtuálnímu partnerovi. Navíc lidé často selhávají ve schopnosti rozpoznávat deepfake podvody. Podle výzkumů lidé správně identifikují vysoce kvalitní deepfake pouze v 24,5 % případů – což je horší než náhodný odhad. Celých 68 % deepfake videí je dnes téměř nerozeznatelných od autentického materiálu. „Ještě před čtyřmi lety se úspěšnost rozpoznání deepfakes lidmi pohybovala kolem 70–80 %, nicméně s vývojem nových generací syntetizátorů se kvalita podvrhů natolik zlepšila, že se již na svou schopnost deepfake rozpoznat nemůžeme spolehnout. Naše výzkumy navíc ukazují, že pokud lidé předem nevědí, že mají hodnotit deepfake – což je scénář, který při útoku nastává, protože útočník vás na rozdíl od vědce typicky nevaruje o povaze útoku –, jejich schopnost rozpoznání klesá prakticky k nule,“ říká docent Kamil Malinka z brněnského VUT. Situace se navíc rychle vyvíjí. „U deepfake videí už dnes útočníci disponují real-time nástroji, které jim umožňují reagovat na podněty oběti přímo během hovoru. U hlasových útoků je zatím situace o něco lepší, ty stále potřebují čas na přípravu. Očekávám ale, že do přibližně tří let budou běžně dostupné dostatečně kvalitní systémy pro konverzi hlasu, takže pak půjde dělat i audio útoky v reálném čase,“ dodává Malinka.

Jak se proti tomu všemu bránit, když naše schopnost odhalení podvodů takto selhává? Podle odborníků z World Economic Forum a bezpečnostních firem jako Reality Defender nebo Pindrop existuje obrana v zásadě dvojího druhu. První je technický, například nasazení softwaru, který se snaží deepfakes detekovat. „Je však důležité si uvědomit, že technická detekce je až poslední vrstvou obrany – když selže, útok je úspěšný. Proto je klíčové budovat vícevrstvou ochranu: od minimalizace veřejně dostupných nahrávek vlastního hlasu a fotografií přes různé regulatorní požadavky na tvůrce modelu až po procesní opatření – například omezení výše plateb autorizovaných pouze hlasem. Teprve na konci stojí detekční software. Ten je nicméně zatím v plenkách, komerčně dostupných a skutečně spolehlivých detektorů je stále málo,“ upozorňuje Malinka.

Druhým typem obrany je změna procesů. Je to vlastně jediný rychlý krok, který lze udělat hned: zavést další faktor ověření nebo přestat spoléhat na hlasovou a jinou biometriku při autentizaci během videohovorů. Žádný převod peněz by neměl být možný jen na základě jednoho hovoru od nadřízeného. Pokud volá banka nebo šéf s urgentním požadavkem, prostě zavěste a zavolejte na ověřené číslo. Pro rodiny a blízké přátele může zase pomoci zavést bezpečné heslo. Prostě se domluvit na tom, že se zeptáte na nějakou věc, kterou může znát jen skutečný volající. Zní to trochu jako z Harryho Pottera, jenže technologie deepfake v něčem skutečně kouzelná je.

Dříve platilo důvěřuj, ale prověřuj. Dnes žijeme v online světě nulové důvěry, ve kterém nemůžeme věřit ani vlastním očím a uším.