Odhalí GPT-4o mini manipulativní obrázky?

Veliké množství klamavých informací je šířeno nejenom pomocí textu, ale také pomocí manipulativních grafik a koláží. Pokud bychom chtěli odhalování takového obsahu automatizovat, můžeme se při tom spolehnout na nový levný model od OpenAI?

Když počítač rozumí obrázkům

Při práci na osobním projektu localoca.li jsem začal experimentovat s použitím AI. Na webových stránkách projektu shromažďuji snímky z her a jiného softwaru, s příklady popisků v různých jazycích. Tato databanka může sloužit vývojářům nebo překladatelům, kteří si kladou otázky jako například, jak srozumitelně komunikovat možnosti nastavení hry svým hráčům.

U každého screenshotu bylo nutné přidat popisek, jaký text obrázek obsahuje, případně klíčová slova. To bylo extrémně časově náročné. Inspirován článkem Bude to znít zvláštně, ale OpenAI dohání konkurenci jsem zkusil zapojit nový model GPT-4o mini. Ten má kromě generování textu také modul vision, tedy schopnost rozumět obrázkům.

Výsledky pokusu byly fenomenální. Nejenom, že model dokáže z obrázku spolehlivě přečíst i vysoce stylizovaný text, jako například kurzívu nebo text vedený po křivce. Také dokáže odtušit, v jakém grafickém stylu je uživatelské rozhraní zpracováno (pohádkové, historické) a jaký účel mohli tvůrci hry těmito volbami sledovat. Pokud o to model požádám, zvládne k jednomu obrázku vygenerovat i několik odstavců dlouhý popisek. Taková analýza jednoho obrázku stojí v modelu GPT-4o mini méně než 15 haléřů, což splňuje slibovanou obzvláště nízkou cenu.

GPT-4o mini rozumí spojitosti mezi ukládáním hry a gramofonem jakožto přehrávacím zařízení.

Využití AI v boji s dezinformacemi

Úspěšnost modelu číst obrázky mě motivovala vyzkoušet, zda by mohl model být efektivní i pro odhalování manipulativních obrázků, jako jsou například ty, co neautentické účty sdílí po sociálních sítích. Jako zdroj jsem použil sociální síť X. Pokud si člověk vytvoří nový účet na této síti, algoritmus mu začne na hlavní stránce doporučovat úspěšné příspěvky, a to včetně množství proruských dezinformačních nesmyslů. Pokud není uvedeno jinak, datum testu bylo 24.7. 2024. Toto je důležité, protože AI modely se mohou vyvíjet a s postupem času dávat odlišné odpovědi na stejný vstup.

Prvním příkladem byl obrázek s Ursulou von der Leyen, který má poukazovat na její nacistické předky. Jako prompt jsem použil: „řekni mi, co vidíš na obrázku. Pokud obrázek nebo text obsahuje zavádějící nebo nepravdivé informace, vyvrať je.“ Model dokázal identifikovat, že na fotce jsou žena a muž, ale při určení jejich identity se spoléhal na text v obrázku. Na dotaz ohledně dezinformací odpovídá ChatGPT4-omni jen doporučením, abychom si informaci ověřili sami.

Obsah z dezinformační grafiky vyvrací například server Euronews.com

Na příkladu je vidět, že tento AI model lze využít jako účinné OCR, tedy nástroj pro čtení textu z obrázku, které může pomoci k identifikování dezinformačních příspěvků podle klíčových slov v obrázku. Jak se ale popere s obrázky, u kterých hlavní část netvoří popisek vepsaný do obrázku?

Požádal jsem o vysvětlení fotky z protestu polských zemědělců, na které je transparent vyhánějící ukrajinské uprchlíky. ChatGPT přečetl nápis v polštině, ale ani přes panáčka v ukrajinských barvách na fotce nedokázal určit kontext transparentu.

Vsuvka: při psaní článku jsem si všiml, že jsem modelu dodal i popisek v příspěvku s obrázkem “Výběr z Polské demonstrace, překladu netřeba.” Možná to bylo důvodem proč se ChatGPT neobtěžoval nápis v polštině ani přeložit. Když jsem stejný vstup vyzkoušel o měsíc později, 17.8. 2024, nejenomže model 4o mini automaticky polský text přeložil, ale také byl schopen identifikovat kontext fotky podle modro-žlutého panáčka. Je tak třeba mít na vědomí, že modely se můžou vyvíjet, a s postupem času přinášet více (nebo méně) užitečné odpovědi.

Nespokojen s odpovědí, která transparent nedokázala zařadit do správného kontextu, přidal jsem nápovědu: „nyní popiš příspěvek s obrázkem v kontextu války na Ukrajině.“ V odpovědi si model dokázal domyslet nelibost, kterou transparent vyjadřuje, nad azylem poskytovaným ukrajinským uprchlíkům.

Tady ale pozor. Postrkovat AI k tomu, aby nám dala odpověď podle našich představ, je nebezpečná hra. To se mi podařilo ilustrovat, když jsem modelu dal obrázek ze strategické hry Age of Empires, a poprosil ho, aby jej popsal v kontextu války na Ukrajině. Model se v takovém případě pokusí vymyslet možné spojitosti i tam, kde žádné neexistují.

Je tedy potřeba zjistit, zda je GPT-4o mini schopný vyhodnotit, zda nějaký obrázek souvisí s určitým tématem nebo ne. Zeptal jsem se tedy přímo: ‚pokud tento obrázek souvisí s válkou na Ukrajině nebo dezinformačními kampaněmi, napiš „SOUVISÍ“ a vysvětli jak a proč. Pokud nesouvisí, napiš pouze jedno slovo: „NESOUVISÍ”.‘

V tomto případě dokázal GPT-4o mini odhalit, že obrázek s popiskem o Ursule von der Leyen může být součástí dezinformační kampaně. U méně zřejmých obrázků ale odpovídal NESOUVISÍ, například u obrázku, který má posměšně parodovat prezidenta Pavla. Chtěl jsem zjistit, jak dobře model rozumí tomu, kdo je vyobrazen. Použil jsem obrázky parodující prezidenta Pavla i premiéra Fialu, a zadal prompt: „popiš co je na obrázku. Zaměř se na symboliku, na skutečné postavy, na význam popisku.“

GPT-4o mini pochopil obrázek parodující prezidenta Pavla jako pozitivní sdělení.

AI model bohužel nedokázal identifikovat ani jednoho z politiků, a satiru rozpoznal pouze v obrázku s Petrem Fialou obklopeným lebkami. Při použití předchozího promptu, který se ptá, zda obrázek souvisí s válkou na Ukrajině nebo s dezinformaci odpověděl model v případě obrázku s Petrem Fialou kladně, což bylo ovlivněno popiskem „Ukrajina mi bude vděčná,“ ale také přítomností lebek v obrázku (17. 8. 2024 jsem vyzkoušel, že model odpoví SOUVISÍ i v případě že z obrázku vymažu popisek).

Porovnání s plnou verzí GPT-4o

V mém experimentu GPT-4o mini ukázal, že dokáže spolehlivě vyčíst informace, které jsou přímo obsažené v obrázku, a také odhadnou spojitost s určitou událostí na základě symboliky, která je v obrázku použita. V čem ale pokulhává, jsou znalosti skutečných událostí a osob.

Playground na stránkách OpenAI nabízí možnost porovnat odpovědi více modelů na stejný vstup. Některé z dotazů výše jsem zkusil 17.8. 2024 zadat oběma modelům naráz a porovnat jejich odpovědi.

Hlavní rozdíl byl poznat u obrázku s popiskem „Pávek umí všechno,“ kde model 4o narozdíl od 4o mini rozpoznal osobu prezidenta Pavla. Tento model dokonce krátce naznačuje, že by mohlo jít o satirický obrázek. Vcelku se ale nechává ovlivnit rádoby oslavným vyzněním obrázku, a ignoruje například význam toho, proč autor parodického obrázku navlékl Pavla do modro-žluté kombinézy. Při otázce na SOUVISÍ/NESOUVISÍ se oba modely shodují, že obrázek s dezinformačními kampaněmi nesouvisí.

Při testu souvisí/nesouvisí mezi oběma modely nebyl rozdíl.

U obrázku s Petrem Fialou oba modely určily, že SOUVISÍ s válkou na Ukrajině, ale pouze 4-o se pokusil určit identitu člověk na fotce (a mylně premiéra Fialu označil jako prezidenta Pavla).

Verze 4o také byla konkrétnější, když jsem poprosil o zdroje, které by vyvrátili tvrzení o údajném předkovi von der Leyen. Odpověď obsahovala odkazy na českou Wikipedii (stránka o von der Leyen) a na článek o založení EU na stránkách samotné EU. Nutno poznamenat, že ani jeden odkaz neobsahoval přímé vyvrácení dezinformace, kterou zmiňuje obrázek. Mezitím model 4o mini nedodal odkazy na žádné konkrétní články, ale doporučil mi projít si databázi fact-checkingových stránek jako je například snopes.com.

Shrnutí

Pokud plánujete využít AI k rozpoznávání dezinformací, je potřeba mít na paměti několik důležitých bodů. Oba modely umí spolehlivě přečíst text z obrázku, ale v určování ostatního obsahu a účelu, za kterým byl obrázek vytvořen, mají rozdílnou úspěšnost. Je třeba respektovat, že tato úspěšnost není u žádného z modelů stoprocentní. Návodné otázky, které předpokládají dezinformační narativ u každého z obrázků, mohou model zmást a přesvědčit ho hledat spojitost i u naprosto neškodných obrázků.

V porovnání obou modelů se GPT-4o ukázal jako spolehlivější, s lepší znalostí skutečných osob. Pokud to rozpočet dovolí, dávalo by tak smysl dát při odhalování dezinformací přednost tomuto modelu.

Napsat komentář