Czym zajmuje się Pan w ramach doktoratu?
Moje badania skupiają się na różnych aspektach wykorzystywania sztucznych sieci neuronowych w procesie generacji nowych treści audiowizualnych. Głównym celem badań jest próba rozwiązania problemu tzw. „deepfake’ów”, czyli generowanych przy użyciu sztucznej inteligencji materiałów audiowizualnych, w których dokonywana jest fabrykacja tożsamości osoby będącej obiektem ataku (np. podmienienie twarzy osoby występującej na nagraniu na twarz kogoś zupełnie innego, kto nie wyrażał zgody na publikację wizerunku, bądź synteza próbki mowy do złudzenia przypominającej głos danej osoby). Błyskawiczny rozwój metod AI w ostatnich latach sprawił, że już w tym momencie wygenerowane treści są dla ludzkiego oka (bądź ucha) nierozróżnialne od faktycznych nagrań.
W jaki sposób odróżnia się takie fałszywe materiały od prawdziwych?
Dość ironicznym jest, że rozwój metod AI, który doprowadził do obecnej sytuacji, wydaje się być najlepszym na nią remedium. Pomimo tego, że człowiek w większości przypadków nie jest w stanie stwierdzić, czy dany materiał jest prawdziwy, odpowiednio wytrenowany model oparty o sztuczną inteligencję powinien być w stanie udzielić nam takiej odpowiedzi.
Oczywiście konkretne rozwiązania zależą od konkretnych metod ataku, a te nieustannie ewoluują. Stają się coraz lepsze, coraz bardziej zaawansowane, co sprawia, że trudno stwierdzić, na jakim etapie postępu w kwestii zapobiegania atakom jesteśmy w danej chwili. Sytuacja w obrębie badań dotyczących sztucznej inteligencji jest bardzo dynamiczna – jeszcze dwa – trzy lata temu prace w dziedzinie generacji obrazów skupiały się na konkretnych zastosowaniach, np. generacji twarzy (nawiasem mówiąc, już wtedy AI była w stanie generować fotorealistyczne obrazy nieistniejących w rzeczywistości twarzy), dziś w powszechnym użyciu są modele pozwalające wygenerować obraz przedstawiający dowolną scenę, bazując wyłącznie na krótkim opisie tekstowym. Za chwilę prawdopodobnie tą samą metodą będzie można generować realistyczne klipy wideo. Właśnie ta dynamika sprawia, że badania dotyczące tego obszaru są tak fascynujące, a jednocześnie stawia mnóstwo wyzwań w kwestii bezpieczeństwa.
W jakich celach najczęściej stosuje się „deepfake’i”?
Jeżeli chodzi o zastosowania wątpliwe etycznie, to prym wiodą materiały o charakterze politycznym/propagandowym, przykładowo wygenerowane nagrania przemówień głów państw lub ważnych polityków, a także treści pornograficzne. Chciałbym jednak uczulić na fakt, że nie tylko treści wideo, ale także audio mogą stanowić poważny problem. Już w chwili obecnej telefony automatów telemarketingowych w wielu wypadkach noszą znamiona nękania, a proszę sobie wyobrazić sytuację, w której zamiast robotycznego głosu po drugiej stronie słuchawki, słyszymy w pełni naturalną mowę generowaną przez AI. Na dodatek AI ta wypowiada nie automatyczne, wcześniej ustalone i zapisane komunikaty, a prowadzi z nami swobodną rozmowę dzięki modelowi językowemu podobnemu do bardzo w ostatnim czasie popularnego ChatGPT i nie daje się zbić z tropu pytaniami niedotyczącymi reklamowanej oferty.
Nie jest to perspektywa napawająca optymizmem, niemniej jednak nie chciałbym roztaczać defetystycznej wizji, bądź wskazywać na modele generujące treści wyłącznie w kontekście zagrożeń.
A są jakieś nienegatywne przykłady?
Takie modele znajdują bardzo szerokie zastosowania przede wszystkim w branży rozrywkowej – pozwalają na przykład na stworzenie realistycznych modeli postaci o wizerunku wybranej osoby w grach komputerowych, bądź „wirtualnych statystów” w filmach. Dzięki metodom manipulacji treścią obrazów możliwa jest niewymagająca specjalistycznych zdolności czy dużych nakładów finansowych edycja materiałów wideo. Podobnie generacja zupełnie nowych, nieistniejących treści bez potrzeby ich nagrywania, wykorzystująca jedynie opis danej sceny, w dodatku podany w języku naturalnym, co niweluje nawet potrzebę posiadania zdolności programowania lub obsługi oprogramowania służącego tym celom. Tak również wygląda sprawa generacji audio – możliwość dokonania transferu głosu konkretnego aktora na inne nagranie, bądź syntezy mowy o parametrach łudząco przypominających jego głos pozwala na oszczędność czasu oraz środków. Przykładem może być sytuacja tzw. „dokrętek” – kiedy w normalnych warunkach pojawiłaby się potrzeba ściągania aktora do studia, aby dograł kilka kwestii dialogowych, AI z powodzeniem może rozwiązać ten problem. Zastosowania tej technologii wydają się niezwykle szerokie, chociaż zasadniczo można byłoby je sprowadzić do uproszczenia procesu kreatywnego oraz pozbawienia go niepotrzebnych technicznych barier.
Jak wygląda praca badacza AI?
Pewnie mniej ekscytująco niż można byłoby się spodziewać. Na każdą sekundę wygenerowanego przez AI klipu wideo przypadają setki godzin analizy literatury, odnajdywania (bądź w niektórych przypadkach tworzenia/nagrywania), katalogowania oraz wstępnego przetwarzania potężnych ilości danych służących to treningu modeli, samego optymalizowania i nadzorowania procesu treningu a także analizy wyników. Niezbędne są umiejętności programowania, analizy danych i pracy zespołowej. W tak dynamicznie rozwijającej się dyscyplinie niezwykle ważna jest również chęć do ciągłego aktualizowania oraz poszerzania swojej wiedzy, ponieważ nowe rozwiązania oraz metody pojawiają się miesiąca na miesiąc, a nawet z dnia na dzień.
Rozmawiała: Agnieszka Garcarek-Sikorska