Data dodania 17.01.2024 - 19:55

Wiktor Barańczyk po raz drugi uczestniczy w programie E2Top. Studiuje informatykę. Pasjonuje się sztuczną inteligencją, w szczególności widzeniem komputerowym, które skupia się na rozumieniu i analizie obrazów. Lubi gry komputerowe i sudoku.

Image

Czy rozumiesz, co do Ciebie migam? To tytuł Twojego projektu, co chcesz dzięki niemu zrealizować?

Pierwszym moim celem jest opracowanie algorytmów (inaczej nazywanych też modelami) do rozpoznawania znaków Polskiego Języka Migowego (PJM). To prowadzi do opracowania tłumaczy języków migowych, niemających powszechnie używanej formy pisanej. Drugim celem jest zbudowanie bazy danych. Na początku zakładałem poproszenie o pomoc tylko osoby Głuche, dla których PJM jest językiem natywnym. W rzeczywistości jednak nie jest łatwe zebrać potrzebną ilość danych tylko przy ich pomocy, ponieważ sztuczna inteligencja łatwo dopasowuje się do kształtu dłoni, tym samym nie radząc sobie z wcześniej niewidzianą ręką. Tym samym od wielu różnych osób. Z tego powodu poprosiłem o pomoc rodzinę i kolegów, dla których PJM był nowością. Dzięki temu chciałem sprawdzić, czy istnieje szansa wytrenować model przy pomocy osób, które nigdy nie używały języka migowego, ale będą na bieżąco uczyć się znaków i je pokazywać - a takich osób mamy znacznie więcej.

Jakie są perspektywy rozwoju tych badań? 

Image
Wiktor Barańczyk
Zaznaczone punkty charakterystyczne ciała, na bazie których algorytm rozpoznaje pokazywany znak.

Szerokie, ponieważ jest to temat niszowy, a równocześnie trudny. Aktualnie zajmuję się pojedynczym aspektem, jakim jest rozpoznawanie znaków w izolacji. Mam przez to na myśli, że modelowi pokazywany jest tylko 1 znak w tym samym czasie. To bardzo ułatwia zadanie i mimo że jest to ważny etap, to w rzeczywistości miganie wygląda całkowicie inaczej. Przede wszystkim znaki są pokazywane w dynamicznych sekwencjach i przez wzgląd na nieliniowość języka, kilka informacji może być przekazana równocześnie. Tym samym wymaga to opracowania modeli będących w stanie je podzielić. Do tego dochodzą problemy ze zbieraniem danych. Kiedy mamy pojedynczy znak, to ludzie uczą się ich w chwile. W przypadku całych zdań nie jest już to takie proste.

Gdzie to opracowywane przez Ciebie rozwiązanie znajdzie zastosowanie? 

Pierwszym obszarem są tłumacze języka migowego. Mimo że moje badania są skupione wokół PJM, to prawdopodobnie rozwiązanie będzie mogło być zastosowane dla każdego języka migowego. Nie będzie to jednak i tak proste, ponieważ z powodu różnic w znakach czy gramatyce (każdy język migowy jest odrębnym językiem) będzie musiała być zebrana oddzielna baza danych dla każdego z języków, co jest jedną z najtrudniejszych części projektu.
Kolejnym obszarem jest sterowanie gestem.

Image
Wiktor Barańczyk

Mimo że z perspektywy językowej gesty i znaki języka migowego to dwa oddzielne pojęcia, to w obu przypadkach znaczenie ma ruch i kształt dłoni, dlatego z perspektywy sztucznej inteligencji są to bardzo podobne zagadnienia. Języki migowe przez wzgląd na swoją złożoność są dobrym polem doświadczalnym. Oczywiście na rynku są już rozwiązania, które pozwalają na sterowanie gestem (gry ruchowe czy aparaty w telefonach), ale nie są to systemy, które pozwalają na rozbudowane sekwencje.

Program E2Top daje szansę rozwijania się pod kierunkiem mentora. Kogo wybrałeś?

Dr. inż. Piotra Ducha, którego spotkałem w 1. semestrze. Doktor na tych zajęciach dał się poznać jako osoba z łatwością przekazująca wiedzę. Kiedy dowiedziałem się, że będzie jednym z opiekunów i to w temacie, w którym chciałem już wtedy się rozwijać, od razu zdecydowałem się wysłać zgłoszenie.

Image
P. Duch i W. Barańczyk

Co jest dla Ciebie inspirujące w pracy naukowej? 

Z jednej strony uwielbiam poznawać świat i odkrywać, jak działają w nim różne rzeczy. Dzięki pracy naukowej z każdym kolejnym dniem coraz więcej dowiaduję się o możliwościach sztucznej inteligencji. Uświadamianie sobie, że nawet najbardziej skomplikowane modele są w podstawach prostymi operacjami, jest niezwykłe. 

Z drugiej strony w pracy inspiruje mnie fakt opracowywania czegoś nowego i rozwiązywanie kolejnych problemów. Oczywiście, czasami jest to frustrujące, jednak wszystkie złe emocje rekompensuje zobaczenie modelu zaczynającego działać coraz lepiej.

Rozmawiała: Agnieszka Garcarek-Sikorska