Nauka movi(e) głosem młodych naukowców – mgr inż. Monika Bartczak | Aktualności PŁ

08.04.2021

Doktorantka Interdyscyplinarnej Szkoły Doktorskiej PŁ pracuje nad metodami lingwistycznego podsumowania i wykrywania wyjątków w bazach danych, znajdujących zastosowanie w cyberbezpieczeństwie, medycynie, handlu. Wraz z prof. Adamem Niewiadomskim jest współautorką artykułu wydanego w czasopiśmie naukowym Journal of Applied Computer Science. Została również laureatką konkursu o stypendium ministra nauki i szkolnictwa wyższego za wybitne osiągnięcia.

Informatyka to bardzo pojemne pojęcie, jednocześnie dość abstrakcyjne dla wielu osób. Jak wyglądają narzędzia Pani pracy?

To prawda. W zależności od wykonywanego zadania, dobieram narzędzia, język programowania, technologie. W ostatnim czasie, pracując nad tematem wykrywania anomalii w bazach danych, używałam m.in.: języka programowania C#, .NET Core, system zarządzania bazami danych Neo4j, środowisko zintegrowane Microsoft Visual Studio oraz sterownik niezbędny do połączenia z wspomnianą bazą danych Neo4j.Driver.

Jak wygląda proces pisania algorytmów?

Analiza i tworzenie algorytmów nie jest prostym zadaniem. Najczęściej rozpoczynam pracę od wykonania przeglądu obecnie istniejących algorytmów, metod. Szukam w nich wad, słabych stron oraz zalet. Następnie staram się opracować metodę pozbawioną tych wad. Umiejętności, które są niezbędne przy wykonywaniu tego typu zadań, możemy podzielić na miękkie i twarde. Do umiejętności miękkich należy m.in. logiczne myślenie, kreatywność, innowacyjność, dążenie do celu, determinacja. Do umiejętności twardych można zaliczyć m.in.: programowanie, znajomość podstawowych definicji z zakresu sztucznej inteligencji, baz danych i inżynierii oprogramowania.

Monika Bartczak po obronie pracy magisterskiej, fot. arch. prywatne

Jaki jest temat Pani pracy doktorskiej?

Metody analizy i reprezentacji nierelacyjnych zbiorów danych. Tematyka ta dotyczy takich obszarów i dziedzin informatyki jak: sztuczna inteligencja, grafowe bazy danych, lingwistyczne podsumowania baz danych, logika rozmyta, reguły rozmyte, system wspomagania decyzji, wykrywanie wyjatkow oraz inteligentną analizę danych".
.

Ostatnio w ramach pracy badawczej przygotowaliśmy wraz z prof. Adamem Niewiadomskim, dr. Marcinem Kacprowiczem i dr Agnieszką Duraj artykuły naukowe w zakresie wykrywania wyjątków w bazach danych, nazywane także anomaliami, dziwnymi, rzadkimi rekordami. To pozwala sprawdzić, czy nie zostały wygenerowane przez zewnętrzny mechanizm. Wyjątki powinny zostać odpowiednio potraktowane, ponieważ mogą mieć negatywny wpływ na procedury i wyniki analizy danych - zamazać, a nawet zniekształcić ogólną ideę analizowanych kolekcji, podczas gdy odpowiednio rozpoznane mogą dostarczyć unikalnych informacji o włamaniach do sieci komputerowych, nielegalnym korzystaniu z kart kredytowych, włamaniu do serwisu transakcyjnego w banku, szybkich zmianach parametrów wyrobów medycznych ukazujących stan zdrowia pacjentów, itp.

Bazy danych - co kryje się pod tym pojęciem?

To zbiory wiadomości zapisanych zgodnie z ustalonymi regułami. Obejmuje dane cyfrowe gromadzone zgodnie z zasadami przyjętymi dla danego programu komputerowego, który specjalizuje się w zbieraniu i przetwarzaniu tych danych. Program taki nazywany jest „systemem zarządzania bazą danych”. Język programowania SQL (ang. Structured Query Language) to mechanizm, który pozwala na odczytywanie danych z bazy. Zapytania SQL wykorzystujemy do sprecyzowania, jakie dane maja zostać odczytane z bazy.

W mojej pracy doktorskiej operujemy na olbrzymich zbiorach danych, których ilość wyraża się niejednokrotnie w petabajtach. To gwarantuje nam odpowiednią weryfikację metod, dobrze wykonane testy.

Monika Bartczak na targach edukacyjnych, fot. arch. prywatne

Skupiła się Pani na analizie lingwistycznej baz danych - jaka jest przewaga tej metody nad innymi?

Analiza olbrzymich zbiorów danych pod względem lingwistycznym umożliwia nam przekazanie jasnej, klarownej, krótkiej wiadomości użytkownikowi, a przede wszystkim wyrażonej w języku naturalnym (zbliżonym do ludzkiego).

Ludzie przywykli do przekazywania wiadomości za pomocą języka naturalnego, dlatego też istotnym celem systemów informatycznych powinno być zdefiniowanie i wykorzystywanie takich procedur jak najbardziej zrozumiałych. Daje nam to gwarancję łatwo interpretowalnych wyników, dla wszystkich użytkowników. Aby sprostać temu oczekiwaniu wybrano metody reprezentowania danych poprzez zbiory rozmyte. Dzięki temu zamiast zdania „1950 kobiet w bazie danych, gdzie znajduję się 2000 kobiet, posiada wiek z zakresu 15-20 lat” otrzymujemy sformułowanie „Większość kobiet jest młoda”.

Warto wspomnieć, że podsumowania lingwistyczne w porównaniu do innych popularnych rozwiązań, które zajmują się interpretacją i agregacją danych, posiadają mniejszą złożoność.

Ponadto potrzebny jest krótszy czas do analizy ogromnej bazy danych w porównaniu do zastosowania bardziej skomplikowanych algorytmów.

Monika Bartczak na nartach, fot. arch. prywatne

Gdzie znajdują zastosowanie opracowane przez Państwa narzędzie do efektywniejszego odczytywania baz danych?

Podsumowania lingwistyczne stosowane są jako narzędzie wspierające analizę pozyskanych zbiorów danych. Metoda ta posiada szerokie pole zastosowań: od generowania nagłówków do gazet przez tworzenie streszczeń artykułów aż do systemów wspomagania decyzji.

Postaram się przybliżyć ostatnie z zastosowań. Wyobraźmy sobie, że posiadamy ogromny zbiór danych skarg klientów. W bazie danych znajdują się informacje o m.in. dacie złożenia zażalenia, kraju pochodzenia reklamowanego produktu, wieku klienta składającego daną reklamację. Na podstawie tych danych, przy wykorzystaniu wcześniej zdefiniowanych zbiorów rozmytych, jesteśmy w stanie wygenerować podsumowania lingwistyczne np. Większość reklamacji złożonych w okresie letnim przez starsze osoby zostały rozpatrzone pozytywnie. Następnie możemy obliczyć stopień prawdy takiego podsumowania. Stopień prawdy przyjmuję wartości z zakresu x ∈ <0,1>. Im zdanie jest bliższe 1, tym jest bardziej prawdziwe. Jeżeli z obliczeń wynika, że zdanie jest prawdziwe możemy zasugerować działowi rozwiązującemu reklamację w danej firmie (CRM) podjęcie konkretnej decyzji (rozpatrzenie pozytywne reklamacji, bądź negatywne).

System wspomagania decyzji wpasowuje się w strategię win-win (zadowolenia dwóch ze stron). Dla działu w danej firmie, ponieważ jest w stanie szybciej podjąć decyzję na temat danej reklamacji oraz dla klienta, ponieważ jest w stanie wcześniej zweryfikować czy jego reklamacja zostanie pozytywnie rozpatrzona czy też nie. Podsumowania lingwistyczne są uniwersalną metodą i mogłyby być wykorzystane w systemie wspomagania decyzji opartym na dowolnie innych danych np. medycznych. System ten mógłby sugerować, czy dana osoba choruje na grypę.

Efektywność metody zależy od jakości i ilości wykorzystywanych danych w bazie danych.

Dlaczego warto być naukowcem?

Daje nam to możliwość podnoszenia swoich umiejętności, wprowadzania innowacji, ciągłych wyzwań i samorealizacji poprzez badanie interesujących nas obszarów. Praca naukowa jest ciągłym wyzwaniem, którego efekty pozwalają osiągnąć wielką nagrodę w postaci ogromnej satysfakcji.