Data dodania
Kategorie aktualności

TuneFollower to oprogramowanie, dzięki któremu prostsze będzie przetwarzanie, filtracja i analiza dźwięku. Jego autorem jest dr inż. Bartłomiej Stasiak z Wydziału Fizyki Technicznej, Informatyki i Matematyki Stosowanej.

Image

TuneFollower to oprogramowanie, dzięki któremu prostsze będzie przetwarzanie, filtracja i analiza dźwięku. Jego autorem jest dr inż. Bartłomiej Stasiak z Wydziału Fizyki Technicznej, Informatyki i Matematyki Stosowanej.


Oprogramowanie to jeden z elementów Pana projektu. Zbiór narzędzi do analizy i przetwarzania sygnału dźwiękowego powstał specjalnie dla niego, czy wykorzystać można te już dostępne?

Image
Zdjęcie portretowe: dr inż. Bartłomiej Stasiak siedzi przy stole, na którym leży stos książek. Jedna z nich otworzona. Na drugim planie zielone krzesła i niebieskie szyby kabiny.

Oprogramowanie to podstawowy element projektu. Właśnie o to chodzi, aby nie był potrzebny żaden specjalistyczny sprzęt, a zwykły mikrofon (nawet taki wbudowany w laptopa) mógł posłużyć do akwizycji sygnału dźwiękowego do analizy. Mówimy tu zasadniczo o narzędziach do wyszukiwania wzorców melodycznych typu Query-by-Singing, albo inaczej Query-by-Humming (QbH). Pozwalają one np. na znalezienie piosenki, która „chodzi nam po głowie”, ale nie pamiętamy tytułu, ani wykonawcy. Teraz możemy po prostu zaśpiewać ją do mikrofonu i zostanie wyszukana, a my dostaniemy szczegółowe informacje na jej temat – o ile tylko znajduje się w bazie danych. System tego typu może być oczywiście zbudowany z elementów wziętych „z półki” (implementacje algorytmów, gotowe biblioteki programistyczne), ale zawsze pozostaje problem ich integracji, dostrojenia parametrów, itd. Tworząc wszystko własnoręcznie, miałem większą kontrolę nad każdym szczegółem, a poza tym mogłem uwzględnić pewne elementy innowacyjne poprawiające skuteczność działania.

Gdzie znajdzie zastosowanie to oprogramowanie?

Przede wszystkim branża muzyczna – usługi związane z analizą i wyszukiwaniem nagrań. Pracujemy także nad zastosowaniami związanymi ze śledzeniem linii melodycznej w czasie rzeczywistym, pozwalającymi na tworzenie interaktywnych gier muzycznych i aplikacji edukacyjnych np. do ćwiczenia intonacji. Jako dyplomowany muzyk i pedagog z wieloletnim doświadczeniem w szkolnictwie muzycznym, dostrzegam tu duży potencjał do wykorzystania.

Na jakim etapie prac jest projekt?

Podstawowe elementy systemu (algorytmy analizy częstotliwości podstawowej dźwięku, moduł indeksowania i porównywania linii melodycznych) zostały zintegrowane i dokładnie przetestowane, a skonstruowany system był weryfikowany przez kilka kolejnych edycji międzynarodowego konkursu MIREX (Music Information Retrieval Evaluation eXchange), uzyskując dobre wyniki. Kluczem do praktycznego wykorzystania i wdrożenia systemu typu QbH jest oczywiście baza nagrań, której opracowanie jest podstawowym celem w najbliższej przyszłości.

Jakimi narzędziami wyszukiwano wzorce melodyczne przed Pana propozycją?

Image
Zdjęcie portretowe: dr inż. Bartłomiej Stasiak siedzi w studiu nagraniowym. Po lewej stronie tył monitora, po prawej fragment mikrofonu.

Pierwsze znaczące metody i narzędzia powstawały już w latach dziewięćdziesiątych ubiegłego stulecia. Do najprostszych pomysłów należy tzw. kod Parsonsa (opracowany jeszcze wcześniej) reprezentujący w postaci symbolicznej tylko kierunek melodii (góra/dół/powtórzenie dźwięku). Obecnie obserwujemy gwałtowny rozwój metod analizy i ekstrakcji informacji z nagrań dźwiękowych (ang. Music Information Retrieval, MIR), przy czym zakres tych informacji jest niezmiernie szeroki. Mamy metody do automatycznej detekcji takich elementów, jak rytm, metrum, tempo, harmonia, czy tonacja utworu, a także do określania bardziej „wysokopoziomowych” charakterystyk, jak np. rodzaj muzyki i jej nastrój, a nawet wykonawca lub kompozytor. Metody te wykorzystywane są m.in. do tworzenia opartych na treści systemów rekomendacyjnych. Z drugiej strony mamy także narzędzia do wyszukiwania konkretnych utworów w bazach nagrań, oparte na jednym z dwóch typów interfejsów: Query-by-Example, wykorzystujący techniki typu audio fingerprinting (np. popularny Shazam) oraz Query-by-Humming (np. SoundHound/Midomi).

Jak działa zaproponowane przez Pana oprogramowanie?

Podstawowym celem realizowanym przez oprogramowanie o nazwie TuneFollower jest wyszukiwanie wzorców melodycznych w multimedialnych bazach danych. W oparciu o analizę wysokości dźwięku i algorytm DTW (ang. Dynamic Time Warping) umożliwia ono porównanie tysięcy sekwencji melodycznych na sekundę, określając stopień podobieństwa bez względu na lokalne zmiany tempa i inne zakłócenia.

Dysponujemy również własną biblioteką narzędzi do przetwarzania dźwięku. AudioRunner to biblioteka implementująca zintegrowany framework do analizy i przetwarzania sygnału dźwiękowego oparty na systemie pluginów. Z uwagi na modułową budowę, umożliwia prostą implementację i wykorzystanie algorytmów dwóch podstawowych typów: filtrów i ekstraktorów cech. Zaimplementowane obecnie metody przetwarzania dźwięku, obok ekstrakcji wielu cech widmowych, przydatnych w zastosowaniach związanych z szeroko pojętą analizą muzyki i sygnału mowy, obejmują również bardziej złożone algorytmy filtracji, analizy i resyntezy dźwięku.

Duży nacisk w projektowaniu i implementacji wymienionych narzędzi został położony na szybkość przetwarzania sygnału dźwiękowego, również w czasie rzeczywistym. Moje oprogramowanie zawiera wiele cech o charakterze innowacyjnym, jak np. mechanizm efektywnego indeksowania wzorców w przestrzeni wielowymiarowej i doboru długości wzorca oraz autorską technologię TuneFollower pozwalającą na śledzenie sekwencji dźwiękowych w sposób zbliżony do analizy dokonywanej przez człowieka.

Na czym polega innowacyjność TuneFollowera?

Na tym, że nie jest doskonały :) Potrafi Pani śpiewać? Ja też, i wielu osobom także się wydaje, że potrafią... ale to nie zawsze prawda. Nawet szkolonym głosom zdarza się czasem „zjechać” do innej tonacji i klasyczne algorytmy porównywania melodii mają wtedy problem. TuneFollower bierze pod uwagę możliwe niedoskonałości wykonania melodii, którą użytkownik ma na myśli i próbuje się do nich dostosować, „psując” trochę dopasowywany wzorzec, aby bardziej odpowiadał rzeczywistemu nagraniu.

Oczywiście nie można z tym przesadzić – żeby nie doprowadzić do sytuacji, w której zbyt intensywne modyfikacje wzorca pozwolą go dopasować do każdej możliwej melodii (to tak jakbyśmy potraktowali „Sto lat” jak fałszywie zaśpiewane „Kurki trzy”). Jednak wyniki badań jasno pokazują, że odpowiednie stosowanie tego mechanizmu pozwala faktycznie poprawić wyniki rozpoznawania wzorców melodycznych w przypadku dużej liczby nagrań pochodzących od niewyszkolonych użytkowników.

Jakiego rodzaju sygnały dźwiękowe będzie analizował ten program?

Image
Zdjęcie portretowe: dr inż. Bartłomiej Stasiak stoi w studiu nagraniowym. Po prawej stronie rozstawione urządzenia pomiarowe.

Przede wszystkim „monofoniczne”, tzn. ograniczone do pojedynczej linii melodycznej. Nagrania wielogłosowe są znacząco trudniejsze do analizy i – choć jest ona możliwa (jeden z prowadzonych przeze mnie doktoratów na naszym wydziale dotyczył właśnie tej tematyki) – to jednak ma nieco inne zastosowania.

Warto być naukowcem, ponieważ...

… ponieważ to rozwija. Z jednej strony daje szansę współuczestniczenia w rozwoju cywilizacji poprzez rozwój danej dziedziny nauki, czy techniki, ale także stymuluje do rozwoju indywidualnego, osobistego. To jest najgłębsza motywacja, która mną kierowała, kiedy zdecydowałem się zrezygnować z dalszej pracy w orkiestrze Teatru Wielkiego w Łodzi na rzecz PŁ. Teraz gram w większej – skupiającej naukowców z całego świata, próbujących tworzyć wciąż nowe, własne opera, które przyszłość dopiero zweryfikuje i oceni. W nauce jest coś głęboko humanistycznego – nawet w tych tzw. „ścisłych” dyscyplinach, za każdym najbardziej nawet suchym formalizmem stoi człowiek, który próbował rozwiązać problem i zakomunikować innym swoją myśl. Odkrywanie tych myśli i rozwijanie ich dalej jest dla naukowca drogą, sposobem na życie i fantastyczną przygodą.

Zdjęcie portretowe: dr inż. Bartłomiej Stasiak siedzi przy stole, na którym leży stos książek. Jedna z nich otworzona. Na drugim planie zielone krzesła i niebieskie szyby kabiny.
dr hab. inż. Bartłomiej Stasiak
Adres
Instytut Informatyki
Wydział Fizyki Technicznej, Informatyki i Matematyki Stosowanej
ul. Wólczańska 215
90-924 Łódź, Polska