dc.description.abstract |
Korpusy mowy posiadają wiele zastosowań. Można na ich podstawie badać własności
języka mówionego, czy opracowywać algorytmy np. rozpoznawania mowy lub klasyfikacji
mówców. W przypadku niektórych podejść, takich jak uczenie głębokie, posiadanie
korpusów ogromnych rozmiarów potrafi pozwolić na stworzenie rozwiązań o
wysokiej skuteczności. Jednak korpus niskiej jakości możne uniemożliwić osiągniecie
docelowych wyników, z tego powodu ocena jakości sygnału mowy jest kluczowa.
Manualne ocenianie nagrań jest kosztowne i czasochłonne, w wyniku tego istnieje
zapotrzebowanie na algorytmy automatycznie dokonujące oceny. Wiele metod
do oceny jakości mowy nie jest przeznaczone do takich danych, ponieważ zostały stworzone
do porównywania sygnału oryginalnego (zwanego referencyjnym) z sygnałem
zdegradowanym w wyniku np. zastosowania na nim kodeku. Korpusy mogą służyć do
zastosowań, w których nie modyfikuje się sygnału otrzymując drugi, którego jakość
można oszacować przyrównując go do oryginalnego sygnału. Oznacza to, ze wymagane
jest podejście działające tylko na oryginalnym sygnale.
Efektem niniejszej pracy jest aplikacja desktopowa, która umożliwia automatyczna
predykcje jakości nagrań w korpusie, estymacje SNR w nagraniach i podsumowanie
uzyskanych wyników za pomocą wykresów. Aplikacja posiada również opcje podsumowania
różnorodnych cech korpusu takich jak czas trwania poszczególnych fonemów
lub najczęściej występujące słowa.
W pierwszym rozdziale pracy podsumowano przeanalizowane źródła literatury
opisujące metody oceny ogólnej jakości nagrania jak również sposoby szacowania
SNR w nagraniach mowy. Drugi rozdział opisuje wykorzystane technologie, narzędzia
i korpus nagrań mowy CLARIN. Zawarte w tym rozdziale zostały również opisy
metod służących do estymacji SNR i predykcji ogólnej jakości sygnału mowy, na których
bazowano w pracy. W ostatnim, trzecim rozdziale znajduje się opis aplikacji, jej
funkcjonalności, przypadków jej użycia i wyniki uzyskane na korpusie CLARIN przez
metody dostępne z poziomu aplikacji. Opisany został w nim również proces dostosowania
modelu przewidującego jakość nagrania mowy do pracy z korpusem CLARIN. |
pl_PL |