Narzędzie do mierzenia jakości korpusów mowy

Repozytorium PJATK
→
Wydział Informatyki / Faculty of Information Technology
→
Praca magisterska - Data Science 2021
→
Zobacz pozycję

dc.contributor.author	Litwinowicz, Jakub Edward
dc.date.accessioned	2023-01-02T08:28:33Z
dc.date.available	2023-01-02T08:28:33Z
dc.date.issued	2023-01-02
dc.identifier.issn	2021/M/DS/10
dc.identifier.uri	https://repin.pjwstk.edu.pl/xmlui/handle/186319/2048
dc.description.abstract	Korpusy mowy posiadają wiele zastosowań. Można na ich podstawie badać własności języka mówionego, czy opracowywać algorytmy np. rozpoznawania mowy lub klasyfikacji mówców. W przypadku niektórych podejść, takich jak uczenie głębokie, posiadanie korpusów ogromnych rozmiarów potrafi pozwolić na stworzenie rozwiązań o wysokiej skuteczności. Jednak korpus niskiej jakości możne uniemożliwić osiągniecie docelowych wyników, z tego powodu ocena jakości sygnału mowy jest kluczowa. Manualne ocenianie nagrań jest kosztowne i czasochłonne, w wyniku tego istnieje zapotrzebowanie na algorytmy automatycznie dokonujące oceny. Wiele metod do oceny jakości mowy nie jest przeznaczone do takich danych, ponieważ zostały stworzone do porównywania sygnału oryginalnego (zwanego referencyjnym) z sygnałem zdegradowanym w wyniku np. zastosowania na nim kodeku. Korpusy mogą służyć do zastosowań, w których nie modyfikuje się sygnału otrzymując drugi, którego jakość można oszacować przyrównując go do oryginalnego sygnału. Oznacza to, ze wymagane jest podejście działające tylko na oryginalnym sygnale. Efektem niniejszej pracy jest aplikacja desktopowa, która umożliwia automatyczna predykcje jakości nagrań w korpusie, estymacje SNR w nagraniach i podsumowanie uzyskanych wyników za pomocą wykresów. Aplikacja posiada również opcje podsumowania różnorodnych cech korpusu takich jak czas trwania poszczególnych fonemów lub najczęściej występujące słowa. W pierwszym rozdziale pracy podsumowano przeanalizowane źródła literatury opisujące metody oceny ogólnej jakości nagrania jak również sposoby szacowania SNR w nagraniach mowy. Drugi rozdział opisuje wykorzystane technologie, narzędzia i korpus nagrań mowy CLARIN. Zawarte w tym rozdziale zostały również opisy metod służących do estymacji SNR i predykcji ogólnej jakości sygnału mowy, na których bazowano w pracy. W ostatnim, trzecim rozdziale znajduje się opis aplikacji, jej funkcjonalności, przypadków jej użycia i wyniki uzyskane na korpusie CLARIN przez metody dostępne z poziomu aplikacji. Opisany został w nim również proces dostosowania modelu przewidującego jakość nagrania mowy do pracy z korpusem CLARIN.	pl_PL
dc.language.iso	other	pl_PL
dc.relation.ispartofseries	;Nr 6293
dc.subject	Informatyka	pl_PL
dc.title	Narzędzie do mierzenia jakości korpusów mowy	pl_PL
dc.type	Thesis	pl_PL