Streszczenie:
Technologie głosowe są na świecie rozwijane co najmniej od połowy lat 70-tych. Ich główną zaletą jest możliwość stworzenia głosowej interakcji między użytkownikiem a komputerem.
Text-to-speech system jest modułem konwersji tekstu na mowę. Wykorzystuje się tą technologię do generowania dźwiękowej postaci danych tekstowych. Dzięki temu można tworzyć portale głosowe, czy też aplikacje z głosowym interfejsem. Celem nowoczesnych projektów jest zapewnienie takiej jakości syntezy, by słuchający nie był w stanie odróżnić mowy syntetyzowanej od naturalnej (Turing 1950). Z oczywistych powodów nie jest możliwe stworzenie i nagranie wszystkich form i wszystkich słów dla danego języka, stąd konieczność syntezowania mowy. System TTS definiuje się jako system automatycznego generowania mowy z tekstu ortograficznego, z modułem transkrypcji fonetycznej oraz modułami odpowiedzialnymi za prozodię i intonację.
Istnieje kilka metod generowania syntetycznej mowy. Obecnie stosowane są dwie technologie. Pierwsza, zwana regułową syntezą mowy, polega na jej generowaniu poprzez układ symulujący ludzki aparat mowy o zmiennych parametrach. Druga, zwana konkatenacyjną syntezą mowy polega na łączeniu jednostek akustycznych wybieranych z bazy nagrań głosu naturalnego. Synteza korpusowa jest szczególnym rodzajem syntezy konkatenacyjnej (Szklanny i wsp. 2008).
W syntezie korpusowej baza językowa jest znacznie większa i zawiera posegmentowane wypowiedzi, na segmenty akustyczne o różnej rozciągłości (np. głoski, difony, trifony, sylaby, wyrazy, całe zdania). Ta sama jednostka występuje wielokrotnie. Chcąc wygenerować zadaną wypowiedź dobierane są takie jednostki, które minimalizują wartość globalnej funkcji kosztu. Funkcja ta zwykle składa się z dwóch części: kosztu doboru jednostki oraz kosztu konkatenacji. Według badań przeprowadzonych dla języka angielskiego (Clark i wsp. 2007) wynika, iż w przypadku kosztu doboru jednostki najistotniejszym
parametrem jest akcent. Waga akcentu powinna być jak największa. O ile w języku angielskim dominuje akcent melodyczny, o tyle w polskim jest pewna swoboda w jego realizacji – może mieć on formę melodyczną lub dynamiczną. Istotne znaczenie zajmuje pozycja w frazie. Zatem obecnie zasadniczym problemem w syntezie mowy nie jest stworzenie mowy zrozumiałej, a uzyskanie jej jakości powszechnie akceptowalnej. O tym decyduje poprawna wymowa i właściwe akcentowanie.
Funkcja kosztu konkatenacji wyznacza jakość połączenia na podstawie czasu trwania jednostek akustycznych tworzących łączone fragmenty, ich intonacji, konturu widma oraz energii. Na ogół modyfikacje prozodyczne sygnału nie są konieczne (w przypadku syntezy korpusowej), co przekłada się na dużą naturalność brzmienia generowanej mowy. Metoda selekcji jednostek (ang. unit selection) jest najbardziej efektywna i popularna metoda syntezy konkatenacyjnej.
Głównym celem pracy było zoptymalizowanie funkcji kosztu w korpusowej syntezie mowy dla języka polskiego. W celu realizacji tego
zadania należało przygotować kompletny system syntezy korpusowej. Proces ten obejmował etap przygotowania korpusu, realizacje nagrań, segmentację bazy językowej. Jakość segmentacji została zweryfikowana w prototypowym syntezatorze. Następnie przygotowano nowy głos w środowisku Festival wykorzystując nagraną bazę akustyczną. Praca ta zawierała realizację nowych modułów, jak i dostosowanie już istniejących do wymogów syntezy mowy polskiej. W ten sposób powstał kompletny system korpusowej syntezy mowy. Następnie zoptymalizowano funkcję kosztu wykorzystując do tego algorytm ewolucyjny. Efekt badań został potwierdzony percepcyjnym testem jakości syntetycznej mowy typu MOS (ITU 1996) (ang. mean opinion score).
W pracy zostały postawione trzy tezy:
funkcje kosztu można optymalizować za pomocą metod heurystycznych. Jedną z metod optymalizacji jest metoda oparta na algorytmie ewolucyjnym
optymalizacja funkcji kosztu ma istotny wpływ na poprawienie jakości syntezy korpusowej
wybór odpowiedniego mówcy oraz jakość bazy akustycznej ma bardzo duży wpływ na finalną jakość generowanej mowy
Pierwszy rozdział pracy jest wprowadzeniem do opisu sygnału mowy. Przedstawiono w nim budowę narządu mowy oraz specyfikę języka polskiego. Omówiona została klasyfikacja dźwięków mowy. W dalszej części opisano reguły transkrypcji fonetycznej. Następnie przedstawiono modele opisu prozodii języka polskiego. W końcowej części rozdziału przedstawiono rodzaje jednostek akustycznych używanych w syntezie mowy oraz podstawowe modele opisu prozodii.
W drugim rozdziale zaprezentowano historię syntetyzatorów mowy. Opisano podstawowe rodzaje syntezy, a także dokonano analizy działania systemu TTS oraz jego poszczególnych modułów. System TTS (według (Dutoit 1997, Taylor 2009)) definiuje się jako automatyczny proces generowania mowy od momentu transkrypcji zdania aż po jego wypowiedzenie.
Rozdział trzeci stanowi wprowadzenie do jednej z najważniejszej funkcji w korpusowym syntezatorze mowy - funkcji kosztu.
W rozdziale czwartym przedstawiono szereg zadań, które twórca systemu korpusowej syntezy mowy musi rozwiązywać. Opisano sposób tworzenia korpusu, rejestracji nagrań oraz ich segmentacji. Przedstawiono również automatyczną metodę korekty posegmentowanych nagrań. W systemach korpusowych istnieje kilka sposobów optymalizacji funkcji kosztu. Pierwszy z nich polega na intuicyjnym dobieraniu parametrów oraz przeprowadzaniu kontrolnych testów percepcyjnych, które mają umożliwić wyznaczenie najlepszych pod względem percepcyjnym współczynników wag. Drugim sposobem jest metoda automatyczna polegająca na trenowaniu poszczególnych wag kosztu doboru jednostki.
W rozdziale piątym opisano strukturę i sposób działania algorytmu ewolucyjnego. Przedstawiono strategię (µ+λ) (Michalewicz 2004) wykorzystaną w procesie optymalizacji funkcji kosztu oraz sposób przeprowadzenia badań optymalizacyjnych.
W rozdziale szóstym zinterpretowano oraz dokonano analizy wyników badań. Wyniki tego testu wskazują, iż strategie ewolucyjne są skuteczne w procesie optymalizacyjnym i wygenerowane parametry dla funkcji kosztu potwierdziły to w badaniach testowych.
Rozdział siódmy zawiera opis testu percepcyjnego MOS, którego wyniki potwierdziły skuteczność wykonanych badań optymalizacyjnych dzięki, którym uzyskano lepszą jakość syntetycznej mowy polskiej. Przedmiotem badań testowych jest porównanie 3 różnych funkcji kosztu, ocenia jakość sygnału syntezy mowy uzyskanej na drodze resyntezy , oraz nagrań pochodzących z bazy akustycznej.
Opis:
Rozprawa doktorska.
Opiekun naukowy: dr hab. Krzysztof Marasek.
Polsko-Japońska Wyższa Szkoła Technik Komputerowych, Warszawa, wrzesień 2009