Syntéza zpěvu pomocí protokolu MIDI
31DZR – Digitální zpracování signálů řeči
Ing. Robert Krejčí
-
Zadání
-
Teoretická část: MIDI a syntéza řeči
-
Praktická část: realizace úlohy v Matlabu
-
Závěr
-
Použitá literatura
Tip: Pokud jste vlastníkem elektronického klávesového hudebního nástroje a nějakého dalšího MIDI zařízení a chcete je propojit mezi sebou, pak si u nás můžete vybrat také nějaký MIDI kabel.
Zadání
-
Prověřte možnost syntézy zpěvu pomocí protokolu MIDI.
-
Vytvořte syntetizér zpěvu, který ze vstupního MIDI souboru vytvoří hlasovou sekvenci zpěvu.
-
Zaměřte se především na syntézu českých samohlásek.
MIDI
-
MIDI = Musical Instruments Digital Interface, Digitální rozhraní hudební elektroniky
-
Komunikace mezi hudebními nástroji.
-
Přehrávání hudebních skladeb, přenos datových bloků mezi hudebními nástroji, řízení scénické techniky a vizuálních efektů při hudební produkci.
-
Obecné rozšíření: hudební nástroje, zvukové karty, mobilní telefony.
MIDI povely
-
Základ MIDI komunikace
-
Standardně: 19 povelů
-
Stavový byte + několik datových bytů
- Povely typu:
- <Nota zapnuta>, <Nota vypnuta>, <Kontrolér>, <Ohýbání tónu>
- <Reset sběrnice>
- <Start>, <Stop>
<Nota zapnuta>, <Nota vypnuta>
-
Výchozí stav: pouze synchronizační povely
-
Stisknuta klávesa C3: <Nota zapnuta nota=C3 rychlost=...>
-
Klávesa je držena: pouze synchronizační povely
-
Klávesa je uvolněna <Nota vypnuta nota=C3 rychlost=...>
<Kontrolér>
-
Potenciometry, tlačítka, otočná kolečka, fadery, ...
-
Fyzické na MIDI zařízení, nebo virtuální (grafické) v hudebním softwaru
- Řízení parametrů zvuku:
- hlasitost
- vibráto
- stereo-pozice
- volba nástroje
- jemné ladění
- náběh, dozvuk
- nožní pedály
- efekty: reverb, tremolo, chorus
Syntéza řeči
-
TTS = Text to Speech = převod textu do řeči
-
Dvě fáze:
-
Zpracování textu
-
Velmi náročná úloha
-
Fonetická transkripce = převedení psaného textu do přesných slov, která se mají syntetizovat
-
Výpočet prosodie (intonace, emoce)
-
-
Číslicová syntéza
-
Formantová syntéza
-
Konkatenační syntéza: řetězení segmentů řeči; difóny, trifóny
-
Syntéza zpěvu
-
Podstatně jednodušší úloha oproti syntéze TTS
-
Odpadá odhad prosodie: intonace hlasu je zadána!
-
Lze použít MIDI protokol = výsledek této práce. Postup:
-
Zápis notového záznamu
-
Opatření textem, který má být zpíván
-
Pomocí kontrolérů lze řídit parametry zpěvu
-
Postup při syntéze zpěvu
-
Příprava MIDI souboru v notačním programu (Cakewalk Sonar) a opatření not textem
Analyzující část
-
Z notačního programu se vyexportuje soubor *.mid ve formátu SMF0.
-
Analýza MIDI souboru mimo reálný čas: vytvoření „plánovací“ tabulky v Matlabu:
-
(Sloupečky jsou: rel. čas, nota, hlasitost, délka, text)
Syntetizující část
-
Program prochází vytvořenou tabulku:
-
Z čísla noty vypočítá její frekvenci – F0
-
Vytvoření tónu hlasivek:
-
Pro každou notu najde samohlásku (viz zadání)
-
Určí formantové kmitočty: F1 – F4
-
Průchod hlasivkového tónu formantovými rezonátory:
Ukázky syntézy zpěvu
-
Ovčáci čtveráci – Matlab
Ovčáci čtveráci Ovčáci čtveráci (MP3, 189 kB)
-
Dennis Klatt's History of Speech Synthesis: Bicycle for Two Bicycle for Two (AU, 307 kB)
-
Microsoft Research: Speech Synthesis for Music
-
Mark and Melanie duet of Unexpected Song Mark and Melanie duet of Unexpected Song (MP3, 692 kB)
-
Mark singing Penny Lane Mark singing Penny Lane (MP3, 805 kB)
-
Melanie’s first song! Melanie’s first song! (MP3, 467 kB)
-
Závěr
-
Pomocí MIDI protokolu lze řídit syntézu zpěvu.
-
Využití:
-
Působivý efekt při hudební produkci.
-
Lze provádět efekty, které by klasickými analyzátory nebyly možné.
-
Lze řídit libovolné parametry zpěvu – přiřazení musí být definované výrobcem.
-
Pomoc při kompozici skladeb a při výuce zpěvu.
-
-
Úskalí
-
MIDI standardně nepodporuje češtinu – nutno používat zástupné znaky.
-
Je potřeba vytvořit přirozenější průběh tónu hlasivek.
-
Použitá literatura
-
Forró, Daniel: Svět MIDI, Grada Publishing, 1997
-
Prášek, Petr: Formantová syntéza, http://noel.feld.cvut.cz/vyu/dzr/dzr12/
-
Čmejla, Roman: Formantová analýza a syntéza, http://amber.feld.cvut.cz/user/cmejla/dzr12/formant.htm
-
Skarnitzl, Radek: http://fu.ff.cuni.cz/vyuka/akustika/
-
Port, Robert F.: Dennis Klatt's History of Speech Synthesis, http://www.cs.indiana.edu/rhythmsp/ASA/Contents.html
-
Microsoft Research: Speech Synthesis for Music, http://research.microsoft.com/srg/whistmusic/