Practicum spraakanalyse

voorbereiding

  • Lees de handleiding over CPSP.
  • Je kan de software vinden op /home/soundrecognition/cpsp/current/. Zorg dat je startup in matlab draait in deze directory (als je matlab opstart in deze directory wordt startup automatisch door matlab gedraaid).
  • creëer een map voor de geluidsfile (mkdir wav/).

Als gevolg van bijvoorbeeld ruis, coarticulatie en verschillende sprekers is de spraak die je hoort lang niet zo constant als het lijkt. Toch kunnen mensen hier erg goed mee overweg. De modellen die in het college zijn geïntroduceerd hoeven niet met deze variatie om te kunnen gaan, ze verwachten een gelabelde feature-input. In dit practicum gaan we allereerst kijken naar de variabiliteit van spraak en daarna gaan we twee van verschillende variatie-bronnen nader bestuderen; spreker variatie en spreek snelheid variatie. Je hebt voor dit practicum koptelefoons nodig en de functionstest toolbox. In principe werk je in groepjes van twee omdat je spraaksignalen met elkaar wilt vergelijken.

Variatie
Om eerst een beetje ervaring te krijgen met het signaal en met de informatieve delen van het signaal, gaan we sprekers vergelijken. Spreek allebei twee zinnen in waarin tenminste een woord twee keer voorkomt. Hiervoor kun je audacity gebruiken. Sla de file op en run hem vervolgens via functionsTest: Start Matlab zoals uitgelegd in de handleiding en open functionsTest. Om een signaal te analyseren in CPSP selecteer je calcRS (default een uniform referentie spectrum, goed voor onze doeleinden. In het vierde practicum zal je meer leren over referentie spectra) en plotProcessSound en klik je op de button Solve Dep. Klik op run wav en selecteer de file die je zojuist hebt gecreëerd. Er wordt nu een figuur geopend waarin je het cochleogram van dit geluid kunt zien. Open een nieuw figuur via de matlab interface (figure). Beschrijf de verschillen / overeenkomsten die je ziet in zowel het frequentie als het tijdsdomein.

Sprekervariatie
Je hebt in de vorige opdracht gezien dat verschillende sprekers niet altijd hetzelfde signaal produceren terwijl je wel een zelfde woord / zin hoort. In de literatuur wordt er verondersteld dat luisteraars een vorm van spreker normalisatie gebruiken om een match te maken tussen een mentale representatie en het akoestisch signaal. Een van de mogelijkheden zou zijn om het signaal te normaliseren door het terug te brengen naar dezelfde basis-frequentie. Uit onderzoek van Mullennix et al. (1989) blijkt echter dat spreker normalisatie een actief proces is waarbij de luisteraar even moet "zoeken" naar de goede normalisatie voor de betreffende spreker. Het lijkt er dus op dat de spreker-informatie niet wordt verwijderd uit het signaal door een automatische normalisatie / warping. Een andere benadering uit de literatuur gaat ervan uit dat je meerdere representaties voor bepaalde klanken / eenheden hebt, de exemplar theorie. Wanneer je een bepaalde spreker kent kun je hem / haar dus ook makkelijker verstaan (Nygaard et al., 1994).
We gaan dit onderzoeken door een mix te maken van verschillende sprekers. Neem allemaal dezelfde zin of zinnen op, knip deze in stukjes (met audacity) en plak ze vervolgens in verschillende volgorde van spreker achter elkaar. Zorg wel dat de zin hetzelfde blijft. Maak verschillende versies met kleine of grote stukken gerecombineerd (woorden, syllabes, zinsdelen). En maak ook combinaties met alleen mannen / vrouwen stemmen en met combinaties. Luister goed naar deze zinnen of laat ze aan een aantal mensen horen en probeer je bevindingen uit te leggen aan de hand van de twee bovengenoemde theorieën.

Spreeksnelheid
Doe hetzelfde met spreeksnelheid voor een en dezelfde spreker. Neem een of meerder zinnen op op verschillende spreeksnelheid en knip en plak een collage. Kun je de eerder genoemde theorieën ook hier gebruiken om je bevindingen uit te leggen?

Contact

postadres
Auditory Cognition Group
Kunstmatige Intelligentie
Rijksuniversiteit Groningen
Postbus 407
9700 AK Groningen

bezoekadres
Bernoulliborg
Nijenborgh 9
9747 AG Groningen

How to reach us