voorbereiding
/home/soundrecognition/cpsp/current/
. Zorg dat je
startup
in matlab draait in deze directory (als je
matlab opstart in deze directory wordt startup automatisch door
matlab gedraaid).mkdir
wav/
).
Als gevolg van bijvoorbeeld ruis, coarticulatie en verschillende sprekers is de spraak die je hoort lang niet zo constant als het lijkt. Toch kunnen mensen hier erg goed mee overweg. De modellen die in het college zijn geïntroduceerd hoeven niet met deze variatie om te kunnen gaan, ze verwachten een gelabelde feature-input. In dit practicum gaan we allereerst kijken naar de variabiliteit van spraak en daarna gaan we twee van verschillende variatie-bronnen nader bestuderen; spreker variatie en spreek snelheid variatie. Je hebt voor dit practicum koptelefoons nodig en de functionstest toolbox. In principe werk je in groepjes van twee omdat je spraaksignalen met elkaar wilt vergelijken.
Variatie
Om eerst een beetje ervaring te krijgen met het signaal en met de
informatieve delen van het signaal, gaan we sprekers
vergelijken. Spreek allebei twee zinnen in waarin tenminste een
woord twee keer voorkomt. Hiervoor kun je audacity gebruiken. Sla
de file op en run hem vervolgens via functionsTest
:
Start Matlab zoals uitgelegd in
de handleiding en
open functionsTest
. Om een signaal te analyseren in
CPSP selecteer je calcRS
(default een uniform
referentie spectrum, goed voor onze doeleinden. In het vierde
practicum zal je meer leren over referentie spectra)
en plotProcessSound
en klik je op de
button Solve Dep
. Klik op run wav
en
selecteer de file die je zojuist hebt gecreëerd. Er wordt nu
een figuur geopend waarin je het cochleogram van dit geluid kunt
zien. Open een nieuw figuur via de matlab interface
(figure). Beschrijf de verschillen / overeenkomsten die je ziet in
zowel het frequentie als het tijdsdomein.
Sprekervariatie
Je hebt in de vorige opdracht gezien dat verschillende sprekers
niet altijd hetzelfde signaal produceren terwijl je wel een zelfde
woord / zin hoort. In de literatuur wordt er verondersteld dat
luisteraars een vorm van spreker normalisatie gebruiken om een
match te maken tussen een mentale representatie en het akoestisch
signaal. Een van de mogelijkheden zou zijn om het signaal te
normaliseren door het terug te brengen naar dezelfde
basis-frequentie. Uit onderzoek van Mullennix et al. (1989) blijkt
echter dat spreker normalisatie een actief proces is waarbij de
luisteraar even moet "zoeken" naar de goede normalisatie voor de
betreffende spreker. Het lijkt er dus op dat de spreker-informatie
niet wordt verwijderd uit het signaal door een automatische
normalisatie / warping. Een andere benadering uit de literatuur
gaat ervan uit dat je meerdere representaties voor bepaalde
klanken / eenheden hebt, de exemplar theorie. Wanneer je een
bepaalde spreker kent kun je hem / haar dus ook makkelijker
verstaan (Nygaard et al., 1994).
We gaan dit onderzoeken door een mix te maken van verschillende
sprekers. Neem allemaal dezelfde zin of zinnen op, knip deze in
stukjes (met audacity) en plak ze vervolgens in verschillende
volgorde van spreker achter elkaar. Zorg wel dat de zin hetzelfde
blijft. Maak verschillende versies met kleine of grote stukken
gerecombineerd (woorden, syllabes, zinsdelen). En maak ook
combinaties met alleen mannen / vrouwen stemmen en met
combinaties. Luister goed naar deze zinnen of laat ze aan een
aantal mensen horen en probeer je bevindingen uit te leggen aan de
hand van de twee bovengenoemde theorieën.
Spreeksnelheid
Doe hetzelfde met spreeksnelheid voor een en dezelfde
spreker. Neem een of meerder zinnen op op verschillende
spreeksnelheid en knip en plak een collage. Kun je de eerder
genoemde theorieën ook hier gebruiken om je bevindingen uit
te leggen?
postadres
Auditory Cognition Group
Kunstmatige Intelligentie
Rijksuniversiteit Groningen
Postbus 407
9700 AK Groningen
bezoekadres
Bernoulliborg
Nijenborgh 9
9747 AG Groningen