In dit practicum gaan we verder waar we vorige week gebleven waren. Vorige week hebben we het systeem getraind en gekeken wat het kan. Vandaag gaan proberen te ontdekken wat het systeem niet kan. En of wij die dingen, die het systeem niet kan, juist wel zonder moeite kunnen of juist niet...
Omdat dit een commercieel systeem is kunnen we niet binnen het systeem aan parameters 'draaien'. Het enige dat wij kunnen variëren is de invoer. Dit gaan we dus ook uitgebreid doen.
De vorm van dit practicum is als volgt:
pesten
We gaan pesten. Dit doen we door aan de invoer te
'sleutelen'. Dragon NaturallySpeaking heeft ook de mogelijkheid om
met opgenomen spraak te werken, hierdoor kunnen wij het flink
moeilijk maken voor het systeem.
Hierbij een voorgelezen versie van tekst2. Je
kan deze tekst uitlezen door het naar DragonPad te slepen of via
het menu Geluid -> Opname uitschrijven...
Het opnemen van geluid doe je m.b.v. Audacity.
Exporteer alle bestanden als WAV-bestand! Neem een samplefrequentie van 22050 Hz.
komma, etc). Stuur deze wav-file ook op naar .
input variatie
We voegen nu de signalen samen, wederom met Audacity. (Denk aan de
samplefrequentie (22050 Hz) en de lengte van het signaal. Exporteer
ze weer allemaal als WAV-bestand.)
Kies een van de volgende drie soorten stationaire ruis en voeg
deze samen met je eigen tekst. Dit doe je door eerst je
wav-bestand te openen en vervolgens de ruis te importeren (bij
Project -> Audio importeren...
).
Doe hetzelfde met één van de volgende soorten niet-stationaire ruis:
Je kunt nu de signalen gaan verzwakken met een factor
a
. Selecteer hiervoor het signaal dat je wilt
verzwakken (de ruis bij de eerste vier en het spraaksignaal bij de
laatste twee verhoudingen die hier onder staan, bij 0 dB laat je
de signalen ongemoeid) en kies Effect ->
Versterken...
. Vul hier de decibelwaarde (negatief als je
het signaal verzwakt, dus de eerste aanpassing wordt -26 dB!) in
die hieronder staat aangegeven. Het vinkje bij "Don't allow
clipping" mag je weg halen.
Begin bij een factor a = 20
, dit reduceert de energie
van het signaal met een factor 400 = 20^2
en geeft
een signal-to-noise-ratio (SNR) in deciBel (dB) van
10*log10(400) = 26 dB
. Zorg dat je de volgende
signaal ruis verhoudingen maakt:
Doe dit voor beide soorten ruis en luister naar alle opnamen: beschrijf of ze moeilijk te herkennen zijn. Bij de onderstaande opdrachten gebruik je de gemaakte bestanden.
leeg lexicon
Maak een nieuwe gebruiker aan. In het scherm van van
Gebruiker maken -> Geavanceerd...
, kies Leeg
lexicon
. Volg de instructies op zoals eerder en dicteer
tekst 2 (wederom "De auto").
testen
Voor de opdrachten moet je de bestanden die je gemaakt hebt
uitschrijven. Dat doe je op de volgende manier: kies Geluid
-> Opname uitschrijven...
. Beantwoord steeds de vragen die
bij die bij de uit te schrijven bestanden horen (hieronder). Zorg
dat je alle uitgeschreven teksten opslaat.
individuele opdrachten
analyse resultaten
deadline vrijdag 20 maart om 9 uur 's ochtends
Jullie hebben in het practicum uitgebreid kennis gemaakt met de
mogelijkheden en onmogelijkheden van Dragon. Vat nu de resultaten
van de twee practica (spelen en pesten) samen en leg verbanden met
de onderliggende werking van Dragon NaturallySpeaking (HMM's
e.d.). Hieronder staat een aantal vragen dat je kunt gebruiken
voor de analyse. Je hoeft ze niet allemaal te beantwoorden,
gebruik alleen interessante antwoorden die bijdragen aan een
antwoord op de speciale aandachtspunten onderaan de pagina.
NB. Je krijgt de resultaten van de andere groepen vrijdag 13 maart
door Maria toegestuurd.
vragen bij het eerste practicum
vragen bij het tweede practicum
Speciale aandachtspunten voor de relatie tussen de theorie en de praktijk:
postadres
Auditory Cognition Group
Kunstmatige Intelligentie
Rijksuniversiteit Groningen
Postbus 407
9700 AK Groningen
bezoekadres
Bernoulliborg
Nijenborgh 9
9747 AG Groningen