29 april 2009: De cijfers van het vierde practicum staan op Nestor (voor diegenen die het in hebben geleverd).
8 april 2009:
De cijfers van het tweede deeltentamen staan op Nestor.
6 april 2009:
De cijfers van het derde practicum staan op Nestor.
3 april 2009:
De deadline van het vierde practicum is een week uitgesteld naar vrijdag 17 april om 9 uur 's ochtends.
2 april 2009:
Morgen tijdens het practicum wordt het laatste deeltentamen
uitgedeeld. De deadline voor dit take-home tentamen is maandag 20
april. Op Springer
kan je de template vinden die je moet gebruiken.
31 maart 2009:
De cijfers van het tweede practicum (inclusief de analyseopdracht) staan op Nestor. De
practicumopdrachten tellen twee keer zo zwaar als de analyseopdrachten.
21 maart 2008:
De practicumopgaven over CPSP zijn weer up-to-date.
20 maart 2008:
De deadline van het vierde
practicum (beide delen) is vrijdag 10 april om 9 uur 's ochtends. Je kan de
uitwerkingen sturen naar .
13 maart 2009:
De cijfers van het eerste deeltentamen staan op Nestor.
13 maart 2009:
Op vrijdag 20 maart om 9 uur 's ochtends is zowel de deadline van de analyse van het tweede
practicum als de uitwerkingen van het derde practicum. Je kan je uitwerkingen sturen
naar ,
of in Maria's postvakje leggen op de derde verdieping van de
Bernoulliborg. De uitwerkingen van het derde practicum moeten ook naar worden gestuurd!
10 maart 2009:
Het deeltentamen van volgende week maandag (16 maart) wordt een week verplaatst naar dinsdag 24 maart, van 11u tot 12u in BB334a (de vissekom). De stof voor dit deeltentamen is spraakherkenning.
3 maart 2009:
A.s. vrijdag (6 maart) aan het begin van het practicum in BB 283
is het eerste deeltentamen van 9 uur (precies!) tot 10 uur over
de
introductie
en signaalanalyse.
3 maart 2009:
De cijfers van het eerste practicum staan op nestor.
27 februari 2009:
De deadline van beide onderdelen van het tweede
practicum (behalve de analyse opdrachten!) is vrijdag 13 maart
om 9 uur 's ochtends. Je kan je uitwerkingen sturen
naar ,
of in Maria's postvakje leggen op de derde verdieping van de
Bernoulliborg.
24 februari 2009:
De komende twee weken (27 februari en 6 maart) is het practicum in zaal BB283.
24 februari 2009:
De cijfers van de studentenpresentaties op 24 februari staan op de cijferlijsten op nestor.
17 februari 2009:
In het hoorcollege van 24 februari worden de presentaties door de studenten gegeven. Zie het hoorcollege voor een overzicht van de onderwerpen per student.
12 februari 2009:
De deadline van het eerste
practicum is vrijdag 27 februari om 9 uur 's ochtends. Je kan
je uitwerkingen sturen
naar ,
of in Maria's postvakje leggen op de derde verdieping van de
Bernoulliborg.
10 februari 2009:
Het practicum van vrijdag 13 februari wordt verplaatst naar
maandag 16 februari van 9 tot 13 uur in dezelfde zaal (BB 228). Omdat Maria niet aanwezig is wordt het deze keer gegeven door Hedde.
5 februari 2009:
De klapper is te koop bij de repro-shop in de Bernoulliborg.
21 januari 2009:
Het eerste college is op 10 februari. Kijk voor meer informatie
bij het rooster.
Practicum Taal- en Spraaktechnologie is een keuze-practicum voor derdejaars studenten. Het vak wordt in de vorm van hoorcolleges en computerpractica gegeven. Na het volgen van dit practicum beschik je over inzicht in de (huidige) spraaktechnologie en het vermogen om op een zinvolle manier hierover te discussiëren. Verplichte voorkennis voor dit vak is "Inleiding Taal- en Spraaktechnologie", verder is een basis in de signaalanalyse handig. Het is echter zo dat een deel van het practicum ook handig is om signaal-analyse eens van een andere kant te bekijken, wat handig kan zijn voor "Systemen en Signalen".
rode draad
Het bijzondere aan het menselijke perceptuele systeem is dat het
ons in zoveel verschillende situaties betrouwbaar van dienst kan
zijn. Om geluiden, en spraak in het bijzonder, te herkennen werken
een groot aantal representatieniveaus, van het laagste
signaalverwerkingsniveau tot het hoogste cognitieve niveau,
samen. Op de verschillende niveaus wordt het input signaal
gescheiden in streams die alle vaststelbare informatie van een
enkele bron vertegenwoordigen. Binnen een stream kan alle
beschikbare bronkennis worden gebruikt om een zo goed en zinvol
mogelijk herkenningsresultaat te behalen.
spraaksignaalanalyse
Eerst wordt een flink deel van de (spraak-) signaalanalyse in een
rap tempo herhaald. Nadruk hierbij ligt op praktische aspecten:
waar en hoe informatie te vinden over bepaalde frequenties, hoe te
rekenen met tijden en frequenties en op welke wijze goede
geluidsopnamen te maken en kwantitatief te analyseren. Centraal
hierbij staat de Fast Fourier Transform (FFT).
spraakherkenning
Dan wordt de standaard spraakherkenningstechnologie
besproken aan de hand van een modern commercieel dicteersysteem
(Dragon NaturallySpeaking) op basis van HMM-technologie. Dit
systeem wordt getraind en in verschillende situaties
getest. Hierbij wordt een aantal overeenkomsten en verschillen
tussen het menselijk spraakverwerkingssysteem en de technische
uitvoering ervan onderzocht.
Van de moderne automatische spraaktechnologie worden de mogelijkheden en beperkingen in kaart gebracht door middel van een aantal experimenten. Op basis hiervan worden een aantal verbeterpunten gedefinieerd. Er wordt, in de vorm van een aantal herkenningsexperimenten, ingegaan op de effecten van verschillen in spreekstijl en van mengsels van geluidsbronnen.
Een niet onbelangrijke beperking van automatische spraakherkenningsystemen is dat er geen praktisch uitvoerbare bronscheiding mee mogelijk is. Dit in tegenstelling tot het menselijk auditief systeem, dat dit schijnbaar moeiteloos en in veel gevallen feilloos uitvoert. Het auditief systeem maakt blijkbaar beter gebruik van de beschikbare informatie dan de huidige generatie spaakherkenningsystemen. Op dit probleem wordt ingegaan in een college over Computational Auditory Scene Analysis (CASA).
spraakperceptie
In het derde deel wordt aandacht besteed aan spraakperceptie bij
de mens. Hierbij zal de nadruk liggen op de representaties van
spraak en op een aantal psycholinguïstische theorieën.
cognitiewetenschappelijke bijdragen
Het college sluit af met Continuity Preserving Signal Processing
(CPSP), een vorm van signaalanalyse die het een stuk makkelijker
maakt om de ontwikkeling van geluidsbronnen te volgen. Hiermee is
het mogelijk om kennis op het gebied van Auditory Scene Analsysis
(ASA) toe te passen.
Er wordt ingegaan op de (vaststelbare) signaaleigenschappen die de geluidsbronnen karakteriseren. Daarbij wordt de vraag gesteld wat de eigenschappen van verschillende soorten signalen zijn en hoe de geluiden van verschillende systemen onderling verschillen. In het bijzonder wordt bekeken hoe een spreker zich onderscheidt van andere geluidsbronnen, waar de voor onderscheiding relevante informatie zich in het signaal bevindt en hoe die informatie efficiënt kan worden gedetecteerd en gerepresenteerd.
opzet en becijfering
Het vak is opgebouwd uit een computerpracticum en hoorcolleges,
respectievelijk 4 en 2 uur per week. De beoordeling van het vak
komt tot stand uit de opdrachten van het practicum en de
deeltentamens. Bij de hoorcolleges geldt een aanwezigheidsplicht,
ben je afwezig zonder (geldige) reden dan kan er geen positieve
beoordeling gegeven worden voor dit vak.
Er is één hertentamen dat wordt gehouden in de tentamenperiode na het blok.
hoorcolleges
De hoorcolleges bestaan uit colleges die door Tjeerd Andringa, Bea
Valkenier en eventueel een gastspreker worden gegeven. In overleg
met de studenten kunnen de hoorcolleges aangevuld worden met
presentaties van de studenten zelf, gebaseerd op artikelen,
websearches of practicumonderdelen.
computerpractica
De practica worden begeleid door Maria Niessen en Bea
Valkenier. Tijdens de practica werk je in koppels. Deze zullen het
eerste college gevormd worden. Iedere week worden de opdrachten
voor die week gemaakt voor een aangegeven deadline. Deze worden
beoordeeld en tellen mee voor het eindresultaat.
De software die we voor deze practica gebruiken bestaat uit Matlab en de software van Sound Intelligence, voor onderzoek uitgebreid door de Auditory Cognition Group. Deze gebruiken we om spraak te kunnen analyseren en er allerlei bewerkingen op los te laten. Voor het onderdeel automatische spraakherkenning gebruiken we de software van Nuance: Dragon NaturallySpeaking. Deze software is representatief voor de kwaliteit en de benaderingswijze van de moderne spraakherkenningstechnologie.
Tjeerd Andringa
email:
Maria Niessen
email:
Bea Valkenier
email:
postadres
Auditory Cognition Group
Kunstmatige Intelligentie
Rijksuniversiteit Groningen
Postbus 407
9700 AK Groningen
bezoekadres
Bernoulliborg
Nijenborgh 9
9747 AG Groningen