Nieuws

29 april 2009:
De cijfers van het vierde practicum staan op Nestor (voor diegenen die het in hebben geleverd).

8 april 2009:
De cijfers van het tweede deeltentamen staan op Nestor.

6 april 2009:
De cijfers van het derde practicum staan op Nestor.

3 april 2009:
De deadline van het vierde practicum is een week uitgesteld naar vrijdag 17 april om 9 uur 's ochtends.

2 april 2009:
Morgen tijdens het practicum wordt het laatste deeltentamen uitgedeeld. De deadline voor dit take-home tentamen is maandag 20 april. Op Springer kan je de template vinden die je moet gebruiken.

31 maart 2009:
De cijfers van het tweede practicum (inclusief de analyseopdracht) staan op Nestor. De practicumopdrachten tellen twee keer zo zwaar als de analyseopdrachten.

21 maart 2008:
De practicumopgaven over CPSP zijn weer up-to-date.

20 maart 2008:
De deadline van het vierde practicum (beide delen) is vrijdag 10 april om 9 uur 's ochtends. Je kan de uitwerkingen sturen naar .

13 maart 2009:
De cijfers van het eerste deeltentamen staan op Nestor.

13 maart 2009:
Op vrijdag 20 maart om 9 uur 's ochtends is zowel de deadline van de analyse van het tweede practicum als de uitwerkingen van het derde practicum. Je kan je uitwerkingen sturen naar , of in Maria's postvakje leggen op de derde verdieping van de Bernoulliborg. De uitwerkingen van het derde practicum moeten ook naar worden gestuurd!

10 maart 2009:
Het deeltentamen van volgende week maandag (16 maart) wordt een week verplaatst naar dinsdag 24 maart, van 11u tot 12u in BB334a (de vissekom). De stof voor dit deeltentamen is spraakherkenning.

3 maart 2009:
A.s. vrijdag (6 maart) aan het begin van het practicum in BB 283 is het eerste deeltentamen van 9 uur (precies!) tot 10 uur over de introductie en signaalanalyse.

3 maart 2009:
De cijfers van het eerste practicum staan op nestor.

27 februari 2009:
De deadline van beide onderdelen van het tweede practicum (behalve de analyse opdrachten!) is vrijdag 13 maart om 9 uur 's ochtends. Je kan je uitwerkingen sturen naar , of in Maria's postvakje leggen op de derde verdieping van de Bernoulliborg.

24 februari 2009:
De komende twee weken (27 februari en 6 maart) is het practicum in zaal BB283.

24 februari 2009:
De cijfers van de studentenpresentaties op 24 februari staan op de cijferlijsten op nestor.

17 februari 2009:
In het hoorcollege van 24 februari worden de presentaties door de studenten gegeven. Zie het hoorcollege voor een overzicht van de onderwerpen per student.

12 februari 2009:
De deadline van het eerste practicum is vrijdag 27 februari om 9 uur 's ochtends. Je kan je uitwerkingen sturen naar , of in Maria's postvakje leggen op de derde verdieping van de Bernoulliborg.

10 februari 2009:
Het practicum van vrijdag 13 februari wordt verplaatst naar maandag 16 februari van 9 tot 13 uur in dezelfde zaal (BB 228). Omdat Maria niet aanwezig is wordt het deze keer gegeven door Hedde.

5 februari 2009:
De klapper is te koop bij de repro-shop in de Bernoulliborg.

21 januari 2009:
Het eerste college is op 10 februari. Kijk voor meer informatie bij het rooster.

Introductie

Practicum Taal- en Spraaktechnologie is een keuze-practicum voor derdejaars studenten. Het vak wordt in de vorm van hoorcolleges en computerpractica gegeven. Na het volgen van dit practicum beschik je over inzicht in de (huidige) spraaktechnologie en het vermogen om op een zinvolle manier hierover te discussiëren. Verplichte voorkennis voor dit vak is "Inleiding Taal- en Spraaktechnologie", verder is een basis in de signaalanalyse handig. Het is echter zo dat een deel van het practicum ook handig is om signaal-analyse eens van een andere kant te bekijken, wat handig kan zijn voor "Systemen en Signalen".

rode draad
Het bijzondere aan het menselijke perceptuele systeem is dat het ons in zoveel verschillende situaties betrouwbaar van dienst kan zijn. Om geluiden, en spraak in het bijzonder, te herkennen werken een groot aantal representatieniveaus, van het laagste signaalverwerkingsniveau tot het hoogste cognitieve niveau, samen. Op de verschillende niveaus wordt het input signaal gescheiden in streams die alle vaststelbare informatie van een enkele bron vertegenwoordigen. Binnen een stream kan alle beschikbare bronkennis worden gebruikt om een zo goed en zinvol mogelijk herkenningsresultaat te behalen.

Vakinhoud

spraaksignaalanalyse
Eerst wordt een flink deel van de (spraak-) signaalanalyse in een rap tempo herhaald. Nadruk hierbij ligt op praktische aspecten: waar en hoe informatie te vinden over bepaalde frequenties, hoe te rekenen met tijden en frequenties en op welke wijze goede geluidsopnamen te maken en kwantitatief te analyseren. Centraal hierbij staat de Fast Fourier Transform (FFT).

spraakherkenning
Dan wordt de standaard spraakherkenningstechnologie besproken aan de hand van een modern commercieel dicteersysteem (Dragon NaturallySpeaking) op basis van HMM-technologie. Dit systeem wordt getraind en in verschillende situaties getest. Hierbij wordt een aantal overeenkomsten en verschillen tussen het menselijk spraakverwerkingssysteem en de technische uitvoering ervan onderzocht.

Van de moderne automatische spraaktechnologie worden de mogelijkheden en beperkingen in kaart gebracht door middel van een aantal experimenten. Op basis hiervan worden een aantal verbeterpunten gedefinieerd. Er wordt, in de vorm van een aantal herkenningsexperimenten, ingegaan op de effecten van verschillen in spreekstijl en van mengsels van geluidsbronnen.

Een niet onbelangrijke beperking van automatische spraakherkenningsystemen is dat er geen praktisch uitvoerbare bronscheiding mee mogelijk is. Dit in tegenstelling tot het menselijk auditief systeem, dat dit schijnbaar moeiteloos en in veel gevallen feilloos uitvoert. Het auditief systeem maakt blijkbaar beter gebruik van de beschikbare informatie dan de huidige generatie spaakherkenningsystemen. Op dit probleem wordt ingegaan in een college over Computational Auditory Scene Analysis (CASA).

spraakperceptie
In het derde deel wordt aandacht besteed aan spraakperceptie bij de mens. Hierbij zal de nadruk liggen op de representaties van spraak en op een aantal psycholinguïstische theorieën.

cognitiewetenschappelijke bijdragen
Het college sluit af met Continuity Preserving Signal Processing (CPSP), een vorm van signaalanalyse die het een stuk makkelijker maakt om de ontwikkeling van geluidsbronnen te volgen. Hiermee is het mogelijk om kennis op het gebied van Auditory Scene Analsysis (ASA) toe te passen.

Er wordt ingegaan op de (vaststelbare) signaaleigenschappen die de geluidsbronnen karakteriseren. Daarbij wordt de vraag gesteld wat de eigenschappen van verschillende soorten signalen zijn en hoe de geluiden van verschillende systemen onderling verschillen. In het bijzonder wordt bekeken hoe een spreker zich onderscheidt van andere geluidsbronnen, waar de voor onderscheiding relevante informatie zich in het signaal bevindt en hoe die informatie efficiënt kan worden gedetecteerd en gerepresenteerd.

Vakopzet

opzet en becijfering
Het vak is opgebouwd uit een computerpracticum en hoorcolleges, respectievelijk 4 en 2 uur per week. De beoordeling van het vak komt tot stand uit de opdrachten van het practicum en de deeltentamens. Bij de hoorcolleges geldt een aanwezigheidsplicht, ben je afwezig zonder (geldige) reden dan kan er geen positieve beoordeling gegeven worden voor dit vak.

Er is één hertentamen dat wordt gehouden in de tentamenperiode na het blok.

hoorcolleges
De hoorcolleges bestaan uit colleges die door Tjeerd Andringa, Bea Valkenier en eventueel een gastspreker worden gegeven. In overleg met de studenten kunnen de hoorcolleges aangevuld worden met presentaties van de studenten zelf, gebaseerd op artikelen, websearches of practicumonderdelen.

computerpractica
De practica worden begeleid door Maria Niessen en Bea Valkenier. Tijdens de practica werk je in koppels. Deze zullen het eerste college gevormd worden. Iedere week worden de opdrachten voor die week gemaakt voor een aangegeven deadline. Deze worden beoordeeld en tellen mee voor het eindresultaat.

De software die we voor deze practica gebruiken bestaat uit Matlab en de software van Sound Intelligence, voor onderzoek uitgebreid door de Auditory Cognition Group. Deze gebruiken we om spraak te kunnen analyseren en er allerlei bewerkingen op los te laten. Voor het onderdeel automatische spraakherkenning gebruiken we de software van Nuance: Dragon NaturallySpeaking. Deze software is representatief voor de kwaliteit en de benaderingswijze van de moderne spraakherkenningstechnologie.

Docenten

Tjeerd Andringa
email:

Maria Niessen
email:

Bea Valkenier
email:

Contact

postadres
Auditory Cognition Group
Kunstmatige Intelligentie
Rijksuniversiteit Groningen
Postbus 407
9700 AK Groningen

bezoekadres
Bernoulliborg
Nijenborgh 9
9747 AG Groningen