Projecten Historische Schriftherkenning

De automatische herkenning van schrift is nog steeds een onopgelost probleem. Toch bestaat er allang een systeem dat kan lezen: de mens. Met de sterk toenemende rekenkracht wordt daarom de uitdaging steeds groter om lezende systemen te ontwikkelen. Er bestaan al wel commerciele systemen voor het lezen van drukletters, maar zelfs bij die exacte en regelmatige lettervormen moet een gebruiker vaak nog veel corrigeren. De allergrootste uitdaging betreft het lezen van "aanelkaargeschreven", d.w.z. cursief, schuin schrift. Het aan elkaar schrijven van woorden op organizers en schermpjes van een mobieltje heeft nog niet zo'n grote vlucht genomen. Er is echter een toepassingsgebied waar massale hoeveelheden handgeschreven materiaal wachten op ontsluiting voor digitale toegang: de archieven op het gebied van het culturele erfgoed. Een bibliothecaris kan wel een poging doen om zo'n handgeschreven archief in beeldformaat op Internet te zetten, maar daarmee kun je er nog lang niet in zoeken op steekwoord ("Googelen"). Dat laatste is nu één van de ambititieuze doelen van een prestigieus onderzoeksproject NWO/Catch: Continuous Access to the Cultural Heritage. De Autonomous Perceptive Systems groep van KI/RuG is betrokken in vooronderzoek t.b.v. dit grote project. De Rijksuniversiteit Groningen werkt hierbij samen met het Nationaal Archief, dat grote hoeveelheden van Nederlandse manuscripten en handgeschreven documenten bewaart. Een voorbeeld van een stukje tekst is hier te zien. Het grote project heet SCRATCH: SCript-Recognition Access to the Cultural Heritage. Hierbinnen zullen drie deelprojecten voor studenten KI/RuG worden uitgevoerd (zie onderaan).

Terwijl het onderzoek heel resultaatgericht is ("probeer tekst op een beeld te detecteren en naar 'ASCII' te vertalen) zijn er verscheidene fundamentele onderzoeksthema's relevant. Deze thema's varieren van cognitief tot technisch maar kunnen tevens taalgeorienteerd zijn. Voorbeelden van vragen zijn:


In de aanloop naar dit grote NWO-onderzoek project spelen zich de volgende Ba-projecten voor studenten KI af:


De projecten worden samen met het Nationaal Archief uitgevoerd. Er wordt gewerkt met Java. De projecten zijn geschikt voor studenten met verschillende interesse: van user-interface ontwerp tot machine learning.

Contact: prof. dr. Lambert Schomaker / schomaker@ai.rug.nl