NWO/DiD project 'Global Currents' - ALICE - University of Groningen

Dutch | English

Het 'Global Currents' project word gesubsidieerd door de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO), het Natural Sciences and Engineering Research Council (Canada), het Social Sciences and Humanities Research Council, de Foundation for Innovation (Canada) and de National Endowment for the Humanities (Verenigde Staten).

Onze taak in het project is het ontwerp en de toepassing van algoritmen voor de inductie van semantische concepten uit de visuele elementen die aanwezig zijn in gescande historische documenten. Totnutoe heeft men zich vooral gericht op de zuiver tekstuele transcriptie van historische documenten. Deze focus leidt ertoe dat er weinig gebruik gemaakt wordt van de rijke visuele informatie die beschikbaar is op elk van de afbeeldingen (scans) van de originele documenten. De visuele vorm van woorden zelf kan informatief zijn, zoals het optreden van bijvoorbeeld een Grieks woord in een Arabische tekst. Er zijn echter veel meer speciale visuele elementen: Kalligrafische versieringen, markeringen die de auteur identificeren, sierinitialen, schematische tekeningen, speciale symbolen en zelfs krabbels ('doodles'), die inzicht kunnen geven in de onderliggende betekenis en de herkomst van een tekst. Daarnaast is de ruimtelijke ordening van visuele elementen op een pagina (de lay-out) vaak 'stochastisch regelmatig' en kan deze belangrijke aanwijzingen geven over de onderliggende betekenis. Het voorkomen van vergelijkbare visuele elementen over grote en heterogene document collecties maakt het mogelijk om de verspreiding van visuele 'memes' over de netwerken van de auteurs te traceren. Hiervoor worden recente inzichten uit 'Big Data' en machineleren gebruikt. In dit project zullen we de kennis toepassen uit ons Monk-systeem voor de analyse van grote manuscriptcollecties, en deze kennis verbreden naar een grotere diversiteit aan visueel materieel.

  • Projectleider in Nederland: prof. dr. Lambert Schomaker
  • Postdoc (vacature)
         Institute for Artificial Intelligence & Cognitive Engineering (ALICE)
         Faculty of Mathematics and Natural Sciences
         University of Groningen, The Netherlands.

De andere projectpartners in Canada en de United States zijn:


              
Voorbeeld van het verband tussen inhoud en ruimtelijke verdeling van visuele elementen op een pagina in een historisch document. Bij een betaalde akte, zet de auteur een uniek teken, waarmee het Latijnse 'solvit' (betaald) wordt bedoeld, in de linker marge. Omdat in dat arbitraire symbool de individuele letters onherkenbaar zijn, kunnen we dit beter aanpakken als een beeldherkenningsprobleem, niet als een tekstherkenningsprobleem ('OCR'). Ook zijn aangegeven de verwachte posities van resp. het begin van de paragraaf (Item), daarna een betekenisvol kernwoord, en een naam en datum onderaan. Dit is slechts één van de vele voorbeelden van het gebruik van visuele informatie (uit Ritsema van Eck & Schomaker, 2012).                Tekeningen en diagrammen in oude teksten hebben een relatie tot de woorden die er omheen staan. In deze tekst gaat het over belletjes, 'bullae'. Er is een relatie tussen dat woord en de ronde vorm. Ook staat er ergens 'forma circulari' (zie handmatige annotaties, rechts). Moderne technieken van patroonherkenning en machineleren maken het mogelijk het visuele en tekstuele zo aan elkaar te relateren (uit brief Gisbert Cuper (1674), Koninklijke Bibliotheek, Den Haag, ms. 72 C 18, f. 20 recto, met dank aan dr. Jetze Touber).