Olarik Surinta, Artificial Intelligence and Cognitive Engineering (ALICE)

"Working at the frontiers of knowledge", RUG

Multi-Script Handwritten Character Recognition
Using Feature Descriptors and Machine Learning

Dissertation by Olarik Surinta (โอฬาริก สุรินต๊ะ),
University of Groningen, September 2016.
ISBN: 978-90-367-9149-5 (printed) / 978-90-367-9149-6 (electronic).
Defended on September 23, 2016, in Groningen, the Netherlands.


Promotor: Prof.dr. L.R.B. (Lambert) Schomaker
Supervisor: Dr. M.A. (Marco) Wiering


cover designed by Pluis

Abstract
   Handwritten character recognition plays an important role in transforming raw visual image data obtained from handwritten documents using for example scanners to a format which is understandable by a computer. It is an important application in the field of pattern recognition, machine learning and artificial intelligence. There are already different handwritten character recognition systems that have been designed for commercial purposes, such as mail sorting and bank cheque processing. Furthermore, this type of research can help to search through different historical handwritten manuscript collections. In this way the cumulative historical information can become accessible to a wide public.
   In this PhD research, several methods are proposed to deal with several challenges that occur when trying to recognize handwritten characters from multiple language scripts. The thesis contributes to all levels of processing isolated character images: from intensity normalization to segmentation, and from feature extraction to the final classification. Moreover, solutions are proposed for recognizing isolated handwritten character images when not very many handwritten character examples are available.
   The main goal of the research presented in this dissertation is to study robust feature extraction techniques and machine learning techniques for handwritten character recognition. The best techniques are the combination of the histogram of oriented gradients with bags of visual words. Furthermore, a new method for line segmentation is proposed, which is a part of document layout analysis. The novel techniques have been tested on many different scripts and the results show that they effectively address the problems of line segmentation and character recognition.

Multi-Script Handgeschreven Karakter Herkenning
met behulp van Kenmerk Descriptoren en Machinaal Leren

Abstract (Dutch)
    Het herkennen van handgeschreven lettertekens speelt een belangrijke rol bij het omzetten van afbeeldingen van handgeschreven documenten, bijvoorbeeld gescande documenten, naar een formaat dat voor de computer begrijpelijk is. Het heeft belangrijke toepassingen op het gebied van patroonherkenning, machinaal leren en kunstmatige intelligentie. Verschillende systemen voor de herkenning van handgeschreven lettertekens worden al commerciëel ingezet, zoals bij het sorteren van post of het verwerken van cheques. Daarnaast kan dit soort onderzoek helpen bij het machinaal zoeken in handgeschreven historische documenten. Op deze manier kan de verzamelde historische informatie beschikbaar komen voor een breder publiek.
    In dit promotieonderzoek worden methodes voorgesteld om problemen die zich voordoen bij het herkennen van handgeschreven lettertekens uit meerdere schriften op te lossen. Het proefschrift draagt bij aan alle verwerkingsniveau's van afbeeldingen van individuele lettertekens: van intensiteitsnormalizatie tot segmentatie, en van feature-extractie tot de uiteindelijke classificatie. Bovendien worden oplossingen aangedragen voor het herkennen van individuele lettertekens wanneer er weinig handgeschreven voorbeelden beschikbaar zijn voor elk letterteken.
    Het hoofddoel van het onderzoek in dit proefschrift is om robuuste technieken te ontwikkelen op het gebied van feature-extractie en machinaal leren voor de herkenning van handgeschreven lettertekens. De beste technieken zijn combinaties van een histogram van geörienteerde gradiënten en bags-of-visual-words. Daarnaast wordt een nieuwe methode voor regelscheiding gepresenteerd als onderdeel van de analyze van de layout van het document. De nieuwe technieken zijn getest op vele verschillende schriften, en de resultaten laten zien dat ze effectief zijn in de aanpak van de problemen omtrent regelscheiding en lettertekenherkenning.

Propositions


  1. The goal in multi-script handwritten character recognition is to achieve a high recognition performance on isolated handwritten characters from different scripts.
    – Chapter 1, this PhD thesis –
  2. If a number of appropriate cost functions have been designed, the original A* path-planning algorithm can move through overlapping or connected text areas instead of moving around.
    – Chapter 2, this PhD thesis –
  3. Outputs of different classifiers can be combined and classified by the unweighted majority vote method, which results in high accuracies on isolated handwritten character datasets.
    – Chapter 3, this PhD thesis –
  4. In our isolated handwritten character datasets, the best feature descriptors achieve high recognition performances on challenging handwritten datasets with a simple classifier.
    – Chapter 4, this PhD thesis –
  5. Some feature extraction methods are able to capture the necessary information from the character images, which makes them important for a recognition algorithm.
    – Chapter 4, this PhD thesis –
  6. The combination of local feature descriptors and the bags of visual words approach gives the highest recognition performances.
    – Chapter 5, this PhD thesis –

External links


  1. PhD ceremonies 2016
  2. University research database

Citation



BibTeX
@phdthesis{726cd3bc1c654bf4a38afac572abfe0e,
title = "Multi-script handwritten character recognition: 
	 Using feature descriptors and machine learning",
author = "Olarik Surinta",
year = "2016",
isbn = "9789063791465",
publisher = "University of Groningen",
}


@September, 2016