02 - Une approche probabiliste pour la reconnaissance des sommaires

Show full item record

Files in this item

PDF 02•Souafi couleur.pdf 508.8Kb

Pour citer ce document :
URI: http://hdl.handle.net/2042/4391
Title: 02 - Une approche probabiliste pour la reconnaissance des sommaires
Author: SOUAFI-BENSAFI, S.; EMPTOZ, H.; LEBOURGEOIS, F.; PARIZEAU, M.
Abstract: L'analyse et la reconnaissance des documents écrits consistent à traduire leurs images numérisées sous une forme électronique réutilisable. L'analyse permet d'extraire à partir de l'image d'un document une structure dite physique, tandis que la reconnaissance associe aux composants de la structure physique leurs fonctions logiques dans le document. Le travail présenté dans cet article porte sur la phase de reconnaissance de documents dont la structuration logique est caractérisée par des marquages typographiques tels que les sommaires ou les tables des matières. Nous proposons une approche perceptuelle qui se base sur l'extraction de ces marquages typographiques directement à partir des images des documents. Ces documents présentent cependant une structuration variable et complexe. La complexité pose des difficultés au niveau de la phase d'analyse et peut conduire à des erreurs dans les données présentées à la phase de reconnaissance. Quant à la variabilité, elle impose d'entreprendre une modélisation générique de la structure logique et du processus de reconnaissance associé. Notre objectif est d'aborder ce problème de reconnaissance en présence de ces difficultés. Nous avons développé un système de reconnaissance automatique basé sur un modèle hybride combinant un classifieur bayésien et un automate probabiliste. Le rôle du classifieur est la correspondance entre les blocs de texte extraits dans les images des documents et les entités logiques à un niveau de structuration de base, alors que l'automate permet de regrouper ces entités logiques sur plusieurs niveaux hiérarchiques reconstruisant ainsi toute la structure logique. Ce modèle hybride est construit par apprentissage semi-supervisé, en s'appuyant d'une part sur la connaissance fournie de manière interactive par l'utilisateur, et d'autre part sur les propriétés typographiques des documents considérés. Nous avons expérimenté le système proposé pour l'indexation de sommaires de revues. La complexité et la variabilité de la structuration de ces documents nous ont permis de montrer l'efficacité de l'approche développée.
Description: Document Analysis and Recognition consist in translating their images into an electronic form that can be reusable. The analysis extracts the document layout structure from its image, and the recognition assigns to the layout structure components their logical functions in the document. In this article, we present our work on recognition of a category of documents in which the logical structure is based on typographical tagging such as table of contents. We propose a perceptual approach that extracts these typographical tagging directly from document images. However, the structures of such documents are complex and variable. Their complexity can cause errors in the analysis output, which influence directly the recognition task, while their variability requires defining a generic form of logical structures and the related recognition tasks. Our goal is to consider the document structure recognition problem even though these difficulties occur. We developed a automatic recognition system based on a hybrid model combining a bayesian classifier and a probabilistic automaton. The classifier is responsible of drawing a correspondence between text blocks extracted from document images and basic logical entities, while the automaton deals with grouping these entities into a hierarchical logical structure. This hybrid model is built by semi-supervised learning based on knowledge provided by the user on the one hand, and the typographical properties of our documents, on the other hand. This system has been experimented for automatic indexing of tables of contents in periodicals and journals. The complexity and the variability of these documents allow us to show the efficiency of the approach.
Subject: Analyse de documents, reconnaissance de documents, structure physique, structure logique, classifieur bayésien, automate probabiliste, typographie, apprentissage supervisé; Document analysis, document recognition, layout structure, logical structure, recognition, bayesian classifier,probabilistic automaton, typography, supervised learning
Publisher: GRETSI, Saint Martin d'Hères, France
Date: 2005

This item appears in the following Collection(s)

Show full item record





Advanced Search