01 - Segmentation d'images de documents par une approche multirésolution. Extraction précise des lignes de texte

Show full item record

Files in this item

PDF 001.PDF TEXTE.pdf 1.757Mb

Pour citer ce document :
URI: http://hdl.handle.net/2042/1928
Title: 01 - Segmentation d'images de documents par une approche multirésolution. Extraction précise des lignes de texte
Author: DEFORGES (O.); PIQUIN (P.); VIARD-GAUDIN (C.); BARBA (D.)
Abstract: Cet article présente une méthodologie et des outils de traitement permettant de localiser puis d'extraire précisément les lignes de texte contenues dans l'image d'un document. La classe des documents visés est de type document très complexe, leurs contenus étant totalement non contraints. Globalement la méthodologie s'articule autour de trois étapes clés. La première est une localisation des zones d'intérêt. Elle est réalisée directement sur l'image en niveaux de gris et utilise une approche multirésolution garantissant une grande robustesse vis-à-vis de la très forte variabilité des textes: taille, disposition, présentation. Une étape de binarisation réalisée séparément pour chaque zone d'intérêt permet dans une seconde phase l'extraction proprement dite des lignes de texte. Enfin, une post-segmentation faisant coopérer la localisation initiale et des caractéristiques structurelles extraites de la ligne permet de traiter les cas très perturbants pour la lecture du chevauchement de lignes sur de l'écriture manuscrite. Des exemples relevant de la problématique de l'extraction des lignes du bloc adresse sur objets postaux (grandes lettres, magazines) illustrent cet article.
Description: An overall scheme and related algorithms performing accurate text lines extraction from an image of document are described in this paper The type of documents concerned here is very complex, with totally unconstrained data . Postal objects, especially the so-calledfiatobjects, i.e. : large envelopes, magazines, . . . are within this kind of documents. Three main phases have been considered to achieve the overall function . First of all, areas of interest are located using a multiresolution approach allowing to preserve from large variability of text features . This is performed directly on the gray-level image . A binarization stage, taking advantage of the results of the localization, is next performed to extract the lines . At last, a post-segmentation involving the located areas in the gray-level images and structural features extracted from the lines allows to deal with severe cases such as overlapping lines induced by handwritten texts . Examples related to text line extraction on postal objects are illustrating this paper.
Subject: Analyse image; Traitement image; Caractère manuscrit; Segmentation; Texte; Document manuscrit; Analyse multirésolution; Chevauchement
Publisher: GRETSI, Saint Martin d'Hères, France
Date: 1995

This item appears in the following Collection(s)

Show full item record





Advanced Search