01 - Segmentation d'images de documents par une approche multirésolution. Extraction précise des lignes de texte

Show simple item record

dc.contributor.author DEFORGES (O.) en_US
dc.contributor.author PIQUIN (P.) en_US
dc.contributor.author VIARD-GAUDIN (C.) en_US
dc.contributor.author BARBA (D.) en_US
dc.date.accessioned 2005-07-22T09:15:16Z
dc.date.available 2005-07-22T09:15:16Z
dc.date.issued 1995 en_US
dc.identifier.citation Traitement du Signal [Trait. Signal], 1995, Vol. 12, N° 6-NS, p. 527-539 en_US
dc.identifier.issn 0765-0019 en_US
dc.identifier.uri http://hdl.handle.net/2042/1928
dc.description An overall scheme and related algorithms performing accurate text lines extraction from an image of document are described in this paper The type of documents concerned here is very complex, with totally unconstrained data . Postal objects, especially the so-calledfiatobjects, i.e. : large envelopes, magazines, . . . are within this kind of documents. Three main phases have been considered to achieve the overall function . First of all, areas of interest are located using a multiresolution approach allowing to preserve from large variability of text features . This is performed directly on the gray-level image . A binarization stage, taking advantage of the results of the localization, is next performed to extract the lines . At last, a post-segmentation involving the located areas in the gray-level images and structural features extracted from the lines allows to deal with severe cases such as overlapping lines induced by handwritten texts . Examples related to text line extraction on postal objects are illustrating this paper.
dc.description.abstract Cet article présente une méthodologie et des outils de traitement permettant de localiser puis d'extraire précisément les lignes de texte contenues dans l'image d'un document. La classe des documents visés est de type document très complexe, leurs contenus étant totalement non contraints. Globalement la méthodologie s'articule autour de trois étapes clés. La première est une localisation des zones d'intérêt. Elle est réalisée directement sur l'image en niveaux de gris et utilise une approche multirésolution garantissant une grande robustesse vis-à-vis de la très forte variabilité des textes: taille, disposition, présentation. Une étape de binarisation réalisée séparément pour chaque zone d'intérêt permet dans une seconde phase l'extraction proprement dite des lignes de texte. Enfin, une post-segmentation faisant coopérer la localisation initiale et des caractéristiques structurelles extraites de la ligne permet de traiter les cas très perturbants pour la lecture du chevauchement de lignes sur de l'écriture manuscrite. Des exemples relevant de la problématique de l'extraction des lignes du bloc adresse sur objets postaux (grandes lettres, magazines) illustrent cet article. en_US
dc.format.extent 52628 bytes
dc.format.mimetype application/pdf
dc.language.iso en_US
dc.publisher GRETSI, Saint Martin d'Hères, France en_US
dc.relation.ispartofseries Traitement du Signal
dc.rights http://irevues.inist.fr/utilisation en_US
dc.source Traitement du Signal [Trait. Signal], ISSN 0765-0019, 1995, Vol. 12, N° 6-NS, p. 527-539 en_US
dc.subject.cnrs Analyse image en_US
dc.subject.cnrs Traitement image en_US
dc.subject.cnrs Caractère manuscrit en_US
dc.subject.cnrs Segmentation en_US
dc.subject.cnrs Texte en_US
dc.subject.cnrs Document manuscrit en_US
dc.subject.cnrs Analyse multirésolution en_US
dc.subject.cnrs Chevauchement en_US
dc.title 01 - Segmentation d'images de documents par une approche multirésolution. Extraction précise des lignes de texte en_US
dc.title.alternative Document image segmentation using a multiresolution approach. Accurate text line extraction en_US
dc.type Article en_US
dc.contributor.affiliation Laboratoire SEI - EP CNRS 0063/IRESTE, Route de Gachet, 44087 Nantes en_US


Files in this item

PDF 001.PDF TEXTE.pdf 1.757Mb

This item appears in the following Collection(s)

Show simple item record





Advanced Search