4 - Adaptation au locuteur de systèmes de reconnaissances. Régression linéaire multiple et perceptrons multicouches

Show full item record

Files in this item

PDF 004.PDF TEXTE.pdf 795.9Kb

Pour citer ce document :
URI: http://hdl.handle.net/2042/1730
Title: 4 - Adaptation au locuteur de systèmes de reconnaissances. Régression linéaire multiple et perceptrons multicouches
Author: TUBACH (J. P.); CHOLLET (G.); CHOUKRI (K.); MONTACIE (C.); MOKBEL (C.); VALBRET (H.)
Abstract: La variabilité interlocuteur est une source majeure d'erreurs en reconnaissance automatique de la parole (RAP) . Cet article décrit une série d'expériences, menées par l'Équipe « Reconnaissance des Formes et Traitement de la Parole » de TÉLÉCOM Paris, dans le but de contrôler certains aspects de cette variabilité, et permettre ainsi une adaptation au locuteur des systèmes actuels de reconnaissance de parole . Les premières expériences utilisent une technique linéaire empruntée à l'analyse des données, la régression linéaire multiple . Les secondes font appel aux perceptrons multicouches, et fournissent des résultats légèrement meilleurs, grâce à la prise en compte de phénomènes non linéaires . L'amélioration des taux de reconnaissance obtenue est, en moyenne, de 16 % pour les secondes, contre 15 % pour les premières . Ces techniques peuvent également être utilisées pour l'adaptation des reconnaisseurs à de nouveaux environnements acoustiques ou conditions de prise de son .
Description: Interspeaker variability is a major source of errors in automatic speech recognition . This paper describes a series of experiments, conducted at TELECOM Paris by the « Pattern Recognition and Speech Processing » Group, for controlling some aspects of this variability, thus allowing for the adaptation of speech recognition systems to new users . The firsi experiments are based on a linear data analysis technique multiple linear regression (MLR) . The second set uses multilayer perceptrons, and yields slightly better results, because non linear phenomena are taken into account. The average improvement of recognition scores is 16 % with the second approach, versus 15 % with the first one . Those techniques can also be used for the adaptation of recognizers to new acoustical environments and recording conditions .
Subject: Analyse spectrale; Reconnaissance parole; Locuteur; Régression linéaire; Régression multiple; Adaptation
Publisher: GRETSI, Saint Martin d'Hères, France
Date: 1990

This item appears in the following Collection(s)

Show full item record





Advanced Search