3 - Utilisation d'un modèle d'audition et de connaissances phonétiques en reconnaissance automatique de la parole

Show full item record

Files in this item

PDF 003.PDF TEXTE.pdf 1.009Mb

Pour citer ce document :
URI: http://hdl.handle.net/2042/1729
Title: 3 - Utilisation d'un modèle d'audition et de connaissances phonétiques en reconnaissance automatique de la parole
Author: JUNQUA (J.-C.)
Abstract: L'introduction de connaissances dans les systèmes de reconnaissance de parole (RAP) est un bon moyen d'améliorer les performances des systèmes actuels . Dans cet article nous proposons le système ORION dans le cadre d'une application de reconnaissance multilocuteur de mots isolés . ORION est un système hybride à deux passes intégrant plusieurs sources de connaissances : psychoacoustiques, physiologiques et phonétiques . Pendant la première passe un modèle d'analyse acoustique perceptivement fondé (PLP), combinant des caractéristiques instantanées et des caractéristiques spectrales dynamiques, est utilisé pour fournir des vecteurs de paramètres à un algorithme de programmation dynamique . A l'issue de cette première passe plus de 98 % de mots ont été correctement reconnus pour un vocabulaire de chiffres et 12 références par mot. L'introduction de connaissances phonétiques durant la deuxième passe diminue l'erreur de reconnaissance de plus de 60 % (par rapport aux résultats obtenus lors de la première passe) pour un vocabulaire de mots acoustiquement similaires (E-SET) .
Description: Including speech knowledge in automatic speech recognition (ASR) systems is a good way to improve the performance of recognizers . In this paper, we propose the ORION system which deals with speaker-independent ASR for isolated-words . ORION is a two-pass hybrid system which uses several types of knowledge . This knowledge applies to psychoacoustics, physiology and phonetics . During the first pass an auditory model, PLP (perceptually-based linear prediction analysis) combines static and dynamic features to provide a set of parameters to the dynamic programming algorithm . After this stage 98 % recognition accuracy was obtained for a digit vocabulary and 12 templates per word . The introduction of phonetic knowledge in the second pass decreases the error rate by more Chan 60 % (compared to the results of the first pass) for a confusable vocabulary (E-SET) .
Subject: Reconnaissance parole; Mesure; Reconnaissance automatique; Locuteur; Mot isolé; Discrimination; Phonétique; Système hybride; Caractéristique spectrale; Psychoacoustique
Publisher: GRETSI, Saint Martin d'Hères, France
Date: 1990

This item appears in the following Collection(s)

Show full item record





Advanced Search