Les Modèles de Markov Cachés (HMM) ont été
utilisés de manière intensive en reconnaissance automatique
de la parole. Dans ce domaine, les signaux sont codés comme des
variations temporelles de spectres de courte durée. L'application
des HMM s'étend maintenant à des domaines tels que la reconnaissance
des formes, le traitement du signal et le contrôle. Ils sont bien
adaptés à la classification de signaux mono ou bidimensionnels.
Un HMM est un double processus stochastique dont un processus sous-jacent
est non observable mais peut être estimé à partir d'un
ensemble de processus qui produisent une séquence d'observations.
Les HMM peuvent être utilisés pour le traitement de problèmes
dans lesquels l'information est incertaine et incomplète. Leur utilisation
nécessite deux étapes : une étape d'apprentissage
au cours de laquelle le processus stochastique est estimé à
partir d'observations extensives et une étape de mise en oeuvre
où le modèle peut être utilisé en temps réel
pour obtenir les séquences de probabilités maximales. Les
modèles de Markov cachés tirent leur succès de l'existence
de nombreux
algorithmes efficaces et sûrs. Pour l'étape d'apprentissage
nous citerons les algorithmes de Baum-Welsh, la technique du gradient et
les algorithmes de Viterbi qui sont devenus très populaires du fait
de leur efficacité et de leur sûreté. Basés
sur le principe du maximum de vraisemblance et du maximum du critère
a posteriori, ces algorithmes ont été étendus pour
prendre en compte des fonctions de distributions de probabilités
tant continues que discrètes. De nombreux algorithmes basés
sur d'autres critères sont également disponibles. Toutes
ces méthodes commencent par une évaluation initiale et affinent
les paramètres du modèle de façon itérative
(la probabilité des observations d'apprentissage est augmentée
comme une fonction de ces paramètres) jusqu'à l'obtention
d'un certain point critique (en général une solution localement
optimale).
La phase d'apprentissage des HMM, qu'ils soient discrets ou continus, se ramène à un problème d'optimisation non linéaire et non convexe. Ce problème peut être abordé en utilisant des techniques d'optimisation non linéaire. De nombreuses méthodes ont été proposées pour résoudre ce problème. Il n'existe pas de méthode permettant d'assurer la convergence vers un minimum global. En général, plusieurs initialisations sont choisies et, parmi les optima locaux dans le voisinage de ces solutions, la meilleure est retenue.
L'expérience montre que ce choix aléatoire de l'initialisation, associé à un balayage uniforme des valeurs, produit des résultats satisfaisants pour les probabilités initiales et pour la matrice des probabilités de transition. Ceci n'est pas vrai pour la matrice des probabilités d'observation sachant l'état. De plus, l'expérience montre qu'une bonne estimation initiale est très utile dans le cas des HMM discrets, et qu'elle est essentielle dans le cas continu. Pour palier ces défauts nous avons développé une approche basée sur le recuit simulé pour l'apprentissage des HMM tant discrets que continus.
Dans la littérature une méthode est proposée. Cette méthode est basée sur l'espace des valeurs des paramètres. Le recuit simulé travaille donc avec des variables continues. Il est bien connu que la convergence et le nombre de transitions utilisés à chaque température dépendent de la taille de l'espace des solutions. Un codage discret conduira à un espace de taille finie alors qu'un codage continu conduira à une taille infinie qui risque de provoquer des problèmes de convergence.
Nos travaux conduisent à un codage discret présentant donc de meilleures propriétés de convergence. Notre méthode de recuit simulé est basée sur un codage discret de l'espace mais sans approximation sur cet espace. Ce codage repose sur la trajectoire de l'état caché qui est discrète. Une valeur des paramètres est donc obtenue pour chaque trajectoire. Au lieu de modifier les paramètres du modèle, c'est la trajectoire elle même qui est modifiée à chaque passe du recuit simulé.
Vu les bonnes bonnes propriétés de convergence et l'indépendance des résultats par rapport aux valeurs initiales, nous proposons cette méthode dans la boîte à outils SciLab que nous avons développée pour les HMM.