Philippe CUVILLIER soutient sa thèse de doctorat réalisée au sein de l’équipe Représentations Musicale, équipe-projet MuTant (STMS - CNRS/IRCAM/UPMC) intitulée :
“ Modèles probabilistes temporellement cohérents pour l'alignement audio-sur-partition"
La soutenance de thèse se fait devant un jury composé de :
Yann Guédon Rapporteur – Cirad / Université de Montpellier II
Sophie Mercier Rapporteur – Université de Pau et des Pays de l’Adour
Olivier Cappé Examinateur – CNRS / Télécom ParisTech
Christopher Raphael Examinateur – Indiana University Bloomington
Arshia Cont Directeur de thèse – Ircam
Résumé :
Cette thèse porte sur l'alignement automatique d'une performance musicale avec sa partition de musique correspondante. Ce problème est apparenté à d’autres tâches de Music Information Retrieval (MIR) telles que l'estimation de fréquences fondamentales, la segmentation automatique ou la détection d’onset. À cet effet, l’approche par modèles probabilistes génératifs consiste à décrire l'évolution temporelle a priori de l'information à estimer par un processus stochastique, et ce afin de régulariser l'analyse fréquentielle à court terme. Mais quels processus choisir pour bien modéliser l'évolution de la position sur la partition ? Comment trouver les bons paramètres autrement que par des heuristiques ou une phase d’apprentissage ?
Pour y répondre, nous partons d'une spécificité de l'alignement musical : une partition attribue à chaque événement musical une durée nominale (noire, croche, etc.). Grâce à cette information a priori, nous proposons une démarche axiomatique en introduisant plusieurs critères de « cohérence temporelle » d’un algorithme d'alignement. Bien que forts répandus, les modèles de Markov cachés (HMM) se révèlent incohérents ; mais avec une généralisation des HMM appelée modèles de semi-Markov cachés (HSMM), la cohérence peut s’obtenir sous des conditions mathématiques particulières. Celles-ci sont inspirées par deux domaines étrangers à celui du MIR : les processus de Lévy (utilisés en finance), et la positivité totale d'ordre deux (utilisée en théorie de la fiabilité). Par ailleurs, ces garanties théoriques s’accompagnent de bienfaits pratiques tels que l'amélioration de l'algorithme d'alignement temps réel du logiciel Antescofo développé par l'équipe-projet Mutant / équipe Représentations Musicales.
D'un certain point de vue, la démarche de cette thèse peut rappeler les recherches, menées notamment à l'Ircam, sur la formalisation des structures mathématiques inhérentes à la musique. Grâce à sa géométrie riche et protéiforme, l’espace des hauteurs de note a peut-être inspiré davantage de travaux que cette simple droite unidimensionnelle qu'est le temps – si l'on excepte les études sur les pavages rythmiques et autres structures périodiques. Pourtant, le temps musical n'est pas dénué de structures intéressantes ; par exemple, l’ambivalence de sa nature, à la fois discrète et continue. Avoir cherché à formaliser ces particularités et les intégrer dans la conception d'algorithmes de reconnaissance a été l'idée la plus féconde pour ces trois années de doctorat.
"On Temporal Coherency of Probabilistic Models for Audio-to-Score Alignment"
Abstract:
This thesis deals with automatic alignment of audio recordings with corresponding music scores. We study algorithmic solutions for this problem in the framework of probabilistic models which represent hidden evolution on the music score as stochastic process. We begin this work by investigating theoretical foundations of the design of such models. To do so, we undertake an axiomatic approach which is based on an application peculiarity: music scores provide nominal duration for each event, which is a hint for the actual and unknown duration. Thus, modeling this specific temporal structure through stochastic processes is our main problematic. We define temporal coherency as compliance with such prior information and refine this abstract notion by stating two criteria of coherency. Focusing on hidden semi-Markov models, we demonstrate that coherency is guaranteed by specific mathematical conditions on the probabilistic design and that fulfilling these prescriptions significantly improves precision of alignment algorithms. Such conditions are derived by combining two fields of mathematics, Lévy processes and total positivity of order 2. This is why the second part of this work is a theoretical investigation which extends existing results in the related literature.