Extracting lightweight neural networks from large models for embedded audio applications - Part 2 - Jury's Questions

video

informations

Type
Soutenance de thèse/HDR
Lieu de représentation
Ircam, Salle Igor-Stravinsky (Paris)
date
20 octobre 2025

Soutenance de thèse de David Genova

David Genova est un doctorant au sein de l'équipe Analyse et Synthèse des Sons, inscrit à l'école doctorale EDITE (ED130) de Sorbonne Université . Féru de musique, sa recherche porte sur l'intégration de réseaux de neurones dans des synthétiseurs audio, ainsi que sur l'interprétabilité en intelligence artificielle. Il soutient sa thèse intitulée « Extractions de réseaux de neurones frugaux à partir de modèles immenses pour applications audio embarquées ».

Le jury est composé de :

  • Thor Magnusson, rapporteur, University of Sussex and University of Iceland
  • Nick Bryan-Kinns, rapporteur University of the Arts London
  • Mark Sandler, relecteur, Queen Mary University of London
  • Irina Illina, relecteur, LORIA INRIA Nancy
  • Philippe Esling, directeur, Sorbonne Université
  • Philippe Codognet, co-directeur, JFLI, Sorbonne Université
  • Tom Hurlin, co-directeur Squarp Instruments

Résumé :

Les progrès en intelligence artificielle ont donné lieu à de multiples utilisations dans des contextes créatifs, et notamment dans le domaine de la musique. Toutefois, la complexité de calcul des réseaux de neurones empêche leur utilisation dans des architectures embarquées, typiquement utilisées dans des synthétiseurs. Cet aspect constitue un obstacle majeur au développement d'instruments de musiques exploitant pleinement le potentiel créatif offert par de tels modèles. Cette thèse a pour objet la conception de réseaux de neurones légers et efficaces par élagage de modèles surparamétrés. Notre travail repose sur l'hypothèse que les deux principaux effets du surparamétrage résident, d’une part, dans le haut niveau de redondance au sein des représentations intermédiaires, et d’autre part, dans la sur-spécialisation de certaines unités. Ce constat a mené au développement d'une stratégie d’élagage fondée sur l’apprentissage, permettant d’extraire des sous-réseaux adaptés à des tâches et à des données spécifiques. Appliquée aux modèles génératifs audio, cette stratégie permet de produire des sous-réseaux conservant une haute qualité de génération, tout en étant compatibles avec les ressources de calcul de plusieurs architectures embarquées. Ce travail a conduit à la réalisation de JUNK, un synthétiseur tirant parti des avantages de la synthèse audio neurale, et adapté à une utilisation musicale, tant dans un cadre de composition que d'interprétation.

intervenants


partager


Vous constatez une erreur ?

IRCAM

1, place Igor-Stravinsky
75004 Paris
+33 1 44 78 48 43

heures d'ouverture

Du lundi au vendredi de 9h30 à 19h
Fermé le samedi et le dimanche

accès en transports

Hôtel de Ville, Rambuteau, Châtelet, Les Halles

Institut de Recherche et de Coordination Acoustique/Musique

Copyright © 2022 Ircam. All rights reserved.