Ecole Doctorale Biologie Santé de Lille : bourses de thèse ouvertes à la mobilité

Ecole Doctorale BIOLOGIE SANTE de Lille
Allocations de Recherche "mobilité" - 2017-2018
sujet de thèse proposé par l'Unité de Recherche :
EA2694 (directeur : DUHAMEL ALAIN)

version française english version

Avant de déposer votre dossier, vous devez vous assurer de remplir les conditions requises et impérativement prendre contact avec le responsable du sujet proposé.

Conditions réglementaires de candidature, pré-requis et procédures (cliquez ici)

Analyse de données fonctionnelles multivariées hétérogènes
réf. -AUT/2017086
responsable : DUHAMEL ALAIN
courriel : alain.duhamel@univ-lille2.fr
description du projet :
Ce sujet explore le caractère multivarié des données fonctionnelles. Il s'agit de l'étude d'une variable aléatoire fonctionnelle X = (X1, X1, …, Xp) à valeurs dans un espace produit (des espaces de fonctions). Les composantes Xi, i=1,...,p, peuvent être des variables fonctionnelles univariées (fonctions réelles) ou des variables fonctionnelles qualitatives (processus de sauts). On s'intéresse principalement à la classification non-supervisée de ce type de données. Des problématiques en classification supervisée seront aussi abordées. Plusieurs points sont à traiter lors de ce travail :
1) Réaliser un état de l'art sur l'analyse des données fonctionnelles multivariées. On trouve en littérature principalement des données fonctionnelles multivariées scalaires. Aspect important à traiter : visualisation de ce type de données.
2) Etat de l'art sur les données fonctionnelles qualitatives. Voir notamment les travaux de Saporta, Deville, Boumaza et les plus récentes (Preda et Vandewalle). Limites de l'utilisation de la modélisation markovienne pour ce type de données. Trajectoires des longueurs différentes – états absorbants. Visualisation.
3) Hétérogénéité des composantes Xi (scalaire/qualitatif). Quel modélisation choisir ? Le problème n'est pas tranché même dans le cas non-fonctionnel. Peut-on voir une composante qualitative comme une chaine de Markov (non-caché du coup, puisque observable) qui gouverne le comportement des composantes scalaires ? Et si plusieurs composantes sont qualitatives ?
4) Développement des méthodes de classification pour données fonctionnelle multivariées : méthodes factorielles et modèles génératifs (via l'algorithme EM). Visualisation.
5) Application sur des données hospitalières, notamment sur des parcours des patients à l'hôpital. Volume de données important. Echantillonnage (travaux de H. Cardot).
téléchargez le projet :
  • EN DETAILS

  • mots-clés : analyse sur données fonctionnelles, données hétérogènes, classification non supervisée, données hospitalières

    compétences souhaitées : Master 2 ou équivalant en statistique