Groupe d’études et de recherche en analyse des décisions

Multivariate Trees and Forests for Mixed Outcomes

Abdessamad Dine

Les méthodes d’arbres sont populaires du fait qu’elles produisent des règles de décision simples et faciles à interpréter. Initialement elles n’accommodaient qu’une seule variable de réponse continue ou catégorique. Il est cependant courant que plusieurs variables de réponses soient observées pour chaque individu. Des généralisations des méthodes d’arbre aux cas de variables réponses multiples ont été donc développées mais elles sont limitées aux cas où ces variables sont toutes du même type (continue, dénombrement, binaire, ordinal ou catégoriel). Il est toutefois possible d’observer plusieurs variables réponses de types différents. Cette thèse est formée de trois articles.

Dans le premier article, nous proposons une nouvelle méthodologie d’arbre qui accommode les variables réponses mixtes (continues et catégorielles). Pour ce faire, nous avons développé un critère de séparation dérivé de la fonction de vraisemblance du modèle de location général (General location model) combinant les fonctions de vraisemblances des variables réponses continues et catégorielles.

Dans le deuxième article, nous proposons dans un premier lieu de construire des forêts aléatoires composées d’arbres multivariés pour des variables réponses mixtes comme vu dans le premier article. Ensuite nous proposons de combiner les prédictions multivariées et univariées, selon différents critères, afin d’améliorer les prédictions finales.

Finalement, nous présentons dans le troisième article une approche pour traiter les observations où les réponses sont manquantes toujours dans le contexte d’arbre multivarié pour variables réponses mixtes. Nous avons proposé de faires des imputations multiples avant de construire l’arbre avec une version modifiée du critère de séparation, proposé dans le premier article, pour justement accommoder les réponses imputées.