Groupe d’études et de recherche en analyse des décisions

Mixed Effects Trees and Forests for Clustered Data

Ahlem Hajjem

Les méthodes d'arbres, qui sont des outils populaires et appréciés d'analyse et d'exploitation de données, étaient à l'origine développées sous l'hypothèse de données indépendantes. Lors de cette présentation, je vais vous parler de la recherche qui constitue l’objet de ma thèse de doctorat. Cette dernière a pour objectif principal d'adapter la méthode d'arbre standard aux données corrélées du fait de leur structure hiérarchique. Les travaux antérieurs qui ont adapté ces méthodes aux données corrélées sont basés sur l'approche multivariée des mesures répétées. Nous avons suivi plutôt une approche par les effets mixtes. Cette approche est plus flexible en ce qui concerne les données puisque les observations corrélées sont perçues comme étant imbriquées à l'intérieur des groupes et non pas comme des vecteurs de réponses multiples.

Cette thèse est composée de trois articles. Dans le premier article, nous procédons à une extension de la méthode d'arbre de régression standard aux données hiérarchiques avec une variable de réponse continue. Nous proposons alors une méthode d'arbre nommée « mixed effects regression tree » (MERT). Dans le second article, nous procédons à une extension de la méthodologie MERT à d'autres types de réponses (réponses binaires, données de comptage, réponses catégorielles ordonnées, réponses multicatégorielles nominales). Pour cela, nous proposons une méthode d'arbre nommée « generalized mixed effects regression tree » (GMERT). Nous proposons dans le troisième article la méthode de forêt aléatoire à effets mixtes, nommée « mixed effects random forest » (MERF).

Les résultats des études de simulations menées dans les trois articles montrent qu'en présence de corrélation intra-groupe, les nouvelles méthodes d'arbres sont préférables à celles supposant l'indépendance des données.