Groupe d’études et de recherche en analyse des décisions

Utilisation de BIRCH pour le calcul des statistiques de rang approximatives sur des jeux de données massifs

Jean-François Plante Professeur agrégé, Département de sciences de la décision, HEC Montréal, Canada

L'algorithme BIRCH traite les données massives en lisant le fichier contenant les données une seule fois, en regroupant les données au fur et à mesure qu'elles sont lues, et en ne retenant que quelques caractéristiques de chaque groupe pour en résumer les propriétés. L'utilisation de BIRCH permet de traiter des jeux de données qui seraient trop gros pour la mémoire vive d'un ordinateur. Nous proposons des estimateurs pour le rho de Spearman et le tau de Kendall en se basant sur le résultat de l'algorithme BIRCH et évaluons leurs performances à l'aide de simulations de Monte Carlo. Les résultats numériques montrent que les estimateurs basés sur BIRCH peuvent atteindre la même efficacité que les estimateurs usuels de rho et tau tout en utilisant une fraction de la mémoire qui serait autrement requise.