Nous proposons une méthodologie de caractérisation automatique de traces I/O permettant de détecter les motifs récurrents d'accès aux données effectués par des applications HPC. Nous implémentons cette méthodologie à travers MOSAIC, une librairie Python optimisée pour la catégorisation d'un grand volume de traces I/O, collectées au niveau système.
La détection et catégorisation des motifs est faite selon 3 axes principaux : la temporalité des accès, la détection d'accès périodiques et réutilisation de fichiers, ainsi qu'une estimation de l'impact des requêtes sur les serveurs de métadonnées. En particulier, nous utilisons deux algorithmes de détection des périodicités pour couvrir une large gamme de motifs périodiques, ainsi qu'un calcul de température de fichiers pour détecter ceux fréquemments accédés.
Des classes sont assignées aux traces pour rendre compte des différents motifs qu'elles contiennent, et permettre de discerner les motifs les plus récurrents dans les jeux de données.
Nous utilisons MOSAIC avec deux jeux de données provenant de supercalculateurs pétaflopiques aux architectures différentes afin d'analyser les motifs les plus courant et les différences visibles entre les machines.
Cette catégorisation ouvre la porte à différentes optimisation I/O : la création et l'utilisation d'ordonnanceurs optimisés pour éviter la contention I/O, l'allocation dynamique de buffers et le préchargement de données pour optimiser l'accés aux données les plus fréquemment utilisées, ainsi que l'entraînement de modèles de prédiction de charge I/O basée sur les motifs observés en temps réel.
- Poster






PDF version
