Utiliser des algorithmes d’apprentissage machine pour fournir des observations approfondies sur la composition de sous-population cellulaire
Objectif
Introduit un panel de 20 marqueurs adapté à l’acquisition sur le cytomètre en flux CytoFLEX LX. La visualisation des données à l’aide de viSNE, FlowSOM et SPADE sur la plateforme Cytobank sera explorée. Une stratégie de gating manuel utilisant Kaluza Analysis sera présentée et comparée aux sous-ensembles identifiés par un regroupement non supervisé avec FlowSOM sur la plate-forme Cytobank.1,2 La nature non supervisée de beaucoup de ces algorithmes réduit le biais qui peut être introduit par le gating manuel des sous-populations connues et permet au chercheur d’identifier les phénotypes inattendus. La réduction du temps de manipulation nécessaire pour obtenir une analyse exhaustive des ensembles de données haute dimension utilisant des algorithmes d’apprentissage automatique par rapport au gating manuel représente un avantage supplémentaire.
Pour générer les données utilisées dans cette note d’application, les échantillons de sang ont été colorés avec un cocktail d’anticorps 20 couleurs décrit ci-dessous (Tableau 1) avant la lyse des globules rouges à l’aide de Versalyse conformément à la procédure standard (Numéro de produit IM3648 Les échantillons colorés ont été acquis sur un cytomètre de flux CytoFLEX LX à 6 lasers. La configuration du filtre décrite ci-dessous a été appliquée pour assurer une détection optimale de chaque colorant.
Tableau 1. Composition du panel pour l’immunophénotypage à 20 marqueurs à l’aide du cytomètre en flux CytoFLEX LX.

La compensation et la transformation des données à l’aide de la mise à l’échelle logique ont été effectuées à l’aide du logiciel Kaluza Analysis, et les données compensées et transformées logiquement ont été exportées vers la plate-forme Cytobank à l’aide du plug-in Cytobank de Kaluza. Kaluza Analysis a également été utilisé pour le gating biaxial et l’identification manuelle de la population.
En préparation à l’analyse des données assistées par apprentissage automatique, les débris, les doublets et souvent également les cellules mortes ou autres événements indésirables sont éliminés. Ces événements n’ajoutent pas d’informations à l’analyse en aval, pourraient avoir un impact négatif sur l’affichage des données et fausser les résultats statistiques s’ils n’ont pas été identifiés et exclus de manière appropriée. En fonction de la visualisation des données souhaitées et des questions de recherche, il peut être utile d’effectuer une analyse préliminaire sur la population d’intérêt pour une analyse plus approfondie (Figure 1).

Figure 1. Nettoyage des données dans Kaluza Analysis. Les doublets ont été exclus en fonction de la zone de signal de diffusion axiale par rapport à la taille, suivis d’un gating sur les globules blancs en fonction des caractéristiques de diffusion axiale et orthogonale. Les cellules négatives pour ViaKrome 808 (Numéro de produit C36628) ont été identifiées comme viables et classées comme leucocytes en fonction de l’expression CD45. Données analysées à l’aide du logiciel Kaluza Analysis. Les graphes sont présentés à titre illustratif uniquement.
Pour l’identification manuelle des sous-populations cellulaires dans les échantillons sanguins périphériques humains, une stratégie de gating basée sur les connaissances publiées antérieures des modèles d’expression des marqueurs a été établie à l’aide du logiciel Kaluza Analysis.3
Figure 2. Identification basée sur les connaissances des sous-populations de leucocytes majeurs. Données analysées à l’aide du logiciel Kaluza Analysis. Les graphes sont présentés à titre illustratif uniquement.
À l’aide d’outils d’apprentissage automatique, il est possible d’identifier des sous-populations cellulaires sans biais et indépendamment des connaissances antérieures. Les algorithmes de réduction de la dimensionnalité tels que viSNE sont capables de visualiser les informations contenues dans un ensemble de données à haute dimension dans un seul graphe 2D 1. Les algorithmes de regroupement tels que FlowSOM sont capables d’identifier et de regrouper automatiquement des cellules similaires en fonction des similitudes dans l’expression des marqueurs.2
Pour une analyse plus approfondie des ensembles de données, le viSNE a été utilisé pour la réduction de la dimensionnalité pour tous les marqueurs de gating également utilisés dans les étapes de gating manuel décrites dans la Figure 2. Cela permet de visualiser les informations contenues dans ces 11 marqueurs (CD45, CRTH2 CD123, CD15, CD14, CD16, CD56, CD3, CD4, CD8, CD19) dans un seul graphe 2D. viSNE est une méthode permettant de réduire les données à haute dimension en deux dimensions et de permettre ainsi une analyse exploratoire rapide des données et une visualisation des résultats complexes. Pour les données de cytométrie, cela peut faciliter la catégorisation des événements/cellules dans les populations biologiques. Les cellules phénotypiquement similaires seront proches les unes des autres et formeront un îlot. Un tracé de contour de la carte viSNE obtenue est présenté à la Figure 3A.
Suite à la réduction de la dimensionnalité, une analyse FlowSOM a été effectuée pour regrouper automatiquement les cellules en 12 métaclusters. L’exécution de FlowSOM sur les marqueurs de définition de la population et l’affichage des données de regroupement résultantes superposées sur la carte viSNE peuvent faciliter l’évaluation de la qualité. Si d’autres ajustements itératifs des paramètres d’analyse de l’algorithme sont nécessaires pour optimiser les résultats, cette visualisation peut aider à comparer différentes analyses et fournit un point de départ pour l’analyse des données de regroupement.
Dans l’ensemble de données analysées ici, une bonne corrélation entre les îlots viSNE et les métaculteurs FlowSOM peut être observée (Figure 3 B). Pour identifier rapidement le phénotype de chaque métacluster, il peut être utile d’afficher une heatmap des métaclusters FlowSOM par regroupement (Figure 3C
Figure 3. Identification de sous-population à l’aide de viSNE, FlowSOM et d’un affichage de carte thermique. A) Tracé de contour de la carte viSNE B) carte viSNE avec les métaclusteurs FlowSOM comme figures superposées dimensions C) Visualisation Heatmap de l’expression des marqueurs par le métaclusteur FlowSOM. Les données ont été compensées et transformées logiquement à l’aide du logiciel Kaluza Analysis et téléchargées sur la plate-forme Cytobank via le plugin de la cytobank Kaluza. Le viSNE a été analysé sur 11 marqueurs de définition de population de 3 échantillons avec 3 000 itérations, 30 perplexité et 0,5 thêta. Les paramètres FlowSOM sont 12 métaclitres et 121 clusters avec un regroupement consensuel hiérarchique. Les graphes sont présentés à titre illustratif uniquement.
Les graphes biparamétriques colorés par fonctionnalité de canal, qui colorent chaque événement de la carte viSNE en fonction de son intensité sur un canal dans l’ensemble de données, peuvent être utilisés pour montrer pourquoi les points de la carte sont proches les uns des autres ou quel modèle d’expression de marqueur est similaire entre les événements dans une îlot viSNE. La Figure 4 illustre l’expression des marqueurs pour CD19, CD4 et CD8 sur la carte viSNE et par rapport à la méta-intégration FlowSOM.

Figure 4. Niveaux d’expression des marqueurs de sous-population sur la carte viSNE. A) Expression CD19 B) Expression CD4 C) Expression CD8 D) Carte viSNE avec les métaclusters FlowSOM comme dimensions de figures superposées. Les données ont été compensées et transformées logiquement à l’aide du logiciel Kaluza Analysis et téléchargées sur la plate-forme Cytobank via le plugin de la cytobanque Kaluza. Le viSNE a été analysé sur le plugin de la cytobanque sur 11 populations définissant les marqueurs de 3 échantillons avec 3 000 itérations, 30 perplexité et 0,5 thêta. Les paramètres FlowSOM sont 12 métaclitres et 121 clusters avec un regroupement consensuel hiérarchique. Les graphes sont présentés à titre illustratif uniquement.

Figure 5. Comparaison de 3 échantillons. A) FlowSOM regroupant les éléments superposés sur la carte viSNE, les flèches indiquent metacluster 1, l’astère indique metacluster 12 B) expression CD16 C) expression de CD56. Les données ont été compensées et transformées logiquement à l’aide du logiciel Kaluza Analysis et téléchargées sur la plate-forme Cytobank via le plugin de la cytobanque Kaluza. Le viSNE a été analysé sur la cytobanque sur 11 populations définissant les marqueurs viSNE sur tous les leucocytes CD45 de 3 échantillons avec 3 000 itérations, 30 perplexité et 0,5 thêta. Les paramètres FlowSOM sont 12 métaclitres et 121 clusters avec un regroupement consensuel hiérarchique. Les données ont été compensées et transformées logiquement à l’aide du logiciel Kaluza Analysis et téléchargées sur la plate-forme Cytobank via le plug-in Kaluza Cytobank. D’autres analyses de données ont été effectuées sur la plate-forme Cytobank. Les graphes sont présentés à titre illustratif uniquement.
La combinaison de viSNE et de FlowSOM permet des comparaisons qualitatives entre les échantillons qui peuvent être améliorées en visualisant l’expression de marqueurs spécifiques sur la carte viSNE (Figure 5). La comparaison montre que la population CD16 identifiée comme métacluster 1 (Figure 5 A, bleue, flèche) est prédominante dans l’échantillon G mais pratiquement absente dans les échantillons B et F. Elle montre également une abondance de cellules CD56 brillantes dans le métacluster 12 pour l’échantillon F (Figure 5 A, rouge ; astérisque).
Un autre algorithme non supervisé qui peut être utilisé pour l’identification de groupes de cellules similaires est SPADE. SPADE signifie "Analyse de la progression de l’arbre de dispersion des événements de densité normalisée" 4. Les cellules SPADE regroupent des cellules phénotypiques similaires dans une hiérarchie qui permet une analyse multidimensionnelle à haut débit d’échantillons hétérogènes (Figure 6). Des bulles peuvent être ajoutées pour attribuer des seuils de population définis par l’utilisateur aux différentes populations de calcul (groupes) trouvées par SPADE.

Figure 6. Comparaison de 2 échantillons, arbres SPADE colorés par expression CD16. Les données ont été compensées et transformées logiquement à l’aide du logiciel Kaluza Analysis et téléchargées sur la plate-forme Cytobank via le plug-in Kaluza Cytobank. L’étude SPADE a été menée sur 11 populations définies avec un sous-échantillonnage à 10 % et 50 ganglions. Les graphes sont présentés à titre illustratif uniquement.
Un profil immunologique plus profond des populations de leucocytes respectives peut être obtenu en étendant la stratégie de gating manuel. Cela est généralement basé sur les connaissances antérieures des modèles d’expression. Un exemple de sous-population de lymphocytes T CD4 est fourni dans la Figure 7.

Figure 7. Identification des lymphocytes T régulateurs et de leurs sous-populations basée sur les connaissances. (A) sous-populations de mémoire des lymphocytes T CD4 avec gate sur les lymphocytes T CD4 à l’exclusion des sous-populations de mémoire des lymphocytes Treg (B) et CD8. Données analysées à l’aide du logiciel Kaluza Analysis. Les graphes sont présentés à titre illustratif uniquement.
Les comparaisons entre les échantillons peuvent être effectuées en comparant les graphes ou les résultats statistiques et en utilisant les fonctionnalités de superposition ou le graphe de comparaison Kaluza (Figure 8). Cette approche est également le plus souvent guidée par des hypothèses sur les différences probables.

Figure 8. Comparaison des sous-populations de Treg dans les échantillons. A) Graphes biparamétriques individuels par échantillon. B) Fiche d’information avec résultats statistiques par échantillon et sous-population. C) Superposition des graphes biparamétriques de deux échantillons. D) Graphique de comparaison visualisant le % synchronisé par sous-population et par échantillon. Les données ont été analysées à l’aide du logiciel Kaluza Analysis. Les graphes sont présentés à titre illustratif uniquement.
Pour l’identification non supervisée des sous-populations de lymphocytes T, une analyse viSNE a été effectuée en utilisant les lymphocytes T CD3 comme population d’entrée. La Figure 9 A montre l’expression de CD4 et CD8 sur la carte viSNE. En suivant la même approche de gating manuel qu’auparavant (voir Figure 7), différents schémas d’expression de CD45RA et CD62L ont été identifiés à l’aide d’une gate en quadrant sur les cellules T pan et visualisés sur la carte viSNE (Figure 9 B). Enfin, un regroupement consensuel hiérarchique a été effectué à l’aide du FlowSOM pour identifier 10 métalitres (Figure 9 C). Le gating manuel et le clustering non supervisé entraînent l’identification de populations similaires.

Figure 9. Analyse non supervisée des sous-populations de lymphocytes T. (A) Le viSNE a été effectué sur la plate-forme Cytobank avec 2 000 itérations et une perplexité de 50 et une expression CD4 (gauche) et CD8 (droite) sont visualisées sur le graphe viSNE résultant (B) Les profils d’expression CD62L et CD45RA (gauche) ainsi que les lymphocytes T régulateurs (milieu) ont été identifiés par gating manuel et les populations superposées sur la carte viSNE. (C) Le clustering FlowSOM a été effectué à l’aide d’un clustering hiérarchique sur des données normalisées pour détecter 100 clusters et 10 métaclusters. Les métaclusters sont présentés sur la carte viSNE. Les données ont été compensées et transformées logiquement à l’aide du logiciel Kaluza Analysis et téléchargées sur la plate-forme Cytobank via le plug-in Kaluza Cytobank. D’autres analyses de données ont été effectuées sur la plate-forme Cytobank. Les graphes sont présentés à titre illustratif uniquement.
La Figure 10 montre la comparaison de l’identification des sous-populations de mémoire CD8 à l’aide d’un gating manuel et d’un clustering non supervisé avec FlowSoM.

Figure 10. Comparaison des sous-populations de mémoire des lymphocytes T CD8+ identifiés par gating manuel. (A) et FlowSOM (B). Les données ont été compensées et transformées logiquement à l’aide du logiciel Kaluza Analysis et téléchargées sur la plate-forme Cytobank via le plug-in Kaluza Cytobank. D’autres analyses de données ont été effectuées sur la plate-forme Cytobank. Les graphes sont présentés à titre illustratif uniquement.
Résumé
Les données pour trois donneurs obtenues à l’aide d’un panel de 20 marqueurs acquis sur un CytoFLEX LX ont été utilisées pour montrer une stratégie de gating manuel afin d’identifier les sous-populations de leucocytes ainsi qu’une analyse plus approfondie des sous-populations de lymphocytes T. L’utilisation de viSNE pour visualiser les données dimensionnelles élevées dans une carte viSNE 2D a été démontrée et l’utilisation de viSNE et de SPADE pour comparer les échantillons a été discutée. Enfin, l’identification automatique du cluster à l’aide de FlowSOM a été comparée aux résultats du gating manuel. Les outils d’apprentissage automatique tels que viSNE, FlowSOM et SPADE peuvent être utiles pour visualiser les données de paramètres élevés et pour l’identification non biaisée des sous-populations cellulaires.
Conseils pour réussir
Pour obtenir des instructions détaillées sur l’utilisation du logiciel Kaluza Analysis, reportez-vous à la notice d'utilisation Kaluza C10986 , des instructions détaillées sur l’utilisation de la plate-forme Cytobank sont disponibles sur support.cytobank.org. Ce document ne remplace pas le manuel d'utilisation.
Une discussion plus approfondie des analyses effectuées ici est fournie dans les notes techniques « Tirer parti de la puissance combinée de Kaluza et de la plate-forme Cytobank ».
Références
- Amir ED, Davis KL, Tadmor MD, et al. viSNE permet la visualisation de données monocellulaires à haute dimension et révèle une hétérogénéité phénotypique de la leucémie. Nature Biotechnology. 2013;31(6):545-552. doi:10.1038/nbt.2594.
- Van Gassen S, Callebaut B, Van Helden MJ, et al. FlowSOM : Utilisation de cartes auto-organisées pour la visualisation et l’interprétation des données de cytométrie : FlowSOM. Cytometry. 2015;87(7):636-645. doi:10.1002/cyto.a.22625.
- Ortolani C. Antigens. En : Cytométrie de flux des tumeurs malignes hématologiques. John Wiley & Sons, Ltd; 2011:1-157. doi:10.1002/9781444398069.ch1.
- Qiu P, Simonds EF, Bendall SC, et al. Extraction d’une hiérarchie cellulaire à partir de données de cytométrie en haute dimension avec SPADE. Nature Biotechnology. 2011;29(10):886-891. doi:10.1038/nbt.1991.
Réservé exclusivement à la recherche. Ne pas utiliser dans des procédures diagnostiques.