Analyse des données d'ARN monocellulaires dans des tumeurs pré-malignes
Qu'est-ce que le séquençage de l'ARN monocellulaire et comment peut-il aider à définir les types de cellules?
Le séquençage de l'ARN est essentiellement l'isolement de l'ARN des cellules et l'utilisation de la transcriptase inverse pour transformer l'ARN en ADN. Vous pouvez ensuite utiliser vos technologies de séquençage d'ADN standard pour quantifier l'ADNc que vous avez obtenu à partir de la réaction de transcription inverse. Le dosage vous permet de quantifier la quantité d'ARN d'une manière globale et généreuse.
Cette technologie est devenue populaire il y a environ dix ans, mais il y a deux ou trois ans, le coût des technologies, ainsi que les technologies elles-mêmes, ont été améliorés dans la mesure où il est devenu possible pour de nombreux laboratoires de faire ce type de dosage À une résolution de cellules individuelles. Ceci est très différent de ce qui a été fait auparavant, où des millions de cellules étaient nécessaires pour obtenir suffisamment d'ARN.
Avant d'avoir une seule cellule, le problème était que le fait d'avoir des tissus entiers, ou un échantillon complet, qui était presque certainement hétérogène, équivaut à prendre votre échantillon et à le transformer en un mélangeur. Vous avez alors une grande sauce douce et vous ne savez pas vraiment quels étaient les composants d'origine.
Avec une cellule unique, vous pouvez identifier chaque cellule individuelle qui a participé à votre échantillon. En caractérisant les cellules individuelles, il est possible de les comparer et de trouver des cellules semblables et elles sont celles que vous définirez en tant que types de cellules spécifiques.
Pourquoi est-il difficile d'exploiter pleinement les données de séquence d'ARN monocellulaires? Quels ont été les principaux défis?
Je pense que le principal défi est que chaque fois que vous faites une expérience, vous aurez un bruit technique qui présente un certain degré de variabilité. Cependant, nous savons aussi qu'il existe beaucoup de variabilité biologique. Aucune cellule n'est identique.
Une partie de cette variabilité est inhérente et biologique et, lors de l'analyse des données, le problème est que nous n'avons pas un bon modèle de bruit technique. Par conséquent, déconvendre la variabilité et déterminer quelle partie est biologique et donc significative et intéressante, et quelles parties sont techniques et potentiellement artefacts, a été très difficile.
Pouvez-vous décrire le nouvel outil d'analyse qui a été développé?
D'un point de vue mathématique, l'identification d'un type de cellule à partir d'un échantillon de transcriptomes à une seule cellule est un problème de cluster non supervisé. Ces problèmes sont considérés comme difficiles, surtout si vous n'avez pas d'exemples de formation que vous pouvez utiliser pour apprendre.
Ce que nous avons fait est d'utiliser des méthodes d'apprentissage par machine relativement moyen pour mener à bien cette tâche, mais nous avons pu faire un benchmarking et un test attentif afin d'identifier une méthode robuste qui semble fonctionner très bien dans le grand nombre d'échantillons différents Et les plates-formes expérimentales sur lesquelles nous avons essayé.
Comment cet outil a-t-il surmonté les problèmes précédents?
Une partie de celle-ci est impliquée dans le nom, SC3, qui représente un regroupement de consensus de cellule unique. Afin d'obtenir une robustesse et une précision plus élevées, nous utilisons un grand nombre de méthodes au lieu d'une seule méthode, puis nous les combinons et découvrons à quoi les méthodes semblent être convenues.
Nous avons un grand nombre de méthodes et chaque méthode obtient un vote, pour ainsi dire, sur la question de savoir si la cellule A et la cellule B appartiennent au même groupe, par exemple. Ensuite, nous examinons le consensus sur toutes ces différentes méthodes, plus robustes et plus précises que si vous deviez compter sur une seule méthode.
Dans quelle mesure votre étude a-t-elle montré que SC3 était?
Il est difficile de donner un nombre précis parce que la précision dépend des données que vous utilisez pour le repérer. Pour certains ensembles de données de référence, nous obtenons ce que nous croyons être à 100% de précision. Je pense que la réponse importante est que nous semblons effectuer au moins aussi, ou mieux que toutes les autres méthodes sur lesquelles nous nous sommes comparés.
Quelle est l'utilité de l'outil?
Nous pensons que l'une des plus grandes forces de la méthode est qu'il est plus convivial que n'importe quoi là-bas. Il a une très belle intégration avec d'autres paquets pour l'analyse de cellule unique.
Avant d'utiliser l'outil SC3, vous devez effectuer un pré-traitement de vos données pour vous assurer que vous avez supprimé des cellules de mauvaise qualité. Nous avons une intégration transparente avec le paquet Scater qui est l'un des outils les plus populaires à cette fin, ce qui est très utile.
Nous disposons également d'une très bonne interface utilisateur graphique, ce qui rend très simple d'avoir une vue d'ensemble, pas seulement des résultats de regroupement, où vous pouvez avoir une idée de la qualité de la solution, mais cela vous aide à analyser en aval de Ces grappes.
C'est une chose d'identifier mathématiquement ce qui semble être les meilleures grappes, mais il est généralement beaucoup plus difficile de comprendre quelle est la signification biologique de ces grappes. Notre méthode contribue à cela en identifiant les gènes, appelés gènes marqueurs, qui sont les gènes les plus importants pour chaque grappe.
Quel impact pensez-vous que SC3 aura?
Nous espérons qu'il facilitera grandement l'analyse des données de séquence d'ARN monocellulaires. Nous l'avons conçue avec les expérimentateurs à l'esprit, afin que les personnes qui ne possèdent pas d'expertise en biologie informatique puissent pouvoir télécharger et utiliser cet outil pour analyser leurs données par elles-mêmes.
Cette tâche spécifique du regroupement non supervisé de vos données de séquence d'ARN à une seule cellule est très fréquent; Il apparaît dans la plupart des études impliquant des données de séquence d'ARN à une seule cellule et est une opération que vous voulez faire. Nous pensons que cela réduira considérablement le seuil en permettant aux gens d'accéder facilement à un outil précis et convivial.
Que pensez-vous de l'avenir pour l'analyse des données d'ARN monocellulaires?
Je pense qu'il y a un très grand besoin de méthodes informatiques supplémentaires et, à ce stade, le champ a atteint le stade où il est relativement facile et peu coûteux de faire le travail expérimental. La plupart des laboratoires sont capables de réaliser eux-mêmes les expériences, mais pour pouvoir tirer pleinement parti et maximiser le potentiel des jeux de données, ils doivent pouvoir l'analyser correctement. À l'heure actuelle, tous les outils nécessaires pour cela n'existent pas.
Je pense que c'est juste la façon dont le domaine de la transcriptomique et de la génomique fonctionne: d'abord, les technologies doivent être établies et cela prend quelques années pour que la communauté informatique puisse se rattraper et produire l'ensemble des outils nécessaires à la technologie Pour pouvoir atteindre son plein potentiel.
Jusqu'à présent, la majeure partie de l'utilisation des données de séquence d'ARN à une seule cellule a été de soutenir la biologie de base, mais je pense qu'il y a beaucoup d'espoir qu'il sera possible d'utiliser cela dans la clinique et qu'il y aura plus d'applications de traduction.
Je pense que l'un des plus intéressants est le cancer. Nous avons une application où il est possible de caractériser les tumeurs, non seulement en fonction de leurs profils mutationnels, mais aussi en fonction de leurs profils de transcriptome, ce qui nous permettra de mieux les caractériser et de permettre de développer de meilleurs médicaments.