Amortized inference of biomolecule dynamics - Décision et processus Bayesiens - Decision and Bayesian Computation Accéder directement au contenu
Thèse Année : 2022

Amortized inference of biomolecule dynamics

Inférence amortie de la dynamique des biomolécules

Résumé

Photo-activated localization microscopy (PALM) enables high-resolution recording of single proteins trajectories in live cells, providing precious insights of small-scale properties of biomolecules environment. A broad spectrum of biomolecule dynamics have been observed and analysis schemes tailored to specific biological systems and random walk models have been developed to quantitatively characterize their motion. Yet, in most cellular environments, the complex interplay of interactions creates trajectories of composite nature, often not resembling canonical models of stochastic motion and thus challenging the assumptions on which tailored estimators rely. Neural networks have been shown to provide better estimations of random walk parameters than analytical methods. In this thesis, we first introduce a graph neural network (GNN) architecture able to process trajectories. Representing trajectories as graphs allows to account for their symmetries as well as for time-dependencies which might exist at various scales, while requiring substantially fewer parameters than conventional neural architectures. We demonstrate the relevance of this architecture by using it in an amortized inference scheme, to infer properties of simulated trajectories. We furthermore its robustness to trajectories generated by models unseen during training. As this inference method requires an upfront, computationally intensive, training phase before it can be used to perform inference with a limited number of computation steps, it is named "amortized". In order to further demonstrate its potential, we couple the GNN module with an invertible network so as to perform variational inference. We apply this to infer the posterior distribution of parameters of fractional Brownian motion trajectories, for which the existence of a tractable likelihood allows us to compute a lower bound of the variance reachable by an unbiased estimator. We show that our estimator, whose marginal complexity, one trained, scales linearly with the trajectory length (with which the maximum-likelihood estimator scales quadratically), reaches a precision close to optimality. Besides, we show that this scheme can be used to measure an eventual cut-off time in temporal correlations, an aspect of biomolecule dynamics which is often discarded. We then present a trajectory characterization method in which we take advantage of the fixed-size vector of summary statistics computed by the GNN for each trajectory. Using statistical tests based on the maximum mean discrepancy, we assess the significance of differences between sets of experimentally observed trajectories. This characterization has the advantage over conventional ones to provide a holistic description of random walks, encapsulating a variety of aspects of the dynamics. This notably measure, without prior assumptions regarding its nature, intra- and inter-condition variability. Besides, we provide means of interpreting the nature of the eventual differences, so as to pinpoint subtle changes in dynamics not necessarily captured by traditional indicators. Finally, we developed a web platform allowing other researchers to perform the analysis on their trajectories via a graphical interface, with visualization and exports of results. This is intended to be a generalist trajectory analysis tool, able to process large batches of experiments and whose scope could extend beyond SPT-PALM. Thanks to its very permissive assumptions, the analysis method presented in this thesis paves the way to automated single molecule-based pharmacology: we have tested the approach on a variety of biological examples, from alpha-synuclein in synapses to immune checkpoints at the membrane of T-cells.
Les trajectoire de protéines, observées en cellules vivantes grâce à la microscopie de localisation par photo-activation (PALM), sont révélatrices des propriétés à petite échelle de l'environnement de ces biomolécules. Un large spectre de dynamiques différentes ont été observées, et pour les caractériser de manière quantitative plusieurs méthodes ont été développées, spécifiques à certains systèmes biologiques ou au type de mouvement considéré. Pourtant, la présence simultanée dans le cytoplasme de différents types d'interactions crée des trajectoires composites, qui souvent s'éloignent des modèles canoniques de marches aléatoires pour lesquels sont conçus les estimateurs conventionnels. Par ailleurs, il a été montré que les réseaux de neurones fournissent des estimations plus précises des propriétés des marches aléatoires que les estimateurs analytiques. Dans cette optique, nous commençons dans cette thèse par présenter une architecture de réseau de neurones sur graphe (GNN) capable de traiter des trajectoires. Les représenter sous forme de graphes permet de tenir compte des symétries des trajectoires ainsi que des dépendances temporelles à de multiples échelles. De plus, cette architecture requiert nettement moins de paramètres que la plupart des autres réseaux de neurones. Nous démontrons sa pertinence en l'utilisant dans le cadre d'une inférence amortie, pour mesurer des propriétés de trajectoires simulées, et vérifions son adaptabilité en l'appliquant à des trajectoires de modèles non vus à l'entraînement. L'inférence amortie doit son nom à la phase d'entraînement réalisée en amont, amortie lorsque les inférences sont réalisées rapidement sur les données expérimentales. Afin d'explorer plus avant le potentiel de cette architecture, nous la couplons ensuite à un réseau de neurones inversible permettant d'inférer des distributions. Nous inférons ainsi la distribution a posteriori des paramètres de trajectoires générées par le modèle de mouvement Brownien fractionnaire. L'existence d'une vraisemblance analytique pour ce modèle permet de minorer la variance atteignable par un estimateur non-borné, à laquelle nous comparons celle obtenue par notre estimateur. Alors que sa complexité algorithmique est fonction linéaire de la longueur des trajectoires (là où celle de l'estimateur de vraisemblance maximale est quadratique), notre estimateur amorti atteint une précision proche de l'optimalité. La méthode permet en outre de mesurer un temps caractéristique au-delà duquel s'effacent les corrélations du mouvement -- un aspect souvent négligé dans l'analyse de trajectoires expérimentales. Puis nous présentons une méthode de caractérisation du mouvement basée sur la représentation vectorielle des trajectoires, générée par le GNN. Nous estimons la significativité des différences entre des ensembles de trajectoires observées expérimentalement. Par rapport aux méthodes conventionnelles, cette méthode a l'avantage de considérer conjointement une variété de critères, permettant notamment de mesurer la variabilité observée au sein d'une même condition ou entre plusieurs conditions biologiques, sans formuler au préalable d'hypothèse quant à la nature de cette variabilité. Les différences relevées par la méthode peuvent être interprétées simplement. Enfin, nous avons développé une plateforme web permettant aux scientifiques non-programmeurs d'utiliser cette méthode d'analyse sur leurs trajectoires, à l'aide d'une interface graphique. Les résultats peuvent être exportés ou visualisés sur la plateforme. Cet outil se veut généraliste et n'est pas limité à l'analyse de trajectoires acquises en PALM. Puisque les hypothèses sur lesquelles elle repose sont assez permissives, cette méthode ouvre la voie vers l'automatisation de la pharmacologie basée sur la microscopie de localisation par molécule unique. Nous l'avons déjà testée sur plusieurs systèmes, comme l'alpha-synapsine observée dans les synapses et divers récepteurs membranaires.
Fichier principal
Vignette du fichier
va_Verdier_Hippolyte.pdf (19.87 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04459499 , version 1 (15-02-2024)

Identifiants

  • HAL Id : tel-04459499 , version 1

Citer

Hippolyte Verdier. Amortized inference of biomolecule dynamics. Biological Physics [physics.bio-ph]. Université Paris Cité, 2022. English. ⟨NNT : 2022UNIP7263⟩. ⟨tel-04459499⟩
36 Consultations
4 Téléchargements

Partager

Gmail Facebook X LinkedIn More