L’information basée sur l’ADN est un nouveau domaine interdisciplinaire reliant les technologies de l’information et la biotechnologie. Le domaine espère répondre à l’énorme besoin de stockage de données à long terme en utilisant l’ADN comme support de stockage d’informations. Malgré la promesse de l’ADN d’une forte stabilité, d’une densité de stockage élevée et d’un faible coût de maintenance, les chercheurs sont confrontés à des problèmes de réécriture précise des informations numériques codées dans les séquences d’ADN.
Généralement, la technologie de stockage de données ADN a deux modes, c’est-à-dire le « mode disque dur in vitro » et le « mode CD in vivo ». Le principal avantage du mode in vivo est sa réplication fiable et peu coûteuse de l’ADN chromosomique par réplication cellulaire. En raison de cette caractéristique, il peut être utilisé pour une diffusion rapide et peu coûteuse des copies de données. Étant donné que les séquences d’ADN codées pour certaines informations contiennent un grand nombre de répétitions et l’apparition d’homopolymères, cependant, ces informations ne peuvent être « écrites » et « lues », mais ne peuvent pas être « réécrites » avec précision.
Pour résoudre le problème de réécriture, le professeur Liu Kai du Département de chimie de l’Université de Tsinghua, le professeur Li Jingjing de l’Institut de chimie appliquée de Changchun (CIAC) de l’Académie chinoise des sciences et le professeur Chen Dong de l’Université du Zhejiang ont dirigé une équipe de recherche qui a récemment développé un système d’édition à double plasmide pour traiter avec précision les informations numériques dans un vecteur microbien. Leurs conclusions ont été publiées dans Avancées scientifiques.
Les chercheurs ont établi un système à double plasmide in vivo à l’aide d’un algorithme de codage conçu de manière rationnelle et d’un outil d’édition d’informations. Ce système à double plasmide convient au stockage, à la lecture et à la réécriture de divers types d’informations, y compris du texte, des livres de codes et des images. Il explore entièrement la capacité de codage des séquences d’ADN sans nécessiter d’indices d’adressage ou de séquences de sauvegarde. Il est également compatible avec divers types d’algorithmes de codage, permettant ainsi une efficacité de codage élevée. Par exemple, l’efficacité de codage du système actuel atteint 4,0 bits par nucléotide.
Pour obtenir une efficacité élevée ainsi qu’une fiabilité dans la réécriture d’informations complexes stockées dans des séquences d’ADN exogènes in vivo, une variété de protéines associées à CRISPR (Cas) et de recombinase ont été utilisées. Les outils ont été guidés par leur ARN CRISPR correspondant (ARNcr) pour cliver un locus cible dans une séquence d’ADN afin que les informations spécifiques puissent être traitées et réécrites. En raison de la spécificité élevée entre les paires complémentaires de molécules d’acide nucléique, les séquences d’ADN codées par l’information ont été reconstruites avec précision par la recombinase pour coder de nouvelles informations. En raison de l’optimisation de la séquence d’ARNc, l’outil de réécriture d’informations est devenu hautement adaptable aux informations complexes, ce qui a permis d’obtenir une fiabilité de réécriture pouvant atteindre 94 %, ce qui est comparable aux systèmes d’édition de gènes existants.
Le système à double plasmide peut servir de plate-forme universelle pour la réécriture d’informations basée sur l’ADN in vivo, offrant ainsi une nouvelle stratégie pour le traitement de l’information et la réécriture spécifique à la cible de données volumineuses et compliquées au niveau moléculaire.
Nous pensons que cette stratégie peut également être appliquée à un hôte vivant avec un génome plus grand, comme la levure, ce qui ouvrirait davantage la voie à des applications pratiques concernant le stockage de données volumineuses. »
Prof. Liu Kai, Département de chimie, Université Tsinghua