Добавление новых букв в алфавит ДНК удваивает плотность хранения данных.

ДНК естественным образом состоит из комбинаций четырех азотистых оснований: аденина, гуанина, цитозина и тимина. Обозначенные буквами A, G, C и T, эти основания группируются в различных последовательностях, образуя чертежи для каждого живого организма. И эта система хранения информации является невероятно плотной: один грамм ДНК способен хранить до 215 петабайт (215 миллионов ГБ) данных.

Это, конечно, делает ДНК очень привлекательным потенциальным решением для хранения огромных объемов данных, которые современное общество производит ежедневно — все содержимое Интернета может поместиться в обувной коробке, полной ДНК. И как будто это хранилище было недостаточно плотным, исследователи нового исследования нашли способ удвоить его.

Наряду с обычными A, G, C и T команда фактически добавила дополнительные семь «букв» в алфавит ДНК. Они принимают форму химически модифицированных нуклеотидов, открывая более разнообразные комбинации, которые позволяют хранить больше информации в том же объеме физического пространства.

«Представьте себе английский алфавит», — говорит Касра Табатабаи, соавтор исследования. «Если бы у вас было только четыре буквы, вы могли бы составить столько-то слов. Если бы у вас был полный алфавит, вы могли бы создавать неограниченное количество комбинаций слов. То же самое и с ДНК. Вместо того, чтобы преобразовывать нули и единицы в A, G, C и T, мы можем преобразовать нули и единицы в A, G, C, T и семь новых букв в алфавите хранения данных».

Конечно, добавление дополнительных нуклеотидов означает, что существующие системы обратного считывания данных не распознают их, поэтому команда также разработала новую систему, которая может это делать. Нить ДНК проходит через нанопоры в специально разработанном белке, который может обнаруживать отдельные единицы независимо от того, являются ли они природными или синтетическими. Затем алгоритмы машинного обучения декодируют информацию, хранящуюся внутри.

«Мы испробовали 77 различных комбинаций 11 нуклеотидов, и наш метод смог идеально дифференцировать каждую из них», — сказал Чао Пан, соавтор исследования. «Структура глубокого обучения как часть нашего метода идентификации различных нуклеотидов является универсальной, что позволяет обобщать наш подход во многих других приложениях».

В дополнение к плотности, новый метод также повышает скорость записи данных, что обычно является довольно медленным процессом для ДНК. Эта система примерно вдвое сократила время, необходимое для записи информации в ДНК.

Эта работа может помочь сделать ДНК жизнеспособной системой хранения данных, хотя предстоит еще много работы.

Исследование было опубликовано в журнале Nano Letters.

Источник: University of Illinois Urbana-Champaign.

ДНК Биотехнологии Биология Машинное обучение