ДНК является емкостным накопителем информации, и на протяжении многих лет развиваются технологии хранения данных в этих биологических молекулах. Пока это только лабораторные эксперименты, хотя Microsoft еще в 2020 году создала альянс для продвижения такой технологии. Сегодня эксперты ожидают, что первый центр на базе обработки данных ДНК заработает в течение пяти-десяти лет. Данные не будут храниться в виде нулей и единиц на жестком диске, а будут находиться в биологических молекулах ДНК. Такой центр обработки данных имел бы форму лаборатории, во много раз меньше, чем сегодня.
Прогноз по срокам запуска первого центра обработки данных с накопителями на базе ДНК предоставил профессор Том де Гриф из Эйндховенского технологического университета. Вместе с аспирантом Басом Бегельсом, корпорацией Майкрософт и группой партнеров из университета Де Гриф разработал новую технику, позволяющую масштабировать инновационное хранение данных с синтетической ДНК. Результаты были опубликованы в журнале Nature Nanotechnology. Де Гриф работает на кафедре биомедицинской инженерии и Институте сложных молекулярных систем (ICMS) Университета Эйндховена, а также является приглашенным профессором в Университете Радбауд.
В одной части такого дата-центра будет отдел кодирования файлов, в котором нули и единицы цифровой информации будут преобразовываться в молекулы синтезированной ДНК.
Другая часть будет составом для хранения данных и будет содержать большие поля капсул, каждая капсула будет представлять упакованный файл.
Когда нужно будет получить доступ к информации, роботизированная рука вынет капсулу, прочтет ее содержимое и поместит обратно. Приблизительно так же сегодня работают хранилища на базе магнитной пленки – на стеллажах находятся кассеты, которые вынимает робот и размещает в считывателе. Этот тип магнитного носителя обеспечивает непревзойденную надежность и дешевизну в пересчете на гигабайт.
В ДНК-дате-центре базовые молекулы цепи ДНК склеивают в определенном порядке, чтобы образовать синтетически созданные цепи ДНК. Файлы и фотографии, которые хранятся в центрах обработки данных, затем можно будет хранить в ДНК.
Пока эта техника пригодна только для архивного хранения. Это объясняется тем, что чтение сохраненных данных очень дорого, поэтому экономически выгодно как можно реже обращаться к файлам, хранящимся в формате ДНК.
Хранение данных в ДНК предлагает много преимуществ. К примеру, файл в формате ДНК будет занимать гораздо меньше места. Также у него в разы более длительный срок хранения данных.
Но, пожалуй, самое главное, что эта новая технология делает большие центры обработки данных, устаревшими. Ведь «облака», по прогнозам, к 2030 году составят в лучшем случае 8%, в худшем – 21% глобального энергопотребления.
Также есть вопросы физического наличия накопителей для хранения всех данных, предупреждает Де Гриф. За три года мы сгенерируем столько данных по всему миру, что не сможем сохранить половину, говорит он.
Идея использования нитей ДНК для хранения данных возникла в 1980-х годах, но в то время была слишком сложной и дорогостоящей. Это стало технически возможным спустя три десятилетия, когда синтез ДНК начал развиваться. Джордж Черч, генетик из Гарвардской медицинской школы, раскрыл эту идею в 2011 году. С тех пор синтез и считывание данных стали экспоненциально дешевле, что наконец-то вывело технологию на рынок.
Использованная Де Грифом и его группой техника PCR (ПЦР, полимеразная цепная реакция), называется «произвольный доступ», очень подвержена ошибкам. Поэтому можно читать только один файл за раз, и, кроме того, качество данных слишком ухудшается при считывании файла.
Вот как это работает: ПЦР (полимеразная цепная реакция) создает миллионы копий требуемого фрагмента ДНК путем добавления праймера с нужным кодом ДНК. Например, на этом базируются тесты на COVID-19: даже скудное количество биологического материала коронавируса становится заметным при многократном ее копировании.
Но если нужно читать несколько файлов одновременно, вам нужно несколько пар праймеров, выполняющих свою работу одновременно. Это создает множество ошибок в процессе копирования.
Вот здесь и вступают в действие капсулы. Группа Де Грефа разработала микрокапсулу из белков и полимера, а затем закрепила один файл на капсулу.
Эти капсулы обладают тепловыми свойствами, которые можно использовать в нашу пользу. При температуре выше 50 градусов Цельсия капсулы закрываются, позволяя процессу ПЦР проходить отдельно в каждой капсуле. Тогда мало места для ошибок. Де Гриф называет это «термозамкнутой ПЦР». В лаборатории ему удалось прочитать 25 файлов одновременно без существенных ошибок.
Если снова снизить температуру, копии отсоединятся от капсулы, а закрепленный оригинал останется, что означает, что качество носителя оригинального файла не ухудшится.
«Сейчас мы потеряли 0,3 процента после трех чтений по сравнению с 35 процентами по существующему методу», – говорит Де Гриф.
Де Гриф также сделал библиотеку данных проще для поиска. Каждый файл имеет флуоресцентную отметину, а каждая капсула – свой цвет. Роботизированная рука может распознавать цвета и отделять их друг от друга, что позволяет аккуратно выбрать нужный файл из набора капсул на полке.
Это решает проблему чтения данных. Гриф: «Теперь остается только подождать, пока расходы на синтез ДНК не упадут еще больше. Тогда техника будет готова к применению».
В результате он надеется, что Нидерланды скоро смогут открыть свой первый в мире центр обработки данных ДНК.
По материалам: Science Daily