Зачем Microsoft меняет гены
Количество информации, которую производит и которой пользуется человечество, растет с угрожающей скоростью, но технологии для ее сохранения не успевают за этим процессом. По прогнозам, к 2020 году размер цифровых данных достигнет порядка 44 триллионов гигабайт, что в десять раз превышает общее количество цифровой информации, созданной к 2013 году.
Использование жестких дисков требует постоянного расхода энергии, а электронные, магнитные и оптические носители со временем приходят в негодность, что приводит к потере данных. Поэтому ученые ищут альтернативные методы хранения информации, которые, с одной стороны, могли бы обеспечить долгосрочную сохранность данных, а с другой - не требовали бы значительных расходов. Этим критериям идеально соответствует метод кодирования информации в виде последовательности молекул ДНК. Прежде всего, структура ДНК может оставаться неизменной в течение тысяч лет, тогда как наилучшие жесткие или SSD диски, CD, DVD выходят из строя уже в течение 50-100 лет. Во-вторых, молекулы ДНК обладают огромной информационной емкостью: в одном кубическом миллиметре ДНК можно записать около миллиарда гигабайт информации. То есть, в одном грамме ДНК легко поместится информация с 31 миллиона планшетов с картами памяти в 32 гигабайта. А значит, в ДНК-хранилище можно записать все документы человечества.
Молекулы ДНК уже достаточно давно рассматривают в качестве носителей информации будущего, но до недавнего времени технология развивалась довольно медленно. Главной проблемой на пути создания ДНК диска является высокий уровень потенциальных ошибок, которые могут возникнуть со временем из-за разрушения молекул. Способ надежного хранения информации на ДНК предложили исследователи из Швейцарского федерального технологического института в Цюрихе: они нашли способ предотвращения химической деградации молекул ДНК.
Для этого ученые поместили образцы генетического материала в полости сфер из кварцевого стекла и подвергли их в течение двух недель температурным перепадам, имитируя процессы химической деградации, эквивалентные сотням лет хранения генетического материала в нормальных условиях. В итоге выяснилось, что капсулы из кварца способны обеспечить сохранение ДНК в их исходном варианте, а соответственно, сохраняется в изначальном виде закодированная в них информация.
Швейцарским ученым удалось решить и еще одну серьезную проблему, связанную с кодированием информации в ДНК. Дело в том, что любое существующее на сегодня оборудование секвенсирования (чтения) ДНК не обеспечивает абсолютно точных результатов. Исследователи решили использовать вместо кода Хэмминга, применяющегося в гибких, жестких и оптических дисках, самокорректирующийся код Рида-Соломона, который гарантирует гораздо лучшую коррекцию ошибок. После того как технологию усовершенствовали, она позволила эффективно восстанавливать точные данные.
Инновации швейцарцев вдохновили ученых всего мира на серьезное изучение ДНК в качестве носителя информации. В частности, на днях компания Microsoft объявила о новом этапе экспериментов с ДНК, предполагающих использование синтетических молекул длиной 10 миллионов пар оснований. Сначала ученые перевели составляющие бинарного кода, нули и единицы, в комбинации нуклеотидов - аденин, гуанин, уитозин и тимин, с помощью которых записывают информацию на ДНК. После этого синтезировали искусственную ДНК, содержащую введенные данные. В молекулу также ввели специальные маркеры, чтобы определить начало и конец файла при раскодировке. В итоге удалось закодировать и раскодировать четыре изображения и, что принципиально важно, записанные данные удалось восстановить без потери качества. Таким образом, специалисты создали управляемый способ хранения данных.
Эксперты Microsoft работали над созданием ДНК диска совместно с учеными из Вашингтонского университета и специалистами биотехнологической компании Twist Bioscience - производителя синтетических ДНК. Исследовательская группа включила IT-инженеров, физиков, химиков, биологов и генетиков. Microsoft работает над созданием носителя информации нового поколения уже несколько лет, причем весьма успешно. В прошлом году ученые из исследовательского подразделения компании закодировали со стопроцентной точностью данные в структуре синтетической ДНК, а затем сумели прочитать записанную информацию. Сейчас специалисты Microsoft работают над усовершенствованием технологии.
Записывать информацию на ДНК пытаются во многих лабораториях мира. Недавно ученые Университетского медицинского центра Марибор в Словении сохранили информацию в виде двоичного кода в ДНК табачного растения. Участок синтетической ДНК с цифровым кодом собрали по буквам, а потом с помощью бактерий внедрили в родную ДНК табака. Новые растения, которые выросли из семян, содержали в каждой клетке модифицированную ДНК.
Для того чтобы получить информацию, ученые извлекали ДНК из растений и прочитали ее с помощью существующих методов секвенирования ДНК. Авторы разработки говорят, что в будущем парки могут стать живыми библиотеками, где все растения и листья хранят информацию. Если способ записи информации на ДНК доведут до совершенства, цифровые данные можно будет хранить на протяжении нескольких тысяч лет.