5cek: (Украина)
[personal profile] 5cek


В скором времени человечество будет генерировать так много данных, что привычные хранилища перестанут справляться. Чтобы решить эту проблему, ученые обратились к практически безграничному природному вместилищу информации – ДНК. По мнению исследователей, ДНК – идеальная среда для хранения, поскольку она ультра-компактная и может сохранять свои свойства сотни тысяч лет, если обеспечить соответствующие условия хранения. Об этом свидетельствует недавнее восстановление ДНК из костей 43-тысячелетнего предка человека, найденного в пещерах Испании.


В новом исследовании ученые из Колумбийского университета и Нью-Йоркского центра генома (NYGC) продемонстрировали, что алгоритм, предназначенный для стриминга видео на смартфоне, может практически полностью раскрыть потенциал ДНК в хранении и сжатии дополнительной информации в четырех нуклеотидных основаниях.



Идея и общие соображения о возможностях записи, хранения и поиска информации в молекулах ДНК принадлежат Михаилу Нейману – советскому ученому-физику. В 1964 году в журнале «Радиотехника» был опубликован материал, в котором описывалась технология этого процесса и устройство хранения данных – олигонуклеотиды Неймана (MNeimON).

В 2012 году генетикам из Гарвардского университета удалось закодировать черновик книги из 53,4 тысяч слов, 11 изображений и одну программу. Они выяснили, что в каждом кубическом миллиметре ДНК можно сохранить 5,5 петабайт данных. Год спустя исследователям Европейского института биоинформатики удалось сохранить, а затем полностью извлечь и воспроизвести около 0,6 мегабайт текстовых и видео-файлов: 154 сонета Шекспира, фрагмент знаменитого выступления Мартина Лютера Кинга «У меня есть мечта» длиной 26 секунд, научная работа о структуре ДНК Джеймса Уотсона и Фрэнсиса Крика, фотографии штаб-квартиры EBI в Хинкстоне и файл, описывающий методы преобразования данных. Все файлы ДНК воспроизводила с точностью, варьирующейся между 99,99% и 100%.

Янив Эрлих (Yaniv Erlich) и его коллега Дина Зелински (Dina Zielinski), научный сотрудник NYGC выбрали шесть файлов для кодирования и записи в ДНК – компьютерную операционную систему KolibriOS, французский фильм 1896 года «Прибытие поезда на вокзал Ла-Сьота», код 50-долларовой подарочной карты Amazon, компьютерный вирус, изображения с пластинок «Пионера» и исследование Клода Шеннона в области теории информации 1948 года.

Ученые собрали эти файлы в один, а затем поделили данные на короткие строки двоичного кода. С помощью фонтанных кодов, они случайным образом упаковали строки в «капли» фонтана – блоки и конвертировали сочетания 00, 01, 10, 11 в четыре нуклеотидных основания: аденин (А), цитозин (С), гуанин (G) и тимин (Т). Чтобы затем собрать эти блоки воедино, команда ученых добавила метки для каждой «капли».

Всего исследователи сгенерировали около 72 тысяч таких цепочек ДНК, каждая из которых содержала в себе приблизительно 200 оснований. Они собрали эту информацию в текстовый файл и отправили его в Сан-Франциско, где стартап Twist Bioscience, занимающийся синтезом ДНК, превратил цифровые данные в биологические. Две недели спустя команда Эрлиха получила пробирку с молекулами ДНК.

Используя технологии секвенирования для чтения нитей ДНК и специальное ПО для перевода генетического кода обратно в двоичный файл, они успешно восстановили файлы. Сколько занимает чтение и запись, ученые пока не уточняют.

Группа исследователей, возглавляемая Эрлихом, также продемонстрировала, что ее алгоритм, умножая образец ДНК с помощью полимеразной цепной реакции, может сгенерировать и безошибочно восстановить практически неограниченное количество копий образца, и даже копий его копий.


Эрлих запускает операционную систему на виртуальной машине и играет в «Сапера»

Однако самым впечатляющими возможностями алгоритма оказалась способность разместить 215 петабайт данных в одном грамме ДНК – в 100 раз больше, чем удалось достигнуть при помощи других методов и алгоритмов.

Емкость хранения данных ДНК теоретически ограничена двумя цифрами для каждого нуклеотида, а также биологическим устройством ДНК. Кроме того, чтобы собрать и прочитать записанные фрагменты, требуется включить дополнительную информацию, что впоследствии снижает емкость до 1,8 двоичных символов в нуклеотиде. Алгоритм «фонтан ДНК» позволяет разместить в среднем 1,6 бит в каждом нуклеотиде – это на 60% больше, чем удавалось ранее, а также близко к пределу в 1,8 бит.

Главным препятствием на пути широкого распространения технологии остается ее стоимость. Исследователи потратили 7 тысяч долларов, чтобы синтезировать ДНК и заархивировать 2 мегабайта данных, и еще 2 тысячи, чтобы расшифровать ее. И хотя стоимость секвенирования ДНК постепенно снижается, то ее синтез все еще обходится в круглую сумму. Инвесторы не готовы вкладывать тонны денег только ради того, чтобы синтез упал в цене.

Эрлих и его команда предлагают другой способ решения проблемы: снизить цену на синтез ДНК можно, если производить молекулы более низкого качества, а затем использовать стратегию кодирования по типу «фонтана ДНК», чтобы исправить молекулярные ошибки.

Научная работа опубликована в журнале Science 3 марта 2017 года
DOI: 10.1126/science.aaj2038

Date: 2017-03-06 11:16 am (UTC)
From: [identity profile] norg-norg.livejournal.com
Ну, вот - а граждане учОные голову ломали - куда бы им квантовый компьютер пристроить с его четвертичным кодом. Типа сейчас для него тупо нет задач - двоичный код отрабатывает всё наотлично. А тут - у ДНК 4 пептидных основания, и у квантового компа четырехразрядник. Всё сходится. )

Date: 2017-03-06 11:22 am (UTC)
From: [identity profile] twilighshade.livejournal.com
>>в каждом кубическом миллиметре ДНК можно сохранить 5,5 петабайт данных
Думаю уменьшение носителей продолжится. В первом моём компе стоял винчестер на 2 гигабайта, а сейчас суммарный объём памяти у меня 8,5 терабайт (6 винчестеров)

Date: 2017-03-06 02:26 pm (UTC)
From: [identity profile] 5cek.livejournal.com
мой первый компьютер был вообще без жесткого диска - ms-dos замечательно грузилась с одной дискеты на 720 кБ :) а винчестер на 40 МБ был вообще несбыточной мечтой.

Date: 2017-03-06 02:45 pm (UTC)
From: [identity profile] twilighshade.livejournal.com
а, что-то вроде "микро", помню да.
>>а винчестер на 40 МБ был вообще несбыточной мечтой
А их и не было, на компах Турбо и ЕС1841 что я успел застать были стандартные на 20 МБ, Seagate, ЧСХ

Date: 2017-03-06 11:49 am (UTC)
From: [identity profile] gatto-puzatto.livejournal.com
А нет ли в нашей ДНК какого-нибудь инопланетного послания?

Date: 2017-03-06 12:26 pm (UTC)
From: [identity profile] livejournal.livejournal.com
Здравствуйте! Ваша запись попала в топ-25 популярных записей LiveJournal для Украины. Подробнее о рейтинге читайте в Справке (http://www.dreamwidth.org/support/faqbrowse?faqid=303).

March 2017

S M T W T F S
    1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 3031 

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 26th, 2017 08:49 am
Powered by Dreamwidth Studios