Вопросы надежного и долговременного хранения цифровых данных (информации). Устаревающие, привычные и новые внедряемые носители информации. Контрольная сумма - всегда ли помогает?

Новые и устаревающие носители. Вопросы надежности

Уже действующие (а также планируемые к запуску) технологии от Sony:
Optical Disc Archive - en.wikipedia.org/wiki/Optical_Disc_Archive
Небольшая заметка об этом формате на ixbt.com/news/2016/04/20/sony-optical-disc-archive-3-3.html
Archival Disc - en.wikipedia.org/wiki/Archival_Disc

Кварцевое стекло и технология 5D - gazeta.ru/science/2016/02/18_a_8081009.shtml
Stacked Volumetric Optical Disc (SVOD) - en.wikipedia.org/wiki/Stacked_Volumetric_Optical_Disc
Holographic data storage - en.wikipedia.org/wiki/Holographic_data_storage
"Holographic storage offers a way to cram hundreds of movies onto a single DVD-size disc" - technologyreview.com/s/410960/an-easier-upgrade-to-holographic-storage/
3D optical data storage - en.wikipedia.org/wiki/3D_optical_data_storage

Вот это интересно с сайта UNESCO. "Risks Associated with the Use of Recordable CDs and DVDs as Reliable Storage Media in Archival Collections - Strategies and Alternatives" - unesdoc.unesco.org/images/0014/001477/147782E.pdf

Интересный разбор по оптическим дискам, в том числе M-disc. Другие методы также упоминаются - remontka.pro/keep-data/

О самой технологии M-disc - en.wikipedia.org/wiki/M-DISC

Optical media preservation - en.wikipedia.org/wiki/Optical_media_preservation

В чем то спорная, но интересная публикация 2012 года. "Какие технологии позволяют сохранять информацию максимально долго? Вот некоторые из них, новых и уже существующих." http://digistream.ru/gadgets/samye-dolgovechnye-nositeli-informacii/

Дискуссия на IXBT - forum.ixbt.com/topic.cgi?id=31:25122
Также у них полезно зайти вот в этот раздел. "Оптические носители информации" - forum.ixbt.com/?id=31

"Keeping Data For A Long Time" - forbes.com/sites/tomcoughlin/2014/06/29/keeping-data-for-a-long-time/#b6f753b15e26

Статья 2017 года "Как деградируют оптические диски" - geektimes.ru/post/285884/

Про жесткие диски (материал 2016 г.) - geektimes.ru/post/276014/

Хвалебная статья в отношении ленточных носителей. Но в комментариях много скепсиса и интересных возражений. "Самый надежный носитель информации" habrahabr.ru/post/166595/

Забавно. "Американские ученые разработали технологию хранения и последующего считывания информации посредством их записи в геном бактерий" - osp.ru/os/2003/02/182667/

Еще с IXBT. "CD, DVD срок хранения данных" - forum.ixbt.com/topic.cgi?id=64:1656

Материал на сайте "Вокруг света" - vokrugsveta.ru/vs/article/7516/

Из раздела "Флейм", но с занятными комментариями - imho.ws/archive/index.php?t-112635.html

Еще статейка - thequestion.ru/questions/202669/kakoi-sposob-khraneniya-informacii-schitaetsya-samym-nadyozhnym-i-pochemu

Заметка про Nanoform - tjournal.ru/8143-nanoform-samii-nadezhnii-nositel-dannih-na-planete

"Reliability of Data Storage Systems" (IBM. Zurich Research Laboratory) - iaria.org/conferences2015/filesCTRQ15/IliasIliadis_CTRQ_2015_Keynote.pdf

"CD, DVD or SD: what's best for backups?" - theguardian.com/technology/askjack/2012/feb/23/ask-jack-backup-data-storage

"Data Storage Reliability – What to Choose so You Don’t Regret it Later" - thedatarecoveryblog.com/2015/08/28/data-storage-reliability-what-to-choose-so-you-dont-regret-it-later/

Исчо почитать - broadcasting.ru/articles2/Oborandteh/hranenie_dannyh_na_CD_DVD_diskah

"What it is the cheapest and the most reliable data storage available today?" - quora.com/What-it-is-the-cheapest-and-the-most-reliable-data-storage-available-today

Мнение редакции сайта film-tech.ru. В заключении этого раздела публикации редакции сайта хотелось бы оставить свое мнение на тему хранения цифровых данных. Нам приходится хранить в основном данные общим объемом в десятки и сотни Гигабайт (со временем это число растет). Это в основном фотографии, аудиофайлы, видеофайлы, другая информация. Наш выбор для этих целей - качественные, но при этом не слишком дорогие диски CD, DVD, постепенно осваивается Blu-ray. Возможно в ближайшем будущем будут добавлены видео тестирования целостности данных на дисках, записанных в 2003-2004 годах. Хотим отметить, что на наш взгляд проблем хранения стоит опасаться прежде всего при работе с файлами крайне большого объема, либо когда файлы небольшие, но их крайне много, и приходится использовать носители немалой вместимости - свыше 25-100 Гб.

Контрольная сумма проверки целостности цифровых данных. Надежность и точность ее использования

В предыдущем пункте публикации мы сделали небольшой обзор различных типичных и новых носителей цифровой информации, вопросы их надежности. Но какими же методами проверять записанную, сохраненную, заархивированную информацию. Конечно же почти все, кто задавался такими вопросами и проблемами знает о контрольной сумме (checksum) или хеш-сумме (hashsum). Но насколько идеален этот механизм? Таит ли он в себе какие либо проблемы и сложности, особенно, когда дело касается файлов большого объема.

Полезная статья. List of hash functions - en.wikipedia.org/wiki/List_of_hash_functions

Если вы уже знакомы с описанием вычислительных принципов работы механизма расчета и проверки контрольной суммы, то понимаете основную суть. Если проверяемый файл повредился (при хранении, копировании, передаче по сетям), т.е. изменились содержащиеся в нем данные (даже незначительно) - контрольная сумма при проверке также окажется другой, отличной от той, которая была получена с файла изначально (после его создания, перед хранением, передачей и т.п.). Но всегда ли это происходит именно так? Многие наверняка отлично знает ответ, что невсегда.

Существует много различных алгоритмов (хеш-функций), дающих результирующую контрольную сумму. Отличаются они прежде всего в объеме этой итоговой суммы. Обычно это данные объемом от 8 до 512 бит. Редко меньше или больше указанного диапазона.

А теперь давайте приведем несложные расчеты, чтобы понять насколько надежен механизм подсчета контрольной суммы для проверки файлов большого объема на их неповрежденность при длительном хранении (или для других случаев). Специалисты и люди, что называется, находящиеся в теме, прекрасно знают ответ, но многие интересующиеся вопросом вполне возможно не совсем точно представляют себе всю картину. Допустим мы используем один алгоритм для вычисления контрольной суммы и дает он проверочную сумму (фразу) объемом в 128 бит. Если проверяемый файл имеет такой же объем, несложно предположить, что для качественного алгоритма расчета контрольной суммы любое изменение исходного файла почти наверняка в 100% случаев приведет к обязательному изменению и контрольной суммы (так как и файл и контрольная сумма имеют одинаковое число возможных вариаций представления (одинаковое число комбинаций, сочетаний бит информации). А именно, 128 бит - это 2 в степени 128 или примерно 3,4 x 10 38- это число вариантов комбинаций содержащейся в файле информации. Число вариаций, которое может принимать наша контрольная сумма.

Но все мы на практике обычно сталкиваемся с файлами гораздо более серьезных объемов - десятки и сотни Мегабайт, а порой десятки и сотни Гигабайт. Насколько надежны здесь все эти алгоритмы?

Начнем опять с простого. Представим, что при том же алгоритме проверки с 128 битами на выходе, у нас проверяемый файл в 2 раза больше - 256 бит. Это уже 2 в степени 256 или 3,4 x 3,4 x 10 76 вариантов комбинаций. Для удобства не будем переходить к степеням числа 10, будем считать вокруг степеней числа 2. И так теперь наш файл в 256 бит имеет больше вариантов комбинаций содержания чем контрольная сумма, а именно в 2 128 раз. Именно примерно такое число раз наш алгоритм проверки контрольной суммы (а мы условимся, что это качественный алгоритм) может нас обмануть для различных вариантов изменения (повреждения исходного файла в 256 бит). Но какова вероятность такого неприятного исхода? Чтобы это посчитать надо именно это число возможных "неверных", "обманных" срабатываний подсчетов контрольной суммы поделить на всё то же число вариантов комбинаций содержания файла - 2 256. При делении для одинаковых чисел степени вычитаются. То есть вероятность ошибочной работы механизма подсчета контрольной суммы примерно = 1 к 2 128. Это весьма ничтожное число.

Попробуем взять файл размером в 4 раза больше - 512 бит. Теперь наш файл в 512 бит имеет больше вариантов комбинаций содержания чем контрольная сумма, а именно в 2 384 раз. Считаем вновь вероятность неприятности при подсчете контрольной суммы. 2 384 делим на 2 512 получаем снова 1 к 2 128.

Видим тот же результат. Есть сомнения? Давайте возьмем файл в 10.000 раз больше объемом - 1280 Кбит (это 160 Кбайт) - это может быть к примеру уже объемный текстовый файл, midi-файл, небольшое изображение и т.п. (количество бит увеличилось в 10 тыс. раз - 128 x 10.000 бит.). Количество вариантов комбинаций содержания теперь получается огромным = 2 1280000. А значит и количество вариаций, при которых контрольная сумма нас обманет (не изменится при поврежденном файле) будет больше, а именно 2 1279872. Но вероятность такой неприятности не изменится и будет все также составлять 1 к 2 128. Т.е. сколько не увеличивай размер файла, вероятность обмана через подсчет контрольной суммы будет постоянной.

Для общей информации приведем количество вариаций, при которых контрольная сумма нас подведет для файлов заметных размеров.
Файл объемом 1280 Мбит (160 Мбайт) - в 10.000.000 раз больше чем файл объемом 128 бит. Количество возможных неудач - 2 1279999872. Это может быть объемный файл базы данных сайта, качественное изображение большого разрешения, аудиофайл высокого качества, небольшой видеофайл SD или HD качества и т.п.
Файл объемом 1280 Гбит (160 Гбайт) - в 10.000.000.000 раз больше чем файл объемом 128 бит. Количество возможных неудач - 2 1279999999872. Это может быть как небольшой, так и заметный по размеру файл сжатого либо несжатого видео довольно высокого качества (например Full HD, 4K, возможно выше) и т.п. Но вероятность обмана нас работой алгоритма по прежнему останется всё той же - 1 к 2 128.

То есть все мы конечно понимаем, что все современные носители информации неидеальны, какими бы гигантскими сроками хранения информации не ласкали наш слух производители, неприятности могут подстерегать всегда, даже если носитель крайне качественный и надежный, случается всякое. Но вышеприведенные расчеты показывают, что при повреждение того или иного файла из-за проблемы с носителем информации (а также при передаче данных и т.п.), вероятность того, что это не отразится при проверке контрольной суммой - ничтожно мала.

К этому надо добавить и то, о чем уже немного упоминалось выше. Алгоритмов подсчета контрольной суммы - много. В том числе с выдачей контрольной суммы размером до 512 бит. Для успокоения можно использовать сразу несколько таких алгоритмов для каждого отдельного файла. Например в некоторых программах для такой работы одновременно предусмотрена работа нескольких десятков алгоритмов. Вероятность ошибочной работы это не исключит. Но снизит ее заметно, вплоть до соотношения примерно 1 к 2 2000. Для понимания, 2 2000 - это число с более чем 600 нулями.

Стоит также помнить и о том, что наиболее известные и распространенные алгоритмы подсчета контрольной суммы работают таким образом, что незначительные изменения файла (а при правильном хранении качественных носителей информации могут возникнуть скорее они, чем какие то серьезные повреждения/изменения структуры данных) обязательно влияют на контрольную сумму. То есть невероятные случаи, когда контрольная сумма не изменилась, а файл оказался поврежденным означают, что структура файла повреждена серьезно. Например, если это текст, миди-файл, картинка, аудиофайл, видеофайл. То он у вас возможно в части программ не откроется вовсе, а если и откроется, то то, что он поврежден и изменен до неузнаваемости во что-то совершенно непотребное - вы увидите сразу.

Мы не случайно тут упомянули в тексте публикации, в том числе в примерах файлов, виды данных понятных широкому кругу людей и активных пользователей цифровой информации - текст, базы данных, картинки, аудио, видео. Все таки наш сайт в немалой степени посвящен именно этим направлениям работы с данными как в аналоговом, так и в цифровом виде. Проблема того, что алгоритмы подсчета контрольной суммы всегда оставляют микроскопический шанс на ошибку, несообщение о поврежденности файла, скорее имеет значение для данных другого, более сложного характера, связанных с безопасностью, криптографией, паролями, научной, финансовой и юридической сферами (а также с областью особо секретной информации), областью работы крупных корпораций, областью больших массивов данных (в том числе Big data), со сферами, связанными с проблемами киберпреступлений и кибермошенничества. Это тема для отдельной публикации и в данной статье мы ее затрагивать не будем.

И как упоминалось в некоторых полезных ссылках в первом (верхнем) разделе данной публикации - сохраняйте важные данные в нескольких копиях (на различных марках, а может и типах носителей) - это увеличит шансы на их сохранность. И не забывайте периодически проверять эти данные на целостность и перезаписывать на новые носители, если в сроке годности прежних носителей уже есть сомнения.

2017