59

Дедупликация данных

Кирилл Коротаев

Проблема: дедупликация данных – это процесс обнаружения одинаковых блоков информации, находящихся на различных дисках, томах, архивах и т.п. Обычно дедупликация основана на хэшах данных, позволяющих идентифицировать одинаковое содержимое. Дедупликация огромных объемов данных – процесс достаточно медленный, поскольку базы данных хэшей могут быть очень большими (многие терабайты), а неупорядоченность хэшей требует произвольного доступа к такой базе данных для поиска.

Цель: исследовать различные способы улучшения механизма дедупликации данных, принимая во внимание их расположение (например, дедуплицированные данные в одном потоке размещаются в том же порядке в другом потоке). Исследование дедупликации данных в распределенных системах хранения.