Facebook открыл код распределенной системы хранения LogDevice
Facebook перевел в разряд отрытых продуктов LogDevice, распределенную систему хранения последовательно поступающих наборов данных, таких как логи, данные мониторинга, сведения об изменении конфигурации и потоки информации о событиях. Система ориентирована на надежное и отказоустойчивое хранение логов, обеспечивает сохранение порядка поступления записей и может масштабироваться для обработки миллионов разных логов в одном кластере хранения. Код написан на языке С++ и опубликован под лицензией BSD.
LogDevice может адаптироваться для различных видов нагрузки. Например, может использоваться для сохранения потоков событий от особо важных подсистем, гарантируя целостность всей поступающей информации и минимальные задержки на обработку данных, или применяться для принятия больших объемов данных для контроля решений на базе машинного обучения. Для обеспечения отказоустойчивости все поступающие данные реплицируются на несколько узлов. Автоматически обрабатываются ситуации выхода узлов из строя и деградирования производительности узлов (данные и нагрузка перераспределяются на другие узлы). Движок локального хранения на узлах основан на RocksDB и оптимизирован как для применения жестких дисков, так и SSD-накопителей.
В хранилище данные поступают в виде непрерывного потока записей. Запись неделима и является минимальным объектом адресации в хранилище. Каждая запись снабжена своим уникальным идентификатором последовательности (LSN - Log Sequence Number). Осуществляющее передачу логов приложение получает информацию о присвоенном LSN после успешной записи данных в хранилище. При чтении сразу несколько записей могут возвращаться приложению для обработки. Группы записей могут группироваться в наборы (логи).
Хранилище работает в режиме пополнения, который допускает только добавление новых данных. Изменение и удаление не поддерживается. Хранилище рассчитано на неограниченное время хранения записей, но предусмотрена и возможность чистки устаревших данных. Для проведения чистки устаревших записей предлагается использовать урезание лога, при котором удаляются все старые данные путем отсечения части файла. Урезание логов может производиться как по команде администратора, так и автоматически через определенные промежутки времени или при потреблении заданного объема дискового пространства.
Для управления предлагается API и утилита командной строки ldshell, поддерживающая интерфейс LDQuery (команда query) для формирования запросов данных и оценки состояния кластера при помощи конструкций в стиле SQL.