Опечатка в команде привела к масштабному отказу облака Amazon
Недавний масштабный сбой облачного сервиса хранения данных AWS S3, продолжавшийся 11 часов, был вызван тем, что сотрудник Amazon Web Services допустил опечатку, выполнив команду отключения небольшого числа серверов системы тарификации, которая работала медленнее, чем должна была.
Из-за неверно введенного параметра произошло отключение большого количества серверов, поддерживающих критически важные системы S3. Результатом стал отказ S3 в регионе Amazon US-EAST-1 (Северная Вирджиния) и зависимых сервисов, включая Elastic Block Store, Lambda и механизм запуска новых экземпляров Elastic Compute Cloud.
Сбой повлиял на работу таких компаний, как Netflix, Reddit, Adobe и Imgur. По данным Apica, сайты более половины онлайн-магазинов из сотни самых крупных загружались медленнее обычного.
Для восстановления работоспособности S3 понадобился полный перезапуск ряда подсистем, но такая операция в Amazon не выполнялась уже несколько лет, а поскольку за это время облако существенно выросло, перезагрузка заняла больше времени, чем предполагалось.
Чтобы предотвратить повторение инцидента, в Amazon приняли ряд мер, в частности, изменили инструмент, ставший виновником сбоя, - теперь он будет анализировать возможные последствия ввода команд и выдавать соответствующие предостережения.