Amazon объяснила, почему из-за нее отключились умные матрасы и Signal

Amazon объяснила, что сбой в работе AWS 19–20 октября произошел из-за ошибки в системе обновления DNS. Две программы одновременно изменили адреса серверов и случайно стерли правильные данные — и множество сервисов стало недоступно

Amazon объяснила, почему из-за нее отключились умные матрасы и Signal

Компания Amazon раскрыла подробности масштабного сбоя в работе облачной платформы Amazon Web Services (AWS), который произошел 19–20 октября и затронул миллионы пользователей по всему миру.

Неполадки в регионе Северная Вирджиния привели к сбоям в работе популярных сервисов, включая Signal, Snapchat, Roblox, Zoom, Duolingo.

Amazon Web Services— самая распространенная в мире облачная платформа, на нее полагаются миллионы клиентов, в том числе стартапы, крупнейшие корпорации и правительственные учреждения, отмечается на сайте AWS.

В официальном техническом отчете Amazon пояснила, что сбой был вызван дефектом в системе управления DNS облачной базы данных Amazon DynamoDB.

Ошибка случилась из-за того, что две автоматические системы Amazon, отвечающие за обновление адресов серверов (DNS), начали работать одновременно и «перепутали» свои действия.

Amazon объяснила, почему из-за нее отключились умные матрасы и Signal

Одна система сильно замедлилась и применяла устаревшие данные, в то время как вторая работала быстро и уже обновила все адреса. Когда первая наконец закончила свою работу, она— не зная, что данные изменились, — перезаписала новые настройки старыми. Затем вторая система автоматически удалила эти «старые» записи, что обнулило все адреса серверов и сделало сервис DynamoDB временно недоступным.

«Из-за удаления активного плана система осталась в несогласованном состоянии, что не позволяло <…> применять последующие обновления плана. Эта ситуация в конечном итоге потребовала ручного вмешательства оператора для исправления»,— говорится в сообщении пресс-службы Amazon.

Компания заявила, что уже отключила сбойные процессы обновления DNS, внедрила дополнительные меры защиты и тестирования для предотвращения подобных инцидентов в будущем.

«Приносим извинения за ущерб, нанесенный этим событием нашим клиентам. Несмотря на точто мы имеем богатый опыт предоставления услуг с высочайшим уровнем доступности, мы понимаем, насколько критически важны наши услуги для наших клиентов, их приложений, конечных пользователей и их бизнеса»,— добавили в компании.

Читайте РБК в Telegram.

Источник

No comment

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *