Facebook заявляет, что перебои в работе были вызваны каскадом ошибок
6 октября 2021
Каскад ошибок, допущенных во время технического обслуживания сети Facebook, стал причиной сбоя, который привел к отключению сервисов компании в понедельник, говорится в сообщении компании в блоге, опубликованном во вторник.
Семейство приложений Facebook, включающее Instagram, WhatsApp и Messenger, было отключено более чем на пять часов, пока сотрудники пытались устранить повреждения. Более 3,5 миллиардов человек по всему миру пользуются услугами Facebook для общения с друзьями и семьей, распространения политических сообщений и расширения своего бизнеса за счет рекламы и охвата аудитории.
Первоначальная проблема возникла в сети, которую Facebook называет "магистральной" и которая соединяет центры обработки данных по всему миру, написал в блоге Сантош Джанардхан, вице-президент по инфраструктуре Facebook.
Во время технического обслуживания сети была дана команда оценить доступную мощность. Но команда сработала, отключив сеть и заблокировав связь между центрами обработки данных Facebook, сказал г-н Джанардхан. Инструмент аудита, предназначенный для выявления ошибочных команд, не смог обнаружить ошибку, добавил он.
Но это было только начало проблем. "Это изменение привело к полному разрыву соединений наших серверов между центрами обработки данных и Интернетом", - написал г-н Джанардхан. "И эта полная потеря связи вызвала вторую проблему, которая усугубила ситуацию".
Поскольку дата-центры Facebook были отключены, серверы компании, управляющие ее интернет-адресами, также оказались недоступны. "Это сделало невозможным для остального интернета найти наши серверы", - сказал г-н Джанардхан.
Когда масштабы отключения стали очевидны, инженеры Facebook изо всех сил пытались восстановить доступ, поскольку дата-центры компании сильно защищены, и сотрудники не могли сразу войти в них, сообщили в компании.
"Мы проделали большую работу по укреплению наших систем для предотвращения несанкционированного доступа, и было интересно наблюдать, как это укрепление замедлило нашу работу, когда мы пытались восстановиться после сбоя, вызванного не злонамеренными действиями, а ошибкой, совершенной нами самими", - написал г-н Джанардхан.
Как только инженеры оказались в центрах обработки данных Facebook и приступили к работе, они смогли восстановить сеть. Однако, по словам г-на Джанардхана, им нужно было действовать постепенно, чтобы не перегрузить систему.
Компания планирует изучить, как произошел сбой, и провести учения, которые позволят сотрудникам быстрее починить системы Facebook, добавил он.
Семейство приложений Facebook, включающее Instagram, WhatsApp и Messenger, было отключено более чем на пять часов, пока сотрудники пытались устранить повреждения. Более 3,5 миллиардов человек по всему миру пользуются услугами Facebook для общения с друзьями и семьей, распространения политических сообщений и расширения своего бизнеса за счет рекламы и охвата аудитории.
Первоначальная проблема возникла в сети, которую Facebook называет "магистральной" и которая соединяет центры обработки данных по всему миру, написал в блоге Сантош Джанардхан, вице-президент по инфраструктуре Facebook.
Во время технического обслуживания сети была дана команда оценить доступную мощность. Но команда сработала, отключив сеть и заблокировав связь между центрами обработки данных Facebook, сказал г-н Джанардхан. Инструмент аудита, предназначенный для выявления ошибочных команд, не смог обнаружить ошибку, добавил он.
Но это было только начало проблем. "Это изменение привело к полному разрыву соединений наших серверов между центрами обработки данных и Интернетом", - написал г-н Джанардхан. "И эта полная потеря связи вызвала вторую проблему, которая усугубила ситуацию".
Поскольку дата-центры Facebook были отключены, серверы компании, управляющие ее интернет-адресами, также оказались недоступны. "Это сделало невозможным для остального интернета найти наши серверы", - сказал г-н Джанардхан.
Когда масштабы отключения стали очевидны, инженеры Facebook изо всех сил пытались восстановить доступ, поскольку дата-центры компании сильно защищены, и сотрудники не могли сразу войти в них, сообщили в компании.
"Мы проделали большую работу по укреплению наших систем для предотвращения несанкционированного доступа, и было интересно наблюдать, как это укрепление замедлило нашу работу, когда мы пытались восстановиться после сбоя, вызванного не злонамеренными действиями, а ошибкой, совершенной нами самими", - написал г-н Джанардхан.
Как только инженеры оказались в центрах обработки данных Facebook и приступили к работе, они смогли восстановить сеть. Однако, по словам г-на Джанардхана, им нужно было действовать постепенно, чтобы не перегрузить систему.
Компания планирует изучить, как произошел сбой, и провести учения, которые позволят сотрудникам быстрее починить системы Facebook, добавил он.
Посмотреть на видео:
49
4784
/nytimes-ru/tech/facebook-zayavlyaet-chto-pereboi-v-rabote-byli-vyzvany-kaskadom-oshibok/
10
2000
ukrtop@mail.ru
/local/components/dev/auto.comments
Есть что добавить? #
Оставьте комментарий