Зачем нужны учения в дата-центрах

У Яндекса несколько собственных дата-центров, в которых располагаются десятки тысяч серверов и сетевое оборудование. Дата-центры обеспечивают качественную работу всех наших сервисов в любое время суток. Однако они не застрахованы от аварий. Как показывает опыт, произойти может всё что угодно: от короткого замыкания и неожиданного обрыва кабеля до потопа. К любой из этих ситуаций нужно быть готовым.Раз в неделю мы отключаем один дата-центр для моделирования аварийной ситуации, которая может повлиять на работоспособность наших сервисов. Мы называем это учениями. Учения помогают найти слабые места и избежать серьёзных последствий аварии, если она вдруг случится. Первое плановое отключение дата-центра в Яндексе произошло в октябре 2007 года, и с тех пор учения проводятся регулярно.Отключение дата-центра — сложный и многоэтапный процесс, который должен быть правильно скоординирован. О том, как проходят учения и какие выводы мы делаем после их завершения, читайте в нашем техноблоге на Хабрахабре.

.

©  Яндекс