[Исправлено] Временная недоступность сервиса
15 сентября 2016 г., 12:50 MSK (UTC+3)
12:50: Дежурные инженеры получили оповещение о недоступности части магазинов и приступили к восстановлению.
13:05: Сервис восстановлен.
12:50: Дежурные инженеры получили оповещение о недоступности части магазинов и приступили к восстановлению.
13:05: Сервис восстановлен.
13:53: Дежурные инженеры получили оповещение о недоступности сайта merchium.ru и приступили к восстановлению.
18:35: Сайт восстановлен.
Активные магазины данная проблема не затронула.
13:42: Дежурные инженеры получили оповещение о недоступности части магазинов и приступили к восстановлению.
13:56: Сервис восстановлен.
Сегодня с 9:14 до 9:24 из-за сбоя одного из компонентов сервиса наблюдался рост времени отклика магазинов и администраторских панелей.
4:04: Дежурные инженеры получили оповещение о проблемах с доступностью сервиса и приступили к восстановлению.
4:22: Сервис полностью восстановлен.
19:10: Причиной данного инцидента послужила некорректная работа проверки здоровья компонентов сервиса, из-за которой балансировщик направлял часть пользовательских запросов на сбойные компоненты. В течение инцидента примерно 50% запросов к сервису возвращали ошибку или загружались бесконечно. Исправление уже проходит тестирование и очень скоро будет доступно для всех.
22:12: Исправление прошло тестирование и включено для всех магазинов.
19:05: Дежурные инженеры получили оповещение о недоступности части магазинов и приступили к восстановлению.
19:14: Сервис восстановлен.
В феврале Мерчиум переехал с Amazon Web Services на Селектел, но мы оставили запущенным старый балансировщик нагрузки, чтобы предупредить наших пользователей об изменениях и дать им достаточно времени на обновление привязанных к магазинам доменов.
Сегодня мы отключаем старый балансировщик.
Если вы не обновили DNS записи для привязанных доменов, это отключение повлияет на доступность магазина: он будет недоступен по привязанному домену, но будет как обычно доступен по адресу *.mymerchium.ru, который вы получили при создании магазина.
14:15 - Инженеры получили уведомления о росте времени отклика магазинов и приступили к изучению проблемы.
15:00 - Время отклика нормализовалось. Следим за ситуацией.
16:30 - Сбой еще одного компонента вызывает повторный рост времени отклика.
17:30 - Неполадка устранена. Все магазины работают в штатном режиме.
18:00: Зарегистрирован рост количества ошибок от магазинов и отправлены оповещения инженерам.
18:10: Инженеры приступили к восстановлению сервиса.
18:45: Сервис работает в штатном режиме и мы наблюдаем за ситуацией.
Идут запланированные работы на сетевом оборудовании хостинга. Временно недоступны сайт и маркет Мерчиума. Магазины работают в штатном режиме.
UPD 7:00: Сайт и маркет - онлайн. Магазины недоступны.
UPD_2 10:00: Магазины частично доступны. Возможны перебои в работе. Мы продолжаем работать над восстановлением сервиса.
UPD_3 11:20: Сервис полностью восстановлен.