Vera S. Vasilieva (sivilia_1) wrote,
Vera S. Vasilieva
sivilia_1

О недоступности ЖЖ

Оригинал взят у livejournal в О недоступности ЖЖ
Уважаемые пользователи,

на данный момент корректная работа ЖЖ восстановлена, и мы готовы рассказать вам о произошедшем и последствиях более подробно.

Если вы впервые узнали о понятии "кластер" (User Claster), позволим себе привести прекрасную аналогию системы кластеров с городами от пользователя vmenshov, которую он доступным и понятным даже для неспециалистов языком изложил в этой записи: http://vmenshov.livejournal.com/99974.html

16 мая, в 02:22 ночи по московскому времени, система мониторинга состояния LiveJournal сообщила о сбое, возникшем на 7-м пользовательском кластере (имя кластера — Bratwurst¹, самый знаменитый пользователь — navalny, самое известное сообщество — malyshi). Анализ показал, что в базе данных разрушены структуры и сами данные множества таблиц, вследствие чего требуется исправление, а затем и восстановление данных с зеркалирующего сервера. Процесс, по предварительным оценкам, прогнозировался на 5-6 часов, поэтому во избежание потери данных в случае, если на самом зеркале внезапно произойдет сбой, было принято решение полностью отключить кластер. В то время, пока восстанавливался 7-й кластер, что само по себе трудоемкий процесс, так как необходимо передать по локальной сети большое количество данных, а сеть, помимо этого, занята остальными процессами жизнедеятельности ЖЖ, система мониторинга сообщила об аналогичном сбое на 9-м пользовательском кластере (имя кластера — ChickenTikka², самый знаменитый пользователь — adagamov.info, самое популярное сообщество — ru_politics). Для 9-го кластера потребовались те же процедуры, что и для 7-го, но ввиду того, что сеть и так на 100% эксплуатируется по причине активного процесса восстановления последнего, изначально озвученные сроки значительно увеличились.

Все пользователи, находящиеся на данных кластерах, полностью потеряли доступ к ЖЖ, вне зависимости от того, на какие страницы они хотели зайти. Ввиду того, что часть информации о пользователях и их записях собирается с кластеров в реальном времени, а 7-й и 9-й полностью отключены от системы, у остальных пользователей, чьи журналы не находятся на данных кластерах, ЖЖ стал вести себя в контексте ситуации. Например, если на данный момент именно на "этой" странице ленты друзей должна быть запись от пользователя с одного из двух аварийных кластеров, то лента друзей не открывалась и выдавала 500 или 503 ошибку. Подобное происходило, если во входящих было сообщение от пользователя с 7-го или 9-го кластера. Если у пользователя есть друг с аварийных кластеров в какой-либо группе друзей, то страница создания записи также не была доступна. В результате произошедшей аварии ЖЖ работал по-разному нестабильно для разных пользователей.

По состоянию на 08:12 (все время — московское) 7-й кластер восстановлен на 35%, 9-й — на 1.5%.
09:51: UC7 — 50%, UC9 — 5%.
Для оптимизации работы сети восстановление 9-го кластера было отложено до момента завершения восстановления 7-го. 7-й кластер был полностью восстановлен и введен в строй в 14:41, а для 9-го возобновлена процедура восстановления. В 19:09 система сообщила, что при восстановлении 9-го кластера возникли проблемы, требующие вмешательства. Как результат, 9-й кластер восстановлен только к 04:42 утра, а работа ЖЖ полностью восстановлена к 05:40 17 мая.

Некоторые пользователи с 9-го кластера могут до сих пор частично не видеть своих записей, созданных за последний день или два. Мы работаем над их восстановлением из архивов. Если у вас пропали какие-то записи, мы будем очень признательны, если вы сообщите об этом в Службу поддержки (http://www.livejournal.com/support/submit.bml), так как это поможет нам провести этот процесс значительно быстрее.

Стоит отметить, что на время происшествия в ЖЖ были отключены сервисы отложенных записей и доставки уведомлений. После восстановления все эти сервисы включены вновь, так что отложенные записи опубликовались с задержкой, а в рассылке уведомлений накопилась большая очередь, которая, по расчетам на текущий момент, будет расходиться еще несколько часов.

В причинах фактически одновременного серьезного выхода из строя двух кластеров нам еще предстоит разобраться, это займет какое-то время. О результатах мы сообщим дополнительно.

Всем пользователям платных сервисов будет компенсирован простой в размере одной недели.

Мы приносим свои извинения за доставленные неудобства.

¹ Bratwurst — сарделька из телятины, говядины и/или свинины, приготовленная с большим количеством специй.
² ChickenTikka — афганское национальное блюдо, популярное во всем мире, из филе курицы, маринованной в йогурте со специями.
Subscribe
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 0 comments