group-telegram.com/boombah_in_da_house/1640
Last Update:
Метастабильное состояние отказа
Отдельный кайф есть в том, чтобы развиться до определенного (довольно высокого, что уж тут скромничать🤗) уровня в профессии и научиться перекладывать рабочие ситуации на обычный «бытовой мир»
Недавно я писал про кризис, давайте поговорим про такое явление внутри кризиса, как метастабильное состояние отказа
Метастабильное состояние отказа (Meta Stable Failure или MSF, чаще всего встречается и сложнее всего диагностируется в сложных распределенных системах) — это особое положение системы, при котором она находится в неустойчивом равновесии между работоспособным и неработоспособным состоянием.
Основные характеристики этого состояния:
Тут для нас крайне важен второй пункт. Еще раз: любое воздействие будет непредсказуемым. MSF будет реагировать даже на небольшие воздействия, читай, попытки все починить.
В обычной жизни такими попытками могут быть как "советчики" (делай так, не делай так, позвони друзьям, поменяй работу), так и собственные усилия, направленные на выход из кризиса (мне надо, я должен, надо просто перетерпеть). Про внешние консультации надо понимать, что если вы за них не заплатили, то консультантам, в целом, похуй, что с вами произойдет дальше после их советов. Да даже если и заплатили, то скорее всего тоже🙈 Поэтому исключительно здравый смысл: послушайте, покивайте и поступайте как считаете нужным. Пусть лучше вся ответственность будет вашей
Система, зависшая в MSF в целом функционирует, но очень и очень ненадежно. Если нет инструментов диагностики MSF, то будет казаться, что все вроде ок, но бахнуть может в любой момент.
Что делать?Снимать штаны и бегать Понять, что система вошла в MSF, иными словами диагностировать это состояние (это сложно!) и принять тот факт, что несмотря на то, что все еще не полностью рухнуло, система в данный момент нестабильна.
Не лезть шаловливыми ручками туда, куда лезть не надо. Иными словами, не надо пытаться починить без полного понимания, что происходит и где именно возникло MSF. Это понимание не закладывается в документацию и возникает только на опыте. Иными словами, пару раз таки должно ебануть.
При MSF надо очень аккуратно диагностировать ситуацию и не предпринимать резких движений. Подкладывать мониторинг (который тоже является воздействием на систему, кстати. Бесплатного мониторинга не бывает) и думать-думать-думать, что можно сделать в текущей ситуации, для метастабильных состояний не бывает простых рецептов
Выносить и аккумулировать опыт после выхода из MSF. Обязательно подумать и зафиксировать все выводы, продумать пути ранней диагностики и предотвращения подобного, закопать достаточно много сил в problem management и поиск root cause (иногда причина может лежать совсем не там, где это кажется на первый взгляд). Построить связи вида "Если..., то..., когда..." и повесить алерты на эти триггеры. Если мы говорим о жизни, а не о технической системе, то имеет смысл постоянно рефлексировать периоды. Вести дневник, анализировать ситуацию, не отпускать контроль. Да, сложно и дорого и чем дальше, тем сложнее и дороже) Но тут уж надо решить, что в итоге будет выгоднее: предупредить или чинить
〰️〰️〰️〰️〰️〰️〰️
🗞 @boombah_in_da_house