То, как вы реагируете на сбой вашей системы, может определить ваш бизнес

Около 9:45 По тихоокеанскому времени 28 февраля 2017 года такие сайты, как Slack, Business Insider, Quora и другие известные направления, стали недоступны. Для миллионов людей сам интернет казался сломанным.

Оказалось, что Amazon Web Services был массовый сбой использование хранилища S3 в центре обработки данных в Северной Вирджинии, проблема, которая создала каскадное воздействие и привела к отключению, которое длилось четыре мучительных часа.

В конечном итоге Amazon понял это, но вы можете только представить, насколько напряженным могло быть это для технических команд, которые часами разыскивали причину сбоя, чтобы они могли восстановить сервис. Через несколько дней компания выдан публичный вскрытие объясняя, что пошло не так и что шаги, которые они предприняли чтобы убедиться, что эта конкретная проблема больше не повторится. Большинство компаний пытаются предвидеть подобные ситуации и предпринимают шаги, чтобы не допустить их возникновения. На самом деле, Netflix придумал понятие хаоса инженериигде системы проверяются на слабые стороны, прежде чем они превращаются в простои.

К сожалению, ни один инструмент не может предвидеть каждый результат.

Весьма вероятно, что ваша компания столкнется с проблемой огромных масштабов, подобной той, с которой столкнулась Amazon в 2017 году. Это то, о чем беспокоится каждый основатель стартапа и генеральный директор Fortune 500 – или, по крайней мере, им следует. То, что определит вас как организацию, и как ваши клиенты будут воспринимать вас как движущегося вперед, будет зависеть от того, как вы справитесь с этим и чему научитесь.

Мы поговорили с группой высококвалифицированных экспертов по стихийным бедствиям, чтобы узнать больше о том, как не допустить, чтобы подобные моменты оказали глубоко негативное влияние на ваш бизнес.

Это всегда о ваших клиентах



Надежность и время безотказной работы настолько важны для современного цифрового бизнеса, что корпоративные компании разработали новую роль – инженера надежности сайта (SRE) для поддержания работоспособности своих ИТ-активов.

Tammy Butow, главный SRE в Gremlin, стартапе, который разрабатывает инструменты проектирования хаоса, говорит, что основная роль SRE заключается в том, чтобы клиенты были довольны. Если сайт запущен и работает, это, как правило, ключ к счастью. «SRE, как правило, больше фокусируется на влиянии клиента, особенно с точки зрения доступности, времени безотказной работы и потери данных», – говорит она.

Компании измеряют время безотказной работы в соответствии с так называемыми «пятью девятками», или доступностью 99,999%, но инженер по программному обеспечению Нора Джонс, которая в последнее время возглавляла Chaos Engineering и Human Factors в Slack, говорит, что зачастую это слишком большое значение. По словам Джонса, внимание должно быть сосредоточено на клиенте и влиянии доступности на их восприятие вас как компании и итоговых показателей вашего бизнеса.

Кто-то должен быть спокоен и просто задавать правильные вопросы.

«Это деньги в конце дня, но со временем настроения пользователей могут измениться (если у вашего сайта проблемы)», – говорит она. «Как они думают о вас, как они говорят о вашем продукте, когда они разговаривают со своими друзьями, когда они разговаривают с членами своей семьи. Девятки не улавливают ничего из этого ».

Роберт Росс, основатель и генеральный директор FireHydrant, платформы SRE как услуга, говорит, что, возможно, пришло время переосмыслить идею девятки. «Может быть, нам нужно изменить этот термин. Возможно, мы сможем популяризировать что-то вроде «целей уровня счастья» или «соглашений об уровне счастья». Таким образом, основное внимание уделяется нашим продуктам ».

Когда дела идут плохо

Компании делают все возможное, чтобы предотвратить бедствия, чтобы не разочаровать своих клиентов, и обычно имеют непредвиденные обстоятельства для своих непредвиденных обстоятельств, но иногда, независимо от того, насколько хорошо они планируют, кризисы могут выйти из-под контроля. Когда это происходит, необходимо выполнить SRE, что также требует планирования; зная, что делать, когда дела идут плохо.