Как Netflix се справиха с последния срив в AWS

2
26


В неделя облачни ресурси на Amazon Web Services (AWS) претърпяха поредния си голям срив, което причини множество главоболия за различен по размер компании и сайтове – Airbnb, Tinder, сайтът на кино-енциклопедията IMDB и други. В продължение на часове няколко сайта бяха извън строя, а няколко компании се оказа, че не могат да доставят услуги към клиентите си заради срива.

Подобни инциденти, макар и засягаща функционалността на услугите едва за няколко часа, може да предизвикат загуба на немалки печалби за компаниите. Една такава компания, засегната от срива е била Netflix, които обаче са се подготвили за подобни случаи, изпитвайки далеч по-малки проблеми, заради неактивността на AWS.

Въпросният проблем е бил причинен от срив в дейта център на Amazon в Северна Вирджиния (известен като US-EAST), а оправянето на проблема е продължило повече от шест часа, като отделни проблеми са докладвани и по-късно. Източник на проблемите се е оказал NoSQL базата от данни на компанията DynamoDB, а впоследствие са били регистрирания грешки и забавяния във функционирането на още 22 облачни услуги на AWS, сред които AWS Elastic Compute Cloud (EC2), услугата за виртуален десктоп AWS WorkSpaces, AWS Lambda и др.

Един от големите клиенти на AWS е Netflix – доставящи филмово съдържание до над 50 милиона домакинства. Компанията обаче не изпитала трудностите, пред които се изправили много други услуги. Причината – разиграни многократно сценарии предварително, включващи тренировка за подобни инциденти.

Инженерният подход на компанията включва използването на т.нар. Simian Army, платформа, която тества инфраструктурата на Netflix срещу предварително изградени сценарии, обезпечаваща целостта на качеството на услугите, предоставяни от компанията при срив и инциденти на облачните доставки. Системата „атакува“ инфраструктурата чрез набор от инструменти със забавни имена, като Chaos Monkey, който деактивира на случаен принцип различни продуктови облачни инстанции, Latency Monkey, представяща забавяне в комуникациите между клиент-сървър, и най-сериозният играч – Chaos Gorilla – симулираща срив в цялата зона за достъп на Amazon. Именно често разиграваните сценарии са спасили и Netflix в случая, предотвратявайки сериозни проблеми. За кратко време, инженерите от компанията са успели бързо да пренасочат трафика от проблематичния регион на AWS към незасегнати от срива дейта центрове в други зони.

Компанията се справя със ситуацията благодарение на практика, която нарича „многозонова активна репликация“ (multi-region, active-active replication), при която всичките данни, нужни за функционирането на услугите им се репликират между различни AWS зони по начин, обезпечаващ бързото възстановяване от сривове.

„В една нормална ситуация, при коректно функциониране на операциите, потребителите биват пренаправлявани чрез DNS-те им по регионален принцип до най-близкия AWS регион. В случай на сериозен проблем, засягащ цял регион, ние разполагаме с инструментите да презапишем тези DNS записи, базиращи се на географски принцип и да пренасочим целия трафик на потребителите към нормално функционираща зона“, обясняват от компанията в публикация в блога на Netflix.

0 0 гласа
Оценете статията
Абонирай се
Извести ме за
guest
2 Коментара
стари
нови оценка
Отзиви
Всички коментари