Cloudflare sdílí, jak společnost řeší údržbu serverů ve velkém

8 dubna, 2024

Společnost Cloudflare sdílela určité poznatky o tom, jak udržuje své servery v provozu.

V blogovém příspěvku, který společnost zveřejnila, Cloudflare uvedla, že přistupuje k údržbě serverů prostřednictvím „chybového rozpočtu“ (error budget), mezi jinými technikami včetně autonomní diagnostiky hardwaru.

Cloudflare, poskytovatel počítačových sítí Edge, zabezpečení a sítí pro doručování obsahu (CDN) se servery umístěnými ve 310 městech a 120 zemích, uvedl, že vyvinul infrastrukturu odolnou proti chybám, která může pokračovat v provozu s „malým nebo žádným dopadem“ selhání.

Dříve by společnost musela vyslat člena svého provozního týmu datového centra, aby ručně odstraňoval a diagnostikoval každou chybu serveru a uvedl jej zpět do provozu – což by u jednoho serveru mohlo trvat hodiny.

Nové řešení je autonomní, což znamená, že může fungovat nezávisle bez lidského zásahu nebo dohledu, a bylo nazváno „Phoenix“.

Podle příspěvku Phoenix v pravidelných intervalech spouští autonomní diagnostiku a automatizaci obnovy, aby detekoval servery, které jsou poškozené. Systém pak zjistí, co je na serveru špatně, a obnoví ty, které prošly diagnostikou, „znovu zřízením a nakonec opětovným povolením těch, které byly úspěšně znovu zprovozněny, tím nejbezpečnějším a nejnenápadnějším možným způsobem“.

Systém dokáže pochopit příčinu selhání a podle toho vrátit stav serveru.

Phoenix běží každých 30 minut na maximálně dvou datových centrech současně, což znamená, že celá flotila Cloudflare je pokryta za tři dny. Při každém spuštění také zaznamená servery, které jsou již zařazeny do fronty na obnovu, a zajistí okamžité vyřešení problému.

Pokud servery nelze plně obnovit, Phoenix je posoudí a může je vrátit do stavu opravy k dalšímu vyhodnocení. Pokud potřebují vyměnit fyzickou komponentu, bude o tom informován operační tým datového centra.

Cloudflare také naučil Phoenix, že pokud existují další operace provádějící automatizaci, jako jsou expanze, bude provádět kontroly pouze tehdy, když je to bezpečné, aby operace obnovy nenarušovala ostatní operace v datovém centru.

Zabudována je také odolnost proti chybám. „To znamená, že systém je schopen elegantně se vypořádat s nesprávně se chovajícími servery tím, že je nechá rychle vypadnout ze seznamu kandidátů na obnovu při špatném chování, které zabrání zablokování operace,“ píše se v příspěvku.

Cloudflare dále uznal, že „ne každý poškozený server lze znovu aktivovat a úspěšně vrátit do produkce, a co je důležitější, neexistuje žádná 100procentní záruka, že obnovený server bude stejně stabilní jako server bez historie oprav“. Řešením je to, co společnost nazývá „chybový rozpočet“, ve kterém systém Phoenix zastaví obnovy bez jakéhokoli lidského zásahu, pokud server selže v určitém počtu případů v daném okně.

Začátkem tohoto roku Cloudflare odhalila, že prodloužila životnost svého serverového hardwaru na pět let, čímž ušetřila přibližně 20 milionů dolarů. Podobné kroky provedly hyperscaleři včetně Amazon, Google, Microsoft a Meta.

V průběhu roku 2023 Cloudflare úspěšně nasadila GPU ve 120 městech pro svou síť Edge. Do konce tohoto roku společnost plánuje nasadit akcelerátory v „téměř každém městě“, které tvoří její globální síť.

Zdroj: datacenterdynamics.com

CLOUD & BACKUP

Napsat komentář Zrušit odpověď na komentář

Pro přidávání komentářů se musíte nejdříve přihlásit.

OBJEDNAT ČASOPIS
ICT NETWORK NEWS

OBJEDNAT ČASOPIS
eGOVERNMENT.NEWS

GAME INDUSTRY

Black Ops 6 na Game Passu může zvednout počet předplatitelů

Call of Duty: Black Ops 6 dorazil 25. září a přinesl historickou novinku, hra tak zamířila přímo do Game Passu hned v den svého vydání.

Číst dále »

29 října, 2024

ICT SECURITY

Severokorejští hackeři cílí na krypto firmy pomocí malwaru Hidden Risk na macOS

Hrozba spojená s Korejskou lidově demokratickou republikou (KLDR) byla zaznamenána při útocích na podniky související s kryptoměnami pomocí vícefázového malwaru schopného infikovat zařízení Apple s

Číst dále »

14 listopadu, 2024

GAME INDUSTRY

Ubisoft chce s Assassin’s Creed Shadows nastavit nový standard, proto přišel odklad

Viceprezident a výkonný producent série Assassin’s Creed, Marc-Alexis Côté, otevřeně přiznal, že kvalita her v sérii byla v posledních letech proměnlivá. Assassin’s Creed Shadows se

Číst dále »

6 listopadu, 2024