Společnost Cloudflare sdílela určité poznatky o tom, jak udržuje své servery v provozu.
V blogovém příspěvku, který společnost zveřejnila, Cloudflare uvedla, že přistupuje k údržbě serverů prostřednictvím „chybového rozpočtu“ (error budget), mezi jinými technikami včetně autonomní diagnostiky hardwaru.
Cloudflare, poskytovatel počítačových sítí Edge, zabezpečení a sítí pro doručování obsahu (CDN) se servery umístěnými ve 310 městech a 120 zemích, uvedl, že vyvinul infrastrukturu odolnou proti chybám, která může pokračovat v provozu s „malým nebo žádným dopadem“ selhání.
Dříve by společnost musela vyslat člena svého provozního týmu datového centra, aby ručně odstraňoval a diagnostikoval každou chybu serveru a uvedl jej zpět do provozu – což by u jednoho serveru mohlo trvat hodiny.
Nové řešení je autonomní, což znamená, že může fungovat nezávisle bez lidského zásahu nebo dohledu, a bylo nazváno „Phoenix“.
Podle příspěvku Phoenix v pravidelných intervalech spouští autonomní diagnostiku a automatizaci obnovy, aby detekoval servery, které jsou poškozené. Systém pak zjistí, co je na serveru špatně, a obnoví ty, které prošly diagnostikou, „znovu zřízením a nakonec opětovným povolením těch, které byly úspěšně znovu zprovozněny, tím nejbezpečnějším a nejnenápadnějším možným způsobem“.
Systém dokáže pochopit příčinu selhání a podle toho vrátit stav serveru.
Phoenix běží každých 30 minut na maximálně dvou datových centrech současně, což znamená, že celá flotila Cloudflare je pokryta za tři dny. Při každém spuštění také zaznamená servery, které jsou již zařazeny do fronty na obnovu, a zajistí okamžité vyřešení problému.
Pokud servery nelze plně obnovit, Phoenix je posoudí a může je vrátit do stavu opravy k dalšímu vyhodnocení. Pokud potřebují vyměnit fyzickou komponentu, bude o tom informován operační tým datového centra.
Cloudflare také naučil Phoenix, že pokud existují další operace provádějící automatizaci, jako jsou expanze, bude provádět kontroly pouze tehdy, když je to bezpečné, aby operace obnovy nenarušovala ostatní operace v datovém centru.
Zabudována je také odolnost proti chybám. „To znamená, že systém je schopen elegantně se vypořádat s nesprávně se chovajícími servery tím, že je nechá rychle vypadnout ze seznamu kandidátů na obnovu při špatném chování, které zabrání zablokování operace,“ píše se v příspěvku.
Cloudflare dále uznal, že „ne každý poškozený server lze znovu aktivovat a úspěšně vrátit do produkce, a co je důležitější, neexistuje žádná 100procentní záruka, že obnovený server bude stejně stabilní jako server bez historie oprav“. Řešením je to, co společnost nazývá „chybový rozpočet“, ve kterém systém Phoenix zastaví obnovy bez jakéhokoli lidského zásahu, pokud server selže v určitém počtu případů v daném okně.
Začátkem tohoto roku Cloudflare odhalila, že prodloužila životnost svého serverového hardwaru na pět let, čímž ušetřila přibližně 20 milionů dolarů. Podobné kroky provedly hyperscaleři včetně Amazon, Google, Microsoft a Meta.
V průběhu roku 2023 Cloudflare úspěšně nasadila GPU ve 120 městech pro svou síť Edge. Do konce tohoto roku společnost plánuje nasadit akcelerátory v „téměř každém městě“, které tvoří její globální síť.
Zdroj: datacenterdynamics.com