Prije točno godinu dana softverska greška američke sigurnosne tvrtke Crowdstrike paralizirala je bolnice, zračne prijevoznike, banke i državne institucije diljem svijeta, izazvavši jednu od najvećih internetskih blokada u povijesti i štetu procijenjenu na 10 milijardi dolara
Taj globalni pad softvera dana 19. srpnja 2024. godine, koji je uzrokovao kašnjenja letova, odgode medicinskih zahvata i brojne slučajeve prikazivanja 'plavog ekrana smrti' na računalima s Windows operativnim sustavom, u početku je smatran sofisticiranim i zlonamjernim kibernetičkim napadom na proizvođača Windowsa. No, prava istina bila je mnogo jednostavnija: CrowdStrike je objavio ažuriranje za svoj Falcon senzor, alat za otkrivanje i suzbijanje kibernetičkih prijetnji, koje je izazvalo pad približno 8,5 milijuna računala diljem svijeta.
Incident je ostao upamćen kao jedna od najvećih internetskih blokada u povijesti, a procjenjuje se da su Crowdstrikeovi klijenti pretrpjeli financijske gubitke od čak 10 milijardi dolara (8,6 milijardi eura). 'Nije bilo pravih znakova upozorenja da bi se nešto ovakvo moglo dogoditi', rekao je Steve Sands iz britanskog Instituta za IT za Euronews Next. 'Većina organizacija koje ovise o Windowsu nije imala planove za ovakve scenarije.'
Jesu li kompanije postale otpornije?
Unatoč toj lekciji, incidenti sličnog tipa i dalje se događaju. Ove godine došlo je do prekida rada u bankama i kod velikih pružatelja usluga - u lipnju je pad Cloudflarea srušio Google Cloud i Spotify, u srpnju je promjena u Microsoftovoj aplikaciji Authenticator ostavila tisuće korisnika bez pristupa Outlooku i Gmailu, greška u softveru SentinelOne izbrisala je ključne mrežne komponente potrebne za rad njihovih programa.
Eileen Haggerty iz tvrtke NETSCOUT upozorava da je rješenje u 'stalnom nadzoru IT okruženja' i simulacijama ('synthetic tests') koje oponašaju stvarni promet i pomažu otkriti slabosti prije nego što se pojavi kvar. 'Te simulacije daju tvrtkama ključnu prednost – mogu predvidjeti probleme prije nego što se dogode', istaknula je.
Microsoft je u blogu priznao da ni sintetičko testiranje (ono koristi softverske programe za simulaciju različitih vrsta opterećenja na aspektima testiranja procesora) nije savršeno jer često ne odražava stvarno korisničko iskustvo, no pomaže skratiti vrijeme reakcije kad se greška otkrije.
Kako se Crowdstrike promijenio nakon kvara?
Tvrtka je nakon prošlogodišnjeg fijaska uvela niz noviteta, među ostalim self-recovery mode koji automatski prepoznaje 'crash loopove' i pokreće sustave u sigurnom načinu rada. Zatim su tu novi alati u sučelju koji omogućuju klijentima veću fleksibilnost kod testiranja i planiranja ažuriranja na manje kritičnim sustavima.
'Content pinning' opcija je kojom klijenti mogu zaključati određene verzije sadržaja i sami odlučiti kada i kako će primijeniti nove zakrpe, a pokrenut je i Digital Operations Center za bržu reakciju i bolji uvid u milijune uređaja koji koriste Falcon tehnologiju.
'Ono što nas je definiralo nije bio sam incident, nego sve što smo učinili nakon toga', poručio je izvršni direktor George Kurtz na LinkedInu, dodajući da je tvrtka sada 'ukorijenjena u otpornosti, transparentnosti i beskompromisnoj izvedbi.'
Unatoč svemu, Sands upozorava da je potpuno sprječavanje sličnog incidenta možda 'nemoguće' zbog složenosti modernih IT sustava i njihovih brojnih međusobnih ovisnosti. 'Možemo unaprijediti otpornost naših sustava kroz bolje arhitektonsko planiranje i dizajn, ali jednako je važno razviti sposobnost brze detekcije, reakcije i oporavka kada se problemi ipak dogode,” zaključuje Sands.