'Kad Amazon kihne, internet dobije upalu.' Poremećaj u radu Amazon Web Servicesa (AWS) u ponedjeljak je nakratko srušio desetke internetskih servisa i aplikacija diljem svijeta – od Snapchata, Slacka i Canve do Fortnitea, PlayStationa i Zooma. O čemu se točno radilo i zašto je jedan tehnički kvar povukao za sobom pola interneta, objasnio nam je prof. dr. sc. Vedran Dakić sa Sveučilišta Algebra Bernays
Velik internetski zastoj koji je u ponedjeljak pogodio milijune korisnika diljem svijeta nastao je u infrastrukturi Amazon Web Servicesa (AWS), a on pogoni golem dio modernog interneta. Problemi su krenuli u ponedjeljak rano ujutro te su zahvatili desetke popularnih stranica i aplikacija, uključujući Snapchat, Canvu, Fortnite, Roblox, Prime Video, Duolingo, Signal, Slack i Zoom te dijelove bankarskih i zrakoplovnih sustava u Velikoj Britaniji i SAD-u.
Nakon gotovo tri sata zastoja Amazon je uspio stabilizirati svoje sustave i objavio da se većina servisa postupno vraća u normalu.
Iz tvrtke su naknadno objavili da je uzrok toga najvjerojatnije tehnički kvar u regiji US-EAST-1, smještenoj u sjevernoj Virginiji, jednoj od najprometnijih točaka internetske infrastrukture na svijetu. Ta regija služi kao 'glavni čvor' kroz koji prolazi ogroman broj digitalnih servisa, a kad se on zaustavi, posljedice su globalne.
'Kao telefonski imenik bez brojeva'
'Došlo je do kvara u jednoj od najprometnijih AWS regija u SAD-u (US-EAST-1), a ona služi kao glavni čvor za velik broj aplikacija i servisa. Ta regija je poput autoceste – kad se začepi, promet stane i za sve koji računaju na nju. Iako se radi o jednom podatkovnom centru, na njega se oslanja ogroman broj usluga diljem svijeta', objašnjava za tportal prof. dr. sc. Vedran Dakić sa Sveučilišta Algebra Bernays.
Amazon je naknadno potvrdio da je problem povezan s DNS rezolucijom, što znači da su aplikacije privremeno izgubile mogućnost 'pronalaska' poslužitelja na koje su spojene. 'DNS je internetski imenik koji prevodi nazive poput snapchat.com u stvarne adrese. Kada DNS ne radi, aplikacije ne mogu pronaći backend servis na kojemu se žele spojiti – kao da imate telefonski imenik bez brojeva', pojašnjava Dakić.
Iako fizički poslužitelji i baze podataka nisu bili ugroženi, mnoge su aplikacije nekoliko sati praktički bile odsječene od svojih podataka. Amazon je kasnije objavio da su sustavi 'pokazali značajne znakove oporavka', ali i dodao da 'neki servisi još uvijek nisu u potpunosti stabilni'.
'Nema znakova kibernetičkog napada'
S obzirom na to da hakerski napadi i incidenti u opskrbnim lancima postaju sve češći, nametnulo se i pitanje je li kvar možda posljedica zlonamjernog djelovanja. 'Za sada nema znakova napada, a Amazon sve opisuje kao tehnički kvar. To je najčešći uzrok ovakvih incidenata – pogreška u infrastrukturi ili softveru, ne nužno hakerski pokušaj', kaže Dakić.
No pritom napominje da hakeri često koriste ovakve situacije za širenje prijevara i lažnih obavijesti. 'Ne ruše oni AWS, nego iskorištavaju paniku korisnika. U takvim trenucima pojavljuju se lažne poruke koje glume podršku aplikacija koje ne rade', tumači naš sugovornik.
S njime se slaže konzultant za kibernetičku sigurnost Marko Gulan te u razgovoru za tportal pojašnjava da je AWS izuzetno kompleksan sustav u kojem i naizgled trivijalan zahvat na internoj infrastrukturi, ako nije precizno planiran, može imati značajan domino efekt.
'S druge strane, ne treba zanemariti činjenicu da je u posljednjih nekoliko mjeseci bilo mnogo poremećaja u lancima dobave (supply chain), što otvara mogućnost scenarija sličnog onome koji smo vidjeli prošle godine kod CrowdStrikea. AWS, koliko god robustan bio, nije potpuno imun ni neovisan o dobavljačima trećih strana, čiji bi propust mogao imati dalekosežne posljedice', kaže Gulan.
Jesmo li previše ovisni o jednoj kompaniji?
Upitan pokazuje li novi incident da smo previše ovisni o jednoj kompaniji, profesor Dakić nam odgovara:
'Djelomično da. AWS je ključni dio globalne infrastrukture, a mnoge tvrtke nemaju rezervni plan u drugoj regiji ili kod drugog pružatelja. Ovakvi padovi podsjećaju da je rizik koncentriran – jedan kvar ima globalne posljedice. Isto tako, ovakve situacije mogu imati efekt ubrzanja migracije podataka i aplikacija 'natrag' u privatne podatkovne centre, procesa koji je zadnjih godina uzeo značajnog maha.
Također, važno je naglasiti da cloud kao usluga nije sam po sebi jednostavan niti rješava sve probleme IT sustava – to je kompleksna tema koja efikasno rješava neke (u nekim slučajevima i većinu), ali često ne sve probleme.'
Kako spriječiti ponavljanje?
Postoje načini da se slični kvarovi ublaže, ali oni zahtijevaju dodatne resurse i ulaganja, tumači Dakić.
'Tehnička rješenja postoje – višeregionalne kopije, multicloud arhitektura i redovito testiranje planova oporavka. No to je skuplje i složenije, pa mnoge tvrtke odgađaju to dok se ne dogodi incident', ističe profesor. Navodi i da inicijative unutar EU-a pokušavaju graditi vlastite kapacitete, no da je taj proces još daleko od samodostatnosti.
Amazon Web Services je najveći svjetski pružatelj usluga računalstva u oblaku, tj. internetske infrastrukture, dakle predstavlja digitalnu kralježnicu globalnog interneta: nudi računalne resurse, baze podataka i pohranu u oblaku milijunima poduzeća koja se oslanjaju na njegovu infrastrukturu umjesto da grade vlastitu.
Zbog toga i kratkotrajni kvar može izazvati lančani efekt, s prekidima rada u financijskim institucijama, medijskim servisima i komunikacijskim alatima diljem svijeta. AWS je službeno pokrenut 2006. godine, iako njegovi korijeni sežu dalje u prošlost, a u proteklih 20 godina brzo je rastao te pokreće velik dio interneta i odgovoran je za većinu Amazonove dobiti.
Podsjetimo, posljednji veći globalni IT kvar dogodio se prošle godine u srpnju, kada je softverska greška u američkoj sigurnosnoj tvrtki CrowdStrike paralizirala bolnice, zračne prijevoznike, banke i državne institucije diljem svijeta, izazvavši jednu od najvećih internetskih blokada u povijesti i štetu procijenjenu na 10 milijardi dolara.