DAJ CYNK

Google wyjaśnia, co poszło nie tak, gdy zepsuł swoją chmurę

Anna Rymsza

Aplikacje

Google Cloud

Google miał spore problemy z chmurą w trzecim tygodniu sierpnia. Spore fragmenty infrastruktury odmówiły współpracy. Szczęśliwie nie mamy do czynienia z działaniem cyberprzestępców – Google sam sobie tego piwa nawarzył.

Awaria dotknęła wielu usług Google. Informowaliśmy o problemach z Gmailem i Dyskiem Google, ale to nie oddaje pełni skali problemu. Trzeba wiedzieć, że wiele usług Google korzysta ze wspólnego, rozproszonego systemu, gdzie przechowywane są nieustrukturyzowane dane. Nie jest to typowa baza danych. To wielkie binarne obiekty, zwane blobami. By wydobyć z nich potrzebne informacje, aplikacje korzystają z trzywarstwowego frontendu. Widoczna z zewnątrz służy do interakcji z usługami, środkowa do przetwarzania metadanych, a dolna to właśnie obsługa blobów.

Co się więc stało? Google wyjaśnia, że wzrost ruchu z jednej z usług Google spowodował przeładowanie warstwy metadanych. Zadania były wykonywane z dużymi opóźnieniami i błędami. Opóźnienia spowodowały z kolei, że usługi czekające na dane ponawiały zapytania. Im więcej było zapytań, tym większe były opóźnienia, a im większe były opóźnienia, tym więcej było zapytań. Tym sposobem… w chmurze Google skończyły się zasoby.

Zobacz: Koniec Google Music jest blisko. Wraz z nim odejdzie sklep muzyczny w Google Play
Zobacz: Google szykuje dongiel z Android TV. „Sabrina” pojawiła się w dokumentach FCC

Jeśli już udało się uruchomić jakiś proces, dostawał on za mało zasobów i zdecydowanie za dużo zapytań. Awaria rozpędzała się jak kula śniegowa. Strategia, by ponawiać nieudane zapytania, tym razem spowodowała geometryczny wzrost obciążenia. W efekcie niektóre usługi były niedostępne nawet przez 6 godzin i 35 minut – zależnie od usługi i lokalizacji klienta. Według podsumowania Google: 

  • z Gmailem problemy miało 0,73% użytkowników prywatnych i komercyjnych,
  • z Google Drive 1,5%,
  • z Google Chat 2% wysyłających wiadomości i 16% przekazujących dalej,
  • z Google Sites niemal wszyscy tworzący nowe strony.

Ponadto w Dokumentach Google były problemy z dodawaniem obrazków, przez dłuższy czas nie działały transmisje przez Google Meet, był utrudniony dostęp do notatek w Google Keep i tak dalej. 

Co ciekawe, nie ucierpieli użytkownicy Google Cloud Storage. Ona korzysta z tych samych blobów, co reszta, ale ma odizolowany system metadanych. Reszta jest skonstruowana w taki sposób, że awaria błyskawicznie się rozpędziła i utrudniła pracę tysiącom osób. Usługi Google są szalenie popularne. Z Gmaila korzysta obecnie ponad 1,8 miliarda osób, więc 0,73% to wciąż ponad 13 milionów.

Chcesz być na bieżąco? Obserwuj nas na Google News

Źródło zdjęć: wł.

Źródło tekstu: Google Cloud Issue Summary