Wpis z mikrobloga

via Wykop Mobilny (Android)
  • 108
Biorąc pod uwagę, że FB ma bardzo rozproszoną infrastrukturę i środowisko utrzymaniowe to tam musiało coś naprawdę nieźle #!$%@?ąć w obszarze core-owym, że zgasili wszystkie usługi do zera ( ͡° ʖ̯ ͡°)

Poza tym, to już trwa trzy godziny. Ktoś tam musi mieć naprawdę ciepło...

#facebook #it
  • 33
  • Odpowiedz
via Wykop Mobilny (Android)
  • 16
@Izanagi013: Obawiam się, że w takim wypadku mogą nie chcieć opublikować żadnych case studies, tam się odwaliło coś mocno nieprzewidzianego (a to już samo w sobie jest bardzo zaskakujące bo takie firmy mają gotowe scenariusze na niemal każdą możliwą sytuację z opcją powrotu w parę - paręnaście minut).
  • Odpowiedz
via Wykop Mobilny (Android)
  • 12
@ihaha: Oni tam nie mają ani jednego BGP ani jednego operatora. Współpracuję dość blisko z Azure i takie środowiska są tak redundantne, że nawet jakby w Europie spadło parę atomówek to nic nie powinno zaburzyć działania platformy na dłużej niż parę minut. Każde ich DC ma zwielokrotnione BGP
  • Odpowiedz
@PanBulibu:
„BGP route lists were removed globally for the affected domains. It may have worked temporarily due to stale records, but it isn’t a fix, as the BGP routes were removed from all public DNS providers.”
  • Odpowiedz
via Wykop Mobilny (Android)
  • 2
@ihaha: Ja myślę, że zdjęli globalne routingi żeby zmniejszyć ruch do swojej platformy, to nie jest źródło awarii. To "wymówka".
  • Odpowiedz
via Wykop Mobilny (Android)
  • 0
@ihaha: Dzięki, przeczytałem - ale wciąż ciężko mi uwierzyć, że nie mieli na to planu działania. Przecież straty idą już w miliony albo miliardy dolców.
  • Odpowiedz
już nie mogę się doczekać analizy, zapowiada się mega ciekawa lektura


@Izanagi013: https://imgur.com/f8GZis1 #!$%@? sobie core sieci/bgp a że mają security na wysokim poziomie to nie mogą tego naprawić bo się odcięli, każdy kto ma prawo wejść do serwerowni nie ma jednocześnie prawa do dotykania konfiguracji absolutnie żadnych usług wyższego rzędu
  • Odpowiedz