Wpis z mikrobloga

Czołem Mirki i Mirabelki ( ͡° ʖ̯ ͡°)
Nie trzeba się chyba specjalnie przedstawiać, część osób mnie już z tego profilu zna i jak może zauważyć sposób informowania o różnych incydentach różni się od tego przedstawianego gdzie indziej. Przyczyna tego jest prosta - tutaj na Mirko otrzymujecie informacje bezpośrednio od osoby odpowiedzialnej za utrzymanie sieci, dlatego też informacje o poważnych problemach zwykle pojawiają się tu pierwsze i są częściej relacjonowane (przepływ informacji trochę jednak trwa i w innych źródłach, informacje pojawiają się zazwyczaj z opóźnieniem).
Przejdźmy do rzeczy co się jednak wydarzyło dziś po północy i zbiera żniwo do chwili obecnej.
Od kilku dni raportowaliśmy problemy od użytkowników zgłaszających problemy z odbiorem strumienia IPTV. Diagnoza i plan działania. Ponowne uruchomienie przełączników i ponowne zestawienie połączenia ze strumieniem dostawcy treści IPTV. Jak Wam ogłaszałem, prace planowo miały trwać kilkanaście minut, a wyszło jak widać ( ͡° ʖ̯ ͡°)
Można tu mówić albo o "wyjątkowym" szczęściu, złośliwości rzeczy martwych lub podobnych. Posypała się transmisja ruchu warstwy 2, która nadal daje się we znaki co najmniej 70% użytkowników. Tę nierówną walkę prowadzimy cały czas od północy, tak więc już ponad 20 godzin. Urządzenia, które wybitnie się z nami droczą, nie chcą nam wyjawić swojej dolegliwości, a na opisywany przypadek nawet support producenta robi wielkie oczy i rozkłada ręce. ¯\_(ツ)_/¯. Nikt chyba wcześniej nie doświadczył takiego przypadku, a już zwłaszcza sam producent powołując się, na zastosowane rozwiązanie jako niebędące tzw. SPoF. Jak się okazuje, przy "sprzyjających" okolicznościach nie ma rzeczy niemożliwych ( ͡° ͜ʖ ͡°), a urządzenia uprawiają sobie danse macabre powstając i padając po bliżej nieokreślonym czasie (nowa wersja generatora liczb losowych). Wszystkie metody diagnostyki i znalezienia źródła problemu, którym mogło być dowolne urządzenie w sieci, próby odfiltrowania ruchu ze zbędnych ramek, poszukiwanie możliwych pętli także nie przyniosło rezultatu, a w najlepszym wypadku wszystkie te czynności przedłużały czas do następnego crasha. Wymiana urządzeń - podmieniono 3 sztuki, każda z tym samym objawem - wykluczyć można uszkodzenie, być może błąd sprzętowy/programowy? Jest to w sumie pierwsza tak drastyczna sytuacja jaka mogła się zdarzyć od czasu kiedy te urządzenia znajdują się u nas. Doskonale jestem w stanie wyobrazić sobie Waszą złość, szok, niedowierzanie, zawód, jak można było do tego dopuścić, bo przecież redundancja i te sprawy ( ͡° ͜ʖ ͡°). Zgodnie z założeniami producenta, owa redundancja była, która nie raz się sprawdziła w momencie utraty jednego z naszych łączy do punktów wymiany ruchu w Polsce i Europie, kiedy to nie zostaliście pozbawieni usługi, a co by się wydarzyło, gdyby takiego rozwiązania nie było. Samemu ciężko mi uwierzyć w to co się właśnie dzieje. Spędziłem łącznie 22 godziny ciągłej pracy tylko nad tym przypadkiem - 2 godziny przygotowań do wykonania ponownego połączenia i 20 godzin, aż do teraz na walkę ze skutkami tej katastrofy - ja na tą chwilę z dalszych działań odpadłem ( ͡° ʖ̯ ͡°), po pewnym czasie bez snu (a na tą chwilę uzbierałem już 40 godzin), już ciężko jest myśleć i ogarniać najskuteczniejszy plan ratunkowy. Naprawa oczywiście dalej trwa i nadzorowana jest przez inny zespół, gdzie pokładam wielkie nadzieje, że rano już powinno wszystko działać jak należy. Myślę, że to tyle z "krótkiej" relacji wydarzenia okiem osoby biorącej czynny udział w tej katastrofie. Będzie zapewne wprowadzony jakiś plan rekompensat, za braki w usłudze, jednakże nie będę w stanie Wam odpowiedzieć na to w jaki to sposób się odbędzie i jak będzie to naliczane - po prostu nie ten dział ( ͡° ʖ̯ ͡°).


#moico
  • 16
@Primusek: Januszostwo myśli że kazda awaria sieci musi być poprzedzona kimś z Moico klepiącego wielki czerwony przycisk w biurze "wywal sieć", albo jest spowodowana przez złego gremlina, ktory plącze kabelki.
Jako że sama jestem po teleinformatyce, widziałam jakie cuda się odjaniepawlały na pracowniach w syntetycznych sytuacjach (np po odpaleniu zasad firewall dla konkretnego VLANa, router wywalał cały zupełnie inny port, jakby go w ogóle nie było w maszynie(
  • 0
@kropka_kreska_kropka: Myślę, że tak (ʘʘ) 98% myślę, że ma. Pozostali to albo mają problem ze swoim urządzeniem (błędna konfiguracja) albo jeszcze się nie przełączyli. Podeślij lokalizację na PW to sprawdzę co tam u Ciebie ( ͡° ͜ʖ ͡°)-