Wpis z mikrobloga

Może część z was czytała o moim problemie z cpu utilization na switchach produkcyjnych. Opowiem jak to zostało rozwiązane, bo może mirki z sieci będą ciekawi.

Od stycznia wszystkie pudełka miały zużycie CPU over 80%. Po wstępnym sprawdzeniu confingów i logów podejrzenie padło na proces HULC LED. Oczywiście update IOS i restart sprzętu nie wchodził w grę, bo produkcja najważniejsza i śmiga 24/7.

Ściagnąłem sobie ciapaków od networku z większą wiedzą i tak się pałowaliśmy z tym do początku czerwca. Ciapaki szukając przyczyny znalazły adres MAC, który pojawiał się na wszystkich switchach. Skakał między port-channelami, a portami trunk. Nie było go na żadnym porcie dostępowym, żebym sobie mógł znaleźć urządzenie. Oczywiście wycięcie komunikacji z tym też nie wchodziło w grę na tą chwilę. Najpierw trzeba było dowiedzieć się co to jest.

Wygooglanie adresu wskazywało na jakieś urządzenie HP. Super bulwo, bo mam same HP-ki. Przeszukałem bazę z urządzeniami jakie mam i tego nie było. Sprzęt-widmo to dobre określenie.

Na początku czerwca miałem wyłączenie prądu, w czasie którego mogłem potestować swoje zabawki. Oczywiście czasu na update softu na wszystkich pudełkach nie było. Tu w sumie powinienem napisać co testowałem, ale nie chce mi się. Dodam, że nie miało to dużego związku z tym problemem.

Po włączeniu prądu zużycie CPU na switchach spadło do normalnych wartości. MAC, którego nie mogłem znaleźć znikł. Nie mam pojęcia co to było. Czy zapełniły się tablice i rzucały jednym adresem wszędzie, żeby go gdzieś dodać? Pętla w sieci, której spanning-tree nie wyciął? Plamy na Słońcu? Nie wiem. Chciałbym wiedzieć co było przyczyną i jak to rozwiązać "pod napięciem", ale widocznie mam za małą wiedzę.

Wniosek z tego taki, że raz na jakiś czas urządzenia potrzebują restartu.

Może ktoś będzie miał podobną sytuację i taki workaround mu się przyda.

#cisco #switch #sieci #siecikomputerowe
  • 13
@Cesarz_Polski: Wygląda to bardzo na pętle L2. Kiedyś widziałem bardzo podobny scenariusz, jeden przełącznik blade'owy miał buga i STP nie zadziałało w rezultacie cała sieć dostała bardzo dużej zadyszki. Zbierasz logi do jakiegoś centralnego miejsca? Przejrzałbym logi, zaczynając od momentu kiedy zaczęło się ich pojawiać ich więcej i szukając wpisów związanych z STP.
@Cesarz_Polski: Taka sytuacja, może być też związana np. z awarią karty sieciowej i sianiem błędnymi ramkami. Szukałbym w tych miejscach gdzie nie masz bpdu guarda, może tam być jakiś dumb switch i pętelka. No i będziesz musiał posniffować ruch na portach trunkowych albo na głównym routerze. Zrób sobie port monitoring na którymś porcie i odpal wiresharka.
Miałem kiedyś podobną sytuacje, jak ktoś na drukarce ustawił ręcznie speed i duplex a po