Awarie i przerwy w działaniu 2022

LVL UP
Aylin
Aylin ex-admin forum.lvlup.pro

Awarie i przerwy techniczne

W tym wątku będziemy publikować informacje o awariach oraz o zaplanowanych przerwach w działaniu usług lvlup.pro.

Oprócz informacji na serwerze Discord (kanał #monitoring) opisujemy pełny przebieg awarii w pełni publicznie na forum, tak aby każdy mógł się z nimi zapoznać. Tutaj również podajemy naszym klientom informacje o zaplanowanych przerwach technicznych.

W wątku postować może obsługa lub ewentualnie nasze roboty.

Warto zobaczyć

Dziennik zmian https://lvlup.rok.ovh/t/dziennik-zmian-lvlup-pro-2022/20367

Poprzedni wątek z awariami z 2021 roku https://lvlup.rok.ovh/t/awarie-i-przerwy-w-dzialaniu-2021/17326

SystemZ
SystemZ Admin lvlup.pro

Panel klienta lvlup.pro

28.02.2022 21:15 - 22:00

Krótka przerwa techniczna w podanym wyżej przedziale czasu. Około 15 minut niedostępności, planujemy nie przekraczać 30 minut.

21:16 Rozpoczęliśmy

21:30 Przerwa techniczna zakończona. Wszystko już ponownie działa

Aylin
Aylin ex-admin forum.lvlup.pro

n191.lvlup.pro

Obecnie węzeł jest już sprawny, usługi działają poprawnie. Poniżej przebieg awarii.

24.05.2022 11:06 - 14:21

11:06

Węzeł przestaje odpowiadać na ping.

11:15

Otrzymujemy od OVH mail z informacją o niedługim rozpoczęciu interwencji. Na wszelki wypadek zerkamy w logi, lecz nie widzimy nic podejrzanego, po prostu kontakt z węzłem w pewnym momencie urywa się.

12:15

Jako że nie otrzymaliśmy dalszych informacji o tym czy prace zostały rozpoczęte, próbujemy zerknąć co dzieje się na węźle. Niestety konsola KVM nie odpowiada, restart KVM kończy się błędem. Restart "twardy" węzła również nie jest dostępny.

13:30

Po kilkukrotnym powrocie i zaniku pingu wnioskujemy że prace nadal trwają. To zdecydowanie wygląda na problem po stronie sprzętowej, dłuższa wymiana może oznaczać problemy z płytą główną.

14:21

Otrzymujemy maila z informacją że interwencja została zakończona. Tak jak się tego spodziewaliśmy, dłuższa awaria wynikła z wymiany płyty głównej.

14:22

Wstępnie oceniamy czy węzeł rzeczywiście działa poprawnie - widzimy że VPSy poprawnie się włączyły i wszystko wydaje się działać tak jak powinno.

16:22

Obserwowaliśmy węzeł, wszystko wygląda na to że awaria została rozwiązana wraz z wymianą płyty głównej. Przechodzimy do pozostałych spraw, tj. poinformowania klientów których usługi znajdowały się na węźle drogą mailową oraz wydania rekompensaty za niedostępność.

Aylin
Aylin ex-admin forum.lvlup.pro

n191.lvlup.pro

Obecnie węzeł jest już sprawny, usługi działają poprawnie. Poniżej przebieg awarii.

15.08.2022 09:04 - 13:05

09:04

Monitoring informuje nas o utracie pingu przez węzeł.

09:08

Otrzymujemy mail od OVH odnośnie rozpoczęcia prac technicznych.

10:35 - 12:51

Dzięki monitoringowi widzimy że ping kilkukrotnie wraca i zamiera. Jako że prace trwają dłużej niż godzinę to zakładamy że problem leży po stronie sprzętowej.

12:58

Kolejny mail od OVH, tym razem z informacją o zakończeniu prac technicznych. Ponownie problemem była płyta główna która została wymieniona.

13:02

Węzeł wraca do życia.

13:05

Na szybko oceniamy czy węzeł rzeczywiście wstał - na szczęście wszystko wygląda tak jak powinno.

17.08.2022 ~15:00

Przydzielenie ważności klientom których usługi zostały dotknięte awarią, odpisanie na zgłoszenia oraz wstępne przygotowanie informacji odnośnie samej awarii.

Aylin
Aylin ex-admin forum.lvlup.pro

n113.lvlup.pro

Obecnie węzeł oraz usługi działają poprawnie. Poniżej przebieg "awarii".

02.10.2022 07:21 - 12:01

07:21

Węzeł traci łączność ze światem.

11:30

Po przybyciu do komputerów, obsługa sprawdza co się dzieje z węzłem i dlaczego do tej pory jeszcze nie żyje.

Okazuje się że sytuacja ma miejsce przez błąd obsługi 😳

12:01

Po opłaceniu węzła wraca on do życia 😳

W ramach rekompensaty przydzieliliśmy +3 dni do ważności aktywnych usług które zostały dotknięte niedostępnością.