Usterka n20.lvlup.pro oraz strony i panelu lvlup.pro

Archiwum
SystemZ
SystemZ Admin lvlup.pro

Wszystko już działa poprawnie, poniżej można zapoznać się z całym przebiegiem incydentu

04.09.2017

Mają miejsce niekontrolowane częste restarty na węźle n20 na którym znajduje się też panel klienta v2, v3 oraz strona lvlup.pro. Jest to usterka sprzętowa.

Trwa przenoszenie usług na inne węzły tak aby wszystko zaczęło działać ponownie. Priorytetem jest obecnie strona oraz panel v2. O sytuacji będę informować w tym wątku na bieżąco.

~05:00 Mniej więcej o tej porze zaczęły się problemy z restartami n20

11:00 Zacząłem proces przywracania panelu v2 oraz strony na inny węzeł

11:28 Utworzyłem wątek na forum aby poinformować klientów o tym incydencie

11:59 Klienci posiadający usługi na węźle n20 otrzymali e-maila z informacją o usterce wraz z linkiem do tego wątku

12:20 Udało się wystartować ponownie panel v2 oraz stronę. Weryfikuję czy panel działa poprawnie.

12:42 Mogę potwierdzić że panel v2 oraz strona działa w pełni poprawnie. Spostrzeżenia:

  • między 10:20 a 12:30 mogą występować anomalie w statystykach (wykresach) serwerów Minecraft ze względu na brak danych między tym przedziałem czasu
  • kilka klientów posiadających serwer MC mogło otrzymać kilka maili zamiast jednego dotyczącego automatycznego restartu serwera MC ze względu na "twardy start" panelu klienta

Następnym priorytetem jest przywrócenie działania VPSów z węzła n20.

12:50

Ze względu na bardzo dużą niestabilność n20 (wyłącza się po 1-3min) nie mam obecnie możliwości przeniesienia obecnych wirtualnych dysków VPSów ani zrobienia świeżej kopii zapasowej.

Podjąłem decyzję o przywróceniu VPSów z kopii zapasowych na innych węzłach.

Gdy usługi ponownie będą działać ze stanem nocnej kopii postaram się aby węzeł został naprawiony oraz aby udało się zgrać tamte dane ze stanem po 4 września 02:20 oraz bezpłatnie przywrócić je na życzenie klienta w późniejszym czasie.

12:55

Rozpocząłem przywracanie pierwszego z 12 VPSów w kolejności losowej.

13:17

Pierwszy VPS został już przywrócony i działa poprawnie. W międzyczasie udało mi się przygotować skrypt który przyspiesza cały ten proces więc kolejne powinny pójść szybciej.

13:55

4/12 VPSów zostało przywróconych

14:24

6/12 VPSów zostało przywróconych

14:52

10/12 VPSów zostało przywróconych

15:09

Wszystkie VPSy klientów zostały przywrócone. Osoby gdzie zostały zauważone możliwe nieprawidłowości lub konieczność zmiany konfiguracji przez klienta otrzymają stosowną informację mailem około godzin wieczornych lub szybciej jeśli będzie taka możliwość. Zachęcam też do stworzenia zgłoszenia w tej sprawie

15:13

Trwa przywracanie panelu v3 na innym węźle

15:25

Przywracanie panelu v3 jest bliskie końcowi

15:35

Panel v3 już działa, weryfikuję poprawność jego działania

15:40

Mogę potwierdzić że panel v3 działa poprawnie.

Oznacza to że wszystkie usterki zostały już naprawione :slight_smile:

15:48

Usterka sprzętowa n20 została zgłoszona do OVH, czekam na ich odpowiedź

17:14

Uzyskałem odpowiedź od OVH że zostało zlecone sprawdzenie sprzętu

19:09

Według OVH ze sprzętem jest wszystko ok

Date 2017-09-04 18:47:03, alain F made Server check: After checking the hardware it appear that there is no problem with it.

Server on rescue, ping ok, service are available.

05.09.2017

09:15

Ponowne próby zgrania danych zakończyły się niepowodzeniem. Serwer nadal restartuje się niemal natychmiast przy większym obciążeniu CPU wystartowany w rescue mode.

09:43

Po reinstalacji serwer działa stabilnie bez obciążenia jednak po typowym poleceniu stress -c 8 serwer momentalnie się rebootuje.

09:51

Zgłosiłem ponownie problem sprzętowy do OVH

13:15

OVH prosi o logi tych zdarzeń, niestety takowych zdarzeń przed restartem w dzienniku systemowym po prostu nie ma. Dodałem krótki film prezentujący instant crash przy poleceniu stress -c 8

16:20

Otrzymałem informację od OVH że weryfikują to z ich adminami

06.09.2017

11:43

Serwer jest po wymianie CPU. Wygląda na to że działa już w porządku

krzys1540
krzys1540

@SystemZ czy była by możliwość włączenia serwera ip: 5.196.168.254 na Hoście n26.lvlup.pro ? Bo wyłączyłem go przed awarią panelu i nie mogę go włączyć a jest to dosyć pilne 😃

Pozdrawiam

SystemZ
SystemZ Admin lvlup.pro

@krzys1540 panel v2 już działa więc bez przeszkód powinieneś mieć możliwość jego włączenia.

krzys1540
krzys1540

@SystemZ Super 😃 Już jest ok !

Lempik
Lempik

SystemZ:

panel v2 już działa

No i znowu szybka i sprawna reakcja! Dziękuję za naprawę panelu.

tirex
tirex

No nie wiem, serwer cały czas się wyłącza. Jestem dobrej myśli.

Timo
Timo Moderator forum.lvlup.pro

Bardzo lubię czytać taką dokumentację :D Świadczy to o pełnym profesjonaliźmie

Hank
Hank

Wydaje się być już ok, EDIT vps wyłączył się po kilku minutach

DBanaszewski
DBanaszewski α-tester v3

stats.lvlup.pro nie działa 😕 HTTP ERROR 502 - BAD GATEWAY

DBanaszewski
DBanaszewski α-tester v3

Ta strona to status.lvlup.pro, a jest jeszcze inna strona stats.lvlup.pro ;)

Hank
Hank

sorry jestem zmęczony mój błąd

SystemZ
SystemZ Admin lvlup.pro

stats.lvlup.pro to część panelu v3. Panel v3 jeszcze nie został ponownie włączony.

eSuu
eSuu

Mam pytanie do @SystemZ ,kiedy byś był w stanie odpisać na zgłoszenia w pomocy? Bo pilnie chciałbym kupić VPS (z serwera n65).

Lukass
Lukass

To mi się podoba :) Szybka reakcja :)

SystemZ
SystemZ Admin lvlup.pro

Wszystkie zgłoszenia są pilne. Odpowiedź na zgłoszenia klientów będzie kontynuowana standardowo po usunięciu wszystkich usterek.

eSuu
eSuu

@SystemZ A zostaną dzisiaj naprawione usterki? Czy nie możesz tego określić?

SystemZ
SystemZ Admin lvlup.pro

Wszystko jest już naprawione, cały przebieg znajdziesz w pierwszym poście. Odpowiedzi na większość zgłoszeń powinny być udzielone jeszcze dziś.

eSuu
eSuu

@SystemZ Dziękuje za szybkie doinformowanie mnie. :slight_smile:

Lempik
Lempik

SystemZ:

Usterka sprzętowa n20 została zgłoszona do OVH, czekam na ich odpowiedź

A czy OVH już odpowiedzieli na problem z n36 w maju? https://lvlup.rok.ovh/t/problem-z-n36-s18-hostmc-pl-12-05-2017/2770/#19

SystemZ
SystemZ Admin lvlup.pro

Lempik:

A czy OVH już odpowiedzieli na problem z n36 w maju?

To było dość dawno, jeśli pamięć mnie nie myli to odpisali i naprawili jednak w takich przypadkach zazwyczaj już usuwam taki węzeł ze względu na komfort klientów aby ponownie nie przenosić i nie wyłączać ich usług.

Z n20 będzie podobnie, zostało już oznaczone jako do usunięcia, nie będą już na nim świadczone usługi VPS. Postaram się jednak wyciągnąć o ile się uda obecne pliki.

DoreK
DoreK α-tester v3

Czy tak częste awarie są tylko w tym roku, czy wcześniej też tak bywało? PS: czy w związku z tym co się stało migracja mojego vps'a dalej aktualna o tej samej godzinie, czy coś stoi na przeszkodzie?

SystemZ
SystemZ Admin lvlup.pro

Raczej jest dość standardowo. Wszystko jest zgodnie z planem, umówione migracje będą miały miejsce.

eSuu
eSuu

@SystemZ czuję się trochę oszukany bo jak patrzyłem na grafana lvlup'a to odpowiedziałeś na wszystkie zgłoszenia, które mają 24h+ i 48h+, i zostało tylko moje zgłoszenie w tych 😃

DoreK
DoreK α-tester v3

Ja mam wrażenie że ta grafana to jakaś pijana czasami jest, albo zbiera nie do końca prawidłowe dane :/