✅ Włączanie VPS
Problem z ponownym startem VPS został rozwiązany poprzez aktualizację i restart prawie wszystkich węzłów co było bolesne ale konieczne 😦
Poniżej pełny przebieg zdarzeń
Lista węzłów które zostały już zrestartowane
Węzły FR
- [*] n76.lvlup.pro
- [*] n80.lvlup.pro
- [*] n81.lvlup.pro
- [*] n82.lvlup.pro
- [*] n84.lvlup.pro
- [*] n85.lvlup.pro
- [*] n87.lvlup.pro
- [*] n88.lvlup.pro
- [*] n90.lvlup.pro
- [*] n92.lvlup.pro
- [*] n93.lvlup.pro
- [*] n94.lvlup.pro
- [*] n95.lvlup.pro
- [*] n96.lvlup.pro
- [*] n97.lvlup.pro
- [*] n99.lvlup.pro
- [*] n100.lvlup.pro
- [*] n101.lvlup.pro
- [*] n102.lvlup.pro (nie wymagał restartu)
- [*] n103.lvlup.pro
- [*] n107.lvlup.pro
- [*] n108.lvlup.pro
- [*] n109.lvlup.pro
- [*] n110.lvlup.pro
- [*] n111.lvlup.pro
- [*] n112.lvlup.pro
- [*] n113.lvlup.pro
- [*] n114.lvlup.pro
- [*] n117.lvlup.pro
- [*] n118.lvlup.pro
- [*] n119.lvlup.pro
- [*] n120.lvlup.pro
- [*] n121.lvlup.pro
- [*] n122.lvlup.pro
- [*] n123.lvlup.pro
- [*] n132.lvlup.pro
- [*] n133.lvlup.pro
- [*] n142.lvlup.pro
- [*] n145.lvlup.pro
- [*] n146.lvlup.pro (nie wymagał restartu)
- [*] n147.lvlup.pro (nie wymagał restartu)
Węzły PL
- [*] n124.lvlup.pro
- [*] n127.lvlup.pro
- [*] n128.lvlup.pro
- [*] n129.lvlup.pro
- [*] n130.lvlup.pro
- [*] n131.lvlup.pro
- [*] n135.lvlup.pro
- [*] n136.lvlup.pro
- [*] n137.lvlup.pro
- [*] n138.lvlup.pro
- [*] n139.lvlup.pro
- [*] n140.lvlup.pro
- [*] n143.lvlup.pro
- [*] n144.lvlup.pro
- [*] n148.lvlup.pro (nie wymagał restartu)
- [*] n149.lvlup.pro (nie wymagał restartu)
- [*] n150.lvlup.pro (nie wymagał restartu)
25.03.2020
18:39
Widzimy pierwsze zgłoszenia tego błędu
18:55
Przyglądamy się n127
19:00
Wygląda to na błąd po stronie Proxmox / systemd.
Plan zakłada aktualizację węzłów których dotyczy ten problem, następnie ich restart.
Aktualnie sprawa z błędem dotyczy około 6 osób jednak reboot dotyczy dużo więcej osób.
Aktualnie są godziny szczytu więc dodamy mały moduł do panelu v4 aby przynajmniej wysłać maila do każdej osoby na węźle kilka minut zanim dokonamy reboota.
Dodanie tego kodu nie powinno zająć dłużej niż 20 min.
19:56
Panel został zaktualizowany, weryfikujemy czy funkcja do mailingu działa poprawnie
20:04
System mailingu działa poprawnie.
Przygotowujemy wiadomość do klientów i ustalamy terminy restartów.
20:07
Wysłaliśmy pierwszą partię maili do klientów których usługi są na węzłach n127 oraz n88. Restart został zaplanowany na godzinę 20:15
20:24
Restart się przeciąga.
Jako że systemd zarządza wszystkim a nie odpowiada to komplikuję sprawę.
20:37
Jesteśmy zmuszeni do hard reboot.
Żaden znany nam sposób na łagodny reboot nie zadziałał.
20:42
Hard reboot na n127 i n88 powiódł się.
VPSy wystartowały.
20:47
Monitorujemy sytuację i planujemy kolejne restarty uwzględniając zdarzenia z poprzednich dwóch.
21:35
Wysłaliśmy drugą partię maili. Następny restart został zaplanowany na godzinę 21:50 dla węzłów: n109, n139, n129, n132, n120, n94, n121, n137, n103
22:02
Węzły podane wyżej są już po restarcie, VPSy na tych węzłach powinny już działać.
22:10
Ustaliliśmy które węzły nie wymagają restartu - zostały one odznaczone i dodatkowo opisane.
22:43
Wysłaliśmy mailing do klientów którzy mają usługi zlokalizowane na pozostałych polskich węzłach:
n124, n128, n130, n131, n135, n136, n138, n140, n143, n144
Zaplanowany czas restartu: 23:00
23:16
Wszystkie węzły w polskiej lokalizacji są już po restarcie.
Zarządzamy godzinę przerwy dla obsługi w celu przegrupowania sił.
26.03.2020
00:03
Kolejny mailing dotyczący restartu węzłów od n76 do n100 włącznie (z pominięciem n88 i n94 które zostały zrestartowane wcześniej). Restart został zaplanowany na 0:15
00:34
Wyżej wspomniane węzły pomyślnie zrestartowane
00:40
Ostatni mailing i ostatnia fala restartów, dotycząca węzłów: n101, n107, n108, n110, n111, n112, n113, n114, n117, n118, n119, n122, n123, n133, n142, n145
Restart zaplanowano na 0:50
01:08
Ostatnia fala restartów została pomyślnie zakończona.
01:13
Ostatnie weryfikacje czy obsługa nie przeoczyła jakiegoś węzła.
Dodatkowe informacje w postaci post-mortem (lub inaczej retrospekcja awarii) pojawią się później po dokładniejszej analizie.
01:24
Wygląda ok.
Wszystkie węzły działają obecnie prawidłowo.
Może się pojawić potrzeba ponownego restartu jednak w tym wypadku nie powinno być potrzeby tak nagłego restartu. Mam nadzieję że będziemy mieli możliwość poinformować przynajmniej tydzień przed zdarzeniem. Tu niestety nie mieliśmy tego czasu podczas gdy coraz więcej klientów miało niedziałającą usługę.
17:05
Dodanie przez obsługę +24h do ważności usług które zostały zrestartowane.