Niedostępność w2.lvlup.pro - 26.06.2017

Niedostępność w2.lvlup.pro - przebieg incydentu

Szanowni klienci, usługa Hosting WWW jest ponownie dostępna Poniżej umieszczam wszelkie informacje odnośnie tego zdarzenia.

26.06.2017

15:04

Instancja Cloud na której ulokowany jest host w2.lvlup.pro przestała odpowiadać.

16:00

Z moich ustaleń poprzez panel OpenStack wynika że niedostępność spowodowana jest migracją instancji na inny węzeł przez OVH co patrząc na poprzednie tego typu zdarzenia może potrwać łącznie szacunkowo około 2h. Cały proces nie powinien spowodować innych utrudnień niż chwilowa niedostępność.

16:15

Został utworzony wątek na forum informujący o zdarzeniu

16:19

Trwa przygotowywanie danych tak aby poinformować obsługę OVH ponownie o zdarzeniu, gdyż jeszcze w tym momencie nie otrzymałem odpowiedzi na zgłoszenie w ramach poprzedniej awarii https://lvlup.rok.ovh/t/niedostepnosc-w2-lvlup-pro-22-06-2017/3057

16:35

Zgłoszenie w OVH zostało zaktualizowane, dodałem informację o niedostępności wraz z MTR

17:40

Chwilowo została zawieszona sprzedaż nowych kont WWW

18:46

Instancja zaczęła odpowiadać na ping, zaczynam weryfikację czy w2.lvlup.pro działa poprawnie.

19:05

Zostały wprowadzone poprawki w konfiguracji w2.lvlup.pro aby w przyszłości restarty przebiegały łagodniej dla przychodzących maili.

19:20

w2.lvlup.pro wygląda na całkowicie sprawny

19:25

Możliwość zakupu nowych kont WWW została wznowiona.

19:50

Wszyscy klienci którzy stworzyli zgłoszenie w panelu klienta odnośnie tego incydentu uzyskali odpowiedź o naprawie w2.lvlup.pro wraz z prośbą o potwierdzenie poprawności działania usługi.

27.06.2017

12:59

Po 5 dniach od utworzenia zgłoszenia związanego z powiązanym incydentem https://lvlup.rok.ovh/t/niedostepnosc-w2-lvlup-pro-22-06-2017/3057

Otrzymałem odpowiedź od OVH że zostało przekazane sprawdzenie tej sytuacji

07.07.2017

10:12

Uzyskałem informację od OVH o powodzie zaistnienia tej sytuacji, oto fragment:

Wszystkie niedogodności związane z instancją spowodowane były działaniem mechanizmu OOM Killer, którego podłożem była bardzo mała ilość pamięci RAM na hoście. Po drugiej, tego rodzaju, niedogodności instancja została zmigrowana, lecz z uwagi na duży flavor operacja ta potrzebowała dłuższego niż przeciętny czasu.

12:24

Kwestia odszkodowania związanego z niedostępnością instancji została rozwiązana zgodnie z SLA.

Incydent mogę uznać za zamknięty