Niedostępność w2.lvlup.pro 02-04.10.2018

Aktualnie hosting WWW działa już poprawnie.

Poniżej podajemy pełny przebieg zdarzeń uzupełniany na bieżąco:

02.10.2018

21:27

Serwer w2.lvlup.pro przestaje odpowiadać

21:31

Sprawdzamy powód niedostępności w2.lvlup.pro

21:35

Na pierwszy rzut oka wygląda to na niegroźne zawieszenie się systemu

21:37

Próba restartu

21:42

Restart instancji nie jest możliwy, wygląda na to że obsługa OVH Cloud musi interweniować, komunikaty błędu w Openstack Horizon oraz API wskazują na problem ze sprzętem lub konfiguracją OVH

21:50

Utworzony ticket dla obsługi OVH aby przyjrzała się sprawie

22:41

Obsługa OVH z ang infolinii potwierdziła problem, utworzyła kolejne zgłoszenie oraz eskalowała problem do działu PCI

03.10.2018

7:25

Proces migracji instancja cloud na inny sprzęt się rozpoczął, wygląda na to że interweniowała obsługa OVH Taki proces zwykle trwa kilka godzin więc zakładamy że w ciągu około 1-3h wszystko powróci do normy.

08:25

Większość klientów która utworzyła zgłoszenia powinna już dostać odpowiedź w tej sprawie

08:27

Chwilowe wycofanie nowych kont WWW z formularza zamówień. Możliwość tworzenia nowych kont zostanie wznowiona po usunięciu awarii.

10:15

Migracja trwająca od 7:25 zakończyła się błędem, czekamy na dalsze działania OVH

14:09

Do OVH poszło zapytanie odnośnie orientacyjnego ETA przywrócenia usługi

14:51

Polski support OVH odpisał na pierwszy ticket, według nich wygląda to na kwestię zapełnienia dysku i mogę to sprawdzić z trybu rescue. Przyznam że nie pogardzilibyśmy trybem rescue ale ten też nie działa.

~21:00

Support OVH zaczął przeprowadzać zaplanowaną aktualizację OpenStack akurat w tym regionie w którym znajduje się instancja z w2. http://travaux.ovh.com/?do=details&id=33945

Może to spowodować: a) zauważą problem szybciej i go rozwiążą b) będą zbyt zajęci aktualizacją OpenStacka i potrwa to jeszcze dłużej niż byśmy chcieli Na czas aktualizacji OS serwer zniknął z panelu OVH powodując jeszcze więcej zimnego potu na plecach obsługi lvlup.pro

04.10.2018

08:01

Z braku innych dróg dla obecnego planu ratunkowego A, napisałem na listę dyskusyjną OVH Cloud ze wszystkimi szczegółami jak znaleźć tą instancję. Czasami bywają tam pracownicy OVH więc może ktoś spojrzy i zwiększy szansę na szybszą naprawę.

08:35

Mamy już kompletny plan zapasowy B na wypadek gdyby dziś do końca dnia nadal nie było reakcji. Zakłada on utworzenie nowego hosta czyli w3.lvlup.pro jednak już nie na instancji cloud, wystarczające odtworzenie całego środowiska DirectAdmin oraz Cloudlinux oraz przywrócenie najnowszych kopii które posiadamy (po północy 02.10.2018). W tym scenariuszu wszystkie adresy IP oprócz tego z którego wychodzą połączenia hostingu WWW powinny zostać nienaruszone, co za tym idzie zmiana ustawień w strefach DNS klientów nie będzie konieczna.

Niestety spowoduje to utratę danych które zostały utworzone między około 02:00 (zależy kiedy była tworzona kopia dla danego konta WWW, są one tworzone w kolejności alfabetycznej loginu konta) - 21:27 czyli od momentu utworzenia kopii do momentu awarii . Jest to główny powód dlaczego ciągle oczekuję na reakcję OVH, chcę aby dane klientów pozostały nienaruszone.

10:11

Jeden z pracowników OVH odpisuje na liście dyskusyjnej że sprawdza

10:25

Pracownik OVH odpisuje na liście dyskusyjnej że VM jest już naprawione i instancja startuje prawidłowo.

Hello, Your Vm is fixed. We detect an issue on nova cache information database, after a cleanup your Vm reboot normally. We are checking how to better monitor that.

Thanks for you feedback

10:30

Instancja wstała jednak bez sieci, analizujemy sytuację w systemie w2

10:35

Sprawdzone przez VNC, instancja nie ma żadnej karty sieciowej oprócz pętli zwrotnej, piszę o tym na liście dyskusyjnej.

10:50

Instancja wydała się odzyskać dostęp do sieci. Weryfikujemy czy wszystko działa jak trzeba.

11:03

w2.lvlup.pro wydaje się działać poprawnie. Problem niedostępności oznaczamy jako rozwiązany jednak pozostają jeszcze inne kwestie z tym związane - zgłoszenia, dodatkowe dni ważności, SLA od OVH

11:40

Zaznaczyłem w ticketach że kwestia techniczna już została rozwiązana, czekamy na rekompensatę niedotrzymanego SLA.

11:44

Każdy klient hostingu WWW otrzymał dodatkowe +30 dni ważności dla swoich kont WWW.

12:35

Wszyscy klienci którzy utworzyli zgłoszenie odnośnie awarii zostali dodatkowo poinformowani o przywróceniu usługi do działania oraz o otrzymaniu rekompensaty przez obsługę