Aktualnie hosting WWW działa już poprawnie.
Poniżej podajemy pełny przebieg zdarzeń uzupełniany na bieżąco:
02.10.2018
21:27
Serwer w2.lvlup.pro przestaje odpowiadać
21:31
Sprawdzamy powód niedostępności w2.lvlup.pro
21:35
Na pierwszy rzut oka wygląda to na niegroźne zawieszenie się systemu
21:37
Próba restartu
21:42
Restart instancji nie jest możliwy, wygląda na to że obsługa OVH Cloud musi interweniować, komunikaty błędu w Openstack Horizon oraz API wskazują na problem ze sprzętem lub konfiguracją OVH
21:50
Utworzony ticket dla obsługi OVH aby przyjrzała się sprawie
22:41
Obsługa OVH z ang infolinii potwierdziła problem, utworzyła kolejne zgłoszenie oraz eskalowała problem do działu PCI
03.10.2018
7:25
Proces migracji instancja cloud na inny sprzęt się rozpoczął, wygląda na to że interweniowała obsługa OVH Taki proces zwykle trwa kilka godzin więc zakładamy że w ciągu około 1-3h wszystko powróci do normy.
08:25
Większość klientów która utworzyła zgłoszenia powinna już dostać odpowiedź w tej sprawie
08:27
Chwilowe wycofanie nowych kont WWW z formularza zamówień. Możliwość tworzenia nowych kont zostanie wznowiona po usunięciu awarii.
10:15
Migracja trwająca od 7:25 zakończyła się błędem, czekamy na dalsze działania OVH
14:09
Do OVH poszło zapytanie odnośnie orientacyjnego ETA przywrócenia usługi
14:51
Polski support OVH odpisał na pierwszy ticket, według nich wygląda to na kwestię zapełnienia dysku i mogę to sprawdzić z trybu rescue. Przyznam że nie pogardzilibyśmy trybem rescue ale ten też nie działa.
~21:00
Support OVH zaczął przeprowadzać zaplanowaną aktualizację OpenStack akurat w tym regionie w którym znajduje się instancja z w2. http://travaux.ovh.com/?do=details&id=33945
Może to spowodować: a) zauważą problem szybciej i go rozwiążą b) będą zbyt zajęci aktualizacją OpenStacka i potrwa to jeszcze dłużej niż byśmy chcieli Na czas aktualizacji OS serwer zniknął z panelu OVH powodując jeszcze więcej zimnego potu na plecach obsługi lvlup.pro
04.10.2018
08:01
Z braku innych dróg dla obecnego planu ratunkowego A, napisałem na listę dyskusyjną OVH Cloud ze wszystkimi szczegółami jak znaleźć tą instancję. Czasami bywają tam pracownicy OVH więc może ktoś spojrzy i zwiększy szansę na szybszą naprawę.
08:35
Mamy już kompletny plan zapasowy B na wypadek gdyby dziś do końca dnia nadal nie było reakcji. Zakłada on utworzenie nowego hosta czyli w3.lvlup.pro jednak już nie na instancji cloud, wystarczające odtworzenie całego środowiska DirectAdmin oraz Cloudlinux oraz przywrócenie najnowszych kopii które posiadamy (po północy 02.10.2018). W tym scenariuszu wszystkie adresy IP oprócz tego z którego wychodzą połączenia hostingu WWW powinny zostać nienaruszone, co za tym idzie zmiana ustawień w strefach DNS klientów nie będzie konieczna.
Niestety spowoduje to utratę danych które zostały utworzone między około 02:00 (zależy kiedy była tworzona kopia dla danego konta WWW, są one tworzone w kolejności alfabetycznej loginu konta) - 21:27 czyli od momentu utworzenia kopii do momentu awarii . Jest to główny powód dlaczego ciągle oczekuję na reakcję OVH, chcę aby dane klientów pozostały nienaruszone.
10:11
Jeden z pracowników OVH odpisuje na liście dyskusyjnej że sprawdza
10:25
Pracownik OVH odpisuje na liście dyskusyjnej że VM jest już naprawione i instancja startuje prawidłowo.
Hello, Your Vm is fixed. We detect an issue on nova cache information database, after a cleanup your Vm reboot normally. We are checking how to better monitor that.
Thanks for you feedback
10:30
Instancja wstała jednak bez sieci, analizujemy sytuację w systemie w2
10:35
Sprawdzone przez VNC, instancja nie ma żadnej karty sieciowej oprócz pętli zwrotnej, piszę o tym na liście dyskusyjnej.
10:50
Instancja wydała się odzyskać dostęp do sieci. Weryfikujemy czy wszystko działa jak trzeba.
11:03
w2.lvlup.pro wydaje się działać poprawnie. Problem niedostępności oznaczamy jako rozwiązany jednak pozostają jeszcze inne kwestie z tym związane - zgłoszenia, dodatkowe dni ważności, SLA od OVH
11:40
Zaznaczyłem w ticketach że kwestia techniczna już została rozwiązana, czekamy na rekompensatę niedotrzymanego SLA.
11:44
Każdy klient hostingu WWW otrzymał dodatkowe +30 dni ważności dla swoich kont WWW.
12:35
Wszyscy klienci którzy utworzyli zgłoszenie odnośnie awarii zostali dodatkowo poinformowani o przywróceniu usługi do działania oraz o otrzymaniu rekompensaty przez obsługę
13:32
Została przywrócona sprzedaż nowych kont WWW
07.10.2018
13:59
Wszystkie zgłoszenia klientów dotyczące tej awarii zostały wyjaśnione i wydają się zakończone
08.10.2018
10:16
OVH przydzieliło nam rekompensatę SLA
16.10.2018
20:01
Publikujemy spostrzeżenia i plan zmniejszenia awarii na przyszłość w poście trochę niżej
https://lvlup.rok.ovh/t/niedostepnosc-w2-lvlup-pro-02-04-10-2018/8398/#29?u=systemz