Niedostępność hostingu WWW 28-29.06.2016

Archiwum
SystemZ
SystemZ Admin lvlup.pro

Hosting WWW działa już poprawnie, poniżej można zapoznać się z pełnym przebiegiem tego incydentu.

Jako że w2.lvlup.pro jest ulokowany w instancji na platformie OVH Public Cloud, nie mam obecnie wpływu na przyspieszenie przywrócenia usługi ze względu na prace przeprowadzane przez OVH. Przepraszam za wszystkie niedogodności z tym związane lecz zrobię co mogę aby przywrócić dostęp jak najszybciej.

Poniżej szczegółowy przebieg zdarzeń aktualizowany na bieżąco:

28 czerwiec

17:41 Obsługa OVH wyłączyła instancję

17:54 Obsługa OVH zaczęła migrację instancji

19:03 Utworzyłem zgłoszenie awarii i czekam na jej rozpatrzenie

19:32 Po wnikliwym przeszukaniu statusu w OVH, to prawdopodobnie ten ticket wewnętrzny jest związany z niedostępnością w2.lvlup.pro http://status.ovh.com/?do=details&id=13681

19:38 Sprzedaż nowych kont WWW została tymczasowo wstrzymana

20:25 W panelu Openstack widać błąd migracji VM. Z moich obserwacji wynika że wywołało to alert do administracji OVH, co powinno przyspieszyć ich reakcję.

21:02 Restart instancji przez obsługę OVH

21:07 Kolejny restart przez obsługę OVH

21:11 Następny restart przez obsługę OVH

21:48 Instancja wydaje się działać poprawnie lecz sieć nie. Podejmuję próbę naprawienia sieci z poziomu systemu.

21:58 Wielokrotne próby różnych tricków, kilkukrotny restart soft, restart hard nie pomaga. Z poziomu VM sieć wydaje się podłączona poprawnie, musi być to kwestia OVH.

22:20 W zgłoszeniu awarii do OVH napisałem o sytuacji z siecią.

22:25 Jako że sytuacja z siecią nadal nie uległa zmianie a instancja ma już aktywne opcje typu kopie zapasowe w panelu OVH, wykonuję snapshot obecnego stanu, w razie czego powinno mi to pozwolić utworzyć drugą instancję i przepiąć adresy co przyspieszy przywrócenie usługi bez udziału OVH. Proces wykonania migawki dysku może potrwać nawet 30min.

23:56 Kopia zapasowa wykonała się pomyślnie, trwało to dłużej niż zakładałem.

29 czerwiec

00:18 Decyduję się na utworzenie nowej instancji na podstawie zrobionej świeżej kopii zapasowej. Proces powinien potrwać trochę szybciej niż robienie kopii czyli około 30-60min.

01:18 Kopia nadal się przywraca

01:48 Nie mogę sprawdzić stanu przywracania kopii gdyż panel OVH częściowo nie działa

02:54 Kopia została przywrócona, sprawdzam czy coś wymaga poprawy w konfiguracji oraz podłączam wymagane adresy IP

03:05 Panel DirectAdmin, strony oraz strefa DNS wydaje się działać poprawnie. Nie odnotowałem żadnych strat danych. Dla pewności zerknę też na inne usługi na hoście czy działają poprawnie. Zmienił się adres IP z którego wychodzą połączenia np. ze skryptów PHP na 167.114.227.107, do czasu aż poprzednia instancja nie będzie działać poprawnie.

03:18 Po dalszym sprawdzeniu stwierdzam że hosting www działa poprawnie. Wznowiłem sprzedaż nowych kont WWW. Mogą pojawić się niewielkie utrudnia w związku ze zmianą głównego adresu IP instancji, poza tym jest ok. Powrót na poprzednią instancję będzie wiązać się ze zrobieniem i przywróceniem kopii, zrobię to wtedy gdy OVH naprawi poprzednią instancję w dogodnym czasie dla użytkowników o ile będzie to możliwe np. 2-3 w nocy, postaram się to jak najwcześniej zapowiedzieć.

09:22 W panelu OVH poprzednia instancja nadal nie funkcjonuje poprawnie. Nadal nie uzyskałem odpowiedzi na zgłoszenie o awarii.

30 czerwiec

05:51 Problem z poprzednią instancją nadal nie został rozwiązany, nie otrzymałem też jeszcze ani jednej odpowiedzi na ticket od supportu OVH. Hosting WWW nadal działa na tymczasowym VPS.

22:45 Mogę potwierdzić że problem z siecią jest już naprawiony, jednakże ze względu na przewidywaną niedostępność 2-4h, tymczasowy VPS zostanie tym nowym, stałym, gdyż parametry są te same, dzięki temu uniknę wspomnianej niedostępności.

4 lipiec

15:40 Otrzymałem odpowiedź od OVH że sprawa jest w trakcie weryfikacji.

6 lipiec

07:27 OVH stwierdza że problem miał miejsce oraz proponuje rekompensatę

13:26 Zgadzam się na warunki rekompensaty

16:12 OVH przydzieliło rekompensatę za SLA. Cały incydent uważam za rozwiązany i zamknięty.

Xepio
Xepio Pionier

Kurcze już miałem obawy ze jest jakiś atak na naszą stronę internetową uff...Dziękuje za zdementowanie tych obaw :)

kuba17ism
kuba17ism

SystemZ:

prawdopodobnie ten ticket wewnętrzny jest związany z niedostępnością w2.lvlup.pro

Chciałbym zauważyć iż moja strona www stoi na w1.lvlup.pro, a jest niedostępna. Proszę o wyjaśnienie tej sytuacji.

SystemZ
SystemZ Admin lvlup.pro

w1.lvlup.pro = w2.lvlup.pro W panelu zostały jeszcze stare informacje których nie zdążyłem jeszcze poprawić.

kuba17ism
kuba17ism

Dobrze, dziękuję za informację. Proponuję jeszcze zaktualizować stronę ze statusem maszyn.

Kendu
Kendu

Kiedy możemy się spodziewać poprawnego działania hostingu WWW? :slight_smile:

SystemZ
SystemZ Admin lvlup.pro

Na obecną chwilę przewiduję że będzie to od 30 do 90min. Byłoby szybciej gdyby OVH postanowiło odpowiedzieć na zgłoszenie lub przynajmniej zerknąć że jest brak sieci, póki co muszę radzić sobie sam swoimi metodami.

Edit Hosting WWW już działa na tymczasowym VPS Edit2 Sprawa jest już rozwiązana, łącznie z formalnościami.