Awarie 09.11.2017

Archiwum
SystemZ
SystemZ Admin lvlup.pro

Obecnie wszystkie usługi powinny działać już poprawnie. Jeśli nadal coś nie działa, proszę o kontakt w systemie zgłoszeń aby przyjrzeć się sprawie już jednostkowo https://lvlup.pro/panel/support/ticket

Poniżej archiwalny opis zdarzeń

Część usług lvlup.pro jest niedostępna. Ma to związek z dwiema dużymi awariami w OVH które nastąpiły jednocześnie coś pomiędzy 07:12 a 08:08 09.11.2017

Niebawem postaram się zamieścić całą linię czasu jak przebiegały poszczególne czynności. Przedstawienie wszystkich wydarzeń może to trochę potrwać ze względu rozmiar usterki w sieci OVH. Większość usług nie była jednak nawet zrestartowana więc po przywróceniu sieci wszystko było całkowicie w normie.

09.11.2017

10:04

Szacowanie co uległo awarii

10:14

Wygląda na to że inni klienci OVH mają ten sam problem co lvlup.pro Usterki nie są więc bezpośrednio z winy lvlup.pro. Strona z usterkami OVH nie jest dostępna, przez to trudniej ustalić co się stało travaux.ovh.net

10:31

Ze względu na fakt że forum nie było dostępne a awaria miała spory zasięg, został utworzony post na FB informujący o przyczynie usterek tak aby klienci którzy już spotkali się z problemem mieli przynajmniej podstawowe informacje co się dzieje. https://www.facebook.com/lvlup.pro/posts/1659545144115928

10:33

Strona oraz panel OVH nie działa, niemożliwa jest więc obecnie żadna interwencja aby hosting www z panelem DirectAdmin na w2.lvlup.pro zaczął działać nie jest możliwa.

10:34

Prezes OVH mówi o awarii dwóch osobnych linii zasilania w DC SBG https://twitter.com/olesovhcom/status/928535264057839616

10:36

Strona status.lvlup.pro nie jest dostępna ze względu na awarię więc powstaje pomysł o szybkim postawieniu strony ze statusem na innym serwerze w innym datacenter aby każdy mógł zobaczyć status swoich usług, niestety strona sprintdatacenter.pl nie odpowiada mimo kilku prób więc pomysł ten zostaje porzucony.

10:47

CEO OVH informuje że DC RBX już jest dostępne. W RBX są zlokalizowane wszystkie serwery VPS OpenVZ oraz MC z lvlup.pro https://twitter.com/olesovhcom/status/928556358353539072

~ 11:00

W wyniku małego błędu v2 obsługa nie może zapoznać się ani odpowiedzieć na zgłoszenia klientów którzy posiadają hosting WWW który aktualnie jest offline. Powstaje łatka która to umożliwi.

11:09

Łatka w panelu v2 została zastosowana, teraz mimo niedostępności tickety dotyczące awarii mogą zostać odpisane dzięki czemu klienci będą mieli lepszą wiedzę dlaczego ich usługi nie działają.

11:24

Zostały udzielone odpowiedzi na praktycznie wszystkie zgłoszenia związane z tą awarią.

11:30

Szybkie sprawdzenie, zewnętrzny serwer z logami usług działa poprawnie więc po wszystkich zdarzeniach będzie możliwa dokładniejsza analiza dzienników. Jeśli po przywróceniu usług będzie coś z nimi nie tak - może to pomóc w szybszej naprawie.

11:18

n68 w SBG-1 zostało włączone

11:51

Grafana na stats.lvlup.pro działa prawidłowo, widać wyraźny skok w utworzonych zgłoszeniach

11:52

VPSy na n68 które były wyłączone zostały ręcznie włączone przez obsługę lvlup.pro

11:53

VPSy na n42 które były wyłączone zostały ręcznie włączone przez obsługę lvlup.pro

13:52

Został utworzony post na FB informujący o naprawieniu większości awarii https://www.facebook.com/lvlup.pro/posts/1659727514097691

13:57

Możliwość zakupu nowych kont WWW w formularzu zamówień została tymczasowo zawieszona.

16:13

w2.lvlup.pro zostało włączone

16:36

Po szybkim sprawdzeniu wygląda na to że Hosting WWW działa już prawidłowo

16:48

Sprzedaż nowych kont WWW w formularzu zamówień została wznowiona

22:50

Do każdego aktywnego hostingu WWW zostało dodane dodatkowe +24h ważności w zamian za niedogodności

22:54

Do każdego aktywnego serwera MC zostało dodane dodatkowe +24h ważności w zamian za niedogodności

22:56

Do każdego aktywnego serwera VPS zostało dodane dodatkowe +24h ważności w zamian za niedogodności

23:00

Do klientów zostały rozesłane maile z zaktualizowanym czasem wygasania ich usług.

23:49

Zostały udzielone odpowiedzi na wszystkie zgłoszenia klientów związane bezpośrednio z awarią

Panicz
Panicz

Dzisiaj (9.11.2017) mam właśnie problem z wejściem do panelu DA. Ani ta, ani inna funkcja nie działa, a hosting jest opłacony do końca miesiąca. Kiedy znowu zacznie to działać?

Pantoflarz
Pantoflarz

Z tego co wskazują mi klienci, nie działa od minimum godziny. Nie odpowiada żadna funkcja - baza, email, DA.

Lempik
Lempik

Był problem z OVH, to taki hosting hostingów. Po dziennikarsku połowa polskiego Internetu nie działała. https://www.spidersweb.pl/2017/11/ovh-nie-dziala-awaria.html Ale już powoli wszystko zaczyna działać. Mój serwer MC był niedostępny, konsola też. Teraz widzę na konsoli, że serwer ciągle działał (choć był niedostępny).

DBanaszewski
DBanaszewski α-tester v3

OVH miało awarię zasilania. Musicie poczekać, aż Pan Michał uruchomi wszystko - VPSy wstały, bo tam nie ma co uruchamiać, wszystko autostart (Proxmox, KVM); OVZ myślę, że też.

Co do WWW no trzeba czekać 😛

DoreK
DoreK α-tester v3

Mnie ciekawi czy na n67 coś padło, bo uptime się nie zresetował czyli serwer nie był wyłączony, co najwyżej coś z siecią, @SystemZ jak to wyglądało? :D

SystemZ
SystemZ Admin lvlup.pro

Lempik:

Był problem z OVH, to taki hosting hostingów

Tak to zdecydowanie dobre proste wytłumaczenie :slight_smile:

DoreK:

Mnie ciekawi czy na n67 coś padło, bo uptime się nie zresetował czyli serwer nie był wyłączony, co najwyżej coś z siecią, @SystemZ jak to wyglądało? 😃

Jak pisałem w pierwszym poście, większość usług straciło dostęp do sieci więc np. VPSy cały czas były włączone. Póki co wygląda na to że tylko VPSy KVM w SBG1 trafiły trochę gorzej i były wyłączone na jakiś czas przez downtime węzłów. Mowa tu o :

  • n37
  • n41
  • n42
  • n68

Panel klienta v2 i v3 z tego co pamiętam były akurat hostowane w GRA1 więc ominęła je awaria.

Pantoflarz
Pantoflarz

Mam maszynę na n68 i z tego co widzę faktycznie, przez moment straciły połączenie z netem, lecz jak wróciło to i moje usługi powróciły - żadnego restartu nie było, inaczej moje usługi wogóle by same nie powstały :)

helczyna
helczyna

Jest wiadome kiedy zostanie uruchomiona usługa www?

SystemZ
SystemZ Admin lvlup.pro

helczyna:

Jest wiadome kiedy zostanie uruchomiona usługa www?

Wierząc OVH obstawiałbym dziś 17:00

https://twitter.com/olesovhcom/status/928592231807713280

Pantoflarz
Pantoflarz

Moje strony wstały. Mam nadzieje ze to koniec problemu :)

DBanaszewski
DBanaszewski α-tester v3

Potwierdzam, u mnie również wstała strona :) Mail działa, wysłałem z w2 na onet - przyszła natychmiastowo :)

Timo
Timo Moderator forum.lvlup.pro

Cały proces obserwowałem na bieżąco w ciągu dnia, teraz mam chwilę by napisać o aktualnym stanie: status.lvlup.pro nie działa. Moja strona na w2 funkcjonuje poprawnie. Serwery moich klientów działają poprawnie. Wgląda na to, że już po problemie.

Ale powiem tak, działo się tam u nich 😂

anon10657637
anon10657637

Timo:

status.lvlup.pro

nie działa.

Komu nie działa, temu nie działa.

image|690x388

Timo
Timo Moderator forum.lvlup.pro

O, właśnie wstał 😃 Jak pisałem post to jeszcze go nie bylo ;)

anon10657637
anon10657637

Apropo tego całego zamieszania i podsumowania awarii - https://status.kacperduras.pl/ Dokładnie godziny kiedy dana usługa leżała. Najdłuższy uptime ma tylko strona główna, bo oparta o kompletnie inną usługę (GitHub Pages). Natomiast najdłużej leżał https://blog.kacperduras.pl, bo prawie 9h: image|690x388

helczyna
helczyna

Czytałem, że tak wielka awaria w ovh może oznaczać koniec tej firmy. Nie zgadzam się z tym, ponieważ gdyby miała zakończyć swoją działalność rynek hostingowy by podwyższył ceny i wszyscy stracą bo na przykład gdy lvlup kupi droższe maszyny, ceny zostaną zwiększone to mniejsze serwisy i dzieci nie będzie na nie stać.

anon10657637
anon10657637

helczyna:

Czytałem, że tak wielka awaria w ovh może oznaczać koniec tej firmy. Nie zgadzam się z tym, ponieważ gdyby miała zakończyć swoją działalność rynek hostingowy by podwyższył ceny i wszyscy stracą bo na przykład gdy lvlup kupi droższe maszyny, ceny zostaną zwiększone to mniejsze serwisy i dzieci nie będzie na nie stać.

Zacznijmy od tego, że na dzień dzisiejszy jedyną alternatywą dla OVH może być wg. mnie DigitalOcean. Może posiadają ciut mniejszą infrastrukturę niż OVH, natomiast nie preferują rozwiązań pokroju Blackholding, co przy większych i poważniejszych projektach jest niedopuszczalne. Pomimo tego, takie serwerownie jak nasz Sprint stosuję nadal tą zagrywkę, tłumacząc się ochroną infrastruktury (czego nie kwestionuje, bo to też ważne). Słyszałem że u nich się to ostatnio poprawiło, musiałbym kupić jakiegoś dedyka i zobaczyć. Z mniejszych to mogę polecić Beyond czy niektóre marki H88 S.A. (jak sobie przypomnę nazwy to podam). One działają na ciut mniejszą skale, jednak też dają radę. Natomiast żartem, mogą być m.in. Oktawave, czy HosTeam. Nie wiem jakim cudem one funkcjonują na rynku, ale cokolwiek na nich stawiałem coś ambitniejszego, aniżeli aplikacje pokroju Teamspeak, to szło całość (przepraszam za wyrażenie) o kant ch*ja rozbić.

Reasumując - OVH nie upadnie. Przyznają pewnie jakieś odszkodowania z tytułu utraty SLA i innych tego typu, pewnie poprawią zabezpieczenia, przepustowność między DC i zapasowe agregaty prądotwórcze, które nawaliły z tego co czytałem na Tweeterze CEO OVH - Octave Klaba. To jest zbyt duży gracz by mógł sobie pozwolić na zejście ze sceny. Takie rzeczy dzieją się powoli.

A, i tak nawiasem mówiąc - jak czytałeś Spider's Web'a, to przestań czytać. Mniej raka po tym się ma.

Pantoflarz
Pantoflarz

@SystemZ taka prośba, a propos dzisiejszej jak i poprzednich awarii - nie dałoby się zrobić czegoś do API co pokazywałoby status usług LVLUP? Mówię tu o endpoincie np. /status który w fajny json'owski sposób sprawdzał by po kolei baze danych email itp. i zwracał. Wtedy, jak my jako programiści i użytkownicy widzimy że odpowiedzi brak, to znaczy że lecimy z DNS failover i jesteśmy w jakiś sposób reagować. Często po prostu jest tak, że jest awaria, a jeśli ktoś nas nie powiadomi to nic z tym zrobić nie możemy.

W teorii można sprawdzać czy strona zwraca content, ale to bez sensu. Dlaczego? Bo jak forum "padło" to i tak pokazywał się błąd, czyli content. Dlatego pytam czy istnieje taka możliwość :)

Oczywiście jeśli API stoi na osobnym datacentre. Jeśli na tym samym co w2 to bez sensu.

anon10657637
anon10657637

Warto napisać na GitHub'ie ;)

luxDev
luxDev Pionier

Fajny pomysł w v3 powinno być dodane :D

Timo
Timo Moderator forum.lvlup.pro

Utworzył bym to jako temat w kategorii #panel-v3:propozycje (Lub Moderator by przedzielił), można by się dokładniej wypowiedzieć :)

Nieznajomy11
Nieznajomy11 Moderator forum.lvlup.pro
Pantoflarz
Pantoflarz

Ja rozumiem, ale mówię tu też osobno o bazie danych oraz emailu - nie zawsze jak padnie baza to pada całe w2 np.

Nieznajomy11
Nieznajomy11 Moderator forum.lvlup.pro

w sumie to jak już zależy ci na sprawdzaniu czy baza działa, to pewnie masz do niej dostęp, więc nie problem sprawdzić czy działa i podjąć akcje :thinking:

Pantoflarz
Pantoflarz

Wolałem stworzyć aplikacje która nie polegała by na łączeniu sie z nią za każdym razem, pozatym, to ze ja mam błąd nie oznacza ze baza siadla. Może np. byc tak, ze baza dziala poprawnie a to bardziej błąd po mojej stronie lub po drodze. No ale cóż jak nie da sie zrobic to nie xD

Nieznajomy11
Nieznajomy11 Moderator forum.lvlup.pro

Dac się da, ale myślę że tutaj indywidualnie właśnie lepiej z faktycznym działaniem bazy dla nas, bo czy ogólnie działa to takie mniej użyteczne wykrycie.

JozefPawlowski
JozefPawlowski

jak chcesz sprawdzić czy baza danych działa to musisz mieć do niej dostęp ,a skoro masz dostęp to dlaczego tego nie sprawdzisz ?

Nikox
Nikox

(wpis wycofany przez autora, zostanie automatycznie usunięty za 24 godziny, chyba że zostanie oflagowany)