Awarie 2020

LVL UP
SystemZ
SystemZ Admin lvlup.pro

Awarie

W tym wątku będziemy publikować informacje o awariach.

W ten sposób nasi klienci będą mieć szybszy dostęp do informacji że coś może być nie tak z ich usługami. Oprócz obsługi w tym wątku mogą pisać także nasze roboty które wykryją nieprawidłowości w działaniu naszych usług.

Warto zobaczyć

Wątek w którym piszemy z wyprzedzeniem o zaplanowanych przerwach technicznych oraz na bieżąco o wprowadzonych zmianach

https://lvlup.rok.ovh/t/dziennik-zmian-lvlup-pro-2020/13148

Nowy wątek dla roku 2021

https://lvlup.rok.ovh/t/awarie-i-przerwy-w-dzialaniu-2021/17326

SystemZ
SystemZ Admin lvlup.pro

W tym wątku może pisać tylko obsługa

SystemZ
SystemZ Admin lvlup.pro

Naprawione

Poniżej pełny przebieg zdarzeń

21.02.2020

14:02

Na części z węzłów kolekcja obrazów .iso jest niedostępna. https://lvlup.rok.ovh/t/kolekcja-obrazow-iso-w-proxmox-dla-vps-kvm/4455

Według logów ta sytuacja mogła mieć miejsce od 21.02.2020 ~06:00 Lista dotkniętych węzłów poniżej:

n142	
n119	
n102	
n112	
n130	
n88	
n87	
n76	
n93	
n148	
n137	
n135	
n144	
n143	
n145	
n82	
n92	
n124	
n123	
n121	
n113

14:38 Kolekcja będzie niedostępna kilka minut na wszystkich węzłach, powinna wtedy wrócić i być sprawna na wszystkich.

14:46 Kolekcja powinna już działać na wszystkich węzłach. Weryfikujemy to.

15:15 Wszystko już działa, przy okazji trochę zwiększyliśmy niezawodność na przyszłość. Ulepszyliśmy też monitoring tego konkretnego przypadku aby móc szybciej reagować na takie błędy.

SystemZ
SystemZ Admin lvlup.pro

Naprawione

Obecnie wszystko już działa, poniżej możecie przeczytać pełny przebieg zdarzeń.

VPSy na n148.lvlup.pro

Po ticketach i forum wygląda na to że dzieje się coś nie tak z VPSami na n148

22.02.2020

~16:00 Większość VPSów na n148 nie działa poprawnie

16:35 Sprawdzamy to

16:43 Pełna aktualizacja systemu na wszelki wypadek

16:46 Wykonanie łagodnego restartu węzła

16:50 Węzeł poprawnie się uruchomił

16:58 Poinformowanie mailem o restarcie 4 klientów których to dotyczyło

17:01 Po niecałych 10 minutach uptime jednego z VPS, problem się powtarza. W Proxmox widoczne jest:

Status: running (internal-error)

17:07 Ustalamy wstępnie że jest to błąd sprzętowy n148. VPSy muszą zostać przeniesione na inne węzły

17:39 1/4 VPSy przeniesione

17:51 2/4 VPSy przeniesione

18:30 3/4 VPSy przeniesione

18:34 Wszystkie VPS ewakuowane z n148 i powinny już działać bez przeszkód. Następnym krokiem będzie diagnoza i ewentualna naprawa sprzętu na n148 gdy już nie ma na nim klientów.

24.02.2020

13:49 Zaczynamy sprawdzanie węzła

14:05 Tryb rescue nie działa, czekamy na odpowiedź od OVH

28.02.2020

03:50 Po testach nie znaleźliśmy niczego niepokojącego. Węzeł n148 wraca do realizowania zamówień ale w ograniczonym zakresie, będziemy go obserwować. Normalnie zastąpilibyśmy go innym sprzętem ale ta oferta serwerów nie jest już dostępna w OVH i mamy ograniczony wybór a musimy jeszcze póki co realizować zamówienia na dotychczasowych warunkach.

SystemZ
SystemZ Admin lvlup.pro

Możliwe utrudnienia z licencjami FiveM.

Nie dotyczy to wszystkich klientów, trudno nam określić kogo dokładniej. Problem występował już wcześniej:

https://lvlup.rok.ovh/t/awarie-2019/10591/#13?u=systemz

Zapewniano nas wcześniej że wystarczy jak klienci napiszą maila a oni to naprawią: https://forum.cfx.re/t/banning-vps-hostings/826090/4?u=systemz

Ich moderacja ogólnie też nie napisała żadnych przydatnych rzeczy w tej sytuacji, nie otrzymałem żadnego rozsądnego wsparcia na ich forum: https://forum.cfx.re/t/need-more-precision-of-servers-how-will-be-unbanned/826185/4?u=systemz

Niestety nadal otrzymujemy sygnały od klientów niezadowolonych z decyzji ekipy tworzącej moda więc postanowiłem zebrać info oraz napisać maila w imieniu naszych klientów. Mam nadzieję na rozsądną reakcję z ich strony tak aby wszystkie trzy strony były zadowolone.

Jeśli nie uzyskamy odpowiedzi w ciągu tygodnia, będziemy wysyłać tego samego maila na każdą skrzynkę którą znajdę w ich domenie w odstępie 1 tygodnia aż otrzymamy dowolną odpowiedź od żywego człowieka która nie wygląda jak gotowy szablon.

Postaram się na bieżąco uzupełniać całą korespondencję by zachować transparentność wobec naszych klientów.

W przypadku gdy wyczerpiemy listę skrzynek rozważymy alternatywy tak aby w legalny sposób nasi klienci nie odczuwali tego problemu. Mamy już przynajmniej kilka takich sposobów jednak zanim zaczniemy używać alternatywnych rozwiązań chcę uzyskać od nich oficjalne stanowisko.

Bierzemy pod uwagę drogę prawną jako że według mnie może być to świadome ograniczanie konkurencji na rynku. Wiadomo że takie rzeczy trwają dużo czasu więc to raczej ostateczność, chcemy wszystko załatwić jak ludzie, polubownie.

Subject: VPS provider blocked/banned - lvlup.pro
To: pr at fivem.net
Body:

Hello,

I'm the owner of the VPS service provider known as LVL UP - https://www.lvlup.pro/en
You can verify it by looking at domain sending this email and also on government site which lists all companies in Poland:
https://prod.ceidg.gov.pl/CEIDG/CEIDG.Public.UI/SearchDetails.aspx?Id=3a088816-6972-4134-ab86-f0ec4ea52276

Quick information about us.
Since 7 years we are selling hosting services.
We fulfilled over 22 000 orders and responded to over 24 000 tickets.
All stats are live on our dashboard: https://stats.lvlup.pro

I'm contacting you regarding getting a lot of tickets from my customers about FiveM bans.
For some customers FiveM works OK, for others not so much.

One of our community member was reassured that all bans are being removed in this topic:
https://forum.cfx.re/t/banning-vps-hostings/826090
I also written about situation on forum:
https://forum.cfx.re/t/need-more-precision-of-servers-how-will-be-unbanned/826185/9?u=systemz
Unfortunately, a lot of time has passed and it is still a problem.
Bans are regularly applied without providing us the reasons.

Our customers are writing emails about bans but:
- they are not getting any response or
- response take weeks or
- they receive denials to remove ban

Example #1
This part from one of our tickets
> Kontakt z twórcami gry jest strasznie ciężki, napisałem do nich 3 maile (w tym jednego 4 miesiące temu). Na żaden mail nie dostałem odpowiedzi...

EN translation:
Contact with authors is very hard, I written 3 emails and one 4 months ago. No response for all of them.

Example #2
This is from our forums:
> https://lvlup.rok.ovh/t/ban-od-fivema-na-serwer/13104/#9?u=systemz

EN translation:
So far FiveM is not informing me for about 34 hours, I know that is yours (lvlup.pro) fault, VPS was bought in genuine and legal way and they (fivem) always make problems and want to promote ZAP which is the worst VPS.

Example #3
Part of one ticket.
>Niedługo chciałem robić start mojego serwera Fivem ,A tu się nagle okazuje że nasz VPS został zablokowany.
>Tak to jest płatna wersja klucza dzięki której można dodać na serwer wiele rzeczy ,które nie są dostępne w darmowej wersji klucza.

EN translation:
I wanted to launch our fivem server soon but our VPS was blocked.
Yes, it's paid key which offers many features that are not available in free version

We aren't in business selling game servers. We aren't GSP, yet we are banned.
We sell VPS that are designed to run game servers, we don't manage customer's OS or apps in any way other that provide clean, cloud based image of Ubuntu / Debian.
I read EULA multiple times, I don't see any point that we broke.
If I'm missing something, please let me know and we will fix it.
I'm counting on our cooperation.

Best Regards
Michał Frąckiewicz

---
LVL UP - https://lvlup.pro
ul. Cyfrowa 6
71-441 Szczecin
NIP: 7412110339
REGON: 321345466

EDIT 14:42 11.03.2020 Brak odpowiedzi. Email wysłany również na support 🐵 fivem.net

EDIT 15:57 16.03.2020 Brak odpowiedzi. Email wysłany również na thiscamefrom 🐵 fivem.net Zgodnie z oczekiwaniami nie jest to istniejący mail lecz adres nadawcy do powiadomień z ich forum

Jeszcze raz wysłałem kopię na support 🐵 fivem.net

EDIT 16:12 16.03.2020 Kopię maila wkleiłem również na ich forum. Obecnie wątek czeka na zatwierdzenie przez ich moderację.

EDIT 15:11 21.03.2020 Otrzymaliśmy odpowiedź z pytaniem o nasze adresy IP.

SystemZ
SystemZ Admin lvlup.pro

n102.lvlup.pro

Usługi zlokalizowane na n102 są już ponownie dostępne. Poniżej cały przebieg zdarzeń.

05.03.2020

8:23

Węzeł traci kontakt z siecią

~8:30

Po sprawdzeniu zewnętrznie zapisanych logów, ostatnie chwile przed rozłączeniem nie wskazują na awarię

8:35

Zlecamy hard reboot

8:43

Hard reboot nie zadziałał. Całkiem możliwe że to problem sprzętowy np. awaria zasilacza. Czekamy na reakcję techników OVH.

09:07

Serwer odzyskał sprawność. Przyczyną był wadliwy port na switchu dostępowym.

Notka od technika:

Network connector
Date 2020-03-05 09:04:24 CET (UTC +01:00), aimeric S made Network connector:
 Operation details:
There was an issue with the switchport. whe have corrected the issue.

The server is booted on disk and is on the login screen. Ping OK and services are up.

09:15

Klienci dotknięci tą usterką zostali poinformowani mailowo.

SystemZ
SystemZ Admin lvlup.pro

n148.lvlup.pro

Usługi są już sprawne, zostały przeniesione na n149.lvlup.pro. Poniżej pełny przebieg zdarzeń.

15.03.2020

15:30

Zauważyliśmy że powtarza się problem ze stabilnością VPS na n148

https://lvlup.rok.ovh/t/awarie-2020/13151/#4?u=systemz

15:50

Awaryjnie zakupiliśmy i już otrzymaliśmy nowy węzeł aby przenieść tam klientów dotkniętych tą awarią. Następny krok to konfiguracja węzła (<1h).

16:15

Kończymy konfigurację węzła n149 który jest przeznaczony dla klientów VPS na n148 https://lvlup.rok.ovh/t/dziennik-zmian-lvlup-pro-2020/13148/#35?u=systemz

16:19

n149 jest już w 100% gotowy do przyjęcia VPS

16:22

Planujemy procedurę odnośnie przenoszenia wszystkich VPS z n148 na n149

16:37

Zaczęliśmy przenosić VPSy klientów

17:05

Około połowa VPSów została przeniesiona na n149

17:35

Wszystkie VPSy z n148 zostały przeniesione na n149 więc już działają poprawnie

18:27

Wszyscy klienci dotknięci awarią otrzymali +24h ważności usługi

20:00

Wszyscy klienci dotknięci awarią otrzymali e-mail wspominający o awarii oraz linkujący do tego posta

17.03.2020

10:53

Technicy OVH sprawdzają sprawność n148

SystemZ
SystemZ Admin lvlup.pro

n107.lvlup.pro

Usługi klientów na n107.lvlup.pro poprawnie kontaktują się ze światem. Pełny przebieg zdarzeń poniżej.

15.03.2020

21:48

Wystąpił problem z siecią dla jednego z VPS na n107. Sieć dla tego VPS przestała działać całkowicie.

22:34

Adres IP tego VPS działa poprawnie poza węzłem n107. VPS po migracji na inny węzeł działa poprawnie.

22:46

Sprawdziliśmy na wszelki wypadek wszystkie adresy IP dla n107. Ustaliliśmy że problem ten może też występować na 3 innych VPS.

23:00

Migrujemy drugi VPS z tym problemem.

23:06

Migracja drugiego VPS zakończona. Wszystko wygląda poprawnie

23:17

Utworzyliśmy ticket w SYS/OVH dotyczący tego problemu z siecią gdyż nie posiadamy obecnie już więcej zasobów aby dokonać migracji pozostałych dwóch klientów na inne węzły.

16.03.2020

~15:00

Przemigrowaliśmy dwóch klientów którzy do tej pory zgłosili nam występujący problem z siecią.

17.03.2020

~07:00

Automatyczne testowanie adresów IP zatwierdza dwa wolne adresy na n107 jako działające.

12:45

Obsługa zauważa brak odrzuconych adresów IP dla n107 z porannego testowania. Po bliższym przyjrzeniu się potwierdziliśmy że problem z siecią już nie występuje.

SystemZ
SystemZ Admin lvlup.pro

Włączanie VPS

Problem z ponownym startem VPS został rozwiązany poprzez aktualizację i restart prawie wszystkich węzłów co było bolesne ale konieczne 😦

Poniżej pełny przebieg zdarzeń

Lista węzłów które zostały już zrestartowane

Węzły FR

  • [*] n76.lvlup.pro
  • [*] n80.lvlup.pro
  • [*] n81.lvlup.pro
  • [*] n82.lvlup.pro
  • [*] n84.lvlup.pro
  • [*] n85.lvlup.pro
  • [*] n87.lvlup.pro
  • [*] n88.lvlup.pro
  • [*] n90.lvlup.pro
  • [*] n92.lvlup.pro
  • [*] n93.lvlup.pro
  • [*] n94.lvlup.pro
  • [*] n95.lvlup.pro
  • [*] n96.lvlup.pro
  • [*] n97.lvlup.pro
  • [*] n99.lvlup.pro
  • [*] n100.lvlup.pro
  • [*] n101.lvlup.pro
  • [*] n102.lvlup.pro (nie wymagał restartu)
  • [*] n103.lvlup.pro
  • [*] n107.lvlup.pro
  • [*] n108.lvlup.pro
  • [*] n109.lvlup.pro
  • [*] n110.lvlup.pro
  • [*] n111.lvlup.pro
  • [*] n112.lvlup.pro
  • [*] n113.lvlup.pro
  • [*] n114.lvlup.pro
  • [*] n117.lvlup.pro
  • [*] n118.lvlup.pro
  • [*] n119.lvlup.pro
  • [*] n120.lvlup.pro
  • [*] n121.lvlup.pro
  • [*] n122.lvlup.pro
  • [*] n123.lvlup.pro
  • [*] n132.lvlup.pro
  • [*] n133.lvlup.pro
  • [*] n142.lvlup.pro
  • [*] n145.lvlup.pro
  • [*] n146.lvlup.pro (nie wymagał restartu)
  • [*] n147.lvlup.pro (nie wymagał restartu)

Węzły PL

  • [*] n124.lvlup.pro
  • [*] n127.lvlup.pro
  • [*] n128.lvlup.pro
  • [*] n129.lvlup.pro
  • [*] n130.lvlup.pro
  • [*] n131.lvlup.pro
  • [*] n135.lvlup.pro
  • [*] n136.lvlup.pro
  • [*] n137.lvlup.pro
  • [*] n138.lvlup.pro
  • [*] n139.lvlup.pro
  • [*] n140.lvlup.pro
  • [*] n143.lvlup.pro
  • [*] n144.lvlup.pro
  • [*] n148.lvlup.pro (nie wymagał restartu)
  • [*] n149.lvlup.pro (nie wymagał restartu)
  • [*] n150.lvlup.pro (nie wymagał restartu)

25.03.2020

18:39

Widzimy pierwsze zgłoszenia tego błędu

18:55

Przyglądamy się n127

19:00

Wygląda to na błąd po stronie Proxmox / systemd. Plan zakłada aktualizację węzłów których dotyczy ten problem, następnie ich restart. Aktualnie sprawa z błędem dotyczy około 6 osób jednak reboot dotyczy dużo więcej osób.

Aktualnie są godziny szczytu więc dodamy mały moduł do panelu v4 aby przynajmniej wysłać maila do każdej osoby na węźle kilka minut zanim dokonamy reboota. Dodanie tego kodu nie powinno zająć dłużej niż 20 min.

19:56

Panel został zaktualizowany, weryfikujemy czy funkcja do mailingu działa poprawnie

20:04

System mailingu działa poprawnie. Przygotowujemy wiadomość do klientów i ustalamy terminy restartów.

20:07

Wysłaliśmy pierwszą partię maili do klientów których usługi są na węzłach n127 oraz n88. Restart został zaplanowany na godzinę 20:15

20:24

Restart się przeciąga. Jako że systemd zarządza wszystkim a nie odpowiada to komplikuję sprawę.

20:37

Jesteśmy zmuszeni do hard reboot. Żaden znany nam sposób na łagodny reboot nie zadziałał.

20:42

Hard reboot na n127 i n88 powiódł się. VPSy wystartowały.

20:47

Monitorujemy sytuację i planujemy kolejne restarty uwzględniając zdarzenia z poprzednich dwóch.

21:35

Wysłaliśmy drugą partię maili. Następny restart został zaplanowany na godzinę 21:50 dla węzłów: n109, n139, n129, n132, n120, n94, n121, n137, n103

22:02

Węzły podane wyżej są już po restarcie, VPSy na tych węzłach powinny już działać.

22:10

Ustaliliśmy które węzły nie wymagają restartu - zostały one odznaczone i dodatkowo opisane.

22:43

Wysłaliśmy mailing do klientów którzy mają usługi zlokalizowane na pozostałych polskich węzłach: n124, n128, n130, n131, n135, n136, n138, n140, n143, n144 Zaplanowany czas restartu: 23:00

23:16

Wszystkie węzły w polskiej lokalizacji są już po restarcie. Zarządzamy godzinę przerwy dla obsługi w celu przegrupowania sił.

26.03.2020

00:03

Kolejny mailing dotyczący restartu węzłów od n76 do n100 włącznie (z pominięciem n88 i n94 które zostały zrestartowane wcześniej). Restart został zaplanowany na 0:15

00:34

Wyżej wspomniane węzły pomyślnie zrestartowane

00:40

Ostatni mailing i ostatnia fala restartów, dotycząca węzłów: n101, n107, n108, n110, n111, n112, n113, n114, n117, n118, n119, n122, n123, n133, n142, n145 Restart zaplanowano na 0:50

01:08

Ostatnia fala restartów została pomyślnie zakończona.

01:13

Ostatnie weryfikacje czy obsługa nie przeoczyła jakiegoś węzła.

Dodatkowe informacje w postaci post-mortem (lub inaczej retrospekcja awarii) pojawią się później po dokładniejszej analizie.

01:24

Wygląda ok. Wszystkie węzły działają obecnie prawidłowo.

Może się pojawić potrzeba ponownego restartu jednak w tym wypadku nie powinno być potrzeby tak nagłego restartu. Mam nadzieję że będziemy mieli możliwość poinformować przynajmniej tydzień przed zdarzeniem. Tu niestety nie mieliśmy tego czasu podczas gdy coraz więcej klientów miało niedziałającą usługę.

17:05

Dodanie przez obsługę +24h do ważności usług które zostały zrestartowane.

SystemZ
SystemZ Admin lvlup.pro

Panel klienta v4

Wszystko już działa. Poniżej pełen przebieg zdarzeń.

30.03.2020

17:14

Aktualnie panel klienta v4 jest niedostępny. Pracujemy nad przywróceniem

17:22

Pierwsza szybka łatka zrobiona, czekamy na jej wrzucenie na serwer

17:33

Pierwsza łatka nie do końca rozwiązała problem, próbujemy innego rozwiązania

17:34

Druga łatka przygotowana, czekamy na wdrożenie

17:36

Druga łatka też nie działa, trzecia wyłącza jedną z mniej ważnych funkcjonalności dla obsługi jednak powinna rozwiązać obecny problem do czasu przepisania tej funkcji. Czekamy na wdrożenie czyli około 5 min

17:46

Trzecia łatka na produkcji, obserwujemy.

17:51

Jest ok. Między 17:33 a 17:46 panel v4 mógł działać wolniej ale być dostępny gdyż obecna konfiguracja zakłada trzy instancje panelu.

SystemZ
SystemZ Admin lvlup.pro

Sieć na n146 i n147

Wszystko wydaje się już działać poprawnie. Poniżej pełny przebieg zdarzeń.

30.03.2020

17:07

Sieć OVH ma jakiś problem:

Panel v2 ma łączność z n146 i n147, jednak Panel v4 nie. Wygląda na to że wewnętrzna łączność między serwerami w OVH nie do końca działa jak powinna.

18:05

Problem z siecią już nie występuje.

SystemZ
SystemZ Admin lvlup.pro

Długa kolejka zamówień

Problem już naprawiony, poniżej cały przebieg zdarzeń

Jako że nasze zasoby RAM są gwarantowane, oznacza to że szansa na problemy z wydajnością dla naszych klientów jest minimalna. Powoduje to też że musimy mieć 100% pokrycia w sprzęcie co w przypadku bardzo dużego zainteresowania wydłuża czas realizacji, czyli trzeba poczekać ale warto.

Celujemy w czas realizacji usługi mniejszy niż 24h, idealnie w 15 min. Niestety nasza kolejka FR pobiła wszystkie wewnętrzne rekordy i czas realizacji jest teraz znacznie wydłużony. Robimy co możemy żeby przyspieszyć realizację zamówień jednocześnie nie zmniejszając wydajności obecnym klientom. W tym poście znajdziecie pełen przebieg jak ma się sytuacja i co robimy w tym kierunku, aktualizowane na bieżąco.

31.03.2020

15:24

Obecnie brakuje nam 184 GB RAM na realizację zamówień FR. Najstarsze zamówienie czeka prawie 4 dni. Potrzebujemy więcej węzłów GAME-3 FR z SYS, przynajmniej 4.

Podsumowanie kroków które zrobiliśmy do tego czasu aby polepszyć sytuację:

  • usunęliśmy nasze prywatne VPSy FR
    • zwolnienie kilka GB miejsca dla klientów
  • napisaliśmy do naszego opiekuna w OVH
    • niestety on nie ma wpływu bezpośrednio na SYS
  • utworzyliśmy ticket w SYS
    • ticket zniknął z ich panelu po 1-2 dniach
  • dzwoniliśmy do SYS
    • po rozmowie wynika że ten ticket odnośnie zamówienia GAME-3 tylko nam w panelu zniknął, obsługa to widzi i pracuje nad odpowiedzią czy będą coś mieli i kiedy
    • nie da się zamówić serwera przez telefon, widocznie to nie działa jak pizzeria
  • notka o dłuższej kolejce na samym początku formularza zamówień: https://lvlup.rok.ovh/t/dziennik-zmian-lvlup-pro-2020/13148/#45?u=systemz
    • mniej nowych zamówień to mniejsza kolejka
  • dodanie listy zamówień widocznej dla klienta w panelu v4: https://lvlup.rok.ovh/t/dziennik-zmian-lvlup-pro-2020/13148/#43?u=systemz
  • dokupienie węzłów PL: https://lvlup.rok.ovh/t/dziennik-zmian-lvlup-pro-2020/13148/#41?u=systemz
  • procedura anulowania zamówień FR w przypadku chęci zakupu oferty PL
    • jeśli klient napisze do nas ticket, możemy mu zwrócić środki do portfela lvlup.pro, wtedy środki można wykorzystać na zakup pakietu PL który realizuje się szybko i obecnie kolejka to może ~15 min

02.04.2020

17:18

Oferta FR

Obecnie brakuje nam 172 GB RAM na realizację zamówień FR. Najstarsze zamówienie czeka 5 dni. Najbliższa szansa na realizację kilku zamówień przypada na niedzielę (05.04.2020).

Oferta PL

Obecnie zamówienia na PL są realizowane na bieżąco w ciągu ~15 min. Mamy też dodatkowy jeden węzeł w zapasie jednak obsługa OVH nadal rozwiązuje problemy z temperaturą jego CPU. Powinien być już sprawny gdy będzie potrzebny.

Co zrobiliśmy

  • napisaliśmy bezpośrednio do jednej z osób supportu SYS na maila w nadziei że może w ten sposób uzyskamy odpowiedź odnośnie dostępności / zamówienia GAME-3
  • napisaliśmy też do naszego opiekuna w OVH aby ustalić czy będziemy mieli odpowiednią rezerwę serwerów pod obecną ofertę PL

03.04.2020

10:22

Jedna z odpowiedzi jaką uzyskaliśmy z SYS sugeruje że jest szansa na 4 nowe GAME-3 w przyszłym tygodniu. Pozwoliłoby to zrealizować całą obecną kolejkę zamówień. Czekamy na SYS w tej sprawie.

17:32

Obecnie brakuje nam 212 GB RAM na realizację 32 zamówień FR. Najstarsze zamówienie czeka 6 dni. Najbliższa szansa na realizację 6 najstarszych zamówień przypada na niedzielę wieczór (05.04.2020).

04.04.2020

19:37

Obecnie brakuje nam 280 GB RAM na realizację 40 zamówień FR. Najstarsze zamówienie czeka 7 dni. Najbliższa szansa na realizację 6 najstarszych zamówień przypada na niedzielę wieczór (05.04.2020).

19:44

Mamy też kolejkę na PL ale ona wydaje się tylko chwilowa. OVH nie zdążyło naprawić nam temperatur na n153 (teraz to będzie trzecie podejście, ostatnie dwie interwencje nie pomogły), nie chcemy tam umieszczać usług klientów gdyż nie ma pewności czy za kilka dni nie będzie awarii a bez wolnych zasobów nie będziemy mieli ich wtedy gdzie przenieść. Mamy nadzieję że w poniedziałek uda się załatwić kwestię gorącego CPU i wtedy n153 będzie mogło zostać użyte do realizacji wszystkich obecnych zamówień PL.

06.04.2020

17:23

Opłaciliśmy zamówienie na 4 serwery SYS GAME-3 FR. Czekamy na realizację. Jedyne ETA na realizację tych serwerów jakie otrzymaliśmy to "5 dni roboczych"

Kolejka FR to 300 GB RAM. Najstarsze zamówienie czeka niecałe 7 dni.

Kolejka PL to 37 GB. Najstarsze zamówienie czeka 2 dni.

17:38

Odkrywamy błąd w realizacji zamówień. Zamówienia PL mimo że mogą się zrealizować - nie realizują się. Pracujemy nad przeniesieniem realizacji zamówień do panelu v4 gdzie będzie kolejka na każdy region osobno czyli FR i PL. Nie ma potrzeby blokować kolejki PL tylko dlatego że stoją w niej FR.

07.04.2020

17:42

Przełączamy nowe węzły FR w tryb realizacji zamówień

https://lvlup.rok.ovh/t/dziennik-zmian-lvlup-pro-2020/13148/#56?u=systemz

18:03

Ruszyła kolejka zamówień. Obecnie w kolejce jest 17 zamówień PL (78 GB RAM) i 36 FR (308 GB RAM).

18:21

Zamówienia realizują się pomiędzy sobą w odstępie 15 min co jest zbyt długim czasem biorąc pod uwagę ilość zamówień które czekają. Pracujemy aktualnie nad metodą która zmniejszy ten czas do ~1 min między zamówieniami. ETA ~30min

19:07

Łatka na panel v2 i v4 już zastosowana.

https://lvlup.rok.ovh/t/dziennik-zmian-lvlup-pro-2020/13148/#57?u=systemz

Aktualnie odstęp między realizacją zamówień to 20 sekund czyli 45x szybciej

19:37

Po zużyciu zasobów które już mamy kolejka wygląda następująco: 10 czekających zamówień FR (72 GB RAM), 10 PL (51 GB RAM)

Złożyliśmy zamówienie na kolejne dwa węzły KVM PL

19:50

Złożyliśmy zamówienie na kolejne trzy węzły KVM FR

21:23

Chwilowo przywróciliśmy jeden błąd w panelu v2 aby zrealizować więcej zamówień.

https://lvlup.rok.ovh/t/dziennik-zmian-lvlup-pro-2020/13148/#59?u=systemz

Obecnie kolejka wygląda następująco:

  • 1 zamówienie PL (8 GB RAM)
  • 7 zamówień FR (52 GB RAM)

Najstarsze zamówienie czeka około 30h

08.04.2020

11:33

Otrzymaliśmy 3 węzły w FR i 2 węzły PL. Szykuje się dziś ostateczne rozwiązanie kwestii kolejki VPS.

14:58

https://lvlup.rok.ovh/t/dziennik-zmian-lvlup-pro-2020/13148/#62?u=systemz

Jeden z węzłów FR (n159) jest już dostępny w sprzedaży. Kolejka zamówień ponownie ruszyła.

15:39

Wyłączenie informacji o małej dostępności przy zamówieniach https://lvlup.rok.ovh/t/dziennik-zmian-lvlup-pro-2020/13148/#63?u=systemz

15:57

Udało się, kolejka zredukowana do zera 😃

image|405x220

Jeszcze dziś do końca dnia postaramy się o zapasy VPS tak aby w widżecie dostępności zrobiło się całkowicie zielono.

Przywracamy też opcję powiększania pakietu usług, osoby chętne zapraszamy do kontaktu poprzez zgłoszenie.

Problem oznaczamy jako rozwiązany

SystemZ
SystemZ Admin lvlup.pro

Wewnętrzne usługi poza panelami

17:54

Panel klienta v2 i v4 czy Proxmox działają poprawnie. Pozostałe usługi jak zabbix czy grafana nie odpowiadają. Obecnie jest odpalone jedno długo trwające zapytanie na bazie MySQL z której korzystają te aplikacje i baza odpowiada zbyt wolno.

18:25

Zapytanie się wykonało. Pozostałe usługi się już "odetkały". Wszystko działa jak trzeba.

Musimy jednak wykonać jeszcze jedno czy dwa tak długie zapytania. Zostawimy to na mniej popularne pory.

SystemZ
SystemZ Admin lvlup.pro

n87.lvlup.pro

Od około 2020-07-10 19:00:01 odnotowujemy packet loss >30% w wypadku niektórych połączeń. Czekamy na odpowiedź OVH do ticketa w tej sprawie.

image|690x129

EDIT Od ~22:00 13.07.2020 nie obserwujemy już packet loss.

image|690x100, 100%

SystemZ
SystemZ Admin lvlup.pro

Niektóre zamówienia na VPS

https://lvlup.rok.ovh/t/dziennik-zmian-lvlup-pro-2020/13148/#110

Błąd z realizacją zamówień został już naprawiony jednak musimy poinformować o tym klientów którzy nie dokonali jeszcze reinstalacji po otrzymaniu VPS oraz powiększyć im dyski.

Kwestia dotyczyła zamówień od 23948 do 23986 które zostały złożone między ~06:24 18.07.2020 a ~18:47 22.07.2020.

EDIT 20:24 22.07.2020

Zlokalizowaliśmy niepoprawnie ustawione dyski na 10 zrealizowanych VPS. Pozostałe były już naprawione reinstalacją. Naprawiliśmy te 10 VPSów od naszej strony. Wymaga to jednak jeszcze działania od strony klientów.

Najprostszą metodą jest przygotowanie kopii zapasowej oraz reinstalacja. Alternatywnie można to naprawić bez utraty danych, wystarczy wykonać dwie komendy. Testowaliśmy te rozwiązanie na Ubuntu 18.04. Poradnik poniżej:

https://lvlup.rok.ovh/t/powiekszanie-dysku-na-ubuntu-18-04/15482

EDIT 21:27 22.07.2020

Wszyscy klienci dotknięci tym błędem otrzymali poniższy email z informacjami co miało miejsce i jak to rozwiązać:

Temat: [Wymagana reakcja] Zbyt mały rozmiar dysku VPS

Szanowny kliencie, Wykryliśmy błąd w naszym systemie realizacji zamówień VPS. Spowodował on ustawienie wielkości dysku na około 2GB zamiast tej która jest przypisana do pakietu. Obecnie ten błąd jest już naprawiony od naszej strony, jednak do pełnej naprawy wymaga to interwencji również od Twojej strony. Więcej informacji zostało podanych tutaj:

Poniżej znajdziesz poradnik jak dokonać naprawy, są to dwie komendy do wykonania poprzez SSH:

Alternatywnym rozwiązaniem jest reinstalacja systemu. Zalecamy to rozwiązanie jeśli na Twojej usłudze nie ma jeszcze ważnych plików.

W przypadku pytań lub wątpliwości zapraszamy do kontaktu poprzez system zgłoszeń. https://lvlup.pro/panel/support/ticket


LVL UP - https://lvlup.pro ul. Cyfrowa 6 71-441 Szczecin NIP: 7412110339 REGON: 321345466

Aylin
Aylin ex-admin forum.lvlup.pro

n88 & n99.lvlup.pro

Otrzymaliśmy informację o zaplanowanej wymianie sprzętu, która będzie dotyczyć dwóch węzłów. Do wszystkich klientów rozesłaliśmy poniższą wiadomość email.

Szanowny kliencie,

Od naszego dostawcy sprzętu fizycznego OVH/SYS otrzymaliśmy informację 
o zaplanowanej przerwie technicznej dla węzła n88.lvlup.pro/n99.lvlup.pro, 
na którym zlokalizowany jest Twój VPS.

Prace techniczne będą miały miejsce w dniu 24.09.2020 od godziny 06:00 
i mają potrwać około 1h.
Przez ten czas Twoja usługa może nie być dostępna.

Postęp prac możesz śledzić tutaj [EN/FR]
http://travaux.ovh.net/?do=details&id=46803

---
LVL UP - https://lvlup.pro
ul. Cyfrowa 6
71-441 Szczecin
NIP: 7412110339
REGON: 321345466 
SystemZ
SystemZ Admin lvlup.pro

5 węzłów FR

11.10.2020

Poniższe węzły były odcięte od sieci:

  • n100.lvlup.pro (od 08:03)
  • n82.lvlup.pro (od 08:37)
  • n99.lvlup.pro (od 08:27)
  • n133.lvlup.pro (od 08:37)
  • n132.lvlup.pro (od 08:47)

Przyczyną był nasz banalny błąd Zapomnieliśmy opłacić te serwery w OVH więc zostały słusznie odcięte 😳 Serwery zostały opłacone a sieć wróciła około 09:27. Awaria trwała więc między 40 min a 1h 24min w zależności od serwera. Skontaktujemy się mailowo z klientami których dotknęła ta sytuacja, doliczymy im +24h ważności serwera

10:09 Przydzieliliśmy dodatkowe +24h ważności do usług które były tym dotknięte

10:19 Poniższy mailing został wysłany do wszystkich ~50 osób których dotyczyła ta awaria

Szanowny kliencie,

Dziś między 08:03 a 09:27 miała miejsce awaria sieci VPS, wina leżała po naszej stronie.
Ta awaria dotknęła Twojego VPS, przepraszamy za utrudnienia.
W zamian przydzieliliśmy dodatkowe +24h ważności do usługi Twojego serwera.

Więcej informacji można uzyskać na naszym forum: https://lvlup.rok.ovh/t/awarie-2020/13151/#17

---
LVL UP - https://lvlup.pro
ul. Cyfrowa 6
71-441 Szczecin
NIP: 7412110339
REGON: 321345466
SystemZ
SystemZ Admin lvlup.pro

n76.lvlup.pro

02.11.2020

12:02

OVH wyłączyło n76.lvlup.pro ze względu na awarię ich zdalnego systemu reboota. Czekamy na reakcję OVH, VPSy zlokalizowane na tym węźle powinny wtedy same wrócić do działania: http://travaux.ovh.com/?do=details&id=47479

13:02

VPSy na n76.lvlup.pro ponownie działają

13:35

n76 ponownie nie odpowiada, możliwe że OVH jeszcze nie skończyło prac związanych z wymianą modułu do hard reboota

14:32

n76 ponownie odpowiada

14:35

Znów offline

14:47

Online

SystemZ
SystemZ Admin lvlup.pro