Problemer med server prod2

Vi oplever problemer med denne server. Tekniker er ved serveren.
Påvirker et antal Magentohoteller på prod2.magentohotel.dk

Kunder på prod1, prod3 prod4 og prod5.magentohotel.dk er uberørt af situationen.

Der er foretaget en daglig backup af hele prod2 søndag eftermiddag, dvs. for ca. 18 timer siden.
Alle databaser på prod2 er backet op som normalt mellem kl. 08.00 og kl. 09.00 mandag. (dvs. max 1 time før nedbrud.)

-Derfor er der ikke risiko for datatab. Hverken filer eller databaser.
Alle data er intakte på prod2, den er dog lukket ned for at undgå datatab i forbindelse med et defekt filsystem.

Vi stiller helt ekstraordinært den daglige backup til rådighed for alle kunder, de skal blot ftp til: backup1.powerhosting.dk med vanlig user/pass. hvor både filer og database vil være at finde.
-Bemærk der er 7 dages historik på dine filer og 30 dages historik på databaserne, tjek derfor dato´en når du downloader.

Vi forventer problemet løst hurtigst muligt og vi beklager de gener, det måtte give.

————————————————————————————————

Opdatering kl. 11.22: Det har givet større udfordringer end ventet at få serveren på højkant igen, men vores forventning er, at den er i produktion igen indenfor 1-2 timer.

Opdatering kl. 13.40: defekt disk er skiftet. Alle raid-array´s er rebuildet og fsck´et OK.

Opdatering kl. 13.50: Prod2 rebooter og normal drift forventes. Alle arrays har status: Optimal.

Opdatering kl. 14.00: Prod2 online igen. Drift er normal.

Opdatering kl. 14.10: Der er fortsat problemer. Maskinen mounter fil-systemet readonly.

Opdatering kl. 14.20: Fejlen ser ud til at relatere sig en bug i nuværende linux-kerne omkring ext-4 implementeringen.
Det besluttes at boote maskinen i single-user mode for at tjekke filsystemet igen.

Opdatering kl. 15.10: Filsystemer er OK men prod2 melder forsat fejl og mounter fortsat read-only.

Opdatering kl. 15.30: Prod2 rebootes igen, denne gang uden: errors=remount ro. i fstab´en.

Opdatering kl. 15.40: Der planlægges kernel-upgrade for at slippe af med førnævnte ext4-bug.

Opdatering kl. 15.50: Prod2 tages ned for at undgå korruptering af filsystemet. OS melder fortsat fejl på filsystemet. Det besluttes at rulle en ekstra backup af kunde-data med henblik på reinstall af OS og restore af kundedata i løbet af aftenen.
-Alle data er intakte, men vi vælger at tage serveren ned fremfor at risikere datatab som følge af defekt filsystem.

Opdatering kl. 17.00: Prod2 laver fortsat backup til ekstern lokation. Det forventes at tage yderligere 2 timer. Teknikere er fortsat on-site.

Opdatering kl. 17.10: Vi benytter ventetiden til at restore kunde-sites til andre servere.
-Kontakt supporten herom hvis det har interesse.

Opdatering kl. 17.30: Tekniker sendt mod datacenteret med en ekstra server som erstatning for prod2, for en sikkerheds skyld.

Opdatering kl. 19.00: Backup næsten færdig. Alle data formodes at have en 100% konsistent tilstand. Prod2 kører dog fortsat i singe-user mode for at sikre kunde-data.

Opdatering kl. 19.30: Montering af ekstra server påbegyndes i datacenteret.
-Vi genetablerer stadig kunde-sites til andre servere mens vi venter.

Opdatering kl. 21.20: Backup og tjek af denne er færdig. Prod2 skiftes ud med nyt isenkram og restore forventes påbegyndt inden længe.

Opdatering kl. 22.50: Burn-in af ny server påbegyndt. Restore klargøres.

Opdatering kl. 01.40: Burn-in test færdiggjort uden anmærkninger.

Opdatering kl. 01.45: Restore påbegyndt.

Opdatering kl. 03.40: Restore forløber planmæssigt og normal drift forventes tirsdag morgen.

Opdatering kl. 04.20: Alle databaser er migreret til ny server og testet OK.

Opdatering kl. 06.20: Migreringen af kunde-data er næsten gennemført. Vi aktiverer kunderne på den nye server i takt med de bliver overført.

Opdatering kl. 08.30: Normal drift er genoptaget, der kan være enkelte sites som mangler aktivering, kontakt support@powerhosting.dk herom.

Der vil være ekstra teknikere i datacenteret hele tirsdag.

————————————————————————————————-

Vi beklager naturligvis de gener som vi ved vores kunder oplever ved denne slags uplanlagt nedetid. Der arbejdes intensivt på at genetablere normal drift hvilket forventes at ske i løbet af aftenen.
Vi har sat alt ind på at løse opgaven hurtigst muligt.

Vi er klar over at det er ekstra uheldigt midt i julehandelen, og derfor tilbyder vi alle kunder at de kan blive restoret fra vores daglige backup til prod4.magentohotel.dk, send en mail til support@powerhosting.dk med info hvis det har interesse.
(beregn ca. en halv times leveringstid på restores.)

Til info er supporten bemandet indtil normal drift er genoptaget samt der er indkaldt ekstra teknikere i datacenteret hele aftenen/natten.

Som et plaster på såret udvider vi vores åbningstid i december således at supporten er bemandet hver dag 9-17 alle hverdage.

Der skal lyde en stor tak til:

  • Berørte kunders store forståelse for denne ekstraordinære situation
  • Tonny fra jay.net som er bekendt med adaptec controllers quirks og bugs.
  • Karsten som uden tøven fløj til København med en frisk server efter fyraften

Og naturligvis tak fordi vi kun måtte besvare 350 opkald og 400 mails i perioden 🙂

Notes to self:

  • Det dyreste og hurtigste isenkram er ikke altid det bedste
  • rsync er altid langsommere end man regner med
  • gigabit netværk var en god investering
  • De nyeste og hurtigste filsystemer er ikke altid de bedste
  • Ekstra isenkram skal være i datacenteret istedet for på skrivebordet
  • Kommunikationen skal forbedres, twitter etc. ?
  • Intel x25-E er overraskende holdbare
  • TTL skal sænkes, 30 secs. ?
  • Over time, shit will happen
  • 250 kunder / server er måske i overkanten
  • Søvn er overvurderet.

Om forfatter

Dennis Support
bofh@powerhosting

Relaterede artikler

Nyhedsbrev... Privat, sikkert og spam-fri.