Risken med att följa instruktioner

by on 23 september, 2008

Med anledning av tidigare driftsproblem och en önskan om att underlätta driften är vi på väg att byta driftleverantör. Som ett första steg i själva övergången så flyttade vi idag vår DNS till den nya leverantören. DNS är systemet som är ansvarig för att tala om vilken dator som finns på en viss adress (i vårt fall www.reco.se). Namnservern hos den nya leverantören var korrekt inställda och det som skulle göras vara att tala om för .SE att det var den nya leverantören som ska hålla reda på var vår dator finns (än så länge är själva servern kvar hos den gamla leverantören).

Detta byte ska i teorin gå helt omärkligt (och gör det också i nästan alla fall också). Ödet ville dock annorlunda för oss idag. .SE:s verktyg för att hantera domäner säger att man ska ta bort den gamla namnserverinställningen först och sedan lägga till de nya. Om sedan uppdateringen kör precis efter att de gamla tagits bort och de nya lagts till så har domänen helt plötsligt inga namnservrar. Det var precis det som hände oss. Under de 12 sekunder som inställningen saknades kördes uppdateringen (som sker varannan timme). Risken att uppdateringen råkar ske just då är 0,16 procent så det ytterst osannolika hände. Eftersom denna uppdatering körs varannan timme så var webbplatsen under två timmar borta från domännamnssystemet och därmed i praktiken från nätet.

Det korrekta, och redundanta sättet, är att lägga till de nya namnservrarna först och sedan ta bort de gamla namnservrarna (och det först efter en lång tid). Hade vi gjort det istället för att följa instruktionerna på webbsidan hade vi inte råkat ut för att vara bort från jordens yta två timmar ens om vi lyckades pricka in samma 0,16 procent av en tvåtimmarsperiod.


{ 4 comments… read them below or add one }

ctail september 24, 2008 kl. 08:30

Det är sannolikt att osannolika saker inträffar. Efter att en uppdatering gjorts på det sätt ni gjorde 104 gånger så är det mer sannolikt att problemet uppstått någon av gångerna än att det inte gjort det.

Bevis: (1 – 12 / (2 × 60 × 60))^104 < 1/2.

Svara

ctail september 24, 2008 kl. 10:30

Det är sannolikt att osannolika saker inträffar. Efter att en uppdatering gjorts på det sätt ni gjorde 104 gånger så är det mer sannolikt att problemet uppstått någon av gångerna än att det inte gjort det.

Bevis: (1 – 12 / (2 × 60 × 60))^104 < 1/2.

Svara

David Hall oktober 5, 2008 kl. 07:11

Jo, trots att .SE inte hört talats om det innan så lär ju någon annan drabbats av det tidigare. Det finns dock en faktor till: man kan anta att många som byter namnserver inte har brytt sig om att skruva ner TTL-värdet (som anger hur länge andra namnservrar ska spara datat för en viss domän) från 48 timmar. Skulle de göra på samma, icke-redundanta, sätt och dessutom pricka in körningen som vi råkade göra skulle andelen användare som drabbades vara mindre (förutsatt att någon namnserver uppåt i kedjan redan slagit upp domänen nyligen). Skulle de drabbas skulle det antagligen ändå räknas in en längre strulperiod eftersom många (förvånande nog även från stora webbplatser) låter bli att skruva ner TTL-värdet och samtidigt byta server. Emellanåt läser man just om att man just nu är på gamla servern som inte uppdateras längre men att man inom ett par dagar kommer att komma åt den nya servern och kan läsa nyheter.

Svara

David Hall oktober 5, 2008 kl. 09:11

Jo, trots att .SE inte hört talats om det innan så lär ju någon annan drabbats av det tidigare. Det finns dock en faktor till: man kan anta att många som byter namnserver inte har brytt sig om att skruva ner TTL-värdet (som anger hur länge andra namnservrar ska spara datat för en viss domän) från 48 timmar. Skulle de göra på samma, icke-redundanta, sätt och dessutom pricka in körningen som vi råkade göra skulle andelen användare som drabbades vara mindre (förutsatt att någon namnserver uppåt i kedjan redan slagit upp domänen nyligen). Skulle de drabbas skulle det antagligen ändå räknas in en längre strulperiod eftersom många (förvånande nog även från stora webbplatser) låter bli att skruva ner TTL-värdet och samtidigt byta server. Emellanåt läser man just om att man just nu är på gamla servern som inte uppdateras längre men att man inom ett par dagar kommer att komma åt den nya servern och kan läsa nyheter.

Svara

Leave a Comment

Previous post:

Next post: