Published: July 17, 2024 by Lucas Rolff
Hvordan vi måler oppetid
Der findes så mange måder at måle oppetid i hosting industrien, nogle af dem er mere pålidelige end andre. Hos PerfGrid går vi meget op i at have en høj oppetid, og vi ønsker derfor også at måle det på en realistisk måde. Her er hvordan vi gør!
Hos PerfGrid gør vi alt hvad vi kan for at give en oppetid så tæt på 100% som overhovedet muligt. Når vi udgiver vores årlige rapport omkring oppetid, så bruger vi statistikker fra en ekstern service der hedder NodePing som vi bruger til overvågning af vores systemer (sammen med en række andre værktøjer).
Den rapporteret oppetid vi udgiver er den faktiske tid hvorpå systemer har været online og tilgængelige fra internettet. Dette betyder vi også tæller planlagt vedligeholdelse med i vores oppetid, hvilket ikke er noget der er normalt i industrien.
Alle firmaer har hver deres måde at måle oppetid på:
- Nogle laver en simpel "ping" fra et internet netværk, og hvis der kommer svar tilbage, så tæller det som systemet er oppe.
- Andre måler udfra hvis systemerne ikke har været genstartet, så tæller det som "oppetid".
- Der er også nogle der måler med eksterne kilder hvor de bruger ping, telnet eller endda laver et GET-kald til et domæne for at se om ting er oppe.
Her er hvordan vi gør hos PerfGrid
Alle vores webservere hvorpå vi placere kunder, vil have et individuelt domæne hvorpå en lille PHP applikation er lagt op. Denne applikation laver et kald til MySQL databasen på serveren, finder en streng i databasen og printer den ud på siden - vores eksterne overvågning NodePing tjekker så om denne string findes på siden som forventet, og vi måler selvfølgelig over SSL.
Dette validere et par ting:
- DNS virker
- Webserveren er online
- Webserveren kan svare på forespørgsler over SSL (Hvilket også validere vi har SSL der bliver fornyet og OCSP der giver korrekt respons)
- PHP virker
- MySQL virker og vi kan faktisk hive data ud
Med en simpel side, kan vi derved validere at hele "kæden" virker som vi forventer. Vi sætter en timeout på 5 sekunder, hvilket kan virke relativt højt, men mange overvågningssystemer starter med en standard timeout på 15 sekunder.
Dette betyder når vi måler og rapportere vores oppetid, så er det den oppetid hvorpå at serveren faktisk fungere og kunne levere indhold over internettet.
Det er simpelt, men det virker!