Udgivet: 13. maj 2025 af PerfGrid
Pulse Uge 20
I denne uge taler vi om nyt hardware, forbedringer af Valkey Manager i hosting-panel.net og meget mere.
Ny server installeret
I sidste uge fik vi leveret en ny server til vores Grid Hosting-planer. Ligesom med nlsh04 og nlsh05, som vi har i produktion i øjeblikket i Amsterdam, bruger vi Supermicro som leverandør, specifikt CloudDC A+ Server AS-1115CS-TNR.
Den nye server kommer med en mindre opgradering, da vi er gået fra AMD EPYC Genoa 9254 til AMD EPYC Turin 9255 og fra 4800MHz ECC-hukommelse til 6000MHz ECC-hukommelse, hvilket øger ydelsen yderligere.
Vi fortsætter med at bruge Samsung PM9A3 NVMer på grund af deres pålidelighed og ydeevne, der passer godt til vores miljø.
Vi kørte en Geekbench 6-benchmark på systemet og observerede en forbedring på 23 % i single-core og en forbedring på 35,5 % i multi-core workloads. Selvom disse resultater måske ikke direkte kan oversættes til forbedringer af ydeevnen i den virkelige verden i et delt hostingmiljø, viser de generationsforbedringer i hardwaren.
Vi er stadig i gang med at installere vores software på den nye server. Når det er gjort, vil vi begynde at teste den end-to-end og håber at kunne gøre den tilgængelig for kunderne inden for de næste to uger efter omfattende test.

Det interessante er, at det nuværende hardwaremarked oplever en fortsat stigning i hardwareomkostninger. Samsung besluttede for et par år siden at reducere produktionen af NAND-chips for effektivt at drive prisen på NAND op, og som følge heraf er solid state-teknologien steget løbende, og NVM'er koster mere end det dobbelte af, hvad de gjorde for bare et par år siden, når vi ser på diske i enterprise-klassen. Andre omkostninger inden for servere er også steget gennem årene.
Sådanne stigninger påvirker naturligvis de samlede omkostninger på servere. Hvis vi ser på, hvad vi betalte for vores servere tilbage i december 2023, koster nøjagtig den samme model i dag 17 % mere end dengang, selv hvis vi bruger AMD EPYC Genoa 9254 CPU'en.
Vi håber, at hardwarepriserne vil begynde at falde igen i fremtiden, som vi har set det tidligere.
Valkey Manager får statistikker
Vi har tilføjet statistikker til Valkey Manager, som viser det aktive hukommelsesforbrug i Valkey, Cache Hit Ratio, operationer pr. sekund og trafikken gennem Valkey samt oppetiden og antallet af `keys`, der er gemt i Valkey.
Disse statistikker indsamles med et interval på 10 sekunder via en specialudviklet collector og gemmes i ClickHouse i 30 dage, hvilket svarer til 259200 datapunkter per Valkey-instans.
En af de store fordele er for eksempel at bruge Cache Hit Ratio til at afgøre, om den valgte »Max Memory«-konfiguration er høj nok, da en lav Cache Hit Ratio ofte betyder, at der er en høj rotation af keys i Valkey, eller i tilfælde af lav trafik er det måske bare ikke fordelagtigt nok endnu.

Vores fortsættelse med defekt hardware
For omkring to måneder siden havde vi stabilitetsproblemer på nlcp03-serveren. Vi skrev endda om det i vores Pulse Week 11-indlæg.
Efter flere ugers test af hardware fandt vi ud af, at det faktisk ikke er relateret til netværkskortet, som vi først troede, da vi erstattede netværkskortet i systemet med et andet netværkskort, et ældre Intel X520-DA2. Vi testede også det oprindelige Mellanox netværkskort i et andet system, og vi så ingen problemer med kortet overhovedet.
Faktisk begyndte vi at se tilfældige nedbrud på serveren ret ofte. Heldigvis er det en server, som vi ikke bruger aktivt i produktionen i øjeblikket.
Mens vi var i datacentret, besluttede vi at foretage fejlfinding ved at fjerne alle RAM-blokke fra serveren, da vi havde mistanke om en defekt RAM-block, som systemet ikke havde opdaget. Vi startede med to RAM-blokke og observerede ingen crashes, men så snart vi tilføjede flere, begyndte crashes igen.
Vi har derfor taget serveren med os for at fejlfinde yderligere, enten for at identificere de problematiske RAM-blokke eller for at lave en såkaldt reseat af CPU'en, da problemet muligvis kan løses ved at reseate CPU'en.
På grund af størrelsen på moderne CPU'er kan enhver ubalance i trykket på tværs af CPU'en forårsage stabilitetsproblemer. Dette tryk kan ændre sig over tid, især når man flytter udstyr, som vi gjorde under migreringen i december 2024.
