(Foto: Computerworld)

Guide: Optimer dine opgraderinger

Find flaskehalse, og bryd igennem med professionelt testarbejde.

21. august 2018 kl. 13.21

Af Torben Okholm, Alt om Data

Denne artikel er oprindeligt bragt på Alt om Data. Computerworld overtog i november 2022 Alt om Data. Du kan læse mere om overtagelsen her.

Computere er sjove sager: En kompliceret samling komponenter, der arbejder sammen om at levere det ønkede output. Men ligesom med andre former for holdarbejde er der altid et svagt led i kæden.

Efterhånden som flere og flere tilslutter sig miljøet af pc-entusiaster, er det nemt at blive indfanget af hypen og opgradere et meget basalt system med kostbare komponenter. Det er ikke altid en dårlig ide, men det kan medføre, at de svage led bliver spændt til bristepunktet, når hardware i den tunge ende kommer ind i et system, der ikke er beregnet til at rumme den.

Det kan føre til flaskehalse, hvor ét stykke hardware ikke yder så godt, som det burde, fordi en anden komponent i systemet ikke kan leve op til de potentielle ydelsesniveau-er. Det er kun en vis mængde, der kan komme igennem samtidig, og derfor bliver systemets kraft ikke udnyttet.

Det er gerne nemt at afsløre, hvilken del der ikke yder godt nok – en gpu, cpu eller raid-opsætning – men det kan være sværere at afgøre, hvilken komponent der er skyld i flaskehalsen.
Hvilke dele giver oftest problemer? Hvordan kan vi identificere dem? Og hvordan gennembryder man den barriere? Læs trygt videre ...

Integrerede systemdele

Den vigtigste årsag til flaskehalse er ens platform og processor.

CPU

Flaskehalsproblemer hænger typisk sammen med processoren. Din cpu bearbejder alt lige fra renderede spil-frames til hukommelseslagring, komplekse programprocesser og meget mere. Den er en afgørende brik i puslespillet og den, der nemmest bliver overvældet i noget system.

De mest udbredte flaskehalse, navnlig i spil, hænger sammen med, at processoren ikke er hurtig nok til at håndtere alle de data og processer, den bliver udsat for på et givet tidspunkt.

For seks-syv år siden krævede de fleste spil to til fire højtydende kerner for at klare sagerne. Enkeltkerne var kongen, og jo flere instruktioner pr. clockcyklus ens cpu kunne klare, desto bedre. Intels velfunderede enkeltkerne-bedrifter stammer fra firmaets tidlige Nehalem-arkitektur, som har gennemgået ikke færre end syv generationer siden da.

Hver af dem har nydt godt af forbedret enkeltkerne-ydelse og support af nyere hardware. Den dag i dag holder Intels ry endnu, og til trods for at Ryzen nu er meget tættere på Intels enkeltkerne-ydelse, holder gamingmiljøet stadig lidenskabeligt fast i Intel i stedet for at gå til AMD.

CPU-Symptomer

Det mest udbredte og tydelige tegn på en cpu-flaskehals er lave framerates i spil, selv når man bruger en stærk gpu. Kort sagt er det cpu’en, der styrer hele spillet. Udtrykt forenklet kører cpu’en proceslogikken, håndterer brugerens input til spillet, kører de fysiske aspekter, beregner chippenes respons, mixer den relevante lyd og slutter af med at bede gpu’en om at rendere framen.

Og så vender den tilbage til proceslogikken og begynder forfra. Alt dette passer den, mens den kører operativsystem og baggrundsapplikationer og flytter data ind i og ud ad forskellige frame-buffere, dram, cache og ud fra lagermediet – frem og tilbage til gpu’en. Hvis man skal opnå en glidende framerate på 60 fps, skal ens processor kunne håndtere alt dette 60 gange i sekundet.

Ved mere komplekse spil bliver der føjet endnu flere trin til spil-logikprocessens kæde, og eftersom der sker flere handlinger samtidig, er det nemt at se, hvorfor en cpu i den billige ende kan døje med at håndtere et moderne spil.

Flere kerner slår ikke altid højere enkeltkerne-kraft.

Spilkodning

Det er spiludviklerne, der bestemmer, hvordan processoren yder i spillet. En cpu arbejder altid ved samme hastighed og frekvens, og den bearbejder det samme antal instruktioner pr. clockcyklus hvert sekund.

Hvis man sætter den til at beregne en kompleks proces, som er fuld af unødvendig jargon og redundant kode, bruger processen flere af processorens ressourcer, og det tager derfor længere tid at gennemgå den kæde, vi nævnte tidligere, og det medfører lavere framerates. Udviklerne kan også beslutte, hvilke processer der skal drage fordel af hvilke og hvor mange kerner.

Gådens løsning

Hvordan afslører man en cpu-flaskehals? Blandt de typiske symptomer finder man lange indlæsningstider, langsom teksturindlæsning og lavere framerates, end man skulle forvente. På den anden side kan man også komme ud for tilsyneladende høje framerates, men teksturerne bliver ikke renderet korrekt, og man oplever hårrejsende forekomster af hakkende drift og fastlåsning.

Når vi skal bekræfte denne diagnose, skal vi foretage noget testarbejde og dataindsamling. Det kræver en meget dybdeborende benchmark som den, der er integreret i Assassin’s Creed Origins eller Tom Clancy’s Ghost Recon: Wildlands, og en tredjeparts-applikation til systemovervågning såsom HWInfo eller HWMonitor.

Assassin’s Creed omfatter en benchmark, der aktivt viser dig, hvor mange kerner der bliver brugt, og hvor stor en procentdel belastning de er under, samtidig med at den viser dig den maksimale gpu-belastning. Uanset hvad du bruger, fokuserer vi på det samme: cpu- og gpu-belastning.

Hvis du for eksempel har en processor med to kerner og multithreading – det kunne være en gammel Intel Core i3 – og alle fire af disse logiske kerner registrerer 100 procent belastning i den tid, din benchmark varer, samtidig med at gpu’en ligger omkring 60-80 procent, kan du trygt konstatere, at cpu’en er flaskehalsen, fordi disse tal i den bedste af alle verdener ville være omvendte.

Det er det, vi kalder en absolut flaskehals, hvor man begynder at se kvalitetsforringelse; teksturer, der ikke bliver indlæst; langsom indlæsning og hakkende frames.

Når det er sagt, behøver du ikke nødvendigvis at have alle dine cpu-kerner kørende ved 100 procent belastning for at komme ud for en flaskehals. Mindre flaskehalse kan opstå på grund af langsommere enkeltkerne-ydelse, som du kan se i vores benchmark-resultater.

Forskellene er mest mærkbare ved højere refresh-rates med stærke cpu’er, men de eksisterer også i den billigere ende. Og hvis man for eksempel spiller konkurrencedygtige skydespil ved 144 Hz og derover og ved 1080p, er enkeltkerne-ydelse stadig i høj grad førende i forhold til rå kraft med mange kerner.

En forenklet version af det, din cpu gennemgår, når den skal producere en frame.

Hvad med flaskehalse?

Modsat hvad mange mennesker tror, har vi set meget store fremskridt i løbet af de seneste syv år. Og til trods for, at Intels trinvise stigninger på 10 procent generation for generation ikke har revet tæppet væk under nogen af os, har de i næsten ti år ført til, at enkeltkerne-ydelse er steget med hele 93 procent siden Sandy Bridge.

Hvis man kombinerer det med adgang til flere kerner i takt med, at markedet bliver hedere på grund af slaget mellem Intel og AMD, står vi med quad core-i3’er, der pumper næsten dobbelt så meget kraft ud, som deres søskende gjorde i 2010.

Set i det lys er spiludvikling stagneret. Grafikken i de store historiedrevne AAA-spil er blevet forbedret undervejs, men det er de færreste udviklere, der udnytter mere end fire kerner. Det skyldes simpelthen, at hovedparten af markedet stadig sidder på quad core-enheder.

Konsekvensen er, at nu om dage vil selv en Core i3-8100 være mere end nok til at spille langt hovedparten af moderne AAA-spil uden at skabe nogen gpu-flaskehalse – og gerne ved 4K.

Tak for hukommelsen

Hvor meget er nok? Hvad med frekvenser?

Hukommelse er en integreret del af systemet, og den interagerer med cpu’en på en meget interessant måde. Den er et lynhurtigt og flygtigt lagermedie, der er beregnet til at rumme data, som brugeren skal have adgang til, hurtigere end det sker på ikkeflygtige drev. Og det sker, samtidig med at den håndterer filer, der er større end dem, der kan lagres lokalt i den interne cpu-cache.

Når det gælder processorer, kniber det for hukommelsen at skabe flaskehalse i systemet – bortset fra renderingsopgaver eller simulationer, der bygger på store data-mængder. De fleste dagligdags opgaver bearbejder ikke så store mængder data, at bussen mellem ddr og cpu bliver helt mættet, eller at hukommelsen er under 100 procent belastning hele tiden.

Man kan komme ud for flaskehalse under videorendering, hvor store mængder data og importerede videoklip bliver overført fra det ikkeflygtige lager til ddr og derfra til cpu og gpu. Men bortset fra det betyder hukommelseshastighed (i dette tilfælde hastighed), ganske lidt, i hvert fald i Intels tilfælde.

Hukommelsen er pc’ens faste ankerpunkt.

Infinity Fabric

AMD’s Ryzen-arkitektur drager nytte af større hukommelseshastigheder til stigninger i enkelt- og multikerneydelse, fordi det stof, der forbinder hver af Ryzens kerne-komplekser kører ved samme frekvens som selve hukommelsen. Det betyder, at jo højere hukommelseshastigheden er, desto hurtigere kører Infinity Fabric, og derfor kan hvert kernekompleks overføre data og instruktioner mellem de andre komplekser og kerner.

AMD’s Infinity Fabric lukrerer på hukommelse med højere frekvens.

Når det er sagt, får man ikke nødvendigvis noget ud af at øge hukommelsesfrekvensen med Ryzen-enheder – typisk vil alt over 3.200 MT/sek. på en cpu fra Ryzen 1000-serien ikke give yderligere forbedringer, mens Ryzen 2000-serien hæver denne grænse til 3.600 MT/sek.

Dual-Channel vs. Quad-Channel

Frekvens? Båndbredde? Dual- og quad-channel? Hvad foregår der? Maksimal ydelse består af en kombination af fire faktorer. Det drejer sig om den grundlæggende clockfrekvens, som hukommelsen kører ved, antallet af mulige dataoverførsler pr. clock (ddr står for double data rate), bredden af hver kanal eller hukommelsesbus (64 bit) og antallet af de kanaler, der bliver brugt til at overføre data til og fra cpu’en.

Lad os forestille os, at vi har et ram-sæt på 16 GB (2 x 8 GB) dual-channel-ddr4 med en basisfrekvens på 1.600 MHz. Vi kan foretage et regnestykke for at finde ud af, hvor megen hukommelses-båndbredde vi har. Vi tager de 1.600 (MHz), skriver dem i Hz (1.600.000.000) og ganger tallet med dataraten (2). Det giver 3.200.000.000, altså 3.200 MT/sek. (eller 3.200 MHz, hvis man arbejder med markedsføring).

Gang dette tal med 64 (bredden på hver kanal målt i bit), og gang resultatet med 2 (antallet af kanaler). Nu har vi det endelige tal for bit pr. sekund. Divider det med 8 for at få antallet af bytes, som er 51,2 GB/sek., der er den maksimale mængde data, som kan overføres til og fra dine hukommelses-moduler på et givet tidspunkt. I tilfælde af quad-channel skal du fordoble tallet.

Det vigtigste, du skal bemærke her, er, at uanset hvor mange blokke hukommelse du har installeret i dit system, kan cpu’en kun læse og skrive fra det antal kanaler, den understøtter på én gang. Ved mainstream-platforme er tallet to. Du kan sagtens have fire blokke installeret i et dualchannel-system, men i virkeligheden øger du blot maskinens maksimale hukommelses-kapacitet.

Det går ikke hurtigere, end hvis du blot kørte to. Når det gælder videoredigering, er større båndbredde altid godt, navnlig hvis du arbejder med 4K-video eller højere, fordi disse filer og frames ofte bliver lagret direkte i dram, og man kommer meget nemt til at skabe flaskehalse på den måde.

Grafik-flaskehalse

Den herlige vram, og sådan gør en gpu det, den skal

Hukommelse er også en afgørende komponent, når det gælder rendering af grafik – både med integrerede og dedikerede gpu’er. Det hele drejer sig om en frame-buffer. Kort sagt afhænger de gpu-kerner, man finder i både grafikkort og cpu’er, af en frame-buffer, der gemmer renderede teksturer, som man siden kan hente, når det er nødvendigt, og opnå hurtig og effektiv rendering og dermed stykke frames sammen i et spil.

Med en enkeltstående gpu har kortet sin egen dedikerede hukommelse, der er udviklet specifikt med henblik på denne opgave. Disse hukommelseschips kører typisk hurtigere end deres dram-slægtninge, og de har en bredere bus, der giver mulighed for, at en større mængde data kan passere igennem.

For eksempel har et Nvidia GTX 1080 en bus på 256-bit, og dets gddr5X-chips kører ved en grund-clockfrekvens på 5 GHz (eller 10 GT/sek.) og kan overføre data op til 320 GB/sek. til og fra den hukommelse, der er på selve grafikkortet. Og alt det foregår via en enkelt kanal (der er rygter om, at vi får dualchannel med gddr6).

Integreret grafik kører via et meget tilsvarende system, idet både Intels og AMD’s seneste APU’er omfatter meget mindre hukommelseskapacitet på cpu’ens integrerede gpu, og den fungerer på nøjagtig samme måde.

Det store problem for gpu’er opstår imidlertid, når den samlede dedikerede vram-lagerkapacitet bliver fyldt op. Det er ikke bussens bredde, der er problemet; sagen er snarere, at den totale kapacitet ikke er stor nok til at rumme alle de høj-definitions-teksturer og forud renderede frames, der skal til for at levere flydende renderede frames i det spil, man spiller.

I denne situation sender gpu’en eventuelle resterende teksturfiler over til traditionel dram, der er meget langsommere end sin vram-slægtning. Disse filer skal så overføres fra gpu’en til cpu’en og derefter til dram, før de igen kommer tilbage til det punkt, hvor der er brug for dem.

Dette øger cpu-belastningen, forsinker indlæsning af teksturer og forøger frame-latens, idet data skal gå tilbage til gpu’en via cpu’en. Det er her, man begynder at få sin hukommelses-flaskehals, og det er grunden til, at man sommetider ser gpu’er med kerner, der er i stand til at køre spil ved to separate opløsninger, og de omfatter ofte flere vram-konfigurationer.

Vram kører ved en langt højere frekvens og med en bredere bus end traditionel hukommelse.

Belastning og 4K

Når det gælder gpu-kerneydelse, spiller opløsning og frames per second en stor rolle i den generelle systembelastning. Man kan generelt sige, at jo højere ens framerate er, desto hårdere skal cpu’en arbejde for at bearbejde al den information effektivt. Resultatet er en større risiko for, at cpu’en bliver til en flaskehals i systemet.

Når opløsningen stiger fra 1080p til 4K, bliver belastningen overført til gpu’en, og grafikkernen bruger mere tid på at rendere hver scene (på grund af stigningen i antallet af pixel på 300 procent). Det fører til, at belastningen bliver ført væk fra cpu’en og over på gpu’en, og samtidig falder framerates, fordi gpu’en simpelthen ikke kan følge med.

Det er vigtigt at forstå, fordi en kombination af GTX 1080 Ti og Core i3-8100 fungerer sandsynligvis bedre ved 4K end ved 1080p, når det gælder flaskehalse.

Overkompensering

Hvis du har læst det ovenstående, bør du nu have en fornemmelse for, hvor vigtigt det er at købe den rette gpu til den opløsning, du ønsker at udnytte, og de spil, du vil spille. Hukommelse og gpu-kerner bliver typisk godt parret. For eksempel er et GTX 1060 i kombination med 3 GB vram mere end tilstrækkeligt til 80 procent af de mest moderne AAA-1080p-spil, mens 6 GB vram rækker til at fremtidssikre dig for de kommende fire år.

Og du kan lige akkurat få det til at slå til med 1440p. Det store problem rammer imidlertid dem, der punger ud til et GTX 1080 Ti for efter blot at spille ved 1080p. Medmindre man er fuldstændig besat af at spille first-person-skydespil ved 200 Hz og derover og med superlave latenstider, giver sådan et indkøb ikke megen mening fra et forbrugersynspunkt.

Selv hvis man mener, at man satser på at opnå en fremtidssikker beslutning, er realiteten den, at HD-teksturer næppe kommer til at nå 11 GB i størrelse i den nærmeste fremtid, og hvis de alligevel gør det, vil 1080p til den tid være en fuldstændig antikveret teknologi i sammenligning med fremtidens gpu’er og opløsninger. 4K flytter hovedparten af belastningen væk fra cpu’en og over på gpu’en.

Lagerproblemer

Dit valg af platform dikterer, om du kan køre et raid eller ej.

Lagerløsninger er det næste store nummer på vores liste over flaskehalsproblemer. Spørgsmålet lader sig mere eller mindre koge ned til de nyeste pci-e-ssd’er fra for eksempel Samsung. Her opstår der problemer, for dem, der er interesseret i at køre flere drev i raid 0.

Traditionelt har det været sådan, at når man vil have mere fart ud af systemet, er den indlysende metode at tage to harddiske – roterende skiver eller flash-ssd – og anbringe dem i et redundant array af uafhængige diske. Man ville tage de to drev og tvinge de sparede data til at blive opdelt i to halvdele og blive skrevet til begge drev samtidig. Så kunne man læse de oprindelige data fra begge drev på samme tid, hvilket fordoblede ydelsen. Til gengæld blev man lidt mere sårbar: Hvis et drev svigter, ryger halvdelen af ens data.

Threadrippers fornuftige holdning til raid 0-pci-e-ssd’er er velgørende.

Pci-e-SSD-RAID 0?

Det rejser det store spørgsmål: Kan man gøre det med ssd’er? Svaret er: Ja, teknisk set kan man, men man vinder ikke nogen ekstra ydelse ved det. I hvert fald ikke på de fleste mainstream-platforme. Problemet skyldes den måde, hvorpå både Intel og AMD har konfigureret brugen af deres chipsæt og lager-i/o, og det hele hænger sammen med pci-e-lane-forbindelserne. Lad os få det pakket ud.

Intels mainstream-platform drager fordel af det, der er kendt som et DMI (direct media interface). Kort fortalt er det en direkte forbindelse mellem cpu, PCH/chipsæt og i/o-lager i systemet (SATA, USB og M.2-ssd’er). Fra Z170 og fremefter har Intel brugt DMI 3.0, der består af fire pci-e 3.0-lanes. Det betyder, at det maksimale gennemløb fra chipsættet til cpu’en via DMI i øjeblikket er 3,93 GB/sek. (eller 3.930 MB/sek.).

Pludselig bliver det nemt at se, hvad der forårsager dine flaskehalse, når du kører to M.2 pci-e-ssd’er i raid 0. Der er simpelthen ikke båndbredde nok til at opnå en fordobling af ydelsen, sådan som man kunne med ssd’er og harddiske via SATA-interfacet og DMI 2.0 (maksimalt gennemløb omkring 2 GB/sek.).

AMD’s Ryzen-arkitektur håndterer sagerne anderledes. Forbindelsen mellem PCH og cpu kører faktisk kun fire pci-e 2.0-lanes, hvilket svarer til Intels oprindelige DMI 2.0, i modsætning til DMI 3.0’s fire pci-e 3.0.lanes, som vi ser i dag.

Systemet knytter sig til USB 3.1/0- og USB 2.0-enheder. Det hænger sammen med, at både Intels og AMD’s processorer reserverer 16 pci-e 3.0-lanes direkte til grafikløsninger. AMD reserverer også yderligere fire pci-e 3.0-lanes direkte til cpu’en for pci-e-ssd’er og SATA-drev, uden at der er noget mellemliggende chipsæt, der forøger latensen.

Når det er sagt, taler vi stadig kun om fire pci-e 3.0-lanes og om en maksimal overførselsrate mellem cpu og dens lager på 3.93 GB/sek., og det betyder, at der ikke er båndbredde nok.

Raid 0-support er begrænset afhængigt af platformen.

Hvad med den høje ende?

I den høje ende ændrer begge platforme tingene ganske dramatisk. Begge firmaer leverer processorer med stadig flere dedikerede pci-e 3.0-lanes (Intels dyreste chip tilbyder hele 44, mens Threadrippers samlede række omfatter i alt 64). Det er bestemt en mulighed at køre pci-e-ssd’er direkte fra cpu’en uden at skulle håndtere dem via chipsæt og DMI.

Intel har flere pci-e-lanes på sine chips, men indtil for ganske nylig har man ikke understøttet raid på pci-e-ssd’er. Med Skylake-X introducerede man VROC (Virtual Raid on CPU) for første gang. Det betød, at pci-e-ssd’er kunne bruge de direkte cpu-pci-e-lanes til teoretisk at udgøre et raid direkte på selve cpu’en. Vi skal imidlertid tage nogle forbehold her.

For det første skal man have en VROC-nøgle. Det er en fysisk dongle, som man slutter til bundkortet for at aktivere denne funktion. Den kan man ikke købe separat hos en officiel forhandler, fordi disse nøgler typisk kun bliver bundlet med specifikke bundkort og ssd’er (men man kan dog købe en hos en tredjepartsforhandler for cirka 100-150 dollars).

Og hvis man kommer over denne tærskel, kan man kun bruge Intel-ssd’er til VROC, hvilket begrænser en til Intels Optane 760P-ssd’er, der ikke netop er sindsoprivende, når det gælder lager.

AMD’s Threadripper-serie rummer hele 64 pci-e-lanes direkte på selve chippen, og det betyder, at man kan bruge raid, som man vil, direkte på cpu’en uden noget proprietært nonsens. Det er realistisk set den mest fornuftige platform, for her vil man se sekventielle hastigheder skyde i vejret.

Tid til test

Lad os fyre op under noget software og måske et regneark eller to for at finde ud af, nøjagtig hvor dine flaskehalse er.

CPU

Der findes nogle indlysende flaskehalse, som vi vil ignorere, fordi de er processor-begrænsninger. For eksempel nyder videoredigering gavn af flere kerner og højere enkeltkerne-IPC. Men den store synder skal vi finde i spil. Gå til www.cpuid.com, og download HWMonitor (undgå Pro-versionen), kør den, og minimer alt andet end sektionen “Utilization” for din processor og dit grafikkort.

Her kan du se alle dine threads og deres aktuelle minimum- og maksimumbrug plus din cpu-belastning. Indlæs din foretrukne gaming-benchmark (Unigine’s Superposition er et godt bud: https://benchmark.unigine.com), og gå så med Alt-Tab tilbage til HWMonitor.

Vælg rullemenuen “View”, og klik “Clear Min/Max”. Gå tilbage til din benchmark, og klik “Run.”
Vi er interesserede i, om din cpu-belastning er 100 procent over alle threads, mens gpu-belastningen ligger omkring 60-70 procent. Hvis det er tilfældet, bør du overveje at opgradere cpu’en til noget stærkere. Vi anbefaler som minimum en Intel Core i3-8100 eller en Ryzen 3 1300X.

HWMonitor er et vigtigt værktøj for enhver pc-junkie.

GPU

Den indlysende flaskehals med gpu’en skyldes mangel på kerneydelse til den opløsning, du vil spille ved. Man skal ramme omkring 40 fps for at få nogen fornøjelse af et spil. 60 fps er en fest, men det er ikke verdens undergang, hvis nogle titler ikke når så vidt – spillet bliver ikke pludselig uspille-ligt.

Der findes et væld af fremgangsmåder, når man vil se framerates i et spil. Nogle spil understøtter det som en funktion, men hvis det ikke er muligt, kan du downloade en prøveversion af Fraps (www.fraps.com), der omfatter et visuelt fps-overblik, som kan vise dig din framerate i hjørnet af skærmen.

Vi kan teste, om en mangel på vram giver flaskehalse i systemet, ved at bruge HWMonitor og det spil, der er problemer med. Hold HWMonitor åben med utilization-vinduerne fremme, og spil det pågældende spil. Hvis du kan se, at hukommelsen når et maksimum på 100 procent, kan du enten reducere teksturernes opløsning eller anskaffe en nyere gpu.

Fps-overblik i selve spillet gør det meget nemmere at afsløre problemer med ydelsen.

Ssd

Endelig er der alle mulighederne for ssd-flaskehalse. Desværre ligger landet sådan, at hvis man kører mere end et pci-e-ssd i noget, der ligner et raid 0-array, kan man ikke undgå flaskehalse i begge drev, samtidig med at risikoen for tab af data bliver større (medmindre man kører disse enheder med et Threadripper-bundkort og har gjort en stor indsats for at oprette et array til dem).

CrystalDiskMark er vores valg af benchmarking-software til denne udfordring, og den finder du på https://crystalmark.info. Download den seneste version af vores foretrukne ssd-benchmark, og kør så blot QD32 Sequential speed-testen på det pågældende drev eller array for at finde ud af, hvor hurtigt det kører.

Hvis du kører flere pci-e-drev på et mainstreamkort, kan det også være en god ide at tjekke, om alle dine M.2-slots kører i pci-e-tilstand og ikke SATA. Vi skulle jo nødig have, at et drev på 3.000 MB/sek. bliver begrænset til 550 MB/sek. på grund af SATA-interfacet.

Afgjort vores foretrukne ssd-testværktøj.

Casestudier

Lad os se på nogle maskiner, vi har konstrueret med åbenlyse svagheder.

Den gamle spiller

Ingredienser

Cpu: Intel Core i3-3240
Køling: Standard
Hukommelse: 8 GB (2 x 4 GB) ddr3 ved 1.600 MT/sek.
Gpu: 2 x GTX 970
Bundkort: Gigabyte GA-Z77X-UP5 TH
Ssd: 120 GB Samsung 840 Evo
Hdd: 1 TB Western Digital 7200 rpm
Psu: 550 W Corsair TX550M

Der er to større problemer her. Det første er de to GTX 970’er, der kører i SLI. Det tvinger gpu’erne til at fungere i pci-e x8-tilstand i modsætning til en fuldfed x16. Når man hertil lægger, at vi blot har en dual core-processor, vil de fleste spil allerede begynde at gispe efter vejret ved 1080p.

Gpu-løsningen er god nok til 1080p, men problemet knytter sig til den processor. Det ville give mening at opgradere bundkort og cpu til noget med flere kerner.

Det andet og måske mere alvorlige problem er strømforsyningen på 550 W. Den burde som standard trække omkring 450 W fra stikkontakten – selv med en dobbelt SLI-opsætning – men med et overskud på blot 100 W er vi ikke glade, hvis sagerne spidser til under ekstrem belastning. Det værst tænkelige scenario: Stømforsyningen ryger og tager andre komponenter med sig i graven. Bedst tænkeligt: Den nægter at være tændt under disse vilkår.

Den ivrige Professionelle

Ingre dienser

Cpu: AMD Ryzen 7 1700 ved 3,8 GHz
Køling: Standard
Hukommelse: 32 GB (2 x 16 GB) ddr4 ved 2.666 MT/sek.
Gpu: Nvidia GeForce GTX 1080
Bundkort: MSI X370 Gaming Pro Carbon AC
Ssd: 1 x 512 GB Samsung 970 Pro
Hdd: 1 x 1 TB Samsung 960 Evo
Psu: 700 W Be Quiet! Pure Power 10

I dette scenario har slutbrugeren taget en enkelt Ryzen 7 1700 og skruet den op til 3,8 GHz over alle 8 kerner og 16 threads. Det er fint – en 1700 kan sagtens håndtere den spænding og disse frekvenser. Det største problem her er imidlertid noget, vi ikke har været inde på endnu, nemlig “thermal throttling”, der er en meget specifik form for flaskehals.

Kort sagt: Når temperaturen bliver for høj, og processoren er stabil, begynder den omgående at downclocke sig selv for at sikre, at den ikke gør skade på det silicium, den rummer. Man tror måske, at den kører ved 3,8 GHz, og det kan også sagtens være tilfældet fra begyndelsen, men så snart man kommer ind i et spil eller kører nogle beregninger, falder frekvensen af sikkerhedsgrunde.

Hertil kommer, at denne maskine har flere pci-e-ssd’er installeret. Samsung 970 Pro til operativsystemet er direkte installeret på bundkortet og vil fungere fint med de fire dedikerede lanes, vi tidligere har været inde på. Problemet er det 1 TB 960 Evo. Nogle bundkortproducenter tillader, at man kører et ekstra pci-e-ssd i et M.2-slot, men man er som regel tvunget til at bruge hovedparten af de lanes, der forbinder PCH og cpu. I Ryzens tilfælde er det fire pci-e 2.0-lanes, hvilket betyder maksimale overførselstal på 2,0 GB/sek. Ikke godt.

Den hidsige Streamer

Ingredienser

Cpu: Intel Core i9-7900X ved 4,7 GHz
Køling: NZXT Kraken X72 360 mm AIO
Hukommelse: 8 GB (2 x 4 GB) ddr3 ved 1.600 MT/sek.
Gpu: Nvidia Titan Xp
Bundkort: Asus Prime X299 Deluxe
Ssd: 1 x 250 GB Samsung 960 Evo
Hdd: 1 x 1 TB Crucial BX300 2,5”
Psu: 1.200 W Corsair AX1200i

I vores sidste eksempel har vi en kombination, der kan give enhver it-journalist nervøse trækninger. Problemet er ikke umiddelbart indlysende, men det hele drejer sig om bundkortet og cpu’en i kombination med den heftige overclock.

Core i9-7900X bliver tilstrækkeligt kølet af en 360 mm AIO til en imponerende overclock på 4,7 GHz, men problemet knytter sig til VRM’erne på bundkortet. Der bliver sendt for megen spænding gennem dem, og køleren kan ikke levere tilstrækkelig køling. Kort sagt bliver bundkortet BIOS tvunget til at reducere spændingen for at holde temperaturen på et rimeligt niveau.

Cpu’en kan være specificeret til 4,8 GHz og køre med 100 procent udnyttelse, men den reelle ydelse kan i nogle tilfælde være endnu lavere end standardfrekvensen. Den bedste måde at afsløre det på består i at installere HWInfo og analysere VRM-temperaturerne.

Alt over 110 grader under belastning er dårligt nyt. Kør Cinebench R15 ved standard og derefter ved din overclock-indstillinger. Hvis du ser et fald i scoren uden et fald i brugen eller i den registrerede clockhastighed, ved du, at det er VRM’erne, det er galt med.

Der er to løsninger: Du kan enten skrue ned for spændingen eller satse på en stærkere køleløsning som direkte afkøler VRM’erne. EKWB og andre specialiserede producenter af væskekøling tilbyder komplette monoblokke til både VRM-erne og cpu’en på de fleste mainstream-bundkort.

Flaskehalsresultater

Hvordan påvirker forskellige opsætninger ydelsen?

Sådan har vi testet

Vi har naturligvis ikke en masse af den gamle hardware, vi nævner herunder. Derfor er meget af dette syntetisk, rå benchmarking, foretaget med en Core i7-8700K. Teorien er ret enkel: Vi fandt enkeltkerne-tal for vores gamle Cinebench R15 med alt helt tilbage til Sandy Bridge og ned-clockede denne Core i7-8700K til et punkt, hvor vi opnåede scorer, der svarede til de gamle processorer. Nået så vidt frakoblede vi et udvalg af kerner og/eller Hyper-Threading, afhængigt af konfigurationen for den enhed, vi prøvede at emulere på det tidspunkt.

Bortset fra det, omfattede vores testmaskiner 16 GB ddr4 til vores mainstream-platforme, der kørte ved 3.200 MT/sek., og 32 GB ddr4 til vores X399- og X299-raid-test. Vores foretrukne pci-e-ssd’er bestod af to Samsung 960 Pro 512 GB-ssd’er, der fungerede via bundkortets M.2-slots eller Asus’ ROG Zenith-adapter.

Hvad bundkort angår, foregik vores Intel-spil og raid-test med MSI’s Z370 Godlike Gaming. Til Ryzen-raid-test brugte vi vores nyere MSI X470 Gaming M7 AC. Til vores Intel-raid-test drog vi nytte af Asus Prime X299 Deluxe, og til Threadripper-raid-test brugte vi vores trofaste Asus X399 ROG Zenith Extreme i kombination med den medfølgende pci-e-ssd-adapter.

Alle spil blev testet ved Ultra-indstilling og med HD-teksturer. 3DMarks Sky Diver blev kørt ved standardindstillinger for 1080p og siden justeret til 4K med henblik på 4K-test. DNC-kørsler for vores Core i3-2120 i Assassin’s Creed: Origins havde at gøre med den måde, hvorpå benchmarken ydede.

Den gennemførte hver kørsel, men der var markant forsinkelse i indlæsning af teksturer, idet wire meshes og HD-teksturer var en evighed om at blive indlæst – hvis de da overhovedet blev indlæst. I takt med at scenerne blev mere komplekse, forekom der hakkende frames, og til trods for, at framerate forblev høj, var det tydeligt, at det ikke var sådan, den benchmark var beregnet til at blive kørt.