Nu lærer computeren selv at spille skak

Nu lærer computeren selv at spille skak

Share

Skakverden var i chok, da det sidste år tog en Google-finansieret skakcomputer fire timer at blive verdens bedste i det ædle tankespil. Her fortæller vi, hvordan det kunne lade sig gøre, og tager dig med ud i skakcomputernes verdenshistorie     

Et chok bredte sig i den internationale skakverden, da det britiske Google-firma Deepmind i december 2017 præsenterede AlphaZero. Den danske stormester i skak Peter Heine Nielsen, der træner den norske verdensmester Magnus Carlsen, udtalte, at ”det er det mest fascinerende og skræmmende, jeg har set.”

Det er dog ikke nyt, at et computerprogram spiller fremragende skak. Det er over tyve år siden, at IBM Deep Blue slog Garry Kasparov. Den store forskel fra dengang til nu er udviklingen af kunstig intelligens.

Deep Blue var først og fremmest en programmeringsmæssig præstation. Taktikken var baseret på træk, der oprindeligt var udtænkt af mennesker – helt præcist 700.000 kampe mellem stormestre. AlphaZero, derimod, er ikke blevet fodret med andet end reglerne for skak og har selv eksperimenteret sig frem ved at spille mod sig selv.

Og så er der det med hastigheden. Det tog fire timer for AlphaZero at træne sig selv til at blive bedre end det hidtil stærkeste skakprogram, Stockfish. Det tog 10 år at programmere Deep Blues efterfølger Deep Junior. Inden for det samme døgn lærte AlphaZero sig selv at blive verdens bedste både til skak, Go og det japanske skak-lignende brætspil shogi.

Se også:  Kunstig intelligens beskytter chefens e-mail mod hackere
Kunstig intelligens i stor skala

Lars Kai Hansen, der er professor ved DTU Compute og ekspert i kognitive systemer, fortæller, at AlphaZero egentlig ikke er anderledes end anden kunstig intelligens, vi ser i dag.

”Men det foregår på en meget stor skala, både økonomisk og computermæssigt, derved adskiller den sig fra tidligere resultater.”

Men hvorfor bruge så mange kræfter på at udvikle en skakcomputer? Lars Kai Hansen ser først og fremmest sociale perspektiver i udviklingen.

”Der er række områder i samfundet, hvor det enten er for dyrt eller besværligt at lave høj grad af konventionel personlig service. For eksempel inden for sundhed, økonomi eller uddannelse, hvor velhavende mennesker kan få meget bedre rådgivning og service. Der ville AI kunne give bredere adgang til detaljerede og personlige råd.”

”Selvom det er for eksempel sundhed, der er målet for AI-forskning, bliver forskningen ofte anvendt inden for meget simplere domæner som spil. Simpelthen fordi man her kan se generelle intelligensproblemer udlevet i enkle omgivelser. Det kan være problemstillinger som f.eks. afvejning af nysgerrighed og grådighed, eller om det kan betale sig at tage et kortsigtet tab for at opnå en langsigtet gevinst. Man forestiller sig at, når det principielle er forstået ved hjælp af spillene, kan vi gå videre til at se på de mere alvorlige samfundsproblemer,” siger Lars Kai Hansen.

Se også:  Sony Xperia XZ3 [TEST]: Afsindig lækker skærm i Sonys slanke topmobil
En slags intuition

Det mest bemærkelsesværdige ved DeepAlpha er den måde, som den spiller skak på. Den laver ikke flere beregninger end andre programmer. Tværtimod. Til gengæld har maskinen tilsyneladende udviklet en form for intuition, som er helt anderledes end menneskers.

Programmet laver engang imellem nogle tilsyneladende vanvittige ofre som at tilbyde et tårn og en dronning for at udnytte en positionel fordel – og vinder. I et andet tilfælde flyttede programmet sin dronning til hjørnet af brættet med en overraskende positionsværdi.

Men hvordan virker den? Først og fremmest er AlphaZero baseret på ekstrem stærk
computerkraft. Den bruger 5000 første-generations-TPU’er til at generere spil og 64 andengenerations-TPU’er til at træne de neurale netværk.

Men den beregner ikke flere stillinger end sine modstandere. Stockfish undersøger cirka 70 millioner stillinger pr. sekund, mens AlphaZero undersøger ca. 80.000 pr. sekund, altså næsten 1000 gange færre stillinger.

Det er nøjagtig som med de bedste menne-skelige spillere, der som regel beregner færre variationer end svagere spillere. I stedet bruger de deres stærke intuition til at fokusere på de mest relevante linjer i spillet. Det virker, som om computeren udviklede en tilsvarende intuition. Men hvordan det?

Google købte DeepMind i 2014. London-selskabet bag AlphaZero udvikler spilalgoritmer.

Del denne