Artikel top billede

(Foto: Computerworld)

Computeren klipper fodboldkampe ned til to minutter

Nu skal computeren også redigere tv-udsendelser uden menneskelig indgriben. Allerede nu klippes fodboldtransmissioner ned til korte nyhedsindslag. Udgangspunktet er dog ikke billederne. Det er lyden.

Af Palle Vibe, Alt om Data

Denne artikel er oprindeligt bragt på Alt om Data. Computerworld overtog i november 2022 Alt om Data. Du kan læse mere om overtagelsen her.

Fodboldkampe er populært sportsstof over det meste af verden, og næsten alle tv-stationer sender sammendrag af de vigtigste kampe. Det er en dyr og tidskrævende opgave for sportsredaktørerne at klippe mange timers materiale ned til måske to minutters nyhedsindslag, og derfor er det ikke noget nyt, at man længe har prøvet at lade computere overtage dette arbejde. Indtil i dag er det kun lykkedes delvis uden menneskeligt mellemled. Men nu indtager computeren et nyt menneskeligt domæne og er klar til at håndtere hele den komplekse opgave.

Umiddelbart virker det måske ikke så svært at sammendrage to timers fodboldmatch til et to minutters-indslag. Men en fodboldkamp består jo af en række scener og skud i kronologisk rækkefølge med langt fra lige stor betydning. Samtidig veksles der uafladeligt mellem totalbilleder, halvnære billeder og nærbilleder. Så hvordan skal en computer kunne genkende og frasortere uinteressante totalbilleder med panorering, mens banestridigheder, særlige dommerkendelser og straffespark naturligvis skal høre blandt de centrale scener?

Nu er det imidlertid lykkedes den spanske professor Luis Torres og en forskningsgruppe under Universitat Politècnica de Catalunya i Barcelona – der jo i forvejen er en kendt by i fodboldsammenhæng – at udvikle et softwareprogram, der kan lave vellykkede fuldautomatiske sammendrag af timelange fodboldtransmissioner.

Det eneste, tv-produceren skal gøre, er at bestille længden af sammendraget og den procentvise fordeling af tiden, der skal gå til mål, forsvars- og angrebssituationer uden mål, offside-situationer, nærbilleder af spillere og publikum samt langsom gengivelse.

Ved kampe, hvor der slet ikke scores mål, er systemet i stand til at ændre den procentvise fordeling, så de mest interessante situationer får forholdsvis mere tid. I forhold til hidtidige forsøg er forskerne i det nye forskningsprojekt gået den helt modsatte vej og har taget udgangspunkt i lydsiden snarere end billedsiden.

Lyden signalerer højdepunkter

Ved at gennemgå snesevis af fodboldkampe fandt forskerne ved universitetet i Barcelona nemlig ud af, at lyden generelt er et langt bedre og sikrere pejlemærke, når det gælder om at kortlægge begivenhederne og afgøre, hvornår der er angreb, mål, eller der foregår andre interessante ting i kampen.

Programmet begynder derfor først med at analysere hele lydsiden og lydbilledets generelle wave-form: lydstyrke, grundfrekvens og særlige frekvenser. Det registrerer, når tilskuerlarmen stiger, og publikum sætter i med råb, tramp og klap måske yderligere ledsaget af trommer og tryklufthorn.

En hel central faktor i lyden er naturligvis dommerens fløjten. Og her fandt forskerne ud af, at dommerfløjten ofte både maskeres af publikums pift og også ofte varierer efter dommerens professionelle kunnen, humør, hovedretning og blæsestyrke. Det er altså ikke helt nok blot at lade computeren gå efter lyde med særlig intensitet inden for fløjtens frekvensspektrum, der hovedsagelig befinder sig mellem 3,5 og 4,5 kHz.

De spanske forskeres program indbefatter derfor også en database med eksempler på ti forskellige dommeres fløjtelyde, så programmet har noget at sammenligne med.

Der sker ikke noget i total

Programmet baserer sig ikke på lydsiden alene, men lyden giver et godt grundlag for at gå videre med at analysere billedsiden, hvilket er en betydeligt vanskeligere opgave. For i modsætning til fodboldlyd, der summer nogenlunde ensartet kampen igennem bortset fra stigning i lydstyrken under højdepunkter, er billedsiden af en fodboldkamp et virvar af billeder med vidt forskellig karakter. Og det gav forskerteamet en række markante udfordringer.

Den første udfordring var at dele hele transmissionen op i enkeltscener. Det er let nok for en computer at skelne de enkelte scener, når skiftene er skarpe og hurtige. Men moderne tv-teknik kan jo lave alle mulige former for overgange og gør det også for billedvariationens skyld. Det er dog relativt overkommeligt ud fra farvefordeling og komposition at skelne fodboldscener fra hinanden.

En nok så stor udfordring var det for forskerne at finde ud af, hvordan deres program generelt skulle skelne spændende scener fra mere uinteressante billeder? Heldigvis er der visse retningssnore.

Totalbilleder og panoreringer gengiver sjældent centrale begivenheder i en fodboldkamp, og computere kan i nogen grad genkende totalbilleder og andre kameraindstillinger ud fra mængden af grøn farve i billedet. Meget grøn farve (evt. sammen med meget små personskikkelser og knapt synlig bold) indikerer et totalbillede, der så både kan være stillestående eller del af en kamerapanorering. Halvtotale billeder kan også indeholde en stor procentvis del af grønt, men her vil den grønne farve være mindre ensartet, fordi kameraet opfanger flere detaljer i græsset.

Zoom og pludselige skift til halvtotal eller nærbillede af bold eller spillere indikerer derimod ofte, at der sker interessante begivenheder i kampen. Det var næste store udfordring for forskerholdet at skelne sådanne kendetegn.

Algoritmer afslører hjørnespark

Zoom kan detekteres ud fra den jævne forskydning af billedplanet, der optræder i zoomoptagelser, og særlige genkendelsesalgoritmer kan afsløre hoveder og skuldre i halvnære billeder, som det ofte ses umiddelbart før hjørnespark og lignende. I nærbilleder vil ansigter eller bolden som oftest være i fokus og kan detekteres af ansigtsgenkendelsessoftware.

I fodboldkampe kan også genkendelse af helt bestemte spillere komme på tale, hvilket stiller utrolige krav til genkendelsesalgoritmen, da fodboldspillere sjældent står særligt stille, men vrider kroppen, drejer ansigtet, ændrer mimik og springer rundt. Til gengæld er hurtige bevægelser i sig selv nemme for en computer at få hold på og er netop også ofte kendetegnende for spændende begivenheder.

Omvendt er gentagelse af spændende begivenheder, mål og målchancer, som tv-selskaberne ofte indsætter (i slowmotion), temmelig vanskelige at isolere. Heldigvis markeres sådanne ”replays” ofte af de enkelte tv-selskabers logo, men logoet kan fremkomme skarpt med det samme eller glide ind fra forskellige sider med varierende hastighed, og det skal programmet også kunne skelne.

Klar til sammendrag

Når programmet indledningsvis har udvalgt de mulige relevante scener, bliver de sorteret efter forskellige kriterier, der dog til en vis grad kan justeres ud fra redaktørens ønsker til indhold og varighed, for så til sidst at blive sat sammen i en korrekt kronologisk og logisk rækkefølge.

Det spanske autoediteringsprogram har foreløbig kunnet frembringe brugbare sammendrag i op til 90 procent af alle forsøg. Når det gælder genkendelse af slowmotion-gentagelser, er programmets succesrate for nuværende tæt på 100 procent, Det er en træfsikkerhed, der efter forskernes mening er så lovende, at programmet nu skal gøres klar til kommercialisering.