Ottelukohtaista dataa on liikaa ja liian vähän: Kuka siitä selviää?
Jokainen on erilaisilta ja eritasoisilta nettisivuilta havainnut, että dataa on nykyään tarjolla paljon ja usein aivan ilmaiseksi.
Jopa ylimmällä sarjatasolla pelaavat seurat voivat nykyään scoutata pelaajia – hieman provosoivasti todeten – sellaisella sapluunalla, että seura ja joukkue tarvitsee vasemman laitapakin, jolla on vasen jalka, jonka yksi yhtä vastaan onnistumisprosentti on yli 70 juuri tuolla pelipaikalla, joka on alle 23-vuotias, jolla on yli 100 pääsarjatson ottelua ja "jolla on siniset silmä" (viimeksi mainittu oli sitä saraksmia).
Joka tapauksessa tietoa on niin paljon tarjolla, että sen hallitseminen on vaikeaa tai usein jopa mahdotonta.
Mitä koneoppiminen on?
Koneoppiminen on yksi tekoälyn osa-alueista, jossa tietokone opetetaan tunnistamaan malleja ja tekemään päätelmiä datan perusteella ilman, että sille määritellään jokaista sääntöä käsin. Kyse on siis järjestelmistä, jotka parantavat suoritustaan kokemuksen kautta – aivan kuten ihminen oppii, harjoittelemalla. Koneoppiminen on jo osa arkeamme: se suosittelee musiikkia, suodattaa roskapostia, tunnistaa puhetta ja auttaa tekemään ennusteita vaikkapa säästä tai talouskehityksestä.
Viime vuosina koneoppiminen on löytänyt tiensä myös urheiluanalyyseihin, erityisesti jalkapalloon. Jalkapallo-otteluiden ennustaminen on perinteisesti pohjautunut asiantuntijanäkemykseen, tilastoihin ja kokemukseen.
Koneoppiminen tuo tähän uuden ulottuvuuden, koska se kykenee käsittelemään valtavia tietomääriä, löytämään monimutkaisia riippuvuuksia ja päivittämään itsensä jatkuvasti uuden datan perusteella.
Koneoppimisen kolme päätyyppiä
Koneoppiminen voidaan yleisesti jakaa kolmeen päätyyppiin:
1. Opetettu oppiminen (supervised learning): Tässä menetelmässä algoritmille annetaan valmiiksi merkittyä dataa – esimerkiksi ottelutuloksia ja niihin liittyviä tilastoja. Malli harjoittelee löytämään yhteydet syötteiden (kuten laukauksien määrä, syöttötarkkuus, odotetut maalit) ja tavoitteiden (ottelun lopputulos) välillä.
2. Opettamaton oppiminen (unsupervised learning): Tavoitteena on löytää datasta piileviä rakenteita ilman valmiita vastauksia. Jalkapallossa tätä voidaan käyttää esimerkiksi joukkueiden pelityylien tai pelaajaprofiilien klusterointiin.
3. Vahvistusoppiminen (reinforcement learning): Algoritmi oppii tekemällä päätöksiä ja saamalla palautetta palkintojen ja rangaistusten muodossa. Jalkapalloanalytiikassa tätä voidaan soveltaa esimerkiksi ottelustrategioiden simulointiin.
Koneoppimisen voima perustuu sen kykyyn käsitellä laajoja ja monimutkaisia tietokokonaisuuksia – jotain, mikä on ihmiselle vaikeaa tai käytännössä mahdotonta.
Miksi koneoppiminen sopii jalkapalloon?
Jalkapallo on nopeatempoinen ja muuttuva peli. Ottelun lopputulokseen vaikuttavat taktiset ratkaisut, pelaajien kunto, sääolosuhteet ja jopa psykologiset tekijät.
Koneoppimisen vahvuus on, että se pystyy analysoimaan lukemattomia muuttujia samanaikaisesti ja etsimään yhteyksiä, joita ihminen ei välttämättä huomaa.
Koneoppimisen keskeiset hyödyt
1. Suurtietomäärien hyödyntäminen: Algoritmit voivat analysoida vuosien dataa – ei vain tuloksia, vaan myös syöttöverkostoja, laukaisukarttoja, juoksunopeuksia ja pelaajien sijainteja kentällä.
2. Parempi ennustustarkkuus: Koneoppimismallit, kuten gradient boosting -menetelmät tai neuroverkot, pystyvät usein ennustamaan otteluiden lopputuloksia tarkemmin kuin perinteiset tilastolliset menetelmät.
3. Dynaamisuus: Malli voidaan päivittää jatkuvasti uusilla ottelutiedoilla, mikä tekee ennusteista ajan tasalla olevia.
4. Mahdollisuus simuloida vaihtoehtoisia skenaarioita: Koneoppimisen avulla voidaan pohtia esimerkiksi: miten loukkaantuminen vaikuttaa joukkueen tasapainoon, miten uusi valmentaja muuttaa pelityyliä, miten eri taktiikat todennäköisesti toimivat.
Mitä dataa mallit käyttävät?
Ennustemallien suoritus riippuu paljon siitä, millaista dataa niille syötetään. Jalkapallon kohdalla käytettävissä voi olla esimerkiksi:
Ottelukohtaisia tilastoja: Tehdyt ja päästetyt maalit, laukaukset, maalipaikat, xG (expected goals), syöttöjen määrä ja tarkkuus, pallonhallinta, taklaukset ja pallonriistot jne.
Kausikohtaisia joukkue- ja pelaajatilastoja: Joukkueen keskimääräinen xG, pelaajien kunnossaolo ja loukkaantumiset, varoitukset ja pelikiellot, pelityylin intensiteetti (pressing, pallonhallintaan perustuva tai vastahyökkäyksiin nojaava) jne.
Konferenssikohtaisia tai ulkoisia muuttujia: Ottelupaikka (koti vs. vieras), sääolosuhteet, ottelun tärkeys (derby, cup-finaali) jne.
Koneoppimisen rajoitukset jalkapallossa
Vaikka koneoppiminen on voimakas työkalu, siihen liittyy myös rajoitteita:
Jalkapallo on kaoottinen peli: Yksittäinen onnenkantamoinen – kuten helppo virhe tai tuomaripäätös – voi muuttaa ottelun kulun täysin.
Datan laatu vaihtelee: Erityisesti alemmissa sarjoissa tilastot saattavat olla puutteellisia.
Ylianalysointi: Liian monimutkaiset mallit voivat oppia datan melun, eivät todellisia ilmiöitä.
Ennuste ei ole varma lopputulos: Koneoppiminen tarjoaa todennäköisyyksiä, ei varmuuksia. 60 %:n todennäköinen lopputulos voi silti tapahtua vain vaikka 30 kertaa sadasta!
Teknologia ja urheilu kohtaavat
Koneoppiminen tarjoaa jalkapalloanalytiikkaan uusia mahdollisuuksia – ennusteista tulee tarkempia, monipuolisempia ja paremmin perusteltuja. Vaikka täydellistä ennustetta ei ole olemassa, koneoppimisen avulla voidaan tunnistaa trendejä ja todennäköisyyksiä, jotka auttavat valmentajia, analyytikoita ja jopa vedonlyöjiä tekemään parempia päätöksiä.
Koneoppiminen ei korvaa ihmisasiantuntijan näkemystä, mutta se täydentää sitä. Jatkossa sen rooli jalkapallon analysoinnissa vain kasvaa, kun dataa kertyy enemmän ja mallit kehittyvät.
Kyse on matkasta, jossa teknologia ja urheilu kohtaavat – ja tuloksena syntyy uudenlaista ymmärrystä maailman suosituimmasta pelistä.

