Tilastot testaamisen apuna

Osallistuin ALTE:n kielitaidon testaamisen peruskoulutukseen Lissabonissa 2.-6.9.2019 muutaman muun Testipisteen varahenkilön kanssa. Koulutus oli todella antoisa ja ajatuksia herättävä. Suomalaiset saivat aika ylpeänä istua muiden eurooppalaisten joukossa: Testipiste tekee hyvää ja laadukasta arviointityötä.  Yllättäen innostuin eniten tilastotieteestä ja sen annista testaamiselle. Mitä lingvisti voi saada tilastoista irti? Tässä muutama esimerkki.

Kielitaitotestit perustuvat sille ajatukselle, että on mahdollista kuvata yksilön kielitaitoa ja tehtävien vaikeustasoa valitulla asteikolla, saada siis sekä testin suorittajat että testitehtävät esim. eurooppalaisen viitekehyksen taitotasoasteikolle (EVK, CEFR= Common European Framework of Reference for Languages). Koulutuksessa tarkastelimme sitä, mitä tilastot voivat kertoa testikokonaisuudesta, yksittäisistä testitehtävistä, testintekijästä eli kandidaatista ja arvioijien tasalaatuisuudesta. 

Testikokonaisuuden tulisi olla juuri tarpeeseen sopiva. Tilastojen kautta voidaan pilotointivaiheessa katsoa, onko esim. joku tehtävä niin helppo, että kaikki onnistuvat siinä tai onko se liian vaikea kaikille. Ei ole aiheellista pitää mukana tehtäviä, jotka eivät erottele yksilöitä toisistaan. (The Discrimination Index) Entä korreloiko tehtävien vaikeustaso kandidaattien osaamisen kanssa? Jos esim. oletettu A2.1-tasoinen ryhmä ja B1.1-tasoinen ryhmä tekevät saman testin, onko A2.1-tason ryhmä järjestelmällisesti heikompi? (Point-Biseral Correlation)

Pilotointivaiheessa tilastojen avulla voidaan myös katsoa, suosiiko testi jotain ryhmää muiden kustannuksella. Kun vertaillaan tehtävistä suoriutumista eri muuttujien kautta (esim. ikäryhmä, sukupuoli, koulutustausta ja ensimmäinen vieras kieli), löytyykö datasta yllätyksiä? (DIF Analysis, Rasch) Onko joku kysymys esim. tiettyä vierasta kieltä osaaville helpompi vai voiko olla kyse jostain kulttuurisesta asiasta, jonka osa tietää ja muut eivät? Sitten on syytä pohtia, tulisiko tehtävää muuttaa tai poistaa se kokonaan.

Jos kyseessä ei ole suurten massojen testi, voi tehtävien tasalaatuisuutta tarkastella pilotoinnissa myös niin, että jakaa testitehtävät parittomiin ja parillisiin alusta alkaen. (Split half reliability) Sitten tarkastellaan seuraavia asioita: Kuinka paljon oikeita vastauksia kandidaatilla on yhteensä? Kuinka paljon oikeita vastauksia on parillisissa tehtävissä? Kuinka paljon oikeita vastauksia on parittomissa tehtävissä? Kuinka nämä tulokset korreloivat?

Testiä tekeviä kandidaatteja voidaan tarkastella monella tavalla. Joskus on tärkeää löytää testattujen joukosta kaikki, jotka ylittävät tietyn rajan, esim. kaikki B1.1-tason saavuttavat ovat kielitaidon puolesta tervetulleita paikkaan X. Tai on olennaista löytää testatuista viisi kielellisesti etevintä esim. työnhakutilanteessa rekrytoinnin seuraavaan vaiheeseen. Joskus on aiheellista nähdä, miten yksittäinen kandidaatti vertautuu muihin testattuihin.

Kaikki kielitaitoa arvioivat tietävät, että tuottamisen tehtävien (puhuminen ja kirjoittaminen) arvioiminen on vaikeaa ja hyvistä kriteereistä huolimatta aina tulkinnanvaraista. Arvioijien antamien taitotasojen korrelaation pohtiminen kirpaisee, mutta se on todella tärkeää. Kun neljä henkeä arvioi samaa kirjoittamisen tehtävää ja linja ei ole 100% sama, alkaa neuvottelu: Miten perustelet, että se on B1.1, kun mielestäni teksti on B1.2? Kun katsotaan suurempia määriä, esim. neljä arvioijaa arvioi samat 15 tekstiä, voi niistä jo vähän katsoa linjaa: kuka on lepsu, kuka on tiukkis, kuka on häilyväinen? Tällaista pienimuotoista tilastointia voi tehdä omalla työpaikalla, mikäli kollegat lähtevät siihen mukaan ja aikaa löytyy. Puhumisen ristiinarviointi on vielä vaikeampaa, sillä harvoin on videomateriaalia tarjolla. Vai riittääkö nauhurin todisteet? Miten nonverbaali viestintä testitilanteessa vaikuttaa arviointiin?

Tilastollisen tarkastelun avulla voidaan saada näkyviin asioita, jotka muuten jäisivät piiloon. Tilastot antavat testin pilotointivaiheessa tai myöhemmin varsinaisen testauksen kuluessa diagnostista informaatiota ja luotettavaa dataa, joiden myötä testiä ja arviointia voidaan kehittää aina paremmaksi.

Leena Vepsäläinen

ALTE Introductory Course in Language Testing 2nd – 6th Semtember 2019, University of Lisbon Incubator, Lisbon, Portugal


Vastaa

Täytä tietosi alle tai klikkaa kuvaketta kirjautuaksesi sisään:

WordPress.com-logo

Olet kommentoimassa WordPress.com -tilin nimissä. Log Out /  Muuta )

Google photo

Olet kommentoimassa Google -tilin nimissä. Log Out /  Muuta )

Twitter-kuva

Olet kommentoimassa Twitter -tilin nimissä. Log Out /  Muuta )

Facebook-kuva

Olet kommentoimassa Facebook -tilin nimissä. Log Out /  Muuta )

Muodostetaan yhteyttä palveluun %s