Sosiaalinen media tarjoaa aineistoa liikkumisen tutkimukseen

Artikkelin pdf-versio

Positio 4/2017 sisällysluettelo

Kirjoittajat: Tuuli Toivonen, Vuokko Heikinheimo, Tuomo Hiippala, Henrikki Tenkanen

Kuvassa Pallas-Yllästunturin kansallispuiston kävijöiden vierailua edeltävät postaukset Instagramissa

Kuvassa Pallas-Yllästunturin kansallispuiston kävijöiden vierailua edeltävät postaukset Instagramissa. Kuva: Henrikki Tenkanen.

Facebookia käyttää 1,9 miljardia ihmistä eli yli neljännes maailman väestöstä. Twitterin kautta maailmalle leviää ympäri vuorokauden 350 000 viestiä minuutissa. Tähän viestitulvaan mahtuu paljon kohinaa, mutta voiko siitä saada myös materiaalia maantieteelliseen tutkimukseen? Helsingin yliopiston Digital Geography Lab –tutkimusryhmä tutkii sosiaalisen median datan käytettävyyttä. 

Monet sosiaalisen median alustat tarjoavat mahdollisuuden kerätä avoimesti jaettuja päivityksiä ohjelmointirajapinnan kautta. Yhteisö- ja mikroblogipalvelu Twitterin rajapinnan kautta voi poimia talteen noin prosentin suuruisen näytteen palveluun jaetuista tekstipohjaisista viesteistä eli tviiteistä reaaliaikaisesti. Kuvapalvelu Flickrin rajapinnasta voi kysellä tietoja koko palvelun historian ajalta.

Facebook ja Instagram eivät salli sisällön louhintaa ilman sovellusta, jonka kautta käyttäjät voivat antaa luvan tietojensa tarkasteluun. Julkisesti jaettujen Instagram-päivitysten tietoja pystyi louhimaan sovelluksen rajapinnasta kesään 2016 asti, ja näitä aineistoja on myös hyödynnetty tutkimuksen lähteenä.

Somedatalla on selkeä rakenne

Vaikka ihmisten sosiaalisen median alustoille jakama sisältö onkin usein luonteeltaan hajanaista, on rajapinnoista kerättävissä olevalla datalla kuitenkin selkeä rakenne. Päivityksiin liittyy yleensä aikaleima päiväysajankohdasta, tieto käyttäjästä, varsinainen sisältö kuvana tai tekstinä, vapaa teksti, aihetunnisteet, hymiöt ja linkit) sekä muiden käyttäjien tykkäykset ja kommentit.  Käyttäjä voi myös halutessaan lisätä julkaisuun tietoa sijainnista geotagien avulla. Geotageilla rikastetut viestit ovat pohjimmiltaan tavallista paikkatietoa: Niillä on sijaintitieto koordinaattiparina ja joukko ominaisuustietoja eri muodoissa (teksti, kuva, video, tykkäykset, jne.).

Esimerkiksi matkapuhelinaineistoihin verrattuna sosiaalisen median datat ovat monipuolisia mutta hajanaisempia sisällöltään. Sosiaalisen median aineistoissa paikkatietoon linkittyy paljon muuta tietoa, joka voi auttaa ymmärtämään esimerkiksi ketkä ovat käyneet tietyssä paikassa ja tuottaneet siihen liittyvää sisältöä, mitä he ovat tehneet, mikä on tuonut heidät kohteeseen tai mitä he siitä ajattelevat.

Koneoppimisen myötä automaattinen sisällönanalyysi kehittyy vauhdilla ja sallii aivan uudenlaisen tiedontuotannon sosiaalisen median sisällön pohjalta. Käyttäjätietojen kautta eri julkaisuja ja niiden sijainteja voidaan yhdistää reiteiksi ja paikkojen välisiksi yhteyksiksi. Käyttäjätilien tiedot seuraajista ja tykkääjistään antavat tietoa sosiaalisista verkostoista.

Kansallispuistot tutkimuslaboratorioina

Helsingin yliopiston Geotieteiden ja maantieteen laitoksella toimiva monitieteinen Digital Geography Lab hyödyntää sosiaalisen median aineistoja ihmisten liikkumisen ja alueiden käytön tutkimuksessa. Pyrkimyksenä on myös verrata sosiaalisen media aineistoja muilla tavoin tuotettuun tietoon.

Kansallispuistot Suomessa ja Etelä-Afrikassa ovat tarjonneet tutkimukseen erityisen hyvän kokeiluympäristön. Kansallispuisto-organisaatioiden (Metsähallitus ja South African National Parks) kanssa tehty yhteistyö on tuonut pääsyn kansallispuistoissa tehtyihin kävijälaskentoihin ja kävijöiden haastattelututkimuksiin. Lisäksi kyselytutkimusten avulla on selvitetty miten ihmiset käyttävät sosiaalista mediaa kansallispuistovierailun aikana.

Yhteensä 56 puistossa tehdyn vertailun tuloksista selviää esimerkiksi, että sosiaalisen median aktiivisuus puistoissa paljastaa puistojen suosituimmuuden melko hyvin. Myös kuukausittainen todellinen kävijämäärävaihtelu on havaittavissa sosiaalisen median datasta, erityisesti niistä puistoista, joissa on runsaasti kävijöitä. Sosiaalisen median aineistot voivatkin tuottaa kiinnostavaa tukitietoa kansallispuistojen toiminnan suunnitteluun.

Etelä-Afrikkalaisessa Krugerissa ja Suomessa Pallas-Yllästunturin kansallispuistossa tehdyt tarkemmat sisältövertailut kertovat sosiaalisen median datan voimasta: haastatteluissa vierailuun kohdistuvat toiveet näkyvät myös toteutuneissa postauksissa ja kävijätutkimuksissa suosituimmiksi mainitut aktiviteetit ovat eniten kuvattuja sosiaalisessa mediassa. Toisaalta, jatkuvasti päivittyvä sosiaalisen median virta paljastaa myös sellaista, mitä kyselyt eivät tavoita: vaikkapa läskipyöräilyn suosion nousun tai leijalautailun paikat Pallas-Ylläksellä.

Vinoumia ja vastuullisuutta

Sosiaalisen median aineistot eivät kuitenkaan edusta koko väestöä tai alueen vierailijakuntaa, kuten käy ilmi Suomen ja Etelä-Afrikan kansallispuistovertailuista: nuoret ja naiset käyttävät sosiaalista mediaa enemmän kuin miehet ja vanhempi kävijäkunta. Vinoumaa on myös maantieteellisesti. Facebook on suosittu maailmanlaajuisesti ja Twitteriä ja Instagramiakin käytetään laajasti.

Alueellisesti erittäin suosittuja alustoja on useita: Kiinassa sosiaalisen median käyttö kanavoituu Weibo ja QQ-palveluihin, venäjänkielinen maailma puolestaan käyttää VK (ent. VKontakte) -sivustoa. Alueellisten erojen lisäksi aineistoissa on epätarkkuuksia paikannukseen liittyen. Esimerkiksi Instagramissa geotageilla varustetut julkaisut paikantuvat ennalta nimettyjen paikkamerkintöjen mukaan tarkemman GPS-sijainnin sijasta. Tämä toisaalta auttaa suojelemaan käyttäjien yksityisyyttä.

Ihmiset tekevät lisäksi virheitä paikkoja valitessaan tai postaavat sisältöjä viiveellä, mikä aiheuttaa virhettä sijaintitietoihin. Lisäksi hienot kokemukset ylikorostuvat sosiaalisessa mediassa arjen ja tavallisuuden kustannuksella. Kaikki nämä rajoitteet on otettava huomioon aineistoja tulkittaessa. Myös tulosten varmentaminen toisia aineistoja vasten on välttämätöntä vääristymien ymmärtämiseksi. Sosiaalisen median aineistojen käyttö tutkimuksessa ja muussa käytössä vaatii vastuullisuutta muutenkin. Vaikka tutkimusdatana olisi avoimesti jaetut päivitykset, on ihmisten yksityisyyttä kunnioitettava aineistoja yhdisteltäessä ja tutkimusten tuloksista raportoitaessa.

Asiantuntemusta monelta alalta 

Sosiaalisen median aineistoja on käytetty tutkimuksessa jo jonkin aikaa monilla eri aloilla. Sosiaalisen median keskustelupalstat avaavat uusia näkymiä ihmismieleen sosiologeille ja ihmistieteilijöille. Maantieteellisessä tutkimuksessakin monenlaista on jo tehty geotagattujen sisältöjen perusteella.

Sosiaalisen median aineistojen hyödyntäminen tutkimuksessa sujuu sutjakimmin, kun käytettävissä on asiantuntemusta monelta alalta: datan tehokkaaseen louhintaan on oltava tietojenkäsittelytieteen taustaa, sisältöanalyysissä kielitieteilijä on ehdoton valtti, ja alueellisesti mielenkiintoisiin tutkimuskysymyksiin tarvitaan substanssiosaajaa.

Digital Geography Labissä työtä tehdään rinnakkaisissa hankkeissa. Kansallispuistojen lisäksi sosiaalista mediaa käytetään kaupunkialueiden käytön ja turismin tutkimuksessa, rajat ylittävän liikkumisen ymmärtämisessä, liikkumiseen (erityisesti pyöräilyyn) liittyvien asenteiden selvittämisessä ja jopa uhanalaisten eläinten salakuljetusta ja kauppaa tutkittaessa.

 

Automaattinen sisällönanalyysi kehittyy vauhdilla

Sosiaalisen median sisältö yhdistelee useita eri ilmaisukeinoja, kuten kirjoitettua kieltä, emoji-symboleita, liikkuvaa kuvaa, ääntä ja valokuvia. Viime vuosina näiden ilmaisukeinojen automaattinen analyysi on harpannut eteenpäin koneoppimisessa saavutettujen läpimurtojen ansiosta. Tämä tekoälytutkimuksen osa-alue kehittää menetelmiä, joiden avulla koneet oppivat itsenäisesti suorittamaan erilaisia tehtäviä, kuten tunnistamaan kuvassa esiintyviä objekteja, litteroimaan puhetta tai määrittelemään viestin sävyn. Sosiaalisen median analyysissa koneoppimisen tarjoamat laskennalliset menetelmät mahdollistavat suurien tietomassojen sisällön automaattisen tarkastelun.

Syväoppiminen (engl. deep learning) on koneoppimisen osa-alue. Se soveltaa oppimiseen neuroverkkoja, joiden rakenne ja toiminta perustuvat löyhästi ihmisaivojen toimintaan. Neuroverkkojen rakenne mukautuu niille osoitetun tehtävän perusteella. Ensimmäinen neuroverkko etsii kuvasta mahdollisia kohteita, jotka on rajattu suorakulmioin. Toinen neuroverkko käyttää näitä kohteita syötteinä ja luo niiden sisällöstä numeerisen representaation. Kolmas neuroverkko luo jokaisen representaation pohjalta kyseistä osiota kuvailevan tekstin. Tämänkaltaisen menetelmän avulla valokuvan sisällöstä voidaan irrottaa sekä liikkumiseen että ympäristöön liittyvää tietoa.

Neuroverkot voivat oppia suorittamaan monenlaisia tehtäviä, mutta tehtävien oppiminen vaatii suuren määrän opetusaineistoa. Esimerkiksi kuvien luokitteluun käytettävän neuroverkon opettaminen vaatii satoja tai jopa tuhansia esimerkkejä jokaista luokkaa kohti. Opetusaineistojen laatiminen vaatii edelleen ihmisen työpanosta: tarvittavan aineiston määrän takia joukkoistamisesta on tullut tärkeä osa tekoälyn tutkimusta. 

 

Tuuli Toivonen on geoinformatiikan apulaisprofessori, joka vetää Digital Geography Labia ja useita saavutettavuuteen, liikkumiseen ja sosiaalisen median käyttöön liittyviä hankkeita ryhmässä.

Vuokko Heikinheimo on väitöskirjatutkija, joka tutkii sosiaalisen median datan ominaisuuksia erityisesti viheralueiden käytön ymmärtämisessä kansallispuistoista kaupunkipuistoihin.

Tuomo Hiippala on Helsingin yliopiston Nykykielten laitokselta väitellyt kielitieteilijä, joka tutkii tekoälyn soveltamista sosiaalisen median aineistojen analyysiin.  

Henrikki Tenkanen on tuore filosofian tohtori. Hän tutki väitöskirjassaan muun muassa sosiaalisen median aineistojen käyttöä alueellisissa analyyseissä.

Sähköpostit: etunimi.sukunimi@helsinki.fi

Katso lisää hankkeista ja tieteellisistä julkaisuista osoitteessa: www.helsinki.fi/digital-geography