Datalähtöisen tieteen tekemisessä saa olla tarkkana

Juha Oksanen, osastonjohtaja, PaikkatietokeskusHelsingin Sanomat julkaisi 18.1.2019 jutun, jossa kerrottiin pääkaupunkiseudun väestön keskipisteen sijainnista. Toimittaja oli hienosti muokannut dekkarimuotoon, miten datankäsittelyn kömmähdykset korjattiin tapahtumavyyhdissä, jonka lopputulemana selvisi pääkaupunkiseudun Weberin piste. Sillä tarkoitetaan väestökeskipistettä, johon kaikkien pääkaupunkiseudun asukkaiden yhteenlaskettu linnuntie-etäisyys on pienin.

Luin 11. tammikuuta Hesarista jutun, jonka mukaan pääkaupunkiseudun väestön massakeskipiste sijaitsisi Helsingin Kannelmäessä, Sitratorilla. Ajattelin huvikseni testata muutaman minuutin työllä massakeskipisteen sijainnin, mutta se olikin aivan muualla. Jäimme tutkijakollega Ville Mäkisen kanssa ihmettelemään, missä piste oikeasti sijaitseekaan.

Alkuperäisestä uutisesta paljastui useita kömmähdyksiä. Massakeskipisteen laskentaan oli livahtanut mekaaninen virhe, mutta samalla selvisi, ettei oikeastaan massakeskipiste edes ole kiinnostava, vaan Weberin piste. HSY:n avoin väestötietoruutuaineisto sisälsi meillekin yllätyksiä. 30 000 henkeä oli sijoitettu merelle, mikä osaltaan vääristi keskipisteen laskennan. Selvitystyön tuloksena ilmeni, että aineiston metatietokuvauksista oli unohtunut maininta ylimääräisestä väestöruudusta, johon oli sijoitettu kaikki sellaiset henkilöt, joita ei voi yhdistää rakennukseen sekä laitoksissa asuvat henkilöt. Lopulta löysimme oikean pisteen Helsingin Metsälästä.

Harjoitus kävi hyvästä oppitunnista avoimien datojen oikeaan ja virheettömään käsittelyyn. Datatiede on haastava juttu, ja monta asiaa pitää olla hanskassa ennen kuin tuloksissa on mitään mieltä.

Juha Oksanen
Osastonjohtaja, Maanmittauslaitoksen Paikkatietokeskus

_______________________________________________________________________________________

Maanmittauslaitoksen blogissa eri kirjoittajat käsittelevät Maanmittauslaitoksen ajankohtaisia asioita. Voit keskustella aiheesta kirjoittamalla blogiin kommentin sivun alareunassa. Kommentit tarkistetaan ennen julkaisua.

Kommentit

Rajattu HTML

  • Sallitut HTML-tagit: <a href hreflang> <em> <strong> <cite> <blockquote cite> <code> <ul type> <ol start type> <li> <dl> <dt> <dd> <h2 id> <h3 id> <h4 id> <h5 id> <h6 id>
  • Rivit ja kappaleet päätetään automaattisesti.
  • Verkko- ja sähköpostiosoitteet muutetaan automaattisesti linkeiksi.

Uusimmat uutiset ja blogit