Datan esikäsittely ja ETL-putkien suunnittelu
Kanto, Pasi (2022)
Kanto, Pasi
2022
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2022052511919
https://urn.fi/URN:NBN:fi:amk-2022052511919
Tiivistelmä
Opinnäytetyön keskeisin tavoite on lyhyesti havainnollistaa mitä vaiheita kuuluu datan esiprosessointiin aina datan hankinnasta sen tallentamiseksi tietokantaan. Nykyisin monet päätökset perustuvat suurelta osin jo hankittuun dataan ja siitä tehtäviin johtopäätöksiin, kuten lainat ja vakuutuspäätökset. Se, onko tuo data kuinka tarkkaa ja puhdasta, perustuu suurelta osin juuri esikäsittelyyn ja sen tallentamiseen oikein.
Tavoitteena on asian perusperiaatteiden tutkiminen teoreettisesta näkökulmasta ja käyttää esimerkkinä kuvitteellista tietokantaa, johon on tallennettu jäsenneltyä ja puhdistettua dataa.
Esimerkkinä käytetty omaa pientä projektia, jonka tarkoitus oli sekä havainnollistaa tekniikan mahdollisuudet mutta samalla tuoda esiin haasteet, jotka se tuo mukanaan. Projektissa on tarkoitus selvittää, onko VR:n junat aina myöhässä ja kuinka paljon ne tuolloin ovat myöhässä. Suomen junaliikenne on runsasta koko maassa, joten aiheen rajaamiseksi valitsin kaupungeista Helsingin.
Tavoitteena on asian perusperiaatteiden tutkiminen teoreettisesta näkökulmasta ja käyttää esimerkkinä kuvitteellista tietokantaa, johon on tallennettu jäsenneltyä ja puhdistettua dataa.
Esimerkkinä käytetty omaa pientä projektia, jonka tarkoitus oli sekä havainnollistaa tekniikan mahdollisuudet mutta samalla tuoda esiin haasteet, jotka se tuo mukanaan. Projektissa on tarkoitus selvittää, onko VR:n junat aina myöhässä ja kuinka paljon ne tuolloin ovat myöhässä. Suomen junaliikenne on runsasta koko maassa, joten aiheen rajaamiseksi valitsin kaupungeista Helsingin.