Big data arkkitehtuurit ja teknologiat
Haatanen, Miikka (2016)
Haatanen, Miikka
Jyväskylän ammattikorkeakoulu
2016
All rights reserved
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2016121921038
https://urn.fi/URN:NBN:fi:amk-2016121921038
Tiivistelmä
Opinnäytetyön tavoitteena oli tutustua big datan arkkitehtuuriin ja sen taustalla toimiviin teknologioihin. Lisäksi tavoitteena oli pystyttää kolmen noden Hadoop-klusteri ja testata sen toimintaa.
Big dataa kuvaa parhaiten kolmen v-kirjaimen yhdistelmä: volyymi, vauhti ja vaihtelevuus.
Ne kuvastavat hyvin miten erilaista dataa nykyään tuotetaan ja kuinka paljon sitä kertyy.
Tulevaisuudessa datan määrä tulee moninkertaistumaan, joten big data alkaa ilmiönä viimeistään nyt olemaan ajankohtainen.
Big datan alueella on paljon potentiaalia, jota ei ole ymmärretty, tai haluttu vielä ottaa käyttöön yrityksissä. Teoriaosuudessa tutkittiin big datan arkkitehtuurin ja teknologioiden lisäksi myös mahdollisia hyötyjä ja haittoja yritysten kannalta, jotka big dataa aikovat hyödyntää.
Käytännön osuudessa pystytettiin IBM:n BigInsights QuickStart Edition, jossa otettiin käyttöön kolmen Hadoop-klusterin palvelinympäristö. Asennusvaiheessa tärkeänä osana oli avoimen lähdekoodin Hadoop-monitorointityökalu Ambari, jonka avulla voitiin selaimen kautta asentaa ja konfiguroida klusteria.
Big dataa kuvaa parhaiten kolmen v-kirjaimen yhdistelmä: volyymi, vauhti ja vaihtelevuus.
Ne kuvastavat hyvin miten erilaista dataa nykyään tuotetaan ja kuinka paljon sitä kertyy.
Tulevaisuudessa datan määrä tulee moninkertaistumaan, joten big data alkaa ilmiönä viimeistään nyt olemaan ajankohtainen.
Big datan alueella on paljon potentiaalia, jota ei ole ymmärretty, tai haluttu vielä ottaa käyttöön yrityksissä. Teoriaosuudessa tutkittiin big datan arkkitehtuurin ja teknologioiden lisäksi myös mahdollisia hyötyjä ja haittoja yritysten kannalta, jotka big dataa aikovat hyödyntää.
Käytännön osuudessa pystytettiin IBM:n BigInsights QuickStart Edition, jossa otettiin käyttöön kolmen Hadoop-klusterin palvelinympäristö. Asennusvaiheessa tärkeänä osana oli avoimen lähdekoodin Hadoop-monitorointityökalu Ambari, jonka avulla voitiin selaimen kautta asentaa ja konfiguroida klusteria.