Koneoppimismalli suomen kielen puheentunnistukseen
Ålgars, Emil (2024)
Ålgars, Emil
2024
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2024112229397
https://urn.fi/URN:NBN:fi:amk-2024112229397
Tiivistelmä
Tämän opinnäytetyön tarkoituksena on suunnitella ja toteuttaa koneoppimismalli suomen kielen puheentunnistukseen hyödyntäen LSTM-arkkitehtuuria ja CTC-häviöfunktiota. Tavoitteena on demonstroida, kuinka voidaan rakentaa toimiva puheentunnistusmalli rajallisin resurssein ja arvioida sen suorituskykyä verrattuna olemassa oleviin ratkaisuihin.
Opinnäytetyön teoriaosuudessa tarkastellaan puheentunnistuksen perusteita, eri neuroverkkoarkkitehtuureja ja niiden soveltuvuutta puheentunnistukseen.
Opinnäytetyön käytännön osuudessa esitellään, miten data käsitellään sekä miten malli suunnitellaan ja toteutetaan. Suunnittelu- ja kehitysvaiheessa tarkastellaan kehitettyä mallia sekä sen suorituskykyä. Lopuksi mallin suorituskykyä analysoidaan erilaisten mittareiden perusteella.
Opinnäytetyön tuloksena saavutettiin kevyt ja nopea puheentunnistusmalli suomen kielelle. Malli saavutti hyväksyttävän tarkkuuden testeissä ja sen ennustusnopeus on noin 12 kertaa vertailukohdetta nopeampi. Lisäksi tuloksena saatiin pohja, johon on helppo lisätä parannuksia ja jota voidaan jatkokehittää tulevissa projekteissa.
Opinnäytetyön teoriaosuudessa tarkastellaan puheentunnistuksen perusteita, eri neuroverkkoarkkitehtuureja ja niiden soveltuvuutta puheentunnistukseen.
Opinnäytetyön käytännön osuudessa esitellään, miten data käsitellään sekä miten malli suunnitellaan ja toteutetaan. Suunnittelu- ja kehitysvaiheessa tarkastellaan kehitettyä mallia sekä sen suorituskykyä. Lopuksi mallin suorituskykyä analysoidaan erilaisten mittareiden perusteella.
Opinnäytetyön tuloksena saavutettiin kevyt ja nopea puheentunnistusmalli suomen kielelle. Malli saavutti hyväksyttävän tarkkuuden testeissä ja sen ennustusnopeus on noin 12 kertaa vertailukohdetta nopeampi. Lisäksi tuloksena saatiin pohja, johon on helppo lisätä parannuksia ja jota voidaan jatkokehittää tulevissa projekteissa.