Koneoppiminen uutisvirran suodatuksessa

Koneoppiminen uutisvirran suodatuksessa

http://www.theseus.fi/handle/10024/352761

http://www.urn.fi/URN:NBN:fi:amk-2020120426193

Ailio_Henri.pdf (Hämeen ammattikorkeakoulu - Theseus)

AMK-opinnäytetyö

Ailio, Henri

2020

Opinnäytetyössä tarkastellaan miten koneoppimista voidaan hyödyntää uutisten luokittelussa erilaisiin kategorioihin ja kuinka suuria aineistoja tarvitaan hyvin toimivan luokittelijan opettamiseen. Opinnäytetyö jakautuu kahteen osaan, joista ensimmäisessä käsitellään tekstin luokitteluun liittyvää teoriaa. Toisessa osassa esitellään käytetyt teknologiat ja saadut tulokset.

Opinnäytetyössä käytettiin support vector classifier -algoritmia (SVC) ja bi-directional long short-term memory -tyyppistä neuroverkkoa (bi-LSTM) luokittelemaan uutisia. Molempia luokittelijoita testattiin kahdella eri aineistolla. Parhaimmillaan päästiin yli 97 % tarkkuuteen SVC-luokittelijalla. Johtopäätöksenä voidaan todeta, että neuroverkot vaativat enemmän koulutusmateriaalia toimiakseen hyvin kuin SVC-algoritmi. Tulokset eivät olleet vastaavat molemmissa aineistoissa, vaan käytetty aineisto vaikutti tuloksiin. Suomenkielisessä aineistossa bi-LSTM saavutti suuremman tarkkuuden, kuin SVC.

Tallennettuna:

Kieli

suomi

Aiheet

Tieto- ja viestintätekniikka

Informations- och kommunikationsteknik

Information and Communications Technology

koneoppiminen

tekoäly

neuroverkot

Tieto- ja viestintätekniikan koulutusohjelma