Haku

Koneoppiminen uutisvirran suodatuksessa

QR-koodi

Koneoppiminen uutisvirran suodatuksessa

Opinnäytetyössä tarkastellaan miten koneoppimista voidaan hyödyntää uutisten luokittelussa erilaisiin kategorioihin ja kuinka suuria aineistoja tarvitaan hyvin toimivan luokittelijan opettamiseen. Opinnäytetyö jakautuu kahteen osaan, joista ensimmäisessä käsitellään tekstin luokitteluun liittyvää teoriaa. Toisessa osassa esitellään käytetyt teknologiat ja saadut tulokset.

Opinnäytetyössä käytettiin support vector classifier -algoritmia (SVC) ja bi-directional long short-term memory -tyyppistä neuroverkkoa (bi-LSTM) luokittelemaan uutisia. Molempia luokittelijoita testattiin kahdella eri aineistolla. Parhaimmillaan päästiin yli 97 % tarkkuuteen SVC-luokittelijalla. Johtopäätöksenä voidaan todeta, että neuroverkot vaativat enemmän koulutusmateriaalia toimiakseen hyvin kuin SVC-algoritmi. Tulokset eivät olleet vastaavat molemmissa aineistoissa, vaan käytetty aineisto vaikutti tuloksiin. Suomenkielisessä aineistossa bi-LSTM saavutti suuremman tarkkuuden, kuin SVC.

Tallennettuna: