Haku

Hierarkkinen klusterointi tiedonhaussa.

QR-koodi

Hierarkkinen klusterointi tiedonhaussa.

Sähköisessä muodossa olevan tiedon määrä on kasvanut viime vuosina räjähdysmäisesti. Etenkin Internetin käytön yleistyminen on lisännyt erilaisten tiedonhakusovellusten ­ niin sanottujen hakukoneiden tarvetta. Tekstidokumenttien klusterointia voidaan hyödyntää tiedonhakusovellusten toiminnassa. Dokumenttien klusterointia ja siihen perustuvaa tiedonhakua on tutkittu aiemmin lähinnä englanninkielisellä aineistolla. Tässä tutkimuksessa selvitetään ja vertaillaan yleisimmin käytettyjen hierarkkisten klusterointimenetelmien soveltuvuutta suomenkielisten tekstidokumenttien ryhmittelyyn tiedonhaun näkökulmasta.

Dokumenttien klusterointi perustuu ryhmiteltävien dokumenttien samankaltaisuuden mittaamiseen niissä esiintyvien sanojen perusteella. Erilaisten samanlaisuus- ja etäisyysmittojen lisäksi tässä tutkimuksessa tarkastellaan tekstidokumenttien numeerista kuvailua sekä dokumenttikokoelman vektoriavaruusmallin käyttöä.

Tiedonhaussa käsiteltävät tietomäärät ovat tyypillisesti suuria. Tässä tutkimuksessa tarkasteltava aineisto käsitti 5 000 uutisartikkelia. Runsaasti laskentaa vaativien klusterointimenetelmien käytön helpottamiseksi dokumenttikokoelmasta tunnistettujen erilaisten sanojen ­ tässä tutkimuksessa tarkasteltavien muuttujien ­ lukumäärää pienennettiin pääkomponenttianalyysillä. Tarkasteltavien muuttujien lukumäärä putosi noin kymmenesosaan alkuperäisten muuttujien määrästä, kun klusterointi tehtiin pääkomponenttianalyysissä muodostetun pääkomponenttiaineiston avulla.

Tutkimuksen tulokset vastaavat aiemmin englanninkielisellä aineistolla tehdyissä tutkimuksissa saatuja tuloksia. Näin ollen myös suomenkielisen dokumenttiaineiston klusterointi on mahdollista, kunhan suomenkielen ominaispiirteet otetaan huomioon. Eri klusterointimenetelmien tuottamien tulosten välillä ei ollut havaittavissa kovin suuria eroja. Yhden yhteyden klusterointimenetelmä tuotti kuitenkin selvästi muita tutkittuja menetelmiä huonoimpia tuloksia, joskaan mikään tutkituista klusterointimenetelmistä ei yltänyt erityisen hyviin tuloksiin. Kaikki tarkastellut menetelmät tuottivat kuitenkin yleensä yhden melko hyvän dokumenttiryhmän, joka sisälsi suurimman osan samaa aihetta käsittelevistä dokumenteista, mutta melko vähän muita aiheita käsitteleviä dokumentteja.

Avainsanat: Etäisyysmitta, pääkomponenttianalyysi, ryhmittelyanalyysi, vektoriavaruusmalli

Tallennettuna: