StudentSká
vědecká konference 2017
Automatick´a extrakce pˇr´ıspˇevk ˚u z diskusn´ıch f´or
Jakub Sido1
1 ´ Uvod
Internet je velice rychle rostouc´ı m´edium. St´av´a se v´ıce ˇz´adan´e data na nˇem obsaˇzen´a zpracov´avat automaticky. Tato pr´ace se zab´yv´a extrakc´ı informac´ı z webov´ych zdroj˚u, pˇredevˇs´ım z webov´ych diskuzn´ıch f´or. Pojedn´av´a o tomto oboru a zkoum´a existuj´ıc´ı syst´emy. N´aslednˇe jsou tyto poznatky aplikov´any a je navrhnut syst´em, kter´y tento ´ukol pln´ı bez z´asahu ˇclovˇeka.
D´ale jsou pouˇzity metody strojov´eho uˇcen´ı a anal´yzy pˇrirozen´eho jazyka k oznaˇcen´ı v´yznamu z´ıskan´ych dat.
2 Hlavn´ı aspekty realizace
Existuj´ı zp˚usoby, jak vytvoˇrit n´astroj, kter´y bude extrahovat ˇz´adan´a data z konkr´etn´ıch webov´ych str´anek. Je vˇsak vˇzdy potˇreba optimalizovat syst´em pro urˇcit´y zdroj. C´ılem t´eto pr´ace je vˇsak vytvoˇrit prostˇredek, kter´ym bude moˇzn´e automaticky z´ısk´avat data z velk´eho mnoˇzstv´ı mal´ych webov´ych diskuz´ı.
Byl pouˇzit existuj´ıc´ı syst´em na extrakci dynamick´ych dat z webov´ych str´anek a n´aslednˇe byla provedena anal´yza moˇznost´ı hled´an´ı v´yznamu tˇechto dat, kter´e budou oznaˇceny pro pozdˇejˇs´ı pouˇzit´ı.
Obr´azek 1:Data Flow
1student navazuj´ıc´ıho studijn´ıho programu Aplikovan´e vˇedy a informatika, obor Inˇzen´yrsk´a informatika – Soft- warov´e inˇzen´yrstv´ı e-mail: sidoj@students.zcu.cz
3 Z´avˇer
Bylo prozkoum´ano nˇekolik syst´em˚u, kter´e se vˇenuj´ı extrakci dat z webov´ych str´anek obecnˇe, i tˇech, kter´e se zab´yvaj´ı konkr´etnˇe webov´ymi diskuzemi RR (2005) EE (2012). Tato pr´ace kombinuje nˇekolik ovˇeˇren´ych pˇr´ıstup˚u, avˇsak navrhuje a aplikuje v t´eto oblasti nov´e po- stupy.
Byly pouˇzity statistick´e metody, strojov´e uˇcen´ı a anal´yza pˇrirozen´eho jazyka na webov´e str´anky obsahuj´ıc´ı zm´ınˇen´a data. Tak´e se objevilo nˇekolik nedostatk˚u, kter´e se t´ykaj´ı jednot- liv´ych ˇc´ast´ı procesu. Pˇredevˇs´ım to byl probl´em s extrakc´ı dynamick´ych dat pomoc´ı ˇsablony.
Tato data mohou b´yt pouˇzita r˚uzn´ymi zp˚usoby, od c´ılen´ych reklam pˇres anal´yzu n´azor˚u po vyhled´av´an´ı nevhodn´ych ˇcinnost´ı ve virtu´aln´ım svˇetˇe, jako je napˇr´ıklad ˇsikana, zneuˇz´ıv´an´ı dˇet´ı nebo extr´emistick´e chov´an´ı.
Literatura
Crescenzi, V. (2005)Roadrunner: Towards automatic data extraction from large web sites.. In VLDB, 1, s. 109 118, 2001.
Machov´a, K. Penz´es, T. (2012) Extraction of web discussion texts for opinion analy- sis..International Symposium on, s. 31 35. IEEE, 2012.