• Nebyly nalezeny žádné výsledky

Automatick´a extrakce pˇr´ıspˇevk˚u z diskusn´ıch f´or

N/A
N/A
Protected

Academic year: 2022

Podíl "Automatick´a extrakce pˇr´ıspˇevk˚u z diskusn´ıch f´or"

Copied!
2
0
0

Načítání.... (zobrazit plný text nyní)

Fulltext

(1)

StudentSká

vědecká konference 2017

Automatick´a extrakce pˇr´ıspˇevk ˚u z diskusn´ıch f´or

Jakub Sido1

1 ´ Uvod

Internet je velice rychle rostouc´ı m´edium. St´av´a se v´ıce ˇz´adan´e data na nˇem obsaˇzen´a zpracov´avat automaticky. Tato pr´ace se zab´yv´a extrakc´ı informac´ı z webov´ych zdroj˚u, pˇredevˇs´ım z webov´ych diskuzn´ıch f´or. Pojedn´av´a o tomto oboru a zkoum´a existuj´ıc´ı syst´emy. N´aslednˇe jsou tyto poznatky aplikov´any a je navrhnut syst´em, kter´y tento ´ukol pln´ı bez z´asahu ˇclovˇeka.

D´ale jsou pouˇzity metody strojov´eho uˇcen´ı a anal´yzy pˇrirozen´eho jazyka k oznaˇcen´ı v´yznamu z´ıskan´ych dat.

2 Hlavn´ı aspekty realizace

Existuj´ı zp˚usoby, jak vytvoˇrit n´astroj, kter´y bude extrahovat ˇz´adan´a data z konkr´etn´ıch webov´ych str´anek. Je vˇsak vˇzdy potˇreba optimalizovat syst´em pro urˇcit´y zdroj. C´ılem t´eto pr´ace je vˇsak vytvoˇrit prostˇredek, kter´ym bude moˇzn´e automaticky z´ısk´avat data z velk´eho mnoˇzstv´ı mal´ych webov´ych diskuz´ı.

Byl pouˇzit existuj´ıc´ı syst´em na extrakci dynamick´ych dat z webov´ych str´anek a n´aslednˇe byla provedena anal´yza moˇznost´ı hled´an´ı v´yznamu tˇechto dat, kter´e budou oznaˇceny pro pozdˇejˇs´ı pouˇzit´ı.

Obr´azek 1:Data Flow

1student navazuj´ıc´ıho studijn´ıho programu Aplikovan´e vˇedy a informatika, obor Inˇzen´yrsk´a informatika – Soft- warov´e inˇzen´yrstv´ı e-mail: sidoj@students.zcu.cz

(2)

3 Z´avˇer

Bylo prozkoum´ano nˇekolik syst´em˚u, kter´e se vˇenuj´ı extrakci dat z webov´ych str´anek obecnˇe, i tˇech, kter´e se zab´yvaj´ı konkr´etnˇe webov´ymi diskuzemi RR (2005) EE (2012). Tato pr´ace kombinuje nˇekolik ovˇeˇren´ych pˇr´ıstup˚u, avˇsak navrhuje a aplikuje v t´eto oblasti nov´e po- stupy.

Byly pouˇzity statistick´e metody, strojov´e uˇcen´ı a anal´yza pˇrirozen´eho jazyka na webov´e str´anky obsahuj´ıc´ı zm´ınˇen´a data. Tak´e se objevilo nˇekolik nedostatk˚u, kter´e se t´ykaj´ı jednot- liv´ych ˇc´ast´ı procesu. Pˇredevˇs´ım to byl probl´em s extrakc´ı dynamick´ych dat pomoc´ı ˇsablony.

Tato data mohou b´yt pouˇzita r˚uzn´ymi zp˚usoby, od c´ılen´ych reklam pˇres anal´yzu n´azor˚u po vyhled´av´an´ı nevhodn´ych ˇcinnost´ı ve virtu´aln´ım svˇetˇe, jako je napˇr´ıklad ˇsikana, zneuˇz´ıv´an´ı dˇet´ı nebo extr´emistick´e chov´an´ı.

Literatura

Crescenzi, V. (2005)Roadrunner: Towards automatic data extraction from large web sites.. In VLDB, 1, s. 109 118, 2001.

Machov´a, K. Penz´es, T. (2012) Extraction of web discussion texts for opinion analy- sis..International Symposium on, s. 31 35. IEEE, 2012.

Odkazy

Související dokumenty

Pˇredmˇ etem t´ eto bakal´ aˇrsk´ e pr´ ace je odvozen´ı diferenci´ aln´ıch rovnic obecn´ e teorie relativity vhodn´ ych pro jejich numerick´ e ˇreˇsen´ı.

Jedn´ım ze z´ akladn´ıch c´ıl˚ u t´ eto pr´ ace bylo pr´ avˇ e vytvoˇren´ı hledaˇ cky dis- ponuj´ıc´ı displejem, na kter´ em by bylo moˇ zn´ e zobrazit vˇ etˇs´ı ˇ

C´ılem pˇ redloˇ zen´ e bakal´ aˇ rsk´ e pr´ ace je popis teˇ cen´ı uhl´ıkov´ eho kompozitu vhodn´ ym analytick´ ym mo- delem na z´ akladˇ e optick´ ych mˇ eˇ ren´ı

Nad´ ale se pr´ ace bude vˇ enovat detekci nebezpeˇ cn´ ych man´ evr˚ u pomoc´ı strojov´ eho uˇ cen´ı a automatick´ eho rozpozn´ av´ an´ı....

Prvn´ım c´ılem t´ eto pr´ ace je proto identi- fikovat poˇ zadavky, kter´ e se mˇ en´ı kaˇ zd´ ym rokem a dok´ azat navrhnout aplikaci tak, aby ji bylo moˇ zn´ e lehce

C´ılem t´eto pr´ace je implementace metody ITO do programu ParaCell pro indexaci krystalick´ych l´atek z dat z´ıskan´ych pomoc´ı pr´aˇskov´e difrakce.. 1.2 Skupenstv´ı

C´ılem bakal´aˇrsk´e pr´ace je n´avrh elektroniky rozhran´ı modulu iNemo M1, kter´e umoˇzn´ı pˇrenos zmˇeˇren´ ych dat do poˇc´ıtaˇce pomoc´ı vhodn´e

Jedn´ım z posledn´ıch c´ıl ˚u diplomov´e pr´ace je odzkouˇsen´ı matematick´eho modelu i programu urˇcen´eho pro online nasazen´ı na re´aln ´ych datech, kter´e