Detekce specifických objekt˚u v digitáln´ım sn´ımku pro potˇreby urˇcen´ı druhu obsahu scény

(1)

StudentSká

vědecká konference 2017

Detekce specifických objekt ˚u v digitáln´ım sn´ımku pro potˇreby urˇcen´ı druhu obsahu scény

Tereza ˇStanglov´a¹

1 ´ Uvod

C´ılem této práce je navrˇzen´ı a implementován´ı konvoluˇcn´ı neuronové s´ıtˇe s pouˇzit´ım existuj´ıc´ı knihovny, která bude spolehlivˇe identifikovat pornografické scény. Po peˇclivém zváˇzen´ı byl z nˇekolika moˇzných alternativ vybrán framework CNTK¹. V rámci práce byly vytvoˇreny i webové stránky, které slouˇz´ı k uˇzivatelskému testován´ı modelu. Stránky jsou um´ıstˇeny na adresehttp://147.228.64.42/pdetect/.

2 Konvoluˇcn´ı neuronov´e s´ıtˇe

Konvoluˇcn´ı neuronové s´ıtˇe jsou speciáln´ım druhem v´ıcevrstvých dopˇredných neuronových s´ıt´ı. Byly navrˇzeny pro rozpoznáván´ı sn´ımk˚u pˇr´ımo z pixel˚u s minimáln´ım pˇredzpracován´ım Karpathy (2016). Skládaj´ı se z vrstev, z nichˇz kaˇzdá má svou specifickou funkci. Popis vrstev:

• Vstupn´ı– Vstupem je matice obrazových bod˚u ve formátuvýˇska sn´ımku×ˇs´ıˇrka sn´ımku

×poˇcet barevn´ych kan´al˚u.

• Konvoluˇcn´ı – Slouˇz´ı k extrahován´ı pˇr´ıznak˚u ze sn´ımk˚u. Obsahuje sadu konvoluˇcn´ıch filtr˚u. Provád´ı se operace konvoluce mezi vstupem a filtry. Výstupem jsou pˇr´ıznakové mapy. Konvoluce je zobrazena na obrázku 1 v ˇcásti(a).

• Aktivaˇcn´ı– Slouˇz´ı k aplikaci neline´arn´ı aktivaˇcn´ı funkce na v´ystup konvoluˇcn´ı vrstvy.

• Podvzorkovac´ı– Slouˇz´ı k redukci dimenze pro sn´ıˇzen´ı poˇctu parametr˚u. Pˇr´ıklad aplikace je ilustrován na obrázku 1 v ˇcásti(b).

• Plnˇe propojená– Kaˇzdý neuron této vrstvy je propojený se vˇsemi neurony vrstvy pˇredchoz´ı.

• V´ystupn´ı– Je plnˇe propojen´a s pˇredchoz´ı. Obsahuje tolik neuron˚u, kolik je klasifikaˇcn´ıch tˇr´ıd.

Pro natrénován´ı neuronové s´ıtˇe byly vytvoˇreny dvˇe mnoˇziny dat. Mnoˇzina c´ılových sn´ımk˚u obsahuj´ıc´ıch pornografii a mnoˇzina nec´ılových sn´ımk˚u, které pornografii neobsahuj´ı. Pro po- rovnán´ı bylo implementováno nˇekolik architektur. Zdokumentovány byly architektury pro ne- douˇcenou a pˇreuˇcenou s´ıt’. Dále byl zkoumán vliv r˚uzného nastaven´ı poˇcáteˇcn´ıch hodnot vah a prah˚u s´ıtˇe a vliv r˚uzné velikosti trénovac´ı mnoˇziny na pr˚ubˇeh uˇcen´ı s´ıtˇe.

1studentka navazuj´ıc´ıho studijn´ıho programu Inˇzenýrská informatika, obor Inteligentn´ı poˇc´ıtaˇcové systémy, e-mail: stanglov@students.zcu.cz

1https://github.com/Microsoft/CNTK/

(2)

Filtr

Vstup Výstup

(a)Aplikace konvoluˇcn´ıho filtru.

1 1 2 4 5 6 7 8 3 2 1 0 1 2 3 4

6 8 3 4 x

y

(b)Podvzorkov´an´ı.

Obr´azek 1: Operace v konvoluˇcn´ıch s´ıt´ıch.

3 V´ysledky

V tabulce 1 je uvedeno pro pˇredstavu srovnán´ı dvou architektur s pˇeti a tˇremi kon- voluˇcn´ımi vrstvami pro r˚uznˇe velké trénovac´ı sady dat. V tabulce jsou uvedeny poˇcty c´ılových a nec´ılových vzork˚u. Poˇcet vidˇených vzork˚u reprezentuje velikost datové mnoˇziny po jej´ım umˇelém zvˇetˇsen´ı.

Tabulka 1:Srovnán´ı pouˇzitých architektur pro r˚uznˇe velké sady trénovac´ıch dat.

Architektura Poˇcet

celkem

Poˇcet c´ılov´ych

Poˇcet nec´ılov´ych

Poˇcet vidˇen´ych

Chyba v testovac´ı f´azi [%]

Architektura 1 (5 konv. vrstev)

4052 2036 2016 121560 8.202

Architektura 2 (3 konv. vrstvy) 8.954

Architektura 1 (5 konv. vrstev)

8403 4199 4204 252090 3.085

Architektura 2 (3 konv. vrstvy) 3.010

V rámci uˇzivatelského testován´ı od 15.3.2017 do 20.4.2017 bylo celkem evidováno 473 nahraných vzork˚u. Výsledky ilustruje tabulka 2. Správnˇe byly klasifikovány vzorky, u nichˇz se predikovaná tˇr´ıda shoduje s tˇr´ıdou oznaˇcenou uˇzivatelem.

Tabulka 2:Výsledky uˇzivatelského testován´ı.

Odpovˇed’ uˇzivatele

1 0

Predikce 1 20 66

0 15 372

4 Z´avˇer

V pr˚ubˇehu práce se podaˇrilo experimentálnˇe vytvoˇrit konvoluˇcn´ı neuronovou s´ıt’, která uspokojivˇe klasifikovala digitáln´ı sn´ımky. Model s´ıtˇe byl nasazen k reálnému testován´ı uˇzivateli na webových stránkách. Problém pˇri realizaci byl napˇr´ıklad v nepochopen´ı úˇcelu stránek uˇzivateli.

Nˇekolika uˇzivatel˚um musel být úˇcel práce individuálnˇe vysvˇetlen. I pˇresto se v rámci uˇzivatelského testován´ı podaˇrilo nasb´ırat dostateˇcné mnoˇzstv´ı vzork˚u.

Literatura

Karpathy, A. (2016) Convolutional Neural Networks for Visual Recognition. Dostupn´e na http://cs231n.github.io/[Citov´ano 3.4.2017]