Bakaláˇrská práce

(1)

Detekce vzor˚ u v ˇ casov´ ych ˇ rad´ ach

Jiˇ r´ı Bystroˇ n

Kvˇeten 2015

Vedouc´ı pr´ ace: Ing. Martin Mudroch, Ph.D.

Ceské vysoké uˇcen´ı technické v Praze ˇ Fakulta elektrotechnick´ a

Katedra ˇr´ıd´ıc´ı techniky

(2)

(3)

(4)

T´ımto bych rád podˇekoval vedouc´ımu této práce, Ing. Martinu Mudrochovi, Ph.D., za velice konstruktivn´ı poznámky a vstˇr´ıcný pˇr´ıstup pˇri sestavován´ı jak individuáln´ıho projektu, tak samotné bakaláˇrské práce.

(5)

Prohlaˇsuji, ˇze jsem pˇredloˇzenou práci vypracoval samostatnˇe a ˇze jsem uvedl veˇskeré pouˇzité informaˇcn´ı zdroje v souladu s Metodickým pokynem o dodrˇzován´ı etických princip˚u pˇri pˇr´ıpravˇe vysokoˇskolských závˇereˇcných prac´ı.

V Praze dne ... Podpis autora ...

(6)

Tato bakaláˇrská práce se zabývá rozpoznáván´ım vzor˚u ve finanˇcn´ıch ˇcasových ˇradách metodami rule-based, fuzzy a pomoc´ı klasifikátoru zaloˇzeného na podobnosti s pr˚umˇerem korektnˇe urˇcených vzor˚u. Souˇcást´ı práce je popis, návrh a implementace tˇechto metod v jazyce Java. Ja- ko podkladová data pro vyhledáván´ı vzor˚u byly vybrány finanˇcn´ı ˇrady z trhu Forex. Výstupem této práce je jak prokazatelná schopnost vzory tˇemito metodami detekovat, tak srovnán´ı tˇechto metod.

Kl´ıˇ cov´ a slova

pattern recognition, fuzzy, rule-based, time series, candlestick

vi

(7)

This bachelor thesis deals with the pattern recognition in financial time-series using rule-based method, fuzzy method and classification method, which is based on similiarity to an average of correctly specified patterns. This thesis consists of method description, design and imple- mentation in Java language. As underlying data for pattern recognition were chosen time-series from Forex market. The outcome of this thesis is both a demonstrable ability to recognize patterns with these methods and an evaluation of these methods.

Keywords

pattern recognition, fuzzy, rule-based, time series, candlestick

vii

(8)

Slovn´ık pouˇzit´ych v´yraz˚u x

Seznam pouˇzit´ych zkratek xi

1 Uvod´ 1

2 Souˇcasn´y stav 2

3 Teoretick´a ˇc´ast 3

3.1 Prostˇredky pro zpracov´an´ı dat . . . 3

3.1.1 Vytˇeˇzov´an´ı dat . . . 3

3.1.2 Strojov´e uˇcen´ı . . . 3

3.1.3 Rozpozn´av´an´ı vzor˚u . . . 3

3.2 Casov´ˇ e ˇrady . . . 4

3.2.1 Reprezentace ˇcasov´e ˇrady . . . 4

3.3 Klasifikace . . . 6

3.3.1 Dˇelen´ı dle supervize . . . 6

3.3.2 Dˇelen´ı dle klasifikaˇcn´ıho modelu . . . 6

3.3.3 Rule-based klasifikace . . . 7

3.3.4 Rozhodovac´ı stromy . . . 7

3.3.5 Soft computing . . . 7

3.4 Metody rozpoznáván´ı vzor˚u v ˇcasových ˇradách . . . 8

3.4.1 Nejbliˇzˇs´ı soused . . . 8

3.4.2 Umˇel´e neuronov´e s´ıtˇe . . . 8

3.4.3 Rozhodovac´ı stromy . . . 8

3.4.4 Clustering . . . 9

3.4.5 Fuzzy logika . . . 10

3.5 Popis zvolen´ych dat a jejich v´yznamu . . . 10

3.5.1 Struktura grafu a dat . . . 11

3.5.2 Sv´ıcov´y graf . . . 12

3.5.3 Trend . . . 13

3.5.4 Klouzav´y pr˚umˇer . . . 13

4 Aplikace zvolen´ych metod 15 4.1 Volba vhodn´ych metod pro detekci vzor˚u . . . 15

4.1.1 Rule-based metoda . . . 15

4.1.2 Fuzzy mnoˇziny . . . 15

4.1.3 Modifikovan´a klasifikaˇcn´ı metoda . . . 16

4.2 Modelace sv´ıc´ı a vzor˚u . . . 16

4.2.1 Uvodn´ı slovo k modelaci . . . .´ 16

4.2.2 Volba vzor˚u . . . 17

4.2.3 Parametry modelu d´ılˇc´ı sv´ıce . . . 18 viii

(9)

4.3.1 Urˇcen´ı z´akladn´ıch parametr˚u sv´ıc´ı . . . 19

4.3.2 Rule-based metoda . . . 20

4.3.3 Fuzzy metoda . . . 21

4.3.4 Modifikovan´a klasifikaˇcn´ı metoda . . . 24

4.4 Aplikace na datech . . . 25

4.4.1 Implementace . . . 25

4.4.2 Popis a uk´azky k´odu . . . 26

4.5 V´ysledky detekce a srovn´an´ı metod . . . 28

4.5.1 Statistick´y apar´at . . . 28

4.5.2 Data nalezen´a v tr´enovac´ı mnoˇzinˇe . . . 29

4.5.3 Urˇcov´an´ı korektn´ıch vzor˚u . . . 29

4.5.4 Korektn´ı data nalezen´a metodou rule-based . . . 30

4.5.5 Korektn´ı data nalezen´a metodou fuzzy . . . 32

4.5.6 Shrnut´ı . . . 32

5 Z´avˇer 34 5.1 Zhodnocen´ı c´ıl˚u . . . 34

5.2 N´avrh rozˇs´ıˇren´ı a zlepˇsen´ı . . . 35

Seznam pouˇzit´e literatury 36

A Seznam obr´azk˚u 42

B Obr´azky ve vˇetˇs´ım rozliˇsen´ı 43

C Matice pr˚umˇern´ych vzor˚u 48

D Vybran´e d´ılˇc´ı v´ypoˇcty a hodnoty 49

E Obsah pˇriloˇzen´eho CD 50

ix

(10)

ˇ

casov´y r´amec · · · time frame ˇ

c´asteˇcn´e uˇcen´ı s uˇcitelem · · · semi-supervised learning ˇ

clensk´a funkce · · · membership function clustering; shlukov´an´ı · · · clustering

dopˇredná neuronová s´ıt’ · · · feedforward neural network exponenciáln´ı klouzavý pr˚umˇer · · · exponential moving average

hol´a data · · · raw data

jednoduch´y klouzav´y pr˚umˇer · · · simple moving average k-nejbliˇzˇs´ıch soused˚u · · · k-nearest neighbors

klasifikaˇcn´ı a regresn´ı strom · · · classification and regression tree klasifikaˇcn´ı krok · · · classification step

klouzavý pr˚umˇer · · · moving average kˇr´ıˇzová validace · · · cross validation lichobˇeˇzn´ıková · · · trapezoidal nejbliˇzˇs´ı sousedé · · · nearest neighbors

ostr´a data · · · crisp data

ostr´a mnoˇzina · · · crisp set pˇreuˇcen´ı · · · overfitting regresn´ı stromy · · · regression trees

rekurentn´ı neuronov´a s´ıt’ · · · recurrent neural network rozhodovac´ı stromy · · · decision trees

rozpoznáván´ı vzor˚u · · · pattern recognition samoorganizuj´ıc´ı mapy · · · self-organizing maps schodový graf · · · bar chart

strojov´e uˇcen´ı · · · machine learning sv´ıcov´y graf · · · candlestick graph testovac´ı mnoˇzina · · · test set

trénovac´ı mnoˇzina · · · training set trojúheln´ıkový · · · triangular

uˇcen´ı bez uˇcitele · · · unsupervised learning uˇcen´ı s uˇcitelem · · · supervised learning uˇc´ıc´ı krok · · · learning step

umˇel´a neuronov´a s´ıt’ · · · artificial neural network validaˇcn´ı mnoˇzina · · · validation set

váˇzený klouzavý pr˚umˇer · · · weighted moving average

x

(11)

ARIMA · · · AutoRegressive Integrated Moving Average

ARMA · · · AutoRegressive Moving Average

BS · · · velikost tˇela sv´ıce (Body Size) – pouze pro ´uˇcely pr´ace

CART · · · Classification And Regression Tree

CBR · · · Case-Based Reasoning

CHF · · · ˇsv´ycarsk´y frank

CSV · · · Comma-Separated Values ˇci t´eˇz Character-Separated Values

DCT · · · Discrete Cosine Transform

DFT · · · Discrete Fourier Transform

DS · · · doln´ı st´ın sv´ıce (Doln´ı St´ın) – pouze pro ´uˇcely pr´ace

EUR · · · euro

FOREX · · · FOReign EXchange

GUI · · · Graphical User Interface

HMM · · · Hidden Markov Models

IPCC · · · Intergovernmental Panel on Climate Change

KDD · · · knowledge Discovery from Data

LHC · · · Large Hadron Collider

MA · · · Moving Average

MC · · · Markov chain

NN · · · Nearest Neighbor

OHLC · · · Open High Low Close

PAA · · · Piecewise Aggregate Approximation

RBS · · · velikost reálného tˇela sv´ıce (Real Body Size) – pouze pro úˇcely práce

S&P 500 · · · Standard & Poor’s 500

SAX · · · Symbolic Aggregate approXimation

SL · · · délka st´ınu sv´ıce (Shadow Length) – pouze pro úˇcely práce

STING · · · STatistical INformation Grid-based method

US · · · horn´ı st´ın sv´ıce (UpShadow) – pouze pro ´uˇcely pr´ace

USD · · · americk´y dolar

PPV · · · positive predictive value

xi

(12)

Mezi hlavn´ı c´ıle této bakaláˇrské práce patˇr´ı v prvé ˇcásti vypracován´ı reˇserˇse pro zadané téma vyhledáván´ı neurˇcitých vzor˚u ve ˇspatnˇe predikovatelných ˇcasových ˇradách. T´ım z´ıskám základn´ı pˇrehled o dostupných metodách, technikách a vhodnosti jejich implementace pro dané prostˇred´ı.

V ˇcásti druhé je c´ılem se jiˇz prakticky zamˇeˇrit na volbu a vlastn´ı teoretický a programový návrh konkrétn´ıch metod pro konkrétn´ı ˇcasové ˇrady z oblasti finanˇcn´ıch trh˚u, v nichˇz budu detekovat konkrétn´ı, obecnˇe uznávané vzory. Výstupem bude demonstrace, ˇze mnou vybrané a implementované metody jsou schopny detekovat tyto vzory. Tˇret´ım c´ılovým bodem je, ˇze tyto metody a výstupy vhodnˇe zvolenými metodami porovnám. Tomu bude odpov´ıdat i struktura práce.

Protoˇze se jedná o specifické téma, ve kterém jsou anglické term´ıny ustálené, ˇceské pˇreklady jsou m´ısty i ke ˇskodˇe. Budu se tedy drˇzet sp´ıˇse anglických term´ın˚u, jelikoˇz pˇreklad nˇekterých term´ın˚u de facto ani neexistuje nebo nen´ı zcela adekvátn´ı a zavád´ı akorát nejasnosti. Jsem si vˇedom toho, ˇze tento zp˚usob prezentace nen´ı zcela ideáln´ı, nicménˇe s ohledem na to, ˇze je práce psána ˇcesky, se t´ımto budu snaˇzit vyhnout vytváˇren´ı nevhodných ˇcesko-anglických no- votvar˚u. Uvád´ım téˇz pˇrehledový slovn´ık, kde lze nalézt pˇreklady vybraných term´ın˚u s ohledem na pouˇzitý kontext.

Jsem si téˇz vˇedom faktu, ˇze diskutované teoretické téma nemus´ı být bˇeˇznému ˇctenáˇri známo, jako mu nemus´ı být známa i oblast vyb´ıraných dat – specifických finanˇcn´ıch trh˚u. V nˇekterých sekc´ıch této práce proto budu volit bliˇzˇs´ı popis ˇci názorný pˇr´ıklad neˇz uveden´ı pouhé definice.

Pojmy z mého pohledu odborné, pˇr´ıpadnˇe výrazy z ciz´ıho prostˇred´ı budu pˇri prvn´ım výskytu uvádˇet v uvozovkách. Pˇri dalˇs´ıch výskytech tˇechto pojm˚u a výraz˚u uˇz uvozovky vynechám.

Pokud pouˇziji nadnesené ˇci nepˇresné výrazy, vˇzdy je uvedu v uvozovkách.

1

(13)

V souˇcasné dobˇe, která je téˇz pˇrezd´ıvaná

”informaˇcn´ım vˇekem“, se ˇc´ım dál ˇcastˇeji setkáváme s mnoˇzstv´ım oblast´ı, ve kterých je potˇreba zpracovávat enormn´ı mnoˇzstv´ı r˚uznorodých dat. At’

uˇz se jedná o data v podobˇe záznam˚u z pr˚umyslových senzor˚u, lékaˇrských pˇr´ıstroj˚u, klinických databáz´ı nebo o data kosmologická, finanˇcn´ı, seismická, meteorologická ˇci data z webových server˚u spoleˇcnost´ı jako je napˇr´ıklad Google, vˇzdy je potˇreba tato data vhodnými zp˚usoby uchovávat, tˇr´ıdit a analyzovat.

Zamˇeˇr´ıme-li se na aktuáln´ı trendy a smˇer budouc´ıho vývoje, bez újmy na obecnosti se dá ho- voˇrit o pojmu

”big data“. Ten lze ch´apat jako

”term´ın aplikovaný na soubory dat, jejichˇz velikost je mimo schopnosti zachycovat, spravovat a zpracovávat data bˇeˇznˇe pouˇz´ıvanými softwarovými nástroji v rozumném ˇcase“ [1]. O vzr˚ustaj´ıc´ı popularitˇe tohoto pojmu svˇedˇc´ı mimojiné fakta, ˇ

ze za posledn´ı rok vzrostla v USA poptávka po datových analytic´ıch se specializac´ı na big data témˇeˇr o 100 % [6], dále vzniká velké mnoˇzstv´ı kurz˚u zamˇeˇrených na big data [7] a ostatnˇe minulý rok byl i na Fakultˇe elektrotechnické ˇCVUT otevˇren volitelný pˇredmˇet Technologie pro velká data [4].

Pro pˇredstavu, napˇr´ıklad v roce 2008 servery spoleˇcnosti Google zpracovaly poˇzadavky ˇ

c´ıtaj´ıc´ı v pr˚umˇeru pˇres 20 petabajt˚u dat dennˇe. [2] Jako dalˇs´ı pˇr´ıklad m˚uˇzeme uv´est, ˇze kaˇzdou hodinu je uˇzivateli nahr´ano na servery spoleˇcnosti Facebook pˇres 10 milion˚u fotografi´ı [5, s. 16].

Nebo také data z mˇeˇren´ı ve velkém hadronovém urychlovaˇci ˇcástic (LHC) ˇc´ıtaj´ı pˇribliˇznˇe 30 petabajt˚u za rok [3]. Je zˇrejmé, ˇze pˇri takových objemech dat je nutné se zabývat metodami, které umoˇzˇnuj´ı s daty efektivnˇe pracovat jak po stránce výpoˇcetn´ı, tak po stránce interpretaˇcn´ı.

Svˇedˇc´ı o tom napˇr´ıklad i fakt, ˇze aˇckoliv má být spoleˇcnost Google schopna mapovat výskyt chˇripky d´ıky vyhledávac´ım poˇzadavk˚um uˇzivatel˚u z celého svˇeta stejnˇe dobˇre, jako jej mapuj´ı data z lékaˇrských ordinac´ı [5, s. 19][8], ukazuje se, ˇze to nemus´ı být úplnˇe pravda, jak rozeb´ırá Steven Salzberg [9]. Problémem je totiˇz ˇspatné pochopen´ı lidského chován´ı v tomto kontextu a s t´ım dále spojená interpretace dat jako i jejich vytˇeˇzován´ı. V odkazovaném zdroji se k tomuto váˇze vhodná vˇeta:

”The folks at Google figured that, with all their massive data, they could outsmart anyone.“ Povaˇzuji tedy za vhodné zamˇeˇrit se na metody vytˇeˇzován´ı klasických dat z ˇcasových ˇrad.

2

(14)

3.1 Prostˇ redky pro zpracov´ an´ı dat

Jelikoˇz se budu zabývat oblastmi jako je rozpoznáván´ı vzor˚u, strojové uˇcen´ı ˇci vytˇeˇzován´ı dat a autoˇri se ne vˇzdy v definici tˇechto pojmu shoduj´ı, je vhodné tyto základn´ı pojmy nejdˇr´ıve objasnit pro lepˇs´ı zasazen´ı do naˇseho kontextu.

3.1.1 Vytˇ eˇ zov´ an´ı dat

Nˇekteˇr´ı autoˇri [10, s. 5–6] se pouˇstˇej´ı do polemiky o definici tohoto pojmu a tvrd´ı, ˇze by se mˇel jmenovat sp´ıˇse

”knowledge mining from data“. Na coˇz plynule navazuj´ı tvrzen´ım, ˇze je tento pojem na jednu stranu ch´ap´an jako synonymum pro pojem

”knowledge discovery from data“

(KDD), na stranu druhou uvádˇej´ı, ˇze m˚uˇze být téˇz chápán jako pouhý jeden krok v komplexn´ım procesu extrakce vˇedomost´ı z dat. Pozdˇeji vˇsak docház´ı ke konsensu s jinými autory [11, s. 5]

v tom, ˇze vytˇeˇzován´ı dat lze popsat jako automatizovaný ˇci ˇcásteˇcnˇe automatizovaný proces objevován´ı vzor˚u ve zpravidla vˇetˇs´ım mnoˇzstv´ı dat, nalezené vzory mus´ı m´ıt smysluplný význam dle poˇzadovaného zadán´ı a obecnˇe se jedná o ˇreˇsen´ı problém˚u analýzou dat, která jiˇz existuj´ı v databázi. Pˇriˇcemˇz databáz´ı je zde myˇslen v podstatˇe libovolný, avˇsak dostateˇcnˇe objemný informaˇcn´ı zdroj.

3.1.2 Strojov´ e uˇ cen´ı

Bez újmy na obecnosti lze vyj´ıt z tvrzen´ı, ˇze strojové uˇcen´ı se zabývá metodami, jak se poˇc´ıtaˇcové programy mohou uˇcit automatickému rozpoznáván´ı komplexn´ıch vzor˚u, pˇr´ıpadnˇe jak se mohou inteligentnˇe rozhodovat na základˇe vstupn´ıch dat. Napˇr´ıklad klasickou úlohou, která bývá ˇcasto v tomto kontextu uvádˇena, je schopnost programu korektnˇe urˇcit ruˇcnˇe psané poˇstovn´ı smˇerovac´ı ˇc´ıslo na základˇe pˇredloˇzených, správnˇe urˇcených vzor˚u – trénovac´ı mnoˇziny, viz dále. [10, s. 24]

3.1.3 Rozpozn´ av´ an´ı vzor˚ u

Rozpoznáván´ı vzor˚u je obecnˇe chápáno jako podmnoˇzina strojového uˇcen´ı, respektive jeho konkrétn´ı aplikace, aˇckoliv v nˇekterých pˇr´ıpadech je kladeno do stejné roviny jako samotné strojové uˇcen´ı [12, s. vii]. Rozpoznávan´ı vzor˚u je moˇzno uplatnit na rozliˇcná vstupn´ı data, textem nebo zvukem poˇc´ınaje a symboly na dopravn´ıch znaˇckách konˇce. V pˇr´ıpadˇe této práce se jedná o ˇcasové ˇrady, respektive data, kterými jsou tyto ˇrady reprezentovány.

3

(15)

3.2 Casov´ ˇ e ˇ rady

Casovou ˇradu je moˇˇ zné obecnˇe chápat jako soubor hodnot z´ıskaný sekvenˇcn´ımi mˇeˇren´ımi za urˇcitý ˇcasový úsek. Formáln´ı definici je moˇzné zapsat následovnˇe.

Definice 1. Casov´ˇ a ˇrada T d´elky n je takov´a posloupnost dvojic

T = [(p₁, t₁),(p₂, t₂), ...,(p_i, t_i), ...,(p_n, t_n)], (3.1) kde t₁ < t₂ < ... < t_i < ... < t_n a kde kaˇzdé p_i pˇredstavuje datový bod v d-dimenzionáln´ım prostoru a kaˇzdé t_i pˇredstavuje ˇcas, kdy byl p_i zmˇeˇren. [14, s. 11]

Je zˇrejmé, ˇze se vzr˚ustaj´ıc´ım poˇctem dat a dimenz´ı prostoru se dá oˇcekávat vˇetˇs´ı nároˇcnost at’ uˇz co se týˇce výpoˇct˚u ˇci definován´ı podobnosti ˇcasových ˇrad. Vyvstávaj´ı poté základn´ı otázky a problémy. [13, s. 12:2]

• Reprezentace dat

Jak je moˇzné reprezentovat základn´ı tvarovou charakteristiku ˇcasové ˇrady, jaké by mˇela m´ıt vlastnosti? Reprezentace by mˇela ideálnˇe redukovat dimenzi dat se zachován´ım pod- statných charakteristik datové ˇrady.

• Mˇeˇren´ı podobnosti

Jak m˚uˇze být mezi dvˇema libovolnými ˇcasovými ˇradami nalezena shoda ˇci jak mohou být odliˇseny? Jak je moˇzné formalizovat vzdálenost tˇechto dvou ˇrad, pˇr´ıpadnˇe jak je moˇzné rozpoznat intuitivn´ı podobnost ˇrad, aˇckoliv nejsou po matematické stránce identické?

• Indexovac´ı metoda

Jak by mˇely být organizovány velké objemy dat, které ˇcasové ˇrady reprezentuj´ı, aby bylo moˇzné v nich rychle vyhledávat? S pˇrihlédnut´ım k minimáln´ı výpoˇcetn´ı a datovému objemu?

Výˇcet vˇsak nen´ı koneˇcný, jde jen o jádro problematiky vytˇeˇzován´ı dat z ˇcasových ˇrad.

3.2.1 Reprezentace ˇ casov´ e ˇ rady

Jelikoˇz výpoˇcetn´ı operace na holých datech by byly nároˇcné, zavád´ı se pojem reprezentace.

Vedlejˇs´ım jevem zaveden´ı reprezentace bývá téˇz sn´ıˇzen´ı ˇsumu, jako i sn´ıˇzen´ı datového objemu uloˇzených dat. [13, s. 12:13]

Definice 2. Reprezentac´ı ˇcasové ˇrady T délky n nazveme takový model ¯T s redukovanými dimenzemi, pro který plat´ı, ˇze ¯T aproximuje T. [14, s. 11]

Mezi obecné poˇzadavky na optimáln´ı reprezentaci dat, která pˇredstavuj´ı ˇcasové ˇrady, patˇr´ı zejména následuj´ıc´ı body. [13, s. 12:13]

• v´yznamn´a redukce dimenze dat

• zachován´ı tvarových charakteristik ˇcasové ˇrady v lokáln´ım i globáln´ım mˇeˇr´ıtku

• rekonstrukce p˚uvodn´ıch dat z redukovan´e reprezentace je kvalitn´ı

• necitlivost v˚uˇci ˇsumu nebo implicitn´ı potlaˇcen´ı ˇsumu

(16)

Mezi základn´ı metody a techniky reprezentace dat, respektive ˇcasových ˇrad patˇr´ı zejména následuj´ıc´ı. [13, s. 12:13]

• Non-data adaptive

Parametry transformace respektive redukce dimenze jsou stejné pro jakoukoliv ˇcasovou ˇradu nehledˇe na podstatu dat, která ˇradu tvoˇr´ı. Patˇr´ı zde zejména diskrétn´ı Fourierova transformace (DFT), diskrétn´ı kosinová transformace (DCT) nebo napˇr´ıklad piecewise aggregate approximation (PAA). Ta je unikátn´ı v tom, ˇze ˇcasovou ˇradu rozdˇel´ı na N segment˚u stejné délky, pro které spoˇcte stˇredn´ı hodnotu, ˇc´ımˇz vzniká nová ˇrada o N bodech. Dle nˇekterých studi´ı [15] vˇsak poskytuje nepˇresné výsledky vlivem velké ztráty informace.

• Data adaptive

Na rozd´ıl od pˇredchoz´ı metody tato metoda jiˇz podkladová data zohledˇnuje a témˇeˇr kaˇzdý non-data adaptive postup se stává data adaptive t´ım, ˇze pˇridáme do metody krok, který vyb´ırá konkrétn´ı parametry metod. V pˇr´ıpadˇe diskrétn´ı Fourierovy transformace je to napˇr´ıklad vhodná selekce koeficient˚u, v pˇr´ıpadˇe PAA je to volba dynamické [16]

délky segment˚u. Unikátn´ı metodou je téˇz symbolic aggregate approximation (SAX), která vycház´ı z PAA, nicménˇe z´ıskané segmenty na stejných ˇci bl´ızkých úrovn´ıch oznaˇcuje p´ısmeny, ˇc´ımˇz z´ıskáváme posloupnosti p´ısmen. Dle druhu aplikace dosahuje téˇz lepˇs´ıch výsledk˚u neˇz napˇr´ıklad DFT a dalˇs´ı [17].

• Model based

U této metody se pˇredpokládá, ˇze data reprezentuj´ıc´ı ˇcasovou ˇradu byla generována nˇejakým implicitn´ım modelem. C´ılem je tedy naj´ıt parametry daného modelu, ˇc´ımˇz je nalezena i reprezentaci dat. Zde se nejv´ıce uplatˇnuj´ı napˇr´ıklad Markovovy ˇretˇezce (MC), autoregressive moving average (ARMA) modely, autoregressive integrated moving average (ARIMA) modely ˇci Hidden Markov Models (HMM).

Nakonec uvád´ım na obr. 3.1 pro pˇrehlednost detailnˇejˇs´ı rozdˇelen´ı reprezentace. Kvalitnˇejˇs´ı obrázek je moˇzné nalézt v pˇr´ıloze B.

Obr´azek 3.1: Detailn´ı rozdˇelen´ı reprezentace ˇcasov´ych ˇrad (pˇrevzato z [18])

(17)

3.3 Klasifikace

S analýzou ˇcasových ˇrad souvis´ı nˇekteré základn´ı úlohy, jmenovitˇe napˇr´ıklad:

”query by con- tent“,

”anomaly detection“,

”motif discovery“,

”prediction“,

”clustering“,

”classification“,

”seg- mentation“ [13, s. 12:1]. Pro potˇreby t´eto pr´ace se zamˇeˇr´ım pouze na klasifikaci. V kontextu ˇ

casových ˇrad se klasifikace dá popsat jednoduˇse podle následuj´ıc´ı definice:

Definice 3. Mˇejme neklasifikovanou ˇcasovou ˇradu T. Klasifikac´ı ˇcasové ˇrady nazveme takový proces pˇriˇrazen´ı ˇcasové ˇrady do jedné z tˇr´ıdc_i z mnoˇzinyC ={c_i}, kdeC reprezentuje mnoˇzinu pˇreddefinovaných tˇr´ıd [13, s. 12:7].

Tato definice plat´ı analogicky jak pro podposloupnosti ˇcasové ˇrady, tak pro jednotlivé vzory, které se v n´ı vyskytuj´ı. Klasifikace v obecném kontextu je tedy proces, který vybraným vstup˚um pˇriˇrazuje vybrané výstupy.

3.3.1 Dˇ elen´ı dle supervize

Prvn´ı metodou je

”uˇcen´ı s uˇcitelem“. Jedná se o dvoukrokový proces [10, s. 328], kdy prvn´ım krokem je krok uˇc´ıc´ı, ve kterém docház´ı ke konstrukci klasifikaˇcn´ıho modelu na základˇe trénovac´ı mnoˇziny. Ta obsahuje vybraná data – vstupy – pro která jsou jiˇz známy korektn´ı klasifikaˇcn´ı tˇr´ıdy – výstupy. Výstupy jsou známy nejˇcastˇeji na základˇe manuáln´ıho oznaˇcen´ı. Druhým krokem je krok klasifikaˇcn´ı, ve kterém jiˇz docház´ı ke klasifikaci konkrétn´ıch tˇr´ıd pro data z mnoˇziny testovac´ı, pro která nen´ı klasifikaˇcn´ı tˇr´ıda známa.

Problémem pˇri tomto postupu bývá pˇreuˇcen´ı, coˇz pˇredstavuje stav, kdy je výbˇer testovac´ı mnoˇziny pˇr´ıliˇs úzce zamˇeˇren, mnoˇzina nen´ı dostateˇcnˇe obecná [10, s. 330]. Pro úˇcely ovˇeˇren´ı správnosti klasifikátoru je moˇzno pouˇz´ıt validaˇcn´ı mnoˇzinu, pˇriˇcemˇz plat´ı obecné pravidlo, ˇze by trénovac´ı, testovac´ı a validaˇcn´ı mnoˇzina mˇely být navzájem disjunktn´ı [19].

Opaˇcnou metodou je

”uˇcen´ı bez uˇcitele“, kdy nejsou známy poˇzadované výstupy. Jsou k dispozici jen data, na která jsou aplikovány metody, které vycház´ı zejména z podobnost´ı ve vstupn´ıch parametrech dat. Jedná se zejména o metodu shlukován´ı. [10, s. 330]

Existuje minim´alnˇe jeˇstˇe 1 dalˇs´ı metoda –

”ˇcásteˇcné uˇcen´ı s uˇcitelem“, která stoj´ı na pomez´ı dvou výˇse uvedených. Dle nˇekterých autor˚u je vˇsak obecné zaveden´ı nové metody diskutabiln´ı a dle d´ılˇc´ı konfigurace ji zaˇrazuj´ı pod metodu uˇcen´ı s uˇcitelem. [19, s. 15–16].

3.3.2 Dˇ elen´ı dle klasifikaˇ cn´ıho modelu

Existuj´ı v z´asadˇe 2 pˇr´ıstupy.

”Lazy learning“ a

”eager learning“.

Prvn´ı jmenovaný je zaloˇzen na pouhém uloˇzen´ı trénovac´ı mnoˇziny. Ke klasifikaci docház´ı aˇz po kontaktu s testovac´ı mnoˇzinou na základˇe podobnosti s trénovac´ı mnoˇzinou, respektive nˇejakým jej´ım prvkem. Mezi typické zástupce lazy learning metody patˇr´ı metoda

”nej- bliˇzˇs´ıch soused˚u“ ˇci metoda

”case-based reasoning“ (CBR) [10, s. 422–423]. Metoda CBR se vˇsak uplatˇnuje hlavnˇe ve znalostn´ıch databáz´ıch, pro ˇcasové ˇrady existuj´ı daleko vhodnˇejˇs´ı metody, jak ukáˇzi záhy.

Naproti tomu pˇr´ıstup eager learning spoˇc´ıvá v tom, ˇze na základˇe trénovac´ı mnoˇziny je pˇr´ımo vytvoˇren klasifikaˇcn´ı model jiˇz pˇred kontaktem s testovac´ı mnoˇzinou. Tento model je poté apli- kován na samotnou testovac´ı mnoˇzinu. Mezi zástupce této metody patˇr´ı de facto vˇsechny zbylé

(18)

metody mimo CBR a nearest neighbors [10, s. 422–423].

V následuj´ıc´ıch sekc´ıch struˇcnˇe pop´ıˇsu nˇekteré základn´ı metody klasifikace, z nichˇz vycházej´ı dalˇs´ı, pokroˇcilejˇs´ı metody klasifikace [10, s. 393]. Z tˇechto metod budu také dále vycházet v této práci.

3.3.3 Rule-based klasifikace

Jedná se o triviáln´ı IF-THEN pˇr´ıstup, kdy je moˇzné klasifikaˇcn´ı pravidla zapisovat ve tvaru IFrule antecedent THEN rule consequent,

pˇriˇcemˇz

”rule antecedent“ m´a v´yznam podm´ınky,

”rule consequent“ má význam úsudku [10, s. 355]. Je zˇrejmé, ˇze podm´ınek m˚uˇze být v´ıce. Ty jsou poté dávány do vztah˚u logickými spoj- kami AND ˇci OR. Jedná se o metodu, kdy je nutné, aby rozhodovac´ı pravidla byla pˇresnˇe spe- cifikována, nejˇcastˇeji ve spolupráci s doménovým expertem [23, s. 11]. Ten má hlubˇs´ı náhled do problematiky, pˇr´ıpadnˇe se téˇz m˚uˇze jednat o komunitn´ı znalosti, k ˇcemuˇz se dostanu v praktické ˇ

cásti. Tyto metody obecnˇe bývaj´ı téˇz oznaˇcovány jako

”hard computing“ metody.

3.3.4 Rozhodovac´ı stromy

Pojem

”strom“ je zde chápán v kontextu teorie graf˚u, pˇriˇcemˇz klasifikace atribut˚u pomoc´ı rozhodovac´ıch strom˚u spoˇc´ıvá ve vytvoˇren´ı hierarchické stromové struktury tak, ˇze kaˇzdý uzel (vˇetven´ı) reprezentuje test daného atributu a kaˇzdá vˇetev smˇeˇruj´ıc´ı z tohoto uzlu reprezentuje rozhodnut´ı. Je-li vˇetev zakonˇcena listem, pak se jedná pˇr´ımo o zaˇrazen´ı do klasifikaˇcn´ı tˇr´ıdy.

[19, s. 52–53] Rozhodovac´ı stromy je moˇzné pˇrevést do klasického IF-THEN pˇr´ıstupu, aniˇz by docházelo ke koliz´ım; klasifikaˇcn´ı pravidla se tedy budou navzájem vyluˇcovat. De facto tedy spadaj´ı pod rule-based metody, kam se téˇz nˇekdy zaˇrazuj´ı [10, s. 358].

3.3.5 Soft computing

Jedná se o mnoˇzinu v´ıce metod, které vˇsak na rozd´ıl od rule-based metod vˇcetnˇe rozhodovac´ıch strom˚u nepotˇrebuj´ı detailn´ı rozhodovac´ı pravidla, ale pˇri tˇechto metodách postaˇcuje základn´ı nutné minimum rozhodovac´ıch pravidel ˇci poˇzadovaný výsledek klasifikace. Daná metoda se jiˇz samostatnˇe snaˇz´ı dosáhnout poˇzadovaných výsledk˚u. Absence doménového experta v tˇechto pˇr´ıpadech tedy bývá daleko ménˇe citelnˇejˇs´ı neˇz v pˇr´ıpadˇe rule-based metod. [23, s. 12]

(19)

3.4 Metody rozpozn´ av´ an´ı vzor˚ u v ˇ casov´ ych ˇ rad´ ach

V této ˇcásti jiˇz struˇcnˇe shrnu vybrané metody respektive techniky rozpoznáván´ı (detekce) a klasifikace vzor˚u v ˇcasových ˇradách. Pˇri sestavován´ı seznamu metod jsem vycházel z v´ıce zdroj˚u, které se vˇsak v mnoha bodech shoduj´ı [20][21][22][24].

3.4.1 Nejbliˇ zˇ s´ı soused

Metoda nejbliˇzˇs´ıho souseda, 1-NN respektive k-NN, kde k pˇredstavuje poˇcet soused˚u, je rela- tivnˇe stará metoda, která byla popsána jiˇz v 50. letech 20. stolet´ı. Jedná se o metodu z mnoˇziny uˇcen´ı s uˇcitelem. Klasifikace prob´ıhá ve 2 fáz´ıch. Trénovac´ı fáze spoˇc´ıvá v pouhém uloˇzen´ı objekt˚u z trénovac´ı mnoˇziny spoleˇcnˇe s klasifikovanou tˇr´ıdou. V klasifikaˇcn´ı fázi je klasifikovanému objektu pˇriˇrazena stejná tˇr´ıda, jakou má k objekt˚u z trénovac´ı mnoˇziny, které jsou klasifiko- vanému objektu nejbl´ıˇze. Pojem

”nejbl´ıˇze“ zahrnuje r˚uzn´e druhy metrik, napˇr´ıklad euklidovsk´a ˇ

ci manhattansk´a a dalˇs´ı. [10, s. 423]

Metoda nejbliˇzˇs´ıch soused˚u obecnˇe je pro klasifikaci ˇcasových ˇrad dle dostupných zdroj˚u [26] úspˇeˇsnˇe pouˇzitelná. Konkrétnˇe metoda 1-NN je udávána [26][27] ve spolupráci s kˇr´ıˇzovou validac´ı jak standardn´ı metoda pro mˇeˇren´ı a vyhodnocován´ı pˇr´ınosnosti r˚uzných reprezentac´ı ˇcasových ˇrad, tak jako i standardn´ı metoda pro mˇeˇren´ı jejich podobnost´ı. Jej´ı znaˇcnou nevýhodou je vˇsak ˇspatná odolnost v˚uˇci ˇsumu.

3.4.2 Umˇ el´ e neuronov´ e s´ıtˇ e

Jedná se o metodu, jej´ıˇz koˇreny sahaj´ı aˇz do roku 1942 [30][31], která, dle konkrétn´ıho typu neuronové s´ıtˇe, umoˇzˇnuje vˇsechny moˇznosti supervize. Základem umˇelé neuronové s´ıtˇe je ma- tematický model biologického neuronu, respektive spojen´ı v´ıce tˇechto neuron˚u. Neuronová s´ıt’

je v ˇcase promˇenlivá, je moˇzné [23, s. 19] rozliˇsit 3 stavy této s´ıtˇe.

• Organizaˇcn´ı stav, ve kterém docház´ı ke zmˇenˇe topologie (architektury) s´ıtˇe. V základˇe existuj´ı dva typy architektur a to rekurentn´ı s´ıt’ a dopˇredná s´ıt’.

• Aktivn´ı stav, ve kterém se specifikuj´ı inicializaˇcn´ı stavy s´ıtˇe a který definuje zp˚usob zmˇeny stavu s´ıtˇe pˇri pevnˇe dané architektuˇre a konfiguraci.

• Adaptivn´ı stav, ve kterém docház´ı ke zmˇenám vah d´ılˇc´ıch neuronových spojen´ı. C´ılem adaptace je nalézt takovou konfiguraci, aby s´ıt’ v aktivn´ım reˇzimu realizovala poˇzadovanou funkci.

Problematika a dˇelen´ı neuronových s´ıt´ı je znaˇcnˇe hluboké téma, nicménˇe ve zkratce je moˇzné ˇr´ıci, ˇze je tato metoda pro naˇse úˇcely pouˇzitelná [10, s. 398–408][28]. V tomto kontextu maj´ı téˇz

´

uspˇechy samoorganizaˇcn´ı mapy [38]. ˇCasto zmiˇnovanou komplikac´ı vˇsak bývá netransparent- nost metody, relativnˇe komplexn´ı implementace r˚uzných metod, na druhou stranu jsou vˇsak neuronové s´ıtˇe znaˇcnˇe flexibiln´ı, odolné v˚uˇci ˇsumu a jsou obecnˇe robustn´ı [26] [10, s. 398] [29, s. 333–353].

3.4.3 Rozhodovac´ı stromy

Jak jsem jiˇz uvádˇel v sekci 3.3.4, jedná se o vytvoˇren´ı hierarchické rozhodovac´ı struktury.

Pro klasifikaci ˇcasových ˇrad a vyhledáván´ı vzor˚u v tˇechto ˇradách je vˇsak tato metoda znaˇcnˇe nevhodná. A to hlavnˇe z d˚uvod˚u v´ıcedimenzionality ˇcasových ˇrad ˇci z neodolnosti v˚uˇci ˇsumu.

Vzniklé stromy jsou udávány jako pˇr´ıliˇs hluboké a husté. [32] Coˇz znamená výpoˇcetn´ı nároˇcnost

(20)

a v kombinaci s ud´avanou nepˇresnost´ı je ˇcin´ı nevhodnou volbou.

Tento problém zˇcásti ˇreˇs´ı zaveden´ı metody regresn´ıch strom˚u [33]. Narozd´ıl od klasifikaˇcn´ıch nejsou pˇriˇrazovány objekt˚um konkrétn´ı tˇr´ıdy, ale jsou pro nˇe odhadovány numerické atribu- ty. Obˇe tyto metody zastˇreˇsuje metoda

”classification and regression tree“ (CART). Dalˇs´ı zlepˇsován´ı výsledk˚u poté uˇz záleˇz´ı jen na konkrétn´ıch pouˇzitých algoritmech. [34]

Casto uv´ˇ adˇenou nevýhodou u metody CART je fakt, ˇze tato metoda nen´ı zaloˇzena na pravdˇepodobnostn´ım modelu pˇri vyvozován´ı predikc´ı, ale spoléhá se pouze na splnˇen´ı poˇzadované predikce za urˇcených podm´ınek. Na druhou stranu mezi jej´ı výhody patˇr´ı mimo jiné schopnost vypoˇrádat se s vyˇsˇs´ı dimenzionalitou analyzovaných dat [35].

3.4.4 Clustering

Metody shlukován´ı nevyˇzaduj´ı supervizi a reprezentuj´ı techniky, kdy jsou datové objekty shlu- kovány do shluk˚u neboli cluster˚u, pˇriˇcemˇz objekty v clusteru jsou si podobné a zároveˇn jsou nepodobné objekt˚um v jiných clusterech [10, s. 108]. Jedn´ım z hlavn´ıch problém˚u pˇri identifi- kován´ı cluster˚u v datech je specifikace podobnosti objekt˚u a zp˚usob, jak tuto podobnost mˇeˇrit [36, s. 3].

Casov´ˇ e ˇrady je moˇzné shlukovat dle tˇr´ı základn´ıch pˇr´ıstup˚u. V prvn´ım se uvaˇzuje ˇcasová ˇrada jako celek, dále je moˇzné uvaˇzovat d´ılˇc´ı podposloupnosti této ˇcasové ˇrady a nakonec samotné d´ılˇc´ı body v ˇcasové ˇradˇe. [37] Pˇri tˇechto postupech je moˇzné uˇz´ıvat následuj´ıc´ıch základn´ıch metod clusteringu [37] [10, s. 448–451, 491].

• Partitioning method – nejprve je vytvoˇrena mnoˇzina k segment˚u, kde k pˇredstavuje poˇcet tˇechto segment˚u. Pot´e je pouˇzita

”iterative relocation technique“, která se pokouˇs´ı o zlepˇsen´ı segmentace pˇresouván´ım d´ılˇc´ıch objekt˚u mezi segmenty. Mezi nejznámˇejˇs´ı metody patˇr´ı zejména

”k-means“.

• Hierarchical method – spoˇc´ıv´a ve vytvoˇren´ı hierarchick´e struktury. Existuj´ı dva pˇr´ıstupy.

Prvn´ım je

”bottom-up“, kdy docház´ı ke shlukován´ı menˇs´ıch cluster˚u do vˇetˇs´ıch, druhým je ”top-down“, kdy se jeden velký cluster rozpadá na v´ıce menˇs´ıch. Výhodou je pˇrehledná vizualizace, nevýhodou uplatnitelnost sp´ıˇse na menˇs´ı datové sady, nebot’ tato metoda má kvadratickou sloˇzitost.

• Density-based method – objekty jsou shlukovány bud’ na základˇe hustoty sousedn´ıch objekt˚u nebo na základˇe hustotn´ı funkce.

• Grid-based method – v prvn´ı fázi jsou objekty uspoˇrádány do mˇr´ıˇzkového prostoru a ve druhé fázi je clustering provádˇen v rámci tohoto prostoru. Jednou z metod je napˇr´ıklad STING (z angl.

”STatistical INformation Grid“).

Jak se ukazuje, je metoda shlukován´ı úspˇeˇsnˇe aplikovatelná napˇr´ıklad v situaci, kdy je ˇcasová ˇrada rozdˇelena na segmenty, které jsou následnˇe hierarchicky shlukovány metodou bottom- up [39]. Je téˇz uplatnitelná pro hierarchickou top-down metodu [41]. Rozdˇelen´ım ˇcasové ˇrady na podposloupnosti, které jsou poté r˚uznými metodami shlukovány, se obecnˇe zabývalo vˇetˇs´ı mnoˇzstv´ı studi´ı. Výsledky jejich bádán´ı vˇsak byly ˇcasto nejasné a ukazuje se téˇz, ˇze efektivita bývá sporná s ohledem na potˇrebné pamˇet’ové zdroje [37]. Nˇekteré zdroje dokonce tvrd´ı, ˇze shlukován´ı podposloupnost´ı je bezvýznamné [40].

(21)

3.4.5 Fuzzy logika

Fuzzy logika, respektive fuzzy mnoˇziny zjemˇnuj´ı striktn´ı binárn´ı klasifikaci, ˇcernob´ılý pohled na vˇec. Jsou tedy daleko bl´ıˇze intuitivn´ımu lidskému uvaˇzován´ı. Pro lepˇs´ı pochopen´ı uvád´ım ilustrativn´ı obr. 3.2. Jedná se o klasifikaci platových tˇr´ıd v závislosti na výˇsi pˇr´ıjmu.

Obr´azek 3.2: Pˇr´ıklad fuzzy mnoˇzin pˇri klasifikaci platov´ych tˇr´ıd (pˇrevzato z [10])

Je zˇrejmé, ˇze pokud by se klasifikovalo binárnˇe, výsledkem by byly 3 ostré, neprot´ınaj´ıc´ı se mnoˇziny. Jelikoˇz ale je uvaˇzován fuzzy pˇr´ıstup, je výsledkem vˇerohodnˇejˇs´ı popis, kdy kaˇzdé hodnotˇe income z osy x odpov´ıdá stupeˇn pˇr´ısluˇsnosti na ose y z intervalu [0,1].

V kontextu detekce vzor˚u v ˇcasových ˇradách bývá tato metoda pouˇz´ıvána nejˇcastˇeji ve spolupráci s neuronovými s´ıtˇemi [41], pˇr´ıpadnˇe existuj´ı aplikace ve spolupráci se shlukovac´ımi metodami [42]. Zahrnut´ı fuzzy elementu je téˇz velice populárn´ı i ve finanˇcn´ı sféˇre [43, s. 279].

Dále existuj´ı i samotné modely fuzzy ˇcasových ˇrad, které najdou uplatnˇen´ı jak v detekci vzor˚u v nejistém (ve smyslu nepˇresném) prostˇred´ı, tak v predikci tˇechto ˇcasových ˇrad [44].

3.5 Popis zvolen´ ych dat a jejich v´ yznamu

Jako data, ve kterých budu vzory detekovat, jsem zvolil finanˇcn´ı ˇcasové ˇrady z trhu Forex (z angl. ”FOReing EXchange“). Ten minimálnˇe v posledn´ım desetilet´ı zaˇz´ıvá obrovský rozvoj, co se týˇce podpory potenciáln´ıch investor˚u. Jedná se zejména o vznik brokerských spoleˇcnost´ı, inter- netových komunit, vydáván´ı knih a dalˇs´ıˇs´ıˇren´ı informaˇcn´ı a vzdˇelávac´ı osvˇety. T´ım se dostávám k nejpodstatnˇejˇs´ımu d˚uvodu volby tˇechto ˇcasových ˇrad. Lze si relativnˇe snadno opatˇrit histo- rická data i v minimáln´ım ˇcasovém rámci 1M, tedy 1 minuta, a to od dob samotného vzniku trhu Forex. V pˇr´ıpadˇe této práce se jedná o data z obchodn´ı platformy spoleˇcnosti Oanda. Jako dalˇs´ı d˚uvod lze uvést fakt, ˇze v tˇechto ˇcasových ˇradách existuj´ı obecnˇe popsané a definované vzory, které je moˇzné hledat.

Na obr. 3.3 je uvedena ukázku grafu, který se skládá z elementárn´ıch sv´ıc´ı r˚uzných druh˚u, jejichˇz význam vysvˇetl´ım dále. Jedná se o ˇcasovou ˇradu s ˇcasovým rámcem 1 hodina (1H). Tato ˇrada charakterizuje vývoj kursu eura (EUR) v˚uˇci americkému dolaru (USD). Je zobrazen pouze omezený ˇcasový interval, datová sada od roku 1999 pro ˇcasový rámec 1H ˇc´ıtá pˇribliˇznˇe 100 000 sv´ıc´ı. Mým c´ılem je nalézt v takových ˇradách vˇsechny výskyty napˇr´ıklad vzoru zvýraznˇeného

(22)

na obr. 3.3 ˇci jeho

”m´ırnˇe“ odliˇsné varianty. Takové vzory mus´ı být nejdˇr´ıve formálnˇe zapsány.

Nav´ıc proces vyhledán´ı vzoru je nutno zautomatizovat, jelikoˇz kontrolovat ruˇcnˇe napˇr´ıklad 8 r˚uzných datových sad po 100 000 sv´ıc´ıch pro nˇekolik r˚uzných ˇcasových rámc˚u nen´ı optimáln´ı jak z hlediska ˇcasového, tak z hlediska chyby lidského faktoru.

Obrázek 3.3: Pˇr´ıklad ˇcasové ˇrady reprezentované sv´ıcovým grafem

Motivac´ı k vyˇreˇsen´ı takového problému m˚uˇze být napˇr´ıklad snaha z´ıskat vstupn´ı informace pro technickou analýzu daného finanˇcn´ıho instrumentu, respektive trhu. Na základˇe mimo jiné tˇechto znalost´ı je moˇzné poté napˇr´ıklad registrovat novˇe vznikaj´ıc´ı vzory, které se jiˇz objevily v minulosti, a tud´ıˇz s urˇcitou pravdˇepodobnost´ı je moˇzné urˇcit dalˇs´ı vývoj aktuáln´ı situace.

Term´ın

”technická analýza“ je moˇzné chápat jako:

”...analýza cenových pohyb˚u, rychlosti jejich zmˇen a objemu z hlediska historie, vycház´ı tedy ze studia minulého trˇzn´ıho chován´ı mˇeny, indexu ˇ

ci komodity...“ [50]. Podstatn´a je zejm´ena z toho d˚uvodu, ˇze:

”...je jedn´ım z nejvýznamnˇejˇs´ıch nástroj˚u pouˇz´ıvaných k prognóze chován´ı finanˇcn´ıch trh˚u. Osvˇedˇcila se jako efektivn´ı nástroj investor˚u a stále v´ıce úˇcastn´ık˚u na trhu ji pouˇz´ıvá...“[51]. Na tomto m´ıstˇe je vhodné uvést, ˇze sv´ıcové grafy se netýkaj´ı pouze finanˇcn´ı sféry, ale jejich uplatnˇen´ı lze nalézt i v jiných oblastech [56][57].

3.5.1 Struktura grafu a dat

Jako trénovac´ı sadu dat pro tuto práci jsem vybral mˇenový pár EURUSD (euro/americký dolar) s ˇcasovým rámcem 1H a jako testovac´ı datovou sadu jsem zvolil USDCHF (americký dolar/ˇsvýcarský frank) se stejným ˇcasovým rámcem. D˚uvodem volby tˇechto pár˚u je fakt, ˇze se jedná o jedny ze 7 hlavn´ıch a také nejv´ıce obchodovaných pár˚u [52]. Nav´ıc se jedná o mˇenový

(23)

pár s negativn´ı korelac´ı limitnˇe se bl´ıˇz´ıc´ı hodnotˇe c = -1 [70][71]. To znamená, ˇze pokud kurs EURUSD poroste, kurs USDCHF poklesne o stejnou hodnotu a vice versa. Dá se tedy s urˇcitým zobecnˇen´ım pˇredpokládat, ˇze klasifikátor vytvoˇrený na základˇe trénovac´ı mnoˇziny reprezentované daty mˇenového páru EURUSD je úspˇeˇsnˇe aplikovatelný na testovac´ı mnoˇzinu reprezentovanou mˇenovým párem USDCHF. Pakliˇze by byla uvaˇzována jako testovac´ı mnoˇzina dat jiný mˇenový pár neˇz USDCHF, bylo by vhodné data nejdˇr´ıve analyzovat, aby se zjistilo, zdali je tento postup korektn´ı.

Casov´ˇ y rámec si lze pˇredstavit jako ˇcasový interval, který je charakterizován nejˇcastˇeji 4 pˇr´ıpadnˇe 5 hodnotami, které shrnuj´ı dˇen´ı na trhu (mˇenovém páru) v daném ˇcasovém intervalu. Nejˇcastˇeji se jedná o rámce o hodnotách 1, 5, 15, 30, 60, 240, 1 440 nebo i 10 080, kde ˇ

c´ıselná hodnota reprezentuje délku ˇcasového rámce v minutách. Je zˇrejmé, ˇze ˇc´ım vˇetˇs´ı je délka ˇ

casového rámce, t´ım menˇs´ı je poˇcet sv´ıc´ı v datové sadˇe a t´ım vˇetˇs´ı je jejich informaˇcn´ı hodnota.

Mnou zvolený ˇcasový rámec 1H je bˇeˇznˇe udáván v kontextu intradenn´ıho obchodován´ı [69].

Pokud bych chtˇel provádˇet hlubˇs´ı analýzu detekce vzor˚u, bylo by vhodné, abych bral v úvahu r˚uzné ˇcasové rámce.

Zm´ınˇen´ych 5 hodnot se bˇeˇznˇe oznaˇcuje jako Open,High,Low,Close aVolume. Pˇredstavuj´ı n´asleduj´ıc´ı informace:

• Open – otv´ırac´ı cena; hodnota v poˇcátku ˇcasového rámce

• High – nejvyˇsˇs´ı dosaˇzená cena v ˇcasovém rámci, za kterou se obchodovalo

• Low – nejniˇzˇs´ı dosaˇzená cena v ˇcasovém rámci, za kterou se obchodovalo

• Close – uzav´ırac´ı cena; hodnota v konci ˇcasov´eho r´amce

• Volume – mnoˇzstv´ı zobchodovan´e mˇeny

Následuje ukázka, v jakém formátu jsou pouˇzitá historická data exportována z obchodn´ı platformy do souboru ve formátu CSV. Kaˇzdý ˇrádek reprezentuje jednu sv´ıc´ı, celkem tedy má soubor pˇribliˇznˇe dˇrive zm´ınˇených 100 000 ˇrádk˚u. Jedná se o mˇenový pár EURUSD, ˇcasový rámec 1H.

Datum, ˇCas, Open, High, Low, Close, Volume ...

2011.11.11,12:00,1.37769,1.37944,1.37466,1.37473,4694 2011.11.11,13:00,1.37472,1.37706,1.37446,1.37523,3522 2011.11.11,14:00,1.37527,1.37716,1.37526,1.37672,1787 ...

3.5.2 Sv´ıcov´ y graf

V praxi se k zobrazován´ı uvedených hodnot pouˇz´ıvaj´ı nejˇcastˇeji schodové ˇci sv´ıcové grafy. Oba dva typy spadaj´ı do mnoˇziny

”OHLC“ (Open, High, Low, Close) graf˚u. Hlavn´ı rozd´ıl mezi nimi je v ˇcitelnosti pro ˇclovˇeka. Je pak pochopitelné, ˇze se prosadily sv´ıcové grafy na úkor scho- dových a jsou dnes de facto standardem. Aˇckoliv jsou sv´ıcové grafy starˇs´ı neˇz schodové, masovˇe se rozˇs´ıˇrily relativnˇe nedávno – jejich expanze po svˇetˇe zaˇcala z Japonska pˇribliˇznˇe v roce 1989 d´ıky Stevu Nisonovi. [53]. Dále se budu zabývat jiˇz jen sv´ıcovými grafy.

(24)

Elementárn´ım prvkem sv´ıcového grafu je sv´ıce, která je charakterizována ˇctyˇrmi, respektive pˇeti parametry. Základn´ı typy sv´ıc´ı [54, s. 3][55, s. 4] se základn´ımi i odvozenými parametry jsou znázornˇeny na obr. 3.4.

High

Close

Open

Low High

Open

Close

Low

Reálné tělo

Dolní stín Horní stín

Tělo

Obrázek 3.4: Základn´ı typy sv´ıc´ı s vyznaˇcenými parametry sv´ıc´ı

Z nˇej je zˇrejmé, ˇze ˇcerná sv´ıce reprezentuje stav, kdy kurs mˇeny klesá, jelikoˇz hodnotaOpen je vˇetˇs´ı neˇz hodnota Close. U b´ılé sv´ıce je tomu naopak, tedy hodnota Open je menˇs´ı neˇz hodnota Close, takˇze kurs mˇeny roste.

Sv´ıce mohou nabývat r˚uzných d´ılˇc´ıch parametr˚u a podle toho se také bude mˇenit jejich podoba – napˇr´ıklad pozice a velikost reálného tˇela a s t´ım souvisej´ıc´ı délka st´ın˚u, apod. Bliˇzˇs´ı specifikac´ı parametr˚u se budu zabývat dále.

3.5.3 Trend

Tento pojem si lze zjednoduˇsenˇe pˇredstavit jako smˇer, kterým se vydává trh, respektive ˇcasová ˇrada reprezentována sv´ıcemi. Bud’ ˇrada poroste, bude klesat nebo bude stagnovat. Pokud bych chtˇel být opravdu korektn´ı a chtˇel bych, aby tato práce mˇela o nˇeco vˇetˇs´ı praktický pˇr´ınos, mu- sel bychom pro kaˇzdou sv´ıcovou formaci uvaˇzovat i trend, v jakém se formace nacház´ı. Nebot’

jak uvád´ı Morris [58, s. 212–213], existence daného vzoru ve sv´ıcovém grafu nen´ı dána pouze vztahem mezi daty, které reprezentuj´ı vzor, ale je také dána trendem, který pˇredcház´ı výskytu tohoto vzoru. Coˇz, jak dodává, je v souˇcasné tématické literatuˇre ˇcasto opom´ıjeno.

3.5.4 Klouzav´ y pr˚ umˇ er

K urˇcován´ı trendu je moˇzné pouˇz´ıt nástroj zvaný klouzavý pr˚umˇer (MA), který ˇcasovou ˇradu

”vyhlazuje“, takˇze nejsou tolik patrná lokáln´ı minima ˇci maxima. V této práci jej vyuˇziji pro stanovován´ı pr˚umˇerné velikosti reálného tˇela sv´ıce. Tato velikost je urˇcena pro dalˇs´ı klasifikaci sv´ıce a jejich vzor˚u, jak ukáˇzi v dalˇs´ı kapitole. Je totiˇz nutné si uvˇedomit, ˇze je potˇreba uvaˇzovat sv´ıci v urˇcitém omezeném ˇcasovém kontextu, nen´ı moˇzné pouˇz´ıt napˇr´ıklad aritmetický pr˚umˇer ˇ

ci medián dat za napˇr. posledn´ıch 10 let, výsledky by nebyly pˇresné. Klouzavý pr˚umˇer zadefi- nujeme následovnˇe [59].

(25)

Definice 7. Mˇejme posloupnost P reálných ˇc´ıselr1, ..., rn. Klouzavým pr˚umˇerem (M A)b s báz´ı b pro prvekrn nazveme takovou posloupnost reálných ˇc´ısel, pro kterou plat´ı, ˇze (M A)b =

b

P

i=1

Di

b , kde D_i pˇredstavuje prvky posloupnosti rn−1, ..., rn−b.

Jelikoˇz tato definice nemus´ı být srozumitelná, uvád´ım následuj´ıc´ı praktický pˇr´ıklad. Pˇrevzato a upraveno [60].

Pˇr´ıklad 1. Mˇejme posloupnost P = (2,4,6,5,4,3,2,4), která reprezentuje hodnoty Close pro hodinový ˇcasový rámec. Dále mˇejme bázi b = 3, která reprezentuje, pro jak dlouhá obdob´ı chceme klouzavý pr˚umˇer poˇc´ıtat.

1. ˇclen MA se spoˇcte jako: ²⁺⁴⁺⁶₃ = 4.

2. ˇclen MA se spoˇcte jako: ⁴⁺⁶⁺⁵₃ = 5.

3. ˇclen MA se spoˇcte jako: ⁶⁺⁵⁺⁴₃ = 5.

...

Nakonec z´ıskám klouzavý pr˚umˇer pro tuto posloupnost jako: 4,5,5,4,3,3,3. Je tedy zˇrejmé, ˇze klouzavý pr˚umˇer je de facto aritmetický pr˚umˇer za urˇcité obdob´ı.

Ilustraˇcn´ı zobrazen´ı klouzavého pr˚umˇeru je na obr. 3.5. Jedná se o mˇenový pár americký dolar/ˇsvýcarský frank na ˇcasovém rámci 1 hodina. Báze klouzavého pr˚umˇeru odpov´ıdá 12 hodinám. Je patrné, ˇze pˇreruˇsována kˇrivka reprezentuj´ıc´ı klouzavý pr˚umˇer hodnot Close má z definice zpoˇzdˇen´ı a ˇcasovou ˇradu opravdu

”vyhlazuje“.

časová hodnota

kursová hodnota

Obrázek 3.5: Demonstrace MA na mˇenovém páru USDCHF 1H pro b = 12

Mimo tento typ klouzavého pr˚umˇeru, který se téˇz nazývá jednoduchý klouzavý pr˚umˇer, existuj´ı i dalˇs´ı typy klouzavých pr˚umˇer˚u, napˇr´ıklad exponenciáln´ı ˇci váˇzený. V této práci uvaˇzuji jen jednoduchý.

(26)

4.1 Volba vhodn´ ych metod pro detekci vzor˚ u

Pro detekci vzor˚u v ˇcasových ˇradách jsem se rozhodl vyuˇz´ıt metod rule-based, fuzzy a modi- fikované klasifikaˇcn´ı z oblasti uˇcen´ı s uˇcitelem, coˇz rozeberu dále. Hlavn´ımi prioritami pro mˇe byla transparentnost a intuitivnost pouˇzitých metod jako i dostupná moˇznost vlastn´ıho návrhu a programové implementace od základ˚u spoleˇcnˇe s klasifikaˇcn´ı architekturou. V kombinaci se zvolenými daty se jednalo o pˇrijatelnou volbu, jelikoˇz pˇr´ıbuzným tématem a metodami se jiˇz nˇekteré studie zabývaly [45].

4.1.1 Rule-based metoda

Pro tuto metodu nen´ı nutné rozeb´ırat dalˇs´ı detaily, vystaˇc´ı zde popis, který byl jiˇz rozeb´ırán v teoretické ˇcásti.

4.1.2 Fuzzy mnoˇ ziny

S ohledem na výbˇer fuzzy metody se v této ˇcásti zamˇeˇr´ım na bliˇzˇs´ı popis a pouˇzit´ı fuzzy mnoˇzin, coˇz jsem dˇr´ıve popsal jen zbˇeˇznˇe. Tyto poznatky vyuˇziji k praktickému návrhu.

Definice 4. Mˇejme pevnˇe zvolenou univerz´aln´ı mnoˇzinu X. Fuzzy mnoˇzinou A univerza X budeme rozumˇet objekt popsan´y charakteristickou funkc´ı

µ_A :X →[0,1], (4.1)

kterou téˇz nazýváme funkce pˇr´ısluˇsnosti. Pro kaˇzdý prvek x ∈X hodnota µA(x)∈ [0,1] ˇr´ıká, do jaké m´ıry je x prvkem fuzzy mnoˇziny A. Kaˇzdá funkce z X do [0, 1] urˇcuje jednoznaˇcnˇe nˇejakou fuzzy mnoˇzinu. [48]

Libovolnou fuzzy mnoˇzinu je moˇzné popsat jej´ı funkc´ı pˇr´ısluˇsnosti, která je téˇz známá jako ˇ

clenská funkce. Jako pˇr´ıklad [48] je moˇzné uvést univerzum X = R a mnoˇziny A, B, které je moˇzné zapsat pˇredpisem

µA(x) =











0 pro x <0, x pro x∈[0,1], 2−x pro x∈(1,2], 0 pro x >2,

µ_B(x) =











1

2 pro x= 3, 1 pro x= 4,

1

4 pro x= 5, 0 jinak.

Pro ilustraˇcn´ı zobrazen´ı fuzzy mnoˇzin odkáˇzi opˇet na obr. 3.2. Mimo toto zobrazen´ı funkce pˇr´ısluˇsnosti, známé téˇz jako lichobˇeˇzn´ıkové, existuj´ı i dalˇs´ı základn´ı typy. Napˇr´ıklad trojúhel- n´ıkové,

”Gaussian“,

”illogical“,

”asymmetrical Gaussian“ a dalˇs´ı. [47, s. 12–15]

Pro potˇreby této práce jeˇstˇe pop´ıˇsi nˇekteré logické operace nad fuzzy mnoˇzinami. Pro tyto

´

uˇcely mˇejme fuzzy mnoˇzinyM¹,M² definované pro xz univerzaX a s nimi asociované ˇclenské 15

(27)

funkce µ¹(x),µ²(x) [47, s. 16–17].

Definice 5. Fuzzy konjunkc´ı (AND) M¹ ∩M² nazveme takovou fuzzy mnoˇzinu, pro kterou bude platit µ^M¹^∩M²(x) = min{µ¹(x), µ²(x) :x∈X}.

Definice 6. Fuzzy disjunkc´ı (OR)M¹∪M² nazveme takovou fuzzy mnoˇzinu, pro kterou bude platit µ^M¹^∪M²(x) = max {µ¹(x), µ²(x) :x∈X}.

Z toho je tedy zˇrejmé, ˇze se budu drˇzet klasického pˇr´ıstupu zakladatele fuzzy logiky a fuzzy mnoˇzin, kterým je Lotfali Askar Zadeh. V kontextu fuzzy pˇr´ıstupu je nutné popsat dalˇs´ı procesy, které souvis´ı s jejich praktickým pouˇzit´ım. Jedná se zejména o následuj´ıc´ı kroky [49, s. 18].

• Fuzzification – spoˇc´ıvá v pˇrevodu klasických ˇci ostrých dat do fuzzy dat nebo do ˇclenských funkc´ı; jedná se napˇr´ıklad o definici oblast´ılow,medium a high na obr. 3.2

• Fuzzy inference process – spoˇc´ıvá v kombinaci ˇclenských funkc´ı spoleˇcnˇe se zvolenými pravidly, ˇc´ımˇz tvoˇr´ıfuzzy output

• Defuzzification – na základˇe vstupu vyb´ırá konkrétn´ı

”fuzzy output“; jedn´a se napˇr´ıklad o klasifikaci konkr´etn´ı tˇr´ıdy

4.1.3 Modifikovan´ a klasifikaˇ cn´ı metoda

Necht’ existuj´ı 2 datové sady, které slouˇz´ı jako trénovac´ı a testovac´ı mnoˇzina. V prvn´ı sadˇe naleznu poˇzadované vzory metodami rule-based a fuzzy. Z takto nalezených vzor˚u následnˇe vytvoˇr´ım matici pr˚umˇerného vzoru, tedy jak by mˇel pravdˇepodobnˇe vypadat ideáln´ı vzor. T´ımto postupem si de facto vytvoˇr´ım 2 trénovac´ı mnoˇziny. Poté vyuˇziji druhou sadu, testovac´ı, kde se pokus´ım tyto vzory nalézt na základˇe procentuáln´ı odchylky testovaných dat od ideáln´ıho, pr˚umˇerného vzoru. Bliˇzˇs´ı popis jako i implementaˇcn´ı detaily této metody uvedu záhy.

4.2 Modelace sv´ıc´ı a vzor˚ u

V této ˇcásti zm´ın´ım obecné základn´ı poznatky k modelaci sv´ıc´ı a jejich vzor˚u, které plat´ı napˇr´ıˇc metodami. Modelaci v rámci konkrétn´ıch metod rozvedu v následuj´ıc´ı sekci 4.3.

4.2.1 Uvodn´ı slovo k modelaci ´

Neˇz se pust´ım do formalizace sv´ıc´ı, vzor˚u a jejich modelace, povaˇzuji za vhodné uvést nˇekterá fakta. Zdrojem pro tuto sekci jeEncyclopedia of Candlestick Charts, jej´ımˇz autorem je Thomas N. Bulkowski [55]. Ten strávil analýzou grafových vzor˚u znaˇcnou ˇcást svého ˇzivota, na toto téma napsal nˇekolik knih a je moˇzné jej povaˇzovat za autoritu v této oblasti. V této konkrétn´ı knize analyzoval a tˇr´ıdil sv´ıcové grafy s ohledem na frekvenci jejich výskytu, schopnost mˇenit trend, dále i s ohledem na jejich schopnost generovat zisk atp. Analýzu provádˇel na datech, která reprezentuj´ı kompletn´ı akciový trh S&P 500 za dobu 10 let [55, s. 4].

Zde je vhodné podotknout, ˇze analýza akciových trh˚u se pˇr´ıliˇs nesluˇcuje s mnou analy- zovaným trhem Forex. Je vˇsak vhodné brát v úvahu, ˇze v knize uvedené sv´ıcové formace ˇci elementárn´ı sv´ıce jsou aˇz na výjimky k nalezen´ı v de facto libovolném finanˇcn´ım trhu a bˇeˇznˇe jsou v komunitˇe pouˇz´ıvány. Jak autor sám dále uvád´ı, tak ostatn´ı výzkumn´ıci mohou docházet k jiným výsledk˚u neˇz k tˇem, které prezentuje on. Dle nˇej mohou být na vinˇe zejména metody detekce vzor˚u, data pouˇzitá pˇri testován´ı, pouˇzitá ˇcasová perioda, ale téˇz i r˚uzná mˇeˇr´ıtka

(28)

v´ykonnosti d´ılˇc´ıch vzor˚u. [55, s. 6]

V tomto kontextu povaˇzuji dále za vhodné zm´ınit téˇz výrok mezivládn´ı vˇedecké organizace IPCC (Intergovernmental Panel on Climate Change), která je nechvalnˇe známá v souvislosti s tzv.

”hockey stick controversy“ [63][65] ˇci o nˇeco pozdˇeji s af´erou obecnˇe zn´amou jako

”Cli- mategate“ [64][66]:

”Plnˇe uznáváme, ˇze mnohá z uvedených tvrzen´ı jsou do jisté m´ıry zaloˇzena na subjektivn´ım vˇedeckém vn´ımán´ı a obsahuj´ı komunit´ı a osobn´ı vˇedomosti. Napˇr´ıklad pouhý výbˇer promˇenných a proces˚u, které jsou do modelu zahrnuty, je vˇetˇsinou zaloˇzen pouze na dojmech a zkuˇsenostech modelovac´ı komunity.“ [62] Pˇrevzato z [23, s. 105].

Nemˇelo by se taktéˇz zapom´ınat na to, ˇze tato práce se nezabývá analýzou a tˇr´ıdˇen´ım dle r˚uzných kritéri´ı jakoEncyclopedia of Candlestick Charts, nýbrˇz jen samotným formulován´ım a vyhledán´ım vzor˚u. Povaˇzoval jsem vˇsak za vhodné výˇse uvedené skuteˇcnosti zm´ınit a uvést na pravou m´ıru.

4.2.2 Volba vzor˚ u

Jako demonstraˇcn´ı vzory pro schopnost rozpoznán´ı jsem zvolil 2 pomˇernˇe základn´ı a velmi známé vzory, které uvád´ı Bulkowski [55]. Jedná se o vzor

”three black crows“ zn´azornˇen na obr. 4.1 a vzor

”three white soldiers“ na obr. 4.2.

Obr´azek 4.1: Ilustraˇcn´ı zobrazen´ı vzoru three black crows (pˇrevzato z [55])

Obr´azek 4.2: Ilustraˇcn´ı zobrazen´ı vzoru three white soldiers (pˇrevzato z [55])

V pˇr´ıpadˇe three black crows se jedná o vzor tˇr´ı po sobˇe jdouc´ıch dlouhých ˇcerných sv´ıc´ı s krátkými st´ıny a s klesaj´ıc´ı tendenc´ıOpen aClosehodnot sv´ıc´ı, coˇz reprezentuje pokles daného kurzu. Analogie je v pˇr´ıpadˇe three white soldiers zjevná. Pojem jako

”dlouh´ych“ ˇci

”kr´atk´ymi“

je znaˇcnˇe vágn´ı a ani autoˇri samotn´ı jej exaktnˇe nedefinuj´ı, aˇckoliv jisté snahy existuj´ı, viz [58, s. 215–218][67, s. 16–21]. Z tˇech také budu dále vycházet. Vzor three black crows dále budu oznaˇcovat jako vzor

”A“, vzor three white soldiers jako vzor

”B“. Dále je vhodné dodat, jak téˇz uvád´ı Bulkowski, ˇze exaktn´ı podobu tˇechto vzor˚u fakticky nelze nalézt, vˇzdy je nutné

(29)

uvaˇzovat jistou vizuáln´ı odliˇsnost. Téˇz uvád´ı, ˇze u tˇechto vzor˚u staˇc´ı kontrolovat podm´ınku barvy sv´ıc´ı a délky jejich reálných tˇel a dále je moˇzné si vystaˇcit jen s hodnotami Open ˇci jen s hodnotami Close. Údajnˇe na základˇe jeho pozorován´ı, jaká je n´ızká pravdˇepodobnost, ˇze se vyskytnou tˇesnˇe za sebou 3 znaˇcnˇe nadpr˚umˇernˇe dlouhé sv´ıce stejné barvy s rostouc´ı nebo klesaj´ıc´ı tendenc´ı.

4.2.3 Parametry modelu d´ılˇ c´ı sv´ıce

Pˇri vytváˇren´ı model˚u sv´ıce jsem ˇcásteˇcnˇe vyˇsel z [45]. Parametry je moˇzné si pracovnˇe rozdˇelit na ”statické“ a

”dynamické“. V pˇr´ıpadˇe statických parametr˚u se jedná o hodnoty, které nezávis´ı na modelac´ıch, které provádˇej´ı r˚uzn´ı autoˇri.

Mezi statické parametry sv´ıce se ˇrad´ı barva sv´ıce. Ta je bez újmy na obecnosti dvoj´ı: ˇcerná a b´ılá. Sv´ıci typu

”doji“ – kdy hodnota Open odpov´ıdá hodnotˇe Close a sv´ıce tedy barvu nemá – zde s ohledem na vybrané demonstraˇcn´ı vzory neuvaˇzuji. Dále mezi statické parametry patˇr´ı numerické hodnoty velikosti tˇela sv´ıce, velikosti reálného tˇela sv´ıce, jako i délky st´ın˚u sv´ıce.

Za dynamické parametry je moˇzné povaˇzovat dˇelen´ı statických parametr˚u do velikostn´ıch tˇr´ıd. Délku reálného tˇela sv´ıce jsem rozdˇelil do 5 velikostn´ıch tˇr´ıd: XS, S, M, L, XL. Klasifikaci do konkrétn´ı tˇr´ıdy jsem urˇcoval na základˇe hodnoty p₁, pod´ılu velikosti reálného tˇela sv´ıce s klouzavým pr˚umˇerem reálného tˇela sv´ıce za posledn´ıch N ˇcasových rámc˚u, tedy

p₁ = velikost re´aln´eho tˇela sv´ıce

klouzavý pr˚umˇer reálného tˇela sv´ıce za posledn´ıch N rámc˚u.

Autoˇri se obecnˇe neshoduj´ı na konkrétn´ı bázi klouzavého pr˚umˇeru, jelikoˇz záleˇz´ı na kon- krétn´ıch obchodn´ıch strategi´ıch, nicménˇe je moˇzné vyj´ıt z báze 21 dn˚u, která je v obchodn´ı komunitˇe relativnˇe bˇeˇzná a uznávaná [68].

Dále jsem uvaˇzoval ve 3 velikostn´ıch tˇr´ıdách délku st´ınu sv´ıce. Jedná se o tˇr´ıdy:S,M,L. Kla- sifikaci do konkrétn´ı tˇr´ıdy jsem urˇcoval na základˇe pod´ılup₂, který st´ıny tvoˇr´ı v tˇele sv´ıce neboli

p₂ = velikost horn´ıho st´ınu + velikost doln´ıho st´ınu velikost tˇela sv´ıce .

Jelikoˇz parametr Volume nemá ˇzádný vliv na to, jak libovolná sv´ıce vypadá, dovolil jsem si provést odebrán´ı tohoto parametru. V pˇr´ıpadˇe, ˇze bych se zabýval rozpoznáván´ım vzor˚u v kontextu napˇr´ıklad ekonomického pˇr´ınosu ˇci predikce vývoje ˇcasové ˇrady, pak bych jej zohledˇnovat mˇel.

4.2.4 Parametry modelu sv´ıcov´ ych vzor˚ u

Pˇri modelaci vzoru A vyjdu z následuj´ıc´ıch pˇredpoklad˚u, které mus´ı platit zároveˇn.

• vzor se skládá ze tˇr´ı tˇesnˇe po sobˇe následuj´ıc´ıch ˇcerných sv´ıc´ıC_n, C_n+1, C_n+2

• velikostn´ı tˇr´ıda reálného tˇela kaˇzdé sv´ıce je XL

(30)

• velikostn´ı tˇr´ıda st´ınu kaˇzd´e sv´ıce je S

• pro posloupnost hodnot Open sv´ıc´ıC_n, C_n+1, C_n+2 plat´ı, ˇze je klesaj´ıc´ı

Pˇri modelaci vzoru B vyjdu z následuj´ıc´ıch pˇredpoklad˚u, které mus´ı platit zároveˇn.

• vzor se skládá ze tˇr´ı tˇesnˇe po sobˇe následuj´ıc´ıch b´ılých sv´ıc´ıC_n, C_n+1, C_n+2

• velikostn´ı tˇr´ıda reálného tˇela kaˇzdé sv´ıce je XL

• velikostn´ı tˇr´ıda st´ınu kaˇzd´e sv´ıce je S

• pro posloupnost hodnot Open sv´ıc´ıC_n, C_n+1, C_n+2 plat´ı, ˇze je rostouc´ı

4.3 Modelace sv´ıc´ı a vzor˚ u navrˇ zen´ ymi metodami

V této ˇcásti jiˇz uvád´ım modelace sv´ıc´ı a vzor˚u pomoc´ı konkrétn´ıch metod spoleˇcnˇe s nume- rickými hodnotami a pseudokódy. Popsané metody tedy jiˇz umoˇzˇnuj´ı vyhledáván´ı vzor˚u.

4.3.1 Urˇ cen´ı z´ akladn´ıch parametr˚ u sv´ıc´ı

Nejdˇr´ıve pop´ıˇsi, jak jsem urˇcoval základn´ı parametry d´ılˇc´ıch sv´ıc´ı. Jmenovitˇe barvu sv´ıce, dále velikosti horn´ıho a doln´ıho st´ınu a nakonec velikost tˇela sv´ıce, jako i velikost reálného tˇela sv´ıce.

Vˇsechny tyto parametry jsou nezávislé na pouˇzit´ı metod a plat´ı tedy univerzálnˇe. Je d˚uleˇzité zm´ınit, ˇze pokud chci klasifikovat velikostn´ı tˇr´ıdy jako i vzory, mus´ım nejdˇr´ıve urˇcit hodnoty uvedených parametr˚u.

V následuj´ıc´ım pseudokódu popisuji urˇcen´ı barvy COLOR sv´ıceC, která je charakterizována hodnotami OPENa CLOSE.

Pseudok´od pro pˇriˇrazen´ı barvy sv´ıce 1: if (C.OPEN>C.CLOSE)then 2: C.COLOR = BLACK

3: end if

4: if (C.OPEN<C.CLOSE)then 5: C.COLOR = WHITE

6: end if

Dále popisuji pˇriˇrazen´ı velikost´ı st´ın˚u pro sv´ıciC, která je charakterizována hodnotamiOPEN, HIGH, LOW,CLOSE. Velikost horn´ıho st´ınu znaˇc´ım UPSHADOW, velikost doln´ıho st´ınu LOWSHADOW.

Pseudok´od pro pˇriˇrazen´ı velikosti st´ın˚u sv´ıce 1: if (C.OPEN≥C.CLOSE)then

2: C.UPSHADOW = C.HIGH - C.OPEN 3: C.LOWSHADOW = C.CLOSE - C.LOW 4: end if

5: if (C.OPEN<C.CLOSE)then

6: C.UPSHADOW = C.HIGH - C.CLOSE 7: C.LOWSHADOW = C.OPEN - C.LOW 8: end if

Nakonec popisuji pˇriˇrazen´ı velikosti tˇela sv´ıce BS, dále velikosti reálného tˇela sv´ıce RBS a téˇz délky st´ınuSL pro sv´ıci C. Ta je opˇet charakterizována hodnotami OPEN, HIGH, LOW,CLOSE.

Zkratka abspˇredstavuje absolutn´ı hodnotu.

Pseudokód pro pˇriˇrazen´ı velikosti tˇela sv´ıce, reálného tˇela sv´ıce a délky st´ınu sv´ıce 1: C.BS = C.HIGH - C.LOW

(31)

2: C.RBS = abs (C.OPEN - C.CLOSE)

3: C.SL = C.UPSHADOW + C.LOWSHADOW

T´ım jsem urˇcil základn´ı parametry sv´ıc´ı, dále jiˇz rozeberu konkrétn´ı metody, které klasifikuj´ı velikostn´ı tˇr´ıdy reálného tˇela sv´ıce a velikosti st´ınu sv´ıce.

4.3.2 Rule-based metoda

V následuj´ıc´ıch pseudokódech popisuji metody klasifikace délky reálného tˇela RBS sv´ıce C.

Znaˇcen´ıMA(RBS) reprezentuje klouzavý pr˚umˇer délky reálného tˇela sv´ıce Cza dˇr´ıve zm´ınˇených 21 dn´ı. Jedná se o 5 metod pro 5 velikostn´ıch tˇr´ıd.

Pseudokód metody, která urˇcuje, zdali je velikostn´ı tˇr´ıda reálného tˇela sv´ıce XS 1: booleanisRBSTypeXS()

2: if (C.RBS≤C.MA(RBS)×0.1)then 3: return true

4: end if 5: return false

Pseudokód metody, která urˇcuje, zdali je velikostn´ı tˇr´ıda reálného tˇela sv´ıce S 1: booleanisRBSTypeS()

2: if C.RBS>C.MA(RBS)×0.1andC.RBS≤0.65×C.MA(RBS)then 3: return true

Pseudokód metody, která urˇcuje, zdali je velikostn´ı tˇr´ıda reálného tˇela sv´ıce M 1: booleanisRBSTypeM()

2: if (C.RBS>C.MA(RBS)×0.65andC.RBS≤1.35×C.MA(RBS)then 3: return true

Pseudokód metody, která urˇcuje, zdali je velikostn´ı tˇr´ıda reálného tˇela sv´ıce L 1: booleanisRBSTypeL()

2: if (C.RBS>C.MA(RBS)×1.35andC.RBS≤1.55×C.MA(RBS)then 3: return true

Pseudokód metody, která urˇcuje, zdali je velikostn´ı tˇr´ıda reálného tˇela sv´ıce XL 1: booleanisRBSTypeXL()

2: if (C.RBS>C.MA(RBS)×1.55)then 3: return true

Nyn´ı pop´ıˇsi metody klasifikace délky st´ınu SL pro sv´ıci C. Zˇrejmˇe plat´ı, ˇze délka st´ınu je dána souˇctem horn´ıho a doln´ıho st´ınu neboli SL = UPSHADOW + LOWSHADOW. Zkratka BS odpov´ıdá velikosti tˇela sv´ıceC.

Pseudok´od metody, kter´a urˇcuje, zdali je velikostn´ı tˇr´ıda st´ınu sv´ıce S 1: booleanisSLTypeS()

2: if (C.SL / C.BS≤0.45)then 3: return true

Pseudok´od metody, kter´a urˇcuje, zdali je velikostn´ı tˇr´ıda st´ınu sv´ıce M 1: booleanisSLTypeM()

2: if (C.SL / C.BS>0.45and C.SL / C.BS≤0.75)then