Subdiferenciály a jejich role v optimalizaci

(1)

Subdiferenciály a jejich role v optimalizaci

Milan Hladík

Katedra aplikované matematiky, Matematicko-fyzikální fakulta,

Univerzita Karlova, Praha, https://kam.mff.cuni.cz/~hladik

4. listopadu 2020

(2)

Motivace

Konvexní funkce hladká a nehladká.

(3)

Subgradient a subdiferenciál

Deﬁnice

Buď f :Rⁿ→Rkonvexní. Subgradientemfunkce f(x) v bodě x⁰ ∈Rⁿje vektorg ∈Rⁿ splňující

f(x)≥f(x⁰) +g^T(x−x⁰), ∀x ∈Rⁿ. Subdiferenciál ∂f(x⁰) je množina všech subgradientů.

◮ subgradient je normálou tečné nadroviny ke grafu f(x) v x⁰

◮ pro hladkou funkci pojem gradientu a subgradientu splývají a subdiferenciál je jednobodová množina

◮ Pro řadu metod nehladké konvexní optimalizace stačí najít subgradient, což lze většinou snadno. Pokud chceme ale vyjádřit podmínky optimality, potřebujeme celý subdiferenciál, a ten bývá obecně obtížné spočítat.

Příklad

Pro f(x) =|x|je∂f(0) = [−1,1].

(4)

Vlastnosti

f(x)≥f(x⁰) +g^T(x−x⁰)∀x

Pozorování

Subdiferenciál konvexní funkce f:Rⁿ→Rv bodě x⁰∈Rⁿje uzavřená konvexní množina.

Důkaz.

Je to průnik poloprostorů.

Subdiferenciál splňuje základní řetízková pravidla:

∂(αf(x)) =α∂f(x), α >0,

∂(f(x) +g(x)) =∂f(x) +∂g(x),

∂(f(Ax+b)) =A^T(∂f)(Ax+b).

(5)

Vlastnosti

f(x)≥f(x⁰) +g^T(x−x⁰)∀x

Tvrzení

Pro konvexní funkce f1, . . . ,f_m:Rⁿ→Rv boděx⁰ ∈Rⁿ je

∂max{f1(x⁰), . . . ,f_m(x⁰)}=conv ∪k∈I(x⁰)∂f_k(x⁰), kde množina aktivních podmínek I(x⁰) = arg max_k=1,...,m{f_k(x⁰)}. Důkaz (jen “⊇” ).

Buď λ_k ≥0,P

k∈I(x⁰)λ_k =1,g_k ∈∂f_k(x⁰). Pak f_k(x)≥f_k(x⁰) +g_k^T(x−x⁰), ∀x∈Rⁿ, z čehož váženým součtem

maxk {fk(x)} ≥ X

k∈I(x⁰)

λkfk(x)≥max

k {fk(x⁰)}+ X

k∈I(x⁰)

λkg_k^T(x−x⁰), ∀x

Příklad

Funkce f(x) = max_k=1,...,m(a^T_kx+b_k) v boděx⁰ má subdiferenciál

∂f(x⁰) =conv{a_k;∈I(x⁰)}.

(6)

Vlastnosti

f(x)≥f(x⁰) +g^T(x−x⁰)∀x

Tvrzení

Buď h:R^m→Rkonvexní a v každé složce neklesající funkce a g₁, . . . ,g_m:Rⁿ→Rkonvexní funkce. Pak pro subdiferenciál složené funkce f(x) =h(g(x)) boděx⁰ ∈Rⁿ platí

∂h(g(x⁰))^T ⊇∂h(y⁰)^T∂g(x⁰)^T, kde y⁰ :=g(x⁰).

Důkaz.

Buď v_g_k ∈∂g_k(x⁰) ∀k av_h∈∂h(y⁰). Pak f(x) =h(g1(x), . . . ,g_m(x))

≥h g1(x⁰) +v_g^T₁(x−x⁰), . . . ,gm(x⁰) +v_g^T_m(x−x⁰)

≥h(g1(x⁰), . . . ,g_m(x⁰)) +v_h^T v_g^T₁(x−x⁰), . . . ,v_g^T_m(x−x⁰)T

=f(x⁰) +

m

X

k=1

(v_h)_kv_g^T

k(x−x⁰) Tudíž (v_g1 | · · · |v_g_k)v_h∈∂f(x⁰).

(7)

Vlastnosti

f(x)≥f(x⁰) +g^T(x−x⁰)∀x

Příklady funkcí f:R+→R, které nemají subdiferenciál v bodě x⁰ =0:

◮ f(x) =1 pro x=0 a f(x) =0 prox >0,

◮ f(x) =−√x.

Na druhou stranu, pokud x⁰ náleží do topologického vnitřku deﬁničního oboru funkce f(x), pak subdiferenciál v boděx⁰ je neprázdný.

(8)

Subdiferenciál normy

f(x)≥f(x⁰) +g^T(x−x⁰)∀x

Deﬁnice

Buď k · k:Rⁿ→Rnorma. Pak k ní duální normak · k∗ je deﬁnovaná předpisem

kxk∗ = max{x^Ty;kyk ≤1}.

◮ kxk^p je duální kkxk^q pro _p¹ +_q¹ =1.

◮ Speciálně, eukleidovská norma je samo-duální.

◮ Jako limitní případ, součtová norma kxk¹ je duální k maximovékxk^∞ a naopak.

Tvrzení (Subdiferenciál normy)

∂kx⁰k={y ∈Rⁿ;y^Tx⁰ =kx⁰k, kyk∗ ≤1}.

(9)

Subdiferenciál normy

f(x)≥f(x⁰) +g^T(x−x⁰)∀x

Důkaz.

Podle deﬁnice, g ∈Rⁿ je subgradientem normy v boděx⁰, pokud kxk ≥ kx⁰k+g^T(x−x⁰), ∀x ∈Rⁿ.

Dosazením x =0 a x=2x⁰ dostaneme kx⁰k=g^Tx⁰, tudíž kxk ≥g^Tx, ∀x∈Rⁿ

a z positivní homogenity se stačí omezit na kxk=1, tedy 1≥g^Tx, ∀x :kxk=1.

To je ale ekvivalentní s kgk∗ ≤1.

(10)

Subdiferenciál normy

f(x)≥f(x⁰) +g^T(x−x⁰)∀x

Například:

◮ v počátkux⁰ =0 je subgradientem jednotková koule v duální normě

∂kx⁰k={y ∈Rⁿ;kyk∗ ≤1}.

◮ Eukleidovská norma je v každém nenulovém bodě hladká, a tedy subdiferenciál splývá s gradientem∂kx⁰k= _kx¹0k2x⁰.

◮ Pro součtovou normu podmínka y^Tx⁰ =kx⁰k¹, kyk∞=1 platí jen pro taková y, pro kteráy_i = sgn(x_i⁰), pokud x_i⁰6=0, ayi = [−1,1], pokudx_i⁰ =0.

(11)

Subdiferenciál vlastního čísla

f(x)≥f(x⁰) +g^T(x−x⁰)∀x

Tvrzení (Subdiferenciál maximálního vlastního čísla)

Uvažujme funkci f(X) =λ_max(X) na prostoru symetrických matic.

Buď X ∈R^n×n symetrická av,kvk² =1, příslušný vlastní vektor k λ_max(X). Pak

v v^T ∈∂f(X).

Důkaz.

Pro každou symetrickou matici Y ∈R^n×n platí λ_max(Y) = max{u^TYu;kuk2 =1}

≥v^TYv

=v^TXv+v^T(Y −X)v

=λ_max(X) + tr(v^T(Y −X)v)

=λ_max(X) + tr(vv^T(Y −X))

=λ_max(X) +hvv^T,Y −Xi

(12)

Subdiferenciál v optimalizaci

f(x)≥f(x⁰) +g^T(x−x⁰)∀x

Věta

Bod x⁰∈Rⁿ je minimem konvexní funkce f:Rⁿ→Rprávě tehdy, když 0∈∂f(x⁰).

Důkaz.

Pokud 0∈∂f(x⁰), pak podmínka z deﬁnice subgradientu má tvar f(x)≥f(x⁰), ∀x∈Rⁿ,

čili x⁰ je minimem. Naopak, pokud jex⁰ minimem, pak 0∈∂f(x⁰).

(13)

Subdiferenciál v optimalizaci

f(x)≥f(x⁰) +g^T(x−x⁰)∀x

Příklad

Uvažujme úlohu

xmin∈Rⁿ max

k=1,...,m(a^T_kx+b_k).

Podle věty je bod x⁰ ∈Rⁿ optimem právě tehdy, když existuje y ≥0 takové, žee^Ty =1,Pm

k=1y_ka_k =0 ay_k =0 prok 6∈I(x⁰).

Pro srovnání, přepíšeme úlohu jako lineární program min z subject to a^T_kx+b_k ≤z ∀k.

Duální úloha má tvar

max b^Ty subject to

m

X

k=1

y_ka_k =0, y ≥0, e^Ty =1.

Podmínky optimality dají stejné vyjádření, tj. existuje duální přípustné řešení y takové, žey_k =0 pokuda^T_kx⁰+b_k <z⁰, kde z⁰ = maxk(a_k^Tx⁰+b_k).

(14)

Subdiferenciál v optimalizaci

f(x)≥f(x⁰) +g^T(x−x⁰)∀x

Příklad (LASSO) Uvažujme úlohu LASSO

min 1

2kAx−bk2+λkxk1 subject to x∈Rⁿ, kde λ >0 je parametr. Podmínky optimality pro bodx⁰ ∈Rⁿ

0∈∂¹₂kAx⁰−bk²+λkx⁰k¹ =∂¹₂kAx⁰−bk²+∂λkx⁰k¹ 0∈A^T(Ax⁰−b) +λ∂kx⁰k¹.

Víme, že je v ∈∂kx⁰k¹ právě tehdy, kdyžv_i = sgn(x_i⁰) pro x_i⁰6=0 a v_i ∈[−1,1]pro x_i⁰ =0. Tedy podmínky optimality jsou

(A^T_i_∗(b−Ax⁰) =λsgn(x_i⁰) pokud x_i⁰6=0,

|A^T_i∗(b−Ax⁰)| ≤λ pokud x_i⁰=0.

◮ Umožňují ověřit, zda danéx⁰ je optimem (ale ne ho najít).

◮ Vlastnosti optima, jako například |A^T(b−Ax⁰)| ≤λe.

(15)

Subdiferenciál v optimalizaci

f(x)≥f(x⁰) +g^T(x−x⁰)∀x

Tvrzení

Platí pro směrovou derivaci ve směruv konvexní funkcef :Rⁿ→R: f_v^′(x⁰) = sup{g^Tv;g ∈∂f(x⁰)}.

Důkaz.

“≥” Buď g ∈∂f(x⁰). Podle deﬁnice

f_v^′(x⁰) = min

α→0⁺

f(x⁰+αv)−f(x⁰)

α ≥ min

α→0⁺

f(x⁰) +αg^Tv−f(x⁰)

α =g^Tv.

“≤” Idea: Ukaž, že f_v^′(x)je konvexní a její subgradient je subgradientem f(x). Pak uvažv →αv proα→0⁺.

◮ Optimalizační metody jsou často iterační ve směru klesání.

◮ Subgradient přímočaře použít nelze, např. funkce f(x) =|x| má v bodě x⁰=0 subgradient g =1, ale funkce ve směru−1 neklesá.