11 Model združeného rozdelenia a aplikácie

11.1 Modelovanie združeného rozdelenia

Empirická distribučná funkcia \hat F_n je (nevychýleným) neparametrickým odhadom združenej CDF, \hat F_n(\mathbf{x}) = \frac1n\sum_{i=1}^n\prod_{j=1}^p I(x_{ij}\leq x_j) kde x_j je prvok argumentu a x_{ij} značí i-te pozorovanie j-tej náhodnej premennej (prvok matice pozorovaní \mathbf{X}).

Jadrovo vyhladená hustota, s jadrovou funkciou definovanou (pre jednoduchosť) napr. ako súčin jednorozmerných jadrových funkcií K_j so šírkou pásma h_j, je daná vzťahom \hat f(\mathbf{x}) = \frac1{n\prod_{j=1}^ph_j}\sum_{i=1}^n\prod_{j=1}^pK_j\left(\frac{x_j - x_{ij}}{h_j}\right) Delenie šírkou pásma zaručuje, že určitý integrál (plocha pod funkciou) f bude 1.
Výhodou jadrového odhadu rozdelenia je v tom, že máme hladkú funkciu, ktorú možno derivovať. Nevýhodou je výpočtová náročnosť (najmä odhad šírky pásma) so vzrastajúcim p – jav známy ako kliatba rozmernosti.
Kliatbe rozmernosti sa pri modelovaní dá vyhnúť špeciálnymi predpokladmi. Parametrické modely zavádzajú pomerne silné predpoklady o tom, ako rozdelenie vyzerá, takže stačí už len určiť parametre. Menej drastické sú predpoklady o nejakom druhu štruktúry prítomnej v rozdelení, ktoré využívajú metódy ako PCA, faktorové modely, zmesi rozdelení či grafické modely (predp. nezávislosť).
Pre veľa jednorozmerných parametrických tried rozdelení existuje rozšírenie na náhodný vektor, napr. hustota združeného normálneho rozdelenia je definovaná f(\mathbf{x}) = \frac{1}{\sqrt{(2\pi)^p|\mathbf{\Sigma}|}}e^{-\frac12(\mathbf{x}-\boldsymbol{\mu})^T\mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})} kde \mathbf{\Sigma} je kovariančná matica, takže \Sigma_{ij}=cov[X_i,X_j].

Kompozitný model umožňuje rozložiť analýzu rozdelenia náhodného vektora zvlášť na okrajové rozdelenia a zvlášť na vzťahy medzi premennými.

11.2 Rozklad združeného rozdelenia

Nevýhoda zovšeobecnení jednorozmerných rozdelení do väčšieho rozmeru spočíva v tom, že marginálne rozdelenia takého združeného rozdelenia sú všetky z rovnakej triedy.
Ak chceme modelovať stochastickú závislosť bez ohľadu na individuálne vlastnosti náhodných premenných, musíme združené rozdelenie reprezentovať ako marginálie zviazané kopulou. V reči distribučných funkcií, resp. funkcií hustoty sa rozklad zapíše \begin{split} F(x_1,\ldots,x_p) &= C\Big(F_1(x_1), \ldots, F_p(x_p)\Big) \\ f(x_1,\ldots,x_p) &= c\Big(F_1(x_1), \ldots, F_p(x_p)\Big)\cdot f_1(x_1)\cdot\ldots\cdot f_p(x_p) \end{split} kde C je kopula náhodného vektora \vec X, a c je jej hustota.

\qquad \longrightarrow

Transformované náhodné premenné U_i=F_i(X_i) majú rovnomerné rozdelenie na intervale [0,1].
Výpočet podmienenej združenej CDF je s kopulami jednoduchší, F_{p|-p}(x_p|\vec x_{-p}) = \frac{\int\limits_{-\infty}^{x_p}f(x_1,...,x_{p-1},t)dt}{\int\limits_{-\infty}^{\infty}f(x_1,...,x_{p-1},t)dt} = \frac{\int\limits_0^{F_p(x_p)}c\Big(F_1(x_1),...,F_{p-1}(x_{p-1}),s\Big)ds}{\int\limits_{0}^{1}c\Big(F_1(x_1),...,F_{p-1}(x_{p-1}),s\Big)ds} kde bola pri úprave použitá substitúcia s=F_p(t), takže člen ds=f_p(t)dt v čitateli a menovateli sa eliminoval spolu s ostatnými marginálnymi hustotami.

11.3 Kopula

Vlastnosti:
1. C(u_1,\ldots,u_p)=0 pre ľubovoľné u_i=0,
2. C(1,\ldots,1,u_i,1\ldots,1)=u_i, \forall i\in\{1,\ldots,p\},
3. C je p-rastúca funkcia, čo pre p=2 znamená C(v_1,v_2)-C(v_1,u_2)-C(u_1,v_2)+C(u_1,u_2)\geq0, pričom u_i\leq v_i.
Špeciálnymi prípadmi sú kopule M,\Pi,W, ktoré predstavujú
- úplnú negatívnu závislosť, W(u_1,u_2)=\max(0, u_1+u_2-1),
- nezávislosť, \Pi(u_1,\ldots,u_p)=u_1\cdot\ldots\cdot u_p
- úplnú závislosť, M(u_1,\ldots,u_p)=\min(u_1,\ldots,u_p),
Funkcia W(u_1,\ldots,u_p)=\max(0, 1-p+\sum_{i=1}^p u_i) je dolným ohraničením pre akúkoľvek kopulu C, platí W < C \leq M ale iba v dvojrozmernom prípade platí W\leq C, pretože pre p>2 už W nie je kopula.
Graf špeciálnych kopúl W, \Pi, M:

Bodové grafy náhodných výberov simulovaných z kopúl W, \Pi, M:

11.4 Využitie modelu závislosti

Kopula C teda predstavuje tú časť združeného rozdelenia, ktorá popisuje závislosť medzi premennými.
Pomocou modelu závislosti môžeme
- skúmať vlastnosti vzťahu ako napr. závislosť v extrémoch (tail dependence) či rôzne (a)symetrie,
- určovať pravdepodobnosť, že premenné (ne)prekročia kritickú hodnotu,
- vypočítať kvantily, ktoré (ne)budú prekročené s danou pravdepodobnosťou.

Konkrétne je možné priamo odhadnúť pravdepodobnosti:
- \color{red}{Pr(U_1\leq u_1\wedge U_2\leq u_2)}=C(u_1,u_2), súčasného neprekročenia hodnôt u_1,u_2;
- Pr(U_1 > u_1\vee U_2 > u_2)=1-C(u_1,u_2), že aspoň jedna premenná prekročí daný prah;
- \color{blue}{Pr(U_1> u_1\wedge U_2> u_2)}=1-u_1-u_2+C(u_1,u_2), súčasného prekročenia (survival function);
- Pr(U_1\leq u_1 | U_2=u_2)=\frac{\partial C(u_1,u_2)}{\partial u_2}, neprekročenia pri jednej prem. za podmienky, že druhá dosiahla určitý prah,
- Pr(U_1\leq u_1 | U_2\leq u_2)=\frac{C(u_1,u_2)}{u_2}, prípadne. že ho neprekročila
- Pr(U_1>u_1 | U_2>u_2)=1-\frac{u_1-C(u_1,u_2)}{1-u_2}, resp. prekročila.

V hydrologickej praxi sa často konštruuje vrstevnicový graf pravdepodobnostného rozdelenia na odčítanie doby návratu T=\frac{1}{\lambda\cdot Pr(X_1>x_1\quad{\color{blue}{\boldsymbol\wedge}}/{\color{green}{\boldsymbol\vee}}\quad X_2>x_2)}\text{ [čas.j.]} extrémneho javu (povodeň, zrážky, sucho), kde \lambda predstavuje priemerný počet extrémnych udalostí za danú časovú jednotku.
Napr. doba návratu (v rokoch) povodňovej vlny charaktrizovanej objemom V (volume) a kulminačným prietokom P (peak) pre pravdepodobnosti súčasného (\color{blue}{vľavo}) alebo “jednotlivého” (\color{green}{vpravo}) prekročenia daných hodnôt veličín V a P. Graf obsahuje pozorované (čierne body) aj simulované povodne.

Alebo doba návratu zrážkovej udalosti charakterizovanej intenzitou a trvaním (duration) pre pravdepodobnosti súčasného neprekročenia. Vrstevnice distribučnej funkcie CDF sa tu označujú ako čiary IDF (intensity-duration-frequency curves).

11.5 Parametrické triedy

Nasledujúce triedy kopúl sú užitočné v 2D problémoch:

Eliptické - napr. normálna (Gaussovská) alebo t-kopula, modelujú iba lineárny vzťah, konštruujú sa štandardizáciou marginálií eliptických rozdelení, C_\Phi(u_1,...,u_p)= \Phi \left[ \Phi_1^{-1} (u_1), ..., \Phi_p^{-1} (u_p)\right]
Archimedovské - konštruujú sa relatívne jednoducho, pomocou generátora f\colon[0,1]\searrow[0,\infty) a vzťahu C(u_1,\ldots,u_p)=f^{(-1)}\Big(f(u_1)+\ldots+f(u_p)\Big) ale sú permutačne symetrické (exchangeability), najznámejšie sú podtriedy
- Gumbelova, f(x) = (-\log x)^\theta, \ \theta\in[1,\infty),
- Claytonova, f(x) = (x^{-\theta}-1)/\theta, \ \theta\in[-1,\infty)-\{0\},
- Frankova, f(x) = -\log \frac{e^{-\theta x}-1}{e^{-\theta }-1}, \ \theta\in\mathbb{R}-\{0\}.
Extreme-value - napr. Gumbelova, Galambosova, Hüsler-Reiss, modelujú maximálne hodnoty, konštruujú sa pomocou dependence funkcie \ell\colon[0,\infty)^p\to[0,\infty) alebo Pickandsovej depend.funkcie D\colon\Delta_{p-1}\to[1/p,1] (kde \Delta_{p-1} je jednotkový simplex) \begin{split} C(u_1,\ldots,u_p)&=\exp(-\ell(-\log u_1,\ldots,-\log u_p))\\ &=e^{ \left(\sum_{i=1}^p \log u_i\right)\ D\left(\frac{\log u_1}{\sum_{i=1}^p \log u_i},\dots, \frac{\log u_p}{\sum_{i=1}^p \log u_i}\right)} \end{split} Pre p>2 je pomerne komplikované hľadať dependence funkcie.

Na obrázku šestice simulovaných náhodných výberov
- prvé dve sú z kopúl rozdelenia s eliptickými vrstevnicami,
- ďalšie tri Archimedovské (iba Frankova je radiálne symetrická),
- v poslednom stĺpci sú EV kopuly (líšia sa permutačnou symetriou).

Nasledujúce triedy (a konštrukčné metódy) sa v súčasnosti používajú ako dostatočne flexibilné a zároveň analyticky rozumne dostupné vo viacrozmerných problémoch:

Eliptické kopuly s explicitným vyjadrením hustoty, napr. Gaussovská kopula s korelačnou maticou \mathbf{R} a kvantilovou funkciou normovaného norm. rozd. \Phi^{-1}, c(\vec u)=\frac1{\sqrt{|\mathbf{R}|}}e^{-\frac12\Big(\Phi^{-1}(u_1),\ldots,\Phi^{-1}(u_p)\Big)(\mathbf{R}^T-\mathbf{I})\Big(\Phi^{-1}(u_1),\ldots,\Phi^{-1}(u_p)\Big)^T}

Hierarchické Archimedovské kopuly sú zložené z Archimedovských kopúl, napr. \begin{split} C(u_1,u_2,u_3) = \\ C_3\Big(C_2\big(C_1(u_1,u_2),u_3\big),u_4\Big) \qquad & \qquad C_3\Big(C_1(x_1,x_2),C_2(x_3,x_4)\Big)\\ \text{fully nested} \qquad & \qquad \text{partially nested} \end{split}

C_1,C_2,C_3 však musia byť z rovnakej parametrickej triedy (parametric family) Archimedovských kopúl a závislosť musí s úrovňou hierarchie klesať.
Vine kopuly využívajú podmienenú pravdepodobnosť na faktorizáciu viacrozmerného združeného rozdelenia pomocou dvojrozmerných kopúl (pair-copula decomposition).
- Napr. pre p=3 jeden z možných zápisov (rozkladov) je \begin{split} f(x_1,x_2,x_3) & = f_1(x_1) \cdot f_{2|1}(x_2|x_1) \cdot f_{3|12}(x_3|x_1,x_2) \\ &= f_1(x_1) \cdot \\ &\phantom{=} \cdot c_{12} \left[ F_1(x_1),F_2(x_2)\right] \cdot f_2(x_2) \cdot \\ &\phantom{=} \cdot c_{31|2} \left[ F_{3|2}(x_3|x_2),F_{1|2}(x_1|x_2)\right] \cdot \underbrace{c_{23} \left[ F_2(x_2),F_3(x_3)\right] \cdot f_3(x_3)}_{f_{3|2}(x_3|x_2)} \end{split} kde sme použili úpravu f_{2|1}(x_2|x_1)=\frac{f(x_1,x_2)}{f_1(x_1)}=\frac{c_{12}\big(F_1(x_1),F_2(x_2)\big)f_1(x_1)f_2(x_2)}{f_1(x_1)} (pričom podobne bola vyjadrená aj hustota f_{3|12}, kde sme z podmieňujúcich premenných zvolili X_2), a podmienené distribučné funkcie F_{i|j}(x_i|x_j)=\frac{\partial C_{ij}\big(F_i(x_i),F_j(x_j)\big)}{\partial F_j(x_j)}.
- S pribúdajúcimi rozmermi rastie aj komplexnosť všetkých možných rozkladov, preto je model graficky reprezentovaný sekvenciou vnorených stromov s neorientovanými hranami (vine tree).
- Pri viac ako troch premenných môžu mať všeobecné vine stromy (regular vines) rôzne tvary, najpopulárnejšie sú C-vine (canonical) a D-vine (drawable).

Faktorové kopuly. V jednofaktorovom modeli je závislosť medzi premennými U_i indukovaná faktorom V_1 cez tzv. linking kopuly C_{i|V_1}, na ktoré nie sú kladené žiadne obmedzenia, C(u_1,\ldots,u_p)=\int_0^1\prod_{i=1}^p C_{i|V_1}(u_i,v_1)dv_1

11.6 Odhad parametrov rozdelenia

Na odhad rozdelenia zo zvolenej parametrickej triedy sa používajú hlavne tieto tri metódy:
1. Metóda zovšeobecnených komomentov – využíva priamy funkčný vzťah medzi zovšeobecnenými ko-momentami rozdelenia (ktoré sa dajú odhadnúť z náhodného výberu) \mu_g = E[g(X_1,..,X_p)] (pre vhodnú funkciu g) a parametrami rozdelenia \theta. Výhoda je v jednoduchosti (rýchlosti výpočtu), nevýhoda zas v častej nedostupnosti takých vzťahov, a tiež v tom, že metóda nedosahuje vlastnosti optimálneho odhadu ako ostatné dve. Medzi zovšeobecnené komomenty patria okrem klasických momentov (stredná hodnota, rozptyl, …) a klasických komomentov (kovariancia, Pearsonov korelačný koeficient) aj miery monotónnej závislosti (Kendallovo tau, Spearmanovo rho, Blomqvistovo beta).
2. Metóda maximálnej vierohodnosti (maximum likelihood, ML) - využíva hustotu rozdelenia na vyjadrenie pravdepodobnosti získania daných pozorovaní podmienenú danými parametrami, teda \hat\theta=\underset{\theta\in\Theta}{\arg\max}\frac1n\sum_{i=1}^n\ln f(X_{i1},\ldots,X_{ip}|\theta). Odhad je konzistentný (s rastúcim n pravdepodobnosťou konverguje k správnej hodnote), nevychýlený (angl. unbiased), výdatný (s najmenším rozptylom, angl. efficient) a normálne rozdelený (asymptoticky). Nevýhoda je v komplikovanosti výpočtu, vychýlenosti pre malé výbery a citlivosti na počiatočné podmienky.
3. Metóda najmenších štvorcov - pomerne univerzálna metóda, hoci nemá tak dobré vlastnosti ako ML. Parametre môžu byť odhadnuté minimalizáciou napr. vzdialenosti teoretickej F a empirickej distribučnej funkcie \hat F_n, \hat\theta=\underset{\theta\in\Theta}{\arg\min}\sum_{i=1}^n\Big(F(X_{i1},\ldots,X_{ip}|\theta) - \hat F_n(X_{i1},\ldots,X_{ip})\Big)^2
V praxi sa odhad parametrov združeného rozdelenia často rozdelí na odhad parametrov marginálnych rozdelení a kopule.
Na odhad kopule sa používajú pseudo-pozorovania získané transformáciou pozorovaní pomocou empirickej distribučnej funkcie danej premennej (prakticky ide o poradia normované počtom pozorovaní). Je to preto, aby parametrický odhad marginálií neovplyvnil odhad kopule.
Ako štartovacie hodnoty parametrov v metóde maximálnej vierohodnosti sa s výhodou využívajú odhady z metódy ko-momentov.

11.7 Miery monotónnej závislosti

Miera lineárnej závislosti (korelácie) bola predstavená v predošlej kapitole. Je ňou Pearsonov korelačný koeficient. Jeho nevýhodou je, že závisí od marginálnych rozdelení.
Miery, ktoré závisia iba od kopule (čiže nie od marginálií), sú založené na poradí (rank). Medzi najznámejšie patria \begin{split} \rho_K &= 4\iint_{[0,1]^2} C(u,v)dC(u,v)-1 \qquad\text{(Kendallovo tau)} \\ \rho_S &= 12\iint_{[0,1]^2} \Big(C(u,v)-uv\Big)dudv \qquad\text{(Spearmanovo rho)} \\ \rho_B &= 4\ C\left(\frac12,\frac12\right) - 1 \qquad\text{(Blomqvistovo beta)} \end{split}
Tieto vzťahy sa dajú využiť prostredníctvom inverzie na odhad kopule. Hodnoty parametra sa však zväčša musia počítať numericky, a iba v niektorých prípadoch sa dajú vyjadriť explicitne, v uzavretom tvare:
- Clayton copula \theta = 2\rho_K/(1-\rho_K),
- Gumbel-Hougaard θ = 1/(1-\rho_K) = 1/\log_2\left(2 - \log_2(1 + \rho_B)\right),
- Gauss (normal) \theta = \sin(\pi\rho_K/2) = \sin(\pi\rho_B/2) = 2\sin(\pi\rho_S/6)
Odhad koeficientov konkordancie z pozorovaných údajov je zhrnutý v nasledujúcich vzťahoch, \begin{split} \rho_K &= \frac{n_C-n_D}{n(n-1)/2} = \frac{2}{n(n-1)}\sum_{i<j}\mathrm{sgn}(x_j-x_i)\ \mathrm{sgn}(y_j-y_i) \\ \rho_S &= \mathrm{corr}\Big(\mathrm{rank}(x_i),\mathrm{rank}(y_i)\Big) = 1 - \frac{6\sum_{i=1}^n (\mathrm{rank}(x_i) - \mathrm{rank}(y_i))^2}{n(n^2-1)} \\ \rho_B &= \frac1n \sum_{i=1}^n\mathrm{sgn}\Big((x_i - \tilde x)(y_i - \tilde y)\Big) \end{split} kde
- n_C (n_D) je počet konkordantných (diskordantných) párov,
- \mathrm{rank}(x) je poradie x v zodpovedajúcom vektore pozorovaní,
- \tilde x (\tilde y) je medián premennej X (Y),
- a znamienková funkcia je definovaná vzťahom \mathrm{sgn}(x) = \begin{cases} 1 & x>0 \\ 0 & x=0 \\ -1 & x<0 \end{cases}
Označme s_{ij} = (x_j-x_i)(y_j-y_i). Potom body (x_i,y_i) a (x_j,y_j) sú
- konkordantné, ak s_{ij}>0,
- viazané (tied), ak s_{ij}=0,
- diskordantné, ak s_{ij}<0.

11.8 Príklad

Príklad (autá)

Výstavba a aplikácia modelu dvojrozmerného združeného rozdelenia (objemu valcov a dojazdu automobilov pomocou datasetu datasets::mtcars) od prieskumnej analýzy až po zobrazenie podmienenej funkcie hustoty.

11.9 Literatúra

Kopuly

Nelsen, R. B. (2007). An introduction to copulas. Springer Science & Business Media.
Okhrin, O., Ristig, A., & Xu, Y. F. (2017). Copulae in high dimensions: an introduction. Applied quantitative finance, 247-277.
Joe, H. (2015). Dependence modeling with copulas. no. 134 in monographs on statistics and applied probability.
Schirmacher, D., Schirmacher, E. (2008). Multivariate dependence modeling using pair-copulas. Technical report.
Salvadori G., De Michele C. (2010) Multivariate multiparameter extreme value models and return periods: a copula approach. DOI