11 Model združeného rozdelenia a aplikácie
11.1 Modelovanie združeného rozdelenia
- Empirická distribučná funkcia \hat F_n je (nevychýleným) neparametrickým odhadom združenej CDF, \hat F_n(\mathbf{x}) = \frac1n\sum_{i=1}^n\prod_{j=1}^p1(x_{ij}\leq x_j) kde x_j je prvok argumentu a x_{ij} značí i-te pozorovanie j-tej náhodnej premennej (prvok matice pozorovaní \mathbf{X}).
- Jadrovo vyhladená hustota, s jadrovou funkciou definovanou (pre jednoduchosť) napr. ako súčin jednorozmerných jadrových funkcií K_j so šírkou pásma h_j, je daná vzťahom
\hat f(\mathbf{x}) = \frac1{n\prod_{j=1}^ph_j}\sum_{i=1}^n\prod_{j=1}^pK_j\left(\frac{x_j - x_{ij}}{h_j}\right)
Delenie šírkou pásma zaručuje, že určitý integrál (plocha pod funkciou) f bude 1.
- Výhodou jadrového odhadu rozdelenia je v tom, že máme hladkú funkciu, ktorú možno derivovať. Nevýhodou je výpočtová náročnosť (najmä odhad šírky pásma) so vzrastajúcim p, jav známy ako kliatba rozmernosti.
- Kliatbe rozmernosti sa dá vyhnúť špeciálnymi predpokladmi. Parametrické modely zavádzajú pomerne silné predpoklady o tom, ako rozdelenie vyzerá, takže stačí už len určiť parametre. Menej drastické sú predpoklady o nejakom druhu štruktúry prítomnej v rozdelení, ktoré využívajú metódy ako PCA, faktorové modely, zmesi rozdelení či grafické modely (predp. nezávislosť).
- Pre veľa (jednorozmerných) parametrických tried rozdelení existuje rozšírenie na náhodný vektor, napr. hustota združeného normálneho rozdelenia je definovaná f(\vec x) = \frac{1}{\sqrt{(2\pi)^p|\mathbf{\Sigma}|}}e^{-\frac12(\vec x-\vec\mu)^T\mathbf{\Sigma}^{-1}(\vec x-\vec\mu)} kde \mathbf{\Sigma} je kovariančná matica, takže \Sigma_{ij}=cov[X_i,X_j].
- Kompozitný model umožňuje rozložiť analýzu rozdelenia náhodného vektora zvlášť na okrajové rozdelenia a zvlášť na vzťahy medzi premennými.
11.2 Rozklad združeného rozdelenia
- Nevýhoda zovšeobecnení jednorozmerných rozdelení do väčšieho rozmeru spočíva v tom, že marginálne rozdelenia takého združeného rozdelenia sú všetky z rovnakej triedy.
- Ak chceme modelovať stochastickú závislosť bez ohľadu na individuálne vlastnosti náhodných premenných, musíme združené rozdelenie reprezentovať ako marginálie zviazané kopulou. V reči distribučných funkcií, resp. funkcií hustoty sa rozklad zapíše \begin{split} F(x_1,\ldots,x_p) &= C\Big(F_1(x_1), \ldots, F_p(x_p)\Big) \\ f(x_1,\ldots,x_p) &= c\Big(F_1(x_1), \ldots, F_p(x_p)\Big)\cdot f_1(x_1)\cdot\ldots\cdot f_p(x_p) \end{split} kde C je kopula náhodného vektora \vec X, a c je jej hustota.
\qquad \longrightarrow
- Transformované náhodné premenné U_i=F_i(X_i) majú rovnomerné rozdelenie na intervale [0,1].
- Výpočet podmienenej združenej CDF je s kopulami jednoduchší: F_{p|-p}(x_p|\vec x_{-p}) = \frac{\int\limits_{-\infty}^{x_p}f(x_1,...,x_{p-1},t)dt}{\int\limits_{-\infty}^{\infty}f(x_1,...,x_{p-1},t)dt} = \frac{\int\limits_0^{F_p(x_p)}c(F_1(x_1),...,F_{p-1}(x_{p-1}),t)dt}{\int\limits_{0}^{1}c(F_1(x_1),...,F_{p-1}(x_{p-1}),t)dt}
11.3 Kopula
- Vlastnosti:
- C(u_1,\ldots,u_2)=0 pre ľubovoľné u_i=0,
- C(1,\ldots,1,u_i,1\ldots,1)=u_i,
- C je p-rastúca funkcia, čo pre p=2 znamená C(v_1,v_2)-C(v_1,u_2)-C(u_1,v_2)+C(u_1,u_2)\geq0, pričom u_i\leq v_i.
- Špeciálnymi prípadmi sú kopule M,\Pi,W, ktoré predstavujú
- úplnú negatívnu závislosť, W(u_1,u_2)=\max(0, u_1+u_2-1),
- nezávislosť, \Pi(u_1,\ldots,u_p)=u_1\cdot\ldots\cdot u_p
- úplnú závislosť, M(u_1,\ldots,u_p)=\min(u_1,\ldots,u_p),
- Graf špeciálnych kopúl W, \Pi, M:
- Bodové grafy náhodných výberov simulovaných z kopúl W, \Pi, M:
11.4 Využitie modelu závislosti
Kopula C teda predstavuje tú časť združeného rozdelenia, ktorá popisuje závislosť medzi premennými.
Pomocou modelu závislosti môžeme
- skúmať vlastnosti vzťahu ako napr. závislosť v extrémoch (tail dependence) či rôzne (a)symetrie,
- určovať pravdepodobnosť, že premenné (ne)prekročia kritickú hodnotu,
- vypočítať kvantily, ktoré (ne)budú prekročené s danou pravdepodobnosťou.
- Konkrétne je možné priamo odhadnúť pravdepodobnosti:
- \color{red}{Pr(U_1\leq u_1\wedge U_2\leq u_2)}=C(u_1,u_2), súčasného neprekročenia hodnôt u_1,u_2;
- Pr(U_1 > u_1\vee U_2 > u_2)=1-C(u_1,u_2), že aspoň jedna premenná prekročí daný prah;
- \color{blue}{Pr(U_1> u_1\wedge U_2> u_2)}=1-u_1-u_2+C(u_1,u_2), súčasného prekročenia (survival function);
- Pr(U_1\leq u_1 | U_2=u_2)=\frac{\partial C(u_1,u_2)}{\partial u_2}, neprekročenia pri jednej prem. za podmienky, že druhá dosiahla určitý prah,
- Pr(U_1\leq u_1 | U_2\leq u_2)=\frac{C(u_1,u_2)}{u_2}, prípadne. že ho neprekročila
- Pr(U_1>u_1 | U_2>u_2)=1-\frac{u_1-C(u_1,u_2)}{1-u_2}, resp. prekročila.
- V hydrologickej praxi sa často konštruuje vrstevnicový graf pravdepodobnostného rozdelenia na odčítanie doby návratu T=\frac{1}{Pr(X_1>x_1\quad\color{blue}{\wedge}/\color{green}{\vee}\quad X_2>x_2)}\text{ [č.j.]} extrémneho javu (povodeň, zrážky, sucho).
- Napr. doba návratu povodňovej vlny charaktrizovanej objemom V (volume) a kulminačným prietokom P (peak) pre pravdepodobnosti súčasného (\color{blue}{vľavo}) alebo “jednotlivého” (\color{green}{vpravo}) prekročenia daných hodnôt veličín V a P. Graf obsahuje pozorované (čierne body) aj simulované povodne.
- Alebo doba návratu zrážkovej udalosti charakterizovanej intenzitou a trvaním (duration) pre pravdepodobnosti súčasného neprekročenia. Vrstevnice distribučnej funkcie CDF sa tu označujú ako čiary IDF (intensity-duration-frequency curves).
11.5 Parametrické triedy
Nasledujúce triedy kopúl sú užitočné v 2D problémoch:
- Eliptické - napr. normálna (Gaussovská) alebo t-kopula, modelujú iba lineárny vzťah, konštruujú sa štandardizáciou marginálií eliptických rozdelení, C_\Phi(u_1,...,u_p)= \Phi \left[ \Phi_1^{-1} (u_1), ..., \Phi_p^{-1} (u_p)\right]
- Archimedovské - napr. Gumbelova, Claytonova, Frankova, konštruujú sa jednoducho pomocou generátora f\colon[0,1]\to[0,\infty) ale sú permutačne symetrické (exchangeability), C(u_1,\ldots,u_p)=f^{(-1)}\Big(f(u_1)+\ldots+f(u_p)\Big)
- Extreme-value - napr. Gumbelova, Galambosova, Hüsler-Reiss, modelujú maximálne hodnoty, konštruujú sa pomocou dependence funkcie \ell\colon[0,\infty)^p\to[0,\infty) alebo Pickandsovej depend.funkcie D\colon\Delta_{p-1}\to[1/p,1] (kde \Delta_{p-1} je jednotkový simplex) \begin{split} C(u_1,\ldots,u_p)&=\exp(-\ell(-\log u_1,\ldots,-\log u_p))\\ &=e^{ \left(\sum_{i=1}^p \log u_i\right)\ D\left(\frac{\log u_1}{\sum_{i=1}^p \log u_i},\dots, \frac{\log u_p}{\sum_{i=1}^p \log u_i}\right)} \end{split} pomocou dependence funkcie \ell\colon[0,\infty)^p\to[0,\infty) alebo Pickandsovej depend.funkcie D\colon\Delta_{p-1}\to[1/p,1] (kde \Delta_{p-1} je jednotkový simplex) \begin{split} C(u_1,\ldots,u_p)&=\exp(-\ell(-\log u_1,\ldots,-\log u_p))\\ &=e^{ \left(\sum_{i=1}^p \log u_i\right)\ D\left(\frac{\log u_1}{\sum_{i=1}^p \log u_i},\dots, \frac{\log u_p}{\sum_{i=1}^p \log u_i}\right)} \end{split} Pre p>2 je pomerne komplikované hľadať dependence funkcie.
- Na obrázku šestice simulovaných náhodných výberov
- prvé dve sú eliptické,
- ďalšie tri Archimedovské (iba Frankova je radiálne symetrická),
- v poslednom stĺpci sú EV kopuly (líšia sa permutačnou symetriou).
Nasledujúce triedy (a konštrukčné metódy) sa v súčasnosti používajú ako dostatočne flexibilné a zároveň analyticky rozumne dostupné vo viacrozmerných problémoch:
- Eliptické kopuly s explicitným vyjadrením hustoty, napr. Gaussovská kopula s korelačnou maticou \mathbf{R} a kvantilovou funkciou normovaného norm. rozd. \Phi^{-1}, c(\vec u)=\frac1{\sqrt{|\mathbf{R}|}}e^{-\frac12\Big(\Phi^{-1}(u_1),\ldots,\Phi^{-1}(u_p)\Big)(\mathbf{R}^T-\mathbf{I})\Big(\Phi^{-1}(u_1),\ldots,\Phi^{-1}(u_p)\Big)^T}
Hierarchické Archimedovské kopuly sú zložené z Archimedovských kopúl, napr. \begin{split} C(u_1,u_2,u_3) = \\ C_3\Big(C_2\big(C_1(u_1,u_2),u_3\big),u_4\Big) \qquad & \qquad C_3\Big(C_1(x_1,x_2),C_2(x_3,x_4)\Big)\\ \text{fully nested} \qquad & \qquad \text{partially nested} \end{split}
C_1,C_2,C_3 však musia byť z rovnakej parametrickej triedy (parametric family) Archimedovských kopúl a závislosť musí s úrovňou hierarchie klesať.
Vine kopuly využívajú podmienenú pravdepodobnosť na faktorizáciu viacrozmerného združeného rozdelenia pomocou dvojrozmerných kopúl (pair-copula decomposition).
- Napr. pre p=3 jeden z možných zápisov (rozkladov) je
\begin{split}
f(x_1,x_2,x_3) & = f_1(x_1) \cdot f_{2|1}(x_2|x_1) \cdot f_{3|12}(x_3|x_1,x_2) \\
&= f_1(x_1) \cdot \\
&\phantom{=} \cdot c_{12} \left[ F_1(x_1),F_2(x_2)\right] \cdot f_2(x_2) \cdot \\
&\phantom{=}
\cdot c_{31|2} \left[ F_{3|2}(x_3|x_2),F_{1|2}(x_1|x_2)\right] \cdot
\underbrace{c_{23} \left[ F_2(x_2),F_3(x_3)\right] \cdot f_3(x_3)}_{f_{3|2}(x_3|x_2)}
\end{split}
kde sme použili úpravu f_{2|1}(x_2|x_1)=\frac{f(x_1,x_2)}{f_1(x_1)}=\frac{c_{12}\big(F_1(x_1),F_2(x_2)\big)f_1(x_1)f_2(x_2)}{f_1(x_1)} (pričom podobne bola vyjadrená aj hustota f_{3|12}, kde sme z podmieňujúcich premenných zvolili X_2), a podmienené distribučné funkcie F_{i|j}(x_i|x_j)=\frac{\partial C_{ij}\big(F_i(x_i),F_j(x_j)\big)}{\partial F_j(x_j)}.
- S pribúdajúcimi rozmermi rastie aj komplexnosť všetkých možných rozkladov, preto je model graficky reprezentovaný sekvenciou vnorených stromov s neorientovanými hranami (vine tree).
- Pri viac ako troch premenných môžu mať všeobecné vine stromy (regular vines) rôzne tvary, najpopulárnejšie sú C-vine (canonical) a D-vine (drawable).
- Napr. pre p=3 jeden z možných zápisov (rozkladov) je
\begin{split}
f(x_1,x_2,x_3) & = f_1(x_1) \cdot f_{2|1}(x_2|x_1) \cdot f_{3|12}(x_3|x_1,x_2) \\
&= f_1(x_1) \cdot \\
&\phantom{=} \cdot c_{12} \left[ F_1(x_1),F_2(x_2)\right] \cdot f_2(x_2) \cdot \\
&\phantom{=}
\cdot c_{31|2} \left[ F_{3|2}(x_3|x_2),F_{1|2}(x_1|x_2)\right] \cdot
\underbrace{c_{23} \left[ F_2(x_2),F_3(x_3)\right] \cdot f_3(x_3)}_{f_{3|2}(x_3|x_2)}
\end{split}
kde sme použili úpravu f_{2|1}(x_2|x_1)=\frac{f(x_1,x_2)}{f_1(x_1)}=\frac{c_{12}\big(F_1(x_1),F_2(x_2)\big)f_1(x_1)f_2(x_2)}{f_1(x_1)} (pričom podobne bola vyjadrená aj hustota f_{3|12}, kde sme z podmieňujúcich premenných zvolili X_2), a podmienené distribučné funkcie F_{i|j}(x_i|x_j)=\frac{\partial C_{ij}\big(F_i(x_i),F_j(x_j)\big)}{\partial F_j(x_j)}.
- Faktorové kopuly. V jednofaktorovom modeli je závislosť medzi premennými U_i indukovaná faktorom V_1 cez tzv. linking kopuly C_{i|V_1}, na ktoré nie sú kladené žiadne obmedzenia, C(u_1,\ldots,u_p)=\int_0^1\prod_{i=1}^p C_{i|V_1}(u_i,v_1)dv_1
11.6 Odhad parametrov rozdelenia
Na odhad rozdelenia zo zvolenej parametrickej triedy sa používajú hlavne tieto tri metódy:
- Metóda momentov - využíva priamy funkčný vzťah medzi momentami rozdelenia (ktoré sa dajú odhadnúť z náhodného výberu) a parametrami rozdelenia. Výhoda je v jednoduchosti (rýchlosti výpočtu), nevýhoda zas v častej nedostupnosti takých vzťahov, a tiež v tom, že metóda nedosahuje vlastnosti optimálneho odhadu ako ostatné dve.
- Metóda maximálnej vierohodnosti (maximum likelihood, ML) - využíva hustotu rozdelenia na vyjadrenie pravdepodobnosti získania daných pozorovaní podmienenú danými parametrami, teda \hat\theta=\arg\max\limits_{\theta\in\Theta}\frac1n\sum_{i=1}^n\ln f(X_{i1},\ldots,X_{ip}|\theta). Odhad je konzistentný (s rastúcim n pravdepodobnosťou konverguje k správnej hodnote), nevychýlený (angl. unbiased), výdatný (s najmenším rozptylom, angl. efficient) a normálne rozdelený (asymptoticky). Nevýhoda je v komplikovanosti výpočtu, vychýlenosti pre malé výbery a citlivosti na počiatočné podmienky.
- Metóda najmenších štvorcov - pomerne univerzálna metóda, hoci nemá tak dobré vlastnosti ako ML. Parametre môžu byť odhadnuté minimalizáciou napr. vzdialenosti teoretickej a empirickej distribučnej funkcie, \hat\theta=\arg\min\limits_{\theta\in\Theta}\sum_{i=1}^n\Big(F(X_{i1},\ldots,X_{ip}|\theta) - \hat F_n(X_{i1},\ldots,X_{ip})\Big)^2
11.7 Príklad
11.8 Literatúra
Kopuly
- Nelsen, R. B. (2007). An introduction to copulas. Springer Science & Business Media.
- Okhrin, O., Ristig, A., & Xu, Y. F. (2017). Copulae in high dimensions: an introduction. Applied quantitative finance, 247-277.
- Joe, H. (2015). Dependence modeling with copulas. no. 134 in monographs on statistics and applied probability.
- Schirmacher, D., Schirmacher, E. (2008). Multivariate dependence modeling using pair-copulas. Technical report.
- Salvadori G., De Michele C. (2010) Multivariate multiparameter extreme value models and return periods: a copula approach. DOI