11  Model združeného rozdelenia a aplikácie

11.1 Modelovanie združeného rozdelenia

  • Empirická distribučná funkcia \hat F_n je (nevychýleným) neparametrickým odhadom združenej CDF, \hat F_n(\mathbf{x}) = \frac1n\sum_{i=1}^n\prod_{j=1}^p1(x_{ij}\leq x_j) kde x_j je prvok argumentu a x_{ij} značí i-te pozorovanie j-tej náhodnej premennej (prvok matice pozorovaní \mathbf{X}).

  • Jadrovo vyhladená hustota, s jadrovou funkciou definovanou (pre jednoduchosť) napr. ako súčin jednorozmerných jadrových funkcií K_j so šírkou pásma h_j, je daná vzťahom \hat f(\mathbf{x}) = \frac1{n\prod_{j=1}^ph_j}\sum_{i=1}^n\prod_{j=1}^pK_j\left(\frac{x_j - x_{ij}}{h_j}\right) Delenie šírkou pásma zaručuje, že určitý integrál (plocha pod funkciou) f bude 1.
  • Výhodou jadrového odhadu rozdelenia je v tom, že máme hladkú funkciu, ktorú možno derivovať. Nevýhodou je výpočtová náročnosť (najmä odhad šírky pásma) so vzrastajúcim p, jav známy ako kliatba rozmernosti.
  • Kliatbe rozmernosti sa dá vyhnúť špeciálnymi predpokladmi. Parametrické modely zavádzajú pomerne silné predpoklady o tom, ako rozdelenie vyzerá, takže stačí už len určiť parametre. Menej drastické sú predpoklady o nejakom druhu štruktúry prítomnej v rozdelení, ktoré využívajú metódy ako PCA, faktorové modely, zmesi rozdelení či grafické modely (predp. nezávislosť).
  • Pre veľa (jednorozmerných) parametrických tried rozdelení existuje rozšírenie na náhodný vektor, napr. hustota združeného normálneho rozdelenia je definovaná f(\vec x) = \frac{1}{\sqrt{(2\pi)^p|\mathbf{\Sigma}|}}e^{-\frac12(\vec x-\vec\mu)^T\mathbf{\Sigma}^{-1}(\vec x-\vec\mu)} kde \mathbf{\Sigma} je kovariančná matica, takže \Sigma_{ij}=cov[X_i,X_j].

  • Kompozitný model umožňuje rozložiť analýzu rozdelenia náhodného vektora zvlášť na okrajové rozdelenia a zvlášť na vzťahy medzi premennými.

11.2 Rozklad združeného rozdelenia

  • Nevýhoda zovšeobecnení jednorozmerných rozdelení do väčšieho rozmeru spočíva v tom, že marginálne rozdelenia takého združeného rozdelenia sú všetky z rovnakej triedy.
  • Ak chceme modelovať stochastickú závislosť bez ohľadu na individuálne vlastnosti náhodných premenných, musíme združené rozdelenie reprezentovať ako marginálie zviazané kopulou. V reči distribučných funkcií, resp. funkcií hustoty sa rozklad zapíše \begin{split} F(x_1,\ldots,x_p) &= C\Big(F_1(x_1), \ldots, F_p(x_p)\Big) \\ f(x_1,\ldots,x_p) &= c\Big(F_1(x_1), \ldots, F_p(x_p)\Big)\cdot f_1(x_1)\cdot\ldots\cdot f_p(x_p) \end{split} kde C je kopula náhodného vektora \vec X, a c je jej hustota.

\qquad \longrightarrow

  • Transformované náhodné premenné U_i=F_i(X_i) majú rovnomerné rozdelenie na intervale [0,1].
  • Výpočet podmienenej združenej CDF je s kopulami jednoduchší: F_{p|-p}(x_p|\vec x_{-p}) = \frac{\int\limits_{-\infty}^{x_p}f(x_1,...,x_{p-1},t)dt}{\int\limits_{-\infty}^{\infty}f(x_1,...,x_{p-1},t)dt} = \frac{\int\limits_0^{F_p(x_p)}c(F_1(x_1),...,F_{p-1}(x_{p-1}),t)dt}{\int\limits_{0}^{1}c(F_1(x_1),...,F_{p-1}(x_{p-1}),t)dt}

11.3 Kopula

  • Vlastnosti:
    1. C(u_1,\ldots,u_2)=0 pre ľubovoľné u_i=0,
    2. C(1,\ldots,1,u_i,1\ldots,1)=u_i,
    3. C je p-rastúca funkcia, čo pre p=2 znamená C(v_1,v_2)-C(v_1,u_2)-C(u_1,v_2)+C(u_1,u_2)\geq0, pričom u_i\leq v_i.
  • Špeciálnymi prípadmi sú kopule M,\Pi,W, ktoré predstavujú
    • úplnú negatívnu závislosť, W(u_1,u_2)=\max(0, u_1+u_2-1),
    • nezávislosť, \Pi(u_1,\ldots,u_p)=u_1\cdot\ldots\cdot u_p
    • úplnú závislosť, M(u_1,\ldots,u_p)=\min(u_1,\ldots,u_p),
    Funkcia W(u_1,\ldots,u_p)=\max(0, 1-p+\sum_{i=1}^p u_i) je dolným ohraničením pre akúkoľvek kopulu C, platí W < C \leq M ale iba v dvojrozmernom prípade platí W\leq C, pretože pre p>2W nie je kopula.
  • Graf špeciálnych kopúl W, \Pi, M:

  • Bodové grafy náhodných výberov simulovaných z kopúl W, \Pi, M:

11.4 Využitie modelu závislosti

  • Kopula C teda predstavuje tú časť združeného rozdelenia, ktorá popisuje závislosť medzi premennými.

  • Pomocou modelu závislosti môžeme

    • skúmať vlastnosti vzťahu ako napr. závislosť v extrémoch (tail dependence) či rôzne (a)symetrie,
    • určovať pravdepodobnosť, že premenné (ne)prekročia kritickú hodnotu,
    • vypočítať kvantily, ktoré (ne)budú prekročené s danou pravdepodobnosťou.

  • Konkrétne je možné priamo odhadnúť pravdepodobnosti:
    • \color{red}{Pr(U_1\leq u_1\wedge U_2\leq u_2)}=C(u_1,u_2), súčasného neprekročenia hodnôt u_1,u_2;
    • Pr(U_1 > u_1\vee U_2 > u_2)=1-C(u_1,u_2), že aspoň jedna premenná prekročí daný prah;
    • \color{blue}{Pr(U_1> u_1\wedge U_2> u_2)}=1-u_1-u_2+C(u_1,u_2), súčasného prekročenia (survival function);
    • Pr(U_1\leq u_1 | U_2=u_2)=\frac{\partial C(u_1,u_2)}{\partial u_2}, neprekročenia pri jednej prem. za podmienky, že druhá dosiahla určitý prah,
    • Pr(U_1\leq u_1 | U_2\leq u_2)=\frac{C(u_1,u_2)}{u_2}, prípadne. že ho neprekročila
    • Pr(U_1>u_1 | U_2>u_2)=1-\frac{u_1-C(u_1,u_2)}{1-u_2}, resp. prekročila.
  • V hydrologickej praxi sa často konštruuje vrstevnicový graf pravdepodobnostného rozdelenia na odčítanie doby návratu T=\frac{1}{Pr(X_1>x_1\quad\color{blue}{\wedge}/\color{green}{\vee}\quad X_2>x_2)}\text{ [č.j.]} extrémneho javu (povodeň, zrážky, sucho).
  • Napr. doba návratu povodňovej vlny charaktrizovanej objemom V (volume) a kulminačným prietokom P (peak) pre pravdepodobnosti súčasného (\color{blue}{vľavo}) alebo “jednotlivého” (\color{green}{vpravo}) prekročenia daných hodnôt veličín V a P. Graf obsahuje pozorované (čierne body) aj simulované povodne.

  • Alebo doba návratu zrážkovej udalosti charakterizovanej intenzitou a trvaním (duration) pre pravdepodobnosti súčasného neprekročenia. Vrstevnice distribučnej funkcie CDF sa tu označujú ako čiary IDF (intensity-duration-frequency curves).

11.5 Parametrické triedy

Nasledujúce triedy kopúl sú užitočné v 2D problémoch:

  • Eliptické - napr. normálna (Gaussovská) alebo t-kopula, modelujú iba lineárny vzťah, konštruujú sa štandardizáciou marginálií eliptických rozdelení, C_\Phi(u_1,...,u_p)= \Phi \left[ \Phi_1^{-1} (u_1), ..., \Phi_p^{-1} (u_p)\right]
  • Archimedovské - napr. Gumbelova, Claytonova, Frankova, konštruujú sa jednoducho pomocou generátora f\colon[0,1]\to[0,\infty) ale sú permutačne symetrické (exchangeability), C(u_1,\ldots,u_p)=f^{(-1)}\Big(f(u_1)+\ldots+f(u_p)\Big)
  • Extreme-value - napr. Gumbelova, Galambosova, Hüsler-Reiss, modelujú maximálne hodnoty, konštruujú sa pomocou dependence funkcie \ell\colon[0,\infty)^p\to[0,\infty) alebo Pickandsovej depend.funkcie D\colon\Delta_{p-1}\to[1/p,1] (kde \Delta_{p-1} je jednotkový simplex) \begin{split} C(u_1,\ldots,u_p)&=\exp(-\ell(-\log u_1,\ldots,-\log u_p))\\ &=e^{ \left(\sum_{i=1}^p \log u_i\right)\ D\left(\frac{\log u_1}{\sum_{i=1}^p \log u_i},\dots, \frac{\log u_p}{\sum_{i=1}^p \log u_i}\right)} \end{split} pomocou dependence funkcie \ell\colon[0,\infty)^p\to[0,\infty) alebo Pickandsovej depend.funkcie D\colon\Delta_{p-1}\to[1/p,1] (kde \Delta_{p-1} je jednotkový simplex) \begin{split} C(u_1,\ldots,u_p)&=\exp(-\ell(-\log u_1,\ldots,-\log u_p))\\ &=e^{ \left(\sum_{i=1}^p \log u_i\right)\ D\left(\frac{\log u_1}{\sum_{i=1}^p \log u_i},\dots, \frac{\log u_p}{\sum_{i=1}^p \log u_i}\right)} \end{split} Pre p>2 je pomerne komplikované hľadať dependence funkcie.

  • Na obrázku šestice simulovaných náhodných výberov
    • prvé dve sú eliptické,
    • ďalšie tri Archimedovské (iba Frankova je radiálne symetrická),
    • v poslednom stĺpci sú EV kopuly (líšia sa permutačnou symetriou).

Nasledujúce triedy (a konštrukčné metódy) sa v súčasnosti používajú ako dostatočne flexibilné a zároveň analyticky rozumne dostupné vo viacrozmerných problémoch:

  • Eliptické kopuly s explicitným vyjadrením hustoty, napr. Gaussovská kopula s korelačnou maticou \mathbf{R} a kvantilovou funkciou normovaného norm. rozd. \Phi^{-1}, c(\vec u)=\frac1{\sqrt{|\mathbf{R}|}}e^{-\frac12\Big(\Phi^{-1}(u_1),\ldots,\Phi^{-1}(u_p)\Big)(\mathbf{R}^T-\mathbf{I})\Big(\Phi^{-1}(u_1),\ldots,\Phi^{-1}(u_p)\Big)^T}

  • Hierarchické Archimedovské kopuly sú zložené z Archimedovských kopúl, napr. \begin{split} C(u_1,u_2,u_3) = \\ C_3\Big(C_2\big(C_1(u_1,u_2),u_3\big),u_4\Big) \qquad & \qquad C_3\Big(C_1(x_1,x_2),C_2(x_3,x_4)\Big)\\ \text{fully nested} \qquad & \qquad \text{partially nested} \end{split}

    C_1,C_2,C_3 však musia byť z rovnakej parametrickej triedy (parametric family) Archimedovských kopúl a závislosť musí s úrovňou hierarchie klesať.

  • Vine kopuly využívajú podmienenú pravdepodobnosť na faktorizáciu viacrozmerného združeného rozdelenia pomocou dvojrozmerných kopúl (pair-copula decomposition).

    • Napr. pre p=3 jeden z možných zápisov (rozkladov) je \begin{split} f(x_1,x_2,x_3) & = f_1(x_1) \cdot f_{2|1}(x_2|x_1) \cdot f_{3|12}(x_3|x_1,x_2) \\ &= f_1(x_1) \cdot \\ &\phantom{=} \cdot c_{12} \left[ F_1(x_1),F_2(x_2)\right] \cdot f_2(x_2) \cdot \\ &\phantom{=} \cdot c_{31|2} \left[ F_{3|2}(x_3|x_2),F_{1|2}(x_1|x_2)\right] \cdot \underbrace{c_{23} \left[ F_2(x_2),F_3(x_3)\right] \cdot f_3(x_3)}_{f_{3|2}(x_3|x_2)} \end{split} kde sme použili úpravu f_{2|1}(x_2|x_1)=\frac{f(x_1,x_2)}{f_1(x_1)}=\frac{c_{12}\big(F_1(x_1),F_2(x_2)\big)f_1(x_1)f_2(x_2)}{f_1(x_1)} (pričom podobne bola vyjadrená aj hustota f_{3|12}, kde sme z podmieňujúcich premenných zvolili X_2), a podmienené distribučné funkcie F_{i|j}(x_i|x_j)=\frac{\partial C_{ij}\big(F_i(x_i),F_j(x_j)\big)}{\partial F_j(x_j)}.
    • S pribúdajúcimi rozmermi rastie aj komplexnosť všetkých možných rozkladov, preto je model graficky reprezentovaný sekvenciou vnorených stromov s neorientovanými hranami (vine tree).

    • Pri viac ako troch premenných môžu mať všeobecné vine stromy (regular vines) rôzne tvary, najpopulárnejšie sú C-vine (canonical) a D-vine (drawable).

  • Faktorové kopuly. V jednofaktorovom modeli je závislosť medzi premennými U_i indukovaná faktorom V_1 cez tzv. linking kopuly C_{i|V_1}, na ktoré nie sú kladené žiadne obmedzenia, C(u_1,\ldots,u_p)=\int_0^1\prod_{i=1}^p C_{i|V_1}(u_i,v_1)dv_1

11.6 Odhad parametrov rozdelenia

Na odhad rozdelenia zo zvolenej parametrickej triedy sa používajú hlavne tieto tri metódy:

  1. Metóda momentov - využíva priamy funkčný vzťah medzi momentami rozdelenia (ktoré sa dajú odhadnúť z náhodného výberu) a parametrami rozdelenia. Výhoda je v jednoduchosti (rýchlosti výpočtu), nevýhoda zas v častej nedostupnosti takých vzťahov, a tiež v tom, že metóda nedosahuje vlastnosti optimálneho odhadu ako ostatné dve.
  2. Metóda maximálnej vierohodnosti (maximum likelihood, ML) - využíva hustotu rozdelenia na vyjadrenie pravdepodobnosti získania daných pozorovaní podmienenú danými parametrami, teda \hat\theta=\arg\max\limits_{\theta\in\Theta}\frac1n\sum_{i=1}^n\ln f(X_{i1},\ldots,X_{ip}|\theta). Odhad je konzistentný (s rastúcim n pravdepodobnosťou konverguje k správnej hodnote), nevychýlený (angl. unbiased), výdatný (s najmenším rozptylom, angl. efficient) a normálne rozdelený (asymptoticky). Nevýhoda je v komplikovanosti výpočtu, vychýlenosti pre malé výbery a citlivosti na počiatočné podmienky.
  3. Metóda najmenších štvorcov - pomerne univerzálna metóda, hoci nemá tak dobré vlastnosti ako ML. Parametre môžu byť odhadnuté minimalizáciou napr. vzdialenosti teoretickej a empirickej distribučnej funkcie, \hat\theta=\arg\min\limits_{\theta\in\Theta}\sum_{i=1}^n\Big(F(X_{i1},\ldots,X_{ip}|\theta) - \hat F_n(X_{i1},\ldots,X_{ip})\Big)^2

11.7 Príklad

Príklad (autá)

Výstavba a aplikácia modelu dvojrozmerného združeného rozdelenia (objemu valcov a dojazdu automobilov pomocou datasetu datasets::mtcars) od prieskumnej analýzy až po zobrazenie podmienenej funkcie hustoty.

11.8 Literatúra

Kopuly

  • Nelsen, R. B. (2007). An introduction to copulas. Springer Science & Business Media.
  • Okhrin, O., Ristig, A., & Xu, Y. F. (2017). Copulae in high dimensions: an introduction. Applied quantitative finance, 247-277.
  • Joe, H. (2015). Dependence modeling with copulas. no. 134 in monographs on statistics and applied probability.
  • Schirmacher, D., Schirmacher, E. (2008). Multivariate dependence modeling using pair-copulas. Technical report.
  • Salvadori G., De Michele C. (2010) Multivariate multiparameter extreme value models and return periods: a copula approach. DOI