11  Model združeného rozdelenia a aplikácie

11.1 Modelovanie združeného rozdelenia

  • Empirická distribučná funkcia \hat F_n je (nevychýleným) neparametrickým odhadom združenej CDF, \hat F_n(\mathbf{x}) = \frac1n\sum_{i=1}^n\prod_{j=1}^p I(x_{ij}\leq x_j) kde x_j je prvok argumentu a x_{ij} značí i-te pozorovanie j-tej náhodnej premennej (prvok matice pozorovaní \mathbf{X}).

  • Jadrovo vyhladená hustota, s jadrovou funkciou definovanou (pre jednoduchosť) napr. ako súčin jednorozmerných jadrových funkcií K_j so šírkou pásma h_j, je daná vzťahom \hat f(\mathbf{x}) = \frac1{n\prod_{j=1}^ph_j}\sum_{i=1}^n\prod_{j=1}^pK_j\left(\frac{x_j - x_{ij}}{h_j}\right) Delenie šírkou pásma zaručuje, že určitý integrál (plocha pod funkciou) f bude 1.
  • Výhodou jadrového odhadu rozdelenia je v tom, že máme hladkú funkciu, ktorú možno derivovať. Nevýhodou je výpočtová náročnosť (najmä odhad šírky pásma) so vzrastajúcim p – jav známy ako kliatba rozmernosti.
  • Kliatbe rozmernosti sa pri modelovaní dá vyhnúť špeciálnymi predpokladmi. Parametrické modely zavádzajú pomerne silné predpoklady o tom, ako rozdelenie vyzerá, takže stačí už len určiť parametre. Menej drastické sú predpoklady o nejakom druhu štruktúry prítomnej v rozdelení, ktoré využívajú metódy ako PCA, faktorové modely, zmesi rozdelení či grafické modely (predp. nezávislosť).
  • Pre veľa jednorozmerných parametrických tried rozdelení existuje rozšírenie na náhodný vektor, napr. hustota združeného normálneho rozdelenia je definovaná f(\mathbf{x}) = \frac{1}{\sqrt{(2\pi)^p|\mathbf{\Sigma}|}}e^{-\frac12(\mathbf{x}-\boldsymbol{\mu})^T\mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})} kde \mathbf{\Sigma} je kovariančná matica, takže \Sigma_{ij}=cov[X_i,X_j].

  • Kompozitný model umožňuje rozložiť analýzu rozdelenia náhodného vektora zvlášť na okrajové rozdelenia a zvlášť na vzťahy medzi premennými.

11.2 Rozklad združeného rozdelenia

  • Nevýhoda zovšeobecnení jednorozmerných rozdelení do väčšieho rozmeru spočíva v tom, že marginálne rozdelenia takého združeného rozdelenia sú všetky z rovnakej triedy.
  • Ak chceme modelovať stochastickú závislosť bez ohľadu na individuálne vlastnosti náhodných premenných, musíme združené rozdelenie reprezentovať ako marginálie zviazané kopulou. V reči distribučných funkcií, resp. funkcií hustoty sa rozklad zapíše \begin{split} F(x_1,\ldots,x_p) &= C\Big(F_1(x_1), \ldots, F_p(x_p)\Big) \\ f(x_1,\ldots,x_p) &= c\Big(F_1(x_1), \ldots, F_p(x_p)\Big)\cdot f_1(x_1)\cdot\ldots\cdot f_p(x_p) \end{split} kde C je kopula náhodného vektora \vec X, a c je jej hustota.

\qquad \longrightarrow

  • Transformované náhodné premenné U_i=F_i(X_i) majú rovnomerné rozdelenie na intervale [0,1].
  • Výpočet podmienenej združenej CDF je s kopulami jednoduchší, F_{p|-p}(x_p|\vec x_{-p}) = \frac{\int\limits_{-\infty}^{x_p}f(x_1,...,x_{p-1},t)dt}{\int\limits_{-\infty}^{\infty}f(x_1,...,x_{p-1},t)dt} = \frac{\int\limits_0^{F_p(x_p)}c\Big(F_1(x_1),...,F_{p-1}(x_{p-1}),s\Big)ds}{\int\limits_{0}^{1}c\Big(F_1(x_1),...,F_{p-1}(x_{p-1}),s\Big)ds} kde bola pri úprave použitá substitúcia s=F_p(t), takže člen ds=f_p(t)dt v čitateli a menovateli sa eliminoval spolu s ostatnými marginálnymi hustotami.

11.3 Kopula

  • Vlastnosti:
    1. C(u_1,\ldots,u_p)=0 pre ľubovoľné u_i=0,
    2. C(1,\ldots,1,u_i,1\ldots,1)=u_i, \forall i\in\{1,\ldots,p\},
    3. C je p-rastúca funkcia, čo pre p=2 znamená C(v_1,v_2)-C(v_1,u_2)-C(u_1,v_2)+C(u_1,u_2)\geq0, pričom u_i\leq v_i.
  • Špeciálnymi prípadmi sú kopule M,\Pi,W, ktoré predstavujú
    • úplnú negatívnu závislosť, W(u_1,u_2)=\max(0, u_1+u_2-1),
    • nezávislosť, \Pi(u_1,\ldots,u_p)=u_1\cdot\ldots\cdot u_p
    • úplnú závislosť, M(u_1,\ldots,u_p)=\min(u_1,\ldots,u_p),
    Funkcia W(u_1,\ldots,u_p)=\max(0, 1-p+\sum_{i=1}^p u_i) je dolným ohraničením pre akúkoľvek kopulu C, platí W < C \leq M ale iba v dvojrozmernom prípade platí W\leq C, pretože pre p>2W nie je kopula.
  • Graf špeciálnych kopúl W, \Pi, M:

  • Bodové grafy náhodných výberov simulovaných z kopúl W, \Pi, M:

11.4 Využitie modelu závislosti

  • Kopula C teda predstavuje tú časť združeného rozdelenia, ktorá popisuje závislosť medzi premennými.

  • Pomocou modelu závislosti môžeme

    • skúmať vlastnosti vzťahu ako napr. závislosť v extrémoch (tail dependence) či rôzne (a)symetrie,
    • určovať pravdepodobnosť, že premenné (ne)prekročia kritickú hodnotu,
    • vypočítať kvantily, ktoré (ne)budú prekročené s danou pravdepodobnosťou.

  • Konkrétne je možné priamo odhadnúť pravdepodobnosti:
    • \color{red}{Pr(U_1\leq u_1\wedge U_2\leq u_2)}=C(u_1,u_2), súčasného neprekročenia hodnôt u_1,u_2;
    • Pr(U_1 > u_1\vee U_2 > u_2)=1-C(u_1,u_2), že aspoň jedna premenná prekročí daný prah;
    • \color{blue}{Pr(U_1> u_1\wedge U_2> u_2)}=1-u_1-u_2+C(u_1,u_2), súčasného prekročenia (survival function);
    • Pr(U_1\leq u_1 | U_2=u_2)=\frac{\partial C(u_1,u_2)}{\partial u_2}, neprekročenia pri jednej prem. za podmienky, že druhá dosiahla určitý prah,
    • Pr(U_1\leq u_1 | U_2\leq u_2)=\frac{C(u_1,u_2)}{u_2}, prípadne. že ho neprekročila
    • Pr(U_1>u_1 | U_2>u_2)=1-\frac{u_1-C(u_1,u_2)}{1-u_2}, resp. prekročila.

  • V hydrologickej praxi sa často konštruuje vrstevnicový graf pravdepodobnostného rozdelenia na odčítanie doby návratu T=\frac{1}{\lambda\cdot Pr(X_1>x_1\quad{\color{blue}{\boldsymbol\wedge}}/{\color{green}{\boldsymbol\vee}}\quad X_2>x_2)}\text{ [čas.j.]} extrémneho javu (povodeň, zrážky, sucho), kde \lambda predstavuje priemerný počet extrémnych udalostí za danú časovú jednotku.
  • Napr. doba návratu (v rokoch) povodňovej vlny charaktrizovanej objemom V (volume) a kulminačným prietokom P (peak) pre pravdepodobnosti súčasného (\color{blue}{vľavo}) alebo “jednotlivého” (\color{green}{vpravo}) prekročenia daných hodnôt veličín V a P. Graf obsahuje pozorované (čierne body) aj simulované povodne.

  • Alebo doba návratu zrážkovej udalosti charakterizovanej intenzitou a trvaním (duration) pre pravdepodobnosti súčasného neprekročenia. Vrstevnice distribučnej funkcie CDF sa tu označujú ako čiary IDF (intensity-duration-frequency curves).

11.5 Parametrické triedy

Nasledujúce triedy kopúl sú užitočné v 2D problémoch:

  • Eliptické - napr. normálna (Gaussovská) alebo t-kopula, modelujú iba lineárny vzťah, konštruujú sa štandardizáciou marginálií eliptických rozdelení, C_\Phi(u_1,...,u_p)= \Phi \left[ \Phi_1^{-1} (u_1), ..., \Phi_p^{-1} (u_p)\right]
  • Archimedovské - konštruujú sa relatívne jednoducho, pomocou generátora f\colon[0,1]\searrow[0,\infty) a vzťahu C(u_1,\ldots,u_p)=f^{(-1)}\Big(f(u_1)+\ldots+f(u_p)\Big) ale sú permutačne symetrické (exchangeability), najznámejšie sú podtriedy
    • Gumbelova, f(x) = (-\log x)^\theta, \ \theta\in[1,\infty),
    • Claytonova, f(x) = (x^{-\theta}-1)/\theta, \ \theta\in[-1,\infty)-\{0\},
    • Frankova, f(x) = -\log \frac{e^{-\theta x}-1}{e^{-\theta }-1}, \ \theta\in\mathbb{R}-\{0\}.
  • Extreme-value - napr. Gumbelova, Galambosova, Hüsler-Reiss, modelujú maximálne hodnoty, konštruujú sa pomocou dependence funkcie \ell\colon[0,\infty)^p\to[0,\infty) alebo Pickandsovej depend.funkcie D\colon\Delta_{p-1}\to[1/p,1] (kde \Delta_{p-1} je jednotkový simplex) \begin{split} C(u_1,\ldots,u_p)&=\exp(-\ell(-\log u_1,\ldots,-\log u_p))\\ &=e^{ \left(\sum_{i=1}^p \log u_i\right)\ D\left(\frac{\log u_1}{\sum_{i=1}^p \log u_i},\dots, \frac{\log u_p}{\sum_{i=1}^p \log u_i}\right)} \end{split} Pre p>2 je pomerne komplikované hľadať dependence funkcie.

  • Na obrázku šestice simulovaných náhodných výberov
    • prvé dve sú z kopúl rozdelenia s eliptickými vrstevnicami,
    • ďalšie tri Archimedovské (iba Frankova je radiálne symetrická),
    • v poslednom stĺpci sú EV kopuly (líšia sa permutačnou symetriou).

Nasledujúce triedy (a konštrukčné metódy) sa v súčasnosti používajú ako dostatočne flexibilné a zároveň analyticky rozumne dostupné vo viacrozmerných problémoch:

  • Eliptické kopuly s explicitným vyjadrením hustoty, napr. Gaussovská kopula s korelačnou maticou \mathbf{R} a kvantilovou funkciou normovaného norm. rozd. \Phi^{-1}, c(\vec u)=\frac1{\sqrt{|\mathbf{R}|}}e^{-\frac12\Big(\Phi^{-1}(u_1),\ldots,\Phi^{-1}(u_p)\Big)(\mathbf{R}^T-\mathbf{I})\Big(\Phi^{-1}(u_1),\ldots,\Phi^{-1}(u_p)\Big)^T}

  • Hierarchické Archimedovské kopuly sú zložené z Archimedovských kopúl, napr. \begin{split} C(u_1,u_2,u_3) = \\ C_3\Big(C_2\big(C_1(u_1,u_2),u_3\big),u_4\Big) \qquad & \qquad C_3\Big(C_1(x_1,x_2),C_2(x_3,x_4)\Big)\\ \text{fully nested} \qquad & \qquad \text{partially nested} \end{split}

    C_1,C_2,C_3 však musia byť z rovnakej parametrickej triedy (parametric family) Archimedovských kopúl a závislosť musí s úrovňou hierarchie klesať.

  • Vine kopuly využívajú podmienenú pravdepodobnosť na faktorizáciu viacrozmerného združeného rozdelenia pomocou dvojrozmerných kopúl (pair-copula decomposition).

    • Napr. pre p=3 jeden z možných zápisov (rozkladov) je \begin{split} f(x_1,x_2,x_3) & = f_1(x_1) \cdot f_{2|1}(x_2|x_1) \cdot f_{3|12}(x_3|x_1,x_2) \\ &= f_1(x_1) \cdot \\ &\phantom{=} \cdot c_{12} \left[ F_1(x_1),F_2(x_2)\right] \cdot f_2(x_2) \cdot \\ &\phantom{=} \cdot c_{31|2} \left[ F_{3|2}(x_3|x_2),F_{1|2}(x_1|x_2)\right] \cdot \underbrace{c_{23} \left[ F_2(x_2),F_3(x_3)\right] \cdot f_3(x_3)}_{f_{3|2}(x_3|x_2)} \end{split} kde sme použili úpravu f_{2|1}(x_2|x_1)=\frac{f(x_1,x_2)}{f_1(x_1)}=\frac{c_{12}\big(F_1(x_1),F_2(x_2)\big)f_1(x_1)f_2(x_2)}{f_1(x_1)} (pričom podobne bola vyjadrená aj hustota f_{3|12}, kde sme z podmieňujúcich premenných zvolili X_2), a podmienené distribučné funkcie F_{i|j}(x_i|x_j)=\frac{\partial C_{ij}\big(F_i(x_i),F_j(x_j)\big)}{\partial F_j(x_j)}.
    • S pribúdajúcimi rozmermi rastie aj komplexnosť všetkých možných rozkladov, preto je model graficky reprezentovaný sekvenciou vnorených stromov s neorientovanými hranami (vine tree).

    • Pri viac ako troch premenných môžu mať všeobecné vine stromy (regular vines) rôzne tvary, najpopulárnejšie sú C-vine (canonical) a D-vine (drawable).

  • Faktorové kopuly. V jednofaktorovom modeli je závislosť medzi premennými U_i indukovaná faktorom V_1 cez tzv. linking kopuly C_{i|V_1}, na ktoré nie sú kladené žiadne obmedzenia, C(u_1,\ldots,u_p)=\int_0^1\prod_{i=1}^p C_{i|V_1}(u_i,v_1)dv_1

11.6 Odhad parametrov rozdelenia

  • Na odhad rozdelenia zo zvolenej parametrickej triedy sa používajú hlavne tieto tri metódy:

    1. Metóda zovšeobecnených komomentov – využíva priamy funkčný vzťah medzi zovšeobecnenými ko-momentami rozdelenia (ktoré sa dajú odhadnúť z náhodného výberu) \mu_g = E[g(X_1,..,X_p)] (pre vhodnú funkciu g) a parametrami rozdelenia \theta. Výhoda je v jednoduchosti (rýchlosti výpočtu), nevýhoda zas v častej nedostupnosti takých vzťahov, a tiež v tom, že metóda nedosahuje vlastnosti optimálneho odhadu ako ostatné dve. Medzi zovšeobecnené komomenty patria okrem klasických momentov (stredná hodnota, rozptyl, …) a klasických komomentov (kovariancia, Pearsonov korelačný koeficient) aj miery monotónnej závislosti (Kendallovo tau, Spearmanovo rho, Blomqvistovo beta).
    2. Metóda maximálnej vierohodnosti (maximum likelihood, ML) - využíva hustotu rozdelenia na vyjadrenie pravdepodobnosti získania daných pozorovaní podmienenú danými parametrami, teda \hat\theta=\underset{\theta\in\Theta}{\arg\max}\frac1n\sum_{i=1}^n\ln f(X_{i1},\ldots,X_{ip}|\theta). Odhad je konzistentný (s rastúcim n pravdepodobnosťou konverguje k správnej hodnote), nevychýlený (angl. unbiased), výdatný (s najmenším rozptylom, angl. efficient) a normálne rozdelený (asymptoticky). Nevýhoda je v komplikovanosti výpočtu, vychýlenosti pre malé výbery a citlivosti na počiatočné podmienky.
    3. Metóda najmenších štvorcov - pomerne univerzálna metóda, hoci nemá tak dobré vlastnosti ako ML. Parametre môžu byť odhadnuté minimalizáciou napr. vzdialenosti teoretickej F a empirickej distribučnej funkcie \hat F_n, \hat\theta=\underset{\theta\in\Theta}{\arg\min}\sum_{i=1}^n\Big(F(X_{i1},\ldots,X_{ip}|\theta) - \hat F_n(X_{i1},\ldots,X_{ip})\Big)^2
  • V praxi sa odhad parametrov združeného rozdelenia často rozdelí na odhad parametrov marginálnych rozdelení a kopule.

  • Na odhad kopule sa používajú pseudo-pozorovania získané transformáciou pozorovaní pomocou empirickej distribučnej funkcie danej premennej (prakticky ide o poradia normované počtom pozorovaní). Je to preto, aby parametrický odhad marginálií neovplyvnil odhad kopule.

  • Ako štartovacie hodnoty parametrov v metóde maximálnej vierohodnosti sa s výhodou využívajú odhady z metódy ko-momentov.

11.7 Miery monotónnej závislosti

  • Miera lineárnej závislosti (korelácie) bola predstavená v predošlej kapitole. Je ňou Pearsonov korelačný koeficient. Jeho nevýhodou je, že závisí od marginálnych rozdelení.
  • Miery, ktoré závisia iba od kopule (čiže nie od marginálií), sú založené na poradí (rank). Medzi najznámejšie patria \begin{split} \rho_K &= 4\iint_{[0,1]^2} C(u,v)dC(u,v)-1 \qquad\text{(Kendallovo tau)} \\ \rho_S &= 12\iint_{[0,1]^2} \Big(C(u,v)-uv\Big)dudv \qquad\text{(Spearmanovo rho)} \\ \rho_B &= 4\ C\left(\frac12,\frac12\right) - 1 \qquad\text{(Blomqvistovo beta)} \end{split}
  • Tieto vzťahy sa dajú využiť prostredníctvom inverzie na odhad kopule. Hodnoty parametra sa však zväčša musia počítať numericky, a iba v niektorých prípadoch sa dajú vyjadriť explicitne, v uzavretom tvare:
    • Clayton copula \theta = 2\rho_K/(1-\rho_K),
    • Gumbel-Hougaard θ = 1/(1-\rho_K) = 1/\log_2\left(2 - \log_2(1 + \rho_B)\right),
    • Gauss (normal) \theta = \sin(\pi\rho_K/2) = \sin(\pi\rho_B/2) = 2\sin(\pi\rho_S/6)
  • Odhad koeficientov konkordancie z pozorovaných údajov je zhrnutý v nasledujúcich vzťahoch, \begin{split} \rho_K &= \frac{n_C-n_D}{n(n-1)/2} = \frac{2}{n(n-1)}\sum_{i<j}\mathrm{sgn}(x_j-x_i)\ \mathrm{sgn}(y_j-y_i) \\ \rho_S &= \mathrm{corr}\Big(\mathrm{rank}(x_i),\mathrm{rank}(y_i)\Big) = 1 - \frac{6\sum_{i=1}^n (\mathrm{rank}(x_i) - \mathrm{rank}(y_i))^2}{n(n^2-1)} \\ \rho_B &= \frac1n \sum_{i=1}^n\mathrm{sgn}\Big((x_i - \tilde x)(y_i - \tilde y)\Big) \end{split} kde
    • n_C (n_D) je počet konkordantných (diskordantných) párov,
    • \mathrm{rank}(x) je poradie x v zodpovedajúcom vektore pozorovaní,
    • \tilde x (\tilde y) je medián premennej X (Y),
    • a znamienková funkcia je definovaná vzťahom \mathrm{sgn}(x) = \begin{cases} 1 & x>0 \\ 0 & x=0 \\ -1 & x<0 \end{cases}
  • Označme s_{ij} = (x_j-x_i)(y_j-y_i). Potom body (x_i,y_i) a (x_j,y_j)
    • konkordantné, ak s_{ij}>0,
    • viazané (tied), ak s_{ij}=0,
    • diskordantné, ak s_{ij}<0.

11.8 Príklad

TipPríklad (autá)

Výstavba a aplikácia modelu dvojrozmerného združeného rozdelenia (objemu valcov a dojazdu automobilov pomocou datasetu datasets::mtcars) od prieskumnej analýzy až po zobrazenie podmienenej funkcie hustoty.

11.9 Literatúra

Kopuly

  • Nelsen, R. B. (2007). An introduction to copulas. Springer Science & Business Media.
  • Okhrin, O., Ristig, A., & Xu, Y. F. (2017). Copulae in high dimensions: an introduction. Applied quantitative finance, 247-277.
  • Joe, H. (2015). Dependence modeling with copulas. no. 134 in monographs on statistics and applied probability.
  • Schirmacher, D., Schirmacher, E. (2008). Multivariate dependence modeling using pair-copulas. Technical report.
  • Salvadori G., De Michele C. (2010) Multivariate multiparameter extreme value models and return periods: a copula approach. DOI