Úvod do analýzy údajov pomocou R
Predslov
I don’t think anyone actually believes that R is designed to make everyone happy. For me, R does about 99% of the things I need to do, but sadly, when I need to order a pizza, I still have to pick up the telephone. (Roger D. Peng, r. 2004)
Tento citát vystihuje univerzálnosť softvérového nástroja R1. Tak ako u viacerých „open source” projektov jeho najväčšou silou je široká komunita vývojárov a používateľov. Oficiálne je R označované ako programovací jazyk a prostredie pre štatistické výpočty a vizualizáciu údajov (R Core Team 2022) vyvíjané pod slobodnou licenciou od roku 1995. Patrí medzi prvú desiatku najpopulárnejších programovacích jazykov (podľa indexu PYPL) a jedným z dvojice najpoužívanejších softvérov pre oblasť data science (pozri dôvody).
S „eRkom” (ako sa tento softvér v našich končinách familiárne nazýva) som sa stretol pred ukončením doktorandského štúdia v roku 2007. Dovtedy som na výpočty používal rôzne komerčné softvéry – od Mathsoft Mathcad s pekným zobrazovaním vzorcov, cez tabuľkový Microsoft Excel, až po všestrannú Wolfram Mathematica. Odvtedy R-ko u mňa naberalo na priazni, až sa stalo prakticky jediným softvérovým nástrojom seriózne používaným vo výskume, výučbe i analýzach na objednávku.
Dynamický vývoj v posledných rokoch urobil z R-ka výborný nástroj nielen na štatistickú analýzu údajov, ale aj na publikovanie výsledkov v rôznych formách. Predkladaná učebnica predstavuje úvod do používania tohto nástroja v odbore populárne pomenovanom ako “data science”2, môže slúžiť ako prerekvizita pre výučbu matematickej štatistiky, analýzy časových radov, hĺbkovej analýzy údajov (data mining) či strojového učenia (machine learning) v prostredí R na vysokých školách, alebo ako úvod do analytického nástroja R pre pracovníkov výskumných ústavov či komerčných inštitúcií.
Učebnica je v mnohých ohľadoch inšpirovaná publikáciou R for Data Science (Wickham and Grolemund 2016), z ktorej ťažiskové témy sú tu rozpracované a doplnené s pomocou ďalších zdrojov. Nultá kapitola je úvodom do sveta “data science”, zoznamuje so základnými cieľmi i s postupom práce dátových vedcov. Pretože predpokladáme, že čitateľ ešte s Rkom nepracoval, hneď prvá kapitola sa venuje základom jazyka R, od matematických funkcií a operátorov cez manipuláciu s dátovými štruktúrami až po jednoduché programovacie prostriedky. Druhá kapitola vovádza do sveta štatistickej analýzy prostredníctvom aplikácie základných nástrojov jazyka R v prieskumnej analýze údajov. Ďalšie kapitoly už zoznamujú čitateľa s moderným a unifikovaným prístupom k analýze pomocou rozširujúceho systému balíkov tidyverse – tretia kapitola uvádza do transformácie údajov – štvrtá do vizualizácie – a piata do čistenia údajov. Šiesta kapitola rozširuje vizualizáciu údajov o interaktívne prvky, siedma je najrozsiahlejšia a otvára dvere k publikovaniu. Učebnicu uzatvárajú niektoré témy pokročilého programovania v ôsmej kapitole, základy štatistického modelovania v deviatej a nakoniec úvod do ďalšieho programovacieho jazyka obľúbeného nielen v dátových vedách, ktorým je Python.
Súčasťou každej kapitoly sú aj cvičenia, ktoré majú získané vedomosti nielen overiť, ale predovšetkým posilniť. Odpovede bez otázok sú ako stromy bez koreňov3, takž až pri riešení problémov sa človek skutočne učí a jeho poznanie rastie. Budem rád, keď správne riešenia úloh uvádzané na konci učebnice nebudú na prekážku poznania, ale naopak, povzbudia čitateľa v nachádzaní vlastných správnych riešení.
A nakoniec – komu je učebnica určená. Pôvodne vznikala ako študijný materiál pre výuku výberového predmetu Štatistický softvér R na Stavebnej fakulte STU v Bratislave (pre všetky študijné programy i ročníky), neskôr v predmete Softvér na analýzu dát v prvom ročníku študijného programu Matematicko-počítačové modelovanie na rovnakej fakulte. Svojím zameraním však bude prínosom pre študentov a pedagógov akejkoľvek vysokej školy, kde sa vyučujú metódy kvantitatívneho výskumu v prostredí R, prípadne pre samotných vedeckých pracovníkov, ktorí začínajú objavovať možnosti jazyka R pre ich výskum.
V súčasnosti by už ani nebolo ťažké napísať balík pre R na vytvorenie a zaslanie objednávky do pizzerie.↩︎
Data Science je interdisciplinárny odbor kombinujúci matematickú štatistiku, analýzu údajov a ďalšie oblasti snažiaci sa pochopiť javy okolo nás na základe dostupných údajov.]↩︎
Tomáš Halík: Patience with God: The Story of Zacchaeus Continuing In Us↩︎