Vés al contingut

Manual de R (Estadística)

Aquest llibre està dissenyat per ser una guia pràctica de com utilitzar el llenguatge de programació R fonamentalment per realitzar anàlisis de dades.[1] Existeixen dos llibres similars en anglès, un més centrat en l'anàlisi, Statistical Analysis: an Introduction using R[2] i un altre més centrat en la llenguatge, R Programming. Dels dos es van traient coses.[3] Ja hi ha una documentació molt bona a la pàgina web CRAN[4] i en altes llocs de la xarxa,[5] però tots aquests recursos estan dispersos i per tant difícils de trobar i comparar. L'objectiu d'aquest Viquillibre és doble. Per una part, ser un lloc on qualsevol pugui compartir els seus coneixements i trucs R. En segon, ser una referència pels usuaris novells que els hi eviti tenir que anar cercant per la xarxa com amb R es realitza, p. ex., una prova de khi quadrat mostrant els efectius esperats.

L'objectiu és massa ambicions per poder ser assolit sense la col·laboració de la comunitat. Per tant, es sol·licita la seva ajuda. Les col·laboracions són imprescindibles, necessàries i molt molt més que benvingudes. L'animen a corregir, clarificar, millorar i ampliar el contingut d'aquest llibre. Si ho vol fer, a continuació es presenten algunes convencions tipogràfiques i pautes que s'estan intentant seguir en la redacció.

Cal tenir en compte de que aquest no és un llibre d'estadística ni pretén ensenyar estadística. Només és un intent d'explicar com es pot aplicar el mètode estadístic utilitzant el R.

Totes les anàlisi en aquest curs és realitzen escrivint les ordres. Les notes "Introducció a l'anàlisi estadístic de dades clíniques amb l'R-Commander. (Estadística aplicada a la medicina amb programari lliure)" és un curs similar a aquest, però utilitzant menús com en el SPSS.

Índex

[modifica]
Nivells de desenvolupament del Viquillibre
Per fer o esborrany:
Poc desenvolupat:
Madurant:
Abundant:
Considerat complet:
Exemple: proc genmod del SAS.
  • Models lineals mixtes
    • La variable dependent ha de ser normal
    • Els errors poden ser independents o correlacionats
    • Poden existir efectes aleatoris
    • La relació entra la variable dependent i les independent ha de ser lineal
Exemple: proc mixed del SAS.
  • Models mixtes lineals generalitzats . Per als casos en què cap de les assumpcions es compleixen:
    • La variable dependent no cal que sigui normal
    • Els errors poden estar correlacionats
    • Poden existir efectes aleatoris
    • La relació entra la variable dependent i les independent no cal que siguin lineal
Exemple: proc glimmix del SAS.

Algunes convencions tipogràfiques

[modifica]

Aquest document intentarà seguir a una sèrie de convencions tipogràfiques per facilitar la lectura.

  • Els elements propis del llenguatge del R s'escriuran en minúscules i amb un tipus de lletra d'amplada fixa com aquesta .
  • Els elements del usuari (p. ex., els noms dels fitxers o de les variables) també s'escriuran amb un tipus de lletra d'amplada fixa, però en majúscules. Sovint si no es coneixent bé els elements d'un llenguatge informàtic, hom no sap si una determinada paraula és pròpia del llenguatge o és un paràmetre propi del usuari (p. ex., el nom d'una variable). Això s'evita utilitzant majúscules i minúscules. Aquesta convenció no se seguirà quan s'hagin de llegir un fitxer ja existent que tinguin el nom escrit, totalment o parcialment, en minúscules. Per exemple, sovint en els exemples s'utilitza el fitxer Aids2 que està en el paquet MASS del propi R. No es podrà escriure en majúscules ja que amb el nom amb majúscules no existeix.
  • En el codi dels exemples, entre "< ... >" s'escriu les parts que ha de completar el lector. Per exemple, si s'ha d'escriure un títol, s'indicarà com main="<Títol>". Si s'ha de seleccionar una de les opcions possibles, estaran separades el signe "|" (p. ex., type="<l|p|b|n>").
  • En els exemples, quan es presentin barrejats ordres de R amb els resultats de les mateixes, les ordres aniran precedides pel indicador del sistema d'R que és el símbol ">".
  • Quan una ordre és massa llarga i està en diverses línies, les línies consecutives estaran precedides pel símbol +:
 
> AIDS = read.table(file="Aids2.csv",        # Nom del fitxer
+                   header=TRUE,             # Primera fila: noms de les variables
+                   sep=';',                 # El separador dels camps és un ";"
+                   dec=',',                 # El separador de decimals és una coma
+                   row.names=1,             # Columna amb el identificador dels individus
+                   na.strings = "NA",       # Els valors desconeguts estan com "NA"
+                   nrows = -1,              # Nombre màxim de línies a llegir (-1: totes)
+                   blank.lines.skip = TRUE  # No importar línies en blanc
+                   )

Si es vol reproduir l'exemple en una sessió R pròpia, els signes ">" i "+" s'han d'esborrar abans d'executar les ordres.

Comparteixi els seus coneixements i experiència

[modifica]

Tots en sortirem guanyant si comparteix els seus coneixements corregint, millorant o ampliant el contingut del llibre. Com es pot compartir la seva experiència amb R? Hi han moltes coses a fer, com, p. ex.

  • Com amb qualsevol Viquillibre, fent correccions, ampliant les explicacions, i fer addicions on sigui necessari.
  • Explicar la sintaxi d'una ordre.
  • Incloure exemples amb dades incloses en el propi R o basats dades falses (és a dir simulat conjunts de dades).

Si vol compartir la seva experiència, aniria bé seguir unes convencions mínimes (malgrat que no tot el text escrit les segueix: disculpes)[6]:

  • Escriure el nom de les funcions (i ordres) en l'entorn de codi: <code>lm()</code>.
  • Escriure el nom dels paquets en negreta : '''stats'''
  • A excepció dels paquets per omissió, posar el nom del paquet en parèntesi després de cada funció: <code>MCMCprobit()</code> ('''MCMCpack''')
  • Escriure el codi dels exemples amb l'entorn de codi rsplus amb lang="rsplus" : <syntaxhighlight lang="rsplus"> ... Codi R ... </syntaxhighlight>
  • En el codi dels exemples, escriure entre "< ... >" les parts que ha de completar el lector. Per exemple: main="<Títol>". Si s'ha de seleccionar una de les opcions possibles, separar-les amb "|" (p. ex., type="<l|p|b|n>").
  • Sempre que es pugui, utilitzar referències a la documentació del paquet, la literatura acadèmica i Wikipedia. Recordar que la plantilla Citar ref de la Viquipèdia encara no funciona en els viquillibres.
  • Si vol afegir una figura, l'ha de carregar a Wikimedia Commons afegint l'etiqueta {{Created with R}} i, si en el comentari del gràfic hi escriu el codi que l'ha generat[7], afegir també l'etiqueta [[Category:Images with R source code]]. La càrrega es pot fer:
  • En les coses que no tinc clares, hi col·loco un comentari entre dos "XXX", p. ex. "XXX No se si la traducció és correcte.XXX".

Referències

[modifica]
  1. R Development Core Team (2009). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.
  2. L'enfocament d'aquest llibre en anglès és bastant més modern que el presentat aquí, molt més clàssic.
  3. Entre altres coses, molta part d'aquesta introducció. Ho agraïm als autors de R Programming.
  4. Manuals oficials i Documentació escrita per altres usuaris
  5. Cal citar de forma especial el curs de Roger D. Peng Computing for Data Analysis del que s'ha tret molta informació.
  6. Tret de R Programming
  7. Veure per exemple, el gràfic.
Viquipèdia A la Viquipèdia hi ha contingut enciclopèdic relatiu a R (llenguatge de programació).