Matemàtiques (Prova d'accés a cicles formatius de grau superior)/Estadística descriptiva unidimensional

Variables discretes i contínues.[modifica]

Les variables con´tinues o discretes fa referència a l'escala de mesurament.

Una variable contínua és aquella que, en principi, té infinits valors; és a dir, hi pot haver valors en qualsevol punt d'una escala. Per exemple ho seria la variable "edat": entre dos valors sempre es pot trobar un tercer valor que quedi inclòs entre els dos primers.

Per contra, una variable discreta ve definida de tal forma que només pot assolir un determinat conjunt de valors; és a dir, l'escala de medició resta interrompuda per espais en l'escala numèrica. Seria el cas de les variables "estat civil", "religió professada", "sexe" (home/dona) o "tamany de la família". Així, per exemple, no té sentit parlar d'una família de 2,5 membres.

Recompte i presentació de dades. Determinació d'intervals i marques de classe.[modifica]

Elaboració i interpretació de taules de freqüències, gràfiques de barres i de sectors histogrames i polígons de freqüència.[modifica]

Càlcul i interpretació dels paràmetres de centralització i dispersió usuals: mitjana, moda, mediana, recorregut, variància i desviació típica.[modifica]

Un paràmetre estadístic és un nombre que resumeix els valors de les variables estadístiques de la població. Els paràmetres estadístics de centralització pretenen donar amb un únic nombre la màxima informació de tots els valors que adopta una variable, per exemple dient quin és el valor que es dóna amb més freqüència (la moda). En el cas d'una població on tots els valors d'una variable siguin exactament iguals (població uniforme), aquest valor és el millor paràmetre de centralització i, en aquest cas, tots els paràmetres de centralització que s'explicaran coincidirien amb aquest valor únic. Els paràmetres estadístics de dispersió resumeixen en un únic nombre lo diferent que és la població objecte d'estudi d'una població uniforme. Tots ells donen zero si s'apliquen a una població uniforme.

Paràmetres estadístics de centralització[modifica]

Mitjana[modifica]

La estatura mitjana com a resum d'una població homogènia (a baix) o heterogènia (a dalt).

La mitjana aritmètica és, probablement, un dels paràmetres estadístics més estesos. Donat un conjunt numèric de dades, 'x1, 'x2..., 'xn, es defineix la seva mitjana aritmètica com a

Aquesta definició varia, encara que no de manera substancial, quan es tracta de variables contínues.

Les seves propietats son:

  • El seu càlcul és molt senzill i hi intervenen totes les dades.
  • S'interpreta com punt d'equilibri o centre de masses del conjunt de dades, ja que té la propietat d'equilibrar les desviacions de les dades respecte del valor de la mitjana:
  • Minimiza les desviacions quadràtiques de les dades respecte de qualsevol valor prefixat, això és, el valor de és mínim quan . Aquest resultat es coneix com Teorema de König. Aquesta propietat permet interpretar un dels paràmetres de dispersió més importants: la variància.

Aquest paràmetre, encara que té múltiples propietats que aconsellen el seu ús en situacions molt diverses, té també alguns inconvenients, com ara:

  • Per a dades agrupades en intervals (variables contínues) el seu valor oscil·la en funció de la quantitat i amplitud dels intervals que es consideri.
  • Com menys homogènies són les dades, menys informació proporciona. Dit d'un altre manera, poblacions molt diferents en la seva composició poden tenir la mateixa mitjana. Per exemple, un equip de bàsquet amb cinc jugadors d'igual estatura, 1,95, tindria una estatura mitjana d'1,95, evidentment, valor que representa fidelment a aquesta homogènia població. Tanmateix, un equip d'estatures més heterogènies, 2,20, 2,15, 1,95, 1,75 i 1,70, per exemple, tindria també una estatura mitjana d'1,95, valor que no representa a gairebé cap dels seus components.
  • És sensible als valors extrems de la variable. Per exemple, en el càlcul del salari mitjà d'una empresa, el salari d'un alt directiu que guanyi 1.000.000 de té tant de pes com el de mil empleats "normals" que guanyin 1.000 €, sent la mitjana d'aproximadament 2.000 €.

Moda[modifica]

La moda és la dada més repetida, el valor de la variable amb major freqüència absoluta. En cert sentit es correspon la seva definició matemàtica amb la locució "estar de moda", això és, ser el que més es porta.

El seu càlcul és extremadament senzill, ja que només necessita un recompte. En variables contínues, expressades en intervals, hi ha l'interval denominat modal.

Les seves principals propietats són:

  • Càlcul senzill.
  • Interpretació molt clara.
  • Al dependre només de les freqüències, pot calcular-se per a variables qualitatives. És per això el paràmetre més utilitzat quan no és possible fer altres càlculs per resumir una població, per exemple, quan s'enumeren en mitjans periodístics les característiques més freqüents de determinat sector social. Això es coneix informalment com a "retrat robot".

Inconvenients.

  • El seu valor és independent de la major part de les dades, la qual cosa la fa molt sensible a variacions mostrals. D'altra banda, en variables agrupades en intervals, el seu valor depèn excessivament del nombre d'intervals i de la seva amplitud.
  • Fa servir molt poques observacions, de manera que grans variacions en les dades fora de la moda, no afecten en cap manera al seu valor.
  • No sempre se situa cap al centre de la distribució.
  • Pot haver-hi més d'una moda en el cas en el que dos o més valors de la variable presentin la mateixa freqüència (distribucions bimodals o multimodals).

Exemple

Per a fer un estudi sobre l'alçada dels nens d'una determinada edat, es va prendre la mesura a una mostra de 100 nens d'aquesta edat. La distribució de les alçades recollides pot veure's en la taula següent:

Distribució de freqüències
Alçades (en metres) Freqüències
1,52 2
1,54 5
1,56 12
1,58 23
1,60 25
1,62 18
1,64 10
1,66 3

El valor de màxima freqüència és, en aquest cas, el de 1,60 metres, que es repeteix en 25 mesures. Per tant, la moda de la mostra de les alçades recollida és 1,60 metres.

Mediana[modifica]

La mediana és un valor de la variable que deixa per sota seu a la meitat de les dades quan es presenten ordenades de menor a major. Per exemple, la mediana del nombre de fills d'un conjunt de tretze famílies, si els seus respectius fills són: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 i 1, és 2, ja que, una vegada ordenades les dades: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posició central és 2:

En cas d'un nombre parell de dades, la mediana no correspondria a cap valor de la variable, per la qual cosa, per convenció, es pren com a mediana el valor intermedi entre els dos valors centrals. Per exemple, en el cas de dotze dades com les anteriors:

Es pren com a mediana

Hi ha mètodes de càlcul més ràpids per a dades més nombroses. De la mateixa manera, per a valors agrupats en intervals, es troba l'"interval mitjà" i, dins d'aquest, s'obté un valor concret per interpolació.

Propietats de la mediana com a paràmetre estadístic:

  • Es menys sensible que la mitja a oscil·lacions dels valors de la variable. Un error de transcripció en la sèrie de l'exemple anterior en l'últim nombre, deixa la mediana inalterada.
  • Pot calcular-se per a dades agrupades en intervals, fins i tot quan algun d'ells no està delimitat.
  • No es veu afectada per la dispersió. De fet, és més representativa que la mitjana aritmètica quan la població és bastant heterogènia. Sol donar-se aquesta circumstància quan es resumeix la informació sobre els salaris d'un país o una empresa. Hi ha uns quants salaris molt alts que eleven la mitjana aritmètica fent que perdi representativitat respecte al gruix de la població. Tanmateix, algú amb un salari igual a la "mediana" sabria que hi ha tanta gent que guanya més diners que ell, com que en guanya menys.

Els seus principals inconvenients són que en el cas de dades agrupades en intervals, el seu valor varia en funció de l'amplitud d'aquests. D'altra banda, no es presta a càlculs algebraics tan bé com la mitjana aritmètica.

Paràmetres estadístics de dispersió[modifica]

Recorregut[modifica]

El recorregut d'una variable estadística és la diferència entre el valor més gran i el més petit que pren la variable. És la mesura de dispersió més senzilla de calcular, encara que és una mica basta perquè només pren en consideració un parell d'observacions. N'hi ha prou que una d'aquestes dues dades variï perquè el paràmetre també ho faci, encara que la resta de la distribució continuï sent, essencialment, la mateixa.

Variància[modifica]

Conjunt de dades estadístiques de mitjana aritmètica 50 (línia blava) i desviació típica 20 (línies vermelles).

Tal com es va explicar més amunt, la suma de totes les desviacions respecte la mitjana aritmètica, és zero. Per tant si es desitja una mesura de la dispersió sense els inconvenients per al càlcul que tenen les desviacions mitges, una solució és elevar al quadrat tals desviacions abans de calcular la mitjana. Així, es defineix la variància com:

,

és a dir, la mitjana de les desviacions respecte de la mitjana, elevades cada una al quadrat.

Desviació típica[modifica]

Fixeu-vos que en la variància es calcula la mitja aritmètica de les desviacions elevades al quadrat, per tant el seu significat és el de desviació al quadrat, per tenir un paràmetre estadístic que tingui un significat de desviació, es defineix la desviació típica , com l'arrel quadrada de la variància, és a dir,

Per a variables agrupades en intervals, s'usen les marques de classe (un valor apropiat de l'interior de cada interval) en aquests càlculs.

Propietats:

  • Si tots els valors de la variable es multipliquen per una constant, 'b', la desviació típica queda multiplicada per 'b.
  • En l'interval es troben, almenys, el de les observacions. Aquesta propietat mostra la potència de l'ús conjunt de la mitjana i la desviació típica com a paràmetres estadístics, ja que per a valors de 'k' iguals a 1 i 2, respectivament, s'obté que:
    • En l'interval hi ha, pel capbaix, el 75% de les dades.
    • En l'interval hi ha, pel capbaix, el 89% de les dades.