L’anàlisi de dades és el procediment o procés que es realitza per organitzar i extreure la informació recollida pels investigadors. En aquest procediment s’estableixen relacions, interpretacions i significats de les dades obtingudes.
Abans d’analitzar les dades, és convenient conèixer quin és el seu abast i sobre què estan parlant. Per això és important tenir en compte els conceptes d’univers/població, cens i mostra.
Normalment es treballa sobre mostres perquè d’aquesta manera s’abarateixen els costos que suposa haver d’arribar a tota la població. Però llavors s’ha de tenir en compte que és possible caure en els errors mostrals, és a dir, mesures esbiaixades sobre la població o l’univers perquè existeix un biaix en la mostra.
El càlcul de la mida de la mostra (grandària mostral) i de l’error mostral acceptable en la mostra es poden calcular.
La mostra pot ser:
Dintre de les mostres probabilístiques, existeixen diversos tipus de mostreig:
Exemples de població o univers:
L’aleatorietat no implica atzar. Per seleccionar una mostra sobre un univers del qual es disposa d’un cens, una opció és utilitzar la mostra sistemàtica. Consisteix a ordenar el cens i enumerar-lo, calcular un període (nombre total d’individus a la població / nombre total d’individus al cens) i seleccionar les unitats mostrals que coincideixin amb aquest període.
En cas que sigui assumible analitzar l’univers complet, ja sigui perquè és reduït o perquè es té «captiu», sempre és preferible. De totes maneres, s’ha de tenir en compte un altre tipus d’error, el sistemàtic, que pot produir-se per la no obtenció d’informació dels individus o per un error en la mesura.
Aquesta és la primera anàlisi que s’acostuma a fer de les dades. Amb dades de tipus qualitatiu, l’anàlisi es fa mitjançant una taula de freqüències.
Les taules de freqüències es fan calculant quantes vegades ocorre cadascuna de les possibles opcions d’una variable. A més, es calcula quant representa aquesta freqüència sobre, en termes percentuals, el total d’informació.
Taula de freqüències dels alumnes del cicle
Freqüència | Percentatge | |
Cicle inicial | 250 | 27,59 % |
Cicle mitjà | 325 | 35,87 % |
Cicle superior | 331 | 36,53 % |
Total | 906 | 100 % |
Amb les dades numèriques, com els indicadors, es fan servir mesures de tendència central i de dispersió.
Les mesures de tendència central més utilitzades són:
La mesura de dispersió més utilitzada és la desviació estàndard, que informa sobre si la distribució de les dades està molt concentrada al voltant de la mitjana (quan representa valors baixos) o està més dispersa (valors elevats).
També és molt útil la utilització dels quartils, sobretot el segon i tercer quartils, que mostren, respectivament, quin és el valor que queda a l’esquerra i a la dreta el 25 % dels casos. Per calcular-los és necessari, tal com es feia també amb la mediana, ordenar els valors obtinguts i identificar quins són els dos valors que compleixen la característica mencionada.
Aquests càlculs es poden fer normalment amb els fulls de càlcul o el programari d’anàlisi estadística. És important poder donar una visió conjunta de la distribució de les dades, ja que no és el mateix, en una aula d’alumnes que tenen de mitjana un 5, que aquesta mitjana sigui perquè tots han tret un 5 que perquè n’hi ha 5 que han tret un 10 i 5 que han tret un zero.
Per aclarir l’exemple esmentat, que deia que no és el mateix, en una aula d’alumnes que tenen de mitjana un 5, que aquesta mitjana sigui perquè tots han tret un 5 que perquè n’hi ha 5 que han tret un 10 i 5 que han tret un zero, la taula següent mostra les diferències:
L’anàlisi de dades bivariada consisteix a posar en relació els valors de dues variables o dos indicadors de forma conjunta. S’ha de tenir en compte si les variables que es posen en relació són les dues qualitatives, si són les dues quantitatives o si una és qualitativa i l’altra quantitativa.
Quan les dues són quantitatives, s’utilitza una taula de contingència. Una taula de contingència és una taula de doble entrada que, seguint el concepte de la taula de freqüències, calcula quantes vegades ocorre cadascuna de les combinacions possibles de les categories de les dues variables.
En programari de full de càlcul, les taules de contingència es poden fer amb taules combinades (de LibreOffice Calc o d’Excel, per exemple). També és útil calcular el percentatge que suposa cadascuna d’aquestes combinacions. Els percentatges es poden calcular sobre el total de la taula, sobre el total de la filera o sobre el total de la columna.
Quan les dues variables són qualitatives, una de les tècniques que més s’utilitzen és l’anàlisi de correlació, que és un estadístic que indica el grau de lligam que existeix entre les dues variables. És a dir, quan una augmenta, l’altra augmenta també?
Per fer aquesta anàlisi de forma intuïtiva és recomanable realitzar una gràfica de dispersió, que és la típica gràfica que dibuixa totes les combinacions de punts possibles entre les dues variables.
El tercer dels casos és potser un dels que més interès pot tenir en un recurs sobre indicadors d’avaluació, ja que s’està treballant amb una variable quantitativa i una de qualitativa. En aquest cas, es pot utilitzar les mesures de tendència central i de dispersió, però segmentades per a cada categoria de la variable qualitativa.
Un exemple clàssic, que es fa servir de manera intuïtiva, és la segmentació de la nota global en una assignatura segons el cicle educatiu.