Dades estadístiques

Unitat 3. Descripció de variables quantitatives

1. Introducció

Ja hem comentat anteriorment que les variables quantitatives permeten un ventall de possibilitats d’anàlisi estadística més ampli que les variables qualitatives, sobretot pel que fa al càlcul de valors representatius que resumeixin característiques concretes de les variables.

Així, en aquesta unitat:

  • Veurem com podem adaptar les taules de freqüències exposades en la unitat anterior en l'apartat de variables quantitatives.
  • Comentarem les representacions gràfiques que s’utilitzen més habitualment per estudiar aquests tipus de variables.
  • Presentarem els diferents indicadors estadístics que ens permeten resumir en un sol valor algunes característiques de les distribucions de variables quantitatives. Les característiques poden ser la centralitat o la tendència central, la variabilitat o la dispersió, l'ordre, la posició o la forma.

Com hem comentat en la unitat anterior, la metodologia de treball per fer un seguiment correcte dels diferents apartats que anirem exposant requereixen que l’alumne faci totes les anàlisis estadístiques, proposades com a exemples, del fitxer “dades_alt_penedes.xls” que formen part del material del curs.

A continuació, us podeu descarregar l’arxiu Excel amb la matriu de dades de l'Alt Penedès que us serviran per fer les activitats pràctiques: Matriu de dades de l’Alt Penedès

2. Taula de freqüències

En la unitat anterior hem definit què entenem per taula de freqüències. Si ho recordem, dèiem:

Les taules de freqüències ens proporcionen informació sobre els diferents valors, modalitats o categories de la variable i el recompte, absolut o relatiu, del nombre de casos de cada categoria.

De totes maneres, si la variable que estem analitzant és quantitativa el nombre de valors que habitualment assumirà en la mostra serà elevat i, per tant, la taula de freqüències amb cada un dels valors com a modalitats de la variable no es podrà fer servir. No obstant això, es pot utilitzar la taula de freqüències per organitzar i presentar les dades d’una variable quantitativa, però en aquest cas agruparem els valors de la variable en intervals o classes.

Per exemple, pensem en l’edat dels habitants de l’Alt Penedès de la mostra que tenim, que va d'1 a 97 anys; és a dir, 97 valors diferents.

Com podríem simplificar la taula de valors de l'exemple anterior perquè sigui manejable?

Podríem agrupar l’edat dels 1.046 habitants de l’Alt Penedès de la mostra en intervals de 15 anys (d'1 a 15 anys, de 16 a 30, de 31 a 45, de 46 a 60, de 61 a 75 i majors de 75). La taula de freqüències resultant serà operativa perquè tindrà sis categories diferents com a intervals d’edat.

Cal tenir present que agrupar els valors d’una variable quantitativa en intervals és un recurs que ens pot ser útil per organitzar, presentar i representar gràficament les dades. Però té un inconvenient: si analitzem posteriorment les dades agrupades, perdrem informació sobre els valors reals de la variable i, segurament, cometrem errors d’agrupació que poden ser més o menys rellevants en funció de l’amplitud dels intervals. Per tant, sempre és millor analitzar posteriorment la variable a partir dels valors originals no agrupats.

Aquesta activitat consisteix a seguir unes indicacions pas a pas a fi d'obtenir la taula de freqüències de l'exemple anterior. Per fer-ho, heu de descarregar el següent document.

Un cop hàgiu seguit els passos anteriors i aplicat les modificacions a la matriu, la taula de freqüències definitiva i la representació gràfica corresponent que obtindreu seran les següents:

3. Representacions gràfiques: histograma i polígon de freqüències

3.1. Histograma

L'histograma és una representació gràfica que ens informarà, mitjançant una sèrie de columnes, de les freqüències absolutes o relatives de cada un dels intervals o classes de la variable quantitativa agrupada.

L'histograma, molt similar al diagrama de barres de les variables qualitatives, té com a característica diferencial que els rectangles corresponents a cada interval estan units, a diferència del diagrama de barres, en què estan separats.

Això és coherent amb el fet que:

  • Les categories d’una variable qualitativa són valors discrets i separats.
  • Els valors de la variable quantitativa són continus.

A continuació veurem, pas a pas, com podem obtenir l'histograma amb els rectangles adjacents units.

En aquesta activitat us proposem que obtingueu l'histograma de l'exemple amb els rectangles adjacents units. Per fer-ho, heu de descarregar el següent document.

A partir de la taula de freqüències i de l'histograma obtinguts, podem descriure l’edat de la mostra de 1.046 habitants de la comarca de l’Alt Penedès.

Així podem assegurar, per exemple, que el percentatge més gran d’habitants (quasi un 25%) se situa en una franja d’edat d'entre 30 i 45 anys. Que un 18% tenen menys de 16 anys i que un 7% són majors de 75 anys.

D'altra banda, en determinats estudis també ens pot ser útil obtenir la representació gràfica de l'histograma, però a partir dels percentatges acumulats. Seguirem les instruccions que ja hem comentat pel cas d’una variable qualitativa, i n'obtindrem la representació gràfica a través de la pantalla següent:

3.2. Polígon de freqüències

El polígon de freqüències és una gràfic derivat de l'histograma. Per obtenir-lo, només cal que unim mitjançant unes línies rectes el punt mitjà de les bases superiors dels rectangles de l'histograma.

En aquesta activitat us proposem que obtingueu el polígon de freqüències de l'exemple. Per fer-ho, heu de descarregar el següent document.

Si observem el gràfic que hem obtingut, podem concloure que el nombre més gran d’habitants tenen una edat compresa entre els 31 i els 45 anys, i el nombre més petit tenen una edat superior a 75 anys.

4. Indicadors estadístics

En una distribució de dades d’una variable quantitativa podem estudiar-hi diferents característiques a partir del càlcul de indicadors de cada una.

Els indicadors o estadístics són valors numèrics que resumeixen el comportament del conjunt de dades de la distribució. Els valors obtinguts per cada un d’aquests indicadors o estadístics ens permetran interpretar alguna d’aquestes característiques i, per tant, ens permetran descriure la variable analitzada.

Les diferents característiques són:

  • La tendència central (centralització)
  • La variabilitat o dispersió
  • L’ordre o la posició
  • La forma
    • La simetria
    • L’apuntament o la curtosi

Per obtenir aquests indicadors podem utilitzar les funcions de l’Excel.

En aquesta activitat us proposem que obtingueu els indicadors de l'exemple. Per fer-ho, heu de descarregar el següent document.

De totes maneres, com veurem al final d’aquest apartat, l’Excel també incorpora un programa preconfigurat que ens proporciona un resum dels indicadors.

4.1. Tendència central o centralització: mitjana, mediana i moda

Els indicadors de tendència central ens informen del punt central de la distribució de les dades de la variable estudiada. Són valors numèrics que representen o resumeixen amb una sola dada el centre de la distribució.

Els més utilitzats són:

  • La mitjana aritmètica
  • La mediana
  • La moda

Mitjana aritmètica o mitjana (X)

La mitjana és l'indicador més utilitzat per resumir la tendència central de la distribució d’una variable quantitativa.

La mitjana aritmètica correspon al centre matemàtic dels valors de la distribució.

La mitjana es representa amb el símbol , i es calcula sumant tots els valors de la distribució i dividint el resultat pel nombre de valors o dades.

La fórmula és:

Cada Xi representa cada una de les dades de la distribució i «n», el nombre total de dades.

En aquesta activitat obtindrem, pas a pas, la mitjana aritmètica mitjançant l’Excel i utilitzant la funció “PROMEDIO”. Per fer-ho, heu de descarregar el següent document.

Un cop extreta la mitjana, podrem afirmar que el valor obtingut, 40,71 anys, és el més representatiu del conjunt de tots els valors de la variable, i resumeix el punt central de les edats de tots els subjectes de la mostra.

Matemàticament, la mitjana té com a característica més destacable que si sumem totes les diferències entre cada valor de la distribució i la mitjana (el que anomenen puntuacions de desviació), la suma serà igual a zero. Així, si calculéssim la diferència entre cada edat dels 1.046 subjectes de la mostra i la mitjana de 40,71, i suméssim totes les diferències, el resultat seria igual a zero. Lògicament, es produeix aquest resultat perquè la mitjana és el centre matemàtic de la distribució de les dades.

Dit d'una manera més formal, aquesta propietat seria:

Mediana (Md)

La mediana és el valor de la distribució que, un cop ordenades les dades de menor a major, deixa un 50% de dades per sota i l’altre 50% per sobre.

Dit d’una altra manera, la mediana divideix la distribució de dades en dues meitats:

  1. La meitat de valors per sota la mediana.
  2. La meitat de valors per sobre.

Per tant, per obtenir la mediana només haurem de buscar, un cop hem ordenat les dades de la variable estudiada, la puntuació que ocupa la posició:

Així, seguint amb l'exemple, si tenim els 1.046 habitants de la mostra d’habitants de l’Alt Penedès i volem obtenir la seva mediana d’edat, buscarem la puntuació que ocupa la posició:

O sigui, el punt mitjà entre les puntuacions que ocupen, un cop ordenades les dades de menys edat a més, les posicions 523 i 524.

En aquesta activitat obtindrem, pas a pas, la mediana mitjançant l’Excel i utilitzant la funció “MEDIANA”. Per fer-ho, heu de descarregar el següent document.

Un cop hem obtingut la mediana, podrem interpretar el valor en el sentit que, en la mostra d’habitants de l’Alt Penedès, la meitat tenen menys de 40 anys i l’altra meitat, més de 40.

La mediana té una característica que no té la mitjana aritmètica, i que en alguns casos la pot fer més representativa o útil que la mateixa mitjana. Aquesta característica és l'anomenada robustesa.

La robustesa fa referència al fet que la mediana no es veu afectada per possibles valors extrems o atípics de la distribució de dades.

Així, tant si l’edat de l’habitant de més edat de la mostra fos de 97 anys, com és el cas, com si fos de 120, la mediana continuaria sent 40, ja que aquest valor extrem (120) no repercuteix sobre el valor de la mediana.

La mitjana es veuria afectada per aquest valor extrem de 120, encara que en l'exemple, com que la mostra és d'una mida considerable, un sol valor atípic o extrem tampoc no repercutiria de manera rellevant sobre la mitjana.

De totes maneres, cal tenir en compte aquesta característica de la mediana a l’hora de decidir quin pot ser l'indicador de tendència central més representatiu d’una distribució de dades:

  • Si la distribució presenta valors extrems o atípics (el que anomenem distribució asimètrica), la mediana pot ser més representativa de la tendència central de les dades que la mitjana aritmètica.
  • Si, com és el cas de l'exemple, la mediana i la mitjana tenen valors molt propers (40 i 40, 71), podem interpretar-ho com que la distribució de dades de la variable és força simètrica i, per tant, no hi ha valors atípics o extrems (valors molt allunyats de la resta de valors de la variable), i en aquest cas la mitjana aritmètica serà l'indicador de tendència central més representatiu.

Tornarem a tractar el tema de la simetria en l’apartat dels indicadors de forma.

Moda (Mo):

La moda és el valor més freqüent d’una distribució de dades.

Podem identificar diferents tipus de distribucions en funció de la moda:

  • Amodal: si no hi ha cap valor que es repeteixi més que els altres.
  • Multimodals (bimodals, trimodals, etc.): distribucions que tinguin més de una moda.

Per obtenir la moda amb l’Excel, utilitzem la funció “MODA”, seguim les indicacions ja exposades per els indicadors anteriors.

Així, en el cas del nostre exemple, la moda de la mostra d’habitants de l’Alt Penedès és de 40 anys. Si agrupéssim els subjectes per edats, podríem comprovar que els subjectes de 40 anys son el més nombrosos (21 subjectes).

La moda no és un indicador molt utilitzat per caracteritzar la tendència central de una distribució, però pot ser útil per obtenir un perfil característic d’una mostra de dades. Així, si tractéssim d’obtenir el perfil o prototip d’edat dels habitants de l’Alt Penedès, podríem dir que és una persona de 40 anys.

Criteris per triar l'indicador de tendència central més adequat

  • L'indicador de tendència central més utilitzat i més representatiu per a variables quantitatives és la mitjana.
  • De totes maneres, com hem comentat anteriorment, si la distribució de la variable estudiada és força asimètrica (o sigui, que tingui valors extrems o atípics), la mediana pot ser més representativa que la mitjana, ja que no es veu afectada pels valors extrems. En aquests casos, és aconsellable indicar els dos valors (mitjana i mediana) per interpretar de manera més adequada la centralitat de la distribució de dades.
  • També cal tenir en compte que si la variable és qualitativa mesurada amb una escala ordinal, no podem calcular la mitjana aritmètica i, per tant, l'indicador de tendència central més adequat serà la mediana.
  • Finalment, la moda només té sentit en la descripció de variables qualitatives mesurades amb escales nominals (ja que és l’únic indicador calculable), i en determinats casos en què l’objectiu és obtenir un perfil característic o prototípic d’una determinada variable.

4.2. Variabilitat o dispersió: variància, desviació típica i coeficient de variació

Sovint, per descriure una distribució de dades d’una variable quantitativa, no n'hi ha prou de calcular i interpretar algun indicador de tendència central, ja que aquest identifica el valor central més representatiu però no ens aporta informació respecte als altres valors de la variable.

Per exemple, podem tenir dues mostres d’habitants de dues ciutats diferents amb una mateixa mitjana d’edat (suposem, de 40 anys), però en què la resta de valors de les edats dels habitants són molt semblants entre ells en una ciutat o molt dispersos en l’altra. La característica de la variabilitat o dispersió de les dades ens permet interpretar si la mostra és molt homogènia respecte a la variable que estudiem (molts habitants amb edats similars), o molt heterogènia (habitants amb moltes diferències d’edat).

Els indicadors de variabilitat o dispersió més utilitzats són:

  • La variància
  • La desviació típica
  • El coeficient de variació

Els indicadors de dispersió s'obtenen del càlcul de les anomenades puntuacions diferencials.

Una puntuació diferencial és la diferència entre un dels valors de la variable i la mitjana de tots els valors.

Formalment:

On identifiquem amb x minúscula la puntuació diferencial i X majúscula la puntuació directa.

Així, aplicant-ho a l'exemple, per al primer subjecte de la matriu de dades dels 1.046 habitants de la comarca de l’Alt Penedès la puntuació diferencial (o de diferència) de l’edat és de -22,71 anys.

Per al primer subjecte de la matriu de dades: Això vol dir que el primer subjecte s’allunya 22,71 anys de la mitjana d’edat de tots els subjectes de la mostra.

Sembla evident que com més elevades són les puntuacions diferencials, més dispersa és la característica que estem estudiant (més diferències hi ha entre cada puntuació i la mitjana de totes); i com més baixes són les puntuacions de diferència, menys dispersa és la mostra respecte a aquesta característica (en l’exemple: l’edat). Per tant, a partir de les puntuacions diferencials podrem obtenir indicadors que ens permetin interpretar si la distribució de valors de la variable és més o menys dispersa.

De totes maneres, a l’hora de sumar totes les puntuacions de diferència d’una variable ens trobem que, com a conseqüència de la característica esmentada de la mitjana, el sumatori és igual a zero.

El recurs per obtenir un indicador de variabilitat a partir de les puntuacions diferencials és elevar al quadrat les puntuacions de diferència, amb la qual cosa se soluciona el problema del valor nul del sumatori.

Variància (S²)

La variància és la mitjana de la puntuacions diferencials elevades al quadrat. O sigui, que s’obté sumant els quadrats de les puntuacions diferencials i dividint el resultat pel nombre de puntuacions.

En aquest punt, cal tenir en compte que podem diferenciar entre dues fórmules, lleugerament diferents, de calcular la variància. El perquè d’aquestes dues formes de càlcul queda fora de l’abast del curs, ja que és una qüestió d’estadística inferencial.

Les dues fórmules de càlcul permeten diferenciar entre el que habitualment es considera:

  • Variància mostral
  • Variància poblacional

La més utilitzada és la variància mostral, i la fórmula per calcular-la és la següent:

La variància poblacional només es diferencia pel fet que en lloc de dividir-se per «n-1», es divideix per «n». Si la mida de la mostra és elevada, la diferència entre els valors de les dues variàncies serà mínima.

Per obtenir la variància mitjançant l’Excel utilitzem la funció VAR. Seguint la seqüència d’instruccions descrita pels indicadors de tendència central, si calculem la variància de l’edat de la mostra de 1.046 habitants de l’Alt Penedès obtindrem un valor de 506,80. Aquest valor correspondria a la fórmula següent:

Si volguéssim obtenir la variància poblacional, utilitzaríem la funció VARP, que en l'exemple ens donaria un valor de 506,32 que, com podem comprovar, és gairebé igual que l'obtingut anteriorment.

A l’hora d'interpretar el valor de la variància, ens trobem amb la dificultat que s'ha calculat elevant al quadrat les puntuacions de diferència, i, per tant, les unitats són les pròpies de la variable estudiada però elevades al quadrat.

Així, en l'exemple, no podem concloure que la variabilitat o la dispersió de l’edat dels habitants de l’Alt Penedès sigui de 506 anys, ja que la xifra és clarament exagerada perquè no són 506 anys, sinó 506 anys al quadrat.

Per aquest motiu, l'indicador de variabilitat o dispersió més utilitzat no és la variància, sinó la desviació típica, que no és altra cosa que l’arrel quadrada de la variància.

Desviació típica o desviació estàndard (S)

La desviació típica o desviació estàndard és l’arrel quadrada de la variància.

D’aquesta manera, tenim un indicador de variabilitat o dispersió que podem interpretar amb les unitats pròpies de la variable estudiada. També, com en el cas de la variància, podem distingir entre la desviació típica mostral (la més habitual) i la poblacional. Tant l'una com l’altra es calculen obtenint l’arrel quadrada de la variància corresponent (ja sigui la mostral o la poblacional).

En el cas de la mostral, la fórmula per calcular-la serà:

Podem obtenir la desviació típica mitjançant l’Excel utilitzant la funció DESVEST.

Continuem amb l'exemple. Si calculem la desviació típica de l’edat dels 1.046 habitants de l’Alt Penedès, obtindrem un valor de 22,51. El valor correspondria a la fórmula següent: Per obtenir la desviació estàndard poblacional, utilitzarem la funció DESVESTP, que en l'exemple ens dóna un valor de 22,50.

Com en el cas de la variància, els valors mostral i poblacional són pràcticament iguals, ja que el nombre de subjectes de la mostra (n) és elevat.

El valor de l'indicador de variabilitat ja es pot interpretar en les unitats pròpies de la variable estudiada.

D'aquesta manera, podem concloure que en l'exemple la dispersió o variabilitat de les edats de la mostra d’habitants de l’Alt Penedès correspon a una desviació típica de 22 anys i mig. El resultat ja és molt més representatiu de la dispersió de les dades de les edats de la mostra, a diferència dels 506 anys de la variància.

Coeficient de variació (CV)

Si la desviació típica és un indicador de variabilitat absolut, ja que s'expressa en funció de les unitats de la variable estudiada, el coeficient de variació és un indicador de variabilitat relatiu ja que representa el percentatge de variació respecte a la mitjana de la distribució. Així, el coeficient de variació ens serà útil quan vulguem comparar la variabilitat de dues variables diferents o de la mateixa variable en dues mostres amb mitjanes diferents.

La fórmula per calcular el coeficient de variació és la següent:

El coeficient de variació s’interpreta com un percentatge de variabilitat respecte a la mitjana de la distribució, i com més dispersió presenti la variable estudiada més elevat serà.

L’Excel no té cap funció per calcular directament el coeficient de variació, però el podrem obtenir fàcilment a partir de la seva fórmula.

Així, en l’exemple de l’edat dels habitants de l’Alt Penedès, el coeficient de variació serà:

Per tant, podem concloure que la dispersió de l’edat de la mostra de subjectes és d’un 55% respecte a la mitjana, que podem interpretar com una dispersió o variabilitat mitjana.

4.3. Ordre o posició

Els indicadors d’ordre o posició ens seran útils quan vulguem determinar quin percentatge de subjectes estan per sota o per sobre d’un determinat valor de la variable, o per conèixer el valor que deixa per sota un determinat percentatge de casos o subjectes.

Així, en l'exemple dels habitants de l’Alt Penedès, ens podria interessar determinar quin percentatge d’habitants tenen menys de 25 anys, o quina edat ens deixa un 20% d’habitants per sobre d'aquesta edat. Dit d’una altra manera, si volem triar el 20% d’habitants amb més edat, a partir de quina edat els hauríem de seleccionar.

L'indicador d’ordre o posició més habitual és el percentil, encara que també s’utilitza un indicador derivat d'aquest mateix indicador, el quartil.

Percentil (Pc)

Els percentils són els valors de la distribució de dades que, un cop ordenades de menor a major, deixen un percentatge determinat de casos o subjectes per sota.

Els percentils tenen un rang de valors d'1 a 100. Així, el percentil 30 és el valor de la distribució que deixa un 30% de les dades per sota i, evidentment, un 70% per sobre.

Per tant, en els exemples que exposàvem anteriorment, per determinar quin percentatge d’habitants de l’Alt Penedès tenen menys de 25 anys, hauríem de calcular quin percentil correspon a una edat de 25 anys; i si volem triar el 20% d’habitants amb més edat, haurem de buscar quina edat correspon al percentil 80, que és el que deixa per sobre un 20% de casos amb valors més elevats.

Per obtenir un percentil amb l’Excel, utilitzarem la funció PERCENTIL.

Si, com en l'exemple, volem obtenir el percentil 80 de la mostra d’habitants de l’Alt Penedès, seguirem la seqüència d’instruccions coneguda per activar una funció: “Insertar”, “Función”, “PERCENTIL”, i en el quadre de diàleg que apareixerà hi inclourem:

  1. A “Matriz”, les caselles de valors de la variable estudiada.
  2. A “k”, el valor del percentil dividit per 100 (en l'exemple, 0,8).

I quedarà de la manera següent:

Com podem observar, el percentil 80 de l’edat de la mostra d’habitants de l’Alt Penedès és 61, resultat que ens confirma que el 20% d’habitants de més edat es troben per sobre de 61 anys. O dit d’una altra manera, que el 80% d’habitants tenen 61 anys o menys.

D'altra banda, per determinar quin percentil correspon a un valor determinat de la variable, utilitzarem la funció RANGO.PERCENTIL.

Així, per determinar quin percentatge d’habitants de l’Alt Penedès tenen menys de 25 anys activarem la funció anterior, i escriurem el següent en el quadre de diàleg:

  1. A “Matriz”, les caselles de les dades de la variable.
  2. A “X”, el percentil que busquem.
  3. A “Cifra-significativa” no cal incloure-hi cap valor, ja que l’Excel ens proporcionarà per defecte 3 decimals.

La pantalla corresponent serà:

El resultat que ens dóna l’Excel és de 0,267. Per obtenir el percentil, multiplicarem el valor per cent i l’arrodonirem a l’enter més pròxim.

Així, en l'exemple, el percentil que correspon a una edat de 25 anys és el 27. Per tant, podem concloure que el 27% d’habitants de l’Alt Penedès tenen 25 anys o menys, i el 73% restant, més de 25.

Els quartils (Q)

Si els percentils divideixen la distribució en 100 parts iguals, el quartils ho fan en 4 parts iguals.

Així, tindrem quatre tipus de quartils:

  • El quartil 1 (Q1) és el valor de la distribució que deixa per sota, un cop ordenades les dades de menor a major, el 25% de casos o subjectes.
  • El quartil 2 (Q2) deixa per sota un 50% de casos.
  • El quartil 3 (Q3) que deixa un 75% de casos per sota.
  • El quartil 4 és el valor màxim de la distribució.

Com podem observar, de fet, els quartils són uns percentils determinats. El quartil 1 és el percentil 25, el quartil 2, el percentil 50, i el quartil 3, el percentil 75.

La mediana, a més de ser un indicador de tendència central, també és un indicador de posició ja que es correspon amb el percentil 50 i amb el quartil 2.

Per obtenir els diferents quartils amb l’Excel utilitzarem la funció “CUARTIL”. En el quadre de diàleg d’aquesta funció, hem d'introduir-hi les caselles de la variable que volem estudiar a “Matriz” i el quartil que volem obtenir a “Cuartil”.

Per obtenir el tercer quatil de l'exemple de la mostra d’habitants de l’Alt Penedès, hem de seguir els passos següents. Omplirem el quadre tal com mostra la captura de pantalla següent:

Com podem comprovar, el tercer quartil correspon a una edat de 58 anys. Podem concloure que el 75% d’habitants de la comarca tenen una edat igual o inferior als 58 anys, i un 25%, una edat superior al 58.

4.4. Forma: simetria i curtosi

Els indicadors de forma no són tan utilitzats per descriure una variable quantitativa però ens poden ser útils, en alguns casos, per determinar l'adequació d'un indicador o un altre.

En els indicadors de forma, podem distingir entre:

  • Els de simetria
  • Els de curtosi o apuntament

new_pdf_page

Coeficient d'asimetria (As)

La simetria de les dades d’una variable té a veure amb la distribució dels valors a una banda i a l'altra de la tendència central.

  • La distribució serà simètrica quan els valors per sota i per sobre de la mitjana segueixin un comportament similar (gràficament, tenen una forma similar).
  • La distribució serà asimètrica quan els valors per sobre o per sota del punt mitjà tinguin un comportament diferent (gràficament, tenen una configuració diferent).

Un gràfic com l'histograma pot ser força informatiu sobre la possible simetria o asimetria de la distribució. L'asimetria pot ser:

  • Positiva: si hi ha més casos en el rang de valors inferiors.
  • Negativa: si hi ha més casos en el rang de valors superiors.

Així, els tres histogrames següents corresponents a dues distribucions asimètriques (positiva o negativa) i una de simètrica:

Simetria

Asimetria negativa

Asimetria positiva

Hi ha diferents indicadors de simetria, però aquí només exposarem el que podem obtenir mitjançant l’Excel.

Correspon a la fórmula següent:

La funció de l’Excel que ens permet obtenir aquest indicador de simetria és: COEFICIENTE.ASIMETRIA.

Com més proper a zero sigui el valor del coeficient d'asimetria, més simètrica serà la distribució, i com més s’allunyi de zero més asimètrica serà, ja sigui en sentit positiu com correspon a una asimetria positiva, o sigui en sentit negatiu com correspon a una asimetria negativa.

En l'exemple, el coeficient d’asimetria obtingut amb l’Excel ens dóna un valor de 0,12.

Un coeficient d’asimetria de 0,12 el podem interpretar com una distribució força simètrica.

Curtosi o apuntament (Cr)

Si la distribució és simètrica també es pot obtenir una nova característica de la forma de la distribució, l'anomenada curtosi.

La curtosi o apuntament reflecteix la concentració de valors pròxims a la tendència central.

Així, si hi ha molts valors concentrats a prop de la mitjana de la distribució, la forma de l'histograma serà apuntada, mentre que si el valors no es concentren al voltant de la mitjana, la forma de l'histograma serà aplanada.

Un indicador de curtosi és l’índex d’apuntament, que té la fórmula següent:

Per obtenir aquest indicador amb l’Excel utilitzarem la funció «CURTOSIS».

Si el valor de l'indicador és pròxim a zero, la distribució serà normal; si és positiu, serà una distribució apuntada, mentre que si és negatiu, serà aplanada.

Si identifiquem aquest indicador en l'exemple, ens dóna un valor de -0,79, xifra que podem interpretar com una distribució de l’edat dels habitants de l’Alt Penedès més aviat aplanada.

5. Resum d’indicadors descriptius d’una variable quantitativa amb l’Excel

L’Excel ens ofereix, dins dels programes preconfigurats, una opció que ens calcula de manera conjunta la major part d’indicadors descriptius comentats en els apartats anteriors. Aquesta opció és molt interessant, ja que ens estalvia la feina d'anar-los obtenint, funció rere funció, un per un.

Per activar aquest opció, hem de seguir la seqüència habitual per a aquests programes preconfigurats: “Herramientas”, “Análisis de datos”, i “Estadística descriptiva” dins les diferents funcions.

Per obtenir el resum d’indicadors descriptius per a la variable “Edat” de l'exemple, omplirem el quadre de diàleg del programa preconfigurat tal com es mostra en la captura de pantalla següent:

Com podem observar, hem introduït les caselles de la variable al “Rango de entrada”, hem activat l'opció “Rótulos en la primera fila” i també l'opció “Resumen de estadísticas”. Si premem “Aceptar”, l’Excel ens proporcionarà el resum d’indicadors estadístics següent:

Edat
Media 40,71
Error típico 0,70
Mediana 40
Moda 40
Desviación estándar 22,51
Varianza de la muestra 506,80
Curtosis -0,79
Coeficiente de asimetría 0,12
Rango 96
Mínimo 1
Máximo 97
Suma 42.583
Cuenta 1.046

El resum d’indicadors descriptius que ens ha calculat és el següent:

Media Mitjana
Error típico Error típic (utilitzat en estadística inferencial)
Mediana Mediana
Moda Moda
Desviación estándar Desviació típica
Varianza de la muestra Variància
Curtosis Curtosi
Coeficiente de asimetría Asimetria
Rango Rang o amplitud (diferencia entre el valor màxim i el mínim)
Mínimo Valor mínim
Máximo Valor màxim
Suma Suma de tots els valors
Cuenta Nombre de casos o subjectes

Ja hem comentat la interpretació de cada un dels indicadors quan ens hi hem referit en els apartats anteriors.

Per tant, amb aquesta opció disposem d'un bon resum dels diferents indicadors tant de tendència central, de variabilitat o dispersió, com de forma de la distribució de la variable estudiada, amb l’avantatge que els podem calcular tots conjuntament amb una sola opció. També ofereix l’avantatge que, si haguéssim de descriure diferents variables quantitatives, les podríem incloure totes en el rang d’entrada i el programa ens calcularia el resum d’indicadors descriptius per a cada una.

Pujar