Google Classroom
GeoGebraTarefa

Estadística descriptiva unidimensional (2)

Paràmetres estadístics de centralització i posició

Si la variable que estudiem és qualitativa, la distribució de freqüències ja ens dóna un resum precís i complet de la mostra, però si la variable és quantitativa podem complementar aquest resum amb unes mesures descriptives numèriques extretes de les dades.
  • Mitjana aritmètica: És el promig aritmètic de les observacions. És la mesura de centralització més important.

En el cas de dades agrupades en intervals de classe emprarem les marques de classe. Això es mereix una petita reflexió! És evident que si ja tenim totes les dades entrades a l'ordinador o a la calculadora, el millor és calcular la mitjana i la resta de paràmetres a partir dels valors originals; ara bé, si només tenim els intervals de classe i les freqüències aleshores prendrem la marca de classe com a valor representatiu de la variable en aquell interval per tal de fer els càlculs de paràmetres. En l’exemple 1 de https://www.geogebra.org/m/FhbanbJk :
En l’exemple 2 de https://www.geogebra.org/m/FhbanbJk : Nota: Si haguéssim calculat la mitjana a partir del 40 valors de preus d'hotel haguéssim obtingut una mitjana de 67.025 €

Exercici 09

a) Què li succeeix a la mitjana aritmètica si a tots els valors d'una variable li sumem una mateixa constant?

b) Què li succeeix a la mitjana aritmètica si multipliquem tots els valors d'una variable per una mateixa constant?

c) Si definim la variable yi = a + b · xi , quina serà la mitjana aritmètica de Y?

d) Si a cadascun del valors li restem la mitjana, quant valdrà la suma de tots ells? És a dir,

  • Mediana: S'obté ordenant tots els valors de menor a major. La mediana és el valor que ocupa el lloc central; és a dir, aquell que deixa la meitat de les observacions a banda i banda.
En l'exemple 1, mirant la taula de freqüències veiem que les observacions 35 i 36, un cop ordenades, tenen 2 fills. Només cal fixar-se en la columna de freqüències absolutes acumulades ( N2 = 30 i N3 = 50 ). Això vol dir que les 30 famílies que menys fills tenen, com a molt tenen 1 fill; i que per tant, les família 35 i 36, que serien les que ocuparien valors centrals, tenen 2 fills. Així doncs, la mediana és Me = 2 fills. En l'exemple 2, mirant la taula de freqüències tenim que l'hotel que ocupa la posició 20 té una marca de classe de 64.5 € i el que ocupa la posició 21 té una marca de classe de 69.5 €. Així doncs, la mediana es troba fent el promig dels dos valors: Me = 67 €
  • Moda: És el valor que té una freqüència més gran. En cas de dades agrupades en intervals, es busca l'interval modal i la seva marca de classe seria la moda.
En l'exemple 1: Mo = 1 fill En l'exemple 2: L'interval modal és [62, 67) € i la moda Mo = 69,5 €.
  • Percentils: El percentil p-èssim és el valor que indica que el p % de les dades són menors o iguals a ell.
Els percentils 25, 50 i 75 reben el nom de primer quartil (Q1), segon quartil o mediana (Q2 o Me) i tercer quartil (Q3). En l'exemple 1:  Q1 = 1 fill   Q2 = 2 fills   Q3 = 3 fills    p95 = 4 fills En l'exemple 2:  Q1 =  64.5 €  Q2 = 67 €   Q3 = 72 € 

Activitat 10: Treballem els paràmetres de centralització

Arrossega les observacions a la zona blava fent que prenguin valors. Situa les 10 creuetes i activa els botons de mitjana, mediana i moda a) Fes vàries distribucions de les dades de manera que els tres paràmetres valguin el mateix. Observes alguna propietat/patró en totes aquestes distribucions? b) Amb una de les distribucions anteriors agafa una observació i mou-la passant per tot el rang de valors. Fixa't com canvien els valors del tres paràmetres (mitjana, mediana i moda). Quin d'ells creus que és el més sensible a valors extrems? c) Creus que la mitjana aritmètica pot representar bé els valors que pren una variable? Raona la teva resposta. d) Si en una mostra la mitjana està molt separada de la mediana, què pots dir sobre la distribució de les observacions?

Estimació de la mitjana i la mediana

Cada vegada que premeu el botó corresponent, teniu el gràfic d'una nova distribució de dades. Trieu quin paràmetre voleu estimar i desplaceu el punt que apareix a la part inferior.

Un document sobre mitjana i mediana per a reflexionar

Paràmetres estadístics de dispersió

Les mesures de dispersió ens permeten conèixer com d'agrupades es troben les dades al voltant de les mesures de centralització. La desviació d'una dada, , és la seva distància respecte de la la mitjana:
  • Rang o recorregut: és la diferència entre el valor màxim i el mínim dels observats.
  • Desviació mitjana: és el promig de totes les desviacions observades:

  • Variància: és la mitjana dels quadrats de les desviacions.

  • Desviació típica o standard: és l'arrel quadrada de la variància.

 

  • Coeficient de variació: és el quocient entre la desviació típica i la mitjana. En general s'expressa en forma de tant per ú o percentatge. És la dispersió relativa.

Calculem les diferents mesures de dispersió amb el full de càlcul de GeoGebra. En l’exemple 1 de https://www.geogebra.org/m/FhbanbJk :

Exemple 3

Un equip de waterpolo necessita fitxar un lateral golejador. S'han seleccionat dos jugadors que, en els últims 10 partits, han marcat la següent quantitat de gols. A qui escolliries?
Jugador A 8 6 6 4 6 7 7 5 5 6
Jugador B10 2 9 5 6 3 6 4 7 8
Si fem un diagrama de freqüències (barres) de les dades i calculem els paràmetres de centralització observem que tots dos jugadors tenen la mateixa mitjana, mediana i moda, 6 gols, però per contra, els seus diagrames de freqüència són diferents. El jugador A té menys dispersió en les seves dades que el jugador B. 
Les mesures de dispersió ens diuen com s'agrupen les dades al voltant de la mitjana.

Activitat 11

  1. Calcula la desviació típica per al dos jugadors i explica, raonadament, amb quin dels dos jugadors et quedaries.
  2. Si els dos jugadors haguessin tingut una mitjana de gols diferent hagués estat convenient emprar el coeficient de variació; sabries raonar per què?