Tema 1.- Lanàlisi quantitativa en les ciències socials.
Quantitaiva fa referencia a treball amb dades numèriques, és conegut com estadística.
Què és estadística? És la ciència que ens permet extreure informació a partir de dades numèriques. Les dades pertanyen a un context.
Per exemple:
En el primer cas sestudia a les persones, i en el segon els accidents. Un element important a lestudiar amb estadística és els individus o unitats. És element del nostre interés.
La variable estadística és la característica en estudi de cada individu, per exemple en el primer cas estar o no estar en latur.
Població estadística i mostra
Població estadística conjunt dindividus que són motiu del nostre interés, en estudi. Sobre els que volem conèixer una cosa, per exemple estudiants de sociometria del curs 98/99, té 65 individus.
Mostra és una part de la població. Ha de ser representativa perquè recollís la població en petit.
Variabilitat i incertesa
És la raó, el perquè de lestadística. Perquè ningú és igual.
Fases en un treball estadístic
Plantejament del problema
NO SI
Selavora un informe de decisions.
Tipus de dades
Censals u de tota la població, o totes les ETT de Catalunya.
De tall transversal u moltes empreses en un moment concret.
De tall longitudinal u en una empresa linversió en maquinaria durant 10 anys.
Segons com han estat generades:
Dades obsevacionals u lobservador investigador és passiu. A vegades tenen una confussió defectes.
Dades experimentals u es pren part activa, es provoquen les dades/respostes. Per veure la relació causa efecte deixant de banda les possibles confussions.
Variables estadístiques
Tema 2.- Dades i variables estadístiques: tipus de dades, tipus de variables.
Organització i descripció de daes: gràfics i taules
Per exemple:
Procedencia Freqüencia absoluta Freqüencia relativa
Tant per u Tant per cent
1 3 3/30 = 01 10%
2 20 067 67%
3 0 0 0%
4 1 003 3%
5 6 02 20%
TOTAL 30 100 100%
Objectius conèixer el que es sap dEstadística
Variable estadística procedencia (codificada) és qualitativa nominal propiament.
Per tenir més clares les idees ordenem segons la seva freqüencia.
Diagrama
de barres
Lleganda:
1.- Mates I COU
2.- Mates II COU
4.- LOGSE, ciencies socials
5.- FP
Diagrama de Pareto (ordenades segons freqüencia)
Diagrama sectorial
Barres i Sectors serveixen per les variables simples, qualitatives.
Diagrama per variables quantitatives (o numèriques).
Diagrama de punts (Dot diagrame)
Per exemple, nombre de dies que cada pacient sobreviu a un transplant: 15, 3, 46, 623, 126, 64.
0 100 200 300 400 500 600 700 800
supervivencies en nombre de dies.
La majoria no pasa dels 100 dies. 625 és una dada extrema/valor extrem (oulier) en aquest colectiu.
Diagrama de tronc i fulles
Per exemple, notes dun grup classe (valors possible 0-100)
27, 50, 33, 25, 86, 25, 85, 31, 37, 44, 20.
2 0557 La columna de lesquerra és el Grup B, i el de la dreta el Grup A.
832 3 137 El B és més regular. El A té més dades extremes. Hi ha més diversitat.
7500 4 4
71 5 0
2 6
7
Diagrama de línies. Representació de sèries temporals.
Freqüencia acumulada u és la suma de les freqüencies absolutes de tots els valors anteriors incloent aquest. Es van sumant les freqüencies absolutes incloent la mateixa.
Absoluta Acumulada
1ª 1ª
2ª 1ª + 2ª
3ª 1ª + 2ª + 3ª
Té sentit en les variables numèriques, i en algunes que no ho són. Sempre que té alguns tipus dordenació, per exemple molt dacrod, dacord
Exercici
# fills familia freq. absoluta freq. relativa freq. acumulada freq. rel. acum.
1 10 10/55 = 018 10 018
2 25 25/55 = 045 35 063
3 13 13/55 = 024 48 087
4 7 7/55 = 013 55 100
Histograma de freqüencies
Barres enganxades i la variable en estudi sigui numèrica.
El nombre de classes, intervals, no té cap norma.
Els gràfics de població, piràmides dedats és un histograma, la variable és ledat.
Variable discretes i moltes dades. Sagrupen i es fan histogrames. Es fan intèrvals que dona la Å de la quantitat i de dades, de 100, Å 100 = 10 intèrvals.
Gràfic de freqüència acumulada o polígon de freqüència acumulada, construit a partir de les freqüències acumulades de cada valor o classe de la variable.
Unitat u dona resposta a preguntes de freqüencia acumulada.
Tema 3.- Descripció de dades: gràfics (de tronc i fulles, histogrames, diagrames de caixa ), taules de freqüència, quartils
Mesures de centre: moda, madiana i mitjana
Mesures de cente, aquelles que ens donen idea don està el centre de la distribució, són:
Moda el valor que més es repeteix, el valor que té la freqüència més alta. Té sentit en qualsevol variable.
Mitjana (media aritmética, mean or average), és la suma de les dades partit pel nombre de dades.
Per exemple la variable de nombre de dies de supervivència, del Tema 2:
Mitj = 3+15+64+623+46+126 / 6 = 1462 dies.
Hi ha una mitjana inflada per una dada superior, 623 és una dada amb influència en el càlcul de la mitjana.
La mitjana també és: el valor * freqüència relativa / # total de dades. Són anomenades mitjanes ponderades, cada part que multiplica el valor sanomena pes.
Exemple, nota de sociometria = pràctica 15% (015) + parcial 20% (020) + final 65% (065)
La suma dels pesos ha de ser 100% (100).
La desviació respecte de la mitjana
És: valor mitjana. Per sumar les desviacions sha de multiplicar per la freqüència cada desviació, i el resultat sempre ha de ser 0.
Mediana
És aquell valor de la variable que un cop ordenades les dades deixa la meitat de les dades per sota i laltra meitat per damunt.
Per trobar la mediana dun conjunt de dades numèriques primer les hem dordenar, i es tracta del valor que las parteix en dos.
Per exemple de: 3, 7, 8, 10, 15 la mediana és 8.
Quan el nombre de dades és senar, és el nombre que es troba en el centre.
Per exemple de: 3, 7, 8, 10, 15, 21 la mediana és u 8+10 / 2 = 9
Si hi ha moltes dades:
Suposem "n" nombre de dades (ordenades)
05 * n =
La mediana és important perquè és una mesura de centre robusta en vers a les dades extremes. No afecta perquè la dada extrema sigui gran.
La mitjana és una bona mesura de centre quan la distribució és simètrica.
Però la mediana és més recomanable quan la distribució és més asimètrica.
Quartils
Q1, Q2 = mediana, Q3
Divideix la distribució en 4 parts iguals.
Q1 (el primer quartil) el primer valor de la variable que deixa el 25% de les dades per sota della i per damunt el 75%
Q2 = mediana
Q3 deixa per sota el 75% i per damunt el 25%
Càlcul de quartils
Per exemple, amb 50 dades:
Q1 0 = 025 * 50 = 125 u K = 13 és la dada que està al lloc 13
Q3 = 075 * 50 = 375 u K = 38 és la dada que està al lloc 38
Els 5 valors de posició
Mínim
Q1
Q2 / Mediana
Q3
Màxim
Aquests 5 valors ens donen una descripció de les dades. El Rang = Màxim Mínim.
Ran interquartílic (RIQ)
Q3 Q1 diu que el 50% de dades es mouen en aquest interval de dades, i és el 50% central de dades.
Diagrama de caixa
Entre cadascún daquests valors es troba un 25% de dades. En els espais més petits hi ha la mateixa quantitat de dades que en els es pais més amples, perquè en els més petits estan més concentrades aquestes dades.
Percentils
Percentil 10, és el que deixa per sota un 10% de les dades i per damunt un 90%.
Es calcula igual que els quartils, P10 = 010 * 50 = 5 u K = 5, per tant serà el valor de 5+6/2.
Comparació entre mediana i mitjana
1 4 4 6 10 / 1 4 4 6 100
med med
Mesures de centre:
Moda, mediana, mitjana
Mesures de dispersió:
La variància i la desviació estàndard (o típica) n dades
x1 + x2 + + xn n dades
Variànca es representa amb s2
La desviació estàndard és:
Es divideix per n-1 quan es treballa amb una mostra.
Propietats de la desviació estàndard:
La desviació stàndard és útil quan donsguem mesura de centre la mitjana.
xi | fi | |||
3 | 1 | -1 | 1 | 1 |
4 | 2 | 0 | 0 | 0 |
5 | 1 | 1 | 1 | 1 |
s = 07 El 07 es un valor entre mig de les desviacions de les dades.
xi | fi | |||
3 | 1 | -1.5 | 2.25 | 2.25 |
4 | 2 | -0.5 | 0.25 | 0.5 |
7 | 1 | 2.5 | 6.25 | 6.25 |
s = 15
Les dades extremes també influeixen en la desviació estàndard.
Exercici 15, pàgina 8
Tema 4.- Descripció numèrica de dades univariants: mesures de posició, de dispersió, etc.
Estandarització de dades
Zi = xi mitjana / s x1, ,xn à z1, ,zn // dades original à dades estandaritzades
Per exemple, x1 = 13 13 10 / 15 = 2
Xi | Zi |
13 | 2 |
8 | -1 |
625 | -25 |
10 | 0 |
Son nombres petits per trebalalr facilment. n i = 1
Que entenen per "centrar dades"?
És una operació de restar a les dades la mitjana.
A les dades que tenim li restem la mitjana, daquesta manera queden centrades al voltant del 0, més o menys apropades, però al seu voltant.
Per exemple, 3, 4, 4, 7, la mitjana és 45, i s = 15
Si centrem:
3 à 3 45 = -15
4 à 4 45 = -05
7 à 7 45 = 25
Les dades centrades són : -15, -05, -05, 25.
La mitjana és 0, i s= 15. Lúnica que sha fet és traslaldar les dades cap a lesquerra.
Conclusió, es substitueixen les dades originals per les seves desviacions respecte de a mitjana. I la mitjana sempre és 0, i la s es manté igual a la que ja tenia a les dades originals.
Què entenem per "estandaritzacó"?
També es diu "tipificació". Vol dir transformar les dades originals segons:
valors mitjana / s
Efectes de lestandarització, les dades estandaritzades es situen al voltant del zero, més concentrades que a les dades originals en elcas que s > 1 i més disperses en el cas que s < 1, si s = 1 queden igual.
Dades estandaritzades:
3 à 3 45 / 15 = -1
4 à 4 45 / 15 = -1/3 = -03
7 à 7 45 / 15 = 5/3 = 23
La mitjana sempre és 0, i s = 1, sempre.
Serveix per saber com està cada dada respecte del colectiu les dades estàndard es sol representar amb "z".
Z = valor mitjana / s u valor = mitjana + z * s
Per exemple, 7 à 233 (x z)
7 es troba 233 vegadas de la desviació estàndard, per damunt de la mitjana.
3 es troba per sota de la mitjana a 1s. En els llibres anglesos a la estandarització, z-scores.
Serveix per poder comparar dos col·lectius.
Modelització. Introducció
En què consisteix la descripció de dades?
El model Normal
Distribució de campana de Gauss u apareix estudiar al segle passat quan es va estudiar la teoria dels errors de medició (lerror és la desviació), i aquests eren els mateixos, unes en positiu, i els altres en negatiu. Al voltant del 0 molts valors, i com més lluny, menys gent.
Característiques:
La Llei Normal N (mitjana, s).
Lamplada de sigma va des del centre al punt dinflexió.
Propietats:
N (266, 16)
266, mitjana -s = 250; mitjana +s = 282
Hi ha tabulacions a les fotocopies.
Per exemple,
-1 u 016 a lesquerra de 1
-105 u 01469, és 1469% de les dades a lesquerra de 105
23 = 9893%
Si x és N (mitjana, s) i transformen les dades fent una estandarització.
El resultat és que les dades un cop transformades segueixen una llei Z ~ N (0,1)
X à Z = 240 266 / 16 = -26 / 16 = -1625
270 266 / 16 = 4 / 16 = 025
Entre 240 i 270 5466%
Quins tenen el 20% més llarg:
X/16 = 085 u x 266 = 136 u El 20% durant més de 179 dies.
Tema 5.- Estandarització de dades quantitatives. Ajust normal a una distribució de dades.
Tractament de dades bivariants
De cada individu (o unitat estadística) estudiarem dos trets (o variables estadístiques).
RELACIÓ ENTRE VARIABLES QUALITATIVES
Taules de contingencia(creuades, de doble entrada )
Son taules de freqüencia creuant variables.
Per exemple, 400 persones a latzar, es va preguntar la seva opinió sobre la reducció de despesa en programes socials, i si estaven o no afiliats a algún sindicat.
Taula 1, Taula de freqüencia absoluta
A favor |
Indiferents |
En contra |
Total (variable estar afiliat) |
|
Afiliats |
112 |
36 |
28 |
176 |
No afiliats |
84 |
68 |
72 |
224 |
Total (variable opinió) |
196 |
104 |
100 |
400 |
Creua la variable opinió i estar o no afiliat.
Es sol treballar amb taules freqüencies relatives.
Taula 2 , Taula de freqüencies respecte el total dobservació (El Gran Total)
A favor |
Indiferent |
En contra |
Total (variable estar afiliat) |
|
Afiliats |
0.28 |
0.09 |
0.07 |
0.44 |
No afiliats |
0.21 |
0.17 |
0.18 |
0.56 |
Total (variable opinió) |
0.49 |
0.26 |
0.25 |
1 |
Cal calcular el percentatge per files per poder comparar la deficiencia entre afiliats i no afiliats.
Taula 3 , Taula relativa respecte el total de cada fila o Taula de freqüencies condicionades
A favor |
Indiferent |
En contra |
Total (variable estar afiliat) |
|
Afiliats |
0.636 |
0.205 |
0.159 |
1.000 |
No afiliats |
0.375 |
0.303 |
0.321 |
1.000 |
Total (variable opinió) |
0.49 |
0.26 |
0.25 |
1.000 |
També es pot fer per columnes, si ens calgués.
Per representar-ho gràficament es pot fer el diagrama de barres acumulades o per sectors.
Es pot fer lexercici 1 del Full 3
Exercici 2 del Full 3
10 / 38 / 48 nois 30, noies 60, total 90
20 / 22 / 42
30 / 60 / 90
d) 053 = 533% e) 011 = 111% f) 791%
RELACIÓ ENTRE VARIABLES NUMÈRIQUES/QUANTITATIVES
(x1, y1), (x2, y2), , (xn, yn)
n individus o unitats estadístiques
De cada individu estudiem 2 característiques
x / y à variables estadístiques
Estudi bivariant:
Objectiu:
Associació entre dues variables
Sacostuma a estudiar via gràfic, diagrama de dispersió (núvol de punts)
En general Y sutilitza per variable dependent o resposta, o output.
La X sanomena variable independent o explicativa, o regressora, o input.
Hi ha una mena de núvol que diu que els valors més alts de X es corresponen, associen, en valors alts de la Y. És Associació positiva. LAssociació negativa quan X és gran i Y petit.
Fotocopia 228, 1er. associació lineal positiva lleu, 2on. associació lineal negativa forta, 3er. no hi ha cap patró absència dassociació, 4rt. Corba, associació no lineal.
Coeficient de correlació lineal (De Pearson)
Es un nombre que es calcula a partir de les dades que mesura el grau dassociació lineal.
r = covariancia entre X i Y / sx·sy = sxy / sx·sy
covariancia entre
Xi Y = cov (X,Y) = sxy = å / n
El creuament es
sol anomenar centre de gravetat
Punts del quadrant signe de I II III IV
Positiu Negatiu Positiu Negatiu
La suma sxy será positiva, perquè hi ha més valors positius que negatius. Associació lineal positiva v acompanyada duna variancia positiva. I viceversa.
r és molt fàcil dinterpretar
Problema fotocopia 228
Investigació Xi
Guanys Yi
40 50 0 0 0 0 0
40 60 0 10 0 100 0
30 40 -10 -10 100 100 100
50 50 10 0 100 0 0
Mitjana X 40; Mitjana Y 50
Coeficient de correlació sxy = 25, sx = Å 50, sy = Å 50
r = 25/Å 50 Å 50 = 05
Ja es pot considerar en pensar en una petita correlació.
La recta imaginaria sanomena Recta dajust o Recta de regressió.
Interpretació dels coeficients de la recta.
y = a + bx on "a" és ordenada origen (intercept), i "b" és la pendent (slope)
Recta dajust a un núvol de punts
^y = a + bx dona el promig dels valors reals. Hi ha un petit error entre les dades reals i les prediccions de la recta.
Es troba amb els mètodes dels mínims quadrats ordinaris, la recta que fa que les desviacions siguin els més petits possibles.
ei = yi - ^yi u yi és lobservació, ^yi és la predicció
residu = observació predicció segons el model observat
Els mètodes dels mínims2 determinen els valors de "a" i "b" tals que å e2 = és mínima
a = y b
b = r sy / sx
Qué observem?
Conclusió:
^y = 30 + 05x. La utilitat daquesta recta és per poder fer prediccions, el valor promig de guany que té lempresa per inversió que ha fet, per exemple inversió de 55:
^y(x=55) = 30 + 05·55 = 575Ê