Tema 1.- L’anàlisi quantitativa en les ciències socials.

Quantitaiva fa referencia a treball amb dades numèriques, és conegut com estadística.

Què és estadística? És la ciència que ens permet extreure informació a partir de dades numèriques. Les dades pertanyen a un context.

Per exemple:

  1. l’atur masculí en 16 provincies espanyoles és inferior a la mitjana de la UE.
  2. En moltes provincies l’atur és alt perquè es femení. A aquestes dades s’arriba a partir de l’EPA, que es fa periódicament.
  3. Catalunya viu un any negre a les carreteres.
  • Perquè el nombre d’accidents/accidentats ha sigut superior aquest any que l’anterior.
  • En el primer cas s’estudia a les persones, i en el segon els accidents. Un element important a l’estudiar amb estadística és els individus o unitats. És element del nostre interés.

    La variable estadística és la característica en estudi de cada individu, per exemple en el primer cas estar o no estar en l’atur.

    Població estadística i mostra

    Població estadística conjunt d’individus que són motiu del nostre interés, en estudi. Sobre els que volem conèixer una cosa, per exemple estudiants de sociometria del curs 98/99, té 65 individus.

    Mostra és una part de la població. Ha de ser representativa perquè recollís la població en petit.

    Variabilitat i incertesa

    És la raó, el perquè de l’estadística. Perquè ningú és igual.

    Fases en un treball estadístic


  • Plantejament del problema

  • Recollida de dades
  • Anàlisi explorativa de dades resumir la informació en taules…
  • Anàlisi confirmatoria de les dades la situació ajsutada a la realitat.
  • El model és prou bo?

  • NO SI

  • S’elavora un informe de decisions.

     

     

    Tipus de dades

    Censals u de tota la població, o totes les ETT de Catalunya.

    De tall transversal u moltes empreses en un moment concret.

    De tall longitudinal u en una empresa l’inversió en maquinaria durant 10 anys.

    Segons com han estat generades:

    Dades obsevacionals u l’observador investigador és passiu. A vegades tenen una confussió d’efectes.

    Dades experimentals u es pren part activa, es provoquen les dades/respostes. Per veure la relació causa efecte deixant de banda les possibles confussions.

    Variables estadístiques

    Tema 2.- Dades i variables estadístiques: tipus de dades, tipus de variables.

    Organització i descripció de daes: gràfics i taules

    Per exemple:

    Procedencia Freqüencia absoluta Freqüencia relativa

    Tant per u Tant per cent

    1 3 3/30 = 0’1 10%

    2 20 0’67 67%

    3 0 0 0%

    4 1 0’03 3%

    5 6 0’2 20%

    TOTAL 30 1’00 100%

    Objectius conèixer el que es sap d’Estadística

    Variable estadística procedencia (codificada) és qualitativa nominal propiament.

    Per tenir més clares les idees ordenem segons la seva freqüencia.

    Diagrama de barres

     

    Lleganda:

    1.- Mates I COU

    2.- Mates II COU

    4.- LOGSE, ciencies socials

    5.- FP

     

     

     

     

     

    Diagrama de Pareto (ordenades segons freqüencia)

     

    Diagrama sectorial

    Barres i Sectors serveixen per les variables simples, qualitatives.

    Diagrama per variables quantitatives (o numèriques).

    Diagrama de punts (Dot diagrame)

    Per exemple, nombre de dies que cada pacient sobreviu a un transplant: 15, 3, 46, 623, 126, 64.


    0 100 200 300 400 500 600 700 800

    supervivencies en nombre de dies.

    La majoria no pasa dels 100 dies. 625 és una dada extrema/valor extrem (oulier) en aquest colectiu.

    Diagrama de tronc i fulles

    Per exemple, notes d’un grup classe (valors possible 0-100)

    27, 50, 33, 25, 86, 25, 85, 31, 37, 44, 20.

    1.  
    2. 7550 No es perd informació perquè es mantenen les dades originals,
    3.  
    4. 317 i es guanya en ordenació i informació.
    5.  
    6. 4
    7.  
    8. 0 S’utilitza quan es tenen poques dades, i és molt útil en
    9.  
    10. comparacions. Es fan fulles per les dos bandes.
    11.  
    12.  
    13.  
    14. 65
  •  
  • 2 0557 La columna de l’esquerra és el Grup B, i el de la dreta el Grup A.

    832 3 137 El B és més regular. El A té més dades extremes. Hi ha més diversitat.

    7500 4 4

    71 5 0

    2 6

    7

  • 8 56

    Diagrama de línies. Representació de sèries temporals.

  • Freqüencia acumulada u és la suma de les freqüencies absolutes de tots els valors anteriors incloent aquest. Es van sumant les freqüencies absolutes incloent la mateixa.

    Absoluta Acumulada

    1ª 1ª

    2ª 1ª + 2ª

    3ª 1ª + 2ª + 3ª

    Té sentit en les variables numèriques, i en algunes que no ho són. Sempre que té alguns tipus d’ordenació, per exemple molt d’acrod, d’acord…

    Exercici

    # fills familia freq. absoluta freq. relativa freq. acumulada freq. rel. acum.

    1 10 10/55 = 0’18 10 0’18

    2 25 25/55 = 0’45 35 0’63

    3 13 13/55 = 0’24 48 0’87

    4 7 7/55 = 0’13 55 1’00

      1.  
      2. 1’00

    Histograma de freqüencies

    Barres enganxades i la variable en estudi sigui numèrica.

    El nombre de classes, intervals, no té cap norma.

    Els gràfics de població, piràmides d’edats és un histograma, la variable és l’edat.

    Variable discretes i moltes dades. S’agrupen i es fan histogrames. Es fan intèrvals que dona la Å de la quantitat i de dades, de 100, Å 100 = 10 intèrvals.

    Gràfic de freqüència acumulada o polígon de freqüència acumulada, construit a partir de les freqüències acumulades de cada valor o classe de la variable.

    Unitat u dona resposta a preguntes de freqüencia acumulada.

    Tema 3.- Descripció de dades: gràfics (de tronc i fulles, histogrames, diagrames de caixa…), taules de freqüència, quartils…

    Mesures de centre: moda, madiana i mitjana

    Mesures de cente, aquelles que ens donen idea d’on està el centre de la distribució, són:

    Moda el valor que més es repeteix, el valor que té la freqüència més alta. Té sentit en qualsevol variable.

    Mitjana (media aritmética, mean or average), és la suma de les dades partit pel nombre de dades.

    Per exemple la variable de nombre de dies de supervivència, del Tema 2:

    Mitj = 3+15+64+623+46+126 / 6 = 146’2 dies.

    Hi ha una mitjana inflada per una dada superior, 623 és una dada amb influència en el càlcul de la mitjana.

    La mitjana també és: el valor * freqüència relativa / # total de dades. Són anomenades mitjanes ponderades, cada part que multiplica el valor s’anomena pes.

    Exemple, nota de sociometria = pràctica 15% (0’15) + parcial 20% (0’20) + final 65% (0’65)

    La suma dels pesos ha de ser 100% (1’00).

    La desviació respecte de la mitjana

    És: valor – mitjana. Per sumar les desviacions s’ha de multiplicar per la freqüència cada desviació, i el resultat sempre ha de ser 0.

    Mediana

    És aquell valor de la variable que un cop ordenades les dades deixa la meitat de les dades per sota i l’altra meitat per damunt.

    Per trobar la mediana d’un conjunt de dades numèriques primer les hem d’ordenar, i es tracta del valor que las parteix en dos.

    Per exemple de: 3, 7, 8, 10, 15 la mediana és 8.

    Quan el nombre de dades és senar, és el nombre que es troba en el centre.

    Per exemple de: 3, 7, 8, 10, 15, 21 la mediana és u 8+10 / 2 = 9

    Si hi ha moltes dades:

    Suposem "n" nombre de dades (ordenades)

    0’5 * n =

    La mediana és important perquè és una mesura de centre robusta en vers a les dades extremes. No afecta perquè la dada extrema sigui gran.

    La mitjana és una bona mesura de centre quan la distribució és simètrica.

    Però la mediana és més recomanable quan la distribució és més asimètrica.

     

    Quartils

    Q1, Q2 = mediana, Q3

    Divideix la distribució en 4 parts iguals.

    Q1 (el primer quartil) el primer valor de la variable que deixa el 25% de les dades per sota d’ella i per damunt el 75%

    Q2 = mediana

    Q3 deixa per sota el 75% i per damunt el 25%

    Càlcul de quartils

    Per exemple, amb 50 dades:

    Q1 0 = 0’25 * 50 = 12’5 u K = 13 és la dada que està al lloc 13

    Q3 = 0’75 * 50 = 37’5 u K = 38 és la dada que està al lloc 38

    Els 5 valors de posició

    Mínim

    Q1

    Q2 / Mediana

    Q3

    Màxim

    Aquests 5 valors ens donen una descripció de les dades. El Rang = Màxim – Mínim.

    Ran interquartílic (RIQ)

    Q3 – Q1 diu que el 50% de dades es mouen en aquest interval de dades, i és el 50% central de dades.

    Diagrama de caixa



     

     

  • Mínim Q1 Mediana Q3 Màxim
  • Entre cadascún d’aquests valors es troba un 25% de dades. En els espais més petits hi ha la mateixa quantitat de dades que en els es pais més amples, perquè en els més petits estan més concentrades aquestes dades.

    Percentils

    Percentil 10, és el que deixa per sota un 10% de les dades i per damunt un 90%.

    Es calcula igual que els quartils, P10 = 0’10 * 50 = 5 u K = 5, per tant serà el valor de 5+6/2.

    Comparació entre mediana i mitjana

    1 4 4 6 10 / 1 4 4 6 100

    med med

     

     

    Mesures de centre:

    Moda, mediana, mitjana

    Mesures de dispersió:

     

    La variància i la desviació estàndard (o típica) n dades

    x1 + x2 +…+ xn n dades

    Variànca es representa amb s2

     

     

     

     

     

    La desviació estàndard és:

     

    Es divideix per n-1 quan es treballa amb una mostra.

    Propietats de la desviació estàndard:

     

    La desviació stàndard és útil quan donsguem mesura de centre la mitjana.

    xi fi      
    3 1 -1 1 1
    4 2 0 0 0
    5 1 1 1 1

     

    s = 0’7 El 0’7 es un valor entre mig de les desviacions de les dades.

    xi fi      
    3 1 -1.5 2.25 2.25
    4 2 -0.5 0.25 0.5
    7 1 2.5 6.25 6.25

    s = 1’5

    Les dades extremes també influeixen en la desviació estàndard.

    Exercici 15, pàgina 8

    1. 1s
    2. 6’25

    Tema 4.- Descripció numèrica de dades univariants: mesures de posició, de dispersió, etc.

    Estandarització de dades

    Zi = xi – mitjana / s x1,…,xn à z1,…,zn // dades original à dades estandaritzades

    Per exemple, x1 = 13 13 – 10 / 1’5 = 2

    Xi Zi
    13 2
    8 -1
    6’25 -2’5
    10 0

    Son nombres petits per trebalalr facilment. n i = 1

    Que entenen per "centrar dades"?

    És una operació de restar a les dades la mitjana.

    A les dades que tenim li restem la mitjana, d’aquesta manera queden centrades al voltant del 0, més o menys apropades, però al seu voltant.

    Per exemple, 3, 4, 4, 7, la mitjana és 4’5, i s = 1’5

    Si centrem:

    3 à 3 – 4’5 = -1’5

    4 à 4 – 4’5 = -0’5

    7 à 7 – 4’5 = 2’5

    Les dades centrades són : -1’5, -0’5, -0’5, 2’5.

    La mitjana és 0, i s= 1‘5. L’única que s’ha fet és traslaldar les dades cap a l’esquerra.

    Conclusió, es substitueixen les dades originals per les seves desviacions respecte de a mitjana. I la mitjana sempre és 0, i la s es manté igual a la que ja tenia a les dades originals.

    Què entenem per "estandaritzacó"?

    També es diu "tipificació". Vol dir transformar les dades originals segons:

    valors – mitjana / s

    Efectes de l’estandarització, les dades estandaritzades es situen al voltant del zero, més concentrades que a les dades originals en elcas que s > 1 i més disperses en el cas que s < 1, si s = 1 queden igual.

    Dades estandaritzades:

    3 à 3 – 4’5 / 1’5 = -1

    4 à 4 – 4’5 / 1’5 = -1/3 = -0’3

    7 à 7 – 4’5 / 1’5 = 5/3 = 2’3

    La mitjana sempre és 0, i s = 1, sempre.

    Serveix per saber com està cada dada respecte del colectiu les dades estàndard es sol representar amb "z".

    Z = valor – mitjana / s u valor = mitjana + z * s

    Per exemple, 7 à 2’33 (x – z)

    7 es troba 2’33 vegadas de la desviació estàndard, per damunt de la mitjana.

    3 es troba per sota de la mitjana a 1s. En els llibres anglesos a la estandarització, z-scores.

    Serveix per poder comparar dos col·lectius.

    Modelització. Introducció

    En què consisteix la descripció de dades?

    El model Normal

    Distribució de campana de Gauss u apareix estudiar al segle passat quan es va estudiar la teoria dels errors de medició (l’error és la desviació), i aquests eren els mateixos, unes en positiu, i els altres en negatiu. Al voltant del 0 molts valors, i com més lluny, menys gent.

    Característiques:

    La Llei Normal N (mitjana, s).

    L’amplada de sigma va des del centre al punt d’inflexió.

    Propietats:

  • Sempre entre:
  • Per exemple fotocopia,
  • N (266, 16)

    266, mitjana -s = 250; mitjana +s = 282

    Hi ha tabulacions a les fotocopies.

    Per exemple,

    -1 u 0’16 a l’esquerra de –1

    -1’05 u 0’1469, és 14’69% de les dades a l’esquerra de –1’05

    2’3 = 98’93%

    Si x és N (mitjana, s) i transformen les dades fent una estandarització.

    El resultat és que les dades un cop transformades segueixen una llei Z ~ N (0,1)

    X à Z = 240 – 266 / 16 = -26 / 16 = -1’625

    270 – 266 / 16 = 4 / 16 = 0’25

    Entre 240 i 270 54’66%

    Quins tenen el 20% més llarg:

    X/16 = 0’85 u x – 266 = 13’6 u El 20% durant més de 179 dies.

    Tema 5.- Estandarització de dades quantitatives. Ajust normal a una distribució de dades.

    Tractament de dades bivariants

    De cada individu (o unitat estadística) estudiarem dos trets (o variables estadístiques).

    RELACIÓ ENTRE VARIABLES QUALITATIVES

    Taules de contingencia(creuades, de doble entrada…)

    Son taules de freqüencia creuant variables.

    Per exemple, 400 persones a l’atzar, es va preguntar la seva opinió sobre la reducció de despesa en programes socials, i si estaven o no afiliats a algún sindicat.

    Taula 1, Taula de freqüencia absoluta

     

    A favor

    Indiferents

    En contra

    Total (variable estar afiliat)

    Afiliats

    112

    36

    28

    176

    No afiliats

    84

    68

    72

    224

    Total (variable opinió)

    196

    104

    100

    400

    Creua la variable opinió i estar o no afiliat.

    Es sol treballar amb taules freqüencies relatives.

    Taula 2 , Taula de freqüencies respecte el total d’observació (El Gran Total)

     

     

    A favor

    Indiferent

    En contra

    Total (variable estar afiliat)

    Afiliats

    0.28

    0.09

    0.07

    0.44

    No afiliats

    0.21

    0.17

    0.18

    0.56

    Total (variable opinió)

    0.49

    0.26

    0.25

    1

    Cal calcular el percentatge per files per poder comparar la deficiencia entre afiliats i no afiliats.

    Taula 3 , Taula relativa respecte el total de cada fila o Taula de freqüencies condicionades

     

    A favor

    Indiferent

    En contra

    Total (variable estar afiliat)

    Afiliats

    0.636

    0.205

    0.159

    1.000

    No afiliats

    0.375

    0.303

    0.321

    1.000

    Total (variable opinió)

    0.49

    0.26

    0.25

    1.000

    També es pot fer per columnes, si ens calgués.

    Per representar-ho gràficament es pot fer el diagrama de barres acumulades o per sectors.

    Es pot fer l’exercici 1 del Full 3

    Exercici 2 del Full 3

    10 / 38 / 48 nois 30, noies 60, total 90

    20 / 22 / 42

    30 / 60 / 90

  • a) 0’6 = 67’7% b) 0’3 = 33’3% c) 0’3 = 33’3%
  • d) 0’53 = 53’3% e) 0’11 = 11’1% f) 79’1%

     

    RELACIÓ ENTRE VARIABLES NUMÈRIQUES/QUANTITATIVES

    (x1, y1), (x2, y2), …, (xn, yn)

    n individus o unitats estadístiques

    De cada individu estudiem 2 característiques

    x / y à variables estadístiques

    Estudi bivariant:

    Objectiu:

    Associació entre dues variables

    S’acostuma a estudiar via gràfic, diagrama de dispersió (núvol de punts)

    En general Y s’utilitza per variable dependent o resposta, o output.

    La X s’anomena variable independent o explicativa, o regressora, o input.

    Hi ha una mena de núvol que diu que els valors més alts de X es corresponen, associen, en valors alts de la Y. És Associació positiva. L’Associació negativa quan X és gran i Y petit.

    Fotocopia 228, 1er. associació lineal positiva lleu, 2on. associació lineal negativa forta, 3er. no hi ha cap patró absència d’associació, 4rt. Corba, associació no lineal.

    Coeficient de correlació lineal (De Pearson)

    Es un nombre que es calcula a partir de les dades que mesura el grau d’associació lineal.

    r = covariancia entre X i Y / sx·sy = sxy / sx·sy

    covariancia entre Xi Y = cov (X,Y) = sxy = å / n

     

     

     

     

     

     

     

     

    El creuament es sol anomenar centre de gravetat

     

     

     

     

     

     

     

     

    Punts del quadrant signe de I II III IV

    Positiu Negatiu Positiu Negatiu

     

    La suma sxy será positiva, perquè hi ha més valors positius que negatius. Associació lineal positiva v acompanyada d’una variancia positiva. I viceversa.

    r és molt fàcil d’interpretar

    Problema fotocopia 228

     

     

    Investigació Xi Guanys Yi

    40 50 0 0 0 0 0

    40 60 0 10 0 100 0

    30 40 -10 -10 100 100 100

    50 50 10 0 100 0 0

    Mitjana X 40; Mitjana Y 50

    Coeficient de correlació sxy = 25, sx = Å 50, sy = Å 50

    r = 25/Å 50 Å 50 = 0’5

    Ja es pot considerar en pensar en una petita correlació.

    La recta imaginaria s’anomena Recta d’ajust o Recta de regressió.

    Interpretació dels coeficients de la recta.

    y = a + bx on "a" és ordenada origen (intercept), i "b" és la pendent (slope)

    Recta d’ajust a un núvol de punts

    ^y = a + bx dona el promig dels valors reals. Hi ha un petit error entre les dades reals i les prediccions de la recta.

    Es troba amb els mètodes dels mínims quadrats ordinaris, la recta que fa que les desviacions siguin els més petits possibles.

    ei = yi - ^yi u yi és l’observació, ^yi és la predicció

    residu = observació – predicció segons el model observat

    Els mètodes dels mínims2 determinen els valors de "a" i "b" tals que å e2 = és mínima

    a = y – b

    b = r sy / sx

    Qué observem?

  • a = 30 b= 0’5

    Conclusió:

  • ^y = 30 + 0’5x. La utilitat d’aquesta recta és per poder fer prediccions, el valor promig de guany que té l’empresa per inversió que ha fet, per exemple inversió de 55:

    ^y(x=55) = 30 + 0’5·55 = 57’5Ê

    1