Estadística aplicada a las Ciencias Sociales

Febrero 2001 (2ª Semana)

 

Ejercicio1.

En un estudio sobre defensa y política exterior realizado en noviembre de 1977, se trabajó con una muestra de 1211 personas. De ellas, 546 consideraban que la razón por la que seguía existiendo la OTAN radicaba en que “los Estados Unidos quieren controlar el sistema de defensa europeo”. Esta respuesta se distribuía por edad del siguiente modo:

Edad

%

18-29

31,3

30-49

38,5

50-64

17,2

65 y más

13,0

 

(N=546)

 

a)      Calcula la distribución de frecuencias acumuladas y relativas acumuladas.

b)      Halla la mediana y la media de la distribución.

c)      Calcula la medida de dispersión más adecuada.

d)      Representa gráficamente la distribución de frecuencia relativas. De acuerdo a la misma, describe su forma. Da una interpretación de la misma.

 

Ejercicio 2.

En tres aulas distintas se da la composición de alumnos en función de su clase social, según la siguiente tabla.

Aula

Baja

Media

Alta

Total

A

10

5

5

20

B

20

20

20

60

C

10

20

10

40

 

a)      ¿Cuál es la probabilidad de que al extraer al azar un sujeto de cada aula, al menos uno de ellos sea de clase social alta?

b)      ¿Cuál es la probabilidad de que al extraer un sujeto de cada aula, al menos uno de ellos sea de clase social baja o media?

 

Ejercicio 3.

En una universidad española que tiene en nómina a 725 profesores, la media de años de trabajo es de 7,3 y la desviación típica de 4,2 Suponiendo que se distribuyan normalmente:

a)      ¿A cuantas unidades de desviación típica se encuentra un profesor que lleva 10 años en la universidad respecto a la media del colectivo?

b)      ¿Qué número de profesores lleva menos de tres años en la universidad?

c)      ¿Cuál será el menor número de años trabajados por los 100 profesores que llevan el máximo número de años en la universidad?

 

Ejercicio 4.

En un estudio sobre el maltrato a mujeres queremos realizar una encuesta dirigida al colectivo femenino.

¿Qué tamaño deberá tener la muestra sabiendo que el total de habitantes de más de 16 años es de 32.000 y que el 53,8% son mujeres? 

Nivel de confianza = 95,5%. Error  máximo = 3%.

Soluciones

 

Ejercicio 1.

a) Antes de calcular las frecuencias acumuladas necesitamos conocer las frecuencias absolutas. Lo haremos a partir de los porcentajes que es el único dato que tenemos. Lo haremos mediante la relación:

 

 

La frecuencia relativa es el porcentaje dividido entre cien, y N el número total de casos. En este caso N=546.

 

 

%

n

fra

18-29

31,3

171

0,313

30-49

38,5

210

0,698

50-64

17,2

94

0,870

65 y más

13,0

71

    1

 

En la tabla anterior se han calculado también las frecuencias relativas acumuladas. Para ellos se ha utilizado:

 

 

b) La mediana la calculamos mediante la fórmula:

 

 

 

n

Na

18-29

171

171

30-49

210

381

50-64

94

475

65 y más

71

546

 

Como N/2=271, el intervalo de la mediana será el de 30 a 49 años.

 

 

Para el cálculo de la media debemos calcular las marcas de clase. Por ejemplo para el primer intervalo, Li el límite inferior es 18 y Ls el límite superior es 29,999930. (Por ejemplo una persona con 29 años 9 meses y siete días, se dice que tiene 29 años).

En este caso:

 

 

El último intervalo que es abierto se cerró en 89 años (Ls=90).

 

 

 

 

 

 

 

 

Cuadro de texto: NOTA:
El investigador, ante la ausencia de información al respecto, ha tomado esta decisión basándose en su experiencia. Así ha tenido en cuenta que en las encuestas de opinión a población general las entrevistas a personas mayores de 90 años suelen ser valores muy pequeños de alrededor del 1 por mil. (En este caso serían una o dos personas). 
Evidentemente esta decisión puede ser mejorada en función de información adicional si se tuviera acceso a la ficha técnica de la encuesta.
También existen otros procedimientos válidos para el cierre de la variable edad. Uno de ellos es utilizar como marca de clase, cuando el último intervalo es abierto, la esperanza de vida al nacimiento (e0). Otro procedimiento es tomar la esperanza de vida en el límite inferior del intervalo, en este caso (e65) y cerrar el intervalo en e65+Ln(e65).
 


Así obtenemos la tabla:

 

 

Xi

n

NXi

18-29

         24

171

4104

30-49

         40

210

8400

50-64

57,5

94

5405

65 y más

         77

71

5467

Total

 

546

23376

 

La media será:

 

 

c) En este caso como se trata de una variable continua “edad”, una buena solución es la varianza o la desviación típica. El cálculo de la varianza lo haremos con ayuda de la siguiente tabla:

 

 

Xi

n

n(Xi)2

18-29

         24

171

98496,0

30-49

         40

210

336000,0

50-64

57,5

94

310787,5

65 y más

         77

71

420959,0

Total

 

546

1166242,5

 

Utilizaremos por comodidad de cálculo, la fórmula:

 

Cuadro de texto: NOTA:
Para  otros cierres del intervalo superior, los resultados serían: 
Ls	 	Sx
74	41,903	15,694
79	42,228	16,288
84	42,553	16,902
Puede apreciarse que la decisión sobre la amplitud del último intervalo, tiene escasa repercusión en el valor que alcanzan estos estadísticos.

 

 

 


d) Para la representación gráfica en un histograma hay que tener en cuenta que los intervalos, tienen distinta amplitud, por ello habrán de calcularse las alturas “h”. La base “b” de la figura es Base=Ls-Li. El área “a” en este caso serán las frecuencias relativas.

 

 

 

Base

Área

h

18-29

         12

31,3

2,6

30-49

         20

38,5

1,9

50-64

        15

17,2

1,1

65 y más

         25

13,0

0,5

 

 

 

                        Pulsar aquí para ver gráfico

 

 

 

 

Sobre el histograma se ha superpuesto un polígono de frecuencias para mostrar de forma más clara el tipo de distribución.

El gráfico muestra que se trata de una distribución fuertemente asimétrica (positiva), y unimodal. Se corresponde con el tipo de curva “J”. Es decir los casos de la variable están muy concentrados en el extremo inferior descendiendo el número de casos a medida que aumenta la edad.

 

¿Quiere esto decir que los jóvenes suponen en mayor medida que los mayores que los “Estados Unidos quieren controlar el sistema de defensa europeo”? Con los datos que tenemos no podemos afirmarlo así, puesto que en la población general también hay más jóvenes que mayores.

 

 

Ejercicio 2.

a)     En este ejercicio se obtiene una muestra de tres elementos en la que cada elemento pertenece a un estrato (aula). Si denotamos con “1” cuando el elemento seleccionado es de clase alta y con un “0” en el caso contrario, existen 23=8 muestras posibles:

 

 

Aula

 

A

B

C

Muestra 1

1

1

1

Muestra 2

1

1

0

Muestra 3

1

0

0

Muestra 4

0

1

0

Muestra 5

0

1

1

Muestra 6

1

0

1

Muestra 7

0

0

1

Muestra 8

0

0

0

 

La suma de la probabilidad que tiene cada muestra de ser seleccionada es la unidad. De las ocho muestras en 7 hay un individuo de clase alta. Resulta más cómodo calcular la probabilidad de obtener la muestra en la que no hay nadie de clase alta y obtener el complemento a la unidad de dicha probabilidad. Este resultado sería idéntico que la suma de la probabilidad de las siete primeras muestras.

 

P(A,B,C)=(0,0,0) se calcula mediante el producto de la probabilidad de obtener un individuo que no sea de clase alta en cada aula, ya que se trata de selecciones independientes.

 

Las probabilidades son:

 

PA(1)=5/20=0,25                              PA(0)=0,75

PB(1)=20/60=0,333                         PB(0)=0,667

PC(1)=10/40=0,25                           PC(0)=0,75

 

Por tanto la probabilidad pedida será:

 

P=1-(PA(0)x PB(0)x PC(0))=1-(0,75x0,667x0,75)=1- 0,375=0,625=62,5%

 

b)     El razonamiento es idéntico al anterior. Si denotamos con “1” cuando el elemento pertenece a la clase baja o media y con “0” cuando pertenece a la clase alta tenemos:

 

PA(0)=5/20=0,25                              PA(1)=0,75

PB(0)=20/60=0,333                         PB(1)=0,667

PC(0)=10/40=0,25                           PC(1)=0,75

 

P=1-(PA(0)x PB(0)x PC(0))=1-(0,25x0,333x0,25)=1- 0,021= 0,979=97,9%

 

(En este caso hemos calculado la probabilidad de que la muestra esté compuesta por tres elementos de clase alta y hemos hallado su complemento respecto a la unidad.)

 

Ejercicio 3.

a)


 


 

 

 


 

 

b)

 

 


 

 

 

 

 

 


 

Área(0-1)=0,3413

 

P(x<3)=0,5-0,3413=0,1587

 

Luego 715x0,1587=115 profesores

 

 

c)


 

 

 

 

 

 


El área pintada corresponde con los cien profesores más antiguos. Dicho área vale:

 

El valor pedido es el límite inferior del área sombreada “x”. En primer lugar vamos a hallar el valor Z correspondiente. Como desde la media hasta el extremo superior el área es ½, el área no sombreada valdrá:

 

0,5-0,1379=0,3621

 

Dicho área se corresponde con un Z=1,09

 

Despejando x obtenemos que:

 

 

Así obtenemos que los cien profesores más antiguos llevan como mínimo  11,9 años.

 

4. Ejercicio

 

En primer lugar calculamos cual es la población femenina, o universo de nuestra encuesta.

 

N=32300x0,538=17377,4

 

Tomamos un valor entero como N=17377.

 

Como no tenemos ninguna información sobre la característica de estudio, supondremos el caso más desfavorable p=q= ½.

 

A continuación aplicamos la fórmula de poblaciones finitas:

 

Con n=1044 obtendremos un error inferior al 3% para un nivel de confianza del 95,45%