ANÁLISIS DESCRIPTIVO DE DATOS Y PROBABILIDAD E …



ANÁLISIS EXPLORATORIO DE DATOS Y PROBABILIDAD E INFERENCIA ESTADISTICA

Dr. José Nerys funes Torres

Lic. René Armando Peña Aguilar

Facultad de Ciencias Naturales y Matemática

Escuela de Matemática

Departamento de Estadística

Universidad de El Salvador

Septiembre de 2010.

Índice general.

Introducción. 5

Capítulo 1. Conceptos Básicos de Estadística. 6

1.1. La Estadística y sus aplicaciones 6

1.1.1. ¿Qué es la Estadística? 6

1.1.2. Aplicaciones de la Estadística. 6

1.2. Población, Muestra y técnicas de muestreo. 10

1.3. Unidad de estudio y unidad de muestreo 13

1.4. Variables y datos 14

1.5. Escalas de medición 15

1.5.1. Escalas nominales 15

1.5.2. Escalas ordinales 16

1.5.3. Escalas de intervalos 16

1.5.4. Escalas de razones o cocientes 17

1.6. Diseño de Experimentos estadísticos. 18

1.7. Guía de ejercicios N° 1. 18

Capítulo 2. Distribuciones de frecuencias y sus representaciones gráficas 20

2.1. Estadística Descriptiva con una variable 20

2.1.1. Distribución de frecuencias 20

2.1.2. Descripción de Variables Cualitativas 21

2.1.3. Variables cuantitativas discretas. 29

2.2. Distribución de frecuencias agrupadas. 30

2.2.1 Representación gráfica de variables continuas 32

2.3. Guía de ejercicios N° 2. 33

Capítulo 3. Medidas Características de una Distribución Cuantitativa Empírica. 35

3.1 Medidas de posición 35

3.2 Medidas de Dispersión 42

3.3 Medidas de forma 43

3.4. Guía de Ejercicios N° 3. 44

Capítulo 4. Distribuciones Bivariadas 73

4.1. Distribuciones bidimensionales 73

4.2. Distribuciones marginales y condicionales. 74

4.3. Coeficiente de correlación lineal 77

4.4. Introducción al modelos de regresión lineal 77

4.5. Modelo de regresión simple. 82

4.5.1. Estimación de los parámetros por mínimos cuadrados 82

4.5.2. Propiedades de los estimadores por mínimos cuadrados y el modelo ajustado de regresión. 84

4.5.3. Intervalos de confianza 86

4.5.4. Prueba de hipótesis de la pendiente y de la ordenada al origen. 88

4.6. Predicción de nuevas observaciones 89

4.7. Ejercicios. 98

Capítulo 5. Los Valores Relativos 101

5.1. Razones, Proporciones, Porcentajes y Tasas. 101

5.2. Diferencia Relativa 103

5.3. Los números índices 104

5.3.1. Relación entre índices de base fija y variable. 106

5.3.2. Índices agregativos simples 107

5.3.3. Índices de precios 108

5.3.4. Índices de cantidad. 109

5.3.5. Cálculo del salario e ingreso real. 111

5.4. Guía de ejercicios Nº 5. 112

Capítulo 6. Métodos de Conteo. 114

6.1 Introducción 114

6.2 Muestras ordenadas. 114

6.3 Variaciones, combinaciones y permutaciones. 116

6.3.1. Variaciones de N elementos tomados de n en n. 116

6.3.2. Variaciones con repetición de N elementos tomados de n en n. 116

6.3.3. Permutaciones. 116

6.3.4. Combinaciones. 118

6.4. Teorema del Binomio. 122

6.5. Guía de Ejercicios N° 1. 125

6.6. Soluciónes. 126

Capítulo 7. Conceptos Básicos de Probabilidad 132

7.1 Introducción. 132

7.2. Experimento aleatorio. 132

7.3. Espacio Muestral. 133

7.4. Sucesos o Eventos 133

7.4.1. Estructuras con subconjunto 134

7.5. Axiomas de Probabilidad 136

7.5.1. Probabilidad (Axiomática). 136

7.6. Resultado Igualmente Probables o Modelo Uniforme de Probabilidad 138

7.7. Probabilidad condicional. 138

7.8. Independencia de sucesos. 142

7.9. Ejercicios de cálculo de probabilidad 142

7.9.1. Problemas variados de probabilidad 147

7.9.2. Hoja 4. Ejercicios de probabilidad (Repaso, Capítulo 6 y 7) 153

Capítulo 8. Variables aleatorias y distribuciones de probabilidad 155

8.1. Nociones básicas 155

8.2. Distribución de probabilidad binomial 159

8.3. Distribución de Poisson 161

8.4. Distribución geométrica 165

8.5. Distribución hipergeométrica 166

8.6. Densidad uniforme 169

8.7. Densidad normal o de Gauss 172

8.8. Aproximación de la binomial por medio de la normal 175

8.9. Ejercicios. 175

Capítulo 9. Estimación de Parámetros. 178

9.1. Distribución de la medida de la muestra. 178

9.2. Distribución de la diferencia entre las medias de dos muestras. 180

9.3. Distribución de la proporción de la muestra. 184

9.4. Distribución de la diferencia entre las proporciones de dos muestras. 186

9.5. Intervalos de confianza 188

9.5.1. Selección del tamaño de la muestra 192

Capítulo 10. Contraste de hipótesis. 198

10.1.- Introducción 198

10.2. Nociones básicas 198

10.3. Procedimiento sistemático para una prueba de hipótesis de una muestra. 199

10.4. Procedimiento sistemático para una prueba de hipótesis de dos muestras independientes. 202

10.5. Prueba de hipótesis para una y dos proporción independientes 202

Bibliografía 206

Introducción.

La estadística como herramienta para el análisis de los datos es esencial en los profesionales que con frecuencia tienen la necesidad de realizar análisis de datos para la toma de decisiones.

Este libro, recoge en 10 capítulos conocimientos estadísticos básicos que van desde el análisis descriptivo de datos, probabilidad e inferencia estadística.

Debemos aclarar que los métodos descriptivos aquí propuestos son elementales univariantes y en el enfoque de la probabilidad sólo hemos considerado espacios probabilísticos discretos incluyendo dos continuas la uniforme y la normal.

Este libro, es recomendables para principiantes en el área de estadística. Los conocimientos aquí planteados son base para ir enfrentando otros de estadística de mayor dificultad.

Capítulo 1. Conceptos Básicos de Estadística.

1.1. La Estadística y sus aplicaciones

1.1.1. ¿Qué es la Estadística?

La Estadística es una ciencia que estudia las características de un conjunto de casos para hallar en ellos regularidades en el comportamiento, que sirven para describir el conjunto y para efectuar predicciones.

La Estadística tiene por objeto recolectar, organizar, resumir, presentar y analizar datos relativos a un conjunto de objetos, personas, procesos, etc. A través de la cuantificación y el ordenamiento de los datos intenta explicar los fenómenos observados, por lo que resulta una herramienta de suma utilidad para la toma de decisiones.

Bajo este contexto, la Estadística se divide en dos áreas: Estadística Descriptiva y Estadística Inferencial.

ESTADÍSTICA DESCRIPTIVA: permite organizar y presentar un conjunto de datos de manera que describan en forma precisa las variables analizadas haciendo rápida su lectura e interpretación. Obviamente, la materia prima de la Estadística Descriptiva la constituyen los datos, que son el resultado de las observaciones y/o experimentos.

Ejemplos:

1. Durante los últimos dos días se ha informado de un total de trece homicidios diarios.

2. La encuesta Gallup informa una ventaja de 25% para el candidato de izquierda.

ESTADÍSTICA INFERENCIAL: Generaliza los resultados de una muestra a los de una población total, es cuando de los datos estadísticos obtenidos de una muestra se infiere o se deduce una observación la cual se generaliza sobre la población en total. Para determinar la confiabilidad de la inferencia de los datos estadísticos de una muestra, se hace necesario comprobar la misma para poder asegurar que lo que se observa en una muestra se observará también en la población. Generalmente el análisis estadístico inferencial se lleva a cabo para mostrar relaciones de causa y efecto, así como para probar hipótesis y teorías científicas.

1.1.2. Aplicaciones de la Estadística.

Mucha gente piensa que la Estadística no tiene nada que ver con otras disciplinas que no sean las ingenierías y economía. Otros nunca le encuentran aplicaciones útiles, y por eso tampoco les gusta. Pero, en realidad tiene infinitas aplicaciones en todo el conocimiento adquirido por la humanidad, partiendo ante todo, lo relacionado con las ingenierías, economía, las ciencias biológicas, ciencias sociales e incluso en algunas ramas del área Jurídica. Y, en definitiva, casi todos los campos de las ciencias emplean instrumentos estadísticos de importancia fundamental para el desarrollo de sus modelos de trabajo.

En nuestros días, la estadística se ha convertido en un método efectivo para describir con exactitud los valores de los datos económicos, políticos, sociales, psicológicos, biológicos y físicos, entre otros, y sirven como herramienta para relacionar y analizar dichos datos. El trabajo del experto estadístico no consiste ya sólo en reunir y tabular los datos, sino el proceso de interpretación de esa información a través de modelos estadísticos-matemáticos, aumentando el alcance de las aplicaciones de la estadística, esto se ha logrado, gracias al desarrollo de la teoría de probabilidad.

Dentro de las Aplicaciones de la Estadística se destacan las siguientes:

1. La Estadística en el Periodismo

En general, los periodistas además de dedicarse al ámbito de la noticia, realizan crónicas y estudios de investigación, que nos entregan preguntas y respuestas frente a determinados sucesos o situaciones de interés público. Algunos de los estudios más frecuentes realizados por los periodistas son sobre alcoholismo, enfermedades, sexualidad, delincuencia, política, etc. Para ello, hacen uso de las encuestas u otros instrumentos técnicos de medición propios de la estadística, a través de dichos estudios es posible conocer la opinión de la gente y con ello informar a la opinión pública, a través de los medios de comunicación, desde donde las autoridades pertinentes e interesadas en estos estudios pueden adoptar las medidas correctivas, si es el caso. Tal es así, que la estadística forma parte importante del periodismo investigativo.

1. La Estadística en la Política

Conocidas son las famosas encuestas de tipo político, que entregan una orientación de la intención de voto, de la aceptación de un candidato, del impacto de un programa o proyecto de estado, etc. de una muestra estadística representativa, sobre la opinión de las personas en un tiempo determinado, teniendo esta herramienta una gran confiabilidad. Así es que el uso de la estadística es imprescindible para determinar caminos a seguir para los candidatos de elección popular.

2. La Estadística en la Publicidad

Cuando las grandes marcas trasnacionales y/o nacionales como Coca-cola, Pepsi, Nice, Adidas, Laboratorios López, etc. nos llenan de slogans, música y colores en sus comerciales, lo único que buscan es que la gente adquiera los productos y/o servicios que ofrecen.

Se dedican, entonces, a realizar las llamadas “campañas publicitarias”, y, antes de lanzar una campaña, hacen un estudio de mercado para encontrar las mejores alternativas posibles a fin de lograr el éxito de ventas deseado. Estos estudios son de carácter estadístico, es decir, hacen un diseño muestral y seleccionan una muestra para inferir las características de la población.

3. La Estadística en la economía y las finanzas.

En la administración es una herramienta del control, como parte del proceso administrativo (o lo que es lo mismo: planeación, organización, dirección y control) ya que la estadística ayuda a recolectar, estudiar y al final interpretar los datos que obtienen al terminar el proceso administrativo, retroalimenta con esta información y al final se observa en que pueden mejorar y que se está haciendo bien.

En la mercadotecnia es una herramienta muy importante cuando tienes la necesidad de trabajar con datos de muestreo para conocer los gustos y preferencias de las personas. Igualmente en la auditoria administrativa cuando recabas datos para conocer en que puede mejorar una organización. En pocas palabras te puede servir en cualquier área de una organización debido a que muestra los resultados de las actividades que bienes realizando.

En la economía se utiliza como una herramienta de predicción para pronosticar el comportamiento futuro, por ejemplo, de los precios de los metales (oro, plata, cobre) tomando como base el comportamiento pasado de los precios de los mismos. También puede servir para estudiar el comportamiento de la bolsa de valores, de ciertos productos básicos, los economistas por lo regular se sienten magos que creen predecir cosas. En general, la Estadística suministra los valores que ayudan a descubrir interrelaciones entre múltiples parámetros macro y microeconómicos, a través de la evaluación de modelos econométricos para el establecimiento de políticas económicas; análisis del costo de la canasta básica, el poder adquisitivo de la población, etc.

5. La estadística en la Banca y Seguros

El profesional del seguro de vida ha de ser capaz de asignar primas suficientes para cubrir las cantidades que habrá de pagar la compañía en el caso de muerte del asegurado. En consecuencia, la predicción adecuada de las probabilidades de muerte constituye uno de los ejes centrales de la reducción del riesgo que se asume. Por ello, el objetivo de la Estadística de Seguros es una presentación exhaustiva de los métodos disponibles para ajustar tablas de mortalidad y tablas de seguros no vida, ejemplo, aseguramiento de vehículos, viviendas, etc.

Por otra parte, algunas de las aplicaciones concretas de la Estadística en el sistema bancario son las siguientes:

• Sistemas de concesión de tarjetas de crédito y fijación de su límite.

• Sistemas de estimación del potencial económico de los clientes.

• Definición de tipologías comerciales de clientes.

• Determinación del público objetivo en campañas comerciales.

• Modelización del riesgo según las características de los clientes.

• Aplicación de la teoría de colas para brindar un servicio de calidad.

• Finalmente, es de mucha utilidad la técnica de minería de datos para el análisis de bases de datos del sistema bancario.

6. La estadística en ciencias humanas y sociales

La investigación en Psicología, Sociología y Educación, al igual que ocurre en otras ciencias, en buena medida se basa en el manejo de recursos estadísticos como elementos indispensables para llegar a conclusiones aceptables por el resto de la comunidad científica. Dada la peculiaridad de su objeto de estudio, inabordable en la mayoría de los casos sino es a través de perspectivas complejas de relación entre variables, la atención de los investigadores en las ciencias humanas y sociales se concentra cada vez más en la llamada Estadística Multivariante (Análisis Cluster, Factorial, Discriminante, etc.).

Las ciencias sociales se han visto apabulladas en los últimos años por avances vertiginosos en informática y aplicaciones estadísticas, por ejemplo, en El Salvador, se ha elaborado el Mapa de Pobreza, donde se ha interrelacionado una gran variedad de variables de diferentes áreas: Educativas, Económicas, Salud, entre otras. También, se ha hecho investigación sobre los factores que están asociados al rendimiento académico de los estudiantes, finalmente, se han utilizado diferentes técnicas para el análisis de los resultados académicos de los estudiantes.

Las ciencias sociales: es un pilar básico del desarrollo de la demografía y la sociología aplicada, lo que conlleva a:

• Definición de indicadores de fenómenos sociales.

• Medición de constructos o variables no directamente observables (la satisfacción, la inteligencia, ...)

• Medición de los efectos entre constructos no observables para establecer políticas sociales.

• Estudio de la evolución de la demografía.

• Estudios sociales sobre la integración de la población inmigrada.

• Fenómenos sociales como las pandillas, criminalidad, delincuencia, contaminación, entre otros.

7. La estadística en las ciencias químicas.

En Química, la estadística se aplica en varias áreas: En el diseño de experimentos se usan métodos estadísticos, en el control de procesos y control de calidad (o gerenciamiento de calidad) de procesos y productos. En EEUU está muy de moda el sistema seis sigma, creado por general electric, que utiliza algunos conceptos estadísticos para lograr el aseguramiento de la calidad.

Por otra parte la producción química tiene su costo económico y financiero que también requiere mucho uso de estadística, por ejemplo, si no se elabora un buen diseño experimental, se necesitarán muchas réplicas para validar una formulación química.

Algunas de las aplicaciones concretas que podemos mencionar:

• Utilización de diseños experimentales para optimizar la composición de productos alimenticios.

• Evaluación de la superficie de respuesta de una reacción química según determinados factores.

• Predicción del comportamiento de un componente no sintetizado a partir de las propiedades moleculares de sus descriptores.

• Control de procesos de producción para detectar problemas evitando a su vez falsas alarmas.

8. La estadística en Ciencias biológicas.

En el área de las ciencias biológicas, interesa estudiar el comportamiento de ciertas plantas y sus cruces a fin de determinar cómo se relacionan genéticamente los padres con los hijos, hablando de Genotipo y Fenotipo. En esta categoría es también donde se realizan los mayores avances de la humanidad, en descubrimientos. Cada año se descubren miles de fórmulas científicas que relacionan fenómenos de la naturaleza con modelos matemáticos.

Los científicos se dedican a realizar estudios estadísticos, recogiendo datos y muestras, investigando el tiempo de reproducción de un virus, el comportamiento migratorio de algunas aves o insectos, además de factores de tamaño y volumen del crecimiento de ciertas especies de animales o vegetales. Todo esto funciona con la idea de recopilar información, muestrear ciertas áreas para ver cómo se han comportado algunas aves, por ejemplo, se pueden dibujar o simular curvas que se supone que son relativamente parecidas al comportamiento migratorio de aves. Con esta herramienta se podrían determinar también las épocas de mayor probabilidad de contagio, diseminación de algún virus o bien enfermedades transmitidas por insectos.

Algunas aplicaciones concretas en esta área son: Determinación del tamaño de poblaciones naturales en una región; efectividad de la utilización de barreras naturales (filas de árboles plantados en los límites del terreno) como medio de prevenir las plagas de insectos o aves sobre las plantaciones y así disminuir la utilización de pesticidas: y, determinación de los niveles óptimos de utilización de los fertilizantes. Obviamente, en esta área es donde más se hace usos de la teoría de Diseños de Experimentos.

9. La estadística en las ciencias médicas.

Permite establecer pautas sobre la evolución de las enfermedades y los enfermos, los índices de mortalidad asociados a procesos morbosos, el grado de eficacia de un medicamento, etcétera.

Bajo este conjunto de ideas, se ha presentado un panorama de la utilidad de la estadística, haciendo un recorrido por diversas áreas del conocimiento humano, con el fin, de conocer cómo se relacionan con las diversas ciencias, formando una sola verdad. Evidentemente, existen, muchas disciplinas donde se aplica la estadística, que no han sido consideradas en este apartado, por ejemplo, las ingenierías, la pintura, la música, etc. Finalmente, es de resaltar que en todos los temas donde se analice información está presente la estadística.

1.2. Población, Muestra y técnicas de muestreo.

Las estadísticas de por sí no tienen sentido si no se considera o se relaciona dentro del contexto con que se trabajan. Por lo tanto es necesario entender los conceptos de población y de muestra para lograr comprender mejor su significado en la investigación educativa o social que se lleva a cabo.

POBLACIÓN - es el conjunto total de individuos, objetos o medidas que poseen algunas características comunes observables en un lugar y en un momento determinado. Cuando se vaya a llevar a cabo alguna investigación debe de tenerse en cuenta algunas características esenciales al seleccionarse la población bajo estudio. Entre éstas tenemos:

Homogeneidad - que todos los miembros de la población tengan las mismas características según las variables que se vayan a considerar en el estudio o investigación. Por ejemplo, si se fuera a investigar la incidencia de la drogadicción entre jóvenes mujeres adolescentes, entonces hay que definir claramente las edades que comprenden la adolescencia y cuando se seleccione la población asegurarse de que todas las personas entrevistadas sean de la edad determinada y del sexo femenino. (La adolescencia se define operacionalmente como el periodo comprendido de edad que fluctúa entre 12 y 21 años.)

Tiempo - se refiere al período de tiempo donde se ubicaría la población de interés. Determinar si el estudio es del momento presente o si se va a estudiar a una población de cinco años atrás o si se van a entrevistar personas de diferentes generaciones.

Espacio - se refiere al lugar donde se ubica la población de interés. Un estudio no puede ser muy abarcador y por falta de tiempo y recursos hay que limitarlo a un área o comunidad en específico.

Cantidad - se refiere al tamaño de la población. El tamaño de la población es sumamente importante porque ello determina o afecta al tamaño de la muestra que se vaya a seleccionar, además que la falta de recursos y tiempo también nos limita la extensión de la población que se vaya a investigar.

MUESTRA - la muestra es un subconjunto fielmente representativo de la población.

Hay diferentes tipos de muestreo. El tipo de muestra que se seleccione dependerá de la calidad y cuán representativo se quiera que sea el estudio de la población, en este sentido, la muestra puede ser:

ALEATORIA - cuando se selecciona al azar y cada miembro tiene igual oportunidad de ser incluido.

Un procedimiento de extraer una muestra aleatoria de una población finita es: enumerar todos los elementos que conforman la población, escribir esos números en papelitos y echarlos en una urna o bolsa mezclarlos bien removiéndolos y sacar uno a uno tantos como lo indique el tamaño de la muestra. En este caso los elementos de la muestra lo constituirán los elementos de la población cuyos números coincidan con los extraídos de la bolsa o urna.

El tamaño de la muestra (MAS):

Al realizar un muestreo probabilística nos debemos preguntar ¿Cuál es el número mínimo de unidades de análisis (personas, organizaciones, capítulo de telenovelas, etc), que se necesitan para conformar una muestra n que me asegure un error estándar menor que 0.01 ( fijado por el muestrista o investigador), dado que la población es aproximadamente de N elementos.

En el tamaño de una muestra de una población se debe tener presente la varianza poblacional, error máximo permisible prefijado (diferencia del parámetro y estimador), con un nivel de confianza de [pic]. Simbólicamente se refiere a lo siguiente: [pic], bajo este contexto podemos utilizar la fórmula:

[pic]

Ejemplo. Se desea estimar la estatura promedio de los estudiantes de la asignatura de Tratamiento de la Información Estadística. Se sabe que la estatura de un estudiante es una variable aleatoria con distribución normal. Determine el tamaño de muestra aleatoria necesaria para garantizar una probabilidad igual a 0.95 de que el estimador y el parámetro se diferencien en menos de 10cm.

Solución.

Datos conocidos.

d= 10cm

Calcular: [pic], [pic]=1.96

[pic]: Para calcular la desviación estándar hay que solicitar la estatura de cada estudiante y luego calcular la varianza utilizando la siguiente fórmula: [pic], posteriormente se obtiene la raíz cuadrada y ese es el valor [pic]que se debe utilizar en esta ecuación. Supongamos que [pic]=12cm, entonces:

Determinar:

[pic], se requiere una muestra de 6 estudiantes para cumplir las hipótesis del problema.

ESTRATIFICADA - cuando se subdivide en estratos o subgrupos según las variables o características que se pretenden investigar. Cada estrato debe corresponder proporcionalmente a la población.

El número determinado de elementos muestrales es: [pic], donde ni es el número de elementos en el estrato i=1, 2, …, k . No se entrará en detalle del cálculo del tamaño muestral, ya que supera el alcance de esta asignatura.

SISTEMÁTICA - cuando se establece un patrón o criterio al seleccionar la muestra. Ejemplo: se entrevistará una familia por cada diez que se detecten.

El muestreo es indispensable para el investigador ya que es imposible entrevistar a todos los miembros de una población debido a problemas de tiempo, recursos y esfuerzo. Al seleccionar una muestra lo que se hace es estudiar una parte o un subconjunto de la población, pero que la misma sea lo suficientemente representativa de ésta para que luego pueda generalizarse con seguridad de ellas a la población.

El tamaño de la muestra depende de la precisión con que el investigador desea llevar a cabo su estudio, pero por regla general se debe usar una muestra tan grande como sea posible de acuerdo a los recursos que haya disponibles. Es de especificar que para cada método de muestreo existen fórmulas para determinar el tamaño de muestra.

1.3. Unidad de estudio y unidad de muestreo

La unidad de análisis o estudio corresponde a la entidad mayor, primaria o representativa de lo que va a ser objeto específico de estudio en una medición y se refiere al qué o quién es objeto de interés en una investigación. Por ejemplo: Condiciones de hacinamiento de las familias del Municipio de Soyapango, San Salvador. Unidad de Análisis: Familias del Municipio de Soyapango.

Debe estar claramente definida en un protocolo de investigación y el investigador debe obtener la información a partir de la unidad que haya sido definida como tal, aun cuando, para acceder a ella, haya debido recorrer pasos intermedios. Las unidades de análisis pueden corresponder a las siguientes categorías o entidades:

• Personas

• Grupos humanos

• Poblaciones completas

• Unidades geográficas determinadas

• Eventos o interacciones sociales (enfermedades, accidentes, casos de infecciones intrahospitalarias, etc)

• Entidades intangibles, susceptibles de medir (exámenes, días, camas)

El tipo de análisis al que se someterá la información es determinante para elegir la unidad de análisis. Por ejemplo, si el objetivo es dar cuenta de la satisfacción del usuario de un servicio médico, la unidad de análisis natural es el paciente atendido, o la persona que se atiende en ese servicio médico. Si el objetivo es dar cuenta de la satisfacción del alumno sobre el desempeño docente, la unidad de análisis es el alumno que recibe clases con el docente evaluado.

La unidad de muestreo corresponde a la entidad básica mediante la cual se accederá a la unidad de análisis. En algunos casos, ambas se corresponden. Por ejemplo, si se desea estimar la prevalencia de daño auditivo en relación con niveles de ruido ambiental en una muestra de trabajadores de una fábrica, la unidad de muestreo puede corresponder a la entidad "sujeto", si se dispone de un registro detallado de cada sujeto. La unidad de análisis es por cierto el trabajador de la fábrica.

1.4. Variables y datos

VARIABLES

Las variables son las características observables de un objeto, problema o evento que se puede describir según un esquema de medición bien definido. Cada rasgo o aspecto de una población constituye una variable. La edad de unas personas, su sexo, color de su piel, nacionalidad, su nivel de motivación, niveles de ansiedad, el número de nacimientos, número de matrimonios, frecuencia de suicidios, estatura, peso, niveles de inteligencia, actitudes, entre muchas otras.

Las variables pueden adquirir diferentes valores o clasificarse en diferentes categorías según la naturaleza o tipo de estudio que se lleve a cabo. Entre éstas tenemos las siguientes clasificaciones:

VARIABLES CUALITATIVAS - son aquellas que se expresan en forma verbal como categorías o atributos. Por ejemplo, el sexo, color, afiliación política, nacionalidad, motivación, área académica o profesión de una persona.

VARIABLES CUANTITATIVAS - son las que varían en términos de cantidad y se registran o expresan en forma numérica. Por ejemplo, edad, promedio académico, puntuaciones de exámenes, frecuencia de delitos, temperatura, ingresos anuales o salarios por hora. Hay algunas características que pueden clasificarse o expresarse como variable cuantitativa y transformarla a cualitativa o viceversa. Por ejemplo, nivel de aprovechamiento académico estudiantes de 4:00 puntos, o estudiantes de 3:00 puntos y así sucesivamente. El investigador puede expresar mediante una escala numérica el aprovechamiento académico al clasificar a los estudiantes, como también puede clasificarlos como variable cualitativa en las categorías de excelentes, buenos, regulares y deficientes.

VARIABLES DISCRETAS - son aquellas que sólo adquieren un valor absoluto o específico que nunca cambian. Pueden ser cualitativas. Ejemplo: el sexo, nacionalidad, grupo étnico, entre otras.

VARIABLES CONTINUAS - que siempre son cuantitativas, son las que pueden asumir cualquier valor. Por ejemplo, la edad, altura, peso, índice académico.

En el campo de la investigación, que se suele examinar las relaciones entre dos o más variables al investigar un asunto o problema, se clasifican las variables como:

VARIABLES INDEPENDIENTES - son las características controladas por el investigador y que se supone tendrán efectos sobre otras variables.

VARIABLES DEPENDIENTES - son las características o aspectos que se alteran por consecuencia del control que ejerce el investigador sobre otras variables.

Estos dos últimos tipos de variables suelen darse más en estudios o investigaciones experimentales, pero también podemos considerarlas en estudios descriptivos. Por ejemplo, en un estudio experimental se investiga si un nuevo medicamento mejora las condiciones del sida. A tales efectos se seleccionaron 30 pacientes, de los cuáles 15 recibían el nuevo medicamento (grupo experimental) y otros 15 continuaban con su tratamiento tradicional (grupo control). El nuevo medicamento viene a ser la variable independiente porque es la que los investigadores controlan y que luego examinarán sus efectos en la condición del sida, la cual viene a ser la variable dependiente, porque es la condición que se va alterar o quedar afectada por el nuevo medicamento.

En un estudio descriptivo donde interesa saber si la clase social es factor determinante en el aprovechamiento académico en las escuelas, entonces la clase social es la variable independiente y el aprovechamiento académico la dependiente.

Una variable puede ser independiente en una investigación y dependiente en otra, todo dependerá de la finalidad de la investigación. Por ejemplo, si se lleva a cabo un estudio para determinar cómo las condiciones socio-económicas influyen a la drogadicción, en este caso, status socio- económico es una variable independiente. Por el contrario, si se lleva a cabo una investigación para saber cómo la drogadicción afecta las condiciones sociales y económicas, entonces, el status socio-económico resultaría ser la variable independiente.

DATOS: son los hechos que describen sucesos y entidades.

1.5. Escalas de medición

Una escala es un esquema específico para asignar números o símbolos con el objeto de designar características de una variable. Las escalas de medición comúnmente conocidas son: nominales, ordinales, de intervalos y de razón. A continuación veamos los cuatro tipos de escalas de medición.

1.5.1. Escalas nominales

Las escalas nominales son aquellas donde se clasifican los objetos, personas o variables en categorías cualitativamente distintas. Consiste simplemente en agrupar objetos en clases o asignar las personas de acuerdo a alguna cualidad una vez que los objetos o personas posean características comunes que lo hagan pertenecer a una categoría. Por ejemplo, todos los estudiantes que obtuvieron sobre 9 puntos fueron clasificados como excelentes, los que obtuvieron menos de 8.9 pero más de 8.0 como muy buenos y de 7.0 a 7.9 como buenos. En una redada de drogas se arrestaron 22 mareros, cuatro acusados de homicidios, ocho acusados de violación y diez por extorciones.

Se pueden utilizar números en las escalas nominales, pero éstos no representan magnitudes absolutas. Los números sólo se utilizan con el propósito de clasificarlos a determinada categoría. Por ejemplo, si vas a comprar pintura azul en la ferretería te presentan una escala con diferentes tonalidades del color azul y cada tonalidad posee un número, pero este número sólo es para facilitar al vendedor identificar el color solicitado entre cientos de colores. De igual modo en muchas solicitudes se le asigna el número 1 al sexo masculino y número dos al femenino y esta clasificación sólo es para facilitar los cómputos y manejos de información estadística, pero no quiere decir que los masculinos tengan más o menor valor que las del sexo femenino. Los números que se utilizan para efectos de identificación en una escala nominal nunca se utilizarán para llevar a cabo los procedimientos matemáticos de suma, resta, multiplicación y división.

1.5.2. Escalas ordinales

Las escalas ordinales son las que clasifican a las personas, eventos u objetos en una posición con relación a cierto atributo, pero sin indicar la distancia que hay entre las posiciones. Cuando se asignan números es sólo para indicar el orden de las posiciones de lo que se está clasificando. Por ejemplo, en un determinado grupo escolar se decidió seleccionar los cinco estudiantes con el promedio más alto para premiarlos con un viaje al Lago de Coatepeque y resultó que Esteban quedó tercero con un promedio de 8.90, seguido de Jorge con 8.88 y, luego Leticia con 8.75. Esteban como tercero se le asigna el número tres, pero ésta designación numérica sólo indica su posición con relación a los otros cuatro alumnos. Sabemos que Esteban tiene un mejor promedio que Jorge y que su promedio es superior que el de Leticia. Sin embargo, no podremos saber hasta qué punto es mejor su promedio comparado con los otros.

Con las escalas ordinales tampoco se pueden llevar a cabo las operaciones aritméticas de suma, resta, multiplicación y división. La diferencia que puede haber entre unas personas u objetos en este tipo de escala no necesariamente constituye unidades iguales o absolutas que puedan utilizarse para determinar si el que tiene un segundo lugar posee el doble valor que el que queda en cuarta posición. Por ejemplo, en un evento atlético de una carrera que no haya sido cronometrada, podemos saber quién llegó primero, segundo y tercer lugar, pero no podemos saber con precisión la velocidad entre un corredor y otro. La diferencia que hay entre el primero y el segundo no necesariamente es igual a la que hubo entre el segundo y el tercero.

1.5.3. Escalas de intervalos

Las escalas de intervalos son aquellas que ordenan los objetos o eventos según la magnitud del atributo que representan y proveen intervalos iguales entre las unidades de medida. Además, no poseen un punto cero absoluto o verdadero ya que el mismo es establecido por convención de forma arbitraria por los expertos en el área o materia de estudio y no implica la ausencia del atributo o la propiedad en cuestión. Por ejemplo, la escala de inteligencia posee un punto cero, pero administrando cualquier tipo de prueba que intente medir la inteligencia, nunca va a encontrar un ser humano con cero inteligencia. De igual modo si el agua está en 0 grado °C, esto no quiere decir que carezca de temperatura, ya que en una escala de intervalos, como se ha indicado, es una designación arbitraria y convencional.

Una diferencia de cierta magnitud en una escala de intervalos significa lo mismo en todos los puntos de la escala. Así por ejemplo, en los termómetros de grados Fahrenheit y centígrados que utilizan este tipo de escalas, están divididos en unidades iguales, la diferencia en la temperatura entre 100 grados y 101 grados es equivalente a la diferencia entre 110 grados y 111 grados.

La numeración de los años en nuestro calendario utiliza también una escala de intervalos. Las autoridades eclesiásticas y gubernamentales de la época decidieron arbitrariamente fijar como el año 1 el del nacimiento de Cristo y como unidad de medida un lapso de 365 días. Por lo tanto, el lapso de tiempo que estuvo Bill Clinton como presidente de los Estados Unidos desde 1993 – 2001 es igual al que transcurrió George Bush desde 2001 – 2009.

1.5.4. Escalas de razones o cocientes

Las escalas de razones o cocientes se diferencian de las de intervalos solamente en que la de razones el punto cero no es arbitrario y corresponde a una total ausencia del asunto o propiedad estudiada. La escala de una simple regla de 12 pulgadas posee una escala de razones la cual está dividida en 12 unidades cada una de igual magnitud y parte de un punto cero absoluto y verdadero.

La mayoría de las variables con las cuales se utiliza este tipo de escalas se refieren más a la ejecución de tareas motoras, a las medidas de objetos y de aspectos fisiológicos.

Dos ejemplos de las escalas de razones y cocientes son: las medidas de la estatura y el peso. Si una columna mide seis metros es el doble de alto de otra columna que mide tres metros. Si Enrique pesa 180 libras, entonces pesa el doble que María quién pesa 90 libras. Las razones de los números en estas escalas tienen un determinado sentido, lo que hace posible que se interpreten los valores numéricos entre las cantidades obtenidas de los objetos.

Además pueden llevarse a cabo las diferentes operaciones matemáticas.

RESUMEN: CARACTERÍSTICAS, EJEMPLOS Y LIMITACIONES

DE LAS ESCALAS DE MEDICIÓN

|ESCALA |CARACTERÍSTICAS |USOS/EJEMPLOS |LIMITACIONES |

|Nominal |Se clasifican las personas, eventos u |Denominaciones religiosas, afiliación |No se pueden precisar diferencias |

| |objetos en categorías. |político partidista, codificaciones en la |cuantitativas entre las categorías. |

| | |clasificación de objetos, pinturas, | |

| | |movimientos literarios. | |

|Ordinal |Se clasifican u ordenan las personas, |Orden de llegada de atletas en una carrera,|Restringida para Identificar diferencias |

| |objetos y eventos en determinada |puntuaciones de una prueba, rangos |relativas, pero no precisa diferencias en|

| |posición. |militares, nivel de popularidad de |cantidad absoluta entre personas u |

| | |estudiantes en una escuela. |objetos. |

|Intervalo |Escala que posee unidades de igual |Temperaturas (Celsius y Fahrenheit), fechas|Razones no tienen sentido ya que el punto|

| |magnitud. El punto cero de la escala es |del calendario, escala de inteligencia. |cero es establecido convencionalmente. |

| |arbitrario y no refleja la ausencia del | | |

| |atributo. | | |

|Razones |Escala que posee un punto |Distancia, peso, estatura, tiempo |Ninguna, excepto que su uso se supedita |

| |cero absoluto e intervalos de igual |requerido para realizar una tarea escolar. |mayormente a medir cualidades físicas más|

| |magnitud. | |que para la medición de aspectos |

| | | |psicológicos. |

1.6. Diseño de Experimentos estadísticos.

El diseño de un experimento es la secuencia completa de los pasos que se deben tomar de antemano, para planear y asegurar la obtención de toda la información relevante y adecuada al problema bajo investigación, la cual será analizada estadísticamente para obtener conclusiones válidas y objetivas con respecto a los objetivos planteados.

Un Diseño Experimental es una prueba o serie de pruebas en las cuales existen cambios deliberados en las variables de entrada de un proceso o sistema, de tal manera que sea posible observar e identificar las causas de los cambios que se producen en la respuesta de salida.

El propósito de cualquier Diseño Experimental, es proporcionar una cantidad máxima de información pertinente al problema que se está investigando. Y ajustar el diseño que sea lo más simple y efectivo; para ahorrar dinero, tiempo, personal y material experimental que se va a utilizar. Es de acotar, que la mayoría de los diseños estadísticos simples, no sólo son fáciles de analizar, sino también son eficientes en el sentido económico y en el estadístico.

De lo anterior, se deduce que el diseño de un experimento es un proceso que explica tanto la metodología estadística como el análisis económico.

DISEÑO: Consiste en planificar la forma de hacer el experimento, materiales y métodos a usar, etc.

EXPERIMENTO: Conjunto de pruebas o ensayos cuyo objetivo es obtener información, que permita mejorar el producto o el proceso en estudio.

1.7. Guía de ejercicios N° 1.

1. Contestar verdadero o falso y comentar su respuestas según sea el caso:

a) La Estadística es una ciencia que estudia y describe las características de un conjunto de casos.

b) La estadística inferencial generaliza los resultados de una muestra a los de la población total.

c) Durante los últimos dos días se ha informado de un total de cinco homicidios diarios en San Salvador, este es un ejemplo de estadística inferencial.

d) A las medidas que se obtienen de una muestra se les da el nombre de parámetro.

e) En una muestra aleatoria ciertos elementos tienen mayor probabilidad que otros de ser seleccionados.

2. Mediante ejemplos, explicar la diferencia entre la estadística descriptiva y estadística inferencial.

3. POBLACIÓN - es el conjunto total de individuos, objetos o medidas que poseen algunas características comunes observables en un lugar y en un momento determinado. A partir de esta definición enumere las características de una población.

4. Describir dos ejemplos de población.

5. Describir dos ejemplos de muestra de una población.

6. Definir al menos dos tipos de muestreo y dar ejemplos de aplicación de cada uno.

7. Se desea estimar la edad promedio de los estudiantes de la asignatura de Tratamiento de la Información Estadística. Se sabe que la edad de un estudiante es una variable aleatoria con distribución normal con desviación estándar de 6años. Determine el tamaño de muestra aleatoria necesaria para garantizar una probabilidad igual a 0.95 de que el estimador y el parámetro se diferencien en menos de 5años.

8. Establecer las diferencias entre la unidad de análisis y la unidad muestral.

9. Establecer las diferencias entre variables cualitativas y cuantitativas.

10. Definir al menos dos ejemplos de variables cualitativas y de variables cuantitativas.

11. Establecer las diferencias entre variables discretas y continuas.

12. Definir al menos dos ejemplos de variables discretas y de variables continuas.

13. Definir las siguientes escalas de Medición y presentar dos ejemplos de cada una de ellas:

• Escala nominal

• Escala ordinal

• Escala de intervalo.

• Escala de razón

Capítulo 2. Distribuciones de frecuencias y sus representaciones gráficas.

2.1. Estadística Descriptiva con una variable

La estadística descriptiva permite organizar y presentar un conjunto de datos de manera que describan en forma precisa las variables analizadas haciendo rápida su lectura e interpretación. Obviamente, la materia prima de la Estadística Descriptiva la constituyen los datos, que son el resultado de las observaciones y/o experimentos. Se denomina variable al carácter o fenómeno de la realidad objeto de estudio. Las variables pueden ser de diferentes tipos, dependiendo de los datos que la forman.

[pic]

Las variables cualitativas o atributos son aquellas que no toman valores numéricos. Describen diferentes cualidades denominadas modalidades. Ejemplo: Sexo, estado civil, color de los ojos, etc. Las variables cualitativas están formadas por datos que toman valores numéricos y pueden ser discretas, si sólo toman un número entero de valores, y continuas, si pueden tomar cualquier valor real dentro de un intervalo.

Entre los sistemas para ordenar los datos se encuentran principalmente dos: a) la distribución de frecuencias y b) la representación gráfica.

2.1.1. Distribución de frecuencias

Supongamos que hemos recogido un conjunto de n datos englobados en una variable X. La tabla que recoge de modo sistemático estos datos se denomina distribución de frecuencias. La Distribución de Frecuencias (Simples o agrupadas en intervalos). Comúnmente llamada tabla de frecuencias, se utiliza para hacer la presentación de datos provenientes de las observaciones realizadas en el estudio, estableciendo un orden mediante la división en clases y registro de la cantidad de observaciones correspondientes a cada clase. Lo anterior facilita la realización de un mejor análisis e interpretación de las características que describen y que no son evidentes en el conjunto de datos brutos o sin procesar.

La siguiente tabla recoge las principales características de una distribución de frecuencias simple o no agrupada.

|Datos |Frecuencias Absolutas |Frecuencias Relativas |

| |Simples |Acumuladas |Simples |Acumuladas |

|[pic] |[pic] |[pic] |[pic] |[pic] |

|Total |[pic] | |[pic] | |

La primera columna representa los distintos valores de esos datos y la segunda la frecuencia simple, es decir, el número de veces que se ha observado el correspondiente valor; la tercera columna recoge la frecuencia acumulada (número de veces que se han observado valores menores o iguales que el que corresponde a dicha fila). Las frecuencias relativas se obtienen a partir de las frecuencias absolutas, dividiendo por el tamaño de la muestra.

2.1.2. Descripción de Variables Cualitativas

Distribución de Frecuencias

● SUPONGAMOS QUE TENEMOS N OBSERVACIONES DE UNA VARIABLE CUALITATIVA.

● SUPONGAMOS QUE LA VARIABLE PUEDE TOMAR VALORES PERTENECIENTES A K CLASES O CATEGORÍAS:

[pic]

● REPRESENTAMOS MEDIANTE N1, N2, …, NK EL NÚMERO DE DATOS QUE APARECEN EN CADA UNA DE LAS K CATEGORÍAS.

● FRECUENCIA ABSOLUTA DE LA CLASE I-ÉSIMA (NI): NÚMERO DE OBSERVACIONES EN LA CLASE I.

● FRECUENCIA RELATIVA DE LA CLASE I-ÉSIMA (FI): ES LA PROPORCIÓN DE DATOS EN LA CLASE I-ÉSIMA, ES DECIR, [pic].

- LA SUMA DE LAS K FRECUENCIAS RELATIVAS ES IGUAL A LA UNIDAD: F1 + F2 +…+ FK=1

- NOS PERMITEN COMPARAR LAS FRECUENCIAS DE LAS CATEGORÍAS EN CONJUNTOS DE DATOS CON DISTINTO NÚMERO DE OBSERVACIONES

● DISTRIBUCIÓN DE FRECUENCIAS: ES LA TABLA QUE PRESENTA LAS CATEGORÍAS DE UNA VARIABLE Y SUS RESPECTIVAS FRECUENCIAS.

- NOS INDICA CÓMO SE DISTRIBUYE LA FRECUENCIA TOTAL ENTRE LAS CATEGORÍAS

- ES EL RESUMEN MÁS IMPORTANTE DE LA INFORMACIÓN CONTENIDA EN UNA VARIABLE CUALITATIVA

EJEMPLO 1: NIVEL EDUCATIVO

SE HA CLASIFICADO A 20 INDIVIDUOS SEGÚN SU NIVEL DE ESTUDIOS QUE PUEDE TOMAR VALORES:

[pic]

Y SE HAN OBTENIDO LOS SIGUIENTES DATOS:

1. 1 4 3 3 3 2 2 4 2 2 1 4 2 3 2 3 4 2 3;

N=20; K=4

FRECUENCIAS ABSOLUTAS:

N1=3; N2=7; N3=6; N4=4 [pic]

FRECUENCIAS RELATIVAS:

[pic]

[pic]

DISTRIBUCIÓN DE FRECUENCIAS:

|CATEGORÍAS |NI |FI |

|SIN ESTUDIOS |3 |0,15 |

|PRIMARIA |7 |0,35 |

|MEDIA |6 |0,3 |

|SUPERIOR |4 |0,2 |

| |N=20 |1 |

LA CATEGORÍA MÁS FRECUENTE ES LA DE ESTUDIOS PRIMARIOS Y LA MENOS FRECUENTE LA DE SIN ESTUDIOS

REPRESENTACIÓN GRÁFICA DE LA DISTRIBUCIÓN DE FRECUENCIAS

A) DIAGRAMA DE BARRAS: PERMITE VISUALIZAR DE FORMA SENCILLA LA DISTRIBUCIÓN DE UNA VARIABLE CUALITATIVA. SE DIBUJA SOBRE CADA CATEGORÍA UNA BARRA (O RECTÁNGULO) CUYA ALTURA COINCIDA CON LA FRECUENCIA ABSOLUTA O RELATIVA DE DICHA CLASE.

EJEMPLO: NIVEL DE ESTUDIOS (CONTINUACIÓN EJEMPLO 1)

FRECUENCIAS RELATIVAS FI

[pic]

B) DIAGRAMA DE PARETO: ES COMO UN DIAGRAMA DE BARRAS EN EL QUE SE ORDENAN LAS CLASES DE MAYOR A MENOR FRECUENCIA (ABSOLUTA O RELATIVA). EN LA PARTE SUPERIOR DE LA FIGURA SUELE TRAZARSE UNA LÍNEA QUE REPRESENTA LA SUMA DE LA FRECUENCIA DE CADA CLASE Y LAS QUE LA PRECEDEN, ESTO SE USA PARA IDENTIFICAR LA MINORÍA DE LAS CARACTERÍSTICAS QUE REPRESENTAN LA MAYORÍA DE CASOS.

A PRINCIPIOS DEL SIGLO XX, VILFREDO PARETO (1848-1943), UN ECONOMISTA ITALIANO, REALIZÓ UN ESTUDIO SOBRE LA RIQUEZA Y LA POBREZA. DESCUBRIÓ QUE EL 20% DE LAS PERSONAS CONTROLABA EL 80% DE LA RIQUEZA EN ITALIA.

LA GRÁFICA DE PARETO ES UNA HERRAMIENTA SENCILLA PERO PODEROSA AL PERMITIR IDENTIFICAR VISUALMENTE EN UNA SOLA REVISIÓN LAS MINORÍAS DE CARACTERÍSTICAS VITALES A LAS QUE ES IMPORTANTE PRESTAR ATENCIÓN.

Algunos ejemplos de tales minorías vitales son: 

• La minoría de clientes que representan la mayoría de las ventas. 

• La minoría de productos, procesos, o características de la calidad causantes del grueso de desperdicio de los costos de retrabajos. 

Ejemplo: Nivel educativo (Continuación ejemplo 1)

FRECUENCIAS RELATIVAS FI (GRÁFICO DE PARETO)

[pic]

F2=0,35

F2+ F3=0,35+0,3=0,65

F2+ F3+ F4=0,35+0,3+0,2=0,85

F2+ F3+ F4+F1=0,35+0,3+0,2+0,15=1

UN 35 POR CIENTO DE LA POBLACIÓN LLEGA HASTA LA EDUCACIÓN PRIMARIA Y EL 65 POR CIENTO DE LA POBLACIÓN TIENE UN NIVEL EDUCATIVO PRIMARIO O MEDIA.

DIAGRAMA DE PARETO

[pic]

EN EL DIAGRAMA ANTERIOR SE OBSERVA QUE EL 65 POR CIENTO DE LA POBLACIÓN, TIENE UN NIVEL EDUCATIVO PRIMARIA O MEDIA.

C) PICTOGRAMA: ES UNA FORMA DE REPRESENTAR LAS CANTIDADES ESTADÍSTICAS POR MEDIO DE DIBUJOS, UTILIZANDO PARA ELLO OBJETOS Y FIGURAS. LAS FIGURAS EMPLEADAS DEBEN EXPLICARSE POR SÍ MISMAS.

EJEMPLO: NIVEL DE EDUCATIVO (CONTINUACIÓN).

a) DISTRIBUCIÓN DE FRECUENCIAS:

|CATEGORÍAS |NI |FI |

|SIN ESTUDIOS |3 |0,15 |

|PRIMARIO |7 |0,35 |

|MEDIO |6 |0,3 |

|SUPERIOR |4 |0,2 |

| |N=20 |1 |

b) Elaboración del Pictograma (Ejercicio para el estudiante)

EJEMPLO: VARIABLE SOCIOECONÓMICA (SOC): LA VARIABLE SOC DESCRIBE LA CATEGORÍA SOCIOECONÓMICA:

[pic]

LOS DATOS DE 75 HOGARES (O UNIDADES DE GASTO) SON:

3 7 3 5 3 5 1 5 7 5 5 3 3 5 1 1 3 2 2 3 1 3 7 5 3 3 3 5 5 5 7 7 5 1 4 2 1 7 3 4 3 3 3 5 3 3 6 6 7 2 7 1 3 3 2 5 3 7 2 2 7 5 2 2 7 6 1 5 3 5 3 3 3 4 3

a) OBTENER LAS FRECUENCIAS ABSOLUTAS DE CADA UNA DE LAS CATEGORÍAS.

N1=8 N2=9 N3=25 N4=3 N5=16

N6=3 N7=11

b) CALCULAR LAS FRECUENCIAS RELATIVAS Y MOSTRAR LA DISTRIBUCIÓN DE FRECUENCIAS

[pic] [pic]

[pic] [pic]

[pic] [pic]

[pic]

NÓTESE QUE:

[pic]

DISTRIBUCIÓN DE FRECUENCIAS:

| CATEGORÍA |NI |FI |

|TRABAJADORES AGRARIOS |8 |0,11 |

|EMPRESARIOS AGRARIOS |9 |0,12 |

|OBREROS |25 |0,33 |

|AUTÓNOMOS |3 |0,04 |

|CLASE MEDIA |16 |0,21 |

|CLASE ALTA |3 |0,04 |

|RETIRADOS |11 |0,15 |

| |N=75 |1 |

c) Construir el diagrama de Pareto

[pic]

F3=0,33; F3+F5=0,33+0,21=0,54

F3+F5+F7=0,33+0,21+0,15=0,69

F3+F5+F7+F2=0,33+0,21+0,15+0,12=0,81

F3+F5+F7+F2+F1=0,33+0,21+0,15+0,12+0,11=0,92

F3+F5+F7+F2+F1+F4=0,33+0,21+…+0,11+0,04=0,9

F3+F5+F7+F2+F1+F4+F6=0,33+0,21+…+0,04+0,04=1

El 33 por ciento de la población son obreros y el 54 por ciento de la población son obreros o clase media, y así sucesivamente.

Gráfico de sectores:

En el caso de variables cualitativas el diagrama circular se utiliza con mucha frecuencia. Consiste en representar sobre un círculo los diferentes atributos, mediante un sector circular de ángulo proporcional a la correspondiente frecuencia. El ángulo de cada sector circular se calcula multiplicando por 360º la frecuencia relativa.

Los gráficos de sectores, también conocidos como diagramas de "tartas o pastel", se divide un círculo en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. Si el número de categorías es excesivamente grande, la imagen proporcionada por el gráfico de sectores no es lo suficientemente clara y por lo tanto la situación ideal es cuando hay alrededor de cuatro categorías. En este caso se pueden apreciar con claridad dichos subgrupos.

Ejemplo.

La población según nivel de estudio del Municipio de Ayutuxtepeque se presenta en el siguiente cuadro:

|Parvularia |Primaria o básica|

| 0 |278290 |

|1 |509469 |

|2 |339180 |

|3 |177050 |

|4 |92233 |

|5 |50916 |

|6 |27791 |

|7 |15004 |

|8 |7328 |

|9+ |7366 |

Construir un gráfico de barras para el número de hijos varones de las mujeres salvadoreñas.

[pic]

Ejemplo.

La población según condición de ocupación del Municipio de Ayutuxtepeque se presenta en el siguiente cuadro:

|  |OCUPADOS |DESOCUPADOS |INACTIVOS |Total |

|ÁREA URBANA |10966 |2832 |8531 |22329 |

|EL ZAPOTE |329 |42 |477 |848 |

|LOS LLANITOS |2410 |227 |2550 |5187 |

| Total |13705 |3101 |11558 |28364 |

Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.

Elaborar un gráfico de barras para la población total de Ayutuxtepeque según su condición de ocupación.

[pic]

2.2. Distribución de frecuencias agrupadas.

Cuando en la muestra existen muchos valores diferentes y mucha variabilidad se recomienda, aún a costa de perder información, agrupar los datos en clases, en lo que se denomina distribución de frecuencias agrupada en intervalos.

| Clase |Marca |Frecuencias Absolutas |Frecuencias Relativas |

| |Clase |Simples |Acumuladas |Simples |Acumuladas |

|[pic] |[pic] |[pic] |[pic] |[pic] |[pic] |

|Total | |[pic] | |[pic] | |

A cada uno de los intervalos se les denomina clase y al punto medio marca de clase. A efectos de cálculo la marca de clase se elige como representante del intervalo. El número de clases en que se dividen los datos no debe ser excesivo. A modo orientativo, el número de clases se puede obtener mediante la siguiente fórmula empírica, llamada de Sturges:

[pic] (Tomar la parte entera)

Ejemplo. Población de El Salvador, por sexo y edad, año 2007..

|Edad |Hombre |Mujer |Total |

| |Femenino |

|Total |15 |

|Total |14 |228 |

|Total |16 |

|Total |20 |

|Total |10 |

|Ducados |1,107 |

|Fortuna |1,041 |

|Marlboro |535 |

|Winston (1) |333 |

|Lucky Strike (1) |164 |

|Chesterfiel |110 |

|Otros marcas |725 |

a. Calcular el porcentaje de ventas de cada marca sobre el total.

b. Representar los datos anteriores mediante un diagrama circular

1. Las edades de los empleados de una determinada empresa son las que aparecen en la siguiente tabla:

|Edad |N° de empleados |

|Menos de 25 |22 |

|Menos de 35 |70 |

|Menos de 45 |121 |

|Menos de 55 |157 |

|Menos de 65 |184 |

| | |

Sabiendo que el empleado más joven tiene 18 años, escríbase la distribución de frecuencias para datos agrupados (amplitud del intervalo definida según su conveniencia).

Capítulo 3. Medidas Características de una Distribución Cuantitativa Empírica.

3.1 Medidas de posición

Los promedios o medidas de posición proporcionan valores típicos o representativos de la variable en estudio. Podemos hablar de medidas de posición centrales, como la media (aritmética, geométrica y armónica), la mediana y la moda y medidas de posiciones no centrales, como los cuartiles, quintiles, deciles y percentiles.

La media aritmética es la medida de posición más utilizada (esta muy influenciada por los valores extremos de la variable). Viene definida como la suma de los datos divido por el número de ellos. Dependiendo de la naturaleza de los datos que pretendemos promediar, será conveniente el uso de otro tipo de medidas, como son la media geométrica (Todos los datos son positivos y hay mucha dispersión; ejemplo: porcentajes, tasas de crecimiento, razones, números índices, interés anual, inflación, etc.) y la media armónica (resulta poco influida por la existencia de determinados valores muy grandes que el conjunto de los otros, siendo en cambio sensible a valores muy pequeños), cuyas fórmulas se presentan en la siguiente tabla. Si a cada observación se le asigna un valor diferente, dado en forma de peso, y a continuación se calcula la media, nos encontramos con una media ponderada. La moda de un conjunto de valores es aquel valor que ocurre con más frecuencia. Si todos los valores son distintos, no hay moda, por otra parte, un conjunto de datos puede tener más de una moda.

Medidas de tendencia central

|Media aritmética |[pic] |

|Media geométrica |[pic] |

|Media armónica |[pic] |

3.1.1. Media aritmética.

Es la medida más conocida, la más fácil de calcular y con la que siempre estamos más familiarizados, ya que siempre hemos calculado el promedio de calificaciones obtenidas en cada periodo escolar (Ciclo, año, etc.) A veces se le denomina simplemente media o promedio, y es utilizada con tanta frecuencia, que en algunas ocasiones nos conduce a resultados que no revelan lo que se pretende presentar, ya que la distribución de los datos puede requerir de la aplicación de un promedio diferente a la media, ya sea, media geométrica o media armónica.

Le media es altamente sensible a cualquier cambio en los valores de la distribución. No es recomendable su uso cuando la variable está dada en forma de tasas o porcentajes. La media es representativa del conjunto de datos si se quiere promediar cantidades semejantes, que presentan variaciones dentro de un margen razonable.

Media Aritmética simple. Se define como el cociente que se obtiene al dividir la suma de los valores de la variable por el número total de observaciones. Su fórmula está dada por:

[pic]

Ejemplo. Supongamos que en un almacén tienen empleados a 12 vendedores, y sus ingresos mensuales son: $ 585, $ 521, $ 656, $ 465, $ 536, $ 487, $ 564, $ 490, $ 563, $ 1234, $ 469 y $ 547. Se pide determinar la media de los ingresos de los 12 vendedores.

Solución.

Ejemplo. Consideremos las utilidades y pérdidas de un almacén por departamentos, como se muestra en la siguiente tabla.

|Departamentos |2008 |2009 |

|Calzado |-10 |20 |

|Electrodomésticos |153 |58 |

|Juguetería |-40 |-20 |

|Ropa |130 |152 |

|Misceláneos |-13 |10 |

|Promedio |44 |44 |

OBSERVACIÓN. El promedio por departamento se mantiene de un año a otro, pero nos oculta los cambios que se han producido por departamentos donde ha habido un desplazamiento de los beneficios. Para superar estas deficiencias se requiere trabajar con la media ponderada.

Media aritmética ponderada

Cuando el número de observaciones es grande, las operaciones para calcular la media se simplifican si agrupamos los datos en una tabla de frecuencias. La fórmula matemática está dada por:

[pic]

Si los datos están agrupados en clase, no se conoce el valor de x, por lo tanto se toma el punto medio de cada clase en vez de x (marca de clase).

Propiedades de la media.

Dada la importancia de la media y su uso frecuente, conviene considerar algunas de sus propiedades:

1. La suma de las desviaciones respecto a la media es cero, esto es:

Para datos no agrupados:[pic]

Para datos agrupados: [pic]. La verificación de esta propiedad es inmediata.

2. La media aritmética de una constante es igual a la constante.

3. La media del producto de una constante por una variable, es igual a multiplicar a la constante por la media de la variable.

4. La media de una variable más (o menos) una constante será igual a la media de la variable, más (o menos) la constante, es decir, [pic]

5. La media aritmética de una muestra dividida en submuestras, es igual, a la media ponderada de las submuestras, tomando como ponderación los tamaños de las submuestras. Esto es, [pic]

Ejemplo: Un inversionista tiene 1,200 acciones de un precio inferior a $3,490 dólares siendo su valor promedio de $ 2,905; además, 800 acciones cuyo valor unitario es superior a $ 3,490 y su valor promedio de $ 4,275. Calcular el valor promedio de las 2,000 acciones.

Solución.

[pic]

En promedio el inversionista gasta $ 3,453 dólares en las 2000 acciones.

3.1.2. La media geométrica (Mg)

La media geométrica se define como la raíz n-ésima de la multiplicación de los n valores de la variable. Se utiliza cuando se quiere dar importancia a valores pequeños de la variable o cuando se desea obtener el promedio de valores que están dados en progresión geométrica.

En el campo industrial y comercial se utiliza para obtener promedios sobre el crecimiento o decrecimiento de una variable. Por ejemplo, un capital ahorrado a una tasa de interés compuesto, durante un periodo de tiempo.

La media geométrica se calcula utilizando la siguiente fórmula: [pic] donde los ni es el número de veces que se repite cada dato, en caso que los datos no se repitan los ni=1.La fórmula de la media geométrica tal como se ha presentado tiene el inconveniente de que tanto el producto de los xi como su raíz n-ésima, pueden ser un valor demasiado alto que dificulte las operaciones. Para obviar esta dificultad se transforma la ecuación anterior en:

[pic]. Es obvio que las dos ecuaciones son equivalentes, esta última ecuación es la más utilizada en el cálculo de la media geométrica.

Ejemplo (Media geométrica)

 

Las tasas de interés de tres bonos son 5%, 7% y 4%.

La media geométrica es: [pic]

La Mg da una cifra de ganancia más conservadora porque no tiene una ponderación alta para la tasa de 7%.

3.1.3. La media armónica (Ma)

Iniciamos diciendo que el inverso de la media armónica es igual a la media aritmética del inverso de los valores de la variable, esto es:

[pic]

Ejemplo: Se sabe que dos obreros A y B, se tardan 50 y 40 minutos respectivamente en reparar un par de zapatos. ¿Cuál es el tiempo requerido para reparar un par de zapatos?

Solución.

[pic], es el tiempo requerido para reparar un par de zapatos.

El mayor uso de la media armónica es para calcular la velocidad promedio. Recordemos que:

[pic], supongamos que se han recorrido k trayectos (distancias) a cierta velocidad cada trayecto, entonces la velocidad media vendrá dada por:

[pic]

Ejemplo. Supongamos que la distancia entre dos ciudades, A y B, es de 80 kilómetros y entre B y C de 120 kilómetros. Si un automovilista recorre de A a B a una velocidad de 100Km/h y de B a C a una velocidad de 80Km/h. ¿Cuál es la velocidad promedio?

Solución.

[pic]

3.1.4. La moda

La moda es una medida de posición, menos importante que los promedios y su uso es bastante limitado. Se utiliza en distribuciones cuando la variable o el atributo presentan una frecuencia demasiado grande con respecto a las demás.

La moda se define aquel valor de la variable o del atributo que presenta la mayor densidad, es decir, la mayor frecuencia.

Si se tiene un atributo o una variable con máxima frecuencia, la distribución es unimodal. Si hay dos valores en la variable con la misma frecuencia máxima, la distribución es bimodal. Si hay más de dos, la distribución es multimodal. Cuando ninguno de los valores que toma la variable se repite, no existe moda.

Datos agrupados.

Cuando la moda se aplica a una variable continua, se requiere que la amplitud de los intervalos sea constante. A se presenta una fórmula para obtener una aproximación del valor modal:

[pic]

3.1.5. La mediana.

La mediana de una distribución de frecuencia corresponde al valor, supuesto los datos ordenados de menor a mayor, que deja a ambos lados el mismo número de observaciones. Cuando calculamos la mediana en datos no agrupados, ordenamos las observaciones de menor a mayor o viceversa. En su cálculo se presentan dos casos:

a) Cuando el número de datos es impar: En este caso la mediana coincide con el dato central.

Ejemplo: Consideremos los salarios en dólares para 11 vendedores; 243, 320, 311, 254, 234, 261, 239, 310, 218, 267, 287. Calcular la mediana.

Solución:

Primero ordenar los datos de menor a mayor: 218, 234, 239, 243, 254, 261, 267, 287, 310, 311, 320

La posición donde se encuentra la mediana: (11+1)/2=6, la mediana se encuentra en la sexta posición y corresponde al valor de: Md=261.

b) Cuando los datos son pares: La mediana será el término medio de los dos valores centrales.

Ejemplo. Consideremos los salarios en dólares para 12 vendedores; los cuales se han presentado ordenados anteriormente 218, 234, 239, 243, 254, 261, 267, 287, 310, 311, 320 y 322:. Calcular la mediana.

Solución:

Para obtener la posición central se aplica la siguiente fórmula: [pic], entonces la mediana corresponde al promedio de los dos valores sombreados de amarillo, esto es:

Md=(261+267)/2=264.

Para el caso de distribuciones agrupadas en intervalos se utiliza una fórmula aproximada. Se comienza calculando el intervalo donde se encuentra la mediana, para lo cual se calculan las frecuencias acumuladas, y se escoge el primer intervalo cuya frecuencia acumulada sea igual o superior a n/2. A continuación se aplica la fórmula:

[pic]

3.1.5. Cuartiles, Deciles y Percentiles

Dados una serie de valores X1,X2,X3...Xn ordenados en forma creciente, los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales.

Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores de la sucesión (ordenada); el tercer cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los datos.

Para Datos No Agrupados

Si se tiene una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes fórmulas:

El primer cuartil:

• La posición del primer cuartil: 1*(n+1)/4

Para el tercer cuartil

• La posición del primer cuartil : 3*(n+1)/4

Quintiles

Se representan con la letra K. Su fórmula aproximada es i*n/5.

• El primer quintil. Separa a la muestra dejando al 20 % de los datos a su izquierda.

• El segundo quintil. Es el valor que indica que el 40 % de los datos son menores.

• El tercer quintil. Indica que el 60 % de los datos son menores que él.

• El cuarto quintil. Separa al 80 % de los datos inferiores del otro 20 %.

Deciles

• Se representan con la letra D. Son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados. Su fórmula aproximada es i*n/10.

• Es el decil i-ésimo, donde la i toma valores del 1 al 9. El (i*10) % de la muestra son valores menores que él y el 100-(i*10) % restante son mayores.

Percentiles

• Se representan con la letra C. Su fórmula aproximada es i*n/100.

• Es el percentil i-ésimo, donde la i toma valores del 1 al 99. El i % de la muestra son valores menores que él y el 100-i % restante son mayores.

Para Datos Agrupados

Cuando los datos no están agrupados en intervalos los cuartiles, así como el resto de las medidas de posición, tienen un valor claro, tal como se ha descrito anteriormente. Sin embargo, cuando tenemos una agrupación de los datos ya no es tan sencillo realizar el cálculo. Sí que resulta claro ver en cuál de los intervalos está el cuartil (quintil, decil o percentil) buscado, pero para calcular su valor aproximado necesitaremos usar una fórmula. El cálculo es similar al de la mediana, hay que empezar calculando el intervalo cuya frecuencia acumulada sea igual o mayor que el valor jn/k, para a continuación aplicar la fórmula:

[pic]

donde k = 4 (j = 1, 2, 3) para los cuartiles, k = 10 (j = 1, 2, . . . , 9) para los deciles, k=100 (j= 1, 2, . . . , 99) para los percentiles.

3.2 Medidas de Dispersión

Las medidas de dispersión estudian la separación existente entre los diversos valores que toma la variable. Se dividen en medidas de dispersión absoluta y relativa. Las absolutas suelen hacer referencia a un promedio, y permiten estudiar su representatividad. Este tipo de medidas depende de las unidades, lo que es un inconveniente para realizar comparaciones entre poblaciones. En este sentido, las medidas de dispersión relativas no dependen de las unidades y permiten comparar variabilidad entre poblaciones.

El rango estadístico, también llamado amplitud o recorrido, es la diferencia entre el valor máximo y el valor mínimo en un grupo de números. Para averiguar el rango de un grupo de números:

• Ordenamos los números según su tamaño.

• Restamos el valor mínimo del valor máximo.

Con el objeto de que no exista dependencia de los valores extremos, se introduce el recorrido intercuartílico, que es la semidiferencia entre el tercer y el primer cuartil:

[pic]

Se define también la desviación absoluta media como la media de los valores absolutos de las diferencias de los datos a la media, es decir:

[pic]

Varianza, desviación típica y coeficiente de variación

La varianza es una medida de dispersión que sirve para estudiar la representatividad de la media. Viene definida como la media de las diferencias cuadráticas de las puntuaciones respecto a su media aritmética:

[pic]

Una varianza “grande” es indicativa de que la media no es representativa, mientras que una varianza “pequeña” indica que la media es un buen representante de los datos. Con el objeto de tener una medida de dispersión similar a la varianza, pero que venga medida en las mismas unidades de la variable, se define la desviación típica como la raíz cuadrada positiva de la varianza:

[pic]

La relación entre la varianza de una variable X y la de una nueva variable definida como a+bX es:

[pic]

Por lo tanto, si a los datos de la distribución les sumamos una cantidad constante la varianza no se modifica y si multiplicamos por una constante, la varianza queda multiplicada por el cuadrado de esa constante.

En ocasiones puede interesar comparar la dispersión de dos muestras y la desviación típica no ser válida, si las dos muestras tienen unidades diferentes. Para obviar este inconveniente se define el coeficiente de variación:

[pic]

Que no depende de cambios de escala en la variable.

3.3 Medidas de forma

Este tipo de medidas permite conocer la forma de la distribución sin necesidad de recurrir a su representación gráfica. Existen dos tipos de medidas de forma: Asimetría y curtosis. Para clasificar la distribución según estas medidas, se establece en ambos casos una tipología de distribuciones. Una variable se dice que es simétrica si al “doblar” la distribución respecto a un eje (centro de simetría), las frecuencias coinciden. Caso contrario se dice que la distribución es asimétrica positiva o negativa, dependiendo que la rama larga de la distribución se encuentra en el sentido positivo o negativo del eje de las x. La medida más popular de asimetría es el coeficiente de asimetría de Fisher, que viene dado por:

[pic]

Este coeficiente es invariante frente a cambios de origen y de escala.

Cuya interpretación es:

• Si g1 = 0, la distribución es simétrica.

• Si g1 > 0, la distribución es asimétrica positiva

• Si g1 < 0, la distribución es asimétrica negativa.

El coeficiente de curtosis trata de estudiar la concentración de frecuencias en la zona central de la variable, de modo que variables con curtosis alta (leptocúrticas) tienen forma alargada y variables con curtosis baja tienen forma aplanada (platicúrticas). La comparación se realiza respecto a una distribución “moderada” como es la distribución normal (mesocúrtica). El coeficiente de curtosis viene dado por:

[pic]

Que se interpreta del siguiente modo:

Si g2 = 0, la distribución es mesocúrtica o normal.

Si g2 > 0, la distribución es leptocúrtica o por encima de lo normal.

Si g2 < 0, la distribución es platicúrtica o por debajo de la normal.

Al igual que el coeficiente de asimetría de Fisher, el coeficiente de curtosis es invariante frente a cambios de origen y de escala.

3.4. Guía de Ejercicios N° 3.

Medidas características de una distribución cuantitativa empírica

1) ¿Por qué no se aplica la media geométrica cuando uno de los valores es cero? Si la fórmula es [pic].

2) De un grupo de 100 obreros en una fábrica, 40 trabajan en el día y 60 en la noche. Se sabe que el salario promedio anual de los 100 obreros es de $8,700 dólares y que los del turno de día reciben en promedio $800 dólares menos que los trabajadores nocturnos. ¿Cuál es el salario promedio anual en cada grupo?

3) En un supermercado trabajan 35 mujeres, con un salario promedio mensual de $650 dólares y 15 hombres, en promedio ganan un 12% más que las mujeres ¿Cuál es el salario promedio de los empleados del supermercado?

4) Durante un mes se construyeron 134 Km de carretera en la siguiente forma: 3.6% del total en la primera semana; 15.3% del total en la segunda semana; 7.6% en la tercera semana; 24.5% en la cuarta semana y en la última semana el 49%. La construcción promedio por día en cada semana fue de: 0.9Km/d, 3.4Km/d, 1.7Km/d, 5Km/d y 10Km/d, respectivamente. Hallar la medida de tendencia central que mejor represente el promedio de esta distribución.

5) La media aritmética de tres números es 7, su mediana es 6 y su media geométrica es [pic]. Con los tres números calcular la media armónica.

6) Se sabe que la media aritmética de dos números es 5 y la media geométrica es 4. ¿Cuál es la media armónica?

7) Una persona viaja 4 días. Diariamente recorre 200 Km, pero maneja el primero y el último día a 50Km/h, el segundo a 55Km/h y el tercer día a 70Km/h. ¿Cuál es la velocidad media durante el viaje?

8) Las ciudades A, B y C son equidistantes entre sí. Un automovilista viaja de A a B a 30 Km/h de B a C a 40 Km/h y de C a A a 50 Km/h. Determine el promedio de velocidad para el viaje completo.

9) Un fabricante dispone $600,000 anuales para la compra de materia prima. Durante tres años invierte la misma cantidad de dinero. Si el precio promedio por Kg ha aumentado en los últimos tres años sucesivos de $2,200 a $2,800 y luego a $4,600, ¿Cuál es el precio promedio que ha pagado el fabricante en los tres años?

10) El 1 de mayo de 2002 se ahorraron $ 50,000 en un banco al 7.6% de interés anual, capitalizados semestralmente. Obtener la cantidad media depositada en la cuenta, entre el 1 de mayo de 2002 y el 31 de octubre de 2006, suponga que no se hicieron retiros durante el periodo.

11) Tres amas de casa fueron a comprar a tres mercados diferentes. Cada una gastó $ 10 dólares en la compra de naranjas. La ama de casa A compró 4 docenas de naranjas; B compró 6 docenas y C compró 3 docenas. ¿Cuál es el precio promedio por docena?

12) El siguiente cuadro muestra la distribución de la renta anual (en miles de dólares) en que incurren 50 viviendas:

|Marca de Clase |18.85 |21.55 |24.25 |26.95 |29.65 |32.35 |35.05 |

|N° de Viviendas |3 |2 |7 |7 |11 |11 |9 |

a) Halle e interprete según el enunciado

i) Media, mediana y moda.

ii) Desviación estándar y coeficiente de variabilidad.

b) Estime el porcentaje de viviendas con rentas superiores o iguales a 26,000 dólares pero menores que 32, dólares.

c) Si las rentas menores que 28,300 dólares se incrementaron en 2,500 dólares y las rentas mayores o iguales que 28,300 dólares se redujeron en un 30%. Calcule la nueva renta promedio.

13) Una compañía requiere los servicios de un técnico especializado. De los expedientes presentados, se han seleccionado 2 candidatos: A y B, los cuales reúnen los requisitos mínimos requeridos. Para decidir cuál de los 2 se va a contratar, los miembros del Jurado deciden tomar 7 pruebas a cada uno de ellos. Los resultados se dan a continuación:

| |Pruebas |

| |1 |2 |3 |4 |5 |6 |7 |

|Puntaje obtenido por A |57 |55 |54 |52 |62 |55 |59 |

|Puntaje obtenido por B |80 |40 |62 |72 |46 |80 |40 |

a) Halle e interprete la media, mediana y moda de los dos candidatos.

b) Estadísticamente ¿Cuál de los candidatos debe ser contratado? Fundamente su respuesta.

14) Se toman las medidas de 80 personas las que tienen estatura media de 1.70 m y desviación estándar de 3.4 cm. Posteriormente se verificó que la media usada tenía 4 cm de menos.

Rectifique los estadígrafos (estadísticos) mencionados.

15) Una asistencia social desea saber cuál es el índice de natalidad en 2 municipios de San Salvador para ello encuestó a 10 familias de cada municipio obteniendo los siguientes resultados

|A |0 |

|0 |13 |

|1 |20 |

|2 |25 |

|3 |20 |

|4 |11 |

|5 |7 |

|6 |4 |

Se pide:

a) Calcular el número medio de hijos, la mediana y la moda.

b) Calcular los cuartiles y el decil 7.

c) Analizar la dispersión de la distribución, interpretando los resultados.

d) Analizar la forma de la distribución calculando los coeficientes correspondientes. Comente los resultados.

16) La siguiente distribución expresa el número de vehículos vendidos durante un mes por cada uno de las 50 sucursales que una determinada firma tiene en El Salvador:

|xi: número de |ni: número |

|vehículos vendidos |Sucursales |

|1 |5 |

|3 |12 |

|4 |20 |

|6 |8 |

|10 |5 |

Se pide:

a) Media aritmética, mediana y moda. ¿Qué puede decir de la asimetría de la distribución con estos datos?

b) Desviación típica, Coeficientes de asimetría de Fisher y curtosis. Comente los resultados.

17) La siguiente tabla recoge la cifra de ventas (en miles de millones) y el número de empleados (en miles) de las diez mayores empresas del sector de automóvil durante el año 1989:

|Empresa |Ventas |Plantilla |

|SEAT |457.3 |23.8 |

|Fasa Renault |449.7 |19.2 |

|General Motors |372.7 |9.4 |

|Ford |356.1 |9.5 |

|Citroen |224.6 |7.6 |

|Peugeot |198.0 |6.7 |

|Nissan |161.1 |6.6 |

|Mercedes Benz |110.7 |3.4 |

|ENASA |97.3 |5.5 |

a) Calcular las ventas medias y el número medio de empleados.

b) ¿Dónde existe mayor homogeneidad, en las ventas o en la plantilla?

c) Calcular las ventas medias por empleado.

18) Una empresa dedicada al cultivo y explotación de naranjos posee 5 fincas. La producción de naranjas y el rendimiento medio por hectárea para cada una de las fincas están dados en la siguiente tabla. Calcular el rendimiento medio por hectárea para el total de las 5 fincas.

| |Producción (Tm) |Rendimiento (Tm/Ha) |

|Finca 1 |15 |9 |

|Finca 2 |5 |2 |

|Finca 3 |20 |10 |

|Finca 4 |8 |4 |

|Finca 5 |30 |20 |

Solución.

El rendimiento medio por hectárea en el total de la fincas vendrá dado por el cociente entre el total de la producción y el total de hectáreas. Esta última cantidad la podemos calcular como cociente producción/rendimiento en cada finca:

[pic]= 8.07 Tm/hectárea.

Observe que la fórmula aplicada coincide con la media armónica de los rendimientos ponderados por la producción de cada fila.

19) La primera etapa de un rally consta de 4 tramos cronometrados. En cada uno de los 4 tramos, un determinado piloto ha alcanzado las siguientes velocidades medias:

| |Distancia (km) |Velocidad media (km/h) |

|Tramo 1 |20 |120 |

|Tramo 2 |10 |70 |

|Tramo 3 |15 |80 |

|Tramo 4 |30 |90 |

Calcular la velocidad media total alcanzada por el piloto en la primera etapa del rally.

Solución.

La velocidad media total vendrá dada por el cociente entre el total de la distancia y el tota del tiempo:

[pic]= 90.32 Km/hora.

Observe que la fórmula aplicada vuelve a ser la media armónica, de las velocidades ponderadas por la distancia de cada tramo.

20) Se tienen tres ciudades A, B y C. La distancia que hay de B a C es el triple de la distancia de A a B; y la distancia de C a A es el doble de la distancia de B a C. Un automovilista viaja de A a B a 70 Km/h de B a C a 75 Km/h y de C a A 85 Km/h. Determine el promedio de velocidad para el viaje completo.

21) En la asignatura de Matemática Básica se obtuvo una nota media de 4 puntos y desviación estándar 1.8. Se añaden 20 nuevos datos, todos iguales a 4 puntos.

a) Calcular la media total

b) Verificar que la varianza total está dada por: [pic], donde [pic]es el número de alumnos del primer grupo y [pic]representa la varianza del primer grupo de alumnos.

22) Supongamos que se tienen dos variables aleatorias X, Y de las que se conocen los siguientes datos muestrales: [pic]y n tamaño de la muestra (k y b son constantes positivas). Calcular:

a) La media y la desviación estándar de Y

b) Comparar el coeficiente de asimetría de ambas variables

SOLUCIÓN: GUIA DE EJERCICIOS N° 3

Medidas características de una distribución cuantitativa empírica.

1. ¿Por qué no se aplica la media geométrica cuando uno de los valores es cero? Si la fórmula es G = ([pic]

Respuesta: porque si uno de los valores es cero, la multiplicación de todos ellos dará cero y la media geométrica será cero, que no representa el valor de la media geométrica, entonces no tiene sentido aplicar la fórmula de la media geométrica.

2. De un grupo de 100 obreros en una fábrica, 40 trabajan en el día y 60 en la noche. Se sabe que el salario promedio anual de los 100 obreros es de $ 8700 y que los del turno del día reciben en promedio $800 menos que los trabajadores nocturnos. ¿Cuál es el salario promedio anual en cada grupo?

✓ Solución

Datos:

n= 100= [pic]

[pic]=60, trabajadores de noche.

[pic]= 8,700

Como tenemos que los trabajadores del turno de día reciben en promedio $800 dólares menos que los de la noche

Entonces [pic] = [pic]…Ecu. 1

Luego utilizando la fórmula de la media ponderada

[pic] , luego sustituyendo tenemos

[pic] [pic]

870,000= 100 [pic] - 32,000

902,000=100[pic]

[pic]=[pic]

9,020= [pic], salario promedio en el grupo dos

Sustituyendo [pic] en Ecu.1 tenemos

[pic] = [pic]

[pic]= 8220, salario promedio en el grupo uno.

3. En un supermercado trabajan 35 mujeres, con un salario promedio mensual de $ 650 dólares y 15 hombres en promedio ganan un 12% más que las mujeres ¿cuál es el salario promedio de los empleados del supermercado?

✓ Solución

Datos

[pic]= 35 [pic]

[pic]=15 [pic]

Ahora como tenemos dos grupos utilizamos la media ponderada

[pic], sustituyendo

[pic]

[pic]

[pic] Salario promedio de los empleados del supermercado.

4. Durante un mes se construyeron 134 Km de carretera en la siguiente forma: 3.6% del total en la primera semana; 15.3% del total en la segunda semana; 7.6% en la tercera semana; 24.5% en la cuarta semana y en la última semana el 49%. La construcción promedio por día en cada semana fue de: 0.9Km/d, 3.4Km/d, 1.7Km/d, 5Km/d y 10Km/d, respectivamente. Hallar la medida de tendencia central que mejor represente el promedio de esta distribución.

✓ Solución

La medida de tendencia central que mejor representa el promedio de esta distribución es la media armónica.

Construimos la siguiente tabla.

|semanas |Construcción(km) |Construcción promedio(km/d) |

|1ª |4.82 |0.9 |

|2ª |20.50 |3.4 |

|3ª |10.18 |1.7 |

|4ª |32.83 |5 |

|5ª |65.66 |10 |

Ma= [pic]

Ma=[pic] = 4.39km/d

5. La media aritmética de tres números es 7, su mediana es 6, y su media geométrica es [pic]. Con los tres números calcular la media armónica.

✓ Solución

Sean: [pic] los tres números.

Datos:

[pic]= 7

Md=6

Mg=[pic]

n=3

Como la mediana es el valor central entonces

Md= [pic]

6=[pic]

Entonces los números son x1= 3, X2=6 y X3=12

Luego encontrar la media armónica de los tres números

[pic]

[pic]= 9.25

6. Se sabe que la media aritmética de dos números es 5 y la geométrica es 4. ¿cuál es la media armónica?

✓ Solución

Sean: [pic]los dos números.

Datos:

[pic]= 5 Mg=4 n=2

La media aritmética

[pic]

[pic], Ecu. 1

Ahora utilicemos la media geométrica

[pic]

[pic]

4=[pic], sustituyendo [pic]

16=[pic]

[pic]+16=0

([pic]

[pic] [pic]

Sustituyendo [pic] en Ecu 1

[pic]

[pic]

Sustituyendo [pic] en Ecu 1

[pic]

[pic]

Los números son 8 y 2

Luego encontrar la media armónica de los dos números

[pic]

[pic]= 3.2

7. Una persona viaja 4 días. Diariamente recorre 200km, pero maneja el primero y el ultimo día a 50km/h. ¿cuál es la velocidad media durante el viaje?

✓ Solución

Construimos la siguiente tabla

|días |Distancia(km) |Velocidad media (km/h) |

|1 |200 |50 |

|2 |200 |55 |

|3 |200 |70 |

|4 |200 |50 |

Para calcular la velocidad media utilizamos la media armónica

Ma=[pic]= 55.19

8. Las ciudades A, B y C son equidistantes entre sí. Un automovilista viaja de A a B a 30km/h, de B a C a 40km/h y de C a A a 50km/h. Determinar el promedio de velocidad para el viaje completo.

✓ Solución

Utilizamos la media armónica, porque con ella encontramos la velocidad media, y como nos dice que las ciudades son equidistantes, entonces tenemos

Ma= [pic]= [pic]=[pic]= 38.29

9. Un fabricante dispone $600,000 anuales para la compra de materia prima. Durante tres años invierte la misma cantidad de dinero. Si el precio promedio por kg ha aumentado en los últimos tres años sucesivamente de $2,200 a $2,280 y luego a $4,600. ¿Cuál es el precio promedio que ha pagado el fabricante en los tres años?

✓ Solución

Utilizar la media geométrica

Mg=[pic]

Sustituyendo los valores tenemos

Mg=[pic]=3,048.69

10. El primero de mayo de 2002 se ahorraron $50,00 en un banco al 7.6% del interés anual, capitalizado semestralmente. Obtener la cantidad media depositada en la cuenta, entre el primero de mayo de 2002 y el 31 de octubre de 2006, suponga que no se hicieron retiros durante el periodo.

✓ Solución

Como el problema se refiere a interés se utiliza la media geométrica

Mg=[pic]

Construir la siguiente tabla

|Semestres |año |capital |Ln |

|1/05-31/10 |2,002 |50,000 |10.82 |

|1/11-31/05 |2,002 |51,900 |10.85 |

|1/05-31/10 |2,003 |53,872.2 |10.89 |

|1/11-31/05 |2,003 |55,919.34 |10.93 |

|1/05-31/10 |2,004 |58,044.27 |10.97 |

|1/11-31/05 |2,004 |60,249.95 |11.01 |

|1/05-31/10 |2,005 |62,539.44 |11.04 |

|1/11-31/05 |2,005 |64,915.94 |11.08 |

|1/05-31/10 |2,005 |67,382.74 |11.12 |

|Total |98.71 |

Luego sustituir los datos en Mg=[pic], tenemos

Mg=[pic] =29.81

11. Tres amas de casa fueron a comprar a tres mercados diferentes. Cada una gasto $10 dólares en la compra de naranjas. La ama de casa A compro 4 docenas de naranjas, la ama de casa B compro 6 docenas de naranjas y la ama de casa C, compro 3 docenas de naranjas. ¿Cuál es el precio promedio por docena?

✓ Solución

A=[pic] B=[pic] C=[pic]=3.3

Luego utilizamos la media armónica

[pic], sustituyendo los datos tenemos

[pic] =2.27, precio promedio por docena

12. el siguiente cuadro muestra la distribución de renta anual (en miles de dólares) en que incurren 50 viviendas.

|Marca de clase |18.85 |21.55 |24.25 |26.95 |29.65 |32.35 |35.05 |

|N° de viviendas |3 |2 |7 |7 |11 |11 |9 |

A) Halle e intérprete según el enunciado

i) media, mediana y moda

Para encontrarlas necesito construir la tabla de frecuencias.

Para encontrar la clase utilizo

[pic]= 21.55-18.85=2.7

Entonces tenemos que las amplitudes de las clases son 2.7

Luego construimos la tabla de frecuencias agrupadas

|Clases |[pic] |[pic] |[pic] |

|17.5-

|n |Horas (X) |Número de células (Y) |Ln (Y) |

|1 |2 |19 |2.944439 |

|2 |4 |37 |3.610918 |

|3 |6 |72 |4.276666 |

|4 |8 |142 |4.955827 |

|5 |10 |295 |5.686975 |

|6 |12 |584 |6.369901 |

|7 |14 |995 |6.902743 |

Seguidamente se verifica por medio de un gráfico de dispersión si la transformación es adecuada

RUTA:Graphs>Legacy Dialogs>Simple Scatter>Define (Y: LOGNATURAL;X: Horas>

[pic]

Como se esperaba, hoy los datos se ajustan a una línea recta. El proceso manual para obtener la ecuación de predicción es el mismo que el de regresión simple. En SPSS se obtiene siguiendo la RUTA: Analyze>Regression> Linear (Dependent: LOGNATURAL, Independent: Horas>Ok

|ANOVAb |

|Model |Sum of Squares|Df |Mean Square |F |

|b. Dependent Variable: LOGNATURAL | | | |

| | | | |

|Coefficientsa |

|Model |

|R |R Square |Adjusted R Square |Std. Error of the |

| | | |Estimate |

|.999 |.999 |.999 |.051 |

|The independent variable is Horas. |

| |

|ANOVA |

| |Sum of Squares |df |Mean Square |

|Coefficients |

| |Unstandardized Coefficients |Standardized |t |Sig. |

| | |Coefficients | | |

| |B |Std. Error |

[pic]

4.7. Ejercicios.

1. Determine una ecuación que describa la relación entre la frecuencia de accidentes y el nivel de educación preventiva

|X |Y |XY |X2 |

|150 |8.00 |1200 |22500 |

|200 |7.00 |1400 |40000 |

|300 |6.50 |1950 |90000 |

|450 |5.20 |2340 |202500 |

|500 |6.40 |3200 |250000 |

|600 |4.40 |2640 |360000 |

|800 |4.00 |3200 |640000 |

|900 |3.10 |2790 |810000 |

|3900 |44.60 |18720 |2415000 |

2. Una compañía que tiene 15 tiendas ha recopilado datos en relación con los metros cuadrados de área de ventas respecto a los ingresos mensuales. Trace una gráfica de los datos, y si parece apropiado un modelo lineal determine la ecuación de regresión.

|Tienda |Metros 2 |Ingreso | | |

|  |X |Y |XY |X2 |

|a |55 |45 |2475 |3025 |

|o |80 |60 |4800 |6400 |

|j |85 |75 |6375 |7225 |

|e |90 |75 |6750 |8100 |

|k |90 |80 |7200 |8100 |

|d |110 |95 |10450 |12100 |

|n |130 |95 |12350 |16900 |

|g |140 |110 |15400 |19600 |

|c |180 |120 |21600 |32400 |

|l |180 |105 |18900 |32400 |

|b |200 |115 |23000 |40000 |

|i |200 |130 |26000 |40000 |

|h |215 |140 |30100 |46225 |

|f |260 |170 |44200 |67600 |

|m |300 |200 |60000 |90000 |

|15 |2315 |1615 |289600 |430075 |

| | | | | |

3. Determine una ecuación predictiva para calcular el monto del seguro, en función del ingreso anual para los siguientes datos:

|Ingreso |Prima | | |

|X |Y |XY |X2 |

|13 |5 |65 |169 |

|16 |15 |240 |256 |

|17 |20 |340 |289 |

|18 |10 |180 |324 |

|20 |10 |200 |400 |

|25 |12 |300 |625 |

|26 |15 |390 |676 |

|32 |30 |960 |1024 |

|38 |40 |1520 |1444 |

|40 |50 |2000 |1600 |

|42 |40 |1680 |1764 |

|287 |247 |7875 |8571 |

4. De una distribución de dos variables se conocen los siguientes datos:

r = 0.9; Sx = 1.2; Sy = 2.1; [pic]. A partir de los mismos, obténganse las rectas de regresión mínimo cuadráticas de X sobre Y y de Y sobre X. (30%)

5. Para un mismo grupo de observaciones de las variables X e Y, se han obtenido las dos rectas de regresión siguientes:

3x + 2y = 26

6x + 2y = 32

a) Obtener las medias de X e Y.

b) Obtener el coeficiente de correlación lineal.

6. En una distribución bidimensional [pic]se sabe que: Los valores de la variable X son (1, 2, 3, 4 y 5); la recta de regresión de Y sobre X [pic] y el coeficiente de correlación lineal (r=0.8). Hallar:

a) La media y la varianza de X

b) Los valores estimados de [pic] de la recta de regresión de Y sobre X.

c) La covarianza

d) La media y la varianza de Y.

7. En un estudio donde se investigó la relación que existe entre la temperatura de la superficie de una carretera (X, medida en grados Fahrenheit) y la deformación del pavimento (Y). El resumen de cantidades es la siguiente: n=20, [pic], [pic].

a) Calcular las estimaciones de mínimos cuadrados de la pendiente y la ordenada al origen.

b) ¿Qué cambio se espera en la deformación del pavimento cuando la temperatura de la superficie cambia 1°F?

c) Suponga que la temperatura se mide en grados centígrados (°C), en lugar de °F. Escriba el nuevo modelo de regresión. (Recuerde que °F= (9/5) °C+32).

8. A partir de un conjunto de valores de las variables X e Y, se ha determinado la regresión de Y sobre X, obteniéndose la siguiente recta: [pic], r=0.95; [pic]

Se pide que, a partir de la definición de la anterior recta, determine los

parámetros de la recta de regresión de X sobre Y.

Capítulo 5. Los Valores Relativos

5.1. Razones, Proporciones, Porcentajes y Tasas.

Razón: Es una fracción donde el valor considerado en el numerador no debe estar incluida en el denominador, en consecuencia la razón puede ser un número superior o inferior a la unidad.

Ejemplo: Supongamos que el número de personas que visitan un centro comercial, en un día cualquiera es 7,000, de las cuales 4,200 son mujeres y 2,800 son hombres. Obtener la razón de mujeres respecto a los hombres.

Solución:

La razón o relación = 4200/2800 = 1.5, indica que las mujeres frecuentan ese centro comercial en un 50% más que los hombres.

Proporciones:

Las proporciones se hacen para dar cuenta de la fracción que representa cada uno de los subconjuntos que componen el conjunto total. Por ejemplo, los subconjuntos formados por niños, jóvenes, adultos, y ancianos si, respectivamente, los comparamos con la totalidad del conjunto daremos cuenta de la proporción respectiva de cada uno de los subconjuntos. Si en una localidad viven 2,000 niños, 3,000 jóvenes, 1,000 adultos y 300 ancianos, la totalidad de la población sumarían 6,300 habitantes, y las proporciones de niños sería 0.31, de jóvenes 0.47, de adultos 0.15 y de ancianos 0.04.

Ejemplo: La población del municipio de Soyapango distribuida por rango de edades se presenta en el siguiente cuadro.

|Rango de edades |Sexo |Total |

| |Hombre |Mujer | |

|Edad de 0 a 10 años |25,097 |23,858 |48,955 |

|Edad de 11 a 15 años |12,849 |12,490 |25,339 |

|Edad de 16 a 20 años |11,384 |11,810 |23,194 |

|Edad de 21 a 30 años |19,587 |23,372 |42,959 |

|Edad de 31 a 45 años |21,264 |28,725 |49,989 |

|Edad de 46 a 65 años |16,219 |21,645 |37,864 |

|Edad de 66 años ó más |4,834 |8,269 |13,103 |

|Total |111,234 |130,169 |241,403 |

Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.

Obtener la proporción que representa cada grupo de edades.

NOTA: Cuando el valor del numerador está incluido en el denominador se establece una proporción.

Porcentajes:

Los porcentajes se hacen para expresar las proporciones en base 100. En el ejemplo anterior, los niños representan el 31%, los jóvenes el 47%, los adultos el 15% y los ancianos 4%.

Ejemplo: En el censo de población de El Salvador, 2007, se encuentra que en el Municipio de Mejicanos, tiene los siguientes sobre la condición laboral, para la población mayor de 10 años.

|NOMBRE DEL LUGAR |CONDICION LABORAL |  |

|  | |Total |

| |Población ocupada |Población que busca trabajo |Inactivos | |

|Zona Urbana |54295 |5894 |46288 |106477 |

|CANTÓN CHANCALA |286 |52 |335 |673 |

|CANTÓN SAN MIGUEL |467 |32 |478 |977 |

|CANTÓN SAN ROQUE |3739 |494 |3991 |8224 |

| Total |58787 |6472 |51092 |116351 |

Obtener la proporción de la población según condición de laboral por cantón y municipio.

Tasas:

Las tasas se hacen cuando el conjunto se fracciona en dos subconjuntos y se quiere dar cuenta de la parte que representa uno de los subconjuntos sobre el total del conjunto. Esta representación se suele expresar en base 100, pero se pude hacer en base 10, 1000, etc. Por ejemplo, si el conjunto de la población activa se divide en dos subconjuntos denominados desempleados y ocupados, la tasa de desempleo sería el resultado de multiplicar por cien el número resultante de dividir el número de desempleados por el total de activos (ocupados y desocupados). Si de las 4,000 personas activas que hay en una localidad, 3,600 están ocupadas y 400 están desempleadas, la tasa de desempleo sería (400/ 4,000) X 100= 10%.

Ejemplo: En el censo de población de El Salvador, 2007, se encuentra que en el Municipio de Mejicanos, tiene los siguientes datos de analfabetismo, para la población mayor de 5 años.

|LUGARES |Sabe leer y escribir |  |

|  |  |Total |

| |Si |No | |

|Zona Urbana |109205 |8872 |118077 |

|CANTÓN CHANCALA |672 |123 |795 |

|CANTÓN SAN MIGUEL |916 |221 |1137 |

|CANTÓN SAN ROQUE |8027 |1343 |9370 |

| Total |118820 |10559 |129379 |

Obtener la tasa de analfabetismo por cantón y municipio.

Ejercicio.

La población de 15 años o más según su condición de analfabetismo se presenta en el siguiente cuadro.

|Sexo |Sabe leer y escribir |Total |

| |Si |No | |

|Soyapango |161,155 |10,801 |171,956 |

|Ilopango |66,240 |5,420 |71,660 |

|San Martín |43,033 |5,376 |48,409 |

Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007

Obtener las tasas de analfabetismo de cada municipio y hacer un análisis comparativo de los resultados.

5.2. Diferencia Relativa

La diferencia relativa se calcula como el cociente entre la diferencia de dos cantidades, precio absoluto y la cantidad, precio o valor del periodo de referencia. Supongamos que [pic] es una magnitud simple, representamos por [pic]el valor de la magnitud en el periodo base y por [pic]el valor de la magnitud en el periodo que queremos estudiar entonces:

La diferencia relativa está dada por: [pic]

Ejemplo:

El siguiente cuadro presenta el número de homicidios para los años 2004, 2005, 2006, 2007 y 2008, para los municipios de Soyapango, Ilopango y San Martín.

|Grupos de |SOYAPANGO |ILOPANGO |SAN MARTÍN |

|edades | | | |

| |Femenino |

|Total |15 |

|Total |14 |228 |

|Total |16 |

|Total |20 |

|Total |10 |128 |138 |

|años |yi |Índice 2001=100 |% de Variación |Índice 2004=100 |% de Variación |Índice Variable |% de Variación |

|2001 |20 |100 |0 |50 |-50 |100 |0 |

|2002 |28 |140 |40 |70 |-30 |140 |40 |

|2003 |24 |120 |20 |60 |-40 |85.71 |-14.29 |

|2004 |40 |200 |100 |100 |0 |166.66 |66.66 |

|2005 |48 |240 |140 |120 |20 |120 |20 |

|2006 |70 |350 |250 |175 |75 |145.83 |45.83 |

Observe que tomando de base el año 2001, en el 2004 se tuvo un aumento del 100% y en el 2006 se tuvo un aumento de precios del 250% con respecto al año 2001; si tomamos de base el año 2004, en el 2006 se tuvo un aumento del 75%. Finalmente, si tomamos Base Variable en el año 2006 hubo un aumento del 45.83% con respecto al año 2005.

EJERCICIO DE APLICACIÓN. En enero de 2006 una fábrica pagó un total de $ 99,200,000.00 a 120 empleados en nómina. En julio del mismo año, la fábrica tuvo 30 empleados más en nómina y pagó $ 30,000,000 más que en enero. Tomando el mes de enero como base, hallar e interpretar:

a) El índice de empleo (NIE)

b) El índice del costo de mano de obra (ICMD)

c) Precio relativo

Solución.

a) NIE= Nº de empleados en julio / Nº de empleados en enero

[pic]. Durante los 6 meses hubo un incremento de empleados del 25%

b) ICMD = Salarios pagados en Julio / Salarios pagados en enero

[pic]. Durante los 6 meses considerados en este estudio hubo un aumento de costo de mano de obra en la empresa de 30.24%, observe que no se ha considerado en aumento de empleados.

c) El precio relativo (PR) es equivalente al riesgo relativo utilizado en medicina (RR), es decir,

[pic]. El índice de costo medio por empleado aumentó en un 4.10% para el mes de julio en relación con el mes de enero.

5.3.1. Relación entre índices de base fija y variable.

El índice de base variable puede transformarse en índice de base fija, utilizando la siguiente relación:

[pic] donde [pic]es el índice relativo, es decir, [pic]

Ejemplo: Se tiene la información del precio de un producto.

| | |Base fija 2002 |

| años |Yi |Índice |

|2002 |2,000 |100 |

|2003 |2,800 |140 |

|2004 |2,400 |120 |

|2005 |4,000 |200 |

|2006 |4,800 |240 |

|2007 |6,000 |300 |

• Se desea indicar la variación del precio en el 2006 respecto al precio de 2003.

Solución:

[pic]

• Ahora, imaginemos que se tiene el índice de precios con base fija para 2003 y 2006 y se requiere la variación del precio en el 2006 respecto al precio de 2003.

Solución:

[pic]. Observe que se tiene el mismo resultado si se dispone de los precios o de los índices de base fija.

• Ahora, suponer que se tienen únicamente los índices de base variable y se requiere la variación del precio en el 2006 respecto al precio de 2003.

Solución:

[pic].

Ejercicio. Un índice para 2006 revela un aumento del 20% respecto al año anterior. En el 2007 alcanzó a 174, es decir, presenta un incremento anual del 18%. Calcular los índices de base fija de los años 2005 y 2006.

Solución:

Se requiere encontrar: [pic]

Información disponible: [pic].

La base o periodo de inicio no se conoce, por lo tanto puede ser cualquier año, así:

[pic] además sabemos que [pic], reemplazando 174 en la última expresión se obtiene:

[pic].

Para obtener [pic], se realiza un procedimiento análogo al anterior.

[pic], reemplazando 147.45 se tiene:

[pic].

Ejercicio. Se tienen tres índices de base variable, cuyas cifras son: Para 2005=107, para 2006=108, para 2007=104, es decir, que entre 2004 y 2007, hubo un aumento del 19%. Decir si la afirmación anterior es cierta o falsa.

Solución:

Recordemos que [pic], por lo tanto la afirmación es falsa.

5.3.2. Índices agregativos simples

Cuando se dispone de una serie de precios de un grupo de artículos, dados en unidades diferentes, los índices simples ya no son utilizables, en esta situación se requiere utilizar los índices agregativos simples.

Estos índices se calculan teniendo en cuenta la suma de los precios, cantidades o valores de un grupo de artículos para un periodo, divida por la suma de los precios cantidades o valores para ese grupo de artículos en otro periodo, considerado como base. Matemáticamente se expresan como:

[pic] [pic] [pic]

Las expresiones anteriores son muy útiles cuando no existen variaciones significativas entre productos, ya estos índices no se ven afectados por las variaciones en algún producto. Para recoger las variaciones entre productos se recomienda calcular primeramente los índices simples y luego sumarlos y finalmente dividirlos por el número de productos. Esto es,

[pic]

Ejemplo: Con los datos de la siguiente tabla, calcular el índice agregativo de las

|Artículos |medida |Defectuosas |

| | |mayo |Junio |

|A |Kg |12 |18 |

|B |Lt |8 |15 |

|C |Docena |20 |8 |

|D |Libras |14 |20 |

|E |Unidad |50 |70 |

|Total | |104 |131 |

cantidades que resultaron en mal estado de conservación, en un grupo de artículos, comparados en el mes de junio de 2009, respecto a las cantidades comparadas, en mal estado de conservación, en el mes de mayo del mismo año.

Solución:

• Primer método.

[pic]. Este método es poco usual, ya que no es afectado por las variaciones grandes que puede presenta uno varios artículos.

• Segundo método.

[pic]

Este resultado es un poco mayor al obtenido por el primer método. Este aumento se debe, a la variación que presenta el artículo B, durante ese periodo.

5.3.3. Índices de precios

Existen gran cantidad de fórmulas para calcular índices de precios, cuyo empleo dependerá de la naturaleza misma del problema. Generalmente, las ponderaciones en los índices de precios son las cantidades y en el cálculo de los índices de cantidad las ponderaciones son los precios.

5.3.3.1 Índice de Laspeyres de precios.

Este índice puede interpretarse, como la relación existente, al comparar los precios actuales de un grupo de artículos, con los precios de esos mismos artículos considerados en el periodo base, manteniéndose constante como ponderación las cantidades del periodo base. La expresión es la siguiente:

[pic]

5.3.3.2 Índice de Paasche de precios.

Se interpreta como la relación existente entre los precios actuales de un grupo de artículos, con los precios de esos mismos artículos en el periodo base, manteniéndose constante las ponderaciones correspondientes a las cantidades de dichos artículos, dadas por el periodo que se investiga, esto es:

[pic]

La diferencia entre las dos fórmulas anteriores, radica únicamente en la base tomada para las ponderaciones, en la primera se refiere a las cantidades del periodo base y en la segunda, las cantidades corresponden al periodo que se investiga.

5.3.3.3. Índice de Fisher de precios.

Este índice es un promedio geométrico, que se define como la raíz cuadrada del producto del índice de Laspeyres por el de Paasche, así:

[pic]

5.3.4. Índices de cantidad.

Los índices de cantidad de Laspeyres, Paasche y Fisher son muy parecidos a los índices de precios, con la diferencia de que las ponderaciones son los precios. Las fórmulas son las siguientes:

[pic] [pic]

[pic]

Ejemplo: Con los siguientes datos referentes a los precios y cantidades para un grupo de artículos dados para dos periodos.

|Artículos |Unidad |2006 |2007 |

| | |Precio |Cantidad |Precio |Cantidad |

|A |Kg |26 |10 |38 |8 |

|B |Lt |6 |5 |10 |7 |

|C |Lbs |1 |2 |4 |5 |

|D |Docena |6 |1 |15 |2 |

|E |Unidad |3.6 |2 |2 |1 |

Calcular los índices de precios y de cantidad de las Laspeyres, Paasche y Fisher.

Solución:

Ordenando los datos de la tabla anterior:

|Articulos |P06 |

|2002 |18 |

|2003 |18 |

|2004 |19 |

|2005 |15 |

|2006 |12 |

|2007 |16 |

|2008 |20 |

|2009 |24 |

|2010 |35 |

a) Hallar los índices de ventas, tomando como base primero 2002 y luego 2005.

b) Hallar los índices de ventas con base variable

1. Un empleado ganaba $ 772 dólares mensuales en 2009 en el 2010 gana $ 912 mensuales, con lo cual mejora su ingreso real en 16%. Si el actual índice de precios es de $ 560 ¿Cuál era el índice de precios del 2009?

2. La producción de tomates (en toneladas) en la provincia de Valparaíso fue durante los últimos 10 años:

|AÑO |PRODUCCION (ton) |

| 1997 |1300 |

|1998 |1280 |

|1999 |1189 |

|2000 |1234 |

|2001 |1100 |

|2002 |1250 |

|2003 |1310 |

|2004 |1270 |

|2005 |1140 |

|2006 |1240 |

Se Pide:

a) Establezca una serie de números índice, que permita estudiar la evolución de dichas producciones, considerando como base el año 1997.

b) Determine el porcentaje de variación de la producción entre los años 1997 y 2006.

c) Determine la tasa de crecimiento promedio (tcp) entre los años 1997 y 2007.

3. La entrada de turistas Alemanes a nuestro País durante los últimos 7 años según SERNATUR viene dada por la tabla siguiente:

|AÑO |Número de Turistas |

|2000 |12565 |

|2001 |13124 |

|2002 |11897 |

|2003 |14578 |

|2004 |16243 |

|2005 |14890 |

|2006 |15321 |

Se Pide:

a) Establezca una serie de números índice, que permita estudiar todos los datos, considerando como base el año 2000.

b) Con respecto al año 2003. Qué porcentaje de aumento o disminución se dio en los años 2004 y 2005.

4. La Municipalidad de San Antonio, ubicada en la V Región ha estudiado el consumo de anual de agua por habitante durante los últimos 5 años, obteniendo:

|AÑO |Consumo agua por habitante (lt) |

|2002 |345 |

|2003 |367 |

|2004 |354 |

|2005 |389 |

|2006 |325 |

Se Pide:

a) Establezca una serie de números índice, que permita estudiar todos los consumos, considerando como base el año 2002.

b) Determine el porcentaje de variación del consumo entre los años 2002 y 2006.

c) Determine la tasa de crecimiento promedio (tcp) entre los años 2002 y 2006.

5. Una fábrica de automóviles chinos produce cuatro modelos distintos, todos en versión económica, cuyos precios expresados en millones de pesos y número de unidades producidas en 1998 y 2000 son respectivamente:

| |Año 1998 |Año 2000 |

|Modelo |Precio (M$) |Nº de unidades |Precio (M$) |Nº de unidades |

|1 |0.9 |3200 |1.2 |5600 |

|2 |1.3 |3200 |1.5 |4300 |

|3 |1.9 |3200 |2.1 |2000 |

|4 |3.8 |3200 |4.3 |1200 |

Se Pide:

a) Hallar el índice de precios y de cantidad de LASPEYRE, con base el año 1998.

b) Hallar el índice de precios y de cantidad de PAASCHE, con base el año 1998.

c) Hallar el índice de FISHER para precio y cantidad, considerando el mismo año base.

6. Si, por ejemplo, el consumo final de un país, expresado en miles de dólares corrientes de cada año, y el I.P.C. de los mismos años son los siguientes, expresar en dólares. Constantes el consumo final de ese país:

|Años |Consumo final |IPC |

|2000 |17 |100 |

|2001 |20 |105 |

|2002 |22 |110 |

|2003 |25 |115 |

|2004 |30 |118 |

Capítulo 6. Métodos de Conteo.

6.1 Introducción

Antes de entrar al estudio del análisis combinatorio, se considera que dentro del muestreo aleatorio se distingue que la selección sea sin remplazamiento o con remplazamiento:

a. Sin remplazamiento: Se seleccionan n elementos de la población, mediante n extracciones sucesivas sin remplazamiento, asignando en cada una de ellas probabilidades iguales a los elementos no seleccionados en las anteriores.

b. Con remplazamiento: Se seleccionan n elementos de la población, mediante n extracciones sucesivas con remplazamiento, asignando en cada una de ellas probabilidades iguales a todos los elementos de la población.

En estos dos procedimientos podemos considerar a los objetos o elementos de la población extraídos, ordenados o sin ningún orden, originando así las muestras ordenadas, y las muestras sin ordenar.

Tenemos, pues, cuatro procedimientos básicos de muestreo aleatorio en el modelo uniforme:

1. Muestreo con remplazamiento y los objetos ordenados

2. Muestreo sin remplazamiento y los objetos ordenados

3. Muestreo con remplazamiento y los objetos sin ordenar

4. Muestreo sin remplazamiento y los objetos sin ordenar.

Los dos primeros originan las muestras ordenadas.

6.2 Muestras ordenadas.

El símbolo (N)n se utilizará para representar productos del tipo siguiente:

(N)n = N.(N-1) . . . (N-n+1), con n entero positivo y n[pic]N, definiéndolo como (N)n =0 para los enteros n > N.

Si tenemos un conjunto [pic]con n elementos, y un conjunto [pic]con m es posible formar n.m pares de la forma [pic]en donde el primer elemento del par pertenece a A y el segundo a B. Este resultado se puede generalizar.

Proposición

Si tenemos k conjuntos [pic] con elementos [pic], respectivamente, el número de ordenaciones de la forma [pic], en donde [pic]es un elemento de A1 y [pic]es un elemento de Ak, es [pic].

Demostración.

Este resultado se sigue por inducción.

Como consecuencia del resultado anterior, se tiene que si se realizan k selecciones sucesivas con exactamente [pic] opciones posibles en el i-ésimo paso o etapa, produce un total de [pic] resultados diferentes posibles.

Teorema

Dada una población de N elementos se pueden seleccionar [pic] muestras diferentes con remplazamiento de tamaño n, y (N)n muestras diferentes sin remplazamiento de tamaño n.

Demostración.

Al realizar n selecciones sucesivas con exactamente N opciones posibles, en cada una de las n selecciones, que son las correspondientes a los N elementos de la población. Así, pues, según el resultado anterior [pic] , muestras diferente de tamaño n, en un muestreo con remplazamiento, tomando [pic].

Si efectuamos un muestreo sin remplazamiento, tendremos N opciones posibles en la primera selección, pero tan sólo (N-1) en la segunda, pues los elementos de la población no son devueltos a la misma; de la misma manera, en la tercera sólo se tendrán (N-3+1) opciones, y así sucesivamente hasta la n-ésima, en la cual se tendrán (N-n+1) posible opciones. Por tanto, existirán (N)n = N.(N-1) . . . (N-n+1) muestras diferentes de tamaño n, en el muestreo sin remplazamiento.

Ejemplo.

Supongamos una urna que contiene 9 bolas numeradas del 1 al 9. Si realizamos un muestreo aleatorio con remplazamiento de tamaño 6, el espacio muestral [pic], estará compuesto por [pic] elementos.

Ejemplo.

Si lanzamos un dado 5 veces, entonces el espacio muestral estará formado por [pic] elementos, ya que este experimento es equivalente a muestrear con remplazamiento, donde el número de veces que lanzamos el dado es equivalente al tamaño n de la muestra aleatoria y N al número de caras del dado.

Ejemplo.

Supongamos una urna que contiene 11 bolas numeradas del 1 al 11. Si realizamos un muestreo aleatorio sin remplazamiento de tamaño n=3, el espacio muestral estará formado por [pic] elementos.

Teorema.

El número de ordenaciones diferentes de N elementos es

[pic]

Observación: El número de ordenaciones coincide con el número de muestras en un muestreo sin remplazamiento.

Ejemplo.

Si se realiza un muestreo aleatorio con remplazamiento de tamaño n de una población de N elementos, el número de muestras en las que no aparece ningún elemento dos veces es

[pic]

6.3 Variaciones, combinaciones y permutaciones.

6.3.1. Variaciones de N elementos tomados de n en n.

Se llaman variaciones de N elementos tomados de n en n, a los diferentes grupos que pueden formarse con los N elementos dados, tomados de n en n, de modo que cada dos grupos difieran entre sí, ya por la naturaleza de un elemento, ya por el orden de sucesión de los mismos. Se represente por [pic].

El muestreo que se considera es sin remplazamiento, pues las variaciones en las que no se especifica nada se entenderá que son sin repetición. Así pues,

[pic]

6.3.2. Variaciones con repetición de N elementos tomados de n en n.

Se llaman variaciones con repetición de N elementos tomados de n en n a los diferentes grupos que pueden formarse con los N elementos dados, tomados de n en n, en los que eventualmente pueden aparecer elementos repetidos y con la condición de que dos grupos sean distintos entre sí, si tienen distintos elementos, o están situados en distintos lugares. Se representa por [pic].

Observe, que aquí también se tiene en cuenta el orden de los elementos de cada grupo y de hecho de lo único que se diferencian de las variaciones antes definidas es que eventualmente algún elemento puede aparecer repetido en un mismo grupo. Es decir, el muestreo se hace con remplazamiento. Así

[pic]

6.3.3. Permutaciones.

Las permutaciones o, también llamadas, ordenaciones son aquellas formas de agrupar los elementos de un conjunto teniendo en cuenta que:

• Influye el orden en que se colocan.

• Tomamos todos los elementos de que se disponen o una parte de ellos.

• Serán Permutaciones SIN repetición cuando todos los elementos de que disponemos son distintos.

• Serán Permutaciones CON repetición si disponemos de elementos repetidos. (Ese es el nº de veces que se repite el elemento en cuestión).

Permutaciones sin repetición:

Una permutación es una combinación en donde el orden es importante. La notación para permutaciones es P(n,r) que es la cantidad de permutaciones de “n” elementos si solamente se seleccionan “r”. Así

[pic]

Ejemplo: Si nueve estudiantes toman un examen y todos obtienen diferente calificación, cualquier alumno podría alcanzar la calificación más alta. La segunda calificación más alta podría ser obtenida por uno de los 8 restantes. La tercera calificación podría ser obtenida por uno de los 7 restantes. Cuántas permutaciones de tres estudiantes pueden formarse.

Solución:

Observe que interesa el orden, es decir, que en una permutación donde un estudiante aparezca con la calificación más alta y otro estudiante con la segunda calificación más alta, si intercambiamos los estudiantes obtenemos otra permutación totalmente diferente a la primera permutación.

Así, la respuesta es: 9*8*7 = 504 o equivalentemente, 9! / (9-3)! = P(9,3).

Permutaciones de n elementos:

Permutaciones de n elementos diferentes son los distintos grupos que pueden formarse entrando en cada uno de ellos los n elementos dados, difiriendo únicamente en el orden de sucesión de sus elementos. Se representa por n!

Permutaciones con repetición:

Llamaremos permutaciones con repetición de r elementos distintos tal que el primero aparece n1 veces; el segundo n2 veces; . . . ; el r-ésimo nr veces, con n1 + n2 + … + nr = N, a las distintas disposiciones que pueden formarse con los r elementos distintos, de tal forma que en cada disposición cada elemento aparezca n1, n2, … , nr veces y esto en un orden determinado. Se representa por: [pic]

Así: [pic]

Para tener una idea de la deducción de la ecuación anterior, observe que una población de tamaño n puede dar lugar a n! muestras ordenada de tamaño n. Además, el número de muestra ordenadas de tamaño n, en un muestreo sin remplazamiento, efectuado en una población de tamaño N, es (N)n , con lo que si llamamos A al número de subpoblaciones distintas de tamaño n de una población de N elementos, será:

A. n! = (N)n; entonces A = (N)n / n! = [pic]

Ahora, tenemos r grupos distintos, n1, n2, … , nr, y los elementos del primer grupo pueden ser seleccionados de [pic] maneras, de los N- n1 elementos restantes, podemos seleccionar los n2 del segundo grupo de [pic] maneras, etc. Después de formar el (r-1)-ésimo grupo quedarán N- n1 - n2 -… - nr-1 = nr elementos, que constituirán el grupo r-ésimo, que podremos seleccionar de [pic]=1 manera. Por tanto, el número de permutaciones con repetición de r elementos distintos será el producto de esos números combinatorios, es decir:

[pic][pic] . . . [pic] después de desarrollar estos productos se llega a :

[pic][pic] . . . [pic]=[pic]

6.3.4. Combinaciones.

Llamaremos combinaciones de N elementos tomados de n en n, a los diferentes grupos que se pueden formar figurando n elementos en cada uno, de modo que cada dos grupos difieran en la naturaleza de, por lo menos, un elemento. Puede observarse, que no se tiene en cuenta el orden de los elementos en la disposición. Se denota por [pic] y el número de grupos que podemos formar de tamaño n, será:

[pic]

Observe que una combinación, es un arreglo de elementos en donde no nos interesa el lugar o posición que ocupan los mismos dentro del arreglo.

Ejemplo 1.

a) Si se cuenta con 14 alumnos que desean colaborar en una campaña pro limpieza, cuantos grupos de limpieza podrán formarse si se desea que consten de 5 alumnos cada uno de ellos,

b) Si entre los 14 alumnos hay 8 mujeres, ¿cuántos de los grupos de limpieza tendrán a 3 mujeres?,

c) ¿Cuántos de los grupos de limpieza contarán con 4 hombres por lo menos?

Solución: NO INTERESA EL ORDEN.

a) n = 14,  r = 5

                                           14C5 = 14! / (14 – 5 )!5! = 14! / 9!5!

                                         = 14 x 13 x 12 x 11 x 10 x 9!/ 9!5!

                                         = 2,002 grupos

Entre los 2002 grupos de limpieza hay grupos que contienen solo hombres, grupos que contienen solo mujeres y grupos mixtos, con hombres y mujeres.

b) n = 14 (8 mujeres y 6 hombres),    r = 5

En este caso nos interesan aquellos grupos que contengan  3 mujeres y 2 hombres

                                           8C3*6C2  = (8! / (8 –3)!3!)*(6! / (6 – 2)!2!)

                                                 = (8! / 5!3!)*(6! / 4!2!)

                                                 = 8 x7 x 6 x 5 /2!

                                                 = 840 grupos con 3 mujeres y 2 hombres, puesto que cada grupo debe constar de 5 personas

c) En este caso nos interesan grupos en donde haya 4 hombres o más

Los grupos de interés son iguales a: grupos con 4 hombres + grupos con 5 hombres, así: 6C4*8C1    +     6C5*8C0 =  15 x 8   +   6 x 1 = 120 + 6 = 126 grupos.

Ejemplo 2.

Para aprobar un examen un alumno debe contestar 9 de 12 preguntas,

a) ¿Cuántas maneras tiene el alumno de seleccionar las 9 preguntas?,

b) ¿Cuántas maneras tiene si forzosamente debe contestar las 2  primeras preguntas?,

c) ¿Cuántas maneras tiene si debe contestar una de las 3 primeras preguntas?,

d) ¿Cuántas maneras tiene si debe contestar como máximo una de las 3 primeras preguntas?

Solución: NO INTERESA EL ORDEN.

a)  n = 12,    r = 9

         12C9 = 12! / (12 – 9)!9!

                 = 12! / 3!9! = 12 x 11 x 10 / 3!

                 = 220 maneras de seleccionar las nueve preguntas o dicho de otra manera, el alumno puede seleccionar cualquiera de 220 grupos de 9 preguntas para aprobar el examen.

b)      2C2*10C7 = 1 x 120 = 120 maneras de seleccionar las 9 preguntas entre las que están las dos primeras preguntas.

c)       3C1*9C8 = 3 x 9 = 27 maneras de seleccionar las 9 preguntas entre las que está una de las tres primeras preguntas.

d)      En este caso debe seleccionar 0 ó 1 de las tres primeras preguntas

 3C0*9C9  +  3C1*9C8 = (1 x 1) + (3 x 9) = 1 + 27 = 28 maneras de seleccionar las preguntas a contestar.

Ejemplo 3.

Una señora desea invitar a cenar a 5 de 11 amigos que tiene,

a) ¿Cuántas maneras tiene de invitarlos?,

b) ¿Cuántas maneras tiene si entre ellos está una pareja de recién casados y no asisten el uno sin el otro?,

c) ¿Cuántas maneras tiene de invitarlos si Rafael y Arturo no se llevan bien y no van juntos?

Solución:

a) n = 11,    r = 5

      11C5 = 11! / (11 – 5 )!5! = 11! / 6!5!

                = 11 x 10 x 9 x 8 x 7 x 6! / 6!5!

                = 462 maneras de invitarlos.

Es decir, que se pueden formar 462 grupos de cinco personas para ser invitadas a cenar.

b) Esta señora tiene dos alternativas para hacer la invitación, la primera es no invitar a la pareja y la segunda es invitar a la pareja.

2C0*9C5   +    2C2*9C3 = (1 x 126)    +   (1 x 84) = 210 maneras de invitarlos

 En este caso separamos a la pareja de los demás invitados para que efectivamente se cumpla el que no asistan o que asistan a la cena.

c) La señora tiene dos alternativas para hacer la invitación, una de ellas es no invitar a Rafael y a Arturo o que asista solo uno de ellos.

 2C0*9C5    +    2C1*9C4 = (1 x 126)    +    (2 x 126) = 126 + 252 = 378 maneras de hacer la invitación.

6.3.4.1. Combinaciones con repetición.

Llamamos combinaciones con repetición de N elementos distintos tomados de n en n a todos los conjuntos de n elementos tomados entre los N dados permitiendo repetir elementos.

La fórmula para calcular el número de posibles combinaciones con repetición de N elementos distintos tomados de n en n es

[pic]

Ilustración

Suponemos que cada elemento del conjunto de los N distintos se representa por el espacio entre dos líneas verticales del siguiente dibujo formado por N+1 líneas verticales:

1 2 3 ..... N-1 N N + 1

│ │ │ │ │ │

Elegir una combinación con repetición de N elementos distintos tomados de n en n es equivalente a colocar n estrellas dentro de los N espacios pudiendo meter varias en un mismo espacio

1 2 3 ..... N-1 N N + 1

│ * │ * * * │ │ * │ │

1 2 3 4 .... n

La posición de la primera y la última de las barras es fija y elegir una ubicación para las n estrellas es equivalente a elegir un orden entre N-1 barras y n estrellas. El número de esas posibles elecciones es el número de combinaciones sin repetición de N + n – 1 elementos tomados de n en n.

¿Cómo se forman?. Para construir las combinaciones con repetición, partimos del conjunto A={1,2,3,4} y vamos a construir todas las combinaciones con repetición posibles.

a) De un elemento. Si tenemos un conjunto de cuatro elementos y queremos hacer grupos de uno, únicamente podremos hacer cuatro grupos: 1 , 2 , 3 , 4. (C4,1)

b) De dos elementos. La forma de construirlas será similar a las combinaciones sin repetición aunque con la diferencia de que al permitirse repetir los elementos tendremos que añadir a cada una de las de orden uno, el mismo elemento y todos los siguientes. Así se obtienen: 11, 12, 13, 14, 22, 23, 24, 33, 34, 44. (C4+1,2)

c) De tres elementos. Se pueden construir a partir de las anteriores añadiendo a cada combinación de orden dos el último elemento y todos los elementos siguientes. Se obtienen: 111 , 112 , 113 , 114 , 122 , 123 , 124 , 133 , 134 , 144 , 222 , 223 , 224 , 233 , 234 , 244 , 333 , 334 , 344 , 444. (C4+2,3)

d) De cuatro elementos. Se pueden obtener a partir de las de orden tres, añadiendo a cada una de ellas el último elemento y los elementos siguientes. (C4+3,4)

e) De cinco o más elementos. Como estamos construyendo combinaciones con repetición y los elementos se pueden repetir, podríamos continuar construyendo combinaciones de orden cinco o más elementos. (C4+4,5)

     

6.4. Teorema del Binomio.

Se podría decir a primera vista, la expresión [pic]no parece tener mucho que ver con las combinaciones, pero como veremos a continuación, podemos obtener una fórmula para desarrollar [pic] utilizando la fórmula para el número de r-combinaciones de n objetos. Con frecuencia, podemos relacionar una expresión algebraica con algún proceso de conteo. Varias técnicas avanzadas de conteo utilizan estos métodos.

 Los números C(n, r) se llaman Coeficientes Binomiales, pues aparecen en el desarrollo del binomio (a+b) elevado a una potencia.

El Teorema del Binomio proporciona una fórmula para los coeficientes en el desarrollo de [pic]. Como [pic]  el desarrollo surge al elegir a o b en cada uno de los n factores, multiplicando las selecciones entre ellas, y luego sumando todos los productos obtenidos de esta manera. Por ejemplo, en el desarrollo de [pic], se elige a o b en el primer factor (a + b); a o b en el segundo factor (a + b), y a o b en el tercer factor (a + b); se multiplican las selecciones entre ellas y luego se suman los productos obtenidos. Si elegimos a en todos los factores y multiplicamos, obtenemos el término aaa.

 Si elegimos a en el primer factor, b en el segundo factor y a en el tercer factor y multiplicamos, obtenemos el término aba. La tabla 1 muestra todas las posibilidades. Si sumamos los productos de todas las selecciones, obtenemos

[pic]

[pic]

|Selección del |Selección del |Selección del |Producto de |

|primer factor |segundo factor |tercer factor |selecciones |

|(a+b) |(a+b) |(a+b) | |

|a |a |a |aaa=[pic] |

|a |a |b |aab=[pic] |

|a |b |a |aba=[pic] |

|a |b |b |Abb=[pic] |

|b |a |a |baa=[pic] |

|b |a |b |bab=[pic] |

|b |b |a |bba=[pic] |

|b |b |b |bbb=[pic] |

Tabla 1. Cálculo de [pic]

Un término de la forma [pic] surge de elegir b en k factores y a de los otros n-k factores. Pero esto puede realizarse de C(n, k) formas, pues C(n, k) cuenta el número de formas de elegir k cosas de n elementos. Así, [pic] aparece C(n, k) veces. Esto implica que

[pic]

 Este resultado se conoce como el teorema del binomio. 

TEOREMA: Teorema del Binomio.

Si a y b son números reales y n es un entero positivo, entonces

[pic]

 DEMOSTRACION. La demostración aparece antes del enunciado del teorema.

EJEMPLO

Tomando n = 3 se obtiene

[pic]

[pic]

 si se toma a = b = 1, da como resultado la siguiente identidad

[pic]

EJEMPLO

Desarrollar [pic]utilizando el teorema del binomio. Si hacemos a = 3x , b= -2y

n = 4, obtenemos

[pic]

[pic]

 EJEMPLO

Determine el coeficiente de [pic]en el desarrollo de [pic]El término relacionado con [pic]aparece en el teorema del binomio considerando n = 9 y k = 4.

[pic]

Así el coeficiente de [pic]es 126.

 EJEMPLO

Determine el coeficiente de [pic]en el desarrollo de [pic]Como

[pic] (Nueve términos)

Obtenemos [pic]cada vez que multiplicamos dos x elegidas de los nueve términos, tres y elegidas de los nueve términos para las x de C(9,2) formas. Una vez realizada esta selección, podemos elegir así tres términos para las y de C(7,3) formas. Esto deja los cuatro términos restantes para las z. Así el coeficiente de [pic]en el desarrollo [pic]es

[pic]

Dado un conjunto de X con n elementos, [pic]cuenta el número de subconjuntos con k elementos.

Por consiguiente, el término correspondiente al lado derecho del teorema del binomio cuenta el número de subconjuntos de X.

 Exprésense los coeficientes binomiales en una disposición triangular conocida como triángulo de Pascal (véase la figura 1.).

Los dos lados superiores están formados por números 1 y cualquier valor interior es la suma de los dos números que están por encima y a los lados de él.

| |

Matemáticamente, decimos: Dado un espacio de probabilidad ([pic],[pic] ,Pr), una variable aleatoria es cualquier función, X,

[pic]

que asocia a cada suceso elemental un número real, verificando que

[pic]

El conjunto [pic] es el espacio muestral y[pic]es la colección de todos los subconjuntos de [pic].

Identificación de una variable aleatoria discreta X: es preciso conocer el conjunto de los posibles resultados de X:

{x1, x2, …,xk, …}, donde los xi no necesariamente son todos enteros, pero si se pueden contar o numerar.

El conjunto de las probabilidades siguientes:

p1 = P(X = x1)

p2 = P(X = x2)

...

Pk = P(X = xk)

...

Propiedades importantes de la función de probabilidad:

a) pi ≥0 para todo i

b) ∑pi = 1 para todo i

La representación gráfica de la función de probabilidad de una variable aleatoria discreta es análoga al diagrama de barras de frecuencias relativas de una variable estadística discreta.

La función de distribución de una variable aleatoria discreta X es:

[pic]para todo [pic]

La representación gráfica de la función de distribución de una variable aleatoria discreta es análoga al gráfico de frecuencias relativas acumuladas de una variable estadística discreta.

La media de una variable aleatoria discreta X es:

µ = E(X) = ∑xi pi , para todo i.

La varianza de una variable aleatoria discreta X es:

σ2= Var(X) = ∑(xi-µ)2pi, para todo i

La desviación típica de una variable aleatoria discreta X es:

σ = (Var(X))1/2

Ejemplo 8.1. Supongamos que la Secretaría del Medio Ambiente inspecciona una vez al mes la cantidad de un contaminante que descarga una compañía de productos químicos. Si la cantidad del contaminante excede el nivel máximo permitido, se multa a la compañía y se le obliga a corregir el problema. Consideremos las siguientes dos variables aleatorias asociadas a este problema:

Primero digamos que X es el número de meses antes de que la compañía excede los límites permitidos del contaminante. Esta variable toma valores 1, 2, 3, … pero no conocemos donde termina, ya que quizás nunca exceda estos límites permitidos, por lo tanto, el conjunto de valores de X es el conjunto de los números enteros positivos. Como podemos enlistar o numerar el conjunto (es un conjunto numerable) de valores de la variable X, decimos que la variable aleatoria X es una variable aleatoria discreta.

Ejemplo 8.2. Supongamos que nos interesamos por el número de varones X en el experimento de observar al azar dos niños recién nacidos (Sea H = hombre y M = mujer). Entonces, el espacio muestra, los valores de la variable aleatoria X que cuenta el número de varones y su función de probabilidad se dan en la siguiente tabla:

|S |Valores de X: xi |[pic] |

|MM |0 |[pic] |

|MH , HM |1 |[pic] |

|HH |2 |[pic] |

|  |  |[pic] |

Ejemplo 8.3. Sea X la variable aleatoria que indica la suma de los puntos en las caras superiores al lanzar dos dados, Determine el espacio muestral, el conjunto de valores de X y las probabilidades respectivas.

Solución: El espacio muestral S es el conjunto de los 36 pares ordenados que se indican a continuación:

[pic]

Este conjunto se puede visualizar como el conjunto de puntos del plano cartesiano que se muestra a continuación

Fig. 3.2 Diagrama del Espacio Muestral del lanzamiento de dos dados

La variable aleatoria es la suma de los elementos de cada par, por lo tanto, toma los valores del 2 al 12, [pic]y las probabilidades para cada uno de los valores de la variable se indican en la siguiente tabla:

|S |Valores de X : xi |[pic] |

|(1,1) |2 |[pic] |

|(1,2) (2,1) |3 |[pic] |

|(1,3) (3,1) (2,2) |4 |[pic] |

|(1,4) (4,1) (2,3) (3,2) |5 |[pic] |

|(1,5) (5,1) (2,4) (4,2) (3,3) |6 |[pic] |

|(1,6) (6,1) (2,5) (5,2) (3,4) (4,3) |7 |[pic] |

|(2,6) (6,2) (3,5) (5,3) (4,4) |8 |[pic] |

|(3,6) (6,3) (4,5) (5,4) |9 |[pic] |

|(4,6) (6,4) (5,5) |10 |[pic] |

|(5,6) (6,5) |11 |[pic] |

|(6,6) |12 |[pic] |

|  |Total: [pic] |

La gráfica de líneas para este ejemplo es:

[pic]

Fig. 3.3. Gráfico de probabilidad

8.2. Distribución de probabilidad binomial

La distribución binomial es típica de las variables que proceden de un experimento que cumple las siguientes condiciones:

1) El experimento está compuesto de n pruebas iguales, siendo n un número natural fijo.

2) Cada prueba resulta en un suceso que cumple las propiedades de la variable binómica o de Bernouilli, es decir, sólo existen dos posibles resultados, mutuamente excluyentes, que se denominan generalmente como éxito y fracaso.

3) La probabilidad del éxito (o del fracaso) es constante en todas las pruebas. P(éxito) = p ; P(fracaso) = 1 - p = q

4) Las pruebas son estadísticamente independientes.

En estas condiciones, la variable aleatoria X que cuenta el número de éxitos en las n pruebas se llama variable binomial. Evidentemente, el espacio muestral está compuesto por los números enteros del 0 al n. Se suele decir que una variable binómica cuenta objetos de un tipo determinado en un muestreo de n elementos con reemplazamiento.

La función de probabilidad de la variable binomial se representa como b(x,n,p) siendo n el número de pruebas y p la probabilidad del éxito, n y p son los parámetros de la distribución.

La función de probabilidad de una variable Binomial es:

[pic]

La media y la varianza de la variable binomial se calculan como:

Media = μ = n p (verificarla)

Varianza = σ2 = n p q (verificarla)

Gráficamente el aspecto de la distribución depende de n y de p. Por ejemplo, si p=0.5 y n cualquiera es simétrica; si p n es 0.5, la binomial no es siméttrica. El siguiente gráfico lo ilustra para n=4.

ASPECTO DE LA BINOMIAL PARA n=4 Y p=0.5 Y p=0.25.

|[pic] |[pic] |

Fig. 3.4. Gráficos de probabilidad binomial.

Ejemplo 8.4. Se sabe que el 5% de los libros que se prestan en una biblioteca escolar se devuelven con retraso. Se realiza el experimento que consiste en observar si la devolución de 5 libros se hacen con retraso o no.

a) Determinar la función de probabilidad y hacer su representación gráfica.

b) Calcular la función de distribución y hacer su representación gráfica.

c) Hallar la media y la varianza.

Solución:

X= Variable aleatoria = Número de devoluciones con retrazo.

X=0,1,2,3,4,5.

a) El Modelo o función de probabilidad es

[pic]

b) [pic]

Gráfico de la función de distribución

Fig. 3.5. Gráfico de la Función de distribución

c) [pic]

8.3. Distribución de Poisson

Una variable de tipo Poisson cuenta éxitos (es decir, objetos de un tipo determinado) que ocurren en una región del espacio o del tiempo.

En este tipo de experimentos los éxitos buscados son expresados por unidad de área, tiempo, pieza, etc, etc. Ejemplos:

- Número de defectos de una tela por m2

- Número de aviones que aterrizan en un aeropuerto por día, hora, minuto, etc, etc.

- Número de bacterias por cm2 de cultivo

- Número de llamadas telefónicas a un conmutador por hora, minuto, etc, etc.

- Número de llegadas de embarcaciones a un puerto por día, mes, etc, etc.

El experimento que la genera debe cumplir las siguientes condiciones:

1. El número de éxitos que ocurren en cada región del tiempo o del espacio es independiente de lo que ocurra en cualquier otro tiempo o espacio disjunto del anterior.

2. La probabilidad de un éxito en un tiempo o espacio pequeño es proporcional al tamaño de este y no depende de lo que ocurra fuera de él.

3. La probabilidad de encontrar uno o más ‘éxitos en una región del tiempo o del espacio tiende a cero a medida que se reducen las dimensiones de la región en estudio.

Como consecuencia de estas condiciones, las variables Poisson típicas son variables en las que se cuentan sucesos raros.

La función de probabilidad de una variable Poisson es:

[pic]

El parámetro de la distribución es λ que es igual a la media y a la varianza de la variable.

µ=E[X]= λ (verificarlo)

σ2=V[X]= λ (verificarlo)

La distribución de Poisson se puede considerar como el límite al que tiende la distribución binomial cuando n tiende a [pic] y p tiende a 0, siendo np constante (y menor que 7); en esta situación sería difícil calcular probabilidades en una variable binomial y, por tanto, se utiliza una aproximación a través de una variable Poisson con media [pic].

La varianza de la variable aproximada es ligeramente superior a la de la variable binomial

[pic]

Las variables Poisson cumplen la propiedad de que la suma de variables Poisson independientes es otra Poisson con media igual a la suma las medias.

El aspecto de la distribución depende muchísimo de la magnitud de la media. Como ejemplo, mostramos tres casos con λ = 0,5 (arriba a la izquierda), λ = 1,5 (arriba a la derecha) y λ = 5 (abajo) Obsérvese que la asimetría de la distribución disminuye al crecer λ y que, en paralelo, la gráfica empieza a tener un aspecto acampanado.

|[pic] |[pic] |

|[pic] |

Fig. 3.6. Gráficos de probabilidad de Poisson.

Ejemplos:

Ejemplo 8.5. Si un banco recibe en promedio 6 cheques sin fondo por día, ¿cuáles son las probabilidades de que reciba, a) cuatro cheques sin fondo en un día dado, b) 10 cheques sin fondos en cualquiera de dos días consecutivos?

Solución:

a)      x = variable que nos define el número de cheques sin fondo que llegan al banco en un día cualquiera = 0, 1, 2, 3, ....., etc, etc.

( = 6 cheques sin fondo por día

 

[pic] 

b)

x= variable que nos define el número de cheques sin fondo que llegan al banco en dos días consecutivos = 0, 1, 2, 3, ......, etc., etc.

( = 6 x 2 = 12 cheques sin fondo en promedio que llegan al banco en dos días consecutivos

Nota: ( siempre debe de estar en función de x siempre o dicho de otra forma, debe “hablar” de lo mismo que x.

[pic]

Ejemplo 8.6. En la inspección de hojalata producida por un proceso electrolítico continuo, se identifican 0.2 imperfecciones en promedio por minuto. Determine las probabilidades de identificar a) una imperfección en 3 minutos, b) al menos dos imperfecciones en 5 minutos, c) cuando más una imperfección en 15 minutos.

Solución:

a)      x = variable que nos define el número de imperfecciones en la hojalata por cada 3 minutos = 0, 1, 2, 3, ...., etc., etc.

( = 0.2 x 3 =0.6 imperfecciones en promedio por cada 3 minutos en la hojalata

 

[pic]

 

b)      x = variable que nos define el número de imperfecciones en la hojalata por cada 5 minutos = 0, 1, 2, 3, ...., etc., etc.

( = 0.2 x 5 =1 imperfección en promedio por cada 5 minutos en la hojalata

[pic]

 

=1-(0.367918+0.367918) = 0.26416

 

c) x = variable que nos define el número de imperfecciones en la hojalata por cada 15 minutos = 0, 1, 2, 3, ....., etc., etc.

( = 0.2 x 15 = 3 imperfecciones en promedio por cada 15 minutos en la hojalata

 

[pic]

 

= 0.0498026 + 0.149408 = 0.1992106

8.4. Distribución geométrica

Esta distribución es un caso especial de la Binomial, ya que se desea que ocurra un éxito por primera y única vez en el último ensayo que se realiza del experimento, para obtener la fórmula de esta distribución, haremos uso de un ejemplo.

Ejemplo 8.7. Se lanza al aire una moneda cargada 8 veces, de tal manera que la probabilidad de que aparezca águila es de 2/3, mientras que la probabilidad de que aparezca sello es de 1/3, Determine la probabilidad de que en el último lanzamiento aparezca una águila.

Solución: Si nosotros trazamos un diagrama de árbol que nos represente los 8 lanzamientos de la moneda, observaremos que la única rama de ese árbol que nos interesa es aquella en donde aparecen 7 sellos seguidos y por último una águila; como se muestra a continuación:

S S S S S S S A

Sí denotamos;

x = el número de repeticiones del experimento necesarias para que ocurra un éxito por primera y única vez = 8 lanzamientos

p = probabilidad de que aparezca una águila = p( éxito) = 2/3

q = probabilidad de que aparezca un sello = p(fracaso) = 1/3

Entonces la probabilidad buscada sería;

P(aparezca una águila en el último lanzamiento)=p(S)*p(S)*p(S)*p(S)*p(S)*p(S)*p(S)*p(A) =

=q*q*q*q*q*q*q*p = qx-1p

Luego, la fórmula a utilizar cuando se desee calcular probabilidades con esta distribución sería;

[pic]

Donde:

p(x) = probabilidad de que ocurra un éxito en el ensayo x por primera y única vez

[pic] = probabilidad de éxito

[pic] = probabilidad de fracaso

Resolviendo el problema de ejemplo;

x = 8 lanzamientos necesarios para que aparezca por primera vez una águila

p = 2/3 probabilidad de que aparezca una águila

q = 1/3 probabilidad de que aparezca un sello

p(x=8) = (1/3)8–1(2/3)= 0.0003048

Ejemplo 8.8. Sí la probabilidad de que un cierto dispositivo de medición muestre una desviación excesiva es de 0.05, ¿cuál es la probabilidad de que; a) el sexto de estos dispositivos de medición sometidos a prueba sea el primero en mostrar una desviación excesiva?, b) el séptimo de estos dispositivos de medición sometidos a prueba, sea el primero que no muestre una desviación excesiva?.

Solución:

a) x = 6 que el sexto dispositivo de medición probado sea el primero que muestre una variación excesiva

p = 0.05 =probabilidad de que un dispositivo de medición muestre una variación excesiva

q = 0.95 =probabilidad de que un dispositivo de medición no muestre una variación excesiva

p(x = 6) = (0.95)6–1(0.05)= 0.03869

b) x = 7 que el séptimo dispositivo de medición probado, sea el primero que no muestre una desviación excesiva

p = 0.95 = probabilidad de que un dispositivo de medición no muestre una variación excesiva

q = 0.05 = probabilidad de que un dispositivo de medición muestre una variación excesiva

p(x = 7) = (0.05)7–1(0.95)= 0.0000000148

8.5. Distribución hipergeométrica

Una variable tiene distribución hipergeométrica si procede de un experimento que cumple las siguientes condiciones:

1)     Se toma una muestra de tamaño n, sin reemplazamiento, de un conjunto finito de N objetos.

2)     K de los N objetos se pueden clasificar como éxitos y N - K como fracasos.

X cuenta el número de éxitos obtenidos en la muestra. Los valores de X en el espacio muestral es el conjunto de los números enteros de 0 a n, ó de 0 a K si K < n.

En este caso, la probabilidad del éxito en pruebas sucesivas no es constante pues depende del resultado de las pruebas anteriores. Por tanto, las pruebas no son independientes entre sí.

La función de probabilidad de la variable hipergeométrica es:

[pic]

Los parámetros de la distribución son n, N y K.

Notacion: [pic].

Los valores de la media y la varianza se calculan según las ecuaciones:

            [pic] (verificarlas)

 Si n es pequeño, con relación a N (n p0 ó

p < p0 ó

p ≠ p0

Paso 2 Calcule el valor z para la proporción muestral [pic] usando la fórmula:

Z =[pic], donde [pic] .

Paso 3 Usando la hipótesis alterna dibuja la región bajo la curva z que representa los valores extremos.

ó ó

(H1 : μ > μo) (H1 : μ < μo) (H1 : μ ≠ μo)

Paso 4 El valor P = al área de la cola sombreada (s) en el Paso 3.

Paso 5 Si el valor P < α, entonces rechaza H0

Si el valor P ≥ α, entonces no rechaces H0.

Ejemplo 1: Pruebe la hipótesis H0 : p = 0.4

H1 : p ≠ 0.4

Presuma que n = 200, y α = 0.01.

Solución:

Paso 1 H0 : p = 0.4

H1 : p ≠ 0.4

Paso 2 Calculando el valor z de [pic] , obtenemos

[pic]

Z =[pic]

Paso 3 La región bajo la curva z que contiene los valores extremos de es

Paso 4 El valor P = suma de las áreas de las regiones sombreadas en el Paso3.

= 2(el área a la derecha de 1.45)

= 2(0.5 – 0.4265)

= 0.147

Paso 5 Como el valor P es mayor que α, entonces no podemos rechazar H0.

Ejercicios.

1. H0 : p=0.6

H1 : p ≠ 0.6, n = 100, y α = 0.01

2. H0 : p = 0.29

H1 : p ≠ 0.29, n = 90, y α = 0.01

3. H0 : p = 0.36

H1 : p < 0.36, n = 630, y α = 0.05

Bibliografía

• Canavos, George C. (1988). Probabilidad y Estadística Aplicaciones y Métodos. McGrawHill.

• Gardner, Robert C. (2003). Estadística para Psicología Usando SPSS para Windows. Prentice-Hall, 1° ED.

• Jhonson, R y Kuby, P. (1999). Estadística Elemental, lo Esencial. México: Thomson.

• Martínez Bencardino, Ciro. (2006). Estadística Básica Aplicada. Colombia: ECOE EDICIONES, 3° ED.

• Martínez Bencardino, Ciro. (2008). Estadística y Muestreo. Colombia: ECOE EDICIONES, 12° ED.

• Montgomery, Douglas C. y Runger, George C. (1996). Probabilidad y Estadística. McGrawHill.

• Peralta Astudillo, María Josefa y at. (2000). Estadística: Problemas resueltos. Ediciones Pirámide.

-----------------------

Observaciones

f(x)

B

A

.005

.005

-2.575 2.575

.005

.005

-2.575 2.575

1.45

P/2

P/2

-z z

Valor P

z

Valor P

-z

-1.45 1.45

P/2

P/2

................
................

In order to avoid copyright disputes, this page is only a partial summary.

Google Online Preview   Download