sábado, 14 de agosto de 2010
BIBLIOGRAFIA RECOMENDADA
Galdos. Calculo y Estadística III Edición Unica
Cannavos G. Probabilidad y Estadística Aplicación y Métodos
RESUMEN
La Estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones.
Conceptos de Estadística
Población
Una población es el conjunto de todos los elementos a los que se somete a un estudio estadístico.
Individuo
Un individuo o unidad estadística es cada uno de los elementos que componen la población.
Muestra
Una muestra es un conjunto representativo de la población de referencia, el número de individuos de una muestra es menor que el de la población.
Muestreo
El muestreo es la reunión de datos que se desea estudiar, obtenidos de una proporción reducida y representativa de la población.
Valor
Un valor es cada uno de los distintos resultados que se pueden obtener en un estudio estadístico. Si lanzamos una moneda al aire 5 veces obtenemos dos valores: cara y cruz.
Dato
Un dato es cada uno de los valores que se ha obtenido al realizar un estudio estadístico. Si lanzamos una moneda al aire 5 veces obtenemos 5 datos: cara, cara, cruz, cara, cruz.
Variables estadísticas
Variable cualitativa
Las variables cualitativas se refieren a características o cualidades que no pueden ser medidas con números. Podemos distinguir dos tipos:
Variable cualitativa nominal
Una variable cualitativa nominal presenta modalidades no numéricas que no admiten un criterio de orden.
Variable cualitativa ordinal o variable cuasicuantitativa
Una variable cualitativa ordinal presenta modalidades no númericas, en las que existe un orden.
Variable cuantitativa
Una variable cuantitativa es la que se expresa mediante un número, por tanto se pueden realizar operaciones aritméticas con ella. Podemos distinguir dos tipos:
Variable discreta
Una variable discreta es aquella que toma valores aislados, es decir no admite valores intermedios entre dos valores específicos.
Variable continua
Una variable continua es aquella que puede tomar valores comprendidos entre dos números.
Distribución de frecuencias
La distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente.
Diagrama de barras
Un diagrama de barras se utiliza para de presentar datos cualitativos o datos cuantitativos de tipo discreto.
Los datos se representan mediante barras de una altura proporcional a la frecuencia.
Polígonos de frecuencias
Un polígono de frecuencias se forma uniendo los extremos de las barras mediante segmentos.
También se puede realizar trazando los puntos que representan las frecuencias y uniéndolos mediante segmentos.
Diagrama de sectores
Un diagrama de sectores se puede utilizar para todo tipo de variables, pero se usa frecuentemente para las variables cualitativas.
Los datos se representan en un círculo, de modo que el ángulo de cada sector es proporcional a la frecuencia absoluta correspondiente.
Un histograma es una representación gráfica de una variable en forma de barras.
Se utilizan para variables continuas o para variables discretas, con un gran número de datos, y que se han agrupado en clases.
En el eje abscisas se construyen unos rectángulos que tienen por base la amplitud del intervalo, y por altura, la frecuencia absoluta de cada intervalo.
Medidas de centralización
Moda
La moda es el valor que tiene mayor frecuencia absoluta.
Se representa por Mo.
Se puede hallar la moda para variables cualitativas y cuantitativas.
Cálculo de la moda para datos agrupados
1º Todos los intervalos tienen la misma amplitud.
En primer lugar tenemos que hallar las alturas.
La clase modal es la que tiene mayor altura. Mediana
Es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor.
La mediana se representa por Me.
La mediana se puede hallar sólo para variables cuantitativas.
Cálculo de la mediana
1 Ordenamos los datos de menor a mayor.
2 Si la serie tiene un número impar de medidas la mediana es la puntuación central de la misma.
3 Si la serie tiene un número par de puntuaciones la mediana es la media entre las dos puntuaciones centrales.
Cálculo de la mediana para datos agrupados
La mediana se encuentra en el intervalo donde la frecuencia acumulada llega hasta la mitad de la suma de las frecuencias absolutas.
Es decir tenemos que buscar el intervalo en el que se encuentre : N/2
Media aritmética para datos agrupadosSi los datos vienen agrupados en una tabla de frecuencias, la expresión de la media es:
Medidas de Posición
Cuartiles
Los cuartiles son los tres valores de la variable dividen a un conjunto de datos ordenados en cuatro partes iguales.
Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos.
Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales.
Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los datos.
Percentiles
Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales.
Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los datos.
viernes, 13 de agosto de 2010
Apuntes 04: Estadística Inferencial. Correlación y Regresión.
La regresión como una técnica estadística, una de ellas la regresión lineal simple y la regresión multifactorial, analiza la relación de dos o mas variables continuas, cuando analiza las dos variables a esta se el conoce como variable bivariantes que pueden corresponder a variables cualitativas. La regresión nos permite el cambio en una de las variables llamadas respuesta y que corresponde a otra conocida como variable explicativa, la regresión es una técnica utilizada para inferir datos a partir de otros y hallar una respuesta de lo que puede suceder.
Siendo así la regresión una técnica estadística, por lo tanto para interpretar situaciones reales, pero a veces se manipula de mala manera por lo que es necesario realizar una
Se pueden encontrar varios tipos de regresión, por ejemplo:
Regresión lineal simple
Regresión múltiple ( varias variables)
Regresión logística
Simple b) Múltiple, etc.
La regresión lineal técnica que usa variables aleatorias, continuas se diferencia del otro
La matematización nos da ecuaciones para manipular los datos, como por ejemplo medir la circunferencia de los niños y niñas y que parece incrementarse entre las edades de 2 meses y 18 años, aquí podemos inferir o predecir que las circunferencias del cráneo cambiara con la edad, en este ejercicio la circunferencia de la cabeza es la respuesta y la edad la variable explicativa.
En la regresión tenemos ecuaciones que nos representan las diferentes clases de regresión:
Regresión Lineal : y = A + Bx
Regresiòn Logarìmica : y = A + BLn(x)
Regresión Exponencial : y = Ac(bx)
Regresión Cuadrática : y = A + Bx +Cx2
R = Coeficiente de correlación, este método mide el grado de relación existente entre dos variables, el valor de R varía de -1 a 1, pero en la práctica se traba con un valor absoluto de R.
El valor del coeficiente de relación se interpreta de modo que a media que R se aproxima a 1, es más grande la relación entre los datos, por lo tanto R (coeficiente de correlación) mide la aproximación entre las variables.
El coeficiente de correlación se puede clasificar de la siguiente manera:
CORRELACIÒN VALOR O RANGO
1) Perfecta 1) R = 1
2) Excelente 2) R = 0.9 < = R < r =" 0.8" r =" 0.5">
Coeficiente de Correlación de Pearson
El coeficiente de correlación de Pearson es un índice estadístico que mide la relación lineal entre dos variables cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables.
El cálculo del coeficiente de correlación lineal se realiza dividiendo la covarianza por el producto de las desviaciones estándar de ambas variables:
Siendo:
σXY la covarianza de (X,Y)
σX y σY las desviaciones típicas de las distribuciones marginales.
El valor del índice de correlación varía en el intervalo [-1, +1]:
Si r = 0, no existe relación lineal. Pero esto no necesariamente implica una independencia total entre las dos variables, es decir, que la variación de una de ellas puede influir en el valor que pueda tomar la otra. Pudiendo haber relaciones no lineales entre las dos variables. Estas pueden calcularse con la razón de correlación.
Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos variables denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en idéntica proporción.
Si 0 < r =" -1,">
EJERCICIOS PARA PRACTICAR (PARTE III)
xi: 61, 64, 67, 70, 73
fi :5, 18, 42, 27, 8
Calcular:
1 La moda, mediana y media.
2 El rango, desviación media, varianza y desviación típica.
Ejemplos de Medidas de Tendencia Central
Apuntes 03: Medidas de Tendencia Central, Absolutas y Relativas
La medidas de centralización son:
Media Aritmética
La media es el valor promedio de la distribución. Si se tiene una muestra estadística de valores (X1,X2,...,Xn) de valores para una variable aleatoria X con distribución de probabilidad F (x,?) [donde ? es un conjunto de parámetros de la distribución] se define la media muestral n-ésima.
Es necesario tener agrupados los datos en forma ascendente o descendente, es decir, que se tenga como primer dato el máximo o el mínimo antes de calcular la media muestral.
Mediana
La mediana es la puntación de la escala que separa la mitad superior de la distribución y la inferior, es decir divide la serie de datos en dos partes iguales. Definiremos como mediana al valor de la variable que deja el mismo número de datos antes y después que él. De acuerdo con esta definición el conjunto de datos menores o iguales que la mediana representarán el 50% de los datos, y los que sean mayores que la mediana representarán el otro 50% del total de datos de la muestra.
Moda
La moda es el valor que más se repite en una distribución. Es el dato que más se repite en la cuenta. Si existen dos datos que se repite un número igual de veces entonces el conjunto será bimodal. Ejemplo: Número de personas en distintos carros en una carretera: 5-7-4-6-9-5-6-1-5-3-7. En este caso el número que más se repite es 5 entonces la moda en este caso es 5.
En estadistica la moda es el valor que cuenta con una mayor frecuencia en una distribución de datos.
Las medidas de posición dividen un conjunto de datos en grupos con el mismo número de individuos. Para calcular las medidas de posición es necesario que los datos estén ordenados de menor a mayor.
La medidas de posición son:
Cuartiles
Los cuartiles dividen la serie de datos en cuatro partes iguales.
Deciles
Los deciles dividen la serie de datos en diez partes iguales.
Percentiles
Los percentiles dividen la serie de datos en cien partes iguales. Representan los valores de la variable que están por debajo de un porcentaje, el cual puede ser un valor de 1% a 100% (en otras palabras, el total de los datos es divido en 100 partes iguales).
Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores de la distribución. Las medidas de dispersión son:
El rango es la diferencia entre el mayor y el menor de los datos de una distribución estadística.
Desviación Media
La desviación media es la media aritmética de los valores absolutos de las desviaciones respecto a la media.
Varianza
La varianza es la media aritmética del cuadrado de las desviaciones respecto a la media.
Desviación Típica
La desviación típica es la raíz cuadrada de la varianza.
EJERCICIOS PARA PRACTICAR (PARTEII)
1. Busca las definiciones de tablas de frecuencia, como se construyen diagramas de barras y de líneas. Que es un polígono de frecuencia y un diagrama de sectores.
32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29. Construir la tabla de frecuencias.
Peso: [50, 60), [60, 70), [70, 80), [80,90), [90, 100), [100, 110), [110, 120)
fi: 8......... 10....... 16..... 14........ 10....... 5............ 2