
Por: Dra. Elsa Edith Rivera Rosales
Actualmente muchos experimentos en las ciencias sociales, biológicas, económicas, entre otras, arrojan datos de tipo categóricos (no paramétricos). Generalmente, los procedimientos de prueba de hipótesis e intervalos de confianza se basan en muestras aleatorias tomadas de poblaciones normales. A menudo, éstos no funcionan bien para un conjunto de datos que disponen de: muy pocas observaciones, demasiadas variables, o bien, debido a la naturaleza que pueden tomar las variables de estudio cuyo comportamiento no es Gaussiano. Para solucionar tal problema, los métodos no paramétricos ofrecen una gran utilidad, ya que proporcionan de manera habitual mejoras considerables en comparación con los métodos paramétricos (Agresti, 2008).
En particular, los métodos no paramétricos para datos categóricos han incrementado su uso especialmente en aplicaciones a ciencias de la salud, educación, sociales, biológicas, entre otras. La modelación de las variables consideradas en estas aplicaciones se conoce comúnmente con el nombre de modelos de elección discreta, dentro de la cual existe una amplia variedad de modelos. En concreto, según el número de alternativas incluidas en la variable respuesta, se distinguen los modelos de respuesta simple frente a los denominados modelos de elección múltiple. Según la función utilizada para la estimación de la probabilidad, existe el modelo de probabilidad lineal y el modelo Logit.
Dentro de los modelos estadísticos que distinguen entre variable respuesta y explicatoria; están los modelos de regresión que describen cómo la media de la variable respuesta, tal como el precio de venta de una casa, cambia de acuerdo a los valores de las variables explicatorias, como puede ser la ubicación o la medida de la superficie del terreno. La variable respuesta es algunas veces llamada variable dependiente denotada por Y, la variable explicatoria es llamada variable independiente, representada por X. Además, las variables explicatorias pueden ser categóricas o continuas. Rojas (2007) introduce la idea de variable categórica asociada a una partición como al considerar una variable aleatoria arbitraria que toma valores en el espacio muestral , y sea una partición de en categorías . La variable categórica introducida por y la partición toma valores en el conjunto de categorías , y se define como . Es importante mencionar que el análisis de datos categóricos, requiere suposiciones sobre el mecanismo aleatorio por el cual se generan los datos, como lo es su distribución, por tal motivo analizar la distribución binomial y multinomial que tienen un papel clave en el estudio de datos categóricos.
Referencias
[1] Agresti, A. (2008). An Introduction to Categorical Data Analysis. New York: Wiley.
[2] Rojas, M. E. (2007). Ejemplos sobre el Análisis de Datos Categóricos. Saltillo: Tesis de Maestría en Estadística Experimental. UAAAN.




