¿Cómo sé si mis resultados de análisis multivariado tienen sentido en mi investigación?
Hice un análisis multivariado en R con datos de precios de productos agrícolas en Quito, Guayaquil y Cuenca. Obtuve una matriz de correlación con valores entre -0.8 y 0.9, coeficientes de regresión significativos y un valor propio mayor a 3 en el primer componente principal. Pero no sé si estos resultados son válidos ni cómo interpretarlos. ¿Alguien me puede explicar paso a paso qué debo mirar primero y qué significan estos números en mi contexto ecuatoriano?
María, lo primero que debes hacer es revisar los supuestos del modelo. ¿Validaste la normalidad de los residuos y la homocedasticidad? En R usa shapiro.test() y plot(modelo).
¡Excelente pregunta, María! Vamos por partes. Primero, esos valores de correlación entre -0.8 y 0.9 son normales en datos económicos. Pero fíjate: si hay correlaciones mayores a 0.8 entre variables independientes, podrías tener multicolinealidad. Prueba con VIF > 5 en R con vif(modelo).
@ProfLuzCuenca dijo: "Primero, esos valores de correlación entre -0.8 y 0.9 son normales en datos económicos"
@ProfLuzCuenca gracias por la explicación. ¿Y cómo sé si mi valor propio de 3.2 es bueno o malo? ¿Hay algún umbral?
@ProfLuzCuenca dijo: "Primero, esos valores de correlación entre -0.8 y 0.9 son normales en datos económicos"
María, si tu valor propio es 3.2 y tienes 5 variables, eso significa que el 64% de tu varianza está explicada por el primer componente. ¡Es como decir que el 64% de tu vida está explicada por el café de la mañana!
Pero @ProfLuzCuenca, ¿y los coeficientes de regresión? ¿Cómo los interpreto cuando tengo variables en diferentes unidades? Por ejemplo, precio en USD y distancia en km.
@AnaGuayaquil dijo: "¿y los coeficientes de regresión? ¿Cómo los interpreto cuando tengo variables en diferentes unidades?"
¡Buen punto, Ana! Para comparar coeficientes en diferentes unidades, usa coeficientes estandarizados (beta). En R: lm(scale(y) ~ scale(x1) + scale(x2)). Un beta de 0.7 significa que al aumentar x1 en una desviación estándar, y aumenta 0.7 desviaciones estándar.
@ProfLuzCuenca dijo: "usa coeficientes estandarizados (beta)"
Para evaluar la significancia, mira el valor p de cada coeficiente. Si es menor a 0.05, es significativo. También revisa el R² ajustado: si es bajo (ej: 0.3), tu modelo explica solo el 30% de la variabilidad. En datos económicos ecuatorianos, valores entre 0.5 y 0.8 son aceptables.
@MoustaphaLoja dijo: "mira el valor p de cada coeficiente"
¿Y si mis datos tienen valores atípicos? ¿Cómo afectan al análisis multivariado? Mi hijo está trabajando con datos de precios de cacao en Esmeraldas.
@KhadijaIbarra dijo: "¿Y si mis datos tienen valores atípicos?"
¡Cuidado con los valores atípicos, Khadija! Usa boxplots y el estadístico de Cook's distance. En R: cooks.distance(modelo). Si hay puntos con distancia > 1, pueden distorsionar tus resultados. Para datos de cacao, revisa si hay precios anormalmente altos por problemas de registro.
Profesora, ¿qué pasa si mi matriz de correlación tiene valores negativos? Por ejemplo, precio del banano y precio del plátano en Santo Domingo. ¿Cómo lo interpreto?
@JorgeCotopaxi dijo: "¿qué pasa si mi matriz de correlación tiene valores negativos?"
¡Muy buena observación, Jorge! Un valor negativo significa que cuando sube el precio del banano, baja el del plátano. Esto puede deberse a que son sustitutos en la canasta familiar. En Ecuador, esto es común con productos de la costa vs. sierra. Usa un dendrograma para ver clusters de productos correlacionados.
Entiendo todo mejor ahora. Pero ¿cómo aplico esto específicamente a mi investigación sobre precios agrícolas en las 3 ciudades? ¿Debo hacer análisis separados por ciudad o combinar los datos?
@MaríaQuito dijo: "¿Debo hacer análisis separados por ciudad o combinar los datos?"
Depende de tu objetivo, María. Si quieres comparar patrones entre ciudades, usa análisis multigrupo. Si buscas factores comunes en todo el país, combina los datos pero incluye una variable dummy para ciudad (ej: Quito=1, Guayaquil=2, Cuenca=3). Así controlas por diferencias regionales.
@MoustaphaLoja dijo: "incluye una variable dummy para ciudad"
O sea que si Quito tiene precio más alto, tu variable dummy lo captura. ¡Como cuando pagas más por un café en la Mitad del Mundo que en cualquier otro lado!
@MoustaphaLoja dijo: "usa análisis multigrupo"
@MoustaphaLoja gracias por la aclaración. ¿Y qué software recomiendan para hacer esto en Ecuador? ¿Solo R o también Python?
@CarlosAmbato dijo: "¿qué software recomiendan para hacer esto en Ecuador?"
Ambos son excelentes. R tiene paquetes como 'psych' para análisis multivariado y 'ggplot2' para visualización. Python con pandas, numpy y sklearn es más flexible para big data. En Ecuador, muchas universidades usan R por ser open source y tener buena documentación en español.
Profesora, ¿y si quiero presentar estos resultados para el Ser Bachiller? ¿Cómo debo estructurar la sección de metodología y resultados?
@AnaGuayaquil dijo: "¿cómo debo estructurar la sección para el Ser Bachiller?"
Para el Ser Bachiller, estructura así: 1) Objetivo del análisis multivariado, 2) Variables incluidas con unidades (USD, km), 3) Método usado (ACP, regresión múltiple), 4) Supuestos validados, 5) Resultados principales con tablas y gráficos, 6) Discusión de implicaciones. Usa APA para citas.
@ProfLuzCuenca dijo: "estructura así: 1) Objetivo..."
@ProfLuzCuenca gracias por toda la ayuda. Ya me siento más segura para interpretar mis resultados. ¡Voy a aplicar esto a mi investigación sobre precios de la papa en las 3 ciudades!
@MaríaQuito dijo: "Voy a aplicar esto a mi investigación sobre precios de la papa"
¡Yo también! Voy a revisar mis datos de precios de arroz en Loja. ¿Alguien quiere colaborar en un proyecto grupal?
Muy útil este hilo. ¿Alguien sabe si en la Universidad Central de Quito enseñan esto en la carrera de Economía? Mi sobrino está en tercer semestre.
@KhadijaIbarra dijo: "¿Alguien sabe si en la Universidad Central..."
¡Sí, Khadija! En la Universidad Central, Estadística Aplicada II (tercer semestre) incluye análisis multivariado con R. También en la Escuela Politécnica Nacional y la Universidad de Cuenca. Pregunta por el profesor que dicta 'Métodos Cuantitativos'.
O sea que si no entiendes esto, mejor te dedicas a vender empanadas en el mercado. ¡Allí también se analizan precios, pero con más intuición y menos matemáticas!
Por último, ¿dónde puedo encontrar ejemplos reales de análisis multivariado aplicados a datos ecuatorianos para practicar?
@MaríaQuito dijo: "¿dónde puedo encontrar ejemplos reales de análisis multivariado?"
Busca en repositorios académicos ecuatorianos como el de la ESPOL o la Universidad de Cuenca. También en el INEC tienen bases de datos abiertas con variables socioeconómicas. Para empezar, descarga su encuesta de condiciones de vida y aplica ACP a variables como ingresos, educación y acceso a servicios.