Skip to content
Este artículo tiene fines educativos. Te animamos a verificar con fuentes oficiales.

¿Cómo sé si mis resultados de análisis multivariado tienen sentido en mi investigación?

@MaríaQuito · · answered
#estadística aplicada#análisis multivariado#ecuador#ser bachiller#investigación

Hice un análisis multivariado en R con datos de precios de productos agrícolas en Quito, Guayaquil y Cuenca. Obtuve una matriz de correlación con valores entre -0.8 y 0.9, coeficientes de regresión significativos y un valor propio mayor a 3 en el primer componente principal. Pero no sé si estos resultados son válidos ni cómo interpretarlos. ¿Alguien me puede explicar paso a paso qué debo mirar primero y qué significan estos números en mi contexto ecuatoriano?

@CarlosAmbato student ·

María, lo primero que debes hacer es revisar los supuestos del modelo. ¿Validaste la normalidad de los residuos y la homocedasticidad? En R usa shapiro.test() y plot(modelo).

@ProfLuzCuenca teacher ·

¡Excelente pregunta, María! Vamos por partes. Primero, esos valores de correlación entre -0.8 y 0.9 son normales en datos económicos. Pero fíjate: si hay correlaciones mayores a 0.8 entre variables independientes, podrías tener multicolinealidad. Prueba con VIF > 5 en R con vif(modelo).

@MaríaQuito student ·
@ProfLuzCuenca dijo: "Primero, esos valores de correlación entre -0.8 y 0.9 son normales en datos económicos"

@ProfLuzCuenca gracias por la explicación. ¿Y cómo sé si mi valor propio de 3.2 es bueno o malo? ¿Hay algún umbral?

@JokerPichincha joke ·
@ProfLuzCuenca dijo: "Primero, esos valores de correlación entre -0.8 y 0.9 son normales en datos económicos"

María, si tu valor propio es 3.2 y tienes 5 variables, eso significa que el 64% de tu varianza está explicada por el primer componente. ¡Es como decir que el 64% de tu vida está explicada por el café de la mañana!

@AnaGuayaquil student ·

Pero @ProfLuzCuenca, ¿y los coeficientes de regresión? ¿Cómo los interpreto cuando tengo variables en diferentes unidades? Por ejemplo, precio en USD y distancia en km.

@ProfLuzCuenca teacher ·
@AnaGuayaquil dijo: "¿y los coeficientes de regresión? ¿Cómo los interpreto cuando tengo variables en diferentes unidades?"

¡Buen punto, Ana! Para comparar coeficientes en diferentes unidades, usa coeficientes estandarizados (beta). En R: lm(scale(y) ~ scale(x1) + scale(x2)). Un beta de 0.7 significa que al aumentar x1 en una desviación estándar, y aumenta 0.7 desviaciones estándar.

y=β1x1+β2x2+ϵ
@MoustaphaLoja expert ·
@ProfLuzCuenca dijo: "usa coeficientes estandarizados (beta)"

Para evaluar la significancia, mira el valor p de cada coeficiente. Si es menor a 0.05, es significativo. También revisa el R² ajustado: si es bajo (ej: 0.3), tu modelo explica solo el 30% de la variabilidad. En datos económicos ecuatorianos, valores entre 0.5 y 0.8 son aceptables.

Rajustado2=1(1R2)n1np1
@KhadijaIbarra parent ·
@MoustaphaLoja dijo: "mira el valor p de cada coeficiente"

¿Y si mis datos tienen valores atípicos? ¿Cómo afectan al análisis multivariado? Mi hijo está trabajando con datos de precios de cacao en Esmeraldas.

@ProfLuzCuenca teacher ·
@KhadijaIbarra dijo: "¿Y si mis datos tienen valores atípicos?"

¡Cuidado con los valores atípicos, Khadija! Usa boxplots y el estadístico de Cook's distance. En R: cooks.distance(modelo). Si hay puntos con distancia > 1, pueden distorsionar tus resultados. Para datos de cacao, revisa si hay precios anormalmente altos por problemas de registro.

Di=ei2pMSE(hii(1hii)2)
@JorgeCotopaxi student ·

Profesora, ¿qué pasa si mi matriz de correlación tiene valores negativos? Por ejemplo, precio del banano y precio del plátano en Santo Domingo. ¿Cómo lo interpreto?

@ProfLuzCuenca teacher ·
@JorgeCotopaxi dijo: "¿qué pasa si mi matriz de correlación tiene valores negativos?"

¡Muy buena observación, Jorge! Un valor negativo significa que cuando sube el precio del banano, baja el del plátano. Esto puede deberse a que son sustitutos en la canasta familiar. En Ecuador, esto es común con productos de la costa vs. sierra. Usa un dendrograma para ver clusters de productos correlacionados.

rxy=Cov(x,y)σxσy
@MaríaQuito student ·

Entiendo todo mejor ahora. Pero ¿cómo aplico esto específicamente a mi investigación sobre precios agrícolas en las 3 ciudades? ¿Debo hacer análisis separados por ciudad o combinar los datos?

@MoustaphaLoja expert ·
@MaríaQuito dijo: "¿Debo hacer análisis separados por ciudad o combinar los datos?"

Depende de tu objetivo, María. Si quieres comparar patrones entre ciudades, usa análisis multigrupo. Si buscas factores comunes en todo el país, combina los datos pero incluye una variable dummy para ciudad (ej: Quito=1, Guayaquil=2, Cuenca=3). Así controlas por diferencias regionales.

y=β0+β1x1+β2x2+β3Quito+β4Guayaquil+ϵ
@JokerPichincha joke ·
@MoustaphaLoja dijo: "incluye una variable dummy para ciudad"

O sea que si Quito tiene precio más alto, tu variable dummy lo captura. ¡Como cuando pagas más por un café en la Mitad del Mundo que en cualquier otro lado!

@CarlosAmbato student ·
@MoustaphaLoja dijo: "usa análisis multigrupo"

@MoustaphaLoja gracias por la aclaración. ¿Y qué software recomiendan para hacer esto en Ecuador? ¿Solo R o también Python?

@ProfLuzCuenca teacher · Mejor respuesta
@CarlosAmbato dijo: "¿qué software recomiendan para hacer esto en Ecuador?"

Ambos son excelentes. R tiene paquetes como 'psych' para análisis multivariado y 'ggplot2' para visualización. Python con pandas, numpy y sklearn es más flexible para big data. En Ecuador, muchas universidades usan R por ser open source y tener buena documentación en español.

@AnaGuayaquil student ·

Profesora, ¿y si quiero presentar estos resultados para el Ser Bachiller? ¿Cómo debo estructurar la sección de metodología y resultados?

@ProfLuzCuenca teacher ·
@AnaGuayaquil dijo: "¿cómo debo estructurar la sección para el Ser Bachiller?"

Para el Ser Bachiller, estructura así: 1) Objetivo del análisis multivariado, 2) Variables incluidas con unidades (USD, km), 3) Método usado (ACP, regresión múltiple), 4) Supuestos validados, 5) Resultados principales con tablas y gráficos, 6) Discusión de implicaciones. Usa APA para citas.

@MaríaQuito student ·
@ProfLuzCuenca dijo: "estructura así: 1) Objetivo..."

@ProfLuzCuenca gracias por toda la ayuda. Ya me siento más segura para interpretar mis resultados. ¡Voy a aplicar esto a mi investigación sobre precios de la papa en las 3 ciudades!

@JorgeCotopaxi student ·
@MaríaQuito dijo: "Voy a aplicar esto a mi investigación sobre precios de la papa"

¡Yo también! Voy a revisar mis datos de precios de arroz en Loja. ¿Alguien quiere colaborar en un proyecto grupal?

@KhadijaIbarra parent ·

Muy útil este hilo. ¿Alguien sabe si en la Universidad Central de Quito enseñan esto en la carrera de Economía? Mi sobrino está en tercer semestre.

@ProfLuzCuenca teacher ·
@KhadijaIbarra dijo: "¿Alguien sabe si en la Universidad Central..."

¡Sí, Khadija! En la Universidad Central, Estadística Aplicada II (tercer semestre) incluye análisis multivariado con R. También en la Escuela Politécnica Nacional y la Universidad de Cuenca. Pregunta por el profesor que dicta 'Métodos Cuantitativos'.

@JokerPichincha joke ·

O sea que si no entiendes esto, mejor te dedicas a vender empanadas en el mercado. ¡Allí también se analizan precios, pero con más intuición y menos matemáticas!

@MaríaQuito student ·

Por último, ¿dónde puedo encontrar ejemplos reales de análisis multivariado aplicados a datos ecuatorianos para practicar?

@MoustaphaLoja expert ·
@MaríaQuito dijo: "¿dónde puedo encontrar ejemplos reales de análisis multivariado?"

Busca en repositorios académicos ecuatorianos como el de la ESPOL o la Universidad de Cuenca. También en el INEC tienen bases de datos abiertas con variables socioeconómicas. Para empezar, descarga su encuesta de condiciones de vida y aplica ACP a variables como ingresos, educación y acceso a servicios.

Fuentes

  1. en.wikipedia.org