Análisis de Contenido: Descifrando el Código de los Datos en Équa | ORBITECH

ORBITECH AI Academy

Definición y Tipos de Análisis de Contenido

Conceptos fundamentales y clasificación según enfoque metodológico.

Definición formal de análisis de contenido definition

AC = Estudio sistemático de textos (fotografías, discursos, ensayos) mediante codificación de unidades significativas

Symbole	Signification	Unité
`\text{AC}`	Análisis de contenido Método no invasivo para examinar patrones en comunicación escrita u oral. Aplicable a corpus como discursos presidenciales o redes sociales.

Exemple : Un estudio sobre discursos de candidatos a Ser Bachiller en Ecuador analiza 120 discursos de 5 provincias usando etiquetas como 'educación', 'economía' y 'seguridad'.

Frecuencia relativa de categorías law

f_{i} = \frac{n_{i}}{N} \times 100

Formes alternatives

$f_{i} = \frac{n_{i}}{\sum_{j = 1}^{k} n_{j}} \times 100$ — Fórmula equivalente cuando hay múltiples categorías (k).

Symbole	Signification	Unité
`f_i`	Frecuencia relativa de la categoría i Se expresa en porcentaje para comparar categorías dentro de un mismo corpus.	%
`n_i`	Conteo de unidades en la categoría i Ejemplo: número de veces que aparece la palabra 'desarrollo' en un discurso.	unidades
`N`	Total de unidades codificadas en el corpus Incluye todas las unidades analizadas (palabras, frases, párrafos).	unidades

Dimensions : $[1]$

Exemple : En un corpus de 850 palabras de un discurso de Rafael Correa, la palabra 'educación' aparece 42 veces. Calcula su frecuencia relativa: $f_{educación} = (42 / 850) \times 100 \approx 4.94 %$ .

Índice de diversidad léxica definition

D = \frac{V}{N}

Symbole	Signification	Unité
`D`	Índice de diversidad léxica Valores cercanos a 1 indican alta diversidad (poco uso de repetición). Valores cercanos a 0 indican baja diversidad (repetición excesiva).
`V`	Vocabulario único Ejemplo: en un texto de 500 palabras con 200 palabras distintas, V = 200.	palabras
`N`	Total de palabras Incluye todas las palabras, incluyendo repeticiones.	palabras

Dimensions : $[1]$

Exemple : Un artículo de opinión en el diario El Comercio tiene 1 200 palabras con 480 palabras únicas. Su índice de diversidad es $D = 480 / 1200 = 0.4$ . Comparado con un informe técnico de 1 200 palabras con 300 únicas ( $D = 0.25$ ), el artículo es más diverso.

Proceso de Codificación y Categorización

Fórmulas para evaluar la calidad y consistencia del proceso de asignación de códigos.

Coeficiente Kappa de Cohen law

K = \frac{P_{o} - P_{e}}{1 - P_{e}}

Symbole	Signification	Unité
`K`	Coeficiente Kappa de Cohen Valores: K < 0 (peor que azar), 0 ≤ K < 0.20 (ligero), 0.21 ≤ K ≤ 0.40 (razonable), 0.41 ≤ K ≤ 0.60 (moderado), 0.61 ≤ K ≤ 0.80 (sustancial), K > 0.80 (casi perfecto).
`P_o`	Proporción de acuerdo observado Calculado como (número de unidades donde los codificadores coinciden) / (total de unidades).
`P_e`	Proporción de acuerdo esperado por azar Depende de la distribución de categorías. Para dos codificadores: $P_{e} = \sum_{i} p_{i}^{2}$ , donde $p_{i}$ es la proporción de unidades asignadas a la categoría i por cada codificador.

Dimensions : $[1]$

Exemple : Dos estudiantes codifican 150 tweets sobre migración en Ecuador. Acuerdan en 120 unidades. La probabilidad esperada de acuerdo por azar es 0.45. Calcula K: $K = (120 / 150 - 0.45) / (1 - 0.45) = (0.8 - 0.45) / 0.55 \approx 0.64$ (confiabilidad sustancial).

Porcentaje de acuerdo entre codificadores law

P = \frac{A}{T} \times 100

Symbole	Signification	Unité
`P`	Porcentaje de acuerdo Fórmula simple pero sensible a sesgos por azar. Se recomienda usar Kappa para mayor rigor.	%
`A`	Unidades con acuerdo entre codificadores Ejemplo: si 80 de 100 unidades coinciden, A = 80.	unidades
`T`	Total de unidades codificadas Incluye todas las unidades analizadas por ambos codificadores.	unidades

Dimensions : $[1]$

Exemple : En un estudio sobre memes políticos ecuatorianos, dos codificadores analizan 200 unidades. Acuerdan en 165. Calcula P: $P = (165 / 200) \times 100 = 82.5 %$ .

Tasa de codificación por unidad de tiempo definition

T_{c} = \frac{U}{t}

Symbole	Signification	Unité
`T_c`	Tasa de codificación Útil para planificar proyectos. Valores típicos: 50-150 unidades/hora para codificación manual.	unidades/hora
`U`	Unidades codificadas Puede ser palabras, frases, párrafos o tweets.	unidades
`t`	Tiempo empleado Incluye tiempo de entrenamiento de codificadores y revisión.	horas

Dimensions : ${[T]}^{- 1}$

Exemple : Un estudiante codifica 300 tweets sobre COVID-19 en 4 horas. Su tasa es $T_{c} = 300 / 4 = 75 unidades/hora$ . Para un corpus de 1 200 tweets, estima el tiempo necesario: $t = 1200 / 75 = 16 horas$ .

Técnicas Cuantitativas en Análisis de Contenido

Métricas para analizar frecuencias, asociaciones y patrones en datos textuales.

Frecuencia absoluta de palabras definition

n_{i} = \sum_{j = 1}^{N} x_{i j}

Symbole	Signification	Unité
`n_i`	Frecuencia absoluta de la palabra i Ejemplo: en un corpus de 1 000 palabras, la palabra 'turismo' aparece 15 veces: $n_{turismo} = 15$ .	ocurrencias
`x_{ij}`	Variable indicadora $x_{i j}$ = 1 si la palabra i está presente en la unidad j (ej: frase, párrafo), 0 en caso contrario.
`N`	Número total de unidades Puede ser frases, párrafos o documentos completos.	unidades

Dimensions : $[1]$

Exemple : En 500 tweets sobre Galápagos, la palabra 'ecoturismo' aparece 28 veces. Calcula $n_{ecoturismo} = 28$ .

Prueba de chi-cuadrado para independencia law

χ^{2} = \sum_{i = 1}^{r} \sum_{j = 1}^{c} \frac{{(O_{i j} - E_{i j})}^{2}}{E_{i j}}

Symbole	Signification	Unité
`\chi^2`	Estadístico chi-cuadrado Valores altos indican asociación significativa entre variables categóricas. Compara con tabla de chi-cuadrado con gl = (r-1)(c-1) grados de libertad.
`O_{ij}`	Frecuencia observada en celda (i,j) Ejemplo: número de veces que la categoría 'política' aparece en tweets de Quito vs. Guayaquil.	ocurrencias
`E_{ij}`	Frecuencia esperada en celda (i,j) Calculada como (total fila i × total columna j) / total general.	ocurrencias
`r`	Número de filas en la tabla de contingencia Ejemplo: 2 filas (Quito, Guayaquil).
`c`	Número de columnas en la tabla de contingencia Ejemplo: 3 columnas (política, economía, cultura).

Dimensions : $[1]$

Exemple : En una tabla 2×2 con O = [[30, 20], [10, 40]] y E = [[25, 25], [15, 35]], calcula χ²: ${(30 - 25)}^{2} / 25 + {(20 - 25)}^{2} / 25 + {(10 - 15)}^{2} / 15 + {(40 - 35)}^{2} / 35 \approx 5.06$ . Con gl = 1, este valor es significativo al 95% (χ² crítico = 3.84).

Índice de similitud de Jaccard definition

J (A, B) = \frac{| A \cap B |}{| A \cup B |}

Symbole	Signification	Unité
`J(A,B)`	Índice de similitud de Jaccard Valores cercanos a 1 indican alta similitud. Valores cercanos a 0 indican baja similitud. Útil para comparar textos cortos como tweets.
`A`	Conjunto de palabras del texto A Ejemplo: {'turismo', 'ecológico', 'Galápagos'} para un texto sobre ecoturismo.	palabras
`B`	Conjunto de palabras del texto B Ejemplo: {'turismo', 'naturaleza', 'Islas'} para otro texto.	palabras

Dimensions : $[1]$

Exemple : Texto A: {'café', 'quito', 'turismo'} (3 palabras). Texto B: {'café', 'quito', 'montaña'} (3 palabras). Intersección = {'café', 'quito'} (2 palabras), unión = {'café', 'quito', 'turismo', 'montaña'} (4 palabras). Índice: $J = 2 / 4 = 0.5$ .

Técnicas Cualitativas en Análisis de Contenido

Métodos para interpretar significados, contextos y patrones no cuantificables.

Saturación teórica en codificación cualitativa approximation

S = \frac{C_{n}}{C_{n - 1}}

Formes alternatives

$S = \frac{\sum_{i = 1}^{n} C_{i}}{\sum_{i = 1}^{n - 1} C_{i}}$ — Fórmula acumulativa para evaluar saturación en todo el proceso.

Symbole	Signification	Unité
`S`	Razón de saturación teórica Cuando S < 0.1 durante 2 iteraciones consecutivas, se considera que se ha alcanzado saturación teórica (no emergen nuevas categorías).
`C_n`	Nuevas categorías en iteración n Ejemplo: en la 5ª iteración de codificación, emergen 2 nuevas categorías.	categorías
`C_{n-1}`	Nuevas categorías en iteración anterior Ejemplo: en la 4ª iteración, emergieron 20 nuevas categorías.	categorías

Dimensions : $[1]$

Exemple : En un estudio sobre remesas, las iteraciones muestran: C_3 = 5, C_4 = 3, C_5 = 1. Razones: $S_{4} = 3 / 5 = 0.6$ , $S_{5} = 1 / 3 \approx 0.33$ . No se alcanza saturación (S > 0.1).

Profundidad de análisis temático law

P = \frac{T_{d}}{T_{t}} \times 100

Symbole	Signification	Unité
`P`	Profundidad temática Indica qué porcentaje de temas identificados fueron analizados en detalle (ej: con citas textuales, contexto histórico).	%
`T_d`	Temas profundizados Ejemplo: de 12 temas sobre 'migración a España', se profundiza en 8.	temas
`T_t`	Temas totales identificados Incluye todos los temas emergentes del análisis.	temas

Dimensions : $[1]$

Exemple : Un análisis de 15 entrevistas a agricultores de Cotopaxi identifica 22 temas. Se profundiza en 14. Profundidad: $P = (14 / 22) \times 100 \approx 63.6 %$ .

Matriz de contexto para análisis cualitativo definition

M = [\begin{matrix} c_{11} & c_{12} & \dots & c_{1 n} \\ c_{21} & c_{22} & \dots & c_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ c_{m 1} & c_{m 2} & \dots & c_{m n} \end{matrix}]

Symbole	Signification	Unité
`M`	Matriz de contexto Organiza datos cualitativos en filas (categorías) y columnas (contexto: género, edad, región, etc.). Permite identificar patrones transversales.
`c_{ij}`	Valor de la categoría i en contexto j Puede ser binario (1/0), ordinal (1-5) o nominal (ej: 'alto', 'medio', 'bajo').
`m`	Número de categorías Ejemplo: 5 categorías como 'motivación', 'dificultades', etc.
`n`	Número de contextos Ejemplo: 3 contextos (hombres, mujeres, jóvenes).

Dimensions : $[m \times n]$

Exemple : Matriz 3×2 para estudiar turismo comunitario: filas = {'participación', 'beneficios', 'conflictos'}, columnas = {'Comunidad A', 'Comunidad B'}. Valores: $c_{11}$ =1 (alta participación en A), $c_{12}$ =0 (baja en B).

Herramientas Digitales para Análisis de Contenido

Fórmulas para evaluar el rendimiento de algoritmos y herramientas automatizadas.

Precisión de un clasificador automático law

P = \frac{V P}{V P + F P}

Formes alternatives

$P = \frac{1}{N} \sum_{i = 1}^{N} I (y_{i} = {\hat{y}}_{i})$ — Fórmula para precisión en clasificación multiclase, donde I es la función indicadora.

Symbole	Signification	Unité
`P`	Precisión Porcentaje de unidades correctamente clasificadas como positivas. Valores altos indican bajo ruido en la clasificación.
`VP`	Verdaderos positivos Ejemplo: tweets correctamente etiquetados como 'política'.	unidades
`FP`	Falsos positivos Ejemplo: tweets etiquetados como 'política' pero que hablan de 'deportes'.	unidades

Dimensions : $[1]$

Exemple : Un algoritmo clasifica 200 tweets sobre Ser Bachiller. VP = 85, FP = 15. Precisión: $P = 85 / (85 + 15) = 0.85$ (85%).

Recuperación (Recall) de un clasificador law

R = \frac{V P}{V P + F N}

Symbole	Signification	Unité
`R`	Recuperación (Recall) Capacidad del clasificador para encontrar todas las unidades positivas. Importante cuando el costo de omitir una unidad es alto (ej: análisis de discurso de odio).
`VP`	Verdaderos positivos Mismo significado que en la fórmula de precisión.	unidades
`FN`	Falsos negativos Ejemplo: tweets que hablan de 'política' pero no fueron etiquetados como tales.	unidades

Dimensions : $[1]$

Exemple : Mismo corpus de 200 tweets: VP = 85, FN = 30. Recuperación: $R = 85 / (85 + 30) \approx 0.74$ (74%). El algoritmo omite el 26% de los tweets relevantes.

F1-score (Media armónica de precisión y recuperación) law

F_{1} = 2 \times \frac{P \times R}{P + R}

Symbole	Signification	Unité
`F_1`	F1-score Balance entre precisión y recuperación. Útil para comparar modelos cuando hay desbalance de clases (ej: pocos tweets sobre 'ciencia' en un corpus general).
`P`	Precisión Mismo significado que en la fórmula anterior.
`R`	Recuperación Mismo significado que en la fórmula anterior.

Dimensions : $[1]$

Exemple : Para el clasificador de tweets: P = 0.85, R = 0.74. F1-score: $F_{1} = 2 \times (0.85 \times 0.74) / (0.85 + 0.74) \approx 0.79$ .

Tiempo de procesamiento por unidad definition

T_{p} = \frac{t}{N}

Symbole	Signification	Unité
`T_p`	Tiempo de procesamiento por unidad Indica la eficiencia de la herramienta. Valores bajos son deseables para análisis de grandes corpus.	segundos/unidad
`t`	Tiempo total de procesamiento Incluye tiempo de carga, limpieza de datos y generación de resultados.	segundos
`N`	Número de unidades procesadas Ejemplo: 10 000 tweets.	unidades

Dimensions : $[T]$

Exemple : Una herramienta procesa 5 000 tweets en 180 segundos. Tiempo por unidad: $T_{p} = 180 / 5000 = 0.036 s/unidad$ (36 milisegundos).

Definición y Tipos de Análisis de Contenido

Proceso de Codificación y Categorización

Técnicas Cuantitativas en Análisis de Contenido

Técnicas Cualitativas en Análisis de Contenido

Herramientas Digitales para Análisis de Contenido

Fuentes