Skip to content
Este artículo tiene fines educativos. Te animamos a verificar con fuentes oficiales.

Definición y Tipos de Análisis de Contenido

Conceptos fundamentales y clasificación según enfoque metodológico.

Definición formal de análisis de contenido definition
AC=Estudio sistemático de textos (fotografías, discursos, ensayos) mediante codificación de unidades significativas
SymboleSignificationUnité
\text{AC}Análisis de contenido
Método no invasivo para examinar patrones en comunicación escrita u oral. Aplicable a corpus como discursos presidenciales o redes sociales.

Exemple : Un estudio sobre discursos de candidatos a Ser Bachiller en Ecuador analiza 120 discursos de 5 provincias usando etiquetas como 'educación', 'economía' y 'seguridad'.

Frecuencia relativa de categorías law
fi=niN×100
Formes alternatives
  • fi=nij=1knj×100 — Fórmula equivalente cuando hay múltiples categorías (k).
SymboleSignificationUnité
f_iFrecuencia relativa de la categoría i
Se expresa en porcentaje para comparar categorías dentro de un mismo corpus.
%
n_iConteo de unidades en la categoría i
Ejemplo: número de veces que aparece la palabra 'desarrollo' en un discurso.
unidades
NTotal de unidades codificadas en el corpus
Incluye todas las unidades analizadas (palabras, frases, párrafos).
unidades

Dimensions : [1]

Exemple : En un corpus de 850 palabras de un discurso de Rafael Correa, la palabra 'educación' aparece 42 veces. Calcula su frecuencia relativa: feducación=(42/850)×1004.94%.

Índice de diversidad léxica definition
D=VN
SymboleSignificationUnité
DÍndice de diversidad léxica
Valores cercanos a 1 indican alta diversidad (poco uso de repetición). Valores cercanos a 0 indican baja diversidad (repetición excesiva).
VVocabulario único
Ejemplo: en un texto de 500 palabras con 200 palabras distintas, V = 200.
palabras
NTotal de palabras
Incluye todas las palabras, incluyendo repeticiones.
palabras

Dimensions : [1]

Exemple : Un artículo de opinión en el diario El Comercio tiene 1 200 palabras con 480 palabras únicas. Su índice de diversidad es D=480/1200=0.4. Comparado con un informe técnico de 1 200 palabras con 300 únicas (D=0.25), el artículo es más diverso.

Proceso de Codificación y Categorización

Fórmulas para evaluar la calidad y consistencia del proceso de asignación de códigos.

Coeficiente Kappa de Cohen law
K=PoPe1Pe
SymboleSignificationUnité
KCoeficiente Kappa de Cohen
Valores: K < 0 (peor que azar), 0 ≤ K < 0.20 (ligero), 0.21 ≤ K ≤ 0.40 (razonable), 0.41 ≤ K ≤ 0.60 (moderado), 0.61 ≤ K ≤ 0.80 (sustancial), K > 0.80 (casi perfecto).
P_oProporción de acuerdo observado
Calculado como (número de unidades donde los codificadores coinciden) / (total de unidades).
P_eProporción de acuerdo esperado por azar
Depende de la distribución de categorías. Para dos codificadores: Pe=ipi2, donde pi es la proporción de unidades asignadas a la categoría i por cada codificador.

Dimensions : [1]

Exemple : Dos estudiantes codifican 150 tweets sobre migración en Ecuador. Acuerdan en 120 unidades. La probabilidad esperada de acuerdo por azar es 0.45. Calcula K: K=(120/1500.45)/(10.45)=(0.80.45)/0.550.64 (confiabilidad sustancial).

Porcentaje de acuerdo entre codificadores law
P=AT×100
SymboleSignificationUnité
PPorcentaje de acuerdo
Fórmula simple pero sensible a sesgos por azar. Se recomienda usar Kappa para mayor rigor.
%
AUnidades con acuerdo entre codificadores
Ejemplo: si 80 de 100 unidades coinciden, A = 80.
unidades
TTotal de unidades codificadas
Incluye todas las unidades analizadas por ambos codificadores.
unidades

Dimensions : [1]

Exemple : En un estudio sobre memes políticos ecuatorianos, dos codificadores analizan 200 unidades. Acuerdan en 165. Calcula P: P=(165/200)×100=82.5%.

Tasa de codificación por unidad de tiempo definition
Tc=Ut
SymboleSignificationUnité
T_cTasa de codificación
Útil para planificar proyectos. Valores típicos: 50-150 unidades/hora para codificación manual.
unidades/hora
UUnidades codificadas
Puede ser palabras, frases, párrafos o tweets.
unidades
tTiempo empleado
Incluye tiempo de entrenamiento de codificadores y revisión.
horas

Dimensions : [T]1

Exemple : Un estudiante codifica 300 tweets sobre COVID-19 en 4 horas. Su tasa es Tc=300/4=75 unidades/hora. Para un corpus de 1 200 tweets, estima el tiempo necesario: t=1200/75=16 horas.

Técnicas Cuantitativas en Análisis de Contenido

Métricas para analizar frecuencias, asociaciones y patrones en datos textuales.

Frecuencia absoluta de palabras definition
ni=j=1Nxij
SymboleSignificationUnité
n_iFrecuencia absoluta de la palabra i
Ejemplo: en un corpus de 1 000 palabras, la palabra 'turismo' aparece 15 veces: nturismo=15.
ocurrencias
x_{ij}Variable indicadora
xij = 1 si la palabra i está presente en la unidad j (ej: frase, párrafo), 0 en caso contrario.
NNúmero total de unidades
Puede ser frases, párrafos o documentos completos.
unidades

Dimensions : [1]

Exemple : En 500 tweets sobre Galápagos, la palabra 'ecoturismo' aparece 28 veces. Calcula necoturismo=28.

Prueba de chi-cuadrado para independencia law
χ2=i=1rj=1c(OijEij)2Eij
SymboleSignificationUnité
\chi^2Estadístico chi-cuadrado
Valores altos indican asociación significativa entre variables categóricas. Compara con tabla de chi-cuadrado con gl = (r-1)(c-1) grados de libertad.
O_{ij}Frecuencia observada en celda (i,j)
Ejemplo: número de veces que la categoría 'política' aparece en tweets de Quito vs. Guayaquil.
ocurrencias
E_{ij}Frecuencia esperada en celda (i,j)
Calculada como (total fila i × total columna j) / total general.
ocurrencias
rNúmero de filas en la tabla de contingencia
Ejemplo: 2 filas (Quito, Guayaquil).
cNúmero de columnas en la tabla de contingencia
Ejemplo: 3 columnas (política, economía, cultura).

Dimensions : [1]

Exemple : En una tabla 2×2 con O = [[30, 20], [10, 40]] y E = [[25, 25], [15, 35]], calcula χ²: (3025)2/25+(2025)2/25+(1015)2/15+(4035)2/355.06. Con gl = 1, este valor es significativo al 95% (χ² crítico = 3.84).

Índice de similitud de Jaccard definition
J(A,B)=|AB||AB|
SymboleSignificationUnité
J(A,B)Índice de similitud de Jaccard
Valores cercanos a 1 indican alta similitud. Valores cercanos a 0 indican baja similitud. Útil para comparar textos cortos como tweets.
AConjunto de palabras del texto A
Ejemplo: {'turismo', 'ecológico', 'Galápagos'} para un texto sobre ecoturismo.
palabras
BConjunto de palabras del texto B
Ejemplo: {'turismo', 'naturaleza', 'Islas'} para otro texto.
palabras

Dimensions : [1]

Exemple : Texto A: {'café', 'quito', 'turismo'} (3 palabras). Texto B: {'café', 'quito', 'montaña'} (3 palabras). Intersección = {'café', 'quito'} (2 palabras), unión = {'café', 'quito', 'turismo', 'montaña'} (4 palabras). Índice: J=2/4=0.5.

Técnicas Cualitativas en Análisis de Contenido

Métodos para interpretar significados, contextos y patrones no cuantificables.

Saturación teórica en codificación cualitativa approximation
S=CnCn1
Formes alternatives
  • S=i=1nCii=1n1Ci — Fórmula acumulativa para evaluar saturación en todo el proceso.
SymboleSignificationUnité
SRazón de saturación teórica
Cuando S < 0.1 durante 2 iteraciones consecutivas, se considera que se ha alcanzado saturación teórica (no emergen nuevas categorías).
C_nNuevas categorías en iteración n
Ejemplo: en la 5ª iteración de codificación, emergen 2 nuevas categorías.
categorías
C_{n-1}Nuevas categorías en iteración anterior
Ejemplo: en la 4ª iteración, emergieron 20 nuevas categorías.
categorías

Dimensions : [1]

Exemple : En un estudio sobre remesas, las iteraciones muestran: C_3 = 5, C_4 = 3, C_5 = 1. Razones: S4=3/5=0.6, S5=1/30.33. No se alcanza saturación (S > 0.1).

Profundidad de análisis temático law
P=TdTt×100
SymboleSignificationUnité
PProfundidad temática
Indica qué porcentaje de temas identificados fueron analizados en detalle (ej: con citas textuales, contexto histórico).
%
T_dTemas profundizados
Ejemplo: de 12 temas sobre 'migración a España', se profundiza en 8.
temas
T_tTemas totales identificados
Incluye todos los temas emergentes del análisis.
temas

Dimensions : [1]

Exemple : Un análisis de 15 entrevistas a agricultores de Cotopaxi identifica 22 temas. Se profundiza en 14. Profundidad: P=(14/22)×10063.6%.

Matriz de contexto para análisis cualitativo definition
M=[c11c12c1nc21c22c2ncm1cm2cmn]
SymboleSignificationUnité
MMatriz de contexto
Organiza datos cualitativos en filas (categorías) y columnas (contexto: género, edad, región, etc.). Permite identificar patrones transversales.
c_{ij}Valor de la categoría i en contexto j
Puede ser binario (1/0), ordinal (1-5) o nominal (ej: 'alto', 'medio', 'bajo').
mNúmero de categorías
Ejemplo: 5 categorías como 'motivación', 'dificultades', etc.
nNúmero de contextos
Ejemplo: 3 contextos (hombres, mujeres, jóvenes).

Dimensions : [m×n]

Exemple : Matriz 3×2 para estudiar turismo comunitario: filas = {'participación', 'beneficios', 'conflictos'}, columnas = {'Comunidad A', 'Comunidad B'}. Valores: c11=1 (alta participación en A), c12=0 (baja en B).

Herramientas Digitales para Análisis de Contenido

Fórmulas para evaluar el rendimiento de algoritmos y herramientas automatizadas.

Precisión de un clasificador automático law
P=VPVP+FP
Formes alternatives
  • P=1Ni=1NI(yi=y^i) — Fórmula para precisión en clasificación multiclase, donde I es la función indicadora.
SymboleSignificationUnité
PPrecisión
Porcentaje de unidades correctamente clasificadas como positivas. Valores altos indican bajo ruido en la clasificación.
VPVerdaderos positivos
Ejemplo: tweets correctamente etiquetados como 'política'.
unidades
FPFalsos positivos
Ejemplo: tweets etiquetados como 'política' pero que hablan de 'deportes'.
unidades

Dimensions : [1]

Exemple : Un algoritmo clasifica 200 tweets sobre Ser Bachiller. VP = 85, FP = 15. Precisión: P=85/(85+15)=0.85 (85%).

Recuperación (Recall) de un clasificador law
R=VPVP+FN
SymboleSignificationUnité
RRecuperación (Recall)
Capacidad del clasificador para encontrar todas las unidades positivas. Importante cuando el costo de omitir una unidad es alto (ej: análisis de discurso de odio).
VPVerdaderos positivos
Mismo significado que en la fórmula de precisión.
unidades
FNFalsos negativos
Ejemplo: tweets que hablan de 'política' pero no fueron etiquetados como tales.
unidades

Dimensions : [1]

Exemple : Mismo corpus de 200 tweets: VP = 85, FN = 30. Recuperación: R=85/(85+30)0.74 (74%). El algoritmo omite el 26% de los tweets relevantes.

F1-score (Media armónica de precisión y recuperación) law
F1=2×P×RP+R
SymboleSignificationUnité
F_1F1-score
Balance entre precisión y recuperación. Útil para comparar modelos cuando hay desbalance de clases (ej: pocos tweets sobre 'ciencia' en un corpus general).
PPrecisión
Mismo significado que en la fórmula anterior.
RRecuperación
Mismo significado que en la fórmula anterior.

Dimensions : [1]

Exemple : Para el clasificador de tweets: P = 0.85, R = 0.74. F1-score: F1=2×(0.85×0.74)/(0.85+0.74)0.79.

Tiempo de procesamiento por unidad definition
Tp=tN
SymboleSignificationUnité
T_pTiempo de procesamiento por unidad
Indica la eficiencia de la herramienta. Valores bajos son deseables para análisis de grandes corpus.
segundos/unidad
tTiempo total de procesamiento
Incluye tiempo de carga, limpieza de datos y generación de resultados.
segundos
NNúmero de unidades procesadas
Ejemplo: 10 000 tweets.
unidades

Dimensions : [T]

Exemple : Una herramienta procesa 5 000 tweets en 180 segundos. Tiempo por unidad: Tp=180/5000=0.036 s/unidad (36 milisegundos).

Fuentes

  1. en.wikipedia.org
  2. search.worldcat.org
  3. doi.org
  4. pubmed.ncbi.nlm.nih.gov
  5. api.semanticscholar.org
  6. archive.org
  7. www.hope.uzh.ch
  8. books.google.com
  9. www.mulino.it
  10. hdl.handle.net
  11. usu.instructure.com