Skip to main content
Los problemas con los datos son más complejos que los errores de importación porque pueden tener múltiples causas y no siempre tienen solución. Sin embargo, que un problema no tenga solución no impide continuar con el análisis: si el dato afectado no es clave ni puede llevar a resultados erróneos, puedes avanzar. Lo importante es haberlo identificado y tomado una decisión consciente sobre él.
Ignorar los problemas de calidad de los datos sin documentarlos es uno de los errores más graves en cualquier proyecto de análisis. Un dato incorrecto no detectado puede invalidar completamente los resultados. Revisa siempre los datos en profundidad antes de analizar.

Proceso de revisión

Una vez que la importación se ha realizado con éxito, sigue este flujo para revisar la calidad de los datos:
1

Identifica ausencias, anomalías y valores atípicos

Recorre el dataset buscando celdas vacías, valores que parecen fuera de rango y entradas que no encajan con el tipo de dato esperado en cada columna.
2

Analiza si se trata de fallos reales

No todo valor inusual es un error. Un alumno con una nota de 10 cuando la media es 5 es perfectamente plausible; un valor de 15 en una escala máxima de 10 sí requiere revisión. Evalúa cada caso con criterio antes de actuar.
3

Busca y aplica soluciones cuando sea posible

Si el problema tiene solución (eliminar un duplicado, unificar variantes de una respuesta, corregir un valor), aplícala. Si no tiene solución, documenta el problema y decide si el dato puede quedar excluido del análisis sin comprometer los resultados.

Problemas más habituales

Los valores ausentes son celdas vacías donde debería haber un dato. Pueden deberse a que la persona no respondió una pregunta, a un error en la recogida de datos o a un fallo en la exportación del archivo.Cómo detectarlos: filtra por celdas en blanco en cada columna o usa una fórmula como CONTAR.BLANCO() para contar cuántos hay.Qué hacer: si el campo es obligatorio y el dato falta, valora si la fila completa debe excluirse del análisis. Si es un campo opcional, puedes conservar la fila y simplemente tener en cuenta que ese valor no está disponible.
Los duplicados aparecen cuando un mismo registro está presente más de una vez. Esto ocurre frecuentemente cuando alguien rellena un formulario dos veces o cuando se combinan datos de varias fuentes sin depurarlos.Ejemplo: imagina que trabajas con los datos de una encuesta y descubres que tres personas han enviado sus respuestas dos veces. Esos duplicados deben eliminarse, porque de lo contrario esas personas tendrán más peso del que les corresponde en el análisis.Cómo detectarlos: la mayoría de las hojas de cálculo tienen una función de eliminar duplicados (en Google Sheets: Datos → Limpieza de datos → Eliminar duplicados). También puedes usar la función CONTAR.SI() para identificar valores repetidos en una columna clave.
Las inconsistencias aparecen cuando el mismo valor se ha introducido de formas distintas. Son especialmente frecuentes en respuestas abiertas o campos de texto libre.Ejemplo: en una pregunta de sí/no, puedes encontrar las variantes , , SI, Si, SII! o incluso s. Todas representan la misma respuesta, pero la hoja de cálculo las tratará como valores distintos al agrupar o contar.Cómo resolverlo: unifica todas las variantes en un valor normalizado. Puedes usar buscar y reemplazar para corregirlas de forma masiva, o la función MINUSC() / MAYUSC() para homogeneizar el uso de mayúsculas antes de comparar.
Si los caracteres especiales del español (tildes, eñes, comillas tipográficas) se importaron incorrectamente, aparecerán como símbolos extraños: é en lugar de é, ñ en lugar de ñ, etc.Causa: el archivo fue guardado con una codificación (por ejemplo, Latin-1) pero se importó con otra (UTF-8), o viceversa.Cómo resolverlo: la solución más fiable es repetir la importación seleccionando la codificación correcta. Si ya tienes el dataset en la hoja de cálculo y no quieres volver a importar, puedes usar buscar y reemplazar para corregir los caracteres afectados uno a uno.
Un valor atípico (o outlier) es un dato que se aleja significativamente del resto de los valores de su columna. No siempre es un error: puede ser un caso real y legítimo, pero merece revisión antes de incluirlo en el análisis.Ejemplo: en los datos de calificaciones de un examen, todo el alumnado tiene entre 4 y 8 puntos, pero una persona tiene 15. Dado que la escala máxima es 10, ese valor es claramente erróneo y debe corregirse o eliminarse. En cambio, si una persona saca 10 cuando la media es 5, eso es atípico pero perfectamente válido.Cómo detectarlos: ordena cada columna numérica de mayor a menor y de menor a mayor para identificar los extremos. También puedes calcular la media y la desviación típica para detectar valores que se alejen más de lo esperado.
Documenta siempre las decisiones que tomas sobre los problemas encontrados: qué problema era, cuántos registros afectaba y qué hiciste (corregir, eliminar o conservar). Esta documentación es parte esencial de la transparencia del proyecto.

Build docs developers (and LLMs) love