Skip to main content
¿Sabías que en proyectos de big data entre el 60 % y el 80 % del tiempo se dedica a la limpieza de los datos? Puede parecer una tarea menor, sobre todo cuando se trabaja con datasets pequeños, pero gran parte del éxito de cualquier proyecto de datos reside en esta fase. La limpieza de datos consiste en revisar el dataset para identificar y resolver problemas. Imagina el siguiente escenario: tras hacer una encuesta a 30 personas generas un archivo de texto con las respuestas y, al importarlo a tu hoja de cálculo, descubres que solo aparecen 20 respuestas, que en campos numéricos hay texto o que algunas preguntas obligatorias quedaron sin rellenar. Identificar todos esos problemas — y encontrar su raíz para resolverlos — es un ejercicio clave si no quieres obtener resultados incorrectos en el análisis posterior.
Este es también un momento muy valioso para familiarizarte con los datos y su estructura, aprender a reconocer los fallos y anticiparte a ellos.

Qué cubre esta fase

Los problemas que puedes encontrar son prácticamente inabarcables, pero los más comunes se agrupan en dos grandes bloques:
  • Importación: errores introducidos al trasladar los datos a la hoja de cálculo (separadores incorrectos, codificación de caracteres, tipos de dato mal interpretados).
  • Problemas de los datos: anomalías presentes en los propios datos, como valores ausentes, duplicados o inconsistencias de formato.
Las páginas siguientes abordan cada bloque en detalle.

Flujo de trabajo

En Datosfera Lab dedicamos las sesiones 3 a 5 a este proceso:
1

Seminario de introducción a la herramienta

Presentación a modo de seminario de la herramienta escogida (Google Sheets, LibreOffice Calc o Excel) y los principales procesos de importación y limpieza. Se trabaja en conjunto sobre un dataset de prueba descargado de Kaggle para practicar antes de tocar los datos del proyecto.
2

Importación y limpieza del dataset del proyecto

El equipo importa su propio dataset y aplica las técnicas aprendidas, con supervisión continua para garantizar el correcto desarrollo del proceso y la participación activa de todas las personas.
3

Verificación final

Al terminar esta fase, los datos deben estar almacenados en una hoja de cálculo en la nube, revisados y listos para el análisis.

Siguientes pasos

Importación de datos

Aprende a importar correctamente archivos de texto a tu hoja de cálculo y evita los errores más frecuentes.

Problemas con los datos

Identifica y resuelve los problemas de calidad más habituales: valores ausentes, duplicados, inconsistencias y más.

Build docs developers (and LLMs) love