Skip to main content
¿Los datos que quieres estudiar ya están disponibles en abierto en la web? Este es el escenario más rápido y sencillo. Existen una gran cantidad de fuentes de datos en abierto a partir de las cuales puedes recuperar datasets ya estructurados y en formatos estándar, listos para importar y analizar.

Tipos de fuentes de datos abiertos

Las fuentes de datos públicos se organizan en tres grandes categorías según su origen y propósito.

Catálogos gubernamentales

Portales oficiales de administraciones públicas que publican datos sobre servicios, estadísticas e información de interés ciudadano. Suelen ofrecer datos en formatos CSV, JSON o XLS directamente descargables.

Repositorios de datos

Plataformas creadas para compartir datasets de cualquier temática. Los datos son subidos por usuarios, investigadores o instituciones y están disponibles bajo licencias abiertas.

Buscadores especializados

Herramientas de búsqueda indexadas específicamente para encontrar datasets publicados en la web, independientemente de dónde estén alojados.

Fuentes recomendadas

Catálogos de datos gubernamentales

Datos Abiertos de Colombia

Portal oficial del gobierno colombiano con miles de conjuntos de datos sobre educación, salud, economía, territorio y servicios públicos.

Bases bibliográficas de libre acceso (SIC)

Repositorio de la Superintendencia de Industria y Comercio de Colombia con recursos de acceso libre.

Repositorios y comunidades de datos

Kaggle Datasets

Plataforma de ciencia de datos con una gran comunidad y miles de datasets públicos de todo tipo. Especialmente útil para proyectos de aprendizaje.

Kaggle Colombia

Búsqueda filtrada en Kaggle para datasets relacionados con Colombia: demografía, economía, salud, educación y más.

Datos Abiertos Colombia (GitHub)

Recopilación colaborativa en GitHub de fuentes de datos abiertos de Colombia, mantenida por la comunidad.

Awesome Datasets Colombia

Lista curada por OpenDataCo con los mejores datasets disponibles sobre Colombia, organizada por temática.

Datos temáticos

Open Data Salud Colombia

Repositorio con datasets específicos del sector salud en Colombia, incluyendo indicadores epidemiológicos y de servicios sanitarios.

GitHub

Muchos investigadores y organizaciones publican sus datasets directamente en repositorios de GitHub. Busca con términos como “dataset”, “datos abiertos” o el tema que te interese.

Buscadores de datasets

Google Dataset Search

Motor de búsqueda de Google especializado en encontrar datasets publicados en cualquier web. Permite filtrar por tema, formato, fecha de actualización y licencia de uso.

Cómo evaluar la calidad de un dataset

Encontrar un dataset es solo el primer paso. Antes de trabajar con él, es importante verificar que cumple unos mínimos de calidad.
Antes de descargar y usar un dataset, responde estas preguntas: ¿Quién lo publicó y es una fuente fiable? ¿Cuándo fue la última actualización? ¿Está documentado (qué significa cada columna)? ¿Bajo qué licencia se puede usar? ¿Tiene valores nulos o errores evidentes? Un dataset de buena calidad ahorra mucho trabajo en la fase de limpieza.
Prioriza datasets publicados por instituciones oficiales, organizaciones reconocidas o comunidades con reputación establecida. Comprueba si el dataset tiene documentación (un README o un diccionario de datos que explique qué contiene cada columna).
Verifica la fecha de la última actualización y el rango temporal que cubre el dataset. Para algunos análisis es fundamental trabajar con datos recientes; para otros, la serie histórica es lo más valioso.
Los formatos más fáciles de trabajar son CSV, XLS/XLSX y JSON. Comprueba que el archivo tiene una estructura tabular clara (una fila por registro, una columna por variable) antes de descargarlo.
Asegúrate de que la licencia del dataset permite su uso para el propósito de tu proyecto. Las licencias más comunes en datos abiertos son Creative Commons (CC0, CC BY, CC BY-SA). Una licencia CC0 permite cualquier uso sin restricciones.

Continúa con la recopilación

Si los datos que necesitas no están disponibles de forma pública, consulta los otros dos métodos.

Recogida de datos propia

Diseña y distribuye un cuestionario para generar tus propios datos cuando no existen registros previos.

Solicitud de datos

Aprende a pedir formalmente datos a instituciones cuando existen pero no son de acceso libre.

Build docs developers (and LLMs) love