Tipos de fuentes de datos abiertos
Las fuentes de datos públicos se organizan en tres grandes categorías según su origen y propósito.Catálogos gubernamentales
Portales oficiales de administraciones públicas que publican datos sobre servicios, estadísticas e información de interés ciudadano. Suelen ofrecer datos en formatos CSV, JSON o XLS directamente descargables.
Repositorios de datos
Plataformas creadas para compartir datasets de cualquier temática. Los datos son subidos por usuarios, investigadores o instituciones y están disponibles bajo licencias abiertas.
Buscadores especializados
Herramientas de búsqueda indexadas específicamente para encontrar datasets publicados en la web, independientemente de dónde estén alojados.
Fuentes recomendadas
Catálogos de datos gubernamentales
Datos Abiertos de Colombia
Portal oficial del gobierno colombiano con miles de conjuntos de datos sobre educación, salud, economía, territorio y servicios públicos.
Bases bibliográficas de libre acceso (SIC)
Repositorio de la Superintendencia de Industria y Comercio de Colombia con recursos de acceso libre.
Repositorios y comunidades de datos
Kaggle Datasets
Plataforma de ciencia de datos con una gran comunidad y miles de datasets públicos de todo tipo. Especialmente útil para proyectos de aprendizaje.
Kaggle Colombia
Búsqueda filtrada en Kaggle para datasets relacionados con Colombia: demografía, economía, salud, educación y más.
Datos Abiertos Colombia (GitHub)
Recopilación colaborativa en GitHub de fuentes de datos abiertos de Colombia, mantenida por la comunidad.
Awesome Datasets Colombia
Lista curada por OpenDataCo con los mejores datasets disponibles sobre Colombia, organizada por temática.
Datos temáticos
Open Data Salud Colombia
Repositorio con datasets específicos del sector salud en Colombia, incluyendo indicadores epidemiológicos y de servicios sanitarios.
GitHub
Muchos investigadores y organizaciones publican sus datasets directamente en repositorios de GitHub. Busca con términos como “dataset”, “datos abiertos” o el tema que te interese.
Buscadores de datasets
Google Dataset Search
Motor de búsqueda de Google especializado en encontrar datasets publicados en cualquier web. Permite filtrar por tema, formato, fecha de actualización y licencia de uso.
Cómo evaluar la calidad de un dataset
Encontrar un dataset es solo el primer paso. Antes de trabajar con él, es importante verificar que cumple unos mínimos de calidad.Origen y fiabilidad
Origen y fiabilidad
Prioriza datasets publicados por instituciones oficiales, organizaciones reconocidas o comunidades con reputación establecida. Comprueba si el dataset tiene documentación (un README o un diccionario de datos que explique qué contiene cada columna).
Actualidad y cobertura temporal
Actualidad y cobertura temporal
Verifica la fecha de la última actualización y el rango temporal que cubre el dataset. Para algunos análisis es fundamental trabajar con datos recientes; para otros, la serie histórica es lo más valioso.
Formato y estructura
Formato y estructura
Los formatos más fáciles de trabajar son CSV, XLS/XLSX y JSON. Comprueba que el archivo tiene una estructura tabular clara (una fila por registro, una columna por variable) antes de descargarlo.
Licencia de uso
Licencia de uso
Asegúrate de que la licencia del dataset permite su uso para el propósito de tu proyecto. Las licencias más comunes en datos abiertos son Creative Commons (CC0, CC BY, CC BY-SA). Una licencia CC0 permite cualquier uso sin restricciones.
Continúa con la recopilación
Si los datos que necesitas no están disponibles de forma pública, consulta los otros dos métodos.Recogida de datos propia
Diseña y distribuye un cuestionario para generar tus propios datos cuando no existen registros previos.
Solicitud de datos
Aprende a pedir formalmente datos a instituciones cuando existen pero no son de acceso libre.