- Catálogos de datos abiertos de varios gobiernos y ONG:
- NYC Open Data
- DC Open Data Catalog / OpenDataDC
- DataLA
- data.gov (see also: Project Open Data Dashboard)
- data.gov.uk
- US Census Bureau
- World Bank Open Data
- Humanitarian Data Exchange
- Sunlight Foundation: datos centrados en el gobierno
- ProPublica Data Store
- Conjuntos de datos alojados por instituciones académicas:
- UC Irvine Machine Learning Repository: conjuntos de datos diseñados específicamente para el aprendizaje automático
- Stanford Large Network Dataset Collection: graph data
- Inter-university Consortium for Political and Social Research
- Pittsburgh Science of Learning Center's DataShop
- Academic Torrents: Red distribuida para compartir grandes conjuntos de datos de investigación
- Dataverse Project: seArchivo archable de datos de investigación
- Conjuntos de datos alojados por empresas privadas:
- Quandl: más de 10 millones de conjuntos de datos financieros, económicos y sociales
- Amazon Web Services Public Data Sets
- Kaggle Proporciona conjuntos de datos sus desafíos, pero cada competencia tiene sus propias reglas sobre si los datos se pueden usar fuera del alcance de la competencia.
- Grandes listas de conjuntos de datos:
- Awesome Public Datasets: Bien organizado y frecuentemente actualizado
- Rdatasets: Colección de más de 700 conjuntos de datos distribuidos originalmente con paquetes R
- RDataMining.com
- KDnuggets
- inside-R
- 100+ Interesting Data Sets for Statistics
- 20 Free Big Data Sources
- Sebastian Raschka: conjuntos de datos categorizados por formato y tema
- API:
- Apigee: Explore docenas de API populares
- Mashape: explorar cientos de API
- Python APIs: Python envolturas para muchas API
- Otros conjuntos de datos interesantes:
- FiveThirtyEight: datos y código relacionados con sus artículos
- The Upshot: datos relacionados con sus artículos
- Yelp Dataset Challenge: Revisiones de Yelp, atributos comerciales, usuarios y más de 10 ciudades
- Donors Choose: Datos relacionados con sus proyectos
- 200,000+ Jeopardy questions
- CrowdFlower: conjuntos de datos interesantes creados o mejorados por sus contribuyentes
- UFO reports: Informes de ovnis geolocados y estandarizados en el tiempo durante cerca de un siglo
- Reddit Top 2.5 Million: Los 1,000 publicaciones principales de todos los tiempos de cada uno de los 2,500 subreddits principales
- Otros recursos:
- Datasets subreddit:solicite ayuda para encontrar un conjunto de datos específico o publique el suyo propio
- Center for Data Innovation:Publicaciones de blog sobre conjuntos de datos interesantes y recientemente lanzados.