HitCompanies Datasets:HitCompanies随机取样的1万个英国公司全面的数据,采用人工智能/机器学习进行自动更新。
ICWSM-2009 dataset:包含2008年8月1日到10月1日之间的4400万个博文
Infochimps:一个数据开放的目录和集合,允许分享、出售和下载关于任何内容的数据。
Investor Links:包含财物数据
KDD Cup center:数据、工作表和结果
Kevin Chai list of datasets:文本、SNA和其他领域
KONECT:科布伦茨网络收集,拥有大量各种类型的网络数据集,以便在网络挖掘领域进行研究。
Linking Open Data 工程,免费向所有人提供数据
MIT Cancer Genomics gene expression datasets and publications:来自麻省理工Whitehead Center用于基因组研究
ML Data:欧盟Pascal2网络数据储存库
NASDAQ Data Store:提供市场数据
National Government Statistical Web Sites:来自大约70个网站的数据、报告、统计年鉴、新闻和其他,包括非洲、欧洲、亚洲和拉丁美洲的国家。
National Space Science Data Center (NSSDC):美国国家航空航天局的数据集,包含行星探索、空间和太阳物理学、生命科学、天体物理学以及其他方面。
Open Data Census:评估世界各地的开放数据的状态。
OpenData from Socrata:允许访问超过10000个数据集,包括商业、教育、政府和娱乐
Open Source Sports:大量运动数据库,包括棒球、足球、篮球和曲棍球
Peter Skomoroch dataset Bookmarks PubGene(TM) Gene Database and Tools:基因组有关的出版物数据库
Quandl, a collaboratively curated portal to millions of financial and economic time-series datasets.
qunb:一个用来发现和可视化的数据资料的平台
Robert Schiller data:住房建筑、股票市场和更多的来自于他的书 Irrational Exuberance的数据
SMD: Stanford Microarray Database,存储来自微阵列实验的原始的和标准的数据
Jerry Smith dataset collection:财经、政府、机器学习、科学和其他数据
SourceForge.net Research Data:包含大约10万个项目和超过100万注册用户的活动的历史和现状的统计数据的项目管理网站。
StatLib,卡内基梅隆大学数据档案
STATOO Datasets part 1和 STATOO Datasets part 2
Time Series Data Library
Visual Analytics Benchmark Repository.
UCI KDD Database Repository :适用于机器学习和知识发现研究的大数据集
UCI Machine Learning Repository.
UCR Time Series Data Archive:提供数据集、论文、链接和代码
United States Census Bureau.
Wikiposit:一个(虚拟的)融合了来自许多不同网站的数据(大多数是金融的),允许用户合并来自不同来源的数据
Wolfram Alpha disease and patient level dat.
Yahoo Sandbox datasets:语言、图表、评级、广告与营销、竞赛
Yelp Academic Dataset:30家大学的250个最接近商业的所有数据和评论,为学生和学者来探讨和研究
199IT编译自http://www.bigdata-madesimple.com/70-websites-to-get-large-data-repositories-for-free/