扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
为了提供一种云数据服务,Amazon正在对外征集公共数据集。该服务可以提供一种简便方法,“分享、获得和使用公共数据”。
该服务名为AWS 公共数据集,可以让用户在Amazon EC2环境下使用公共数据。所选择的数据集作为AmazonEBS快照,免费存放在AWS上。
现有的数据集访问起来都很昂贵、费劲。比如Gutenberg项目,提供电子书下载,但是你要等上48小时才能完成下载(假定网速1M,文件14.5G)。如果你想得到mp3,下载91.5G需要等上9天。
但是好像项目并未列入AWS计划。我们计算了一下下载/上传80G大小的用户生成的虚拟图书馆(Virtual Conformer Library)所需的时间。
我们用加州的小区网络电缆做实验,下载需要22小时36分,上传需要3天零36分。如果服务器在纽约,我们在加州访问,下载需要3天42分,上传需要7天14小时。显然效率低下。
人们一直在寻找访问公共数据的更好办法,AWS项目也许不错。以前只有大公司花费巨资才可以实现云计算。
列入Amazon清单的数据集包括:破解人类基因数据、PubChem和虚拟图书馆(Virtual Conformer Library),美国人口普查数据,各种劳动力统计数据,以及各种经济和交通运输数据库。
AWS在以后将加入更多数据库,需要你的贡献。
如果你有公共数据集并且有传播权,可以提交到AWS公共数据集网站。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者