人工智能,数据发掘,数据阐发,都离不开数据。
关于从业者来说,数据获取天然不是问题。可是,关于初学者来说,数据的获取成了大难题。下面就总结一些有用的数据网站:
一.通用数据
1.data.gov( Data.gov )
那是美国政府公开数据的所在地,该站点包罗了超越19万的数据点。那些数据集差别于天气、教育、能源、金融和更多范畴的数据。
2.data.gov.in( https://data.gov.in/ )
那是印度政府公开数据的所在地,通过各类行业、天气、医疗保健等来寻找数据,你能够在那里找到一些灵感。按照你栖身的国度的差别,你也能够从其他一些网站上阅读类似的网站。
3.WorldBank( World Bank Open Data )
世界银行的开放数据。该平台供给 Open Data Catalog,世界开展指数,教育指数等几个东西。
4.RBI( https://rbi.org.in/Scripts/Statistics.aspx )
印度储蓄银行供给的数据。那包罗了货币市场操做、出入平衡、银行利用和一些产物的几个目标。
5.Five ThirtyEight Datasets ( GitHub - fivethirtyeight/data: Data and code behind the articles and graphics at FiveThirtyEight )
Five Thirty Eight,亦称做 538,专注与民意查询拜访阐发,政治,经济与体育的博客。该数据集为 Five ThirtyEight Datasets 利用的数据集。每个数据集包罗数据,解释数据的字典和Five ThirtyEight 文章的链接。若是你想进修若何创建数据故事,没有比那个更好。
6.国度数据。国度数据
7.CEIC.CEIC|统计数据库|全球经济数据|世界经济排名|宏不雅经济数据阐发
8.datahub Home
9.搜数网 新版搜数网
10.中国统计信息网 中国统计信息网 - 中国统计年鉴2020
11. figshare credit for all your research 研究功效共享平台,在那里你会发现来自世界的大牛们的研究功效分享,同时get此中的研究数据,内容很有启发性,网站颇具设想感。
12.github GitHub - awesomedata/awesome-public-datasets: A topic-centric list of HQ open datasets. github上的大神已经为各人整理好了一个十分全面的数据获取渠道,包罗各个细分范畴的数据库资本,天然科学和社会科学的笼盖都很全面,几乎是做研究和数据阐发的利器。
13.香港政府数据中心 https://data.gov.hk/en/
14.纽约市开放数据中心 NYC Open Data
15.纽约政府数据中心 https://data.ny.gov/
16 澳大利亚国度开放数据中心 Search
17 英国国度数据中心 Find open data - data.gov.uk
18 日本统计局 統計局ホームページ
19 美国劳工统计局 https://www.bls.gov/data/
20.经合组织(OECD) OECD data
21 欧盟数据门户 data.europa.eu
22 伯克利亚数据尝试室 http://www.lib.berkeley.edu/libraries/data-lab 数据尝试室是由当前加州大学伯克利分校的学生和教员供给有关数字数据的研究,他们会查找并保举好的数据源到网站,并会对像文件格局转换、网页抓取和根本统计软件等手艺数据问题供给征询。尝试室还供给工做站阐发软件如ArcGIS、SAS、SPSS、STATA,Stata,R和Python等。
23.数据美国 Data USA 美国大数据(Data Usa)次要研究宏不雅的社会联络,在海量数据中找出人们的某个被忽略的特征。网站按照地域、行业、职业、教育布景做了初步的分类,用户能够进入任何你想领会的部门,摸索美国社会部分的详细情况。它们也供给了地图式的阅读视图。
24 Open Data 500 http://www.opendata500.com/us/ Open Data 500是首个以开放政府数据来产生新的营业和开发新的产物和办事的综合研究性美国公司。研究机构能够发布网站上搜集的数据,企业、组织和公民也能够阐发网站上的数据,并利用那些信息。
25 Open Data Inception Open Data Inception - A Comprehensive List of 2600+ Open Data Portals in the World 网站记录了2600+个开放式数据信息门户网站,可间接通过地图精准找到你需要的差别地域的数据门户网站。
二.大型数据集
1.Amazon WebServices(AWS)datasets
( Registry of Open Data on AWS )
Amazon供给了一些大数据集,能够在他们的平台上利用,也能够在当地计算机上利用。您还能够通过EMR利用EC2和Hadoop来阐发云中的数据。在亚马逊上流行的数据集包罗完好的安然电子邮件数据集,Google Booksn-gram,NASA NEX 数据集,百万歌曲数据集等。
2.Googledatasets
( BigQuery public datasets | Google Cloud )
Google 供给了一些数据集做为其 Big Query 东西的一部门。包罗 GitHub 公共材料库的数据,Hacker News 的所有故事和评论。
3.Youtubelabeled Video Dataset
( A Large and Diverse Labeled Video Dataset for Video Understanding Research )
几个月前,谷歌研究小组发布了YouTube上的“数据集”,它由800万个YouTube视频id和4800个视觉实体的相关标签构成。它来自数十亿帧的预先计算的,更先进的视觉特征。
4.亚马逊公共数据集
(404 Not Found
网站来自亚马逊的跨科学云数据平台,此中包罗化学、生物、经济等多个范畴的数据集,当数据在 AWS 上公开供给后,任何人都能够阐发肆意数量的数据,而无需自行下载或存储那些数据
三.预测建模与机器进修数据集
1.UCI MachineLearning Repository
( https://archive.ics.uci.edu/ml/datasets.html )
UCI机器进修库显然是最出名的数据存储库。若是您正在寻找与机器进修存储库相关的数据集,凡是是首选的处所。那些数据集包罗了各类各样的数据集,从像Iris和泰坦尼克如许的流行数据集到比来的奉献,好比空气量量和GPS轨迹。存储库包罗超越350个与域名类似的数据集(分类/回归)。您能够利用那些过滤器来确定您需要的数据集。
2.Kaggle
( Find Open Datasets and Machine Learning Projects | Kaggle )
Kaggle提出了一个平台,人们能够奉献数据集,其他社区成员能够投票并运行内核/脚本。他们总共有超越350个数据集——有超越200个特征数据集。固然一些最后的数据集凡是呈现在其他处所,但我在平台上看到了一些有趣的数据集,而不是在其他处所呈现。与新的数据集一路,界面的另一个益处是,您能够在不异的界面上看到来自社区成员的脚本和问题。
3.AnalyticsVidhya
(https://datahack.analyticsvidhya.com/contest/all/ )
您能够从我们的理论问题和黑客马拉松问题中参与和下载数据集。问题数据集基于实在的行业问题,而且相对较小,因为它们意味着2 - 7天的黑客马拉松。
4.Quandl
( Quandl )
Quandl 通过起网站、API 或一些东西的间接集成供给了差别来源的财政、经济和替代数据。他们的数据集分为开放和付费。所有开放数据集为免费,但高级数据集需要付费。通过搜刮仍然能够在平台上找到优良数据集。例如,来自印度的证券交易所数据是免费的。
5.Past KDDCups
( SIGKDD - KDD Cup )
KDD Cup 是 ACM Special Interest Group 组织的年度数据发掘和常识发现竞赛。
6.DrivenData
( https://www.drivendata.org/ )
Driven Data 发现运用数据科学带来积极社会影响的现实问题。然后,他们为数据科学家组织在线模仿竞赛,从而开发出更好的模子来处理那些问题。
四.图像分类数据集
1.The MNISTDatabase
( MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges )
更流行的图像识别数据集,利用手写数字。它包罗6万个示例和1万个示例的测试集。那凡是是第一个停止图像识此外数据集。
2.Chars74K
(Character Recognition in Natural Images )
那里是下一阶段的进化,若是你已经通过了手写的数字。该数据集包罗天然图像中的字符识别。数据集包罗74,000个图像,因而数据集的名称。
3.Frontal FaceImages
(http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html )
若是你已经完成了前两个项目,而且可以识别数字和字符,那是图像识别中的下一个挑战级别——正面人脸图像。那些图像是由CMU & MIT搜集的,摆列在四个文件夹中。
4.ImageNet
( ImageNet )
如今是时候构建一些通用的工具了。按照WordNet条理构造组织的图像数据库(目前仅为名词)。条理构造的每个节点都由数百个图像描述。目前,该集合均匀每个节点有超越500个图像(并且还在增加)。
五.文天职类数据集
1.Spam – NonSpam
(http://www.esp.uem.es/jmgomez/smsspamcorpus/)
区分短信能否为垃圾邮件是一个有趣的问题。你需要构建一个分类器将短信停止分类。
2.TwitterSentiment Analysis
(Twitter Sentiment Analysis Training Corpus (Dataset))
该数据集包罗 1578627 个分类推文,每行被标识表记标帜为1的积极情感,0位负面情感。数据依次基于 Kaggle 角逐和 Nick Sanders 的阐发。
3.Movie ReviewData
(Data)
那个网站供给了一系列的片子评论文件,那些文件标注了他们的总体情感极性(正面或负面)或主不雅评价(例如,“两个半明星”)和对其主不雅性地位(主不雅或客不雅)或极性的标签。
六.保举引擎数据集
1.MovieLens
( GroupLens )
MovieLens 是一个帮忙人们查找片子的网站。它有成千上万的注册用户。他们停止主动内容保举,保举界面,基于标签的保举页面等在线尝试。那些数据集可供下载,可用于创建本身的保举系统。
2.Jester
(http://www.ieor.berkeley.edu/~goldberg/jester-data/)
在线笑话保举系统。
七.各类来源的数据集网站
1.KDNuggets
(Datasets for Data Mining, Data Science, and Machine Learning - KDnuggets)
KDNuggets 的数据集页面不断是人们搜刮数据集的参考。列表全面,但是某些来源不再供给数据集。因而,需要隆重选择数据集和来源。
2.Awesome PublicDatasets
(https://github.com/caesar0301/awesome-public-datasets)
一个GitHub存储库,它包罗一个由域分类的完好的数据集列表。数据集被整齐地分类在差别的范畴,那长短常有用的。但是,关于存储库自己的数据集没有描述,那可能使它十分有用。
3.RedditDatasets Subreddit
(https://www.reddit.com/r/datasets/)
因为那是一个社区驱动的论坛,它可能会碰到一些费事(与之前的两个来源比拟)。但是,您能够通过流行/投票来对数据集停止排序,以查看更流行的数据集。别的,它还有一些有趣的数据集和讨论。
八.数据交易平台
1.优易数据 优易数据_畅通数据 跨界增值
2. 数据堂 数据堂_专业的人工智能数据办事供给商_AI数据收罗标注