planetbase,人工智能领域有哪些好的数据集

格科网

planetbase,人工智能领域有哪些好的数据集?

现如今构建人工智能或机器学习系统比以往的时候更加容易。普遍存在的尖端开源工具如 TensorFlow、Torch 和 Spark,再加上通过 AWS 的大规模计算力、Google Cloud 或其他供应商的云计算,这些都意味着你可以在下午休闲时间使用笔记本电脑去训练出最前沿的机器学习模型。

虽然不算是人工智能训练的最前沿,但人工智能的无名英雄确实就是数据,许多许多标注或未标注的数据。研究部门和公司也都认识到数据民主化是加快人工智能的必要步骤。

planetbase,人工智能领域有哪些好的数据集

然而,涉及到机器学习或人工智能的大多数产品强烈依赖于那些通常没有开放的私有数据集,而本文将指出解决这种困境的办法。

事实上,我们很难用一篇文章来说明哪些开放数据集是有用的,因为那些有用的开放数据集必须是可概念证明的,而什么数据集对产品或确认特征是有用的,在你收集你自己所有数据之前是不知道的。

重要的是,如果数据集有良好的表现并不能保证其训练的机器学习系统在实际产品场景中表现良好。许多人在构建人工智能系统时常常忘了构建一个新人工智能解决方案或产品最困难的部分不是人工智能本身或算法,通常最困难的地方是数据收集和标注。标准数据集可以作为验证或构建更优良解决办法的良好起点。

我和一些机器学习专家们讨论的都是有关标准数据集的问题。为了让你能更轻松地构建人工智能系统,我们搜集了一些开源数据集,这些开源数据集是我们认为在人工智能的世界里你所需要了解的。

计算机视觉

MNIST: 最通用的健全检查。25x25 的数据集,中心化,B&W 手写数字。这是个容易的任务——但是在 MNIST 有效,不等同于其本身是有效的。

地址:http://pjreddie.com/projects/mnist-in-csv/

CIFAR 10 & CIFAR 100: 32x32 彩色图像。虽不再常用,但还是用了一次,可以是一项有趣的健全检查。

地址:https://www.cs.toronto.edu/~kriz/cifar.html

ImageNet: 新算法实际上的图像数据集。很多图片 API 公司从其 REST 接口获取标签,这些标签被怀疑与 ImageNet 的下一级 WordNet 的 1000 个范畴很接近。

地址:http://image-net.org/

LSUN: 场景理解具有很多辅助任务(房间布置评估、显著性预测等)和一个相关竞争。

地址:http://lsun.cs.princeton.edu/2016/

PASCAL VOC: 通用图像分割/分类:对于构建真实世界的图像注释毫无用处,对于基线则意义重大。

地址:http://host.robots.ox.ac.uk/pascal/VOC/

SVHN: 来自谷歌街景视图(Google Street View)的房屋数量。把这想象成荒野之中的周期性 MNIST。

地址:http://ufldl.stanford.edu/housenumbers/

MS COCO: 带有一个相关性竞争的通用图像理解/字幕。

地址:http://mscoco.org/

Visual Genome: 非常详细的视觉知识库,并带有 100K 图像的深字幕。

地址:http://visualgenome.org/

Labeled Faces in the Wild:通过名称标识符,已经为被裁剪的面部区域(用 Viola-Jones)打了标签。现有人类的子集在数据集中有两个图像。对于这里做面部匹配系统训练的人来说,这很正常。

地址:http://vis-www.cs.umass.edu/lfw/

自然语言

文本分类数据集(2015 年来自 Zhang 等人):一个用于文本分类的合 8 个数据集为 1 个的大型数据集。这些是用于新文本分类的最常被报道的基线。样本大小从 120K 到 3.6M, 问题从 2 级到 14 级。数据集来自 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG。

地址https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

WikiText:来自由 Salesforce MetaMind 精心策划的维基百科文章中的大型语言建模语料库。

地址:http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

Question Pairs:从包含重复/语义相似性标签的 Quora 释放出来的第一个数据集。

地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

SQuAD: 斯坦福大学问答数据集(The Stanford Question Answering Dataset)——一个被广泛应用于问题回答和阅读理解的数据集,其中每个问题的答案形式是文本的一个片段或碎片。

地址:https://rajpurkar.github.io/SQuAD-explorer/

CMU Q/A Dataset: 手动生成的仿真陈述问题/回答与维基百科文章的难度评级相对应。

地址:http://www.cs.cmu.edu/~ark/QA-data/

Maluuba Datasets: 用于状态性自然语言理解研究的人工生成的精密数据集。

地址:https://datasets.maluuba.com/

Billion Words: 大型,有统一目标的语言建模数据集。常被用来训练诸如 word2vec 或 Glove 的分布式词表征。

地址:http://www.statmt.org/lm-benchmark/

Common Crawl: PB 级规模的网络爬行——常被用来学习词嵌入。可从 Amazon S3 上免费获取。由于它是 WWW 的抓取,同样也可以作为网络数据集来使用。

地址:http://commoncrawl.org/the-data/

bAbi: 来自 FAIR(Facebook AI Research)的合成式阅读理解与问答数据集。

地址:https://research.fb.com/projects/babi/

The Children’s Book Test:从来自古登堡计划的童书中提取(问题+上下文,回答)组的基线。这对问题回答、阅读理解和仿真陈述查询有用。

地址:https://research.fb.com/projects/babi/

Stanford Sentiment Treebank: 标准的情感数据集,在每一个句子解析树的节点上带有细腻的情感注解。

地址:http://nlp.stanford.edu/sentiment/code.html

20 Newsgroups: 文本分类经典数据集中的一个。通常可用作纯分类或任何 IR/索引算法的基准。

地址:http://qwone.com/~jason/20Newsgroups/

Reuters: 旧的,纯粹基于分类的数据集与来自新闻专线的文本。常用于教程。

地址:https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

IMDB:一个用于二元情感分类的更旧更小的数据集。

地址:http://ai.stanford.edu/~amaas/data/sentiment/

UCI’s Spambase: 来自著名的 UCI 机器学习库较久的经典垃圾电子邮件数据集。由于数据集的策划细节,这可以是一个学习个性化过滤垃圾邮件的有趣基线。

地址:https://archive.ics.uci.edu/ml/datasets/Spambase

语音

大多数语音识别数据集是有所有权的,这些数据为收集它们的公司带来了大量的价值,但在这一领域里,许多可用的数据集都是比较旧的。

2000 HUB5 English: 仅仅只包含英语的语音数据,最近百度发表的论文《深度语音:扩展端对端语音识别(Deep Speech: Scaling up end-to-end speech recognition)》就是使用了该语音数据集。

地址:https://catalog.ldc.upenn.edu/LDC2002T43

LibriSpeech:包括文本和语音的有声读物数据集。它是近 500 小时由多人朗读清晰的各类有声读物数据集,且由包含文本和语音的书籍章节组织起结构。

地址:http://www.openslr.org/12/

VoxForge:带口音的语音清洁数据集,特别是对于如期望对不同口音或腔调的语音有鲁棒性需求的系统很有用。

地址:http://www.voxforge.org/

TIMIT:只包含英语的语音识别数据集。

地址:https://catalog.ldc.upenn.edu/LDC93S1

CHIME:包含噪声的语音识别数据集。该数据集包含真实、模拟和清洁的语音记录。实际上是记录四个说话者在四个噪声源的情况下近 9000 份记录,模拟数据是在结合话语行为和清洁无噪语音记录的多环境下生成的。

地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html

TED-LIUM:TED 演讲的语音转录数据集。1495 份 TED 演讲的语音记录,并且这些语音记录有对应的全文本。

地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

推荐和排序系统

Netflix Challenge:第一个主要 Kaggle 风格的数据库。因为存在隐私问题,只能非正式地获得授权。

地址:http://www.netflixprize.com/

MovieLens:各种电影的评论数据库,通常用于基线协同过滤(collaborative filtering baselines)。

地址:https://grouplens.org/datasets/movielens/

Million Song Dataset:在 Kaggle 上大量、富元数据(metadata-rich)、开源的数据集,有利于人们试验混合推荐系统(hybrid recommendation systems)。

地址:https://www.kaggle.com/c/msdchallenge

Last.fm:音乐推荐数据集,该数据集能有权访问底层社交网络和其他元数据,而这样的数据集正对混合系统有巨大的作用。

地址:http://grouplens.org/datasets/hetrec-2011/

网络和图表

Amazon Co-Purchasing 和 Amazon Reviews:从亚马逊以及相关产品评论数据网络爬取的如「用户买了这个同时也会买哪个」这样的语句。适合在互联网中进行推荐系统的测试。

地址:http://snap.stanford.edu/data/#amazon 和 http://snap.stanford.edu/data/amazon-meta.html

Friendster Social Network Dataset:在 Friendster 的重心转入到游戏网站之前,这家网站发布了包含 103,750,348 个用户好友列表的匿名数据集。

地址:https://archive.org/details/friendster-dataset-201107

地理测绘数据库

OpenStreetMap:免费许可的全球矢量数据集。其包含了旧版的美国人口统计局的 TIGER 数据。

地址:http://wiki.openstreetmap.org/wiki/Planet.osm

Landsat8:整个地球表面的卫星拍摄数据,每隔几周会更新一次。

地址:https://landsat.usgs.gov/landsat-8

NEXRAD:多普雷达扫描的美国大气环境。

地址:https://www.ncdc.noaa.gov/data-access/radar-data/nexrad

人们常常认为解决一个数据集上的问题就相当于对产品进行了一次完整的审视。因为我们可以使用这些数据集进行验证或证明一个概念,但是也不要忘了测试模型或原型是如何获取新的和更实际的数据来提高运算效果,获得优良产品的。数据驱动的成功公司通常从他们收集新数据、私有数据的能力中获得力量,从而以一种具有竞争力的方式提高他们的表现。

最后的话

好数据集还有很多,这份列表当然不可能完全覆盖,如果你知道还有很好的数据集值得推荐,请通过评论与我们分享。

详情请参与机器之心官网文章:http://www.jiqizhixin.com/article/2277

如何才能高效的背单词?

如果你想快速记忆单词汉语意思的话,可以试试“谐音法”!

agony [ˈæɡəni] n.极大的痛苦

记忆要点:谐音法→agony(读:“挨割你”)

讲解:古代时期的一种刑罚——刮刑(一刀一刀割肉),这种刑罚让罪犯感受到极大的痛苦。

例句:He is in agony with toothache. 他处于牙痛之中。

ail [eɪl] n.病痛;苦恼;烦恼 v.生病;使苦恼;使疼痛

记忆要点:谐音法→ail(读:“哎呦”)

讲解:疼痛时发出的声音。

例句:He has been ailing for a week. 他已经病了一个星期了。

alcohol ['ælkəhɒl] n.酒;酒精;乙醇

记忆要点:谐音法→alcohol(读:“爱渴喉”)

讲解:有一个爱喝酒的喉咙。

amber ['æmbə] n.琥珀;琥珀色 adj.琥珀的;琥珀色的

记忆要点:谐音法→amber(读:“暗玻”)

讲解:一个颜色灰暗半透明的物体。

ambition [æmˈbɪʃən]n.野心;抱负;志向

记忆要点:谐音法→ambition(读:“俺比胜”)

讲解:我志向高远、野心勃勃,自信一定会赢得这场胜利。

语音小常识:t字母在io,ia,ie前经常读[ʃ]。

例句:She has no ambition for fame and money. 她对名利没有野心。

angle [ˈæŋɡl] n.角;角度 v.垂钓;使形成角度

记忆要点:谐音法→angle(读:“暗钩”)

讲解:钓鱼的鱼钩是弯的(有一定角度的)。

例句:An angle of 90 is called a right angle. 九十度角称为直角。

annoy [ə'nɔɪ] v.使恼怒;使烦恼;骚扰

记忆要点:谐音法→annoy(读:“额闹你”)

Atlantis [ætˈlæntɪs] n.亚特兰蒂斯

记忆要点:谐音法→Atlantis(读:“亚特兰蒂斯”)

讲解:亚特兰蒂斯——传说中拥有高度发达史前文明的古老大陆或国家名,被一场超强自然灾难毁灭,沉没于大西洋。

例句:What led to the fall of Atlantis? 是什么导致了亚特兰蒂斯的沦落?

awkward ['ɔːkwəd] adj.尴尬的;笨拙的;别扭的

记忆要点:谐音法→awkward(读:“呕课卧的”)

讲解:在课堂上呕吐,然后躺卧在地上感到特别尴尬。

ban [bæn] v.禁止 n.禁止;禁令

记忆要点:谐音法→ban(读:“半”)

讲解:汽车行驶到一半的路程后,发现前方路标提示禁止通行。

bandage [ˈbændɪdʒ] n.绷带 v.用绷带绑扎

记忆要点:谐音法→bandage(读:“邦迪”)

讲解:邦迪——美国的一个创口贴品牌。

例句:The nurse tied around his knee with a bandage. 护士用绷带把他的膝盖绑了起来。

barber['bɑːbə] n.理发师

记忆要点:谐音法→barber(读:“叭叭”)

讲解:理发师总是劝说顾客烫发或是焗油。

两万元左右的腕表有哪些?

预算一万到两万的品牌手表推荐

这个价格如果按照正常推荐,绝对是浪琴的优势价格区间,无论是知名度,还是品牌定位,都有不错的选择。

以上是按照官方指导价说的,如果按照专业的购表渠道,这个价位段应该是帝舵和欧米茄更为合适,毕竟品牌定位高于浪琴。

购买一块万元以上的腕表,品牌是第一选择,其次是适合的款式,没有一块可以适合所有人的腕表,手表和衣服一样,不到手上试试,真不知道你带着是否好看。

下面说说我的推荐,因为只有价格,没有其他要求,我按惯例,以热门程度进行推荐。

浪琴名匠系列腕表

浪琴的经典系列,自从05年问世以来,就一直稳坐浪琴高端系列的宝座,腕表造型精美,无论搭配钢带或者皮带都能有很高的品质感,适合精英男士佩戴,适合搭配正装,蓝钢指针非常个性,唯一遗憾的是没有夜光。

名匠有大三针基础款,也有带计时、月相的复杂款,还有逆跳款,价格覆盖一万到两万之间。

帝舵启承系列

对于腕表,我通常都推荐基础系列,毕竟复杂的计时和三问,甚至陀飞轮其实在实用方面并不优越,而且越复杂的腕表,故障率往往越高,这也是为什么劳力士的腕表稳定耐用的一个原因,大多数都只有基础功能。

虽然推荐基础功能,但是个人觉得日历是一个很实用的功能,我个人购表日历是起码配置。

帝舵作为劳力士的子品牌,很好的延续了劳力士的品质,耐用,简单,启承系列才用了帝舵的自产机芯,帝舵能把这块机芯搭载在碧湾上说明了对机芯稳定性是有很高的把握。

启承是一块潜水腕表,防水深度200米,时针采用帝舵经典的斧头针,非常霸气的一款腕表,对于喜欢劳力士,但是预算不足的情况下,也是不错的选择。

欧米茄蝶飞

一万到两万这个价格区间能买到的欧米茄只有这款入门级的蝶飞。

正装腕表造型,经典的打三针搭配日历,欧米茄2500机芯,稳定,精准,欧米茄应该是这个价格区间能买到的知名度最高的品牌。

个人更加推荐钢带款,毕竟皮带后期比较容易配,但是一条高质量的原装钢带,真心不便宜。

现在的新款蝶飞褪去了老款的单调,加入了一些时尚元素,无论是服装搭配,还是上手舒适度,都有不错的表现。

我是汪東東 十三年腕表人 正品腕表推崇者 ,有更多腕表问题可以关注并私信我,我尽我所能为您答疑解惑,像朋友一样。

中国太空探索成就的英文介绍?

China has made remarkable achievements in its space exploration endeavors. Here is a brief overview of some significant milestones:

1. February 19, 1960: China successfully launched its first self-designed and manufactured experimental liquid-fueled sounding rocket.

2. November 26, 1975: China launched its first recoverable satellite, becoming the third country in the world to master satellite return technology.

3. October 1985: The Long March rocket began to enter the international market.

4. November 20, 1999: China launched the first unmanned experimental spacecraft, Shenzhou 1, which successfully landed in central Mongolia after 21 hours.

5. January 10, 2001: China launched Shenzhou 2, another unmanned spacecraft, which also achieved a successful launch.

6. 2003: China became the third country in the world to independently achieve manned spaceflight, following the Soviet Union and the United States.

7. 2007: China launched its first lunar probe, Chang'e 1, which successfully entered lunar orbit.

8. 2012: China's first space lab, Tiangong 1, was launched, paving the way for future space stations.

9. 2013: China successfully landed its first Mars probe, Yutu, on the surface of the Red Planet.

10. 2020: China launched the Tianwen-1 mission, its second Mars probe, which entered Mars orbit in February 2021.

These achievements have demonstrated China's growing capabilities in space exploration and its commitment to becoming a major player in the global space industry. Despite starting late in the race, China has made significant strides towards exploring the Moon and Mars, and its future plans include the construction of a permanent lunar base and further Mars missions.

zerobaseone什么时候出道曲?

今年7月份

近日,据韩媒透露,从选秀节目《Boys Planet》中诞生的限定男团ZEROBASEONE(简称ZB1)将于今年7月份正式出道,目前ZB1正在准备首张专辑。

免责声明:由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权,根据《信息网络传播权保护条例》,如我们转载的作品侵犯了您的权利,请您通知我们,请将本侵权页面网址发送邮件到qingge@88.com,深感抱歉,我们会做删除处理。