ImageNet: A Large-Scale Hierarchical Image Database - 中文验证版

英文原始依据卡片：imagenet_cvpr_2009.md

状态：已翻译。

元数据

Slug： imagenet_cvpr_2009
年份： 2009
会议： CVPR
作者： Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, Li Fei-Fei
阅读状态： read complete
计算范式： 2012 年前 CPU 与统计基础
主要来源： PDF、抽取文本

计算设置

论文未指定模型训练设备。按项目规则，计算设置应放在当时研究硬件环境中阅读，约为 2008 年：CPU 工作站/服务器、网页爬取和存储基础设施，以及 Amazon Mechanical Turk 作为可扩展的人工标注组件。GPU 不是本文的中心设备，本地文本中未提出任何加速器声明。

因此，论文实际的"计算结构"不是一次神经网络训练运行，而是一个数据生产系统：

WordNet 提供语义地址空间。
搜索引擎和图像托管站点提供 web 规模候选图像。
Mechanical Turk 提供分布式人工验证。
磁盘/网络容量和数据库组织使多百万图像基准变得可用。

所报告的数据发布包含 12 个 WordNet 子树、5,247 个同义词集和 320 万张图像。目标数据库大得多：WordNet 约 80,000 个名词同义词集中的大多数，每个同义词集 500-1000 张干净的全分辨率图像。因此，构建流水线是一个前加速器时代的扩展系统：收集带噪候选图像，使用分布式人工劳动清洗，发布可复用基准。

论文保留全分辨率图像（平均约 400 x 350），而非仅 32 x 32 缩略图。这增加了存储和带宽需求，但为后续任务保留了信息。

瓶颈

在 ImageNet 之前，物体识别数据集要么太小、太窄，要么噪声太大，无法支撑高容量识别系统。论文将 ImageNet 与较小的整理数据集以及非常大但噪声很强的弱标签集合进行对比。瓶颈不是新的分类器，而是缺少大型、精确、层级化的监督语料。

关键瓶颈是规模化下的标签精度。搜索引擎可以为每个查询检索数百到上千张图像，但原始 web 候选图像充满噪声。Tiny Images 有 8,000 万张低分辨率图像，但论文报告平均同义词集中只有 10-25% 的图像可能是干净的。ImageNet 花费人工验证将带噪 web 规模数据转化为高精度监督数据。

层级结构也解决了一个基准瓶颈。WordNet 赋予数据集一棵密集的语义树，因此后续模型可以在越来越细的区分上评估。

方法适配

ImageNet 通过将可扩展部分移出模型训练来适配 CPU/web 时代：

使用 WordNet，避免平坦的、人工发明的标签集合。
通过图像搜索和关联词扩展每个同义词集。
使用众包验证，将带噪 web 候选图像转化为高精度标签。
保留全分辨率图像，而非将语料缩减为小缩略图，从而为识别、检测和定位保留下游用途。

候选收集阶段围绕 web 搜索的限制构建。对每个同义词集，系统查询 WordNet 同义词；由于搜索引擎返回有限图像，查询集合在有用时用父同义词集词扩展，并翻译为中文、西班牙语、荷兰语和意大利语。去重后，每个同义词集平均有超过 10,000 张候选图像。

清洗阶段使用 AMT 作为分布式标注设备。工人看到候选图像及目标同义词集定义，判断物体是否存在。由于工人会犯错且同义词集难度不同，多个用户独立标注同一图像。系统从每个同义词集采样图像，要求至少 10 个用户投票，构建置信度表，然后标注直至达到置信阈值。

这使得数据集本身成为可复用的计算产物。后来的 GPU 时代方法可以在同一基准上训练，无需重建监督流水线。

证据

论文报告，验证后的抽样同义词集平均精度为 99.7%。
发布的数据集已有数百万图像，覆盖数千类别。
层级结构允许在多个语义层级进行评估和分析，而不仅是平坦的 top-1 分类。
超过 50% 的同义词集有超过 500 张图像，12 个子树发布中每个同义词集平均超过 600 张图像。
与当时常见数据集相比，论文称当前 ImageNet 提供 20 倍的类别数和 100 倍的总图像数。
ImageNet 与 Tiny Images 对比：Tiny Images 有 8,000 万张 32 x 32 图像，但噪声高、分辨率低；ImageNet 以约 99% 精度和全分辨率图像提供高质量同义词集。
物体识别实验比较了带噪候选数据与干净的 ImageNet 数据，表明准确数据改善了分类性能。
层级感知分类和边界框实验展示了超越平坦图像标签的支持。

历史影响

ImageNet 将视觉识别的主要瓶颈从"标注数据太少"转变为"如何训练足够大的模型来利用这些标注数据"。这种压力暴露了 CPU 时代特征流水线的限制，并为 2012 年 GPU CNN 转型做好了准备。

在计算结构主线中，本文位于 AlexNet 之前：它创造了使 GPU 卷积训练变得有价值的监督数据负载。

历史影响也是基础设施性的。ImageNet 将分布式网页爬取和人工标注转化为固定的公共基准。一旦数据集存在，未来的方法可以在相同的大标注分布上比较，该领域也有了花费更多训练计算的理由。

局限

本文是数据集论文，因此没有建立新的训练架构或加速器设计。
计算设备是从时期和数据流水线推断的，而非作为训练机器列出。
初始发布仍只是预期完整 WordNet 规模数据库的一部分。
人工标注可扩展但并非免费；论文继续讨论优化 AMT 重复次数和验证效率。
数据集继承了 web 可得性偏差，因为候选图像来自搜索引擎和公共图像源。

链接

所属计算范式：compute spine
下一张链接卡：AlexNet 2012
方法索引：cnn
Ledger 更新：compute bottlenecks