ImageNet: A large-scale hierarchical image database

2009 2012 年前 CPU 与统计基础 被引用 62k 次
下载 PDF

ImageNet: A Large-Scale Hierarchical Image Database - 中文验证版

英文原始依据卡片:imagenet_cvpr_2009.md

状态:已翻译。

元数据

  • Slug: imagenet_cvpr_2009
  • 年份: 2009
  • 会议: CVPR
  • 作者: Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, Li Fei-Fei
  • 阅读状态: read complete
  • 计算范式: 2012 年前 CPU 与统计基础
  • 主要来源: PDF抽取文本

计算设置

论文未指定模型训练设备。按项目规则,计算设置应放在当时研究硬件环境中阅读,约为 2008 年:CPU 工作站/服务器、网页爬取和存储基础设施,以及 Amazon Mechanical Turk 作为可扩展的人工标注组件。GPU 不是本文的中心设备,本地文本中未提出任何加速器声明。

因此,论文实际的"计算结构"不是一次神经网络训练运行,而是一个数据生产系统:

  • WordNet 提供语义地址空间。
  • 搜索引擎和图像托管站点提供 web 规模候选图像。
  • Mechanical Turk 提供分布式人工验证。
  • 磁盘/网络容量和数据库组织使多百万图像基准变得可用。

所报告的数据发布包含 12 个 WordNet 子树、5,247 个同义词集和 320 万张图像。目标数据库大得多:WordNet 约 80,000 个名词同义词集中的大多数,每个同义词集 500-1000 张干净的全分辨率图像。因此,构建流水线是一个前加速器时代的扩展系统:收集带噪候选图像,使用分布式人工劳动清洗,发布可复用基准。

论文保留全分辨率图像(平均约 400 x 350),而非仅 32 x 32 缩略图。这增加了存储和带宽需求,但为后续任务保留了信息。

瓶颈

在 ImageNet 之前,物体识别数据集要么太小、太窄,要么噪声太大,无法支撑高容量识别系统。论文将 ImageNet 与较小的整理数据集以及非常大但噪声很强的弱标签集合进行对比。瓶颈不是新的分类器,而是缺少大型、精确、层级化的监督语料。

关键瓶颈是规模化下的标签精度。搜索引擎可以为每个查询检索数百到上千张图像,但原始 web 候选图像充满噪声。Tiny Images 有 8,000 万张低分辨率图像,但论文报告平均同义词集中只有 10-25% 的图像可能是干净的。ImageNet 花费人工验证将带噪 web 规模数据转化为高精度监督数据。

层级结构也解决了一个基准瓶颈。WordNet 赋予数据集一棵密集的语义树,因此后续模型可以在越来越细的区分上评估。

方法适配

ImageNet 通过将可扩展部分移出模型训练来适配 CPU/web 时代:

  • 使用 WordNet,避免平坦的、人工发明的标签集合。
  • 通过图像搜索和关联词扩展每个同义词集。
  • 使用众包验证,将带噪 web 候选图像转化为高精度标签。
  • 保留全分辨率图像,而非将语料缩减为小缩略图,从而为识别、检测和定位保留下游用途。

候选收集阶段围绕 web 搜索的限制构建。对每个同义词集,系统查询 WordNet 同义词;由于搜索引擎返回有限图像,查询集合在有用时用父同义词集词扩展,并翻译为中文、西班牙语、荷兰语和意大利语。去重后,每个同义词集平均有超过 10,000 张候选图像。

清洗阶段使用 AMT 作为分布式标注设备。工人看到候选图像及目标同义词集定义,判断物体是否存在。由于工人会犯错且同义词集难度不同,多个用户独立标注同一图像。系统从每个同义词集采样图像,要求至少 10 个用户投票,构建置信度表,然后标注直至达到置信阈值。

这使得数据集本身成为可复用的计算产物。后来的 GPU 时代方法可以在同一基准上训练,无需重建监督流水线。

证据

  • 论文报告,验证后的抽样同义词集平均精度为 99.7%。
  • 发布的数据集已有数百万图像,覆盖数千类别。
  • 层级结构允许在多个语义层级进行评估和分析,而不仅是平坦的 top-1 分类。
  • 超过 50% 的同义词集有超过 500 张图像,12 个子树发布中每个同义词集平均超过 600 张图像。
  • 与当时常见数据集相比,论文称当前 ImageNet 提供 20 倍的类别数和 100 倍的总图像数。
  • ImageNet 与 Tiny Images 对比:Tiny Images 有 8,000 万张 32 x 32 图像,但噪声高、分辨率低;ImageNet 以约 99% 精度和全分辨率图像提供高质量同义词集。
  • 物体识别实验比较了带噪候选数据与干净的 ImageNet 数据,表明准确数据改善了分类性能。
  • 层级感知分类和边界框实验展示了超越平坦图像标签的支持。

历史影响

ImageNet 将视觉识别的主要瓶颈从"标注数据太少"转变为"如何训练足够大的模型来利用这些标注数据"。这种压力暴露了 CPU 时代特征流水线的限制,并为 2012 年 GPU CNN 转型做好了准备。

在计算结构主线中,本文位于 AlexNet 之前:它创造了使 GPU 卷积训练变得有价值的监督数据负载。

历史影响也是基础设施性的。ImageNet 将分布式网页爬取和人工标注转化为固定的公共基准。一旦数据集存在,未来的方法可以在相同的大标注分布上比较,该领域也有了花费更多训练计算的理由。

局限

  • 本文是数据集论文,因此没有建立新的训练架构或加速器设计。
  • 计算设备是从时期和数据流水线推断的,而非作为训练机器列出。
  • 初始发布仍只是预期完整 WordNet 规模数据库的一部分。
  • 人工标注可扩展但并非免费;论文继续讨论优化 AMT 重复次数和验证效率。
  • 数据集继承了 web 可得性偏差,因为候选图像来自搜索引擎和公共图像源。

链接