MS COCO - 大规模计算机视觉数据集

sowang · 发表于 2026-6-10 20:46:13

MS COCO 数据集

MS COCO（Microsoft Common Objects in Context）是由微软于2014年发布并维护的大规模计算机视觉数据集。与 ImageNet 侧重“识别是什么”不同，COCO 更强调“在复杂日常场景中的上下文理解”。

官网地址：

官方网站：https://cocodataset.org/

核心特色：

复杂场景与多目标：包含超过33万张图像和150万个目标实例，平均每张图像包含约7.2个目标，场景复杂且目标密集。

精细的像素级标注：不仅提供边界框，还提供每个对象实例的像素级分割掩码（Segmentation Mask）。

多任务支持：除了目标检测，还支持实例分割、全景分割、图像字幕生成（每张图5段自然语言描述）、人体关键点检测（25万人）等。

类别体系：包含80个常见目标类别（Things，如人、车、动物）和91个背景/材料类别（Stuff，如天空、草地、道路）。

适用场景：

目标检测（Object Detection）：目前工业界和学术界最权威的目标检测基准。
实例分割与全景分割（Instance/Panoptic Segmentation）：用于精确抠图和场景理解。
人体姿态估计（Keypoint Detection）：识别人的关节和骨骼关键点。
图像描述生成（Image Captioning）：训练 AI 理解图像内容并生成自然语言描述。

		自动登录	找回密码
密码			禁止注册

MS COCO - 大规模计算机视觉数据集

浏览过的版块