中文搜索引擎指南网
标题:
LAION-5B - 全球最大的多模态图文开源数据集之一
[打印本页]
作者:
sowang
时间:
4 天前
标题:
LAION-5B - 全球最大的多模态图文开源数据集之一
LAION-5B(Large-scale Artificial Intelligence Open Network)是由德国非营利组织 LAION 发布的超大规模多模态图文数据集。它是目前已知且开源的最大规模多模态数据集之一,在 AI 发展史上具有里程碑意义,也是 Stable Diffusion 等著名文生图模型的核心训练数据来源。
官网地址
官方网站:
https://laion.ai/blog/laion-5b/
数据集信息页:
https://opendatalab.org.cn/LAION-5B
核心特色
超大规模与多语言支持:包含高达 58.5 亿个图文对(总数据量约 80TB),是此前最大开源数据集 LAION-400M 的 14 倍。其中包含 23.2 亿个英语样本、22.6 亿个 100 多种其他语言样本,以及 12.7 亿个未知语言样本。
CLIP 模型过滤:通过 CommonCrawl 获取网络文本和图片,并使用 OpenAI 的 CLIP 模型计算图文相似性,删除相似度低于设定阈值(英文 0.28,其余 0.26)的图文对,从 500 亿张原始图片中精选出不到 60 亿对。
安全与质量过滤机制:针对早期数据集中存在的大量不适内容,LAION-5B 提供了多种过滤子集和模型,包括 NSFW(色情内容)识别过滤、水印检测过滤,以及基于美学评分(Aesthetic Score)的高质量图像子集。
学术界认可:该数据集的相关论文荣获了 NeurIPS 2022 数据集和基准测试最佳论文奖,旨在使大规模多模态模型的研究民主化。
如何使用
由于 LAION-5B 数据量极其庞大(80TB),直接下载整个数据集对普通开发者极不现实。官方提供了多种灵活的使用方式:
1. 按需检索获取(推荐个人项目使用)
如果只需要特定类别的图像,无需下载全量数据,可直接通过 LAION 提供的 k-NN(最近邻)服务 API 进行检索和流式下载。
API 端点:
https://knn.laion.ai/knn-service
Python 示例:通过 requests 库发送 POST 请求,传入查询文本(如 "cat")和索引名称(如 laion5B-L-14),即可获取匹配图像的 URL 列表,随后使用 shutil 进行流式下载。
2. 使用自动化下载工具
官方提供了专门的下载脚本和工具,支持从元数据中自动拉取图片:
img2dataset:官方提供的自动化下载脚本,支持根据数据集的 URL 集合批量下载图片。
WebDataset 格式:在 Hugging Face 等平台上,搜索名字包含 webdataset 的 LAION 资源,可直接获取包含图片原件和文本的结构化数据。
3. 分布式推理与处理(适合企业/研究机构)
对于需要处理海量数据的场景,可使用 clip-retrieval 工具在 Spark 集群上进行分布式推理。
多 GPU 集群支持:支持在 8 个 A100 GPU 等配置下线性扩展性能,处理速度可达每秒数千个样本。
存储后端集成:支持直接读取和写入 AWS S3 或 HDFS 等分布式存储系统。
4. 使用官方过滤子集
Stable Diffusion 等模型在训练时并未使用全集,而是使用了精心筛选的子集。开发者可直接在 Hugging Face 上获取如 LAION-Aesthetics(美学评分 ≥ 4.5 或 5.0 以上的高质量子集)或 LAION-2B-en(纯英语子集)来进行模型微调或研究。
适用场景
AI 图像生成(AIGC):作为文生图模型(如 Stable Diffusion v1-4 等)的核心预训练语料。
大规模多模态学习:用于训练和评估 CLIP、ALIGN 等图文匹配与零样本视觉推理模型。
多模态检索系统:构建文本到图像(Text-to-Image)的跨模态搜索引擎。
版权与隐私研究:通过 haveibeentrained.com 等工具,研究人员可检索特定图片是否被用于训练,以防范侵权风险。
欢迎光临 中文搜索引擎指南网 (http://www.sowang.com/bbs/)
Powered by Discuz! X3.2