中文搜索引擎指南网

 找回密码
 禁止注册

QQ登录

只需一步,快速开始

搜索
查看: 9|回复: 0
打印 上一主题 下一主题

Common Crawl - 开源互联网存档项目

[复制链接]
跳转到指定楼层
1#
发表于 昨天 20:48 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
Common Crawl 是一个由非营利组织运营的开源互联网存档项目,自2008年启动以来,它通过大规模分布式爬虫系统定期抓取整个Web,并免费向公众开放。它就像是互联网的“记忆库”,积累了PB级别的海量数据,是当今训练大语言模型(LLM)最核心的基础语料库之一。

官网地址

官方网站:https://commoncrawl.org/

核心特色

规模极其庞大:数据集包含超过3000亿个网页,覆盖100多种语言。每月新增30亿至50亿个网页,仅单月快照的原始数据量就可达数百TB。

完全免费开放:无需注册、无需申请许可,数据托管在亚马逊S3上,支持通过HTTP(S)或S3协议直接免费下载。

多模态与结构化支持:除了基础的网页HTML和纯文本,2025年的更新还引入了网页图像/视频元数据索引、更精确的语言检测以及表格等结构化内容的提取。

大模型预训练基石:它是GPT-3、LLaMA、Falcon等全球顶尖开源大模型的核心预训练数据来源。

适用场景

大语言模型(LLM)预训练:作为通用知识学习的最主要语料库,用于构建基座模型。

历史网页与趋势分析:追踪特定网站随时间的演变、分析互联网结构变化及社交媒体舆论趋势。

搜索引擎优化(SEO)与竞品分析:分析竞争对手的网站排名、关键字策略及外链情况。

学术研究:支持自然语言处理、网页结构分析、网络审查研究等广泛的学术探索。
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏

Archiver|手机版|小黑屋|教你搜 ( 鲁ICP备16006309号

GMT+8, 2026-6-11 23:25 , Processed in 0.157649 second(s), 25 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表