TogetherAI发布RedPajamav2:包含30万亿token数据集,用于大模型训练
币界网报道:据站长之家 11 月 6 日报道,AI 初创公司 Together AI 发布 RedPajama v2,这是一个包含 30 万亿 token 的数据集,旨在支持大型语言模型的研究和开发。研究人员从 CommonCrawl 和其他公开可用的网络数据中提取了原始文本数据,其中包括 40 多个质量注释和去重集群。他们计划扩展这些注释,以包括与常用 LLM 基准的比较、主题建模和分类注释等内容,以促进更深入的研究。据悉,RedPajama v2 的数据集还经过最小处理,以保持尽可能多的原始数据,并让模型构建者在后续处理中进行过滤和重新加权。
推荐专栏
热门币种
更多
币种
美元价格
24H涨跌幅
热搜币种
更多
币种
美元价格
24H涨跌幅
最新快讯
更多
2024-05-17 19:03:05
2024-05-17 19:02:23
2024-05-17 19:01:22
2024-05-17 19:00:45
2024-05-17 19:00:40
2024-05-17 19:00:01
2024-05-17 19:00:00