BLOOM

2周前更新 193 00

BLOOM是HuggingFace联合BigScience团队开发的1760亿参数多语言语言模型,基于Transformer架构,支持46种自然语言和13种编程语言。

所在地:
香港
收录时间:
2025-11-23

BLOOM是HuggingFace联合BigScience团队开发的1760亿参数多语言语言模型,基于Transformer架构,支持46种自然语言和13种编程语言。以下是核心信息:

模型特点
– 参数规模:176B参数,采用解码器-only结构 。
– 多语言支持:训练数据涵盖46种自然语言和13种编程语言 。
– 开源性:模型和代码在《负责任的人工智能许可证》下公开发布 。

训练细节
– 硬件:使用NVIDIA A100 80GB GPU集群(384个GPU)和AMD EPYC 7543 CPU 。
– 技术:结合DeepSpeed(ZeRO并行)和Megatron-LM(张量并行)实现高效分布式训练 。
– 数据:基于ROOTS语料库,包含1.5TB去重文本,转换为350B唯一token 。

应用与性能
– 任务表现:在SuperGLUE、机器翻译等基准测试中,微调后性能优于基线模型 。
– 碳足迹:训练耗时约3.5个月(100万小时),使用FP32和BF16混合精度优化 。

开发背景
由Thomas Wolf(HuggingFace联合创始人)主导,联合微软、英伟达等团队,目标是推动大模型技术的开放共享 。

数据统计

相关导航

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...