OpenBMB
OpenBMB是由清华大学团队发起的开源社区,专注于大规模预训练语言模型的研究与开发,致力于推动自然语言处理(NLP)领域的技术创新和应用落地。
BLOOM是HuggingFace联合BigScience团队开发的1760亿参数多语言语言模型,基于Transformer架构,支持46种自然语言和13种编程语言。以下是核心信息:
模型特点
– 参数规模:176B参数,采用解码器-only结构 。
– 多语言支持:训练数据涵盖46种自然语言和13种编程语言 。
– 开源性:模型和代码在《负责任的人工智能许可证》下公开发布 。
训练细节
– 硬件:使用NVIDIA A100 80GB GPU集群(384个GPU)和AMD EPYC 7543 CPU 。
– 技术:结合DeepSpeed(ZeRO并行)和Megatron-LM(张量并行)实现高效分布式训练 。
– 数据:基于ROOTS语料库,包含1.5TB去重文本,转换为350B唯一token 。
应用与性能
– 任务表现:在SuperGLUE、机器翻译等基准测试中,微调后性能优于基线模型 。
– 碳足迹:训练耗时约3.5个月(100万小时),使用FP32和BF16混合精度优化 。
开发背景
由Thomas Wolf(HuggingFace联合创始人)主导,联合微软、英伟达等团队,目标是推动大模型技术的开放共享 。


