DeepFloyd IF

2周前更新 98 00

DeepFloyd IF是由Stability AI旗下DeepFloyd实验室开发的开源像素级文生图扩散模型，采用模块化级联架构实现从低分辨率到高分辨率的渐进式生成。

所在地：

新加坡

收录时间：

2025-11-23

DeepFloyd IF

DeepFloyd IF是由Stability AI旗下DeepFloyd实验室开发的开源像素级文生图扩散模型，采用模块化级联架构实现从低分辨率到高分辨率的渐进式生成。以下是核心信息：

技术架构
– 三级级联处理：
– 第一阶段：4.3B参数基础模型生成64×64像素图像
– 第二阶段：1.2B参数超分模型提升至256×256分辨率
– 第三阶段：最终优化至1024×1024高清输出
– 文本编码：冻结的T5-XXL-1.1模型，通过多注意力层实现文本-图像特征对齐

核心功能
– 文字渲染：生成包含准确文字的图像，解决传统模型文字模糊问题
– 空间建模：精确响应物体前后、方位等空间关系描述
– 图像编辑：支持零样本修复与局部修改
– 非标比例：可生成垂直/横幅等特殊比例图像

性能与训练
– 基于定制化LAION-A数据集训练（10亿级图文对），COCO数据集零样本FID得分为6.66
– 硬件需求：
– 1024×1024分辨率需24GB显存
– 基础分辨率生成最低需16GB显存

应用限制
– 当前版本（截至2025年2月）仅限非商业研究使用，需通过Hugging Face获取访问权限

数据统计

您必须登录才能参与评论！

暂无评论...