DeepFloyd IF

2周前更新 98 00

DeepFloyd IF是由Stability AI旗下DeepFloyd实验室开发的开源像素级文生图扩散模型,采用模块化级联架构实现从低分辨率到高分辨率的渐进式生成。

所在地:
新加坡
收录时间:
2025-11-23
DeepFloyd IFDeepFloyd IF

DeepFloyd IF是由Stability AI旗下DeepFloyd实验室开发的开源像素级文生图扩散模型,采用模块化级联架构实现从低分辨率到高分辨率的渐进式生成。以下是核心信息:

技术架构
– 三级级联处理:
– 第一阶段:4.3B参数基础模型生成64×64像素图像
– 第二阶段:1.2B参数超分模型提升至256×256分辨率
– 第三阶段:最终优化至1024×1024高清输出
– 文本编码:冻结的T5-XXL-1.1模型,通过多注意力层实现文本-图像特征对齐

核心功能
– 文字渲染:生成包含准确文字的图像,解决传统模型文字模糊问题
– 空间建模:精确响应物体前后、方位等空间关系描述
– 图像编辑:支持零样本修复与局部修改
– 非标比例:可生成垂直/横幅等特殊比例图像

性能与训练
– 基于定制化LAION-A数据集训练(10亿级图文对),COCO数据集零样本FID得分为6.66
– 硬件需求:
– 1024×1024分辨率需24GB显存
– 基础分辨率生成最低需16GB显存

应用限制
– 当前版本(截至2025年2月)仅限非商业研究使用,需通过Hugging Face获取访问权限

数据统计

相关导航

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...