DALL·E 3
DALL·E 3是OpenAI开发的第三代文本到图像生成模型
Segment Anything(简称SAM)是Meta推出的开源图像分割模型,支持通过点、框、文本等提示对图像中的任意物体进行高精度分割,可应用于自动驾驶、医学影像、3D重建等领域。
核心功能
– 多模态提示支持:用户可通过点、边界框、文本(如“黑色的猫”)或组合提示引导模型分割目标 。
– 高精度分割:基于11亿掩码训练的模型,能处理复杂场景(如遮挡、多物体),并返回多个可能掩码供选择 。
– 快速推理:网页端模型仅需约50毫秒生成掩码,适合实时应用 。
技术架构
– 编码器-解码器结构:包含图像编码器(提取视觉特征)和提示编码器(处理用户输入),最终生成分割掩码 。
– 可扩展性:支持3D重建(SAM 3D)和动态场景(SAM 3),可检测、跟踪视频中的物体 。
应用场景
– 自动驾驶:分割道路、行人等关键元素 。
– 医学影像:精准标注器官或病变区域 。
– 3D建模:结合Meta Momentum Human Rig格式,实现人体姿态与形状估计 。
开源与生态
Meta已开放SAM 3D、SAM 3的模型权重及推理代码,并提供Segment Anything Playground平台供用户测试 。

