Black Forest Labs 的最新模型生成了高质量图像,可在 NVIDIA RTX GPU 上高性能运行。
编者注:本文属于《AI 解密》系列栏目,该系列的目的是让技术更加简单易懂,从而解密 AI,同时向 GeForce RTX PC 和 NVIDIA RTX 工作站用户展示全新硬件、软件、工具和加速特性。
图像生成模型 — 生成式 AI 的常用子集 — 可以解析并理解书面语言,然后将文字转换为几乎任何风格的图像。
Black Forest Labs 的一系列新模型代表了图像生成领域的前沿技术 — 现在可在 PC 和工作站上试用 — 在 GeForce RTX 和 NVIDIA RTX GPU 上的运行速度最快。
流畅的功能
FLUX.1 AI 是由 Black Forest Labs 开发的文本生成图像模型套件。这些模型基于 Diffusion Transformer (DiT) 体系架构而构建,以便大参数量的模型保持高效运行。Flux 模型在拥有 120 亿个参数的模型上进行训练,以生成高质量图像。
DiT 模型属于高效的计算密集型模型 — NVIDIA RTX GPU 对于处理这些新模型至关重要,其中最大规模的模型如果不进行重大调整,将无法在非 RTX GPU 上运行。Flux 模型现在支持 NVIDIA TensorRT 软件开发套件,该套件可将这些模型的性能提升高达 20%。用户可以在 ComfyUI 中借助 TensorRT 试用 Flux 和其他模型。
提示:“一张杂志照片:在暴风雪中,一只猴子在温泉中沐浴,水面上飘着蒸汽。”来源:NVIDIA
Flux 的优势
FLUX.1 在生成高质量、多样化的图像方面表现卓越,其出色的指令遵循性意味着 AI 能够准确理解并执行指令。提示依从性较高,意味着生成的图像与文本提示描述的元素、风格和情绪高度匹配。提示依从性较低会导致图像可能部分或完全偏离给定的指令。
FLUX.1 以能够精确渲染人体解剖结构(包括手部和人脸等具有挑战性的复杂特征)而著称。FLUX.1 还显著改进了在图像中生成易读文本的过程,解决了文本转图像模型的另一个常见挑战。这使得 FLUX.1 模型非常适合需要精确文本表示的应用,例如宣传材料和书籍封面。
FLUX.AI 具有三种变体,可为用户提供最适合其工作流的选择,而不会牺牲质量:
● FLUX.1 pro:为企业用户提供最高质量的模型;可通过应用编程接口访问。
● FLUX.1 dev:FLUX.1 pro 的免费精华版本,仍然具有较高质量。
● FLUX.1 schnell:运行速度最快的模型,非常适合本地开发和个人使用;具有宽松的 Apache 2.0 许可证。
dev 和 schnell 模型为开源版本,Black Forest Labs 在流行平台 Hugging Face 上提供对其关键功能的访问。这一做法得到社区广泛认可。
得到社区广泛认可
自发布以来的三周内,Flux 模型的 dev 和 schnell 变体已在 HuggingFace 上被下载 200 多万次。
FLUX.1 的强大功能受到用户广泛赞誉,称其能够生成具有非凡细节和逼真度、视觉效果令人惊艳的图像,并且可以处理复杂的提示,而无需调整大量参数。
提示:“一张细节丰富的专业特写照片:一只变形孟加拉虎身穿白色无袖背心,戴着太阳镜,脖子上挂着耳机,爪子放在舞台上的唱盘上,在伊比沙岛晚间的户外电子舞曲音乐会上担任 DJ;派对气氛,少量烟雾与焦散光照。”来源:NVIDIA
提示:“一张摄影品质图像:雨夜,繁华的城市街道上,一辆黄色出租车停在路边,前灯亮着,照射在潮湿路面上。一位身着红色外套的女性撑着一把亮绿色雨伞,看着她的智能手机。左侧有一家咖啡店,霓虹灯标志牌上面显示着蓝色字母‘Café Mocha’。咖啡店装着大窗户,从中可以看到人们在享受饮料。路灯照亮了该区域,在整个场景上投射出温暖的光芒,而雨滴在空中产生了雾霾效果。背景中,一座高楼上的大型数字时钟显示时间为下午 8 点 45 分。”来源:NVIDIA
此外,FLUX.1 还善于处理各种艺术风格,并能够快速高效地生成图像,因此是完成个人和专业项目不可或缺的重要工具。
入门指南
用户可以使用 ComfyUI 等流行社区网页访问 FLUX.1。社区运行的 ComfyUI 维基百科提供了入门分步说明。
许多 YouTube 创作者还提供了有关 Flux 模型的视频教程,例如 MDMZ 制作的这个视频教程:
使用井号标签 #fluxRTX 在社交媒体上分享您生成的图像,即有机会成为 NVIDIA AI 频道的精选作品。
生成式 AI 正在改变游戏、视频会议和各类互动体验。请订阅《解码 AI》时事通讯,及时了解新鲜资讯和未来动向。
###
网友评论