Stable Diffusion 3.5稳定输出特定风格的图片
Anthropic 正式发布 了Stable Diffusion 3.5,这是他们迄今为止最强的模型,此公开版本包含多个型号变体,包括 Stable Diffusion 3.5 Large 、Stable Diffusion 3.5 Medium和Stable Diffusion 3.5 Large Turbo。
在深入分析之前,让我们先了解这三个版本的基本特性:
- Stable Diffusion 3.5 Large: 专为需要高细节和高分辨率图像的用户设计,通常用于需要精细处理的项目。
- Stable Diffusion 3.5 Medium: 适合一般图像生成需求,提供了较好的速度与质量平衡。
- Stable Diffusion 3.5 Large Turbo: 在图像生成速度上进行了优化,是追求速度的用户的理想选择。
图像生成速度的对比
1. Stable Diffusion 3.5 Large
- 速度特性: 由于其复杂的架构和高参数量,Large版本在生成速度上相对较慢。适合那些对图像细节要求极高且可以容忍较长生成时间的项目。
- 适用场景: 适合艺术创作、广告设计等需要高分辨率和精细度的场合。
2. Stable Diffusion 3.5 Medium
- 速度特性: Medium版本在速度与质量上找到了一种平衡,生成速度明显优于Large版本,同时图像质量也能满足大多数应用需求。
- 适用场景: 适合日常使用,如社交媒体内容创作、快速原型设计等。
3. Stable Diffusion 3.5 Large Turbo
- 速度特性: Large Turbo版本在速度上表现出色,显著快于Large和Medium版本,非常适合需要快速生成大量图像的场景。
- 适用场景: 适合新闻媒体、社交内容创作者或需快速迭代的项目。
速度测试与结果
为了更好地理解这些版本之间的差异,我们进行了实际的速度测试:
- 测试条件: 在相同硬件环境下,生成500x500像素的图像。
- 测试结果:
- Large版本: 平均生成时间约为60秒。
- Medium版本: 平均生成时间约为40秒。
- Large Turbo版本: 平均生成时间约为20秒。
从测试结果可以看出,Large Turbo版本在生成速度上具有明显的优势,几乎是Medium版本的一半时间,而Large版本虽然慢但提供了更好的图像细节。
如何选择合适的版本?
选择合适的版本主要取决于您的具体需求:
- 如果您需要高分辨率的精细图像: 大胆选择Large版本。
- 如果您需要速度与质量的平衡: Medium版本是不错的选择。
- 如果时间紧迫,需快速生成: Large Turbo版本将是您的首选。
从1.9到3.5:细节提升对风格的影响
- 1.9版本: 图像细节较为单薄,对复杂场景的表达力有限,尤其是在细微纹理和光影表现上略显不足。
- 3.5版本: 图像更加细致,复杂场景中的细节表现更加丰富,纹理细腻,光影处理也更为自然。
随着Stable Diffusion 3.5版本的推出,其在细节表现上的显著提升为图像生成带来了更高的逼真度。然而,这种提升也伴随着一些新的挑战,尤其是在生成抽象风格图像时,过多的细节可能导致图像风格失去了原有的抽象性,变得过于真实。这种两面性对于创作者提出了新的思考,如何在细节与抽象之间找到平衡?
不对模型做任何高级参数设置的情况下,使用同样的提示词,Stable Diffusion 3.5生成图片的视觉效果相较于1.9将具有更多的创造性和细节。
当想要生成风格稳定的图片时,如果只使用单一风格提示词时,图片风格的稳定性将会不足,因此还需要把风格进行进一步的描述,比如想绘制何种抽象画,绘制的笔触等。因为在不做任何高级参数限制时,Stable Diffusion 3.5不再像1.9一样生成如出一辙样式,它存在更多种可能性,所以首先需要使用更加详细的提示词。
Prompt:
Two butterflies are flying - Vivid and colorful in an abstract art style, surreal,Constructivism,Futurism featuring bold, vibrant colors like deep blue, orange, pink #f21d6b, and yellow. surrounded by dynamic geometric shapes and organic elements, such as swooping curves, spheres, and layered patterns. The composition is set against a light, creamy background, creating a harmonious yet striking contrast. The artwork has a modern, playful, and visually stimulating feel, with a sense of movement and energy. Include a mix of large central and smaller ones in the background, creating depth and a lively atmosphere.
使用了更加详细的提示词后,虽然每次生成的对象已变得足够抽象,但“蝴蝶”这个主体对象仍然常常风格迥异。接下来继续探讨稳定输出的解决方案。
解决方案:平衡细节与抽象
因为生成图片的风格主要被guidance scale和inference steps参数所影响,我们可以继续调整这些参数来对生成效果进行进一步限制。
在前文中,提示词并不能直接控制 Guidance Scale。这是因为 Guidance Scale 是模型运行时的一个外部参数,与提示词是分离的,因此需要通过其界面或代码来调整它。提示词只能间接影响生成结果,目前测试的结果显示,使用提示词的间接影响并不能让生成对象的细节完全固定。
1.通过进一步设置 Guidance Scale和inference steps实现
在本次测试中,由于需要生成抽象度更高的图片,将采用以下方法:
- 调节guidance scale: 需要尽量让生成结果更加符合提示词时,通过增加guidance scale,可以减少图像生成过程中的自由度,从而增强更加吻合提示词的抽象效果。
- 减少inference steps: 降低推理步数可以使生成过程更加快速,减少细节充斥的概率,让图片抽象度更高。
以下是进行了高级参数设置的生成结果,由于配置环境和工具不同,以下数值所呈现的图片效果不一定完全一致。但对生成的对象“飞翔的蝴蝶”而言,进行高级参数调整能够实现更加稳定的视觉效果。
Randomize seed
Guidance scale: 7
Number of inference steps: 20
拓展知识. API 或代码调用
- 在使用 Python 或类似接口时,您需要在代码中指定
guidance_scale
参数。例如:python复制代码from diffusers import
StableDiffusionPipelinepipe = StableDiffusionPipeline.from_pretrained("model_name"
)prompt = "A vibrant and abstract painting"
]
image = pipe(prompt, guidance_scale=10.0).images[0 - 在这里,
guidance_scale=10.0
决定了图片生成的匹配程度。
2.结合多模型生成策略
如果通过提示词和高级参数调整都无法达到预期效果,可以考虑本策略
- 混合使用多版本模型: 同时利用1.9版本和3.5版本各自的优势,结合使用不同版本的模型以生成不同风格的图像。
- 使用API进行多模型集成: 通过API配置,集成多种模型的生成能力,以实现灵活的风格转换。
Comments ()