怎么使用Stable Diffusion制作图片,看完就秒懂

AIFUC
巅峰
START
Stable Diffusion 是一款基于深度学习的开源 AI 图像生成模型,它的诞生为 AI 绘画领域带来了革命性的变化。与一些闭源的绘画工具不同,Stable Diffusion 的代码和预训练模型开源,这意味着任何人都可以自由使用、修改和分发,激发了全球无数开发者和创作者的热情,大家纷纷基于它进行二次开发,不断拓展其功能边界,形成了一个极其活跃的社区。

它的工作原理可以简单理解为一个 “去噪” 过程。模型首先会生成一个充满噪声(噪声它是一种数据层面的、符合特定统计分布规律的干扰信息,并非我们日常说的图像上那种直观的 “噪点” 概念)的图像,然后通过学习大量图像数据的特征和模式,逐步去除噪声,让图像的细节和内容逐渐清晰,最终生成符合我们描述的精美画面。例如,当我们输入 “在樱花飞舞的日本街道,穿着和服的少女漫步” 这样的描述时,它就能依据所学,一步步将最初的噪声转化为一幅唯美浪漫的画面。
另外AI 绘画市场中,Midjourney 也是备受关注的工具。Midjourney 操作便捷,无需复杂的本地部署,在线即可使用,非常适合新手快速上手创作。而 Stable Diffusion 则胜在高度的自定义性,它支持各种插件,其中与 LoRA(Low-Rank Adaptation)的结合更是让人惊艳。LoRA 能够在保持原始模型性能的基础上,通过少量的数据微调,快速让模型适配不同的风格和主题,比如生成特定风格的动漫角色、复古海报等,满足创作者多样化的需求,这是 Midjourney 较难实现的。
在 Stable Diffusion 的网络结构中,LoRA 以一种插入式的模块形式存在。它主要是在 Transformer 架构(Stable Diffusion 中关键的架构部分)的特定层之间插入自己的模块。这些模块会对输入到该层的特征进行调整。
例如,Stable Diffusion 的文本编码器部分会将输入的提示词(prompt)转换为对应的特征表示。LoRA 模块在这里可以对这些特征进行微调,使得模型在理解提示词的时候,能够更好地偏向特定的风格。假设我们希望生成复古海报风格的图像,LoRA 可以在这个文本编码器阶段就调整特征,让模型知道对于 “复古海报” 相关的词汇应该给予什么样的特殊关注。
当我们想要生成特定风格(如动漫角色)的图像时,我们可以加载预先训练好的适合动漫风格的 LoRA 模型。这个 LoRA 模型已经学习了如何调整 Stable Diffusion 的参数来生成动漫风格的图像。
在推理阶段(也就是实际生成图像的时候),Stable Diffusion 会按照正常的流程进行操作,但是在经过带有 LoRA 模块的层时,这些模块会根据它们学到的风格调整信息对图像生成过程进行干预。比如,对于动漫风格,它可能会调整线条的生成方式、色彩的分布、角色的比例等,使得最终生成的图像符合动漫风格的特点。
通过这种方式,LoRA 和 Stable Diffusion 紧密结合,为创作者提供了一种高效、灵活的方式来生成各种不同风格和主题的高质量图像。
这么一讲,应该就不难理解Stable Diffusion 和 LoRA之间的关系了,那我就继续接着讲提示词。
Prompt (提示词)
正向提示词是个啥?
正向提示词就像是一位画家手中的画笔,它精准勾勒出我们心中理想画面的每一处细节,是引导 Stable Diffusion 生成图像的关键指令。当我们想要绘制一幅精美的古风插画时,就可以这样写正向提示词:“masterpiece, best quality, ancient Chinese style, a beautiful lady in a flowing cheongsam, standing in a delicate pavilion surrounded by blooming cherry blossoms, soft sunlight shining through the petals, highly detailed, vivid colors”,这段提示词翻译过来就是 “杰作,最佳质量,中国古风,一位身着飘逸旗袍的美丽女子,站在一座精致的亭子里,四周环绕着盛开的樱花,柔和的阳光透过花瓣洒下,高度细节化,色彩鲜艳”。其中,“masterpiece” 和 “best quality” 设定了作品的高品质基调;“ancient Chinese style” 明确风格方向;“a beautiful lady in a flowing cheongsam” 描绘主体人物及其服饰;“standing in a delicate pavilion surrounded by blooming cherry blossoms” 构建场景;“soft sunlight shining through the petals” 增添环境氛围;“highly detailed” 和 “vivid colors” 强调画面精细度与色彩丰富度,如此,一幅充满诗意的古风画面跃然纸上。
再比如,若想创作一幅科幻主题的海报,正向提示词可为:“ultra-high quality, science fiction theme, a magnificent spaceship hovering over a futuristic cityscape, neon lights flickering on the skyscrapers, laser beams shooting in the sky, sharp and detailed metal texture, cinematic lighting”,即 “超高质量,科幻主题,一艘宏伟的宇宙飞船盘旋在未来主义城市景观上空,摩天大楼上霓虹灯闪烁,激光束射向天空,锐利且精细的金属质感,电影级灯光”。这里从整体风格、主体物、场景到细节质感、光影效果都有涉及,能让模型朝着预期的科幻大片风格生成图像。在书写正向提示词时,用词越精准、丰富,对画面的掌控力就越强,生成的图片就越接近脑海中的想象。
到这里你是不是很奇怪,为什么提示词得是英文,而不中文?这没办法,Stable Diffusion 模型在训练时使用了大量的英文文本和图像数据,模型通过学习这些数据,建立了文本和图像之间的关联。当我们输入英文提示词时,模型能够更好地理解我们的意图,并生成符合要求的图像,另外国内中文互联网衰落,对于AI模型训练也是阻碍,这个有机会再讲。
负向提示词又是啥?
负向提示词则充当 “质检员”,负责剔除那些我们不希望在画面中出现的瑕疵与冗余元素。常见的负面元素有模糊(blurry)、低质(low quality)、画面噪点(noise)、多余的手指或部件(extra fingers /parts)、解剖结构错误(bad anatomy)、文字水印(text /watermark)等。
假设我们想要一幅高清、唯美的风景油画,负向提示词可以写:“no blur, no low quality, no noise, no text, no watermark, no brush strokes error”,也就是 “无模糊、无低质量、无噪点、无文字、无水印、无笔触错误”,确保画面纯净、精致,符合油画应有的细腻质感。又如在生成人物肖像时,为避免出现五官不协调等问题,可加入:“bad face, bad anatomy, extra digit, fewer digits”,即 “五官不佳、解剖结构错误、多余手指、手指缺失”,让生成的人物面部更加完美、自然。合理运用负向提示词能够有效提升画面的质量,避免出现一些不符合预期的怪异元素,使作品更加专业、美观。
参数与模型的使用
在 Stable Diffusion 中,参数的调整就如同摄影师在拍摄时对光圈、快门速度的精细把控,能够让生成的图像效果产生天壤之别。
温度(Temperature)参数(这个不是现实中的温度哈),是决定图像创造性与现实性平衡的关键旋钮。当温度值较低,比如设置在 0.5 - 0.8 之间时,模型会倾向于生成更贴近现实、细节稳定的画面。就像绘制一幅古典油画,温度设为 0.6,模型会严谨地遵循提示词,描绘出笔触细腻、色彩还原精准的作品;而当温度调高至 1.2 - 1.5,图像则会被注入更多的随机性与创造性,色彩搭配、元素组合都变得大胆新奇,适合用于创作梦幻、超现实风格的画作,如描绘奇幻仙境,就可能出现从未见过的奇异植物与灵动光影交织的惊艳画面。
迭代次数(Steps)则直接关联着图像的清晰度与细节丰富度。通常情况下,默认的迭代次数可能在 20 - 30 步左右,能满足一般的出图需求。若追求极致的精细,像绘制高精度的产品设计图、建筑效果图,将迭代次数提升至 50 - 80 步,图像的边缘会更加锐利,纹理质感栩栩如生,但相应地,生成时间也会成倍增加。反之,若只是快速预览某种风格效果,适当降低迭代次数到 10 - 15 步,能在短时间内得到一个大致的画面框架,方便快速迭代思路。
除了温度和迭代次数,采样器(Sampler)的选择也不容忽视。不同的采样器在生成图像时有着各自的特点。例如,Euler A 采样器计算速度较快,适合快速出图,但生成的图像质量相对较低,细节可能不够丰富;而 DDIM 采样器基于去噪扩散过程,能生成逼真、清晰的图像,不过计算成本较高,耗时更久。在实际使用中,若对图像质量要求极高,且有充足的时间等待,DDIM 采样器会是不错的选择;若需要快速得到多个不同风格的草图进行筛选,Euler A 采样器则能满足高效的需求。合理搭配这些参数,才能让 Stable Diffusion 发挥出最大潜能,精准输出符合心中所想的高质量图像。
Stable Diffusion 拥有丰富多样的预训练模型,每个模型都像是一位独具风格的画师,有着自己擅长的领域。
写实风格的模型,如 “Realistic Vision”,它经过大量真实场景、人物照片的数据训练,能够精准还原现实世界的光影、质感。绘制人物肖像时,人物肌肤的纹理、发丝的光泽、衣物的褶皱都细腻逼真,仿佛是专业摄影师拍摄的高清照片;在描绘风景时,山川的壮丽、湖水的波光粼粼、建筑的立体感都能完美呈现,适用于写实绘画创作、影视分镜头设计等对真实度要求苛刻的场景。
二次元风格的模型,像 “Waifu Diffusion”,则专注于动漫风格的塑造。它能精准捕捉动漫角色的大眼睛、俏皮表情、夸张发型等标志性特征,色彩鲜艳且富有层次感,线条流畅,无论是绘制萌系少女、热血少年,还是奇幻异世界的宏大场景,都能轻松拿捏二次元独有的梦幻与活力,深受动漫爱好者、同人创作者的喜爱,用于制作漫画、动漫海报、二次元角色设定等再合适不过。
还有专注于古风古韵的模型,擅长勾勒中式建筑的飞檐斗拱、传统服饰的华丽刺绣、古典园林的清幽意境;科幻风格模型则精于打造炫酷的未来机甲、星际战舰、赛博朋克都市等充满科技感的画面。
在运用这些模型的基础上,LoRA 模型的加入更是如虎添翼。LoRA 模型可以理解为一个个小巧灵活的风格插件,它能够在原有大模型的基础上,快速叠加特定风格。比如,我们已经用写实模型生成了一幅人物肖像,若想为其添加复古胶片质感,只需加载对应的复古胶片 LoRA 模型,调整权重在 0.3 - 0.6 之间,就能让画面蒙上一层经典的胶片颗粒与暖黄色调;若要将二次元角色转变为特定的游戏画风,加载相应游戏风格 LoRA,权重设为 0.5 - 0.8,角色的服饰、配饰立马呈现出该游戏独特的美术风格。通过巧妙搭配不同的预训练模型与 LoRA 模型,就能轻松驾驭各种复杂多样的风格需求,让创意在指尖自由流淌,源源不断地产出令人惊叹的高质量图像。
通过以上对 Stable Diffusion 的深入了解,我们就掌握了从精准撰写提示词,到精细调整参数,再到巧妙选择与运用模型,那么就可以开始创作自已的作品了。
目前国内的liblibai就是基于Stable Diffusion 的一个创作平台,有了上面的这些了解,大家可以去尝试下,有好的作品记得来分享一下。
THE END
支持一下吧
点赞
评论 (0)
请先登录