首页 A1训练模型 华为PixArt-α模型

华为PixArt-α模型

标题:华为文生图模型PixArt-α

论文题目

PIXART-: 扩散变压器的快速训练,实现逼真的文本到图像合成

一、背景

1)当前的Vincentian图模型imagen、DALLE3和SDXL可以生成高质量的图像,但它们需要大量的GPU训练和大量的时间。作者希望显着降低训练要求并达到相同的生成效果。

2)训练成本,大大减少数据需求和训练时间

3)效果预览

2种方法

1)数据方面,目前的Vincentian图模型基本都是在LAION数据集上训练的,但是LAION数据集存在1)文本和图像错位2)图像的文本描述不够详细3)因为它是网上爬取的,有很多低质量的数据

2)针对数据集中存在的问题,使用自动标注方法进行修正,使用LLaVA生成详细的图像描述,用描述扩散数据

3)架构方面,作者提出了拆分策略。第一步是学习像素生成,第二步是学习文本和图像对齐,第三步是生成高质量图像。

4)第一阶段采用像素分类训练,可以直接使用imagenet数据。第二阶段使用第一阶段训练像素和LLaVA生成密集的文本描述,用于文本和图像对齐训练。第二阶段可以生成一些互联网风格的数据。第三阶段通过第一阶段的高质量用户数据风格训练,可以生成高质量的用户风格数据。

5)整体结构如下图所示

一个。主扩散模型采用Dit的结构,与SD3和Sora的架构一致。

b.使用大型预言机模型T5对输入文本进行编码以获得文本特征。使用VAE编码器提取输入图像的特征并添加噪声作为扩散模型的潜在特征。

c.作者对原Dit进行了修改。原始条件输入后会被分成6部分,需要大量的计算。作者分享了6个部分,只计算了一次。只保留时间T的单独计算,可以大大加速。训练和推理

3 培训详情

1)与其他训练方法的比较

2)三阶段训练细节

4 个结果

1) T2I-CompBench评估结果

2)用户研究

3)与Midjourney相比,Midjourney被公认为最强的Vincentian商业模式

4)与其他模型的比较

5)更多样品展示

6)直接生成各种风格的画作

7)与dreambooth方法结合

7)结合ControlNet方法

热门文章