ERNIE图像 ERNIE-Image 是百度 ERNIE-Image 团队开发的开源文本转图像模型。它基于单流扩散变换器 (DiT),采用潜在扩散 (LDM) 框架,拥有 80 亿个参数。该模型自带一个轻量级的提示增强器,可以将简短的输入扩展为更丰富、更结构化的提示,从而更好地发挥模型的性能。ERNIE-Image 仅使用 80 亿个 DiT 参数,就实现了开源权重文本转图像模型中最先进的性能——而且它的设计不仅注重视觉效果,更注重可控性:准确的内容呈现与美观同样重要。在实践中,它尤其擅长复杂的指令跟踪、精确的文本渲染和结构化图像生成——而这些领域正是许多现有开源权重模型的短板。
yiyan.baidu.comIntroducing ERNIE-Image
huggingface.co
ERNIE-Image - a baidu Collection
The serieas of image generation models, including text2img、img2img.
huggingface.co
baidu/ERNIE-Image · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
huggingface.co
baidu/ERNIE-Image-Turbo · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
在线体验:
huggingface.co
ERNIE Image - a Hugging Face Space by baidu
ERNIE-Image Demo
注:下列图片是通过示例提示词生成的

7 个帖子 - 6 位参与者