热门

InternVL2_5-4B-MPO

1年前发布 42 00

InternVL2.5-MPO是一个先进的多模态大型语言模型系列，基于InternVL2.5和混合偏好优化构建。该模型集成了新增量预训练的InternViT和各种预训练的大型语言模型，如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。它支持多图像和视频数据，并且在多模态任务中表现出色，能够理解和生成与图像相关的文...

收录时间：

2025-05-29

打开网站手机查看

图像生成 # 图像处理 # 多模态 # 大型语言模型 # 自然语言处理

InternVL2_5-4B-MPO

InternVL2_5-4B-MPO

InternVL2.5-MPO是一个先进的多模态大型语言模型系列，基于InternVL2.5和混合偏好优化构建。该模型集成了新增量预训练的InternViT和各种预训练的大型语言模型，如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。它支持多图像和视频数据，并且在多模态任务中表现出色，能够理解和生成与图像相关的文本内容。

一丢导航 - 上一丢，不易丢

数据统计

相关导航

UniTok

UniTok是一种创新的视觉分词技术，旨在弥合视觉生成和理解之间的差距。它通过多码本量化技术，显著提升了离散分词器的表示能力，使其能够捕捉到更丰富的视觉细节和语义信息。这一技术突破了传统分词器在训练过程中的瓶颈，为视觉生成和理解任务提供了一种高效且统一的解决方案。UniTok在图像生成和理解任务中表现出色，例如在ImageNet上实现了显著的零样本准确率提升。该技术的主要优点包括高效性、灵活性以及对多模态任务的强大支持，为视觉生成和理解领域带来了新的可能性。

StructLDM

StructLDM是一个结构化潜在扩散模型，用于从2D图像学习3D人体生成。它能够生成多样化的视角一致的人体，并支持不同级别的可控生成和编辑，如组合生成和局部服装编辑等。该模型在无需服装类型或掩码条件的情况下，实现了服装无关的生成和编辑。项目由南洋理工大学S-Lab的Tao Hu、Fangzhou Hong和Ziwei Liu提出，相关论文发表于ECCV 2024。

Janus-Pro-1B

Janus-Pro-1B 是一个创新的多模态模型，专注于统一多模态理解和生成。它通过分离视觉编码路径，解决了传统方法在理解和生成任务中的冲突问题，同时保持了单个统一的 Transformer 架构。这种设计不仅提高了模型的灵活性，还使其在多模态任务中表现出色，甚至超越了特定任务的模型。该模型基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建，使用 SigLIP-L 作为视觉编码器，支持 384x384 的图像输入，并采用特定的图像生成 tokenizer。其开源性和灵活性使其成为下一代多模态模型的有力候选。

StarVector

StarVector 是一个先进的生成模型，旨在将图像和文本指令转化为高质量的可缩放矢量图形（SVG）代码。其主要优点在于能够处理复杂的 SVG 元素，并在各种图形风格和复杂性上表现出色。作为开放源代码资源，StarVector 推动了图形设计的创新和效率，适用于设计、插图和技术文档等多种应用场景。

VisionAgent

VisionAgent是一个强大的工具，它利用人工智能和大语言模型（LLM）来生成代码，帮助用户快速解决视觉任务。该工具的主要优点是能够自动将复杂的视觉任务转化为可执行的代码，极大地提高了开发效率。VisionAgent支持多种LLM提供商，用户可以根据自己的需求选择不同的模型。它适用于需要快速开发视觉应用的开发者和企业，能够帮助他们在短时间内实现功能强大的视觉解决方案。VisionAgent目前是免费的，旨在为用户提供高效、便捷的视觉任务处理能力。

DiffSensei

DiffSensei是一个结合了多模态大型语言模型（LLMs）和扩散模型的定制化漫画生成模型。它能够根据用户提供的文本提示和角色图像，生成可控制的黑白漫画面板，并具有灵活的角色适应性。这项技术的重要性在于它将自然语言处理与图像生成相结合，为漫画创作和个性化内容生成提供了新的可能性。DiffSensei模型以其高质量的图像生成、多样化的应用场景以及对资源的高效利用而受到关注。目前，该模型在GitHub上公开，可以免费下载使用，但具体的使用可能需要一定的计算资源。

Shapen

Shapen是一款创新的在线工具，它利用先进的图像处理和3D建模技术，将2D图像转化为详细的3D模型。这一技术对于设计师、艺术家和创意工作者来说是一个巨大的突破，因为它极大地简化了3D模型的创建过程，降低了3D建模的门槛。用户无需深厚的3D建模知识，只需上传图片，即可快速生成可用于渲染、动画制作或3D打印的模型。Shapen的出现，为创意表达和产品设计带来了全新的可能性，其定价策略和市场定位也使其成为个人创作者和小型工作室的理想选择。

Pusa

Pusa 通过帧级噪声控制引入视频扩散建模的创新方法，能够实现高质量的视频生成，适用于多种视频生成任务（文本到视频、图像到视频等）。该模型以其卓越的运动保真度和高效的训练过程，提供了一个开源的解决方案，方便用户进行视频生成任务。

暂无评论

您必须登录才能参与评论！

none

暂无评论...