多模态学习

共 2 篇网址

排序

发布更新浏览点赞

PPLLaVA

PPLLaVA是一个高效的视频大型语言模型，它结合了细粒度视觉提示对齐、用户指令的卷积风格池化的视觉令牌压缩以及CLIP上下文扩展。该模型在VideoMME、MVBench、VideoChatGPT Bench和VideoQA Bench等数据集上建立了新的最先进结果，仅使用1024个视觉令牌，吞吐量提高了8倍。

0170

视频创作 # GPU实现 # 多模态学习 # 大型语言模型

V-JEPA

创新的自监督学习模型，它通过预测视频帧的特征表示来学习视频的视觉表示。这种方法不仅能够处理视频内容，还能在图像任务上表现出色，具有广泛的应用潜力。

0160

AIGC开发平台 AI开源项目 # AI开源项目 # Transformer模型 # V-JEPA