Transformers

共 6 篇网址

排序

发布更新浏览点赞

EXAONE-3.5-7.8B-Instruct-GGUF

EXAONE 3.5是LG AI Research开发的一系列双语（英语和韩语）指令调优的生成模型，参数从2.4B到32B不等。这些模型支持长达32K令牌的长上下文处理，在真实世界用例和长上下文理解方面展现出了最先进的性能，同时在与近期发布的类似大小模型相比，在通用领域保持竞争力。EXAONE 3.5模型包括：1) 2.4B模型，优化用于部署在小型或资源受限的设备上；2) 7.8B模型，与前代模型大小匹配但提供改进的性能；3) 32B模型，提供强大的性能。

0510

文案写作 # exaone # GGUF # lg-ai

Qwen2.5-Coder-0.5B-Instruct-AWQ

Qwen2.5-Coder是Qwen大型语言模型的最新系列，专注于代码生成、代码推理和代码修复。基于Qwen2.5的强大能力，通过扩展训练令牌至5.5万亿，包括源代码、文本代码基础、合成数据等，Qwen2.5-Coder-32B已成为当前最先进的开源代码LLM，其编码能力与GPT-4o相匹配。此模型为AWQ量化的4位指令调整0.5B参数版本，具有因果语言模型、预训练和后训练、transformers架构等特点。

0300

代码辅助 # AWQ量化 # Transformers # 代码修复

Qwen2.5-Coder-1.5B

Qwen2.5-Coder-1.5B是Qwen2.5-Coder系列中的一款大型语言模型，专注于代码生成、代码推理和代码修复。基于强大的Qwen2.5，该模型通过扩展训练令牌至5.5万亿，包括源代码、文本代码基础、合成数据等，成为当前开源代码LLM中的佼佼者，编码能力媲美GPT-4o。此外，Qwen2.5-Coder-1.5B还强化了数学和通用能力，为实际应用如代码代理提供了更全面的基础。

0290

代码辅助 # Transformers # 代码修复 # 代码推理

EXAONE-3.5-2.4B-Instruct

EXAONE-3.5-2.4B-Instruct是LG AI Research开发的一系列双语（英语和韩语）指令调优的生成模型，参数范围从2.4B到32B。这些模型支持长达32K令牌的长上下文处理，并在真实世界用例和长上下文理解方面展现出最先进的性能，同时在与最近发布的类似大小模型相比的通用领域中保持竞争力。该模型特别适合需要处理长文本和多语言需求的场景，如自动翻译、文本摘要、对话系统等。

0260

文案写作 # conversational # custom_code # exaone

EXAONE-3.5-2.4B-Instruct-AWQ

EXAONE-3.5-2.4B-Instruct-AWQ是由LG AI Research开发的一系列双语（英语和韩语）指令调优生成模型，参数范围从2.4B到32B。这些模型支持长达32K令牌的长上下文处理，并且在真实世界用例和长上下文理解方面展现出最先进的性能，同时在与近期发布的类似大小模型相比，在通用领域保持竞争力。该模型在部署到小型或资源受限设备上进行了优化，并且采用了AWQ量化技术，实现了4位群组权重量化（W4A16g128）。

0230

文案写作 # AWQ量化 # Transformers # 双语模型

InternVL2_5-8B

InternVL2_5-8B是由OpenGVLab开发的一款多模态大型语言模型（MLLM），它在InternVL 2.0的基础上进行了显著的训练和测试策略增强，以及数据质量提升。该模型采用'ViT-MLP-LLM'架构，集成了新增量预训练的InternViT与多种预训练语言模型，如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP projector。InternVL 2.5系列模型在多模态任务上展现出卓越的性能，包括图像和视频理解、多语言理解等。

0150

文案写作 # Safetensors # TensorBoard # Transformers