代码评估

共 2 篇网址

排序

发布更新浏览点赞

FullStack Bench

FullStack Bench是一个多语言的全栈编程基准测试，涵盖了广泛的应用领域和16种编程语言的3K测试样本，显著推动了代码语言模型在现实世界代码开发场景中的相关能力。该产品代表了编程语言模型在全栈开发领域的应用，其重要性在于能够评估和提升模型在实际编程任务中的表现，对于开发者和AI研究者来说都是一个宝贵的资源。

0290

代码辅助 # 代码评估 # 全栈开发 # 多语言支持

Skywork-o1-Open-PRM-Qwen-2.5-1.5B

Skywork-o1-Open-PRM-Qwen-2.5-1.5B是Skywork团队开发的一系列模型，这些模型结合了o1风格的慢思考和推理能力。该模型专门设计用于通过增量过程奖励增强推理能力，适合解决小规模的复杂问题。与简单的OpenAI o1模型复现不同，Skywork o1 Open系列模型不仅在输出中展现出固有的思考、规划和反思能力，而且在标准基准测试中的推理技能有显著提升。这一系列代表了AI能力的一次战略性进步，将原本较弱的基础模型推向了推理任务的最新技术（SOTA）。

0160

代码辅助 # AI推理 # Hugging Face # 代码评估