OpenAI推出代码生成评估基准

想恨又不能恨商业快讯 2024-8-14 09:34 753人围观

OpenAI推出代码生成评估基准SWE-bench Verified。该公司在官网博客中提到："随着我们的系统越来越接近 AGI，我们需要在越来越具有挑战性的任务中对它们进行评估"。这一基准是对现有SWE-bench的改进版本（子集），旨在更可靠地评估AI模型解决现实世界软件问题的能力。SWE-bench是一个软件工程评估套件，用于评估大型语言模型 (LLM) 解决从GitHub提取的真实软件问题的能力。

路过

雷人

握手

鲜花

鸡蛋

原作者: 想恨又不能恨来自: https://www.yicai.com/news/102230809.html

想恨又不能恨关注作者

TA还没有介绍自己。

		自动登录	找回密码
密码			立即注册

OpenAI推出代码生成评估基准

最近内容