文章导读

[简讯]红杉中国正式开源AI基准测试xbench评测集

liyer 2025年6月18日 1

6月18日,红杉中国正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch。红杉中国表示,未来将基于大模型和AI Agent的发展情况不断动态更新评测集,并且采用“黑白盒”机制,既保证xbench的发展可以服务更多的大模型和Agent开发者,同时尽力避免静态评测集经常出现的过拟合问题,确保xbench的长期有效。

来源: 网友推荐、互联网筛选整理；由猫眼艺术字提供API数据中转支持。

查看评论列表

暂无评论

Hello! 欢迎来到猫眼博客！

加载中

[简讯]红杉中国正式开源AI基准测试xbench评测集

评论（0）

发表评论取消回复

插入代码

Hello! 欢迎来到猫眼博客！

加载中

[简讯]红杉中国正式开源AI基准测试xbench评测集

评论（0）

发表评论 取消回复

插入代码

发表评论取消回复