新闻

[2023.09.02] 我们加入了Qwen-VL的评测支持。
[2023.08.25] 欢迎 TigerBot 团队采用OpenCompass对模型进行系统评估。我们非常感谢社区在提升LLM评估的透明度和可复现性上所做的努力。
[2023.08.21] Lagent 正式发布，它是一个轻量级、开源的基于大语言模型的智能体（agent）框架。我们正与Lagent团队紧密合作，推进支持基于Lagent的大模型工具能力评测 !
[2023.08.18] OpenCompass现已支持多模态评测，支持10+多模态评测数据集，包括 MMBench, SEED-Bench, COCO-Caption, Flickr-30K, OCR-VQA, ScienceQA 等. 多模态评测榜单即将上线，敬请期待!
[2023.08.18] 数据集页面现已在OpenCompass官网上线，欢迎更多社区评测数据集加入OpenCompass !
[2023.08.11] 官网榜单上新增了模型对比功能，希望该功能可以协助提供更多发现！
[2023.08.11] 新增了 LEval 评测支持.
[2023.08.10] OpenCompass 现已适配 LMDeploy. 请参考评测指南对 Turbomind 加速后的模型进行评估.
[2023.08.10] Qwen-7B 和 XVERSE-13B的评测结果已更新在 OpenCompass 大语言模型评测榜单!
[2023.08.09] 更新更多评测数据集(CMMLU, TydiQA, SQuAD2.0, DROP) ，请登录大语言模型评测榜单查看更多结果! 欢迎添加你的评测数据集到OpenCompass.
[2023.08.07] 新增了 MMBench 评测脚本以支持用户自行获取 MMBench-dev 的测试结果.
[2023.08.05] GPT-4 的评测结果已更新在 OpenCompass 大语言模型评测榜单!
[2023.07.27] 新增了 CMMLU! 欢迎更多的数据集加入 OpenCompass.

2.4 KiB Raw Blame History Unescape Escape

新闻

2.4 KiB

Raw Blame History