mirror of
https://github.com/open-compass/opencompass.git
synced 2025-05-30 16:03:24 +08:00
2.4 KiB
2.4 KiB
新闻
- [2023.09.02] 我们加入了Qwen-VL的评测支持。
- [2023.08.25] 欢迎 TigerBot 团队采用OpenCompass对模型进行系统评估。我们非常感谢社区在提升LLM评估的透明度和可复现性上所做的努力。
- [2023.08.21] Lagent 正式发布,它是一个轻量级、开源的基于大语言模型的智能体(agent)框架。我们正与Lagent团队紧密合作,推进支持基于Lagent的大模型工具能力评测 !
- [2023.08.18] OpenCompass现已支持多模态评测,支持10+多模态评测数据集,包括 MMBench, SEED-Bench, COCO-Caption, Flickr-30K, OCR-VQA, ScienceQA 等. 多模态评测榜单即将上线,敬请期待!
- [2023.08.18] 数据集页面 现已在OpenCompass官网上线,欢迎更多社区评测数据集加入OpenCompass !
- [2023.08.11] 官网榜单上新增了模型对比功能,希望该功能可以协助提供更多发现!
- [2023.08.11] 新增了 LEval 评测支持.
- [2023.08.10] OpenCompass 现已适配 LMDeploy. 请参考 评测指南 对 Turbomind 加速后的模型进行评估.
- [2023.08.10] Qwen-7B 和 XVERSE-13B的评测结果已更新在 OpenCompass 大语言模型评测榜单!
- [2023.08.09] 更新更多评测数据集(CMMLU, TydiQA, SQuAD2.0, DROP) ,请登录 大语言模型评测榜单 查看更多结果! 欢迎添加你的评测数据集到OpenCompass.
- [2023.08.07] 新增了 MMBench 评测脚本 以支持用户自行获取 MMBench-dev 的测试结果.
- [2023.08.05] GPT-4 的评测结果已更新在 OpenCompass 大语言模型评测榜单!
- [2023.07.27] 新增了 CMMLU! 欢迎更多的数据集加入 OpenCompass.