[![docs](https://readthedocs.org/projects/opencompass/badge)](https://opencompass.readthedocs.io/zh_CN) [![license](https://img.shields.io/github/license/InternLM/opencompass.svg)](https://github.com/InternLM/opencompass/blob/main/LICENSE) [🌐Website](https://opencompass.org.cn/) | [📘Documentation](https://opencompass.readthedocs.io/zh_CN/latest/index.html) | [🛠️Installation](https://opencompass.readthedocs.io/zh_CN/latest/get_started.html) | [🤔Reporting Issues](https://github.com/InternLM/opencompass/issues/new/choose) [English](/README.md) | 简体中文
欢迎来到OpenCompass! 就像指南针在我们的旅程中为我们导航一样,我们希望OpenCompass能够帮助你穿越评估大型语言模型的重重迷雾。OpenCompass提供丰富的算法和功能支持,期待OpenCompass能够帮助社区更便捷地对NLP模型的性能进行公平全面的评估。 ## 介绍 OpenCompass 是面向大模型评测的一站式平台。其主要特点如下: - **开源可复现**:提供公平、公开、可复现的大模型评测方案 - **全面的能力维度**:五大维度设计,提供 50+ 个数据集约 30 万题的的模型评测方案,全面评估模型能力 - **丰富的模型支持**:已支持 20+ HuggingFace 及 API 模型 - **分布式高效评测**:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测 - **多样化评测范式**:支持零样本、小样本及思维链评测,结合标准型或对话型提示词模板,轻松激发各种模型最大性能 - **灵活化拓展**:想增加新模型或数据集?想要自定义更高级的任务分割策略,甚至接入新的集群管理系统?OpenCompass 的一切均可轻松扩展! ## 性能榜单 我们将陆续提供开源模型和API模型的具体性能榜单,请见 [OpenCompass Leaderbaord](https://opencompass.org.cn/rank) 。如需加入评测,请提供模型仓库地址或标准的 API 接口至邮箱 `opencompass@pjlab.org.cn`. [![image](https://github.com/InternLM/opencompass/assets/13503330/76237116-a9dd-4207-abef-7ff73b89568a)](https://opencompass.org.cn/rank) ## 数据集支持
语言 知识 推理 学科 理解
字词释义 - WiC - SummEdits
成语习语 - CHID
语义相似度 - AFQMC - BUSTM
指代消解 - CLUEWSC - WSC - WinoGrande
翻译 - Flores
知识问答 - BoolQ - CommonSenseQA - NaturalQuestion - TrivialQA
多语种问答 - TyDi-QA
文本蕴含 - CMNLI - OCNLI - OCNLI_FC - AX-b - AX-g - CB - RTE
常识推理 - StoryCloze - StoryCloze-CN(即将上线) - COPA - ReCoRD - HellaSwag - PIQA - SIQA
数学推理 - MATH - GSM8K
定理应用 - TheoremQA
代码 - HumanEval - MBPP
综合推理 - BBH
初中/高中/大学/职业考试 - GAOKAO-2023 - CEval - AGIEval - MMLU - GAOKAO-Bench - MMLU-CN (即将上线) - ARC
阅读理解 - C3 - CMRC - DRCD - MultiRC - RACE
内容总结 - CSL - LCSTS - XSum
内容分析 - EPRSTMT - LAMBADA - TNEWS
## 模型支持
开源模型 API 模型
- LLaMA - Vicuna - Alpaca - Baichuan - WizardLM - ChatGLM-6B - ChatGLM2-6B - MPT - Falcon - TigerBot - MOSS - …… - OpenAI - Claude (即将推出) - PaLM (即将推出) - ……
## 安装 下面展示了快速安装的步骤。有部分第三方功能可能需要额外步骤才能正常运行,详细步骤请参考[安装指南](https://opencompass.readthedocs.io/zh_cn/latest/get_started.html)。 ```Python conda create --name opencompass python=3.10 pytorch torchvision pytorch-cuda -c nvidia -c pytorch -y conda activate opencompass git clone https://github.com/InternLM/opencompass opencompass cd opencompass pip install -e . # 下载数据集到 data/ 处 wget https://github.com/InternLM/opencompass/releases/download/0.1.0/OpenCompassData.zip unzip OpenCompassData.zip ``` ## 评测 请阅读[快速上手](https://opencompass.readthedocs.io/zh_CN/latest/get_started.html#id2)了解如何运行一个评测任务。 ## 致谢 该项目部分的代码引用并修改自 [OpenICL](https://github.com/Shark-NLP/OpenICL)。 ## 引用 ```bibtex @misc{2023opencompass, title={OpenCompass: A Universal Evaluation Platform for Foundation Models}, author={OpenCompass Contributors}, howpublished = {\url{https://github.com/InternLM/OpenCompass}}, year={2023} } ```