[Feature]: Add Flamingo (#258)

* [Feature]: Add Openflamingo MMBench * [Fix]: Fix import error * [Fix]: Revert task config * [Fix]: Fix path bug
2025-05-30 16:03:24 +08:00 · 2023-08-24 14:11:29 +08:00 · 2023-08-24 14:11:29 +08:00 · 343f785b07
commit 343f785b07
parent 77745a84ea
7 changed files with 186 additions and 2 deletions
--- a/configs/multimodal/minigpt_4/README.md
+++ b/configs/multimodal/minigpt_4/README.md
@ -22,5 +22,5 @@ python run.py configs/multimodal/tasks.py --mm-eval --slurm -p $PARTITION

 ```sh
 cd $root
-python run.py configs/multimodal/tasks.py
+python run.py configs/multimodal/tasks.py --mm-eval
 ```
--- a/configs/multimodal/openflamingo/README.md
+++ b/configs/multimodal/openflamingo/README.md
@ -0,0 +1,21 @@
+# OpenFlamingo
+
+### Prepare the environment
+
+Install [MMPretrain](https://github.com/open-mmlab/mmpretrain) according to this [doc](https://mmpretrain.readthedocs.io/en/latest/get_started.html#installation)
+
+### Start evaluation
+
+#### Slurm
+
+```sh
+cd $root
+python run.py configs/multimodal/tasks.py --mm-eval --slurm -p $PARTITION
+```
+
+#### PyTorch
+
+```sh
+cd $root
+python run.py configs/multimodal/tasks.py --mm-eval
+```
--- a/configs/multimodal/openflamingo/openflamingo_mmbench.py
+++ b/configs/multimodal/openflamingo/openflamingo_mmbench.py
@ -0,0 +1,73 @@
+# dataloader settings
+val_pipeline = [
+    dict(type='mmpretrain.PILToNumpy'),
+    dict(type='mmpretrain.ResizeEdge',
+         scale=224,
+         interpolation='bicubic',
+         backend='pillow'),
+    dict(type='CenterCrop', crop_size=(224, 224)),
+    dict(type='mmpretrain.PackInputs',
+         algorithm_keys=[
+             'question', 'options', 'category', 'l2-category', 'index',
+             'context', 'options_dict'
+         ])
+]
+
+dataset = dict(type='opencompass.MMBenchDataset',
+               data_file='data/mmbench/mmbench_test_20230712.tsv',
+               pipeline=val_pipeline)
+
+openflamingo_dataloader = dict(
+    batch_size=1,
+    num_workers=4,
+    dataset=dataset,
+    sampler=dict(type='DefaultSampler', shuffle=False),
+    collate_fn=dict(type='default_collate'),
+    persistent_workers=True,
+)
+
+# model settings
+openflamingo_model = dict(
+    type='openflamingo',
+    data_preprocessor=dict(
+        type='mmpretrain.MultiModalDataPreprocessor',
+        mean=[122.770938, 116.7460125, 104.09373615],
+        std=[68.5005327, 66.6321579, 70.32316305],
+        to_rgb=True,
+    ),
+    tokenizer=dict(type='mmpretrain.LlamaTokenizer',
+                   name_or_path='decapoda-research/llama-7b-hf'),
+    vision_encoder=dict(
+        type='mmpretrain.VisionTransformer',
+        arch='l',
+        patch_size=14,
+        pre_norm=True,
+        norm_cfg=dict(type='LN', eps=1e-5),
+        layer_cfgs=dict(act_cfg=dict(type='mmpretrain.QuickGELU')),
+        final_norm=False,
+        out_type='raw',
+        pretrained=  # noqa: E251
+        '/path/to/vision/encoder',  # noqa
+    ),
+    lang_encoder=dict(
+        base=dict(type='mmpretrain.AutoModelForCausalLM',
+                  name_or_path=
+                  'decapoda-research/llama-7b-hf',
+                  local_files_only=True),
+        adapter=dict(type='mmpretrain.FlamingoLMAdapter',
+                     vis_hidden_size=1024,
+                     cross_attn_every_n_layers=4,
+                     use_media_placement_augmentation=False),
+    ),
+    generation_cfg=dict(num_beams=3, max_new_tokens=20, length_penalty=-2.0),
+)
+
+# evaluation settings
+openflamingo_evaluator = [
+    dict(
+        type='opencompass.DumpResults',
+        save_path=  # noqa: E251
+        'work_dirs/9b-flamingo/9b-flamingo-mmbench.xlsx')
+]
+
+openflamingo_load_from = '/path/to/pretrained/weights'  # noqa
--- a/configs/multimodal/tasks.py
+++ b/configs/multimodal/tasks.py
@ -10,6 +10,7 @@ models = [minigpt_4_mmbench_model]
 datasets = [minigpt_4_mmbench_dataloader]
 evaluators = [minigpt_4_mmbench_evaluator]
 load_froms = [minigpt_4_mmbench_load_from]
+
 num_gpus = 8
 num_procs = 8
 launcher = 'pytorch'
--- a/opencompass/multimodal/models/init.py
+++ b/opencompass/multimodal/models/init.py
@ -1,8 +1,13 @@
+import os.path as osp
+
 from opencompass.utils import satisfy_requirement

 if satisfy_requirement('salesforce-lavis'):
    from .instructblip import *  # noqa: F401, F403

+if osp.exists('opencompass/multimodal/models/minigpt_4/MiniGPT-4'):
+    from .minigpt_4 import *  # noqa: F401, F403
+
 from .llava import *  # noqa: F401, F403
-from .minigpt_4 import *  # noqa: F401, F403
+from .openflamingo import *  # noqa: F401, F403
 from .visualglm import *  # noqa: F401, F403
--- a/opencompass/multimodal/models/openflamingo/init.py
+++ b/opencompass/multimodal/models/openflamingo/init.py
@ -0,0 +1,3 @@
+from .openflamingo import OpenFlamingoInferencer
+
+__all__ = ['OpenFlamingoInferencer']
--- a/opencompass/multimodal/models/openflamingo/openflamingo.py
+++ b/opencompass/multimodal/models/openflamingo/openflamingo.py
@ -0,0 +1,81 @@
+from typing import List, Optional, Union
+
+import mmengine
+import torch
+from mmpretrain.models.multimodal import Flamingo
+from mmpretrain.structures import DataSample
+
+from opencompass.registry import MM_MODELS
+
+
+@MM_MODELS.register_module('openflamingo')
+class OpenFlamingoInferencer(Flamingo):
+    """Inference code of OpenFlamingo.
+
+    Args:
+        prompt_constructor (optional, dict): The config of prompt constructor.
+            Defaults to None.
+        post_processor (optional, dict): The config of post processor.
+            Defaults to None.
+        mode (str): The mode of inference. Defaults to 'generation'.
+    """
+
+    def __init__(self,
+                 prompt_constructor: Optional[dict] = None,
+                 post_processor: Optional[dict] = None,
+                 mode: str = 'generation',
+                 **kwargs):
+        super().__init__(**kwargs)
+        if prompt_constructor is not None:
+            self.prompt_constructor = mmengine.registry.build_from_cfg(
+                prompt_constructor, MM_MODELS)
+        if post_processor is not None:
+            self.post_processor = mmengine.registry.build_from_cfg(
+                post_processor, MM_MODELS)
+        self.mode = mode
+
+    def preprocess_text(self, data_samples: List[DataSample],
+                        device: torch.device) -> List[DataSample]:
+        """Preprocess text in advance before fed into language model.
+
+        Args:
+            data_samples (List[DataSample]): The annotation
+                data of every samples. Defaults to None.
+            device (torch.device): Device for text to put on.
+
+        Returns:
+            List[DataSample]: Return list of data samples.
+        """
+        prompts = []
+        for sample in data_samples:
+            question = sample.get('question')
+            option = sample.get('options')
+
+            prompt = '<image>' + question + ' ' + option + ' ' + 'Answer:'
+            if data_samples[0].get('context') is not None:
+                prompt = sample.get('context') + ' ' + prompt
+
+            prompts.append(prompt)
+
+        self.tokenizer.padding_side = 'left'
+        input_text = self.tokenizer(
+            prompts,
+            padding='longest',
+            truncation=True,
+            return_tensors='pt',
+            max_length=2000,
+        ).to(device)
+        return input_text
+
+    def forward(self, batch: dict) -> Union[DataSample, List[DataSample]]:
+
+        if self.mode == 'generation':
+            return self.generate(batch)
+        else:
+            raise RuntimeError(f'Unsupported mode: {self.mode}')
+
+    def generate(self, batch: dict) -> Union[DataSample, List[DataSample]]:
+        batch = self.data_preprocessor(batch, False)
+        images = batch['images']
+        data_samples = batch['data_samples']
+        return self.predict(images, data_samples)