[Feat] Support visualglm and llava for MMBench evaluation. (#211)

* [Feat] Support visualglm inference on MMBench. * [Feat] Support llava inference on MMBench. * [Fix] Fix pre-commit format. * [Fix] Add docstring for llava * [Fix] Fix multi-process inference error of LlaVA and add comments. 1. Set `low_cpu_mem_usage` to False to address device issue. 2. Add docstring and type hints. 3. Rename class and remove registry. * [Fix] Pre-commit fix. * [Fix] add forward entry, add dynamic import to seedbench * [Fix] Fix pre-commit. * [Fix] Fix missing context. * [Fix] Fix docstring.
2025-05-30 16:03:24 +08:00 · 2023-08-21 15:57:30 +08:00 · 2023-08-21 15:57:30 +08:00 · 8d368d1cd6
commit 8d368d1cd6
parent a6552224cb
12 changed files with 478 additions and 1 deletions
--- a/configs/multimodal/llava/README.md
+++ b/configs/multimodal/llava/README.md
@ -0,0 +1,10 @@
 # LLaVA
 ### Prepare the environment
 ```sh
 cd opencompass/multimodal/models/llava
 git clone https://github.com/haotian-liu/LLaVA.git
 ```
 Then prepare the environement according to the [install instruction](https://github.com/haotian-liu/LLaVA/tree/main#install)
--- a/configs/multimodal/llava/llava_7b_mmbench.py
+++ b/configs/multimodal/llava/llava_7b_mmbench.py
@ -0,0 +1,43 @@
 # dataloader settings
 val_pipeline = [
    dict(type='mmpretrain.torchvision/Resize',
         size=(224, 224),
         interpolation=3),
    dict(type='mmpretrain.torchvision/ToTensor'),
    dict(
        type='mmpretrain.torchvision/Normalize',
        mean=(0.48145466, 0.4578275, 0.40821073),
        std=(0.26862954, 0.26130258, 0.27577711),
    ),
    dict(
        type='mmpretrain.PackInputs',
        algorithm_keys=[
            'question', 'category', 'l2-category', 'context', 'index',
             'options_dict', 'options', 'split'
        ],
    ),
 ]
 dataset = dict(type='opencompass.MMBenchDataset',
               data_file='data/mmbench/mmbench_test_20230712.tsv',
               pipeline=val_pipeline)
 mmbench_dataloader = dict(
    batch_size=1,
    num_workers=4,
    dataset=dataset,
    collate_fn=dict(type='pseudo_collate'),
    sampler=dict(type='DefaultSampler', shuffle=False),
 )
 # model settings
 llava_model = dict(
    type='llava',
    model_path='/path/to/llava',
 )  # noqa
 # evaluation settings
 mmbench_evaluator = [
    dict(type='opencompass.DumpResults',
         save_path='work_dirs/llava-7b-mmbench.xlsx')
 ]
--- a/configs/multimodal/visualglm/visualglm_6b_mmbench.py
+++ b/configs/multimodal/visualglm/visualglm_6b_mmbench.py
@ -0,0 +1,41 @@
 from opencompass.multimodal.models.visualglm import (VisualGLMPostProcessor, VisualGLMPromptConstructor)
 # dataloader settings
 val_pipeline = [
    dict(type='mmpretrain.torchvision/Resize',
         size=(224, 224),
         interpolation=3),
    dict(type='mmpretrain.torchvision/ToTensor'),
    dict(type='mmpretrain.torchvision/Normalize',
         mean=(0.48145466, 0.4578275, 0.40821073),
         std=(0.26862954, 0.26130258, 0.27577711)),
    dict(type='mmpretrain.PackInputs',
         algorithm_keys=[
             'question', 'options', 'category', 'l2-category', 'context',
             'index', 'options_dict'
         ])
 ]
 dataset = dict(type='opencompass.MMBenchDataset',
               data_file='data/mmbench/mmbench_test_20230712.tsv',
               pipeline=val_pipeline)
 mmbench_dataloader = dict(batch_size=1,
                  num_workers=4,
                  dataset=dataset,
                  collate_fn=dict(type='pseudo_collate'),
                  sampler=dict(type='DefaultSampler', shuffle=False))
 # model settings
 visualglm_model = dict(
    type='visualglm',
    pretrained_path='/path/to/visualglm',  # or Huggingface repo id
    prompt_constructor=dict(type=VisualGLMPromptConstructor),
    post_processor=dict(type=VisualGLMPostProcessor)
 )
 # evaluation settings
 mmbench_evaluator = [
    dict(type='opencompass.DumpResults',
         save_path='work_dirs/visualglm-6b-mmbench.xlsx')
 ]
--- a/opencompass/multimodal/datasets/seedbench.py
+++ b/opencompass/multimodal/datasets/seedbench.py
@ -1,8 +1,8 @@
 import importlib
 import json
 import os.path as osp
 from typing import List
 import av
 import numpy as np
 import torch
 from decord import VideoReader, cpu
@ -116,6 +116,7 @@ class SEEDBenchDataset(Dataset):
            if use_pyav:
                # using pyav for videos in evaluation dimension 12
                av = importlib.importmodule('av')
                reader = av.open(data_path)
                frames = [
                    torch.from_numpy(f.to_rgb().to_ndarray())
--- a/opencompass/multimodal/models/init.py
+++ b/opencompass/multimodal/models/init.py
@ -2,4 +2,7 @@ from opencompass.utils import satisfy_requirement
 if satisfy_requirement('salesforce-lavis'):
    from .instructblip import *  # noqa: F401, F403
 from .llava import *  # noqa: F401, F403
 from .minigpt_4 import *  # noqa: F401, F403
 from .visualglm import *  # noqa: F401, F403
--- a/opencompass/multimodal/models/llava/init.py
+++ b/opencompass/multimodal/models/llava/init.py
@ -0,0 +1,3 @@
 from .llava import LLaVA
 __all__ = ['LLaVA']
--- a/opencompass/multimodal/models/llava/llava.py
+++ b/opencompass/multimodal/models/llava/llava.py
@ -0,0 +1,145 @@
 import importlib
 import os
 import sys
 import torch
 import torch.nn as nn
 from mmengine.device import get_device
 from transformers import StoppingCriteria
 from opencompass.registry import MM_MODELS
 from .prompt_constructor import LLaVAMMBenchPromptConstructor
 IMAGE_TOKEN_INDEX = -200
 def load_package():
    """Load required packages from LLaVA."""
    current_file_path = os.path.abspath(__file__)
    current_folder_path = os.path.dirname(current_file_path)
    sys.path.append(os.path.join(current_folder_path, 'LLaVA'))  # noqa
    return
 class KeywordsStoppingCriteria(StoppingCriteria):
    """Keyword stopping criteria implemented for llava."""
    def __init__(self, keywords, tokenizer, input_ids):
        self.keywords = keywords
        self.tokenizer = tokenizer
        self.start_len = None
        self.input_ids = input_ids
    def __call__(self, output_ids: torch.LongTensor, scores: torch.FloatTensor,
                 **kwargs) -> bool:
        if self.start_len is None:
            self.start_len = self.input_ids.shape[1]
        else:
            outputs = self.tokenizer.batch_decode(output_ids[:,
                                                             self.start_len:],
                                                  skip_special_tokens=True)[0]
            for keyword in self.keywords:
                if keyword in outputs:
                    return True
        return False
@MM_MODELS.register_module('llava')
 class LLaVA(nn.Module):
    """Inference code of LLaVA. Need to clone LLaVA official repo first. Please
    check out the README in config.
    Args:
        model_path (str): The path of llava checkpoint.
    """
    def __init__(self, model_path: str) -> None:
        super().__init__()
        self.dtype = torch.float16
        # load LLaVA modules
        load_package()
        mm_utils = importlib.import_module('llava.mm_utils')
        builder = importlib.import_module('llava.model.builder')
        conversation = importlib.import_module('llava.conversation')
        self.SeparatorStyle = conversation.SeparatorStyle
        self.conv_templates = conversation.conv_templates
        # load pretrained LLaVA
        # Note: When encounters with device related errors,
        # try setting `low_cpu_mem_usage` in `load_pretrained_model` as False
        model_name = mm_utils.get_model_name_from_path(model_path)
        tokenizer, model, _, _ = builder.load_pretrained_model(
            model_path, None, model_name)
        vision_tower = model.get_vision_tower()
        vision_tower.to(device=get_device(), dtype=self.dtype)
        model.to(device=get_device(), dtype=self.dtype)
        # load prompt constructor and post processor
        if 'v1' in model_path.lower():
            conv_mode = 'llava_v1'
        elif 'mpt' in model_path.lower():
            conv_mode = 'mpt_multimodal'
        else:
            conv_mode = 'multimodal'
        mm_use_im_start_end = getattr(model.config, 'mm_use_im_start_end',
                                      False)
        self.model = model
        self.tokenizer = tokenizer
        self.prompt_constructor = LLaVAMMBenchPromptConstructor(
            conv_templates=conversation.conv_templates,
            conv_mode=conv_mode,
            mm_use_im_start_end=mm_use_im_start_end)
    def generate(self, batch):
        prompt, stop_str = self.prompt_constructor(batch)
        keywords = [stop_str]
        data_sample = batch['data_samples'][0]
        image = batch['inputs'][0].unsqueeze(0)
        if image is not None:
            images = image.to(get_device())
        else:
            images = None
        mm_utils = importlib.import_module('llava.mm_utils')
        input_ids = mm_utils.tokenizer_image_token(
            prompt, self.tokenizer, IMAGE_TOKEN_INDEX,
            return_tensors='pt').unsqueeze(0).to(get_device())
        stopping_criteria = KeywordsStoppingCriteria(keywords, self.tokenizer,
                                                     input_ids)
        with torch.inference_mode():
            output_ids = self.model.generate(
                input_ids,
                images=images.half(),
                do_sample=True,
                temperature=0.2,
                max_new_tokens=1024,
                stopping_criteria=[stopping_criteria],
            )
        input_token_len = input_ids.shape[1]
        n_diff_input_output = (input_ids !=
                               output_ids[:, :input_token_len]).sum().item()
        if n_diff_input_output > 0:
            print(
                f'[Warning] {n_diff_input_output} output_ids are not the same as the input_ids'  # noqa
            )
        outputs = self.tokenizer.batch_decode(output_ids[:, input_token_len:],
                                              skip_special_tokens=True)[0]
        outputs = outputs.strip()
        if outputs.endswith(stop_str):
            outputs = outputs[:-len(stop_str)]
        output_text = outputs.strip()
        data_sample.pred_answer = output_text
        return data_sample
    def forward(self, batch):
        return self.generate(batch)
--- a/opencompass/multimodal/models/llava/prompt_constructor.py
+++ b/opencompass/multimodal/models/llava/prompt_constructor.py
@ -0,0 +1,59 @@
 import importlib
 from typing import Any
 DEFAULT_IMAGE_TOKEN = '<image>'
 DEFAULT_IMAGE_PATCH_TOKEN = '<im_patch>'
 DEFAULT_IM_START_TOKEN = '<im_start>'
 DEFAULT_IM_END_TOKEN = '<im_end>'
 class LLaVAMMBenchPromptConstructor:
    """Prompt constructor for LLaVA on MMBench.
    Args:
        conv_templates (Any): Conversation class to build prompt.
        conv_mode (str): Version control args for different version of LLaVA.
        mm_use_im_start_end (bool):
            Config arg. Use start and end token when build prompt or not.
    """
    def __init__(self, conv_templates: Any, conv_mode: str,
                 mm_use_im_start_end: bool) -> None:
        self.conv_templates = conv_templates
        self.conv_mode = conv_mode
        self.mm_use_im_start_end = mm_use_im_start_end
        conversation = importlib.import_module('llava.conversation')
        self.SeparatorStyle = conversation.SeparatorStyle
    def __call__(self, inputs: dict) -> tuple:
        """Construct prompt.
        Args:
            inputs (dict): Input data containing images and data_samples.
        Returns:
            tuple: A tuple containing prompt, images and data_samples.
        """
        data_samples = inputs['data_samples']
        assert len(data_samples) == 1
        question = data_samples[0].get('question')
        options = data_samples[0].get('options')
        context = data_samples[0].get('context')
        if context is not None:
            prompt = context + ' ' + question + ' ' + options
        else:
            prompt = question + ' ' + options
        if self.mm_use_im_start_end:
            prompt = (DEFAULT_IM_START_TOKEN + DEFAULT_IMAGE_TOKEN +
                      DEFAULT_IM_END_TOKEN + '\n' + prompt)
        else:
            prompt = DEFAULT_IMAGE_TOKEN + '\n' + prompt  # noqa
        conv = self.conv_templates[self.conv_mode].copy()
        conv.append_message(conv.roles[0], prompt)
        conv.append_message(conv.roles[1], None)
        output_prompt = conv.get_prompt()
        stop_str = conv.sep if conv.sep_style != self.SeparatorStyle.TWO else conv.sep2  # noqa
        return output_prompt, stop_str
--- a/opencompass/multimodal/models/visualglm/init.py
+++ b/opencompass/multimodal/models/visualglm/init.py
@ -0,0 +1,5 @@
 from .post_processor import VisualGLMPostProcessor
 from .prompt_constructor import VisualGLMPromptConstructor
 from .visualglm import VisualGLM
 __all__ = ['VisualGLM', 'VisualGLMPostProcessor', 'VisualGLMPromptConstructor']
--- a/opencompass/multimodal/models/visualglm/post_processor.py
+++ b/opencompass/multimodal/models/visualglm/post_processor.py
@ -0,0 +1,14 @@
 from typing import Any
 import torch
 class VisualGLMPostProcessor:
    """"Post processor for VisualGLM on MMBench."""
    def __init__(self) -> None:
        pass
    def __call__(self, output_token: torch.tensor, tokenizer: Any,
                 input_len: int) -> str:
        return tokenizer.decode(output_token[input_len:])
--- a/opencompass/multimodal/models/visualglm/prompt_constructor.py
+++ b/opencompass/multimodal/models/visualglm/prompt_constructor.py
@ -0,0 +1,55 @@
 import torch
 class VisualGLMPromptConstructor:
    """Prompt constructor for VisualGLM.
    The overall prompt will be formulated as
    "system_prompt"+"human_prompt"+"image_prompt"+question+"assistant+prompt".
    Args:
        system_prompt (str): System prompt. (Default: '')
        human_prompt (str): Human prompt. (Default: 'Q:')
        image_prompt (str): Image prompt. (Default: '<img></img>')
        assistant_prompt (str): Assistant prompt. (Default: 'A:')
    """
    def __init__(self,
                 system_prompt: str = '',
                 human_prompt: str = 'Q:',
                 image_prompt: str = '<img></img>',
                 assistant_prompt: str = 'A:') -> None:
        self.image_prompt = image_prompt
        self.system_prompt = system_prompt
        self.human_prompt = human_prompt
        self.assistant_prompt = assistant_prompt
    def __call__(self, batch: dict) -> tuple:
        """Construct prompt.
        Args:
            batch (dict): Input data containing image and data_samples.
        Returns:
            tuple: A tuple containing prompt, images and data_samples.
        """
        images = batch.pop('inputs')
        images = torch.stack(images, dim=0)
        data_samples = batch.pop('data_samples')
        questions = [sample.get('question') for sample in data_samples]
        options = [sample.get('options') for sample in data_samples]
        contexts = [sample.get('context') for sample in data_samples]
        contexts = [c if c else '' for c in contexts]
        # generate text prompt
        prompt = [
            '{}{}{}{}{}{}{}'.format(self.system_prompt, self.image_prompt,
                                    self.human_prompt, context, question,
                                    option, self.assistant_prompt)
            for context, question, option in zip(contexts, questions, options)
        ]
        image_position = 5
        return images, prompt, data_samples, image_position
--- a/opencompass/multimodal/models/visualglm/visualglm.py
+++ b/opencompass/multimodal/models/visualglm/visualglm.py
@ -0,0 +1,98 @@
 from typing import Optional
 import mmengine
 import torch
 import torch.nn as nn
 from mmengine.device import get_device
 from transformers import AutoModel, AutoTokenizer
 from opencompass.registry import MM_MODELS
@MM_MODELS.register_module('visualglm')
 class VisualGLM(nn.Module):
    """Inference code of VisualGLM.
    We load the visualGLM model via Huggingface.
    Args:
        pretrained_path (str): Path to visualGLM checkpoint or repo id.
        prompt_constructor (dict): The config of prompt constructor.
        post_processor (dict): The config of post processor.
        gen_kwargs (dict): Customize generate function arguments.
    """
    def __init__(self,
                 pretrained_path: str,
                 prompt_constructor: dict,
                 post_processor: dict,
                 gen_kwargs: Optional[dict] = None) -> None:
        super().__init__()
        self.tokenizer = AutoTokenizer.from_pretrained(pretrained_path,
                                                       trust_remote_code=True)
        self.model = AutoModel.from_pretrained(pretrained_path,
                                               trust_remote_code=True).half()
        self.prompt_constructor = mmengine.registry.build_from_cfg(
            prompt_constructor, MM_MODELS)
        self.post_processor = mmengine.registry.build_from_cfg(
            post_processor, MM_MODELS)
        if gen_kwargs:
            self.gen_kwargs = gen_kwargs
        else:
            self.gen_kwargs = dict()
    def encode_by_tokenizer(self, multi_prompts, image_position):
        input_ids = []
        max_seq_length = 0
        for prompt in multi_prompts:
            input0 = self.tokenizer.encode(prompt[:image_position],
                                           add_special_tokens=False)
            input1 = [self.tokenizer.pad_token_id] * self.model.image_length
            input2 = self.tokenizer.encode(prompt[image_position:],
                                           add_special_tokens=False)
            input_all = sum([input0, input1, input2], [])
            input_all = self.tokenizer.build_inputs_with_special_tokens(
                input_all)
            max_seq_length = max(max_seq_length, len(input_all))
            input_ids.append(input_all)
        pre_image_len = len(input0)
        # padding
        for i, _ in enumerate(input_ids):
            pad_len = max_seq_length - len(input_ids[i])
            input_ids[i] = [self.tokenizer.pad_token_id
                            ] * pad_len + input_ids[i]
        return input_ids, pre_image_len
    def generate(self, batch):
        # process input
        image, prompt, data_sample, image_position = self.prompt_constructor(
            batch)
        image = image.to(self.model.dtype).to(get_device())
        # tokenize
        input_all, pre_image_len = self.encode_by_tokenizer(
            prompt, image_position)
        input_all = torch.tensor(input_all, dtype=torch.long).to(get_device())
        # build input param
        inputs = {
            'input_ids': input_all,
            'pre_image_length': pre_image_len,
            'images': image
        }
        # generate answer
        outputs = self.model.generate(**inputs, **self.gen_kwargs)
        # format output
        outputs = outputs.tolist()
        for i, sample in enumerate(data_sample):
            data_sample[i].pred_answer = self.post_processor(
                outputs[i], self.tokenizer, input_all.shape[1])
        return data_sample
    def forward(self, batch):
        return self.generate(batch)
		`@ -0,0 +1,3 @@`
							`from .llava import LLaVA`

							`__all__ = ['LLaVA']`