Explore Repository Collections

Visual LLMs

This collection is datasets for understanding of images with large language models

datasets/DocVQA

Public

A Dataset for VQA on Document Images.

9.7 gb

117K1

Updated: 4 months ago

echo840/OCRBench

Public

Computer Vision

85.4 mb

1K12

Updated: 10 months ago

datasets/MMVet

Public

Evaluating Large Multimodal Models for Integrated Capabilities

70.5 mb

11218

Updated: 4 months ago

AI2 Diagrams (AI2D) is a dataset of over 5000 grade school science diagrams with over 150000 rich annotations, their ground truth syntactic parses, and more than 15000 corresponding multiple choice questions.

503.3 mb

3.1K2

Updated: 4 months ago

BLINK-Benchmark/BLINK

Public

Computer Vision

466.3 mb

24K30

Updated: 9 months ago

datasets/HallusionBench

Public

An Advanced Diagnostic Suite for Entangled Language Hallucination & Visual Illusion in Large Vision-Language Models

163.9 mb

252411

Updated: 4 months ago

datasets/MMMU

Public

A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI

3.4 gb

12K2

Updated: 5 months ago

datasets/MathVista

Public

MathVista is a consolidated Mathematical reasoning benchmark within Visual contexts.

1.2 gb

26.1K

Updated: 4 months ago

lmms-lab/Video-MME

Public

405.9 kB

Updated: 9 months ago

datasets/ChartQA

Public

A Benchmark for Question Answering about Charts with Visual and Logical Reasoning

976 mb

21K72

Updated: 4 months ago

datasets/A-OKVQA

Public

A Benchmark for Visual Question Answering using World Knowledge.

1.3 gb

25K2

Updated: 4 months ago

datasets/CLEVR

Public

A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning

20 gb

8100K

Updated: 4 months ago

Visual LLMs

datasets/DocVQA

echo840/OCRBench

datasets/MMVet

lmms-lab/OCRBench-v2

datasets/AI2D

BLINK-Benchmark/BLINK

datasets/HallusionBench

datasets/MMMU

datasets/MathVista

lmms-lab/Video-MME

datasets/ChartQA

datasets/A-OKVQA

datasets/CLEVR