Repository evaluations - datasets/ChartQA

Evaluations/Judge 11B Responses

llama-3.2-11B-cot-separate-steps

val_100_ex.json

Type: text → text

Model:

OpenAI/GPT 4o mini

Provider:

OpenAI

Target field: are_equivalent

Prompt

Are the two responses equivalent? Reply with true or false. One word all lowercase.

Response 1:
{label}

Response 2:
{conclusion}

Queued: Dec 6, 2024, 5:34 PM UTC

Completed: Dec 6, 2024, 5:34 PM UTC

5 row sample

196 tokens$ 0.0000

5 rows processed, 196 tokens used ($0.0000)

Estimated cost for all 100 rows: $0.0006

Sample Results completed

9 columns, 1-5 of 100 rows