{
"results": {
"jcommonsenseqa-1.1-0.4": {
"acc": 0.8990169794459338,
"acc_stderr": 0.009011295342579962,
"acc_norm": 0.5406613047363718,
"acc_norm_stderr": 0.014904185887668711
}
}

jcommonsenseqa-1.1-0.4で我々のモデルを評価しました。(3-shots)
厳密な比較はしていませんが、少なくともChatGPT3.5を超えていると思われます。
今後Elyza-taskなど人力評価などを活用し、より詳細なベンチマークを実施する予定です。