IEICE General Conference 2026

MAGI

AIが検証可能な科学であるために。

Reproducibility is not an afterthought.
It is the foundation.

An artifact-first foundation for reproducible Japanese LLM evaluation.

Paper submitted: 2026-01-01 · Presentation: 2026-03-12 · Zenodo record · Uploaded on July 28, 2025
Scroll

評価は、再現できてはじめて
知識になる。

結果だけが残り、過程が消える評価に、科学としての価値はない。
MAGIは、その問題に基盤設計で答える。

Context

推論の検証可能性をめぐる近年の問題提起に呼応し、
本研究は、日本語LLM評価を再現可能な実験として
残すための基盤設計を扱う。

In dialogue with recent concerns around the verifiability of reasoning,
this work focuses on infrastructure for reproducible Japanese LLM evaluation.

Inspired in part by Elchanan Mossel,
The Refutability Gap: Challenges in Validating Reasoning by Large Language Models
(February 10, 2026)

Pillars

Spec

実験の定義を一意にし、同一条件の再実行を保証する。評価の前提を揺らさない。

Artifacts

成功も失敗も証拠として残す。主張を必ず追跡可能にする。過程を失わない。

Verification

条件・結果・整合性を検証可能にする。再現性を確認できる形式で、成果物を評価する。

Open Source

MAGI is now publicly available.
Explore the implementation and evidence dataset below.

実装基盤と実験証拠データを公開しています。