RX9070XT — Phase A–F を終えて何が分かったか RX9070XT — What Phase A–F Revealed

このページで得られる理解:C14 pilot 6 フェーズの成果まとめ——何が確認でき、何が最も筋のいい読みで、何がまだ分からないか。

What you'll gain here: the synthesis of C14 pilot Phase A–F — what was confirmed, what is the strongest current reading, and what remains unknown.

RX9070XT(gfx1201)は RDNA4 世代の GPU として、本命経路が通るかどうかを観測で確認しなければならない世代に位置する。 Phase A〜F の調査が完了した時点での全体像をここにまとめる。 調査の背景や方法論の詳細は 調査の読み方 を参照。

RX9070XT (gfx1201), as an RDNA4 GPU, is a generation where observation is required to determine whether the primary path actually runs. This page summarizes the full picture as of Phase A–F completion. For investigation background and methodology, see How to Read This Investigation.

gfx1201 / ROCm 7.2.0 Ollama 0.17.4 deepseek-r1-distill-qwen-7b:q4_k_m Phase A–F 完了 Phase A–F Complete

このページの結論 Page Conclusion

gfx1201 向けの custom kernel(MMVQ / MMQ / Flash Attention / RoPE)と BLAS family(Cijk_*)の binary はすべて確認済み。 decode 側は bundle_0030(MMVQ)、prefill 側は bundle_0096(MMQ)と読むのが現時点で最も筋がいい。
ただし、dispatch の直接確認は observer 制約により不可能。「binary が存在する」と「実際に使われた」の間のギャップは Phase F 時点では埋まっていない。
All gfx1201 custom kernel binaries (MMVQ / MMQ / Flash Attention / RoPE) and BLAS family (Cijk_*) are confirmed present. The strongest current reading: decode-side aligns with bundle_0030 (MMVQ), prefill-side with bundle_0096 (MMQ).
However, direct dispatch confirmation is blocked by observer constraints. The gap between "binary exists" and "was actually used" remains unbridged as of Phase F.

調査環境 — なぜこの構成を anchor にしたか Investigation Environment — Why This Configuration Was Chosen as Anchor

観測ポイント: どの環境・ワークロードを「基準点」として調査するか。

Observation target: What environment and workload to use as the investigation's anchor point.

Q4_K_M を anchor にした理由は、ggml の dispatch 分岐が量子化型と ne11 の組み合わせで決まるため、 1 つの量子化型を固定することで dispatch 閾値の変数を絞れるからだ。 deepseek-r1-distill-qwen-7b:q4_k_m は Q4_K family の代表として選んだ。

Q4_K_M was chosen as anchor because ggml dispatch branching is determined by the combination of quantization type and ne11. Fixing one quantization type reduces the variables in dispatch threshold analysis. deepseek-r1-distill-qwen-7b:q4_k_m was selected as representative of the Q4_K family.

項目Item 確認値Confirmed Value
GPUAMD Radeon RX 9070 XT
GFX targetgfx1201 (device id 0x7550)
VRAM pool16.7 GiB
ROCm7.2.0
Ollama0.17.4
ROCm bundle/usr/local/lib/ollama/rocm/
wavefront_size32 (MI25 の 64 と異なる — gfx1201 固有)(differs from MI25's 64 — gfx1201-specific)
調査 anchor ワークロードAnchor workload deepseek-r1-distill-qwen-7b:q4_k_m

確認できたこと — Phase A–F の成果 What Was Confirmed — Phase A–F Results

観測ポイント: 6 フェーズを通じて、何が「確定した事実」として積み上がったか。

Observation target: Across 6 phases, what accumulated as "confirmed facts"?

現時点で最も筋のいい読み Strongest Current Reading

観測ポイント: 確認できた事実から、「今この実行で何が起きていたか」をどう読むのが最も自然か。

Observation target: From the confirmed facts, what is the most natural reading of "what was happening during this run"?

上記はすべて「最も筋のいい読み」であり、dispatch-safe observer による直接確認ではない。 ROCBLAS_LAYER=9rocblas_create_handle のみ見えたことは「BLAS が使われていない」の証拠ではなく、 custom kernel 優位・Flash Attention・observer 制約の複合で説明できる。 All of the above are "strongest current readings," not direct confirmation by a dispatch-safe observer. rocblas_create_handle being the only visible item via ROCBLAS_LAYER=9 is not evidence that BLAS is unused — it is better explained by custom-kernel dominance, Flash Attention routing, and observer constraints combined.

示せること / 示せないこと What Can and Cannot Be Shown

示せることCan Show 示せないことCannot Show
gfx1201 向けの全 kernel family(MMVQ / MMQ / FA / RoPE / BLAS)の binary が存在する All gfx1201 kernel family binaries (MMVQ / MMQ / FA / RoPE / BLAS) exist live run でそれぞれが実際に dispatch されたか Whether each was actually dispatched in a live run
29/29 layers が GPU にオフロードされた 29/29 layers were offloaded to GPU 各 layer でどの kernel が選ばれたか Which kernel was selected for each layer
phase proxy で dispatch 圏の近似(MMVQ / MMQ / 境界)を読める Phase proxy can approximate dispatch zones (MMVQ / MMQ / boundary) kernel launch 時の正確な ne11 値 Exact ne11 value at kernel launch
BLAS-side Cijk_* が gfx1201 向けに存在する BLAS-side Cijk_* exists for gfx1201 live short case で Cijk_* が入ったか Whether Cijk_* entered the live short case
hot/cold の eval_duration 差(resident 効果)が数値で出ている hot/cold eval_duration difference (residency effect) is numerically visible prompt_eval_count=290 が fallback か chunking か Whether prompt_eval_count=290 is fallback or chunking

未確定事項Open Questions

次の観測点(Phase G 以降) Where to Look Next (Phase G+)

掲載情報は観測記録に基づきます。「最も筋のいい読み」は推論を含み、「未確定事項」は確定次第更新します。 Content is grounded in observation logs. "Strongest current readings" include inferences; "Open Questions" are updated as findings solidify.