RX9070XT Optimization
RX9070XT 最適化調査の入口です。Path 観測(Phase A–F)が完了し、dispatch-safe observer の確保が次の前提条件になっています。single-knob 比較はその後の段階です。
Entry point for RX9070XT optimization study. Path observation (Phase A–F) is complete. Securing a dispatch-safe observer is the next prerequisite before proceeding to single-knob comparisons.
観測クラス整備中
Observation Class In Progress
最適化数値: 未確定
Optimization numbers: not yet
観測済み事実Observed Facts
- plain ROCm path(gfx1201)が実際に到達することを確認し、cold / hot generate の timing 分布(load / prompt_eval / eval duration)を phase proxy として取得しました。
- 居住 hot case での eval duration は
0.149s(eval_count = 16、decode-heavy probe では 0.1479s)。これが現時点の baseline timing です。
rocprofv3 wrap は runtime path を壊すことが判明しており、rocprofv3 --attach は ptrace_scope=1 によりブロックされています。したがって dispatch-safe observer はまだ確保できていません。
ROCBLAS_LAYER=9 は rocblas_create_handle のみを記録しており、per-GEMM knob の単純な有無比較には不十分です。
- Confirmed that the plain ROCm path (gfx1201) is actually reachable, and obtained cold/hot generate timing distribution (load / prompt_eval / eval duration) as phase proxies.
- Resident hot case eval duration:
0.149s (eval_count = 16; decode-heavy probe: 0.1479s). This is the current baseline timing.
rocprofv3 wrap is known to break the runtime path; rocprofv3 --attach is blocked by ptrace_scope=1. A dispatch-safe observer has therefore not yet been secured.
ROCBLAS_LAYER=9 only logged rocblas_create_handle — insufficient for simple per-GEMM knob presence/absence comparison.
このセクションのページPages in This Section
未確定事項Open Questions
- dispatch-safe observer が確保できていないため、single-knob 比較の前提条件が満たされていません。
- この時点で RX9070XT の最適化成果(改善率・改善量)を数値で確定しません。
- MI25 と同じ入口 shape / knob が即適用できるとは言えません(wavefront_size / アーキテクチャ差を考慮)。
- Prerequisites for single-knob comparison are not yet met, as a dispatch-safe observer has not been secured.
- Numerical optimization results (improvement rate/amount) for RX9070XT are not confirmed at this stage.
- The same entry shapes/knobs as MI25 cannot be assumed to apply directly (considering wavefront_size and architecture differences).
追記予定Planned
- dispatch-safe observer の確保後、single-knob 比較を開始します。
- baseline timing の追加計測(複数 run による再現確認)。
- Once a dispatch-safe observer is secured, start single-knob comparisons.
- Additional baseline timing measurements (reproducibility confirmation across multiple runs).
掲載情報は観測記録に基づきます。最適化数値の確定には dispatch-safe observer が必要です。
Content is grounded in observation logs. Confirming optimization numbers requires a dispatch-safe observer.