観測された失敗像
Observed failure mode
- 再起動後に CPU path が現れることがあった
- A CPU path sometimes appeared after restart
- journal では
library=cpuやGPULayers:[]が見えることがあった - Journals sometimes showed
library=cpuandGPULayers:[]
ROCm 7.2 と Ollama source build のローカル観測をもとに、MI25 / gfx900 上で GPU inference path がどのように observed されたかを整理するケーススタディです。
A case study organizing how the GPU inference path was observed on MI25 / gfx900, based on local observations with ROCm 7.2 and an Ollama source build.
まず、今回の観測がどの条件の上で行われたかを切り分けておきます。
First, separate the conditions under which these observations were made.
| 項目 | Item | 内容 | Observed value |
|---|---|---|---|
| GPU | Radeon Instinct MI25 (gfx900) | ||
| Runtime | ROCm 7.2 | ||
| Serving path | Ollama user service (source build) | ||
| Key runtime path | OLLAMA_LIBRARY_PATH=/home/limonene/ROCm-project/ollama-src/build/lib/ollama |
今回の観測では「MI25 が絶対に無理だった」のではなく、再起動後に CPU fallback が見えやすい状態が先にあった。
The earlier state was not simply “MI25 cannot do this,” but a setup where CPU fallback tended to appear after restarts.
library=cpu や GPULayers:[] が見えることがあったlibrary=cpu and GPULayers:[]修正の中心は「MI25 向け backend library をちゃんと runtime path に揃える」ことだった。
The fix path centered on making sure the MI25-targeted backend libraries were actually present and aligned in the runtime path.
build-ollama-gfx900.sh で backend libraries を再ビルドbuild-ollama-gfx900.shlibggml-hip.so などが runtime path に揃っていることを確認libggml-hip.so and related files existed at the runtime path今回の公開ページでは、代表例として tinyllama の A/B 実行と deepseek-r1:14b の実行結果を置く。
This page highlights two representative observations: the tinyllama A/B runs and a deepseek-r1:14b run.
| ケース | Case | 観測 | Observation | 読めること | Immediate reading |
|---|---|---|---|---|---|
| tinyllama A/B | 8条件マトリクス、16 phase 合計で GPU=15、UNSURE=1。その UNSURE も後の rerun では GPU へ寄った。 |
Across an 8-case matrix and 16 phases total, GPU=15 and UNSURE=1 were observed. The unsure case later moved toward GPU on rerun. |
少なくともこのセットアップでは、再現性のある GPU path がかなりの割合で見えていた。 | At least in this setup, a repeatable GPU path appeared for the large majority of phases. | |
deepseek-r1:14b |
done=true、done_reason=length。journal では library=ROCm、compute=gfx900、GPULayers:49。rocm-smi では GPU use 最大 99%、power 最大 217W、VRAM 約 58%。 |
done=true with done_reason=length. Journals showed library=ROCm, compute=gfx900, and GPULayers:49. rocm-smi showed GPU use up to 99%, power up to 217W, and roughly 58% VRAM use. |
少なくともこの実行では、かなり明確な GPU offload の観測がある。 | This run provides a fairly clear observation of GPU offload in the tested setup. |
今回のセットアップから少なくとも言えそうなことを、観測に引きつけた範囲で整理する。
This section keeps interpretation close to the observed evidence and avoids stronger claims than the setup can support.
deepseek-r1:14b: 約 14.20 s / 140 eval、推定約 9.9 tokens/secdeepseek-r1:14b: about 14.20 s / 140 eval, roughly 9.9 tokens/secこのページからはまだ断定しないことも明示しておく。
This page also states clearly what it does not yet claim.
関連リポジトリ: AETS-MAGI/ROCm-MI25-build
Related repository: AETS-MAGI/ROCm-MI25-build