Visual Memory & Bandwidth
シリーズ: イメージでわかる
どれだけたくさん持てるかと、どれだけ速く運べるかの違いを、水道管や作業台のたとえでやさしく説明します。
The difference between "how much you can hold" and "how fast you can move it" — explained through water pipes and workbench analogies.
GPU には「容量」と「帯域幅」という2つの大事なメモリ指標があります。
GPUs have two critical memory metrics: "capacity" and "bandwidth."
大規模な AI モデル(たとえば ChatGPT や DeepSeek-R1)は、何十億もの数字を持っています。推論するとき、そのすべてを GPU のメモリに載せ、猛スピードで読み書きします。
Large AI models (like ChatGPT or DeepSeek-R1) contain billions of numbers. During inference, all of them must be loaded in GPU memory and read/written at extreme speed.
容量が足りないと: そもそもモデルが載らない → 動かない
帯域幅が足りないと: 載っていても読み出しが遅い → 出力が遅い
Not enough capacity: The model doesn't fit → it won't run at all
Not enough bandwidth: The model fits but reads slowly → output is slow
Vega の帯域幅は 484 GB/s。現在の最先端 MI300X の 1/10 以下ですが、同世代の GDDR5 搭載カードと比べるとかなり太い水道管です。
Vega's bandwidth is 484 GB/s — less than 1/10 of the latest MI300X, but much wider than GDDR5 cards from the same era.
ROCm では、メモリの問題をまず「載るか」、次に「流れるか」で考えると整理しやすくなります。
In ROCm, it helps to think about memory problems in two steps: first "does it fit?" and then "can it flow fast enough?"
まず見るのは容量です。 モデル本体、途中のデータ、作業用の一時領域が VRAM に載らなければ、ROCm は計算を始めにくくなります。バッチを小さくしたり、軽いデータ型にしたりする理由はここにあります。
Capacity comes first. If the model itself, intermediate data, and temporary workspaces do not fit in VRAM, ROCm has trouble even starting the computation. This is why people shrink batch size or use lighter data types.
次に見るのが帯域幅です。 載っていても、rocBLAS や MIOpen がデータを読む速さが足りないと、計算器が待たされます。GPU の中は速くても、材料の受け渡しが遅いと全体は遅くなります。
Bandwidth comes next. Even when things fit, if rocBLAS or MIOpen cannot read the data quickly enough, the compute units spend time waiting. The inside of the GPU may be fast, but slow delivery still slows the whole job down.
Vega(gfx900)は 8 GB という容量では厳しい場面がある一方、HBM2 の広い帯域は強みです。だから ROCm 目線では「大きなモデルは載りにくいが、載る計算は気持ちよく流せることがある」と考えます。
Vega (gfx900) can feel tight on capacity with 8 GB, but its wide HBM2 bandwidth is a real strength. So from a ROCm viewpoint, it is often "hard to fit very large models, but quite capable of streaming the ones that do fit."