Methods_JP

Page 32 of 43

モデルプルーニングモデルプルーニングとは、ニューラルネットワークから不要なニューロンや層を除去して、計算やメモリのオーバーヘッドを削減することです。プルーニングは、構造化プルーニングと非構造化プルーニングに大別されます。構造化されたプルーニングは、高密度のマトリックスを維持しながら、ニューロン、チャネル、またはレイヤー全体を削除するため、標準的なハードウェアとの互換性が高くなります。一般的な構造化アプローチとしては、チャネルのプルーニング（畳み込み層で重要度の低いチャネルを削除）、レイヤーのプルーニング（特に深いネットワークで冗長なレイヤーを削除）、グループごとのプルーニング（特定のニューロンまたはフィルタのグループをターゲットとする）などがあります。非構造化プルーニングでは、重要度の低い個々の重み（接続）を削除します。例えば、重みが 0 に近いものなどです（図 1）。この処理により、疎な行列が生成されます。この行列は、不規則な疎さにより汎用ハードウェアでは効率が悪くなる可能性があるため、効率的な計算には専用のライブラリやハードウェアが必要となります。図 1：非構造化プルーニングにより、ノード間の重みの総数が削除されます。この例では、元のネットワーク（左）には 36 の重みがあり、プルーニング後のネットワークには 23 の重みがあります。重みの共有により、メモリに保存する固有の重みの数が減少します。プルーニング後のネットワークでは、各線の色は特定の重みを表しています。（出典：Green Shoe Garage。マウザーにより再作成。）量子化量子化は、高精度（32 ビットなど）の重みを低精度（8 ビット、あるいはバイナリ精度など）に変換し、ハードウェアアクセラレータを使用してメモリを節約し、計算速度を向上させます。その1つの手法が、再学習を行わずに、事前に学習済みの浮動小数点モデルを量子化する「事後量子化」です。事後量子化の手法の 1つである「ダイナミックレンジ量子化」では、重みを低精度に量子化しますが、推論中は活性化は浮動小数点数のまま残ります。別の変形として、重みと活性化の両方を整数に量子化する、完全整数量子化があります。もう 1 つの方法は、トレーニングプロセスに量子化を取り入れた量子化対応トレーニング (QAT) です。これは、トレーニング中に低精度計算をシミュレートして、精度への影響を最小限に抑えます。過学習の軽減過学習とは、トレーニングデータでは非常に優れたパフォーマンスを発揮するが、未見のデータではパフォーマンスが著しく低下する ML モデルを指します。過学習を軽減する方法としては、既存のサンプルを変換して生成したデータセットを拡張し、汎化性能を向上させる「拡張」があります（例：画像の回転）。組み込みシステムによって取得されるセンサデータ（通常は時系列データ）の場合、ウィンドウスライシング、ジッタリング、タイムワーピングなどの手法により、過学習を軽減するのに役立つ連続データにバリエーションを導入することができます。 L1/L2 正則化などの他の手法は、大 | 32

Articles in this issue

view archives of Methods_JP - mouser-methods-v6i1-confrontingai-digital-8.5x11in-jp

mouser-methods-v6i1-confrontingai-digital-8.5x11in-jp

Contents of this Issue

Navigation

Page 32 of 43

Articles in this issue