Go言語入門：プロファイルガイド最適化 -Vol.13-

よっしー

こんにちは。よっしーです(^^)

本日は、Go言語のプロファイルガイド最適化ついて解説しています。

背景
異なるワークロードタイプで使用される単一バイナリをどのように扱うべきですか？
解説
おわりに

背景

Go言語でアプリケーションのパフォーマンスを改善したいと思ったことはありませんか? 公式ドキュメントで「Profile-guided optimization (PGO)」という機能を見かけたものの、英語で書かれていて専門用語も多く、「どういう仕組みなんだろう?」「自分のプロジェクトにどう活用すればいいの?」と戸惑った経験があるかもしれません。

この記事では、Go 1.21から正式サポートされたPGO(プロファイルガイド最適化)について、公式ドキュメントの丁寧な日本語訳と、初心者の方にもわかりやすい補足説明をお届けします。PGOは実行時のプロファイル情報をコンパイラにフィードバックすることで、2〜14%のパフォーマンス向上が期待できる強力な機能です。

「コンパイラ最適化」や「プロファイリング」と聞くと難しそうに感じるかもしれませんが、基本的な使い方はとてもシンプルです。この記事では、PGOの仕組みを身近な例えで説明し、実際にどうやって使うのかを具体的なコード例とともに紹介していきます。一緒に学んでいきましょう!

Profile-guided optimization - The Go Programming Language

異なるワークロードタイプで使用される単一バイナリをどのように扱うべきですか？

ここには明確な選択肢はありません。異なるタイプのワークロードで使用される単一バイナリ（例えば、あるサービスでは読み取り中心、別のサービスでは書き込み中心で使用されるデータベース）は、異なるホットコンポーネントを持つ可能性があり、異なる最適化から恩恵を受けます。

3つの選択肢があります：

各ワークロード用に異なるバージョンのバイナリをビルド：各ワークロードのプロファイルを使用して、複数のワークロード固有のバイナリビルドを作成します。これは各ワークロードに対して最高のパフォーマンスを提供しますが、複数のバイナリとプロファイルソースを扱うことに関して運用上の複雑さが増す可能性があります。
「最も重要な」ワークロードのプロファイルのみを使用して単一バイナリをビルド：「最も重要な」ワークロード（最大のフットプリント、最もパフォーマンスに敏感）を選択し、そのワークロードからのプロファイルのみを使用してビルドします。これは選択したワークロードに対して最高のパフォーマンスを提供し、ワークロード間で共有される共通コードの最適化により、他のワークロードでも控えめなパフォーマンス向上が得られる可能性があります。
ワークロード間でプロファイルをマージ：各ワークロードからプロファイルを取得し（総フットプリントで重み付け）、単一の「フリート全体」プロファイルにマージして、ビルドに使用する単一の共通プロファイルを作成します。これは、すべてのワークロードに対して控えめなパフォーマンス向上を提供する可能性があります。

解説

問題の本質：1つのバイナリ、複数の使い方

同じプログラムでも、使われ方によってボトルネックが異なる場合があります。

レストランの例え：

同じレストランでも：

ランチタイム（読み取り中心）:
- 注文を受ける: 頻繁
- メニューを見せる: 頻繁
- 調理: 普通
- 会計: 頻繁

ディナータイム（書き込み中心）:
- 注文を受ける: 普通
- 特注リクエスト対応: 頻繁
- 複雑な調理: 頻繁
- ゆっくり会計: 普通

最適化の焦点が異なる

具体例：データベースサーバー

シナリオ：同じMySQLバイナリの異なる使われ方

サービスA：分析システム（読み取り中心）

// 分析クエリを大量実行
func analyzeData() {
    // SELECT クエリが支配的
    db.Query("SELECT * FROM large_table WHERE ...")  // 90%
    db.Query("SELECT COUNT(*) FROM ...")             // 5%
    db.Exec("INSERT INTO cache ...")                 // 5%
}

プロファイル結果：

ホット関数:
- executeSelectQuery: 70%
- scanResults: 15%
- indexLookup: 10%
- executeInsert: 3%
- commitTransaction: 2%

サービスB：トランザクションシステム（書き込み中心）

// トランザクション処理を大量実行
func processTransactions() {
    // INSERT/UPDATE クエリが支配的
    db.Exec("INSERT INTO orders ...")       // 40%
    db.Exec("UPDATE inventory ...")         // 35%
    db.Exec("INSERT INTO audit_log ...")    // 15%
    db.Query("SELECT * FROM orders ...")    // 10%
}

プロファイル結果：

ホット関数:
- executeInsert: 45%
- executeUpdate: 30%
- commitTransaction: 15%
- lockManagement: 7%
- executeSelectQuery: 3%

問題：

同じバイナリなのに、
ホット関数が完全に異なる！

サービスAに最適化 → サービスBで効果が小さい
サービスBに最適化 → サービスAで効果が小さい

選択肢1：ワークロード別バイナリ

各ワークロード専用のバイナリを作成します。

実装例：

# サービスA用（読み取り中心）
curl http://service-a:6060/debug/pprof/profile?seconds=60 > profile-read.pprof
go build -pgo=profile-read.pprof -o mydb-read

# サービスB用（書き込み中心）
curl http://service-b:6060/debug/pprof/profile?seconds=60 > profile-write.pprof
go build -pgo=profile-write.pprof -o mydb-write

# デプロイ
# サービスAには mydb-read
# サービスBには mydb-write

メリット：

✓ 各ワークロードで最高のパフォーマンス
✓ 最適化が専門特化

サービスA:
- SELECT処理が高度に最適化
- パフォーマンス向上: 15%

サービスB:
- INSERT/UPDATE処理が高度に最適化
- パフォーマンス向上: 18%

デメリット：

✗ 複数バイナリの管理が必要
✗ プロファイル収集が2倍
✗ ビルドプロセスが複雑
✗ デプロイ時に間違ったバイナリを使うリスク

運用の複雑さ：

# Kubernetes デプロイメント例
# サービスA用
apiVersion: apps/v1
kind: Deployment
metadata:
  name: service-a
spec:
  template:
    spec:
      containers:
      - name: app
        image: myapp:read-optimized  # ← 専用バイナリ
        
# サービスB用
apiVersion: apps/v1
kind: Deployment
metadata:
  name: service-b
spec:
  template:
    spec:
      containers:
      - name: app
        image: myapp:write-optimized  # ← 専用バイナリ

# 管理するイメージが2倍に

選択肢2：最重要ワークロード優先

最も重要なワークロードのプロファイルのみを使用します。

判断基準：

最重要ワークロードの選び方:

1. 最大のフットプリント（規模）
   → トラフィックが最も多い
   → サーバー台数が最も多い

2. 最もパフォーマンス重要
   → SLAが厳しい
   → ユーザー体験に直結

3. 最もコストがかかる
   → インフラコストが高い
   → 最適化の費用対効果が大きい

実装例：

# サービスAが最重要（トラフィック80%、サービスBは20%）
curl http://service-a:6060/debug/pprof/profile?seconds=60 > production.pprof

# 単一バイナリをビルド
go build -pgo=production.pprof -o mydb

# すべてのサービスで同じバイナリを使用

効果の予測：

サービスA（最重要、プロファイル元）:
- 完全に最適化
- パフォーマンス向上: 15%

サービスB（その他）:
- 共通コード部分は最適化される
- パフォーマンス向上: 5-8%
  （共通部分が40%なら、その部分が最適化）

共通コードの最適化効果：

// 両方のワークロードで使われる共通コード

// JSONパース（両方で使う）
func parseRequest(data []byte) Request {
    var req Request
    json.Unmarshal(data, &req)  // ← これは最適化される
    return req
}

// ログ記録（両方で使う）
func logQuery(query string) {
    log.Printf("Query: %s", query)  // ← これも最適化される
}

// 接続プール（両方で使う）
func getConnection() *sql.DB {
    return pool.Get()  // ← これも最適化される
}

メリット：

✓ シンプルな運用（1つのバイナリのみ）
✓ プロファイル管理が簡単
✓ デプロイが単純
✓ 最重要ワークロードで最高性能
✓ その他のワークロードでも一定の効果

デメリット：

✗ その他のワークロードは最適ではない
✗ ワークロード固有部分は最適化されない

選択肢3：プロファイルのマージ

すべてのワークロードのプロファイルを統合します。

実装例：

# 各ワークロードからプロファイル収集
curl http://service-a:6060/debug/pprof/profile?seconds=60 > profile-a.pprof
curl http://service-b:6060/debug/pprof/profile?seconds=60 > profile-b.pprof
curl http://service-c:6060/debug/pprof/profile?seconds=60 > profile-c.pprof

# マージ
go tool pprof -proto profile-a.pprof profile-b.pprof profile-c.pprof > merged.pprof

# 単一バイナリをビルド
go build -pgo=merged.pprof -o mydb

重み付けマージ（推奨）：

# サービスの規模に応じて収集時間を調整

# サービスA: 最大（全体の60%） → 60秒
curl http://service-a:6060/debug/pprof/profile?seconds=60 > profile-a.pprof

# サービスB: 中規模（全体の30%） → 30秒
curl http://service-b:6060/debug/pprof/profile?seconds=30 > profile-b.pprof

# サービスC: 小規模（全体の10%） → 10秒
curl http://service-c:6060/debug/pprof/profile?seconds=10 > profile-c.pprof

# マージ（自動的に時間で重み付けされる）
go tool pprof -proto profile-a.pprof profile-b.pprof profile-c.pprof > merged.pprof

効果の予測：

マージプロファイルの構成:
- サービスAのホット関数: 60%の重み
- サービスBのホット関数: 30%の重み
- サービスCのホット関数: 10%の重み

最適化結果:
サービスA: 10-12% 改善（専用なら15%だが少し減る）
サービスB: 8-10% 改善（専用なら18%だが大きく減る）
サービスC: 4-6% 改善（もともと小規模）

すべてのワークロードで「そこそこ」改善

メリット：

✓ すべてのワークロードで効果
✓ 公平な最適化
✓ 単一バイナリで運用簡単
✓ ワークロードバランスの変化に強い

デメリット：

✗ どのワークロードも最高性能ではない
✗ 最適化が「薄まる」
✗ プロファイル管理がやや複雑

実例比較：具体的な数値

シナリオ：3つのマイクロサービス

サービス配置:
- API Server: 10台（読み取り中心）
- Worker: 5台（書き込み中心）
- Analytics: 2台（複雑クエリ）

選択肢1：ワークロード別バイナリ

ビルド:
- api-server-optimized（API用プロファイル）
- worker-optimized（Worker用プロファイル）
- analytics-optimized（Analytics用プロファイル）

パフォーマンス:
- API Server: 18% 改善 ★★★
- Worker: 22% 改善 ★★★
- Analytics: 15% 改善 ★★★

運用コスト:
- バイナリ管理: 高 ★★★
- プロファイル収集: 高 ★★★
- デプロイ複雑度: 高 ★★★

選択肢2：API Server優先（最大）

ビルド:
- myapp（API Serverプロファイルのみ）

パフォーマンス:
- API Server: 18% 改善 ★★★
- Worker: 6% 改善 ★☆☆
- Analytics: 4% 改善 ★☆☆

運用コスト:
- バイナリ管理: 低 ★☆☆
- プロファイル収集: 低 ★☆☆
- デプロイ複雑度: 低 ★☆☆

選択肢3：マージプロファイル

ビルド:
- myapp（全サービスマージ、API重み大）

パフォーマンス:
- API Server: 12% 改善 ★★☆
- Worker: 14% 改善 ★★☆
- Analytics: 10% 改善 ★★☆

運用コスト:
- バイナリ管理: 低 ★☆☆
- プロファイル収集: 中 ★★☆
- デプロイ複雑度: 低 ★☆☆

意思決定フローチャート

質問1: 各ワークロードの性能要求は厳しいか？
├─ YES → 質問2へ
└─ NO → 選択肢2（最重要優先）を推奨

質問2: 複数バイナリの運用コストを許容できるか？
├─ YES → 選択肢1（ワークロード別）を推奨
└─ NO → 質問3へ

質問3: ワークロード間の規模差は大きいか？
├─ YES（1つが支配的） → 選択肢2（最重要優先）を推奨
└─ NO（比較的均等） → 選択肢3（マージ）を推奨

実装例：CI/CDでの管理

選択肢1：ワークロード別バイナリ

# .github/workflows/build-multi.yml
name: Build Multiple Variants

jobs:
  build-read-optimized:
    runs-on: ubuntu-latest
    steps:
      - name: Download read profile
        run: curl https://s3.../profile-read.pprof > default.pgo
      - name: Build
        run: go build -pgo=default.pgo -o myapp-read
      - name: Push image
        run: docker build -t myapp:read . && docker push myapp:read

  build-write-optimized:
    runs-on: ubuntu-latest
    steps:
      - name: Download write profile
        run: curl https://s3.../profile-write.pprof > default.pgo
      - name: Build
        run: go build -pgo=default.pgo -o myapp-write
      - name: Push image
        run: docker build -t myapp:write . && docker push myapp:write

選択肢2/3：単一バイナリ

# .github/workflows/build-single.yml
name: Build Single Binary

jobs:
  build:
    runs-on: ubuntu-latest
    steps:
      - name: Download or merge profiles
        run: |
          # 選択肢2: 最重要のみ
          curl https://s3.../profile-main.pprof > default.pgo
          
          # または選択肢3: マージ
          # curl https://s3.../profile-a.pprof > a.pprof
          # curl https://s3.../profile-b.pprof > b.pprof
          # go tool pprof -proto a.pprof b.pprof > default.pgo
      
      - name: Build
        run: go build -pgo=default.pgo -o myapp
      
      - name: Push image
        run: docker build -t myapp:latest . && docker push myapp:latest

推奨される選択

スタートアップ・小規模チーム：

推奨: 選択肢2（最重要優先）

理由:
- シンプルで管理しやすい
- 少ないリソースで最大効果
- 最も重要なワークロードを守れる

中規模組織：

推奨: 選択肢3（マージ）

理由:
- バランスの取れた改善
- 単一バイナリで運用簡単
- すべてのサービスに公平

大規模エンタープライズ：

推奨: 選択肢1（ワークロード別）

理由:
- 各サービスで最高性能
- 運用リソースが十分
- パフォーマンス要求が厳しい

チェックリスト：意思決定のポイント

✅ ワークロード間のパフォーマンス差を測定済み
✅ 各ワークロードの規模（トラフィック）を把握
✅ SLA要求を確認
✅ 運用チームのキャパシティを評価
✅ コスト対効果を計算
❌ 完璧を求めすぎない（どの選択肢も改善はある）
❌ 早まって複雑な方法を選ばない
❌ 測定せずに決めない

まとめ

異なるワークロードで使われる単一バイナリには、3つの戦略があります。ワークロード別バイナリは最高性能だが運用が複雑、最重要ワークロード優先は最もシンプルで実用的、プロファイルマージはバランス型です。多くの場合、最重要ワークロード優先から始めるのが賢明です。シンプルで効果的、そして必要に応じて後から他の戦略に移行できます。完璧なプロファイルを求めるより、まずは動かしてみて、実際の効果を測定しながら調整していくアプローチが成功の鍵です。