- 2026/02/03 掲載
2026年「可観測性(オブザーバビリティ)」はこう変わる、AI時代の10トレンド(2/3)
オブザーバビリティ(可観測性)、2026年の10のトレンド
こうした中で、2026年に向けた潮流を見ていこう。第1は、データ形式の標準化が一段進むことだ。CNCFのOpenTelemetryは、OpenCensusとOpenTracingを統合して始まったプロジェクトで、ログ・メトリクス・トレースを共通の仕組みで扱うことを目指す。
第2は、Collector(収集基盤)の重要性が増すことだ。どのツールを使うにせよ、まず現場で集める・加工する・送る層を整える必要がある。
第3は、ダッシュボード中心から「問い→自動で掘る」運用への移行だ。AIエージェントの台頭により、たとえばログ担当エージェントがログを解析し、他エージェントと連携して復旧・予防に動くといったことが起きる。これにより、異常検知や根本原因推定にAIを使う動きは強まるが、すべてを任せるのではなく、(a)何を異常とみなすか、(b)どのデータを根拠にするか、を人が定義する必要がある。
第4は、SLO(サービス目標)を基準にした運用の普及。第5は、コスト(FinOps)と可観測性の接続である。FinOps FoundationはLinux Foundationのプロジェクトとして活動しており、Kubernetesの利用料を可視化するOpenCostのようなOSSもある。
第6は、ログ削減やサンプリングなど「データ量の最適化」が主戦場になる。第7は、セキュリティ観点(個人情報や機密)を前提にしたデータの取得。
第8は、現場の手順(runbook)を自動化し、運用知識をコード化する流れ。場合によっては、Observability as code(可観測性をコードで管理)といったことにもつながる。第9は、クラウドとオンプレをまたいだ統合運用。第10は、ビジネス指標と運用指標を同じ画面で語る動きだ。
成功と失敗を分けた設計の分岐点
成功と失敗を分ける分岐点は、ツール選定より先に「観測データの設計」を決められるかにある。典型的な失敗は、まず製品を導入し、後からログやメトリクスの項目を足していく進め方だ。この方法だと、部門やチームごとに命名規則がバラバラになり、検索しても同じ意味のデータが揃わない。
OpenTelemetryが重視するのがsemantic conventions(意味づけの共通化)で、同じ操作は同じ属性名で記録する発想だ。運用担当者が最初にやるべきは、(1)サービス名・環境名・リクエストIDなど、横串で追跡できるキーを決めること、(2)「いつ誰が変更したか」を追える変更管理と結びつけること、の2点である。
もう一つの分岐点は、ログの取り込み方だ。既存のログ基盤を捨てられない企業は多い。OpenTelemetryのLoggingでは、既存のログフレームワークをつなぐLog Bridge APIが整理され、Collector側では多様なログ形式の処理が追加されたとされる。
ここで重要なのは、まず「相関のための最小項目」を確実に運ぶことだ。すべてのログを最初から統合しようとすると破綻しやすい(例:重要度の低いログで検索が埋まる)。逆に、重要な処理のトレースと、直前の数十行のログだけが自動で結び付けば、障害対応は一気に短くなる。
AIに原因推定をさせる場合も、入力データが不足すると誤案内が増える。外部API遅延が原因でも、自社側のCPUだけを見て「リソース不足」と判断しがちだ。外部依存先の応答時間、リトライ回数、タイムアウト発生など、候補を計測しておく。
また、開発環境では起きないタイムアウトや特定条件のエラーは、例外系のログとトレースを取って初めて追える。平均値だけで安心しないことが基本になる。 【次ページ】AI前提の実装チェックリスト
オブザーバビリティ・APMのおすすめコンテンツ
PR
PR
PR