Abbeal

Énergie · Paris

エネルギー会社:5万センサー、リアルタイム検知、240万ユーロ削減。

異常検知が8時間遅延。ゲートウェイ上のエッジML、クラウドfallback、ドリフト監視。未検知インシデント−70%。

KPI

< 5s

détection anomalies

期間

10 mois

チーム

5

ハブ

Paris

ONNXEdge TPUKafkaFlinkMLflow

電力網で異常検出に8時間の遅延は、エネルギーが漏れる間に支払う8時間です。

コンテキスト

フランスエネルギー会社、4,800人従業員、パリハブ。50,000センサー(消費、電圧、高調波、トランス温度)を搭載した中電圧配電網。Hadoop上の夜間バッチデータパイプライン、静的ルールによる異常検出。

問題

  • 平均8時間の遅延で異常検出(H+24バッチ)
  • インシデントの30%がクライアント影響後に検出
  • 未特定のグリッド損失を年380万ユーロと見積もり
  • 70%の誤検知を生成する静的ルール
  • 一部の産業ゲートウェイで限られた帯域幅(4G、時には2G)

アプローチ

エッジMLパイプライン:5秒未満のローカル推論のため産業ゲートウェイにコンパクトONNXモデル展開。曖昧なケースのみクラウドフォールバック。継続的ドリフト検出と月次自動再トレーニング。

アーキテクチャ

  • 量子化ONNXのIsolation forest + autoencoderモデル(8 MB)
  • ゲートウェイ内蔵Edge TPUでの推論
  • 地域集約のためのKafkaストリーミングからFlink
  • モデルバージョニングのMLflow、ドリフト > 閾値で自動再トレーニング
  • 曖昧なケースのクラウドフォールバック(トラフィックの5%)、800ms未満の決定

スタック

  • ONNX Runtime、INT8量子化モデル
  • 産業ゲートウェイのCoral Edge TPU
  • ストリーミングのApache Kafka 3.7、Flink 1.18
  • MLライフサイクルのMLflow、ドリフト検出のEvidently AI
  • AWS SageMakerでの週次再トレーニングパイプライン

結果

  1. 異常検出:8時間から5秒未満
  2. 未検出インシデント:-70%
  3. 誤検知:70%から11%
  4. グリッド損失節約:12か月で検証された240万ユーロ/年
  5. 消費帯域幅:-82%(ローカル推論)
« Abbealは現場制約にうまく対応しました:老朽化ゲートウェイ、不安定ネットワーク、保守的な運用チーム。独断的クラウド・オア・ダイではなく、プラグマティックエンジニアリング。 »
VP Operations · フランスエネルギー会社

学んだこと

ドリフト検出は推論と同じくらいクリティカル:なしでは、モデルは静かに劣化します。INT8量子化は精度1.8ポイントを失い、ここでは許容可能ですがケースごとに検証必要。間違い:50,000センサー全てに6か月で展開したいと思いましたが、10か月に延長する必要がありました。やり直すなら:ロールアウト前に500センサーで8週間パイロット、それがプロジェクトを救いました。

貴社でも似たケースがある?

アーキテクトと話す