<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Cloudwatch on hdknr blog</title><link>https://hdknr.github.io/blogs/tags/cloudwatch/</link><description>Recent content in Cloudwatch on hdknr blog</description><generator>Hugo -- 0.157.0</generator><language>ja</language><lastBuildDate>Mon, 06 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://hdknr.github.io/blogs/tags/cloudwatch/index.xml" rel="self" type="application/rss+xml"/><item><title>Grafana</title><link>https://hdknr.github.io/blogs/wiki/tools/grafana/</link><pubDate>Mon, 06 Apr 2026 00:00:00 +0000</pubDate><guid>https://hdknr.github.io/blogs/wiki/tools/grafana/</guid><description>メトリクス可視化・ダッシュボード作成ツール</description></item><item><title>AWS DMS Serverless の OOM 障害と監視の盲点 — 検知漏れの根本原因と対策</title><link>https://hdknr.github.io/blogs/posts/2026/03/aws-dms-serverless-%E3%81%AE-oom-%E9%9A%9C%E5%AE%B3%E3%81%A8%E7%9B%A3%E8%A6%96%E3%81%AE%E7%9B%B2%E7%82%B9-%E6%A4%9C%E7%9F%A5%E6%BC%8F%E3%82%8C%E3%81%AE%E6%A0%B9%E6%9C%AC%E5%8E%9F%E5%9B%A0%E3%81%A8%E5%AF%BE%E7%AD%96/</link><pubDate>Thu, 26 Mar 2026 00:00:00 +0000</pubDate><guid>https://hdknr.github.io/blogs/posts/2026/03/aws-dms-serverless-%E3%81%AE-oom-%E9%9A%9C%E5%AE%B3%E3%81%A8%E7%9B%A3%E8%A6%96%E3%81%AE%E7%9B%B2%E7%82%B9-%E6%A4%9C%E7%9F%A5%E6%BC%8F%E3%82%8C%E3%81%AE%E6%A0%B9%E6%9C%AC%E5%8E%9F%E5%9B%A0%E3%81%A8%E5%AF%BE%E7%AD%96/</guid><description>&lt;p&gt;AWS DMS Serverless Replication（CDC モード）が OOM（Out of Memory）で &lt;code&gt;failed&lt;/code&gt; 状態になり、自動再起動の仕組みが検知できずに長期間停止していた問題について、根本原因と対策をまとめます。&lt;/p&gt;
&lt;h2 id="構成"&gt;構成&lt;/h2&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;RDS (MySQL) → DMS Serverless (CDC) → S3 (Parquet)
&lt;/code&gt;&lt;/pre&gt;&lt;ul&gt;
&lt;li&gt;DMS Serverless Replication で全テーブルの CDC（Change Data Capture）を実行&lt;/li&gt;
&lt;li&gt;S3 に Parquet 形式で日付パーティション付きで出力&lt;/li&gt;
&lt;li&gt;EventBridge + Lambda で DMS 停止を検知し自動再起動する仕組みを構築済み&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="発生した事象"&gt;発生した事象&lt;/h2&gt;
&lt;h3 id="症状"&gt;症状&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;prod 環境の DMS Serverless Replication が &lt;code&gt;failed&lt;/code&gt; 状態で停止&lt;/li&gt;
&lt;li&gt;エラーメッセージ: &lt;code&gt;Replication out of memory. Stop Reason FATAL_ERROR Error Level FATAL&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;CDC が完全に停止し、S3 へのデータ同期が止まっていた&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="発覚の経緯"&gt;発覚の経緯&lt;/h3&gt;
&lt;p&gt;手動確認で発見。自動再起動 Lambda の最終実行は約2ヶ月前で、それ以降は検知されていなかった。&lt;/p&gt;
&lt;h2 id="根本原因"&gt;根本原因&lt;/h2&gt;
&lt;h3 id="原因-1-eventbridge-ルールのイベントパターンが不完全"&gt;原因 1: EventBridge ルールのイベントパターンが不完全&lt;/h3&gt;
&lt;p&gt;自動再起動用の EventBridge ルールが &lt;code&gt;REPLICATION_TASK_STOPPED&lt;/code&gt; のみを監視していた。&lt;/p&gt;</description></item></channel></rss>