この記事は、CyberAgent Group SRE Advent Calendar 2023の23日目の記事です。
TOC
SigNoz とは
SigNozは、ログ、トレース、メトリクスを1つのアプリケーションで提供するオープンソースの観測可能性プラットフォームです。DataDog、NewRelicなどに代わるオープンソースです。
https://github.com/SigNoz/signoz
https://github.com/SigNoz/signoz
Datadog や New Relic の代替を目指す OSS ということで SigNoz を触ってみた。
TL;DR
- 👍 OpenTelemetry 互換なので移行が簡単
- 👍 Web UI は Datadog と Grafana っぽい
- 👍 Service Map も使える
- 👍 アラート機能も十分
- 👍 バックエンドの ClickHouse がめっちゃ速い
- 👍 PromQL が使える
- 👍 外形監視もある
- 👍 OSS
- 🔺 Query Builder(PromQL と ClickHouse)はサジェストが出てこないので敷居が高い。
- 🔺 セルフホストはセルホスト、Cloud 版もあり(安い)
- ❌ 高度なことをしようとすると ClickHouse のクエリが必要
- ❌ SRE 視点では使えない
APM、アプリログの検索基盤としては十分に使えるけど SRE(Site Reliability Engineering) では使えない。
SigNoz のインストール
https://signoz.io/docs/operate/
APM としての機能
※ 所属する会社のサービスではなく個人サービスの API で試しています。
インストゥルメントされて SigNoz に送られたデータはサービス一覧ページで確認でき、クリックすると下記の概要ページが表示される。
![](https://rarirure.rip/wp-content/uploads/2023/12/Open-source-Observability-Platform-_-SigNoz-1024x462.jpeg)
HTTP エンドポイントをクリックすると親スパンの情報が一覧で表示される。
![](https://rarirure.rip/wp-content/uploads/2023/12/SigNoz-_-Trace-1024x462.jpeg)
各親スパンをクリックすると、詳細な情報が見ることができる。
![](https://rarirure.rip/wp-content/uploads/2023/12/Open-source-Observability-Platform-_-SigNozのコピー-1024x462.jpeg)
今回のアプリには Go x Gin x Gorm の API に、AWS SDK for Go v2 による外部 API の HTTP コールも含まれます。
s3Minio = s3.NewFromConfig(s3MinioCfg, func(o *s3.Options) {
...
})
otelaws.AppendMiddlewares(&s3MinioCfg.APIOptions)
ちなみに otelaws は AWS SDK for Go v2 からしか対応していないのですが、これは恐らく v2 では context 指定が必須なったことで引きずり回せるようにするためかと思います。
Gorm
![](https://rarirure.rip/wp-content/uploads/2023/12/スクリーンショット-2023-12-23-午後8.04.20-1024x237.png)
AWS SDK
![](https://rarirure.rip/wp-content/uploads/2023/12/スクリーンショット-2023-12-23-午後8.04.33-1024x457.png)
SRE として使えるか
今回は試しでアプリのトレースを使ってしまいますが、本来であれば LB のログなどを使う & 不正なリクエストなどは除外してください。
SLI: GET / + 80ms 以内
時系列グラフとして作成することができました。
![](https://rarirure.rip/wp-content/uploads/2023/12/スクリーンショット-2023-12-23-午前2.16.30-1024x474.png)
Datadog や Grafana のパネル UI のように操作することができます。
![](https://rarirure.rip/wp-content/uploads/2023/12/スクリーンショット-2023-12-23-午前2.21.21-1024x394.png)
現状の SLO を求めてみる
![](https://rarirure.rip/wp-content/uploads/2023/12/スクリーンショット-2023-12-23-午前2.21.37-1024x415.png)
時系列以外にもテキストも可能です。
![](https://rarirure.rip/wp-content/uploads/2023/12/スクリーンショット-2023-12-23-午前2.42.48-1024x422.png)
Target SLO に必要なもの
SLO の算出はできても先程の SLO の Time Frame はいくつでしょうか…?
答えは今、表示している期間です。
現状の SigNoz では Target を提供する機能がありません。
https://knowledgebase.signoz.io/t/creating-a-dashboard-for-sli-slo-in-signoz/2La0c
もしかしたら PromQL や ClickHouse 側で [30d] や [14d] などの時間範囲指定ができるかもしれませんが、現在この機能を実装しようとしてくださってるコミッターが居るようです。
https://github.com/SigNoz/signoz/issues/4016
アラート機能
アラート作成 UI は丁寧で、閾値がグラフ上に描画されたり、Alert Description には変数が埋め込めることができたり必要最低限もしくはそれ以上の機能があります。
![](https://rarirure.rip/wp-content/uploads/2023/12/スクリーンショット-2023-12-23-午前2.46.35-1024x415.png)
![](https://rarirure.rip/wp-content/uploads/2023/12/スクリーンショット-2023-12-23-午前2.46.57-1024x544.png)
![](https://rarirure.rip/wp-content/uploads/2023/12/スクリーンショット-2023-12-23-午前2.47.08-1024x300.png)
まとめ
SigNoz は APM やログ基盤、外形監視としても使えるし、日々アップデートが行われている点がとても良いです。
Datadog も New Relic も高いので気軽に APM を導入したい方は SigNoz、オススメです。