Zabbix Conference Japan 2015に行ってきました。
Webページはこちらです。 Zabbixは3年ぐらいの使用歴。今は2.4.7で運用中。
【オープニングスピーチ: Welcome to Zabbix Conference Japan 2015!】
同時通訳ではないが、ウラジシェフの英語は聞きやすいです。 本国のカンファレンス内容のフィードバックをTISのセミナーで聞いており、目新しいことはないので事例に着目。
LimeLightNetwork
- ヒストリは20GB/日
1000000以上の監視項目、1TB以上のデータベースサイズを持つ事例の95%以上がMySQL or PostgreSQL
-
- 2000000監視項目、10倍のトリガ、6TBヒストリ、プロキシで40拠点の監視。→21000NVPS出ます!
- これを1台のZABBIXサーバで処理できる。
マグネット(ロシア語なので入力できない)
監視対象 | 監視項目 | トリガ | プロキシ | |
---|---|---|---|---|
LimeLight | 25K | 6M | 3M | 45 |
ICANN | 60K | 2M | 20M | 400 |
マグネット | 200K | 6M | 2M | 11M |
どの事例もZabbixサーバは1台で運用しているとのことでした。
●Zabbix3.0の新機能
- 暗号化と認証
- フロントエンドUIの改良
- 予測機能
●Zabbix3.0の開発状況
- 現在、リリースしてるのはα4(not β)
- まだ全ての機能は入っていない…
ウラジシェフから、「よいことは待つ甲斐がある」との言葉がw
●3.0へのアップグレード
- エージェントは下位互換性があるので問題ない
- プロキシはメジャーバージョンをそろえる必要がある
- データベース構造は自動アップデート
- ヒストリテーブルには影響なし
- APIの互換性は高い
【Zabbix で PostgreSQL を監視! pg_monz のご紹介】
pg_monzの話は何度も聞いているのでメモなし。
Zabbix3.0のリリースに向けて、機能追加の予定ありとのことでした。
【NTTコミュニケーションズのクラウドサービスEnterprise Cloud の運用を支えるCIPMによるクラウド基盤の性能監視の紹介と大規模監視における次期Zabbixへ期待 】
BHECの監視のために、Zabbixを組み込んだクラウド基盤の監視ツールとしてCIPM(Cloud Infrastructure Performanced Monitor)を開発。
15分間に1回、マップ生成などを行っています。
●次期Zabbixへの期待
- マルチタグによるグルーピングの柔軟化と階層構造への対応
- トポロジー情報によるマップ作成の自動化
- ヒストリ情報のコンパクト化とトレンドの別DBへの分離
- マルチテナントと顧客情報連携
- ZabbixServerのクラスタ化
【ZabbixにおけるDocker監視の魅力とは】
- ディスクスペースはStorageDriverごとに取得する必要がある。
- docker execで実行したりするとdockerサーバの負荷があがる。
- コンテナ再起動でIPが変わったり、再作成でホスト名が変わったりする。
結論:ホストにZabbixエージェントを入れて統合監視する方がベター
●コンセプト
- コンテナへエージェントをインストールしない
- コンテナが起動されたら、自動で監視下に入る
コンテナが削除されると自動で登録情報も削除
/var/lib/dockerからコンテナ一覧を取得
- cgroupからCPU、メモリなどの使用状況を取得
- LLDで読めるJSONを生成
- zabbix_senderで送信
上記のコンセプトで作り込もうと思ったが、 zabbix shareでdockerで検索したところ、すでに公開されているものがあり、性能的にも負けていたのでそちらを使うようにしました。とのお話。
●まとめ
- ライフサイクルの早いアイテム収集にLLDは非常に効果的
- 類似するものがないか、zabbix shareで検索してからにしよう!
こんなの↓やってます!という宣伝がありました。 http://techcircle.connpass.com/
早速、登録させていただきました。
【Zabbixをコアとしたソリューションによる運用監視と今後の取り組み】
寺島代表のお話。 冒頭で、まだ現役エンジニアです。RPM/DEBパッケージは私がメンテナンスしています!というお言葉が。
恥ずかしながら知りませんでしたorz
日本での大規模事例は1000~3000台程度ですが、ウラジシェフの話にもあった通り、数万台でも全く問題ないです。
むしろ、ホストの設定などの手作業で死にます。
エージェントのアップデートの手間で死にます。
- ZabbixのUIはクリックが多い、という声が多い。
- APIライブラリとトレーニングの提供を始めました。
ずっと公開するする詐欺状態だった、グローバルダッシュボードを一部ユーザ向けに公開します。
- 本日の参加者に評価権限を付与しておきます。
3.0の目玉機能である「ユーザごとのスクリーン/マップ共有機能」がまだ開発中です。
- これが完成したらβリリースにします。
仮想アプライアンスをテストリリースする予定
Zabbix3.2以降に向けて
- 実装して欲しい改善や機能ないですか?
- 日本からは数件しか登録されていません…
- 海外から開発サービスの依頼が5件も来ているので、ほぼ追加機能はFIX…
とりあえず今日は懇親会参加証の裏に機能のリクエストをお願いします。
- ZabbixJapanから本社へ要望をあげます。
- Zabbix4.0までの実装を目指していきます。
- ジョブ管理とか大きいのはやめてー(笑)
【クックパッドのサービスを支える監視システムとしてのZabbix】
- 1000台以上のサーバ
- アイテム数20万弱
- 2000NVPS
- 5万トリガ
この規模ですが、Zabbixサーバは1台だけで運用してます!
●導入経緯
- 以前はNagios+Munin
- Zabbixにした理由
- 台数が増えるとポーリングが遅くなった
- Zabbixはエージェントから送信。
- グラフの描画データが数時間前。
- Zabbixは都度描画
- Nagios:死活監視、Munin:性能監視で組み合わせて使用
- Zabbixは死活監視と性能監視が同時にできる
- 台数が増えるとポーリングが遅くなった
●導入後の開発
【Zabbixパートナー会の取り組みとZabbix 3.0の新機能】
ログ監視アイテムのデータ型を数値にすることができるようになった。
- ログ出力の一部に%値などが含まれる場合に切り取って保存→グラフ描画、ができるようになった。
デバッグログレベル=5が追加された
- 心して設定してください
予測とは魔法ではない。一般的には「統計」である。
- 世の中には3つの嘘がある。単なる嘘、たちの悪い嘘、統計に基づく嘘だ。
という文章と文書を並べたスライドを表示して、この偉人を知っていますか?という問いかけがありましたが、写真は予測機能を実装したZabbix社員でしたw
- 予測機能はユーザがデータの傾向を把握して、「適切なモデル関数」を選ぶ必要があります。
- Zabbixが勝手に予測してアラートをあげる、などという過剰な夢を見てはいけません。
【ZabbixでIoT/OpenBlocks IoTで簡単にセンサー活用する方法】
Zabbixというか、ほぼAWS IoTの話だったような…
【データセンター運用監視にZabbixを活用した事例のご紹介】
http://www.miyagin-cs.com/index.html
自社のDC事業で効果があったので、親会社である宮崎銀行にもZabbixを使ったネットワーク監視システムを提案。採用される予定です。
【障害対応・運用のトリアージ的対応とZabbixの活用】
@zembutsu さんのお話。
いきなり「みなさん障害対応って好きですか?」とぶっ込み。
- トリガのおかげで状況の把握が楽になった。
イベントの依存関係をきちんと定義すると楽になった。
水田の温度管理の話はまたどこかで。Dockerだけに。
話に引き込まれてしまってメモは…
【ジョブ管理(JobScheduler)と監視(Zabbix)の融合による効果 -HyClops JobMonitoring紹介-】
https://twitter.com/ike_daiさんのお話。
HyClops、JobSchedulerはTIS様のセミナーでも聞いたことがあるのでメモとらなかった。
おわり
最後の2コマが@zembutsuさん、@ike_daiさんのお話だったので疲れかけていた時間帯にも関わらず、テンションあげられてしまいました。
さらに懇親会にも参加させていただいたのですが、なんとスペシャリストコースのクーポン(15万円!)が当たってしまいました。 会社に研修のお伺いを立てていたところなので、ありがたく使わせていただくことにします。会社からグダグダ言われたくないし。 あとは有効期間内に3.0がリリースされて、コースが3.0対応になってくれることを祈ってますw
グループ会社内のサーバ監視が仕事になりそうなので、そうなった暁にはZabbixを猛プッシュしたいと思っています。