Splunk Hunk(Splunk Analytics for Hadoop) Ver6.6.1、Hadoop2.5.0(Namenode×1、Datanode×1)という構成の環境において
以下のようなserchを実行すると、非常に時間がかかる事象が発生しています。
index=conn | stats count, sum(orig_ip_bytes) as sum_orig_ip_bytes, sum(resp_ip_bytes) as sum_resp_ip_bytes by id_orig_h, id_resp_h
search.logには以下のような文字列が繰り返し出力されているだけで、止まっているように見受けられます。
10-18-2017 16:28:07.359 INFO SortOperator - using maxfiles=64
10-18-2017 16:28:14.592 INFO DispatchThread - Generating results preview took 7236 ms
10-18-2017 16:52:34.795 INFO SortOperator - maxmem = 209715200
実行速度を速くするためのチューニング方法がありましたら、ご教示いただきたいです。
Hunkでよくあるサーチが遅い問題としては以下の2点があります。
サーチは「スマートモード」ではなく、「詳細モード」で実行されている場合、Hadoop側のMR jobは使われないので、遅くなります。一度「スマートモード」で実行してみてください。
Hadoopに保存されている検索対象のファイルは、日付フォルダ毎(例:/data/conn/2017/10/01, /data/conn/2017/10/02)に分けて保存されている場合はサーチはより速くなります。なぜなら、indexes.conf内の「vix.input.1.et.regex」や「vix.input.1.et.format」などの設定で不要なファイルは検索対象から外せることができるためです。「vix.input.1.et.regex」や「vix.input.1.et.format」などの詳細についてはlink textを参照してください。
また、英語になってしまいますが、.conf 2015の資料の中では、Hunkのパフォーマンスチューニングについての良いドキュメントがありますので、是非参考してみてください。
http://conf.splunk.com/session/2015/conf2015_RDagan_Splunk_BigData_HUNKPerformanceandTroubleshooting...
ご回答いただき誠にありがとうございます。
1についてですが、「高速モード」を使用しておりました。
「スマートモード」で実行したところ、速度が劇的に早くなることが確認できました。
2についてですが、こちらはご教示いただいたディレクトリ構成にしておりますので、問題ないかと思います。
また、パフォーマンスチューニングドキュメントについても参考にさせていただきます。
ご回答誠にありがとうございます。
1のモードは「詳細モード」を使用しております。
スマートモードで実行したところ、長時間実行(もしくはHungした状態)とならずに改善することが確認できました。
2についてですが、こちらはご教示いただいたディレクトリ構成のように設定しておりますので、問題ないかと思われます。
また、パフォーマンスチューニングのドキュメントについても参考にさせていただきます。
訂正:Datanode×1
→Datanode×10です。