Getting Data In

圧縮ファイルをmonitoringしていると重複イベントがインデックスされる

cwl
Contributor

Splunk 6.2.3を使い、複数ディレクトリ内にある複数のgzファイルをmonitoringしていますが、このSplunkインスタンスを再起動すると既にインデックス済みのgzファイルの内容がもう一度インデックスされてしまいます。回避策や原因が分かる方いらっしゃいますか?

1 Solution

cwl
Contributor

ArchiveProcessorがgzファイルを読み込んでいる最中にSplunkを再起動すると、重複したイベントがインデックスされる可能性があります。回避策としては、gzファイルを解凍した状態でmonitoringすることです。

View solution in original post

cwl
Contributor

ArchiveProcessorがgzファイルを読み込んでいる最中にSplunkを再起動すると、重複したイベントがインデックスされる可能性があります。回避策としては、gzファイルを解凍した状態でmonitoringすることです。

cwl
Contributor

もうちょっと詳しく説明しますと、圧縮ファイルの全体を読み込み、parsingQueueに渡すまでArchiveProcessorはfishbucketにレコードを追加しないので、ArchiveProcessorが圧縮ファイルを読み込んでいる最中にSplunkを再起動すると、fishbucketにレコードが追加されなかった圧縮ファイルの内容が再インデックスされてしまいます。

0 Karma

darrenfuller
Contributor

the data will not be reindexed on restart. Splunk keeps track of the files it has imported into the system and this tracking survives restart

0 Karma

darrenfuller
Contributor

Splunk will keep track of the files it has already indexed, restarting the system will not cause the data to be re-indexed.

0 Karma
Get Updates on the Splunk Community!

Welcome to the Splunk Community!

(view in My Videos) We're so glad you're here! The Splunk Community is place to connect, learn, give back, and ...

Tech Talk | Elevating Digital Service Excellence: The Synergy of Splunk RUM & APM

Elevating Digital Service Excellence: The Synergy of Real User Monitoring and Application Performance ...

Adoption of RUM and APM at Splunk

    Unleash the power of Splunk Observability   Watch Now In this can't miss Tech Talk! The Splunk Growth ...