Getting Data In

圧縮ファイルをmonitoringしていると重複イベントがインデックスされる

cwl
Contributor

Splunk 6.2.3を使い、複数ディレクトリ内にある複数のgzファイルをmonitoringしていますが、このSplunkインスタンスを再起動すると既にインデックス済みのgzファイルの内容がもう一度インデックスされてしまいます。回避策や原因が分かる方いらっしゃいますか?

1 Solution

cwl
Contributor

ArchiveProcessorがgzファイルを読み込んでいる最中にSplunkを再起動すると、重複したイベントがインデックスされる可能性があります。回避策としては、gzファイルを解凍した状態でmonitoringすることです。

View solution in original post

cwl
Contributor

ArchiveProcessorがgzファイルを読み込んでいる最中にSplunkを再起動すると、重複したイベントがインデックスされる可能性があります。回避策としては、gzファイルを解凍した状態でmonitoringすることです。

cwl
Contributor

もうちょっと詳しく説明しますと、圧縮ファイルの全体を読み込み、parsingQueueに渡すまでArchiveProcessorはfishbucketにレコードを追加しないので、ArchiveProcessorが圧縮ファイルを読み込んでいる最中にSplunkを再起動すると、fishbucketにレコードが追加されなかった圧縮ファイルの内容が再インデックスされてしまいます。

0 Karma

darrenfuller
Contributor

the data will not be reindexed on restart. Splunk keeps track of the files it has imported into the system and this tracking survives restart

0 Karma

darrenfuller
Contributor

Splunk will keep track of the files it has already indexed, restarting the system will not cause the data to be re-indexed.

0 Karma
Get Updates on the Splunk Community!

.conf24 | Registration Open!

Hello, hello! I come bearing good news: Registration for .conf24 is now open!   conf is Splunk’s rad annual ...

ICYMI - Check out the latest releases of Splunk Edge Processor

Splunk is pleased to announce the latest enhancements to Splunk Edge Processor.  HEC Receiver authorization ...

Introducing the 2024 SplunkTrust!

Hello, Splunk Community! We are beyond thrilled to announce our newest group of SplunkTrust members!  The ...