Accel Archiver IM-ContentsSearch for Accel Archiver 仕様書 第3版 2021-08-01

クローラの種類

Accel Archiverクローラ

intra-mart Accel Archiver のコンテンツの差分クローリングと削除クローリングと再作成クローリングを行うジョブです。

ジョブカテゴリ IM-ContentsSearch クローラ
ジョブID wdc-crawler
ジョブ名 Accel Archiverクローラ

Accel Archiverクローラジョブは以下のジョブネットに登録されています。

  • 差分クローリング(ジョブネットID: crawler-delta-jobnet)
  • 削除クローリング(ジョブネットID: crawler-delete-jobnet)
  • 再作成クローリング(ジョブネットID: crawler-reindex-jobnet)

クローラ仕様

最終クロール日時

Accel Archiverクローラでは、処理が正常終了した場合にクローラの最終実行日時をファイルに保存します。
差分クローリング実行時にはこのファイルを参照し、前回の実行日時より後にコンテンツの登録・更新対象となったドキュメントを抽出します。
日時のフォーマットは “yyyy-MM-dd HH:mm:ss” です。
最終クロール日時を保存するファイルは、クローラジョブの初回正常終了時にPublicStorageの以下のディレクトリに保存されます。
  • %PUBLIC_STORAGE_PATH%/products/im_contents_search/store/%テナントID%/last_crawling_date/wdc.json
ただし、削除クローリングが実行された場合、最終クロール日時は “2000-01-01 00:00:00” に初期化されます。

初回実行時の動作仕様

初期状態の場合、最終クロール日時を保存するファイルは存在していません。
この場合、既定値として”2000年1月1日0時0分0秒”を最終クロール日時として動作します。
初回実行時の対象日時を明示的に指定したい場合は、上記ファイルを作成して対象日時を上記の日時フォーマットにて設定してください。

クローリング

差分クローリング

差分クローリング実行時の登録・更新対象

差分クローリング実行時にコンテンツの登録・更新の対象となるドキュメントの条件は、最終クロール日時以降で、登録、編集または削除されたものです。

差分クローリング実行時の実行パラメータ

差分クローリング実行時には差分クローリングのジョブネット、および、Accel Archiverクローラのジョブ情報に設定されている以下の実行パラメータが利用されます。
キー 説明
crawlingType クローラの動作タイプを設定します。”DELTA”である場合のみ差分クローリングは動作します。
groupName 処理対象とする検索サーバグループIDを指定します。
maxSegments 最適化の度合いを設定します。
withCommit 処理終了時に更新データを確定するかを設定します。
withOptimize 処理終了時にデータの最適化をするかを設定します。

削除クローリング

Accel Archiverクローラが作成したコンテンツをすべて削除します。

削除クローリング実行時の実行パラメータ

削除クローリング実行時には削除クローリングのジョブネット、および、Accel Archiverクローラのジョブ情報に設定されている以下の実行パラメータが利用されます。
キー 説明
crawlingType クローラの動作タイプを設定します。”DELETE”である場合のみ削除クローリングは動作します。
groupName 処理対象とする検索サーバグループIDを指定します。
maxSegments 最適化の度合いを設定します。
withCommit 処理終了時に更新データを確定するかを設定します。
withOptimize 処理終了時にデータの最適化をするかを設定します。

再作成クローリング

Accel Archiverクローラが作成したコンテンツをすべて削除し、作成対象のドキュメントのコンテンツを再度登録します。

再作成クローリング実行時の実行パラメータ

再作成クローリング実行時には再作成クローリングのジョブネット、および、Accel Archiverクローラのジョブ情報に設定されている以下の実行パラメータが利用されます。
キー 説明
crawlingType クローラの動作タイプを設定します。”REINDEX”である場合のみ再作成クローリングは動作します。
groupName 処理対象とする検索サーバグループIDを指定します。
maxSegments 最適化の度合いを設定します。
withCommit 処理終了時に更新データを確定するかを設定します。
withOptimize 処理終了時にデータの最適化をするかを設定します。