クローラの種類¶
共通仕様¶
ジョブスケジューラ機能のジョブとして以下の2つのジョブを提供しています。
- IMBoxクローラ
- IMBox全件対象クローラ
最終クロール日時¶
IMBoxクローラとIMBox全件対象クローラでは、処理が正常終了した場合にクローラの最終実行日時をファイルに保存します。差分クローリング実行時にはこのファイルを参照し、前回の実行日時より後にコンテンツの登録・更新対象となったスレッドを抽出します。日時のフォーマットは “yyyy-MM-dd HH:mm:ss” です。最終クロール日時を保存するファイルは、クローラジョブの初回正常終了時にPublicStorageの以下のディレクトリに保存されます。
- %PUBLIC_STORAGE_PATH%/products/im_contents_search/store/%テナントID%/last_crawling_date/imbox.json
ただし、削除クローリングが実行された場合、最終クロール日時は “2000-01-01 00:00:00” に初期化されます。
初回実行時の動作仕様
初期状態の場合、最終クロール日時を保存するファイルは存在していません。この場合、既定値として”2000年1月1日0時0分0秒”を最終クロール日時として動作する仕様です。初回実行時の対象日時を明示的に指定したい場合は、上記ファイルを作成して対象日時を上記の日時フォーマットにて設定してください。
IMBoxクローラ¶
IMBoxのコンテンツの差分クローリングと削除クローリングを行うジョブです。
ジョブカテゴリ IM-ContentsSearch クローラ ジョブID imbox-crawler ジョブ名 IMBoxクローラ IMBoxクローラジョブは標準で以下のジョブネットにより登録されています。
- 差分クローリング(ジョブネットID: crawler-delta-jobnet)
差分クローリングのジョブネットが実行されたとき、IMBoxクローラの差分クローリングが実行されます。
- 削除クローリング(ジョブネットID: crawler-delete-jobnet)
削除クローリングのジョブネットが実行されたとき、IMBoxクローラの削除処理が実行されます。
差分クローリング¶
差分クローリング実行時の登録・更新対象
差分クローリング実行時にコンテンツの登録・更新の対象となるスレッドの条件は以下の通りです。最終クロール日時以降で以下のいずれかの条件を1つでも満たすスレッドについて、コンテンツの登録または更新が行われます。
- メッセージが投稿、編集または削除されたスレッド
- タグが追加または削除されたスレッド
- 宛先追加が行われたDirectMessageBoxのスレッド
- 公開先会社が追加された公開グループ内の全スレッド
- ユーザが新たに参加(招待、および、申請の承認を含む)した非公開グループ内の全スレッド
- ユーザが離脱または除名された非公開グループ内の全スレッド
差分クローリング実行時の実行パラメータ
差分クローリング実行時には差分クローリングのジョブネット、および、IMBoxクローラのジョブ情報に設定されている以下の実行パラメータが利用されます。
キー 説明 crawlingType クローラの動作タイプを設定します。”DELTA”である場合のみ差分クローリングは動作します。 groupName 処理対象とする検索サーバグループIDを指定します。 maxSegments 最適化の度合いを設定します。 updateCount Solrサーバへのコミット1回あたりに登録するコンテンツの件数 withCommit 処理終了時に更新データを確定するかを設定します。 withOptimize 処理終了時にデータの最適化をするかを設定します。 注意
updateCountの数値が大きい場合、Solrサーバへのコミット1回あたりに登録するコンテンツの件数が増加するため、Solrサーバへの負荷が高くなりパフォーマンスに影響があります。
削除クローリング¶
IMBoxクローラ、IMBox全件対象クローラが作成したコンテンツをすべて削除します。
削除クローリング実行時の実行パラメータ
削除クローリング実行時には削除クローリングのジョブネット、および、IMBoxクローラのジョブ情報に設定されている以下の実行パラメータが利用されます。
キー 説明 crawlingType クローラの動作タイプを設定します。”DELETE”である場合のみ削除処理は動作します。 groupName 処理対象とする検索サーバグループIDを指定します。 maxSegments 最適化の度合いを設定します。 withCommit 処理終了時に更新データを確定するかを設定します。 withOptimize 処理終了時にデータの最適化をするかを設定します。
IMBox全件対象クローラ¶
IMBoxでのコンテンツ作成対象となっている全スレッドの索引化を行うジョブです。
ジョブカテゴリ IMBox ジョブID imbox-all-crawler ジョブ名 IMBox全件対象クローラ IMBox全件対象クローラは標準で以下のジョブネットにより登録されています。
- 再作成クローリング(ジョブネットID: crawler-reindex-jobnet)
- IMBox全件対象クローラ(ジョブネットID: imbox-jobnet-all-crawler)
全件作成・再作成処理¶
IMBoxでのコンテンツ作成対象のコンテンツ情報を全件削除してから、全スレッドの索引化を実行します。再作成クローリングとIMBox全件対象クローラのジョブネットで実行されるIMBox全件対象クローラジョブの処理に違いはありません。IMBox全件対象クローラ実行時の実行パラメータ
IMBox全件対象クローラ実行時にはジョブネット、および、ジョブ情報に設定されている以下の実行パラメータが利用されます。
キー 説明 groupName 処理対象とする検索サーバグループIDを指定します。 maxSegments 最適化の度合いを設定します。 queryRangeCount 一度のアクセスでCassandraのメッセージカラムファミリーから取得するデータの件数を設定します。 withCommit 処理終了時に更新データを確定するかを設定します。 withOptimize 処理終了時にデータの最適化をするかを設定します。