intra-mart Accel Platform IM-ContentsSearch for IM-Workflow 仕様書 第2版 2017-08-01

4. クローラの種類と仕様

4.1. 共通仕様

ジョブスケジューラ機能のジョブとして以下のジョブを提供しています。

  • ワークフロークローラ

4.1.1. 最終クロール日時

ワークフロークローラでは、処理が正常終了した場合にクローラの最終実行日時をファイルに保存します。
差分クローリング実行時にはこのファイルを参照し、前回の実行日時より後にコンテンツの登録・更新対象となった案件を抽出します。
日時のフォーマットは “yyyy-MM-dd HH:mm:ss” です。

最終クロール日時を保存するファイルは、クローラジョブの初回正常終了時にPublicStorageの以下のディレクトリに保存されます。

  • %PUBLIC_STORAGE_PATH%/products/im_contents_search/store/%テナントID%/last_crawling_date/workflow.json

ただし、削除クローリングが実行された場合、最終クロール日時は “2000-01-01 00:00:00” に初期化されます。

コラム

初回実行時の動作仕様

初期状態の場合、最終クロール日時を保存するファイルは存在していません。
この場合、既定値として”2000年1月1日0時0分0秒”を最終クロール日時として動作する仕様です。
初回実行時の最終クロール日時を明示的に指定したい場合は、上記の「workflow.json」ファイルを作成し、任意の日時を上記の日時フォーマットにて設定してください。
  • 「workflow.json」ファイルの設定例
    {
        "workflow": "2014-09-01 00:00:00"
    }
    

4.2. [ ジョブ ] ワークフロークローラ

IM-Workflow のコンテンツの差分クローリングと削除クローリング、再作成クローリングを行うジョブです。

ジョブカテゴリ IM-ContentsSearch クローラ
ジョブID workflow-crawler
ジョブ名 ワークフロークローラ

ワークフロージョブは標準で以下のジョブネットにより登録されています。

  • 差分クローリング(ジョブネットID: crawler-delta-jobnet)
ワークフロークローラの差分クローリングを実行します。
  • 削除クローリング(ジョブネットID: crawler-delete-jobnet)
ワークフロークローラの削除クローリングを実行します。
  • 再作成クローリング(ジョブネットID: crawler-reindex-jobnet)
ワークフロークローラの削除クローリングを実行後に、差分クローリングを実行します。

4.2.1. [ ジョブネット ] 差分クローリング

  • 差分クローリング実行時の登録・更新対象
差分クローリング実行時にコンテンツの登録・更新の対象となる案件の条件は以下の通りです。
最終クロール日時以降で以下のいずれかの条件を1つでも満たす案件について、コンテンツの登録、または更新が行われます。
  • 申請または処理が行われた案件
  • 完了した案件
  • アーカイブが行われた案件
  • 差分クローリング実行時の実行パラメータ

差分クローリング実行時には、差分クローリングのジョブネット、および、ワークフロークローラのジョブ情報に設定されている以下の実行パラメータが利用されます。

キー 説明
crawlingType クローラの動作タイプを設定します。”DELTA”である場合のみ差分クローリングが動作します。
groupName 処理対象とする検索サーバグループIDを指定します。
maxSegments 最適化の度合いを設定します。
withCommit 処理終了時に更新データを確定するかを設定します。
withOptimize 処理終了時にデータの最適化をするかを設定します。

4.2.2. [ ジョブネット ] 削除クローリング

ワークフロークローラが作成したコンテンツをすべて削除します。

  • 削除クローリング実行時の実行パラメータ

削除クローリング実行時には、削除クローリングのジョブネット、および、ワークフロークローラのジョブ情報に設定されている以下の実行パラメータが利用されます。

キー 説明
crawlingType クローラの動作タイプを設定します。”DELETE”である場合のみ削除クローリングは動作します。
groupName 処理対象とする検索サーバグループIDを指定します。
maxSegments 最適化の度合いを設定します。
withCommit 処理終了時に更新データを確定するかを設定します。
withOptimize 処理終了時にデータの最適化をするかを設定します。

4.2.3. [ ジョブネット ] 再作成クローリング

ワークフロークローラが作成したコンテンツを一旦すべて削除し、再度登録します。

  • 再作成クローリング実行時の実行パラメータ

再作成クローリング実行時には、再作成クローリングのジョブネット、および、ワークフロークローラのジョブ情報に設定されている以下の実行パラメータが利用されます。

キー 説明
crawlingType クローラの動作タイプを設定します。”REINDEX”である場合のみ再作成クローリングは動作します。
groupName 処理対象とする検索サーバグループIDを指定します。
maxSegments 最適化の度合いを設定します。
withCommit 処理終了時に更新データを確定するかを設定します。
withOptimize 処理終了時にデータの最適化をするかを設定します。