intra-mart Accel Platform IM-LogicDesigner仕様書 第23版 2023-10-01

5.2.1.14.6. ドキュメントの変換(文字列)

IBM Watson Document Conversionサービスで、各種ドキュメントから IBM Watson が識別可能なテキストデータを抽出するタスクです。

入力値、出力値に関する詳細は、以下のAPIドキュメントを参照してください。

コラム

APIバージョンについて

このタスクで実行可能なDocument ConversionサービスのAPIバージョンは「2015-12-15」です。

5.2.1.14.6.1. プロパティ

項目名 必須/任意 初期値 説明
エラーハンドリング 任意 flag false エラー発生時に処理を継続する場合は、チェックボックスをオンにします。

5.2.1.14.6.2. 入力値

im_watsonDocPostConvertDocumentText <object>
  ├─ config <object> *
  │    ├─ conversionTarget <string> *
  │    ├─ normalizedHtml <object>
  │    │    ├─ excludeContent <map>
  │    │    ├─ excludeTagAttributes <string[]>
  │    │    ├─ excludeTagsCompletely <string[]>
  │    │    ├─ excludeTagsKeepContent <string[]>
  │    │    ├─ keepContent <map>
  │    │    └─ keepTagAttributes <string[]>
  │    ├─ pdf <object>
  │    │    └─ handling <object>
  │    │          ├─ bold <boolean>
  │    │          ├─ italic <boolean>
  │    │          ├─ level <integer> *
  │    │          ├─ maxSize <integer>
  │    │          ├─ minSize <integer>
  │    │          └─ name <string>
  │    └─ word <object>
  │          ├─ handling <object>
  │          │    ├─ bold <boolean>
  │          │    ├─ italic <boolean>
  │          │    ├─ level <integer> *
  │          │    ├─ maxSize <integer>
  │          │    ├─ minSize <integer>
  │          │    └─ name <string>
  │          └─ styles <object>
  │                ├─ level <integer> *
  │                └─ names <string[]>
  └─ file <binary> *
項目名 必須/任意 配列/リスト 説明
im_watsonDocPostConvertDocumentText 任意 object なし  
config 必須 object なし 抽出オプション
conversionTarget 必須 string なし
出力するテキストデータの形式
指定可能な値は以下の通りです。
  • normalized_text
  • normalized_html
normalizedHtml 任意 object なし 「conversionTarget」が normalized_html の場合に設定できる変換オプション
excludeContent 任意 map なし 変換されていないメインのコンテンツを識別する値
excludeTagAttributes 任意 string リスト
HTMLタグに含めない属性名の一覧
「keepTagAttributes」と排他指定です。
excludeTagsCompletely 任意 string リスト コンテンツから削除する対象のタグ一覧
excludeTagsKeepContent 任意 string リスト コンテンツから削除する対象のタグ一覧(コンテンツ内容は保持)
keepContent 任意 map なし コンテンツとして識別する対象
keepTagAttributes 任意 string リスト
HTMLタグに含める属性名の一覧
「excludeTagAttributes」と排他指定です。
pdf 任意 object なし 抽出する元データがPDFの場合に設定できるオプション
word 任意 object なし 抽出する元データがMS-WORDの場合に設定できるオプション
handling 任意 object なし 抽出オプション
styles 任意 object なし 抽出するスタイル
bold 任意 boolean なし 太字かどうかを抽出する場合は true
italic 任意 boolean なし 斜体かどうかを抽出する場合は true
level 条件付必須(※1) integer なし 見出しレベルh1~h6を示す番号(1~6)
maxSize 任意 integer なし 見出しレベルの最大フォントサイズ
minSize 任意 integer なし 見出しレベルの最小フォントサイズ
name 任意 string なし フォント名
names 任意 string リスト 見出しとみなすスタイル名の一覧
file 必須 binary なし テキストを抽出する元データ

(※1)config/pdf/handling, config/word/handling, config/word/styles を指定する場合のみ必須。

5.2.1.14.6.3. 出力値

im_watsonDocPostConvertDocumentText <string>
項目名 配列/リスト 説明
im_watsonDocPostConvertDocumentText string なし 抽出されたテキストデータ