intra-mart Accel Platform IM-LogicDesigner仕様書 第24版 2024-04-01

5.2.1.14.7. ドキュメントの変換(分割)

IBM Watson Document Conversionサービスで、各種ドキュメントから IBM Watson が識別可能なテキストデータを抽出するタスクです。
ドキュメントの変換(文字列)」タスクとは異なり、文章の階層構造を考慮して抽出します。
入力値、出力値に関する詳細は、以下のAPIドキュメントを参照してください。

コラム

APIバージョンについて

このタスクで実行可能なDocument ConversionサービスのAPIバージョンは「2015-12-15」です。

5.2.1.14.7.1. プロパティ

項目名 必須/任意 初期値 説明
エラーハンドリング 任意 flag false エラー発生時に処理を継続する場合は、チェックボックスをオンにします。

5.2.1.14.7.2. 入力値

im_watsonDocPostConvertDocumentUnits <object>
  ├─ config <object> *
  │    ├─ conversionTarget <string> *
  │    ├─ pdf <object>
  │    │    └─ handling <object>
  │    │          ├─ bold <boolean>
  │    │          ├─ italic <boolean>
  │    │          ├─ level <integer> *
  │    │          ├─ maxSize <integer>
  │    │          ├─ minSize <integer>
  │    │          └─ name <string>
  │    └─ word <object>
  │          ├─ handling <object>
  │          │    ├─ bold <boolean>
  │          │    ├─ italic <boolean>
  │          │    ├─ level <integer> *
  │          │    ├─ maxSize <integer>
  │          │    ├─ minSize <integer>
  │          │    └─ name <string>
  │          └─ styles <object>
  │                ├─ level <integer> *
  │                └─ names <string[]>
  └─ file <binary> *
項目名 必須/任意 配列/リスト 説明
im_watsonDocPostConvertDocumentUnits 任意 object なし  
config 必須 object なし 抽出オプション
conversionTarget 必須 string なし
出力するテキストデータの形式
指定可能な値は以下の通りです。
  • answer_units
pdf 任意 object なし 抽出する元データがPDFの場合に設定できるオプション
word 任意 object なし 抽出する元データがMS-WORDの場合に設定できるオプション
handling 任意 object なし 抽出オプション
styles 任意 object なし 抽出するスタイル
bold 任意 boolean なし 太字かどうかを抽出する場合は true
italic 任意 boolean なし 斜体かどうかを抽出する場合は true
level 条件付必須(※1) integer なし 見出しレベルh1~h6を示す番号(1~6)
maxSize 任意 integer なし 見出しレベルの最大フォントサイズ
minSize 任意 integer なし 見出しレベルの最小フォントサイズ
name 任意 string なし フォント名
names 任意 string リスト 見出しとみなすスタイル名の一覧
file 必須 binary なし テキストを抽出する元データ

(※1)config/pdf/handling, config/word/handling, config/word/styles を指定する場合のみ必須。

5.2.1.14.7.3. 出力値

im_watsonDocPostConvertDocumentUnits <object>
  ├─ answerUnits <object[]>
  │    ├─ content <object[]>
  │    │    ├─ mediaType <string>
  │    │    └─ text <string>
  │    ├─ direction <string>
  │    ├─ id <string>
  │    ├─ parentId <string>
  │    ├─ title <string>
  │    └─ type <string>
  ├─ mediaTypeDetected <string>
  ├─ metadata <object[]>
  │    ├─ content <string>
  │    └─ name <string>
  ├─ sourceDocumentId <string>
  ├─ timestamp <calendar>
  └─ warnings <object[]>
        ├─ description <string>
        ├─ phase <string>
        └─ warningId <string>
項目名 配列/リスト 説明
im_watsonDocPostConvertDocumentUnits string なし  
answerUnits object リスト 分割単位
content object リスト コンテンツ
mediaType string なし メディアタイプ
text string なし 抽出されたテキストデータ
direction string なし
記述方向
ltr または rtl
id string なし 単位ID
parentId string なし 親の単位ID
title string なし タイトル
type string なし 種別
mediaTypeDetected string なし 認識された元データのメディアタイプ
metadata object リスト メタデータの一覧
content string なし メタデータの名称
name string なし メタデータの値
sourceDocumentId string なし 元データを示すユニークなID
timestamp calendar なし タイムスタンプ
warnings object リスト 警告情報
description string なし 警告の詳細
phase string なし 警告が生成された際の変換プロセスを示す文字列
warningId string なし 警告ID