5.2.1.14.7. ドキュメントの変換（分割）¶

IBM Watson Document Conversionサービスで、各種ドキュメントから IBM Watson が識別可能なテキストデータを抽出するタスクです。

「ドキュメントの変換（文字列）」タスクとは異なり、文章の階層構造を考慮して抽出します。

入力値、出力値に関する詳細は、以下のAPIドキュメントを参照してください。

Document Conversion API Reference - IBM Watson Developer Cloud

コラム

APIバージョンについて

このタスクで実行可能なDocument ConversionサービスのAPIバージョンは「2015-12-15」です。

5.2.1.14.7.1. プロパティ¶

項目名	必須/任意	型	初期値	説明
エラーハンドリング	任意	flag	false	エラー発生時に処理を継続する場合は、チェックボックスをオンにします。

5.2.1.14.7.2. 入力値¶

im_watsonDocPostConvertDocumentUnits <object>
  ├─ config <object> *
  │    ├─ conversionTarget <string> *
  │    ├─ pdf <object>
  │    │    └─ handling <object>
  │    │          ├─ bold <boolean>
  │    │          ├─ italic <boolean>
  │    │          ├─ level <integer> *
  │    │          ├─ maxSize <integer>
  │    │          ├─ minSize <integer>
  │    │          └─ name <string>
  │    └─ word <object>
  │          ├─ handling <object>
  │          │    ├─ bold <boolean>
  │          │    ├─ italic <boolean>
  │          │    ├─ level <integer> *
  │          │    ├─ maxSize <integer>
  │          │    ├─ minSize <integer>
  │          │    └─ name <string>
  │          └─ styles <object>
  │                ├─ level <integer> *
  │                └─ names <string[]>
  └─ file <binary> *

項目名	必須/任意	型	配列/リスト	説明
im_watsonDocPostConvertDocumentUnits	任意	object	なし
config	必須	object	なし	抽出オプション
conversionTarget	必須	string	なし	出力するテキストデータの形式指定可能な値は以下の通りです。 `answer_units`
pdf	任意	object	なし	抽出する元データがPDFの場合に設定できるオプション
word	任意	object	なし	抽出する元データがMS-WORDの場合に設定できるオプション
handling	任意	object	なし	抽出オプション
styles	任意	object	なし	抽出するスタイル
bold	任意	boolean	なし	太字かどうかを抽出する場合は `true`
italic	任意	boolean	なし	斜体かどうかを抽出する場合は `true`
level	条件付必須（※1）	integer	なし	見出しレベルh1～h6を示す番号（1～6）
maxSize	任意	integer	なし	見出しレベルの最大フォントサイズ
minSize	任意	integer	なし	見出しレベルの最小フォントサイズ
name	任意	string	なし	フォント名
names	任意	string	リスト	見出しとみなすスタイル名の一覧
file	必須	binary	なし	テキストを抽出する元データ

（※1）config/pdf/handling, config/word/handling, config/word/styles を指定する場合のみ必須。

5.2.1.14.7.3. 出力値¶

im_watsonDocPostConvertDocumentUnits <object>
  ├─ answerUnits <object[]>
  │    ├─ content <object[]>
  │    │    ├─ mediaType <string>
  │    │    └─ text <string>
  │    ├─ direction <string>
  │    ├─ id <string>
  │    ├─ parentId <string>
  │    ├─ title <string>
  │    └─ type <string>
  ├─ mediaTypeDetected <string>
  ├─ metadata <object[]>
  │    ├─ content <string>
  │    └─ name <string>
  ├─ sourceDocumentId <string>
  ├─ timestamp <calendar>
  └─ warnings <object[]>
        ├─ description <string>
        ├─ phase <string>
        └─ warningId <string>

項目名	型	配列/リスト	説明
im_watsonDocPostConvertDocumentUnits	string	なし
answerUnits	object	リスト	分割単位
content	object	リスト	コンテンツ
mediaType	string	なし	メディアタイプ
text	string	なし	抽出されたテキストデータ
direction	string	なし	記述方向 `ltr` または `rtl`
id	string	なし	単位ID
parentId	string	なし	親の単位ID
title	string	なし	タイトル
type	string	なし	種別
mediaTypeDetected	string	なし	認識された元データのメディアタイプ
metadata	object	リスト	メタデータの一覧
content	string	なし	メタデータの名称
name	string	なし	メタデータの値
sourceDocumentId	string	なし	元データを示すユニークなID
timestamp	calendar	なし	タイムスタンプ
warnings	object	リスト	警告情報
description	string	なし	警告の詳細
phase	string	なし	警告が生成された際の変換プロセスを示す文字列
warningId	string	なし	警告ID

目次

5.2.1.14.7. ドキュメントの変換（分割）¶

5.2.1.14.7.1. プロパティ¶

5.2.1.14.7.2. 入力値¶

5.2.1.14.7.3. 出力値¶

目次