5.2.1.14.7. ドキュメントの変換(分割)¶
IBM Watson Document Conversionサービスで、各種ドキュメントから IBM Watson が識別可能なテキストデータを抽出するタスクです。
「ドキュメントの変換(文字列)」タスクとは異なり、文章の階層構造を考慮して抽出します。
- 入力値、出力値に関する詳細は、以下のAPIドキュメントを参照してください。
コラム
APIバージョンについて
このタスクで実行可能なDocument ConversionサービスのAPIバージョンは「2015-12-15」です。
5.2.1.14.7.1. プロパティ¶
項目名 | 必須/任意 | 型 | 初期値 | 説明 |
---|---|---|---|---|
エラーハンドリング | 任意 | flag | false | エラー発生時に処理を継続する場合は、チェックボックスをオンにします。 |
5.2.1.14.7.2. 入力値¶
im_watsonDocPostConvertDocumentUnits <object>
├─ config <object> *
│ ├─ conversionTarget <string> *
│ ├─ pdf <object>
│ │ └─ handling <object>
│ │ ├─ bold <boolean>
│ │ ├─ italic <boolean>
│ │ ├─ level <integer> *
│ │ ├─ maxSize <integer>
│ │ ├─ minSize <integer>
│ │ └─ name <string>
│ └─ word <object>
│ ├─ handling <object>
│ │ ├─ bold <boolean>
│ │ ├─ italic <boolean>
│ │ ├─ level <integer> *
│ │ ├─ maxSize <integer>
│ │ ├─ minSize <integer>
│ │ └─ name <string>
│ └─ styles <object>
│ ├─ level <integer> *
│ └─ names <string[]>
└─ file <binary> *
項目名 | 必須/任意 | 型 | 配列/リスト | 説明 |
---|---|---|---|---|
im_watsonDocPostConvertDocumentUnits | 任意 | object | なし | |
config | 必須 | object | なし | 抽出オプション |
conversionTarget | 必須 | string | なし | 出力するテキストデータの形式
指定可能な値は以下の通りです。
|
任意 | object | なし | 抽出する元データがPDFの場合に設定できるオプション | |
word | 任意 | object | なし | 抽出する元データがMS-WORDの場合に設定できるオプション |
handling | 任意 | object | なし | 抽出オプション |
styles | 任意 | object | なし | 抽出するスタイル |
bold | 任意 | boolean | なし | 太字かどうかを抽出する場合は true |
italic | 任意 | boolean | なし | 斜体かどうかを抽出する場合は true |
level | 条件付必須(※1) | integer | なし | 見出しレベルh1~h6を示す番号(1~6) |
maxSize | 任意 | integer | なし | 見出しレベルの最大フォントサイズ |
minSize | 任意 | integer | なし | 見出しレベルの最小フォントサイズ |
name | 任意 | string | なし | フォント名 |
names | 任意 | string | リスト | 見出しとみなすスタイル名の一覧 |
file | 必須 | binary | なし | テキストを抽出する元データ |
(※1)config/pdf/handling, config/word/handling, config/word/styles を指定する場合のみ必須。
5.2.1.14.7.3. 出力値¶
im_watsonDocPostConvertDocumentUnits <object>
├─ answerUnits <object[]>
│ ├─ content <object[]>
│ │ ├─ mediaType <string>
│ │ └─ text <string>
│ ├─ direction <string>
│ ├─ id <string>
│ ├─ parentId <string>
│ ├─ title <string>
│ └─ type <string>
├─ mediaTypeDetected <string>
├─ metadata <object[]>
│ ├─ content <string>
│ └─ name <string>
├─ sourceDocumentId <string>
├─ timestamp <calendar>
└─ warnings <object[]>
├─ description <string>
├─ phase <string>
└─ warningId <string>
項目名 | 型 | 配列/リスト | 説明 |
---|---|---|---|
im_watsonDocPostConvertDocumentUnits | string | なし | |
answerUnits | object | リスト | 分割単位 |
content | object | リスト | コンテンツ |
mediaType | string | なし | メディアタイプ |
text | string | なし | 抽出されたテキストデータ |
direction | string | なし | 記述方向
ltr または rtl
|
id | string | なし | 単位ID |
parentId | string | なし | 親の単位ID |
title | string | なし | タイトル |
type | string | なし | 種別 |
mediaTypeDetected | string | なし | 認識された元データのメディアタイプ |
metadata | object | リスト | メタデータの一覧 |
content | string | なし | メタデータの名称 |
name | string | なし | メタデータの値 |
sourceDocumentId | string | なし | 元データを示すユニークなID |
timestamp | calendar | なし | タイムスタンプ |
warnings | object | リスト | 警告情報 |
description | string | なし | 警告の詳細 |
phase | string | なし | 警告が生成された際の変換プロセスを示す文字列 |
warningId | string | なし | 警告ID |