5.2.1.14.6. ドキュメントの変換(文字列)¶
IBM Watson Document Conversionサービスで、各種ドキュメントから IBM Watson が識別可能なテキストデータを抽出するタスクです。
- 入力値、出力値に関する詳細は、以下のAPIドキュメントを参照してください。
コラム
APIバージョンについて
このタスクで実行可能なDocument ConversionサービスのAPIバージョンは「2015-12-15」です。
5.2.1.14.6.1. プロパティ¶
項目名 | 必須/任意 | 型 | 初期値 | 説明 |
---|---|---|---|---|
エラーハンドリング | 任意 | flag | false | エラー発生時に処理を継続する場合は、チェックボックスをオンにします。 |
5.2.1.14.6.2. 入力値¶
im_watsonDocPostConvertDocumentText <object>
├─ config <object> *
│ ├─ conversionTarget <string> *
│ ├─ normalizedHtml <object>
│ │ ├─ excludeContent <map>
│ │ ├─ excludeTagAttributes <string[]>
│ │ ├─ excludeTagsCompletely <string[]>
│ │ ├─ excludeTagsKeepContent <string[]>
│ │ ├─ keepContent <map>
│ │ └─ keepTagAttributes <string[]>
│ ├─ pdf <object>
│ │ └─ handling <object>
│ │ ├─ bold <boolean>
│ │ ├─ italic <boolean>
│ │ ├─ level <integer> *
│ │ ├─ maxSize <integer>
│ │ ├─ minSize <integer>
│ │ └─ name <string>
│ └─ word <object>
│ ├─ handling <object>
│ │ ├─ bold <boolean>
│ │ ├─ italic <boolean>
│ │ ├─ level <integer> *
│ │ ├─ maxSize <integer>
│ │ ├─ minSize <integer>
│ │ └─ name <string>
│ └─ styles <object>
│ ├─ level <integer> *
│ └─ names <string[]>
└─ file <binary> *
項目名 | 必須/任意 | 型 | 配列/リスト | 説明 |
---|---|---|---|---|
im_watsonDocPostConvertDocumentText | 任意 | object | なし | |
config | 必須 | object | なし | 抽出オプション |
conversionTarget | 必須 | string | なし | 出力するテキストデータの形式
指定可能な値は以下の通りです。
|
normalizedHtml | 任意 | object | なし | 「conversionTarget」が normalized_html の場合に設定できる変換オプション |
excludeContent | 任意 | map | なし | 変換されていないメインのコンテンツを識別する値 |
excludeTagAttributes | 任意 | string | リスト | HTMLタグに含めない属性名の一覧
「keepTagAttributes」と排他指定です。
|
excludeTagsCompletely | 任意 | string | リスト | コンテンツから削除する対象のタグ一覧 |
excludeTagsKeepContent | 任意 | string | リスト | コンテンツから削除する対象のタグ一覧(コンテンツ内容は保持) |
keepContent | 任意 | map | なし | コンテンツとして識別する対象 |
keepTagAttributes | 任意 | string | リスト | HTMLタグに含める属性名の一覧
「excludeTagAttributes」と排他指定です。
|
任意 | object | なし | 抽出する元データがPDFの場合に設定できるオプション | |
word | 任意 | object | なし | 抽出する元データがMS-WORDの場合に設定できるオプション |
handling | 任意 | object | なし | 抽出オプション |
styles | 任意 | object | なし | 抽出するスタイル |
bold | 任意 | boolean | なし | 太字かどうかを抽出する場合は true |
italic | 任意 | boolean | なし | 斜体かどうかを抽出する場合は true |
level | 条件付必須(※1) | integer | なし | 見出しレベルh1~h6を示す番号(1~6) |
maxSize | 任意 | integer | なし | 見出しレベルの最大フォントサイズ |
minSize | 任意 | integer | なし | 見出しレベルの最小フォントサイズ |
name | 任意 | string | なし | フォント名 |
names | 任意 | string | リスト | 見出しとみなすスタイル名の一覧 |
file | 必須 | binary | なし | テキストを抽出する元データ |
(※1)config/pdf/handling, config/word/handling, config/word/styles を指定する場合のみ必須。
5.2.1.14.6.3. 出力値¶
im_watsonDocPostConvertDocumentText <string>
項目名 | 型 | 配列/リスト | 説明 |
---|---|---|---|
im_watsonDocPostConvertDocumentText | string | なし | 抽出されたテキストデータ |