5.2.1.14.11. 音声からテキストの生成¶
IBM Watson Speech to Textサービスで、送信した音声データから会話を抽出し、テキストデータとして変換を行うタスクです。
- 入力値、出力値に関する詳細は、以下のAPIドキュメントを参照してください。
5.2.1.14.11.1. プロパティ¶
項目名 | 必須/任意 | 型 | 初期値 | 説明 |
---|---|---|---|---|
エラーハンドリング | 任意 | flag | false | エラー発生時に処理を継続する場合は、チェックボックスをオンにします。 |
5.2.1.14.11.2. 入力値¶
im_watsonSttPostRecognize <object>
├─ body <binary> *
├─ contentType <string> *
├─ continuous <boolean>
├─ customizationId <string>
├─ inactivityTimeout <integer>
├─ keywords <string[]>
├─ keywordsThreshold <float>
├─ maxAlternatives <integer>
├─ model <string>
├─ profanityFilter <boolean>
├─ smartFormatting <boolean>
├─ speakerLabels <boolean>
├─ timestamps <boolean>
├─ wordAlternativesThreshold <float>
└─ wordConfidence <boolean>
項目名 | 必須/任意 | 型 | 配列/リスト | 説明 |
---|---|---|---|---|
im_watsonSttPostRecognize | 任意 | object | なし | |
body | 必須 | binary | なし | 音声データ |
contentType | 必須 | string | なし | 音声データのMIMEタイプ |
continuous | 任意 | boolean | なし | 最初の文のみ取得する場合は false、音声全体を解析する場合は true |
customizationId | 任意 | string | なし | カスタム音声モデルのGUID |
inactivityTimeout | 任意 | integer | なし | 無音検出する時間(単位:秒) |
keywords | 任意 | string | リスト | スポットするキーワードの一覧 |
keywordsThreshold | 任意 | float | なし | キーワードをスポットする閾値 |
maxAlternatives | 任意 | integer | なし | 認識される文の候補(alternatives)を出力する最大件数 |
model | 任意 | string | なし | 認識対象の音声モデル |
profanityFilter | 任意 | boolean | なし | NGワードのフィルタリングをしない場合は false |
smartFormatting | 任意 | boolean | なし | 日付、時刻、数値などを簡易的にフォーマットする場合は true |
speakerLabels | 任意 | boolean | なし | 話し手が複数人数の場合に、発言者の情報(speakerLabels)を出力する場合は true |
timestamps | 任意 | boolean | なし | 単語ごとの発声時間を出力する場合は true |
wordAlternativesThreshold | 任意 | float | なし | 代替の単語を採用する閾値(0~1)
指定した場合は、代替の単語情報(wordAlternatives)が出力されます。
|
wordConfidence | 任意 | boolean | なし | 単語ごとの信頼度(wordConfidence)を出力する場合は true |
5.2.1.14.11.3. 出力値¶
im_watsonSttPostRecognize <object>
├─ resultIndex <integer>
├─ results <object[]>
│ ├─ alternatives <object[]>
│ │ ├─ confidence <bigdecimal>
│ │ ├─ timestamps <object[]>
│ │ │ ├─ endTime <bigdecimal>
│ │ │ ├─ startTime <bigdecimal>
│ │ │ └─ word <string>
│ │ ├─ transcript <string>
│ │ └─ wordConfidence <object[]>
│ │ ├─ confidence <bigdecimal>
│ │ └─ word <string>
│ ├─ flagFinal <boolean>
│ └─ wordAlternatives <object[]>
│ ├─ alternatives <object[]>
│ │ ├─ confidence <bigdecimal>
│ │ └─ word <string>
│ ├─ endTime <bigdecimal>
│ └─ startTime <bigdecimal>
├─ speakerLabels <object[]>
│ ├─ confidence <bigdecimal>
│ ├─ flagFinal <boolean>
│ ├─ from <bigdecimal>
│ ├─ speaker <integer>
│ └─ to <bigdecimal>
└─ warnings <string[]>
項目名 | 型 | 配列/リスト | 説明 |
---|---|---|---|
im_watsonSttPostRecognize | object | なし | |
resultIndex | integer | なし | 解析結果一覧の開始点を示すインデックス |
results | object | リスト | 解析結果一覧 |
alternatives | object | リスト | 認識される文の候補 |
confidence | bigdecimal | なし | 信頼度(0~1) |
timestamps | object | リスト | 単語ごとの時間情報 |
endTime | bigdecimal | なし | 終了時間(単位:秒) |
startTime | bigdecimal | なし | 開始時間(単位:秒) |
word | string | なし | 単語 |
transcript | string | なし | 認識された文 |
wordConfidence | object | リスト | 単語ごとの信頼度 |
flagFinal | boolean | なし | 最後のデータである場合は true |
wordAlternatives | object | リスト | 代替の単語情報 |
speakerLabels | object | リスト | 発言者の情報 |
from | bigdecimal | なし | 開始時間(単位:秒) |
speaker | integer | なし | 発言者の番号 |
to | bigdecimal | なし | 終了時間(単位:秒) |
warnings | string | リスト | 警告メッセージ一覧 |