intra-mart Accel Platform IM-LogicDesigner仕様書第24版 2024-04-01

目次 ≪ 5.2.1.14.10. テキストから音声の生成 5.2.1.15. プロジェクトチーム ≫

5.2.1.14.11. 音声からテキストの生成¶

IBM Watson Speech to Textサービスで、送信した音声データから会話を抽出し、テキストデータとして変換を行うタスクです。

入力値、出力値に関する詳細は、以下のAPIドキュメントを参照してください。

Speech to Text API Reference - IBM Watson Developer Cloud

5.2.1.14.11.1. プロパティ¶

項目名	必須/任意	型	初期値	説明
エラーハンドリング	任意	flag	false	エラー発生時に処理を継続する場合は、チェックボックスをオンにします。

5.2.1.14.11.2. 入力値¶

im_watsonSttPostRecognize <object>
  ├─ body <binary> *
  ├─ contentType <string> *
  ├─ continuous <boolean>
  ├─ customizationId <string>
  ├─ inactivityTimeout <integer>
  ├─ keywords <string[]>
  ├─ keywordsThreshold <float>
  ├─ maxAlternatives <integer>
  ├─ model <string>
  ├─ profanityFilter <boolean>
  ├─ smartFormatting <boolean>
  ├─ speakerLabels <boolean>
  ├─ timestamps <boolean>
  ├─ wordAlternativesThreshold <float>
  └─ wordConfidence <boolean>

項目名	必須/任意	型	配列/リスト	説明
im_watsonSttPostRecognize	任意	object	なし
body	必須	binary	なし	音声データ
contentType	必須	string	なし	音声データのMIMEタイプ
continuous	任意	boolean	なし	最初の文のみ取得する場合は `false`、音声全体を解析する場合は `true`
customizationId	任意	string	なし	カスタム音声モデルのGUID
inactivityTimeout	任意	integer	なし	無音検出する時間（単位：秒）
keywords	任意	string	リスト	スポットするキーワードの一覧
keywordsThreshold	任意	float	なし	キーワードをスポットする閾値
maxAlternatives	任意	integer	なし	認識される文の候補（alternatives）を出力する最大件数
model	任意	string	なし	認識対象の音声モデル
profanityFilter	任意	boolean	なし	NGワードのフィルタリングをしない場合は `false`
smartFormatting	任意	boolean	なし	日付、時刻、数値などを簡易的にフォーマットする場合は `true`
speakerLabels	任意	boolean	なし	話し手が複数人数の場合に、発言者の情報（speakerLabels）を出力する場合は `true`
timestamps	任意	boolean	なし	単語ごとの発声時間を出力する場合は `true`
wordAlternativesThreshold	任意	float	なし	代替の単語を採用する閾値（0～1）指定した場合は、代替の単語情報（wordAlternatives）が出力されます。
wordConfidence	任意	boolean	なし	単語ごとの信頼度（wordConfidence）を出力する場合は `true`

5.2.1.14.11.3. 出力値¶

im_watsonSttPostRecognize <object>
  ├─ resultIndex <integer>
  ├─ results <object[]>
  │    ├─ alternatives <object[]>
  │    │    ├─ confidence <bigdecimal>
  │    │    ├─ timestamps <object[]>
  │    │    │    ├─ endTime <bigdecimal>
  │    │    │    ├─ startTime <bigdecimal>
  │    │    │    └─ word <string>
  │    │    ├─ transcript <string>
  │    │    └─ wordConfidence <object[]>
  │    │          ├─ confidence <bigdecimal>
  │    │          └─ word <string>
  │    ├─ flagFinal <boolean>
  │    └─ wordAlternatives <object[]>
  │          ├─ alternatives <object[]>
  │          │    ├─ confidence <bigdecimal>
  │          │    └─ word <string>
  │          ├─ endTime <bigdecimal>
  │          └─ startTime <bigdecimal>
  ├─ speakerLabels <object[]>
  │    ├─ confidence <bigdecimal>
  │    ├─ flagFinal <boolean>
  │    ├─ from <bigdecimal>
  │    ├─ speaker <integer>
  │    └─ to <bigdecimal>
  └─ warnings <string[]>

項目名	型	配列/リスト	説明
im_watsonSttPostRecognize	object	なし
resultIndex	integer	なし	解析結果一覧の開始点を示すインデックス
results	object	リスト	解析結果一覧
alternatives	object	リスト	認識される文の候補
confidence	bigdecimal	なし	信頼度（0～1）
timestamps	object	リスト	単語ごとの時間情報
endTime	bigdecimal	なし	終了時間（単位：秒）
startTime	bigdecimal	なし	開始時間（単位：秒）
word	string	なし	単語
transcript	string	なし	認識された文
wordConfidence	object	リスト	単語ごとの信頼度
flagFinal	boolean	なし	最後のデータである場合は `true`
wordAlternatives	object	リスト	代替の単語情報
speakerLabels	object	リスト	発言者の情報
from	bigdecimal	なし	開始時間（単位：秒）
speaker	integer	なし	発言者の番号
to	bigdecimal	なし	終了時間（単位：秒）
warnings	string	リスト	警告メッセージ一覧

目次 ≪ 5.2.1.14.10. テキストから音声の生成 5.2.1.15. プロジェクトチーム ≫