文字起こしタブ

コンフィグウィンドウの文字起こしタブで、マイクおよびスピーカー音声の文字起こし設定をカスタマイズできます。

マイク文字起こし

マイク記録タイムアウト ：マイク記録のタイムアウト期間を設定します。
- 無音を検出し、指定された秒数が経過すると、システムは音声入力が終了したと見なします。（秒）
マイク句フレーズ検出タイムアウト ：マイク句フレーズ検出のタイムアウト期間を設定します。
- 文字起こし処理は指定された秒数の間隔で実行されます。
マイク最大単語数: マイク文字起こしの最大単語数を設定します。
- 文字起こしされた単語の数の下限であり、この数を超えた場合のみ、文字起こしの結果がログに表示され、VRChatに送信されます。
マイク単語フィルタ: マイク文字起こしの単語フィルタを有効または無効にします。
- 登録された単語が検出された場合、メッセージは送信されません。複数の単語を一度に追加するには、それらを「,」（コンマ）で区切ってください。\n重複する単語は登録されません。

スピーカー記録タイムアウト ：スピーカー記録のタイムアウト期間を設定します。
- 無音を検出し、指定された秒数が経過すると、スピーカー入力が終了したと見なします。（秒）
スピーカー句フレーズ検出タイムアウト ：スピーカー句フレーズ検出のタイムアウト期間を設定します。
- 文字起こし処理は指定された秒数の間隔で実行されます。
スピーカー最大単語数: スピーカー文字起こしの最大単語数を設定します。
- 文字起こしされた単語の数の下限であり、この数を超えた場合のみ、文字起こしの結果がログに表示されます。

Whisperモデル: Whisperが選択されている場合、文字起こし用のWhisperモデルを選択します。

AI文字起こしに使用する処理デバイス: 文字起こしタスク用の処理デバイスを選択します。

処理デバイス：
- CPU：文字起こし処理にコンピュータのCPUを使用します。
- GPU：文字起こし処理にコンピュータのGPUを使用します（利用可能な場合）。
ヒント
CTranslate2モデルでGPUを使用したい場合は、VRCTをCUDAバージョンに変更する必要があります。
詳細はCUDAバージョンでVRCTを再インストールページを参照してください。

処理タイプ：

タイプ	精度	速度	説明
自動	自動	自動	ハードウェア機能に基づいて最適な処理タイプを自動選択します。
int8	低	高速	高速処理と低いメモリ使用量のための8ビット整数精度を使用します。
int8_float16	中	高速	速度と精度のバランスのために8ビット整数と16ビット浮動小数点精度の組み合わせを使用します。
int8_bfloat16	中	高速	互換性のあるハードウェアでの効率的な処理のために8ビット整数とbfloat16精度の組み合わせを使用します。
int8_float32	高	中	より高い精度のために8ビット整数と32ビット浮動小数点精度の組み合わせを使用します。
int16	低	中	メモリ使用量が少なくなるように16ビット整数精度を使用します。
bfloat16	中	中	互換性のあるハードウェアでの効率的な処理のためにbfloat16精度を使用します。
float16	中	中	速度と精度のバランスのために16ビット浮動小数点精度を使用します。
float32	高	低速	最高精度のために32ビット浮動小数点精度を使用します。

ヒント

最適な処理タイプはハードウェア環境によって異なります。
あなたに最適な処理タイプを見つけるために、複数のオプションを試してください。

ヒント

平均ログ確率
セグメントで生成されたすべてのトークンの平均ログ確率。より高い値（0に近い）はより高い信頼度を示します。より低い値（例：-1.0以下）は低い信頼度または誤認識の可能性を示唆しています。

音声なし確率
入力オーディオに音声が含まれていない確率。 1.0に近い値は無音または背景ノイズを示します。このパラメータは通常、静かな期間中の誤検出をフィルタリングするために使用されます。