Voice Presentation Analyzer

準備就緒

提示：可錄音或上傳 mp3 / m4a / mp4 / mov。錄音期間會顯示即時 Hz Stream（音高走勢）與共鳴監控，分析完成提供回放、傾向儀表與統計簡評。需要導覽請點右上角 ❓。

暖身三步驟錄音前 1 分鐘快速開聲。

主畫面錄音鍵下方也能展開這張卡片，照順序練一次再開始錄音。

快速開始（第一次使用先看這裡）

介面導覽與即時監控

模型概覽

名稱：

架構：

標籤空間：

二分類（female / male）

來源資料：

Mozilla Common Voice 等語料（以英語朗讀為主）

授權：

Apache-2.0（模型）；本頁程式碼依你的 repo 授權

DOI：

準確度（開發者報告）

說明：上述為作者資料分佈下的離線評估；不同語言、環境、內容（唱歌）可能與此有落差。

方法簡述（本頁實作）

推論引擎：Transformers.js + ONNX Runtime；優先 WebGPU，無 GPU 時自動回落至 WASM。
前處理：立體聲混成單聲道並重採樣至 16 kHz。若 WebAudio 解不動，自動改由 ffmpeg.wasm 轉檔。
錄音與即時監控：MediaRecorder + WebAudio ScriptProcessor，每 50 ms 抽樣 ACF 音高、音量與頻譜特徵。
長檔策略：≤150 秒直接整段推論；>150 秒依實際推論裝置自動挑選串流視窗與步長（WebGPU：<600 秒 hop 4 秒、視窗 18/12/8/6/4；≥600 秒 hop 6 秒、視窗 24/18/12/8/6/4。WASM：<240 秒 hop 3 秒；240–419 秒 hop 3.5 秒；≥420 秒 hop 4 秒，均保留 12/8/6/4 備援）。
自適應 VAD：長檔偵測靜音，只裁出語音片段再分析；不改變原始音訊。
聚合與統計：長檔以 log-odds 加權聚合結果；同時保存 Pitch / Volume / Formant / SNR 百分位數供統計卡與簡評。
隱私與資源管理：推論全在瀏覽器完成，只保留最新一段回放 URL；換檔會釋放快取與 AudioContext。

用途定位與倫理提醒

版本與授權

版本：

build

更新：

—

授權：

模型 Apache-2.0；網站程式碼依你的 repo 授權

原始碼：

相容性與效能

Formant（共振峰）/ Resonance（共鳴）即時監控