Voice Presentation Analyzer

在瀏覽器本地推論,搭配即時音高與共鳴監控,掌握聲線被模型感知的女性化 / 男性化傾向。本地推論即時監控統計+簡評30+ 主題

準備就緒

提示:可錄音或上傳 mp3 / m4a / mp4 / mov。錄音期間會顯示即時 Hz Stream(音高走勢)與共鳴監控,分析完成提供回放、傾向儀表與統計簡評。需要導覽請點右上角

暖身三步驟 錄音前 1 分鐘快速開聲。

主畫面錄音鍵下方也能展開這張卡片,照順序練一次再開始錄音。

  1. :輕哼把震動帶到鼻梁,對應共鳴卡的「胸腔偏重」提示。
  2. 依—— :拉長前母音讓舌頭前放,提升元音聚焦指標。
  3. :慢慢吐氣放鬆喉頭,穩定氣聲比例與頻譜傾斜度。
快速開始(第一次使用先看這裡)
  • 按下上方的 🎙️ 開始錄音,以平常說話聲調錄 5–10 秒;或點右下角 ⬆︎ 上傳 mp3 / m4a / mp4 / mov。
  • 錄音期間會顯示 Hz Stream(音高走勢)Formant(共振峰)/ Resonance(共鳴) 即時監控;停止後等候模型分析。
  • 完成後可播放剛剛那段、查看女性化 / 男性化儀表、統計卡與一行簡評。
  • 第一次用?點右上角的 查看圖解指南,或關閉上方提示泡泡繼續。
介面導覽與即時監控
  • ❓ 使用指南:整理快速開始、面板解說與常見錄音情境,支援鍵盤 Esc 關閉。
  • 錄音鍵:支援 MediaRecorder 並顯示狀態提示;停止後自動進入解碼與推論流程。
  • Hz Stream(音高走勢):僅在錄音期間顯示,追蹤 50–600 Hz 音高與音量;左右刻度標示 Hz,統計會沿用錄音及上傳抽樣。
  • Formant(共振峰)/ Resonance(共鳴):同步估計 F1–F3、氣聲比例與共鳴分佈,協助判讀聲音質地。
  • 統計卡:整合 Pitch / Volume 百分位數、環境噪音、SNR 與傾向簡評,可對照練習成果。
  • 主題設定:齒輪可切換 Auto / 淺色 / 深色派並記住每派最後一次的主題。
模型概覽
名稱:
Common-Voice-Gender-Detection(ONNX)
架構:
Wav2Vec2(Self-Supervised Learning for Speech Recognition
標籤空間:
二分類(female / male
來源資料:
Mozilla Common Voice 等語料(以英語朗讀為主)
授權:
Apache-2.0(模型);本頁程式碼依你的 repo 授權
DOI:
10.57967/hf/5684
準確度(開發者報告)
  • 整體準確率:98.46%(6545 筆)
  • female:precision 0.9705、recall 0.9916、F1 0.9809(2622 筆)
  • male:precision 0.9943、recall 0.9799、F1 0.9870(3923 筆)

說明:上述為作者資料分佈下的離線評估;不同語言、環境、內容(唱歌)可能與此有落差。

方法簡述(本頁實作)
  • 推論引擎:Transformers.js + ONNX Runtime;優先 WebGPU,無 GPU 時自動回落至 WASM。
  • 前處理:立體聲混成單聲道並重採樣至 16 kHz。若 WebAudio 解不動,自動改由 ffmpeg.wasm 轉檔。
  • 錄音與即時監控:MediaRecorder + WebAudio ScriptProcessor,每 50 ms 抽樣 ACF 音高、音量與頻譜特徵。
  • 長檔策略:≤150 秒直接整段推論;>150 秒依實際推論裝置自動挑選串流視窗與步長(WebGPU:<600 秒 hop 4 秒、視窗 18/12/8/6/4;≥600 秒 hop 6 秒、視窗 24/18/12/8/6/4。WASM:<240 秒 hop 3 秒;240–419 秒 hop 3.5 秒;≥420 秒 hop 4 秒,均保留 12/8/6/4 備援)。
  • 自適應 VAD:長檔偵測靜音,只裁出語音片段再分析;不改變原始音訊
  • 聚合與統計:長檔以 log-odds 加權聚合結果;同時保存 Pitch / Volume / Formant / SNR 百分位數供統計卡與簡評。
  • 隱私與資源管理:推論全在瀏覽器完成,只保留最新一段回放 URL;換檔會釋放快取與 AudioContext。
用途定位與倫理提醒
  • 定位:自我練習回饋、教學示範、資料標註輔助、研究原型。
  • 限制:此分數是「模型對聲音表現的傾向」,不是性別認同、醫療或法律判定
  • 請勿:用於歧視、排除、或任何影響權益的自動決策。
版本與授權
版本:
build
更新:
授權:
模型 Apache-2.0;網站程式碼依你的 repo 授權
原始碼:
GitHub / vpa
相容性與效能
  • 瀏覽器:近期 Chrome / Edge / Firefox / Safari;開啟 WebGPU 更快
  • 格式:audio/*、.m4a、.mp3、.wav、.mp4、.mov(影片僅取音軌)。
  • 備援:WebAudio 解不動時自動落到 ffmpeg.wasm,轉完即釋放記憶體。