Voice Presentation Analyzer 練習用

本地推論・不上傳 可換主題 模型:Common-Voice-Gender-Detection(ONNX) 原始碼

溫柔提醒:這裡顯示的是「模型對聲音表現的感知傾向」,不是性別認同的結論。請把它當作練習回饋;右上齒輪可切換主題、會記住。

或使用 右下角 ⬆︎ 上傳現有音檔(支援 mp3 / m4a / mp4 / mov)。

準備就緒
提示: 40–60% 是正常的灰色帶,建議多錄幾段、看趨勢而不是只看一次。
如何錄比較準?(快速)
  • 5–10 秒「說話」(非唱歌),環境安靜、避免背景音與回音。
  • 麥克風距離 10–15 cm,平常對話音量與語速。
  • 要上傳既有錄音:點右下角 ⬆︎(支援 mp3/m4a/mp4/mov)。
  • iPhone 語音備忘錄:先「分享 → 存到檔案 (Files)」,回本頁選「瀏覽」上傳。
模型概覽
名稱:
Common-Voice-Gender-Detection(ONNX)
架構:
Wav2Vec2(Self-Supervised Learning for Speech Recognition
標籤空間:
二分類(female / male
來源資料:
Mozilla Common Voice 等語料(以英語朗讀為主)
授權:
Apache-2.0(模型);本頁程式碼依你的 repo 授權
DOI:
10.57967/hf/5684
準確度(開發者報告)
  • 整體準確率:98.46%(6545 筆)
  • female:precision 0.9705、recall 0.9916、F1 0.9809(2622 筆)
  • male:precision 0.9943、recall 0.9799、F1 0.9870(3923 筆)

說明:上述為作者資料分佈下的離線評估;不同語言、環境、內容(如唱歌)可能與此有落差。

方法簡述(本頁實作)
  • 推論引擎:Transformers.js + ONNX Runtime;有 WebGPU 就用 GPU,否則回退 WASM。
  • 前處理(最小化):立體混單聲道+16 kHz 重採樣;不去靜音、不調音量。
  • 長檔策略:≤150 秒整段;更長改「串流分段」並 log-odds 加權聚合。
  • 可選 VAD(只「選段」):偵測語音段落以略過長靜音;不動原音
  • 隱私:100% 本地推論;音檔不離開裝置。只保留「最新一段」的回放 URL,換檔即釋放。
用途定位與倫理提醒
  • 定位:自我練習回饋、教學示範、資料標註輔助、研究原型。
  • 限制:此分數是「模型對聲音表現的傾向」,不是性別認同、醫療或法律判定
  • 請勿:用於歧視、排除、或任何影響權益的自動決策。
版本與授權
版本:
更新:
授權:
模型 Apache-2.0;網站程式碼依你的 repo 授權
原始碼:
GitHub / vpa
相容性與效能
  • 瀏覽器:近期 Chrome / Edge / Firefox / Safari;開啟 WebGPU 更快
  • 格式:audio/*、.m4a、.mp3、.wav、.mp4、.mov(影片僅取音軌)。
  • 備援:WebAudio 解不動時自動落到 ffmpeg.wasm,轉完即釋放記憶體。