主題在這裡(會記住)
Voice Presentation Analyzer 練習用
溫柔提醒:這裡顯示的是「模型對聲音表現的感知傾向」,不是性別認同的結論。請把它當作練習回饋;右上齒輪可切換主題、會記住。
或使用 右下角 ⬆︎ 上傳現有音檔(支援 mp3
/ m4a
/ mp4
/ mov
)。
準備就緒
提示: 40–60% 是正常的灰色帶,建議多錄幾段、看趨勢而不是只看一次。
如何錄比較準?(快速)
- 錄 5–10 秒「說話」(非唱歌),環境安靜、避免背景音與回音。
- 麥克風距離 10–15 cm,平常對話音量與語速。
- 要上傳既有錄音:點右下角 ⬆︎(支援 mp3/m4a/mp4/mov)。
- iPhone 語音備忘錄:先「分享 → 存到檔案 (Files)」,回本頁選「瀏覽」上傳。
模型概覽
名稱:
架構:
標籤空間:
二分類(
female
/ male
)來源資料:
Mozilla Common Voice 等語料(以英語朗讀為主)
授權:
Apache-2.0(模型);本頁程式碼依你的 repo 授權
DOI:
準確度(開發者報告)
- 整體準確率:98.46%(6545 筆)
- female:precision 0.9705、recall 0.9916、F1 0.9809(2622 筆)
- male:precision 0.9943、recall 0.9799、F1 0.9870(3923 筆)
說明:上述為作者資料分佈下的離線評估;不同語言、環境、內容(如唱歌)可能與此有落差。
方法簡述(本頁實作)
- 推論引擎:Transformers.js + ONNX Runtime;有 WebGPU 就用 GPU,否則回退 WASM。
- 前處理(最小化):立體混單聲道+16 kHz 重採樣;不去靜音、不調音量。
- 長檔策略:≤150 秒整段;更長改「串流分段」並 log-odds 加權聚合。
- 可選 VAD(只「選段」):偵測語音段落以略過長靜音;不動原音。
- 隱私:100% 本地推論;音檔不離開裝置。只保留「最新一段」的回放 URL,換檔即釋放。
用途定位與倫理提醒
- 定位:自我練習回饋、教學示範、資料標註輔助、研究原型。
- 限制:此分數是「模型對聲音表現的傾向」,不是性別認同、醫療或法律判定。
- 請勿:用於歧視、排除、或任何影響權益的自動決策。
版本與授權
相容性與效能
- 瀏覽器:近期 Chrome / Edge / Firefox / Safari;開啟 WebGPU 更快。
- 格式:audio/*、.m4a、.mp3、.wav、.mp4、.mov(影片僅取音軌)。
- 備援:WebAudio 解不動時自動落到 ffmpeg.wasm,轉完即釋放記憶體。