第一次使用?
按下「開始錄音」練習 5–10 秒,或點右下角 ⬆︎ 上傳音檔。錄音時會打開即時 Hz Stream(音高走勢)與共鳴監控。
若還不熟悉,可以先點右上角的 ❓ 查看完整指南。
準備就緒
— Hz
—
— dB
縱軸 50–600 Hz(左右刻度顯示 Hz;色帶:灰50–85 / 藍85–165 / 灰165–180 / 粉180–310 / 灰310–450 / 淡紫450–600)
Formant(共振峰)/ Resonance(共鳴)即時監控
F1–F3(第一至第三共振峰)估計、共鳴亮度與氣聲比例
F1
— Hz
建議 180–350 Hz
F2
— Hz
建議 1600–2500 Hz
F3
— Hz
建議 2500–3200 Hz
氣聲比例
—
建議 8%–18%
共鳴平衡
—
Spectral Tilt(頻譜傾斜度)— dB
提示:可錄音或上傳 mp3 / m4a / mp4 / mov。錄音期間會顯示即時 Hz Stream(音高走勢)與共鳴監控,分析完成提供回放、傾向儀表與統計簡評。需要導覽請點右上角 ❓。
暖身三步驟 錄音前 1 分鐘快速開聲。
主畫面錄音鍵下方也能展開這張卡片,照順序練一次再開始錄音。
- 嗯 :輕哼把震動帶到鼻梁,對應共鳴卡的「胸腔偏重」提示。
- 依—— :拉長前母音讓舌頭前放,提升元音聚焦指標。
- 呼 :慢慢吐氣放鬆喉頭,穩定氣聲比例與頻譜傾斜度。
快速開始(第一次使用先看這裡)
- 按下上方的 🎙️ 開始錄音,以平常說話聲調錄 5–10 秒;或點右下角 ⬆︎ 上傳 mp3 / m4a / mp4 / mov。
- 錄音期間會顯示 Hz Stream(音高走勢) 與 Formant(共振峰)/ Resonance(共鳴) 即時監控;停止後等候模型分析。
- 完成後可播放剛剛那段、查看女性化 / 男性化儀表、統計卡與一行簡評。
- 第一次用?點右上角的 ❓ 查看圖解指南,或關閉上方提示泡泡繼續。
介面導覽與即時監控
- ❓ 使用指南:整理快速開始、面板解說與常見錄音情境,支援鍵盤 Esc 關閉。
- 錄音鍵:支援 MediaRecorder 並顯示狀態提示;停止後自動進入解碼與推論流程。
- Hz Stream(音高走勢):僅在錄音期間顯示,追蹤 50–600 Hz 音高與音量;左右刻度標示 Hz,統計會沿用錄音及上傳抽樣。
- Formant(共振峰)/ Resonance(共鳴):同步估計 F1–F3、氣聲比例與共鳴分佈,協助判讀聲音質地。
- 統計卡:整合 Pitch / Volume 百分位數、環境噪音、SNR 與傾向簡評,可對照練習成果。
- 主題設定:齒輪可切換 Auto / 淺色 / 深色派並記住每派最後一次的主題。
模型概覽
名稱:
架構:
標籤空間:
二分類(
female / male)來源資料:
Mozilla Common Voice 等語料(以英語朗讀為主)
授權:
Apache-2.0(模型);本頁程式碼依你的 repo 授權
DOI:
準確度(開發者報告)
- 整體準確率:98.46%(6545 筆)
- female:precision 0.9705、recall 0.9916、F1 0.9809(2622 筆)
- male:precision 0.9943、recall 0.9799、F1 0.9870(3923 筆)
說明:上述為作者資料分佈下的離線評估;不同語言、環境、內容(唱歌)可能與此有落差。
方法簡述(本頁實作)
- 推論引擎:Transformers.js + ONNX Runtime;優先 WebGPU,無 GPU 時自動回落至 WASM。
- 前處理:立體聲混成單聲道並重採樣至 16 kHz。若 WebAudio 解不動,自動改由 ffmpeg.wasm 轉檔。
- 錄音與即時監控:MediaRecorder + WebAudio ScriptProcessor,每 50 ms 抽樣 ACF 音高、音量與頻譜特徵。
- 長檔策略:≤150 秒直接整段推論;>150 秒依實際推論裝置自動挑選串流視窗與步長(WebGPU:<600 秒 hop 4 秒、視窗 18/12/8/6/4;≥600 秒 hop 6 秒、視窗 24/18/12/8/6/4。WASM:<240 秒 hop 3 秒;240–419 秒 hop 3.5 秒;≥420 秒 hop 4 秒,均保留 12/8/6/4 備援)。
- 自適應 VAD:長檔偵測靜音,只裁出語音片段再分析;不改變原始音訊。
- 聚合與統計:長檔以 log-odds 加權聚合結果;同時保存 Pitch / Volume / Formant / SNR 百分位數供統計卡與簡評。
- 隱私與資源管理:推論全在瀏覽器完成,只保留最新一段回放 URL;換檔會釋放快取與 AudioContext。
用途定位與倫理提醒
- 定位:自我練習回饋、教學示範、資料標註輔助、研究原型。
- 限制:此分數是「模型對聲音表現的傾向」,不是性別認同、醫療或法律判定。
- 請勿:用於歧視、排除、或任何影響權益的自動決策。
版本與授權
相容性與效能
- 瀏覽器:近期 Chrome / Edge / Firefox / Safari;開啟 WebGPU 更快。
- 格式:audio/*、.m4a、.mp3、.wav、.mp4、.mov(影片僅取音軌)。
- 備援:WebAudio 解不動時自動落到 ffmpeg.wasm,轉完即釋放記憶體。