VocalRemover (VocalRemover Vocal Remover) 使用指南

對於需要將歌曲人聲與伴奏分離的使用者而言，VocalRemover 提供了一個無需配置本地環境的高效解決方案。

無需下載複雜軟體，無需配置環境，也不需要高階顯示卡——只需在瀏覽器中打開 VocalRemover，幾分鐘內即可獲取錄音室等級的分軌結果。

這篇文章將帶您快速入門，了解如何利用「場景化」模式輕鬆處理音訊。

一、什麼是 VocalRemover？

VocalRemover 是基於開源社群強大的 modern AI separation stack 架構構建的線上服務。

在過去，獲得高品質的伴奏或提取純淨人聲通常面臨較高的門檻：

需要下載數 GB 的軟體和模型包。
需要配備高效能 NVIDIA 顯示卡。
需要花費大量時間除錯複雜的模型參數。

VocalRemover 旨在解決這些問題。我們在雲端部署了目前效果頂尖的 AI 模型（特別是最新的 BS-Roformer 和 Mel-Band Roformer 系列）。透過 「instant workflow」（即刻實驗室）介面，使用者只需關注**「想要什麼結果」，而無需糾結於「使用什麼參數」**。

二、如何使用 VocalRemover

操作流程非常簡單，遵循 「上傳 -> 選場景 -> 選品質 -> 下載」 的直覺式步驟。

第一步：上傳檔案

在首頁控制台，直接拖曳音訊檔案（支援 mp3, wav, flac, m4a 等）到上傳區。

🛡️ 隱私安全：所有檔案使用雲端物件儲存安全保存，處理完成後會自動過期刪除，我們不會保留任何音訊資料。

第二步：選擇「場景」 —— 關鍵一步！

這是 VocalRemover 與傳統工具最大的區別。使用者不需要選擇晦澀難懂的模型名稱，只需要選擇處理目標。

常見的場景包括：

場景名稱	你的目標	得到的結果
去人聲	做卡拉OK伴奏、翻唱練習	純伴奏 (Instrumental)
提取人聲	做 Remix、惡搞素材	純人聲 (Vocals)
雙軌分離 (人聲/伴奏)	同時要人聲和伴奏	人聲 + 伴奏
四軌分離 (人聲/鼓/貝斯/其他)	抓歌、學習樂器	人聲 + 鼓 + 貝斯 + 其他
降噪	修復嘈雜錄音	可以在「降噪」場景中獲得乾淨音訊
去混響	消除房間回音	乾聲 (No Reverb)

第三步：選擇「品質檔位」 (Quality)

我們為每一類場景都預設了不同的計算強度：

⚡ Fast (快速)：速度優先，適合試聽或非正式用途。
🎵 Studio (錄音室)：預設推薦。在速度和品質之間達到最佳平衡，適合絕大多數創作需求。
💎 HiFi (極致)：使用最頂級的 SOTA 模型（如 BS-Roformer），運算量巨大，雖然耗時較長，但能提供目前行業內極高的分離純淨度。

第四步：開始處理與下載

點擊「開始分離」，任務會自動加入雲端佇列。

通常只需等待幾分鐘（取決於檔案長度和選擇的品質檔位）。
完成後，可以直接點擊播放試聽，或下載 .wav 無失真格式檔案。

三、進階：場景詳解

為了滿足不同專業使用者的需求，instant workflow 提供了豐富的場景體系：

1. 音樂創作與翻唱

去人聲 / 提取人聲: 最基礎的功能。如果追求極致伴奏品質，請選擇 HiFi 檔位，它會呼叫 BS-Roformer-ViperX 等頂級模型，極大減少人聲殘留。
卡拉OK模式 (Karaoke): 專門針對 K 歌最佳化的提取模型，保留部分和聲，讓伴奏聽起來更豐滿。

2. 樂器學習與編曲 (Stem Separation)

四軌分離: 將歌曲拆解為 人聲、鼓組、貝斯、其他樂器 四大件。HiFi 模式下使用 bs-roformer-musdb18-4stem 模型，是目前分軌清晰度極高的 SOTA 模型。
六軌分離: 進一步分離出吉他和鋼琴（Studio 模式下使用 HTDemucs4 模型）。這對於吉他手或鍵盤手抓歌是絕佳的輔助工具。

3. 音訊修復 (Audio Restoration)

降噪: 非常適合處理採訪錄音、Podcast 素材，去除背景底噪。
去混響: 如果錄音環境空曠有回音，這個功能可以讓聲音變得「乾」且貼耳。
現場修復 (Live Cleanup): 專門用於去除現場錄音中的觀眾嘈雜聲（Crowd Noise）。

🚀 技術亮點：修復類場景採用了最新的 Mel-Band Roformer 系列模型，在保留人聲細節的同時，對特定雜訊（如回音、人群聲）的抑制能力相比傳統模型有顯著提升。

四、功能亮點

除了音質出色，VocalRemover 還具備普通工具無法比擬的專業特性：

🎧 支援 5.1 / 7.1 多聲道環繞聲: 如果上傳的是電影原聲或演唱會現場的 mkv/wav 多聲道檔案，系統能保留空間資訊，分別處理每個聲道，而不是強制壓製成多聲道。
📂 全格式相容: 完美支援 mp3, flac, wav, m4a, ogg, opus, aiff 等所有主流音訊格式。
⚡ 極速雲端處理: 利用叢集並發能力，即使是 100MB 的無失真音訊，也能在短時間內完成推理。

五、常見問題 (FAQ)

Q: 為什麼不用顯示卡也能跑？ A: 因為計算在我們的雲端叢集上運行，所有的負載由伺服器承擔。

Q: 線上版和本地版 VocalRemover 有什麼區別？ A: 本地版通常需要配置複雜的運行環境與硬體。VocalRemover 則精選了表現最優的 AI 模型組合，並透過「場景化」封裝，讓使用者無需了解底層技術也能獲得同等甚至更好的效果（我們會持續更新伺服器端的模型配置）。

Q: HiFi 模式為什麼比較慢？ A: HiFi 模式使用了 Transformer 架構的大型模型（如 Roformer 系列），其計算複雜度是傳統 CNN 模型的數倍，能處理極其複雜的頻譜交織，是追求最高音質的不二之選。

六、常見失敗排查

如果您在上傳或處理過程中遇到問題，請檢查以下常見原因：

1. 檢查檔案格式

不支援加密格式：系統無法處理音樂平台的私有加密檔案（如 .ncm、.qmc、.kgm、加密的 .ogg 等）。
- 解決：請務必上傳標準的非加密檔案（如 .mp3、.flac、.wav）。
檔案完整性：請確保檔案未損壞，且能在本地播放器正常播放。

2. 時長與大小限制

時長限制：為確保處理穩定性，建議上傳的音訊或影片時長不超過 15 分鐘。
- 解決：對於超長音訊，建議先裁剪為多個片段分批處理。
大小限制：建議單個檔案不超過 300MB，避免因網路波動導致上傳中斷。

3. 網路與瀏覽器

部分舊版瀏覽器可能存在相容性問題，強烈推薦使用最新版 Chrome 或 Edge 瀏覽器。
上傳過程中請保持網路連線穩定，不要關閉當前分頁。

七、總結

VocalRemover 致力於成為您口袋裡的 AI 音訊處理實驗室。

無論您是想要製作一首翻唱作品，還是需要清洗一段嘈雜的採訪錄音，只需打開瀏覽器，選擇對應的場景，剩下的複雜計算交給我們。

👉 立即開始使用 VocalRemover

💌 期待您的回饋

我們致力於為大家提供好用的線上音訊工具。如果您在使用過程中遇到任何問題、有想要的功能，或者需要更多更專項的模型，歡迎點擊頁面 右下角的回饋圖示 💬 留言。

您的每一條回饋對我們都非常重要，期待與大家交流！