Skip to content

Releases: SUC-DriverOld/MSST-WebUI

Release 1.7.0

21 Jan 15:49
Compare
Choose a tag to compare

What's Changed

  • 新增14个模型
  • 拆分webUI.py至webUI文件夹,细分函数和UI代码
  • 增加全局logger,实时保存日志文件(保存的级别为DEBUG)至log文件夹(以“日期-时间.log”格式存储,默认上限为100个日志文件,超过会自动删除)
  • models文件夹已重命名为modules,并重新整理项目文件夹(新增inference和,train,utils,scripts等文件夹)
  • 重写WebUI整合包加密
  • 将MSST推理和VR推理改写,并且现在推理支持自定义选择需要导出什么音轨(可多选)
  • 开始分离按钮从两个修改为一个,会跟随你选择是“输入音频”还是“输入文件夹”自动变化
  • 去除vr推理的normalization选项,并且修改输出的wav格式质量为44.1khz,32bit
  • 预设流程大更改:
    • 预设将单独保存至presets文件夹下,一个预设一个json。备份的预设保存至presets_backup
    • 制作预设流程变化至如下:支持选择那个音轨作为下一模型的输入,以及哪些音轨直接保存至输出目录
    • 新增“撤销上一步选项”
    • 管理预设中删除手动触发备份的选项,但每次删除预设时,都会自动进行备份删除的预设
    • 修复了批量音频输入处理时,会出现尝试删除TEMP_PATH的BUG(其实不影响使用)
    • 修复安装完成软件后,直接使用预设流程(从未使用过msst分离而直接使用预设流程)时,无法正确使用gpu_id的bug
    • 新增“extra_output_dir”选项,类行为bool,当此选项勾选后,预设中间过程中产生的次级输出将会保存至输出目录下的“extra_output”文件夹中,否则,产生的次级输出将直接保存至输出文件夹,无另外的嵌套文件夹
    • 新增预设版本,在预设json中会标记一个预设版本,不满足版本的预设无法使用。也就是说,1.6老版本的预设在1.7新版本全部没用,需要重新制作!
  • 小工具"音频格式转换"新增更多输出格式选项
  • Ensenble模式中,修复了音频文件名称带有空格导致输出时报错的BUG
  • MSST训练页面新增"选择输出的评估指标"(多选)和"选择调度器使用的评估指标"(单选)可选参数如下
  • 验证页面也新增了“选择输出的评估指标”(多选),选项和上面相同
  • 重新排版训练页面的UI和验证页面的UI
  • 去除vr推理界面的“debug模式”,在设置中新增全局调试模式: 向开发者反馈问题时请开启。(该选项支持热切换)
  • 设置页面新增“选择webUI主题”,目前有三种主题(蓝色,粉色,蓝色且带有Miku图片)。主题文件存放在tools/themes文件夹内,可以自制json格式的主题进行加载哦!
  • 启动器新增取消快速编辑的模式以防止不必要的影响。由此带来的影响是每次启动都会强制管理员运行(弹一个管理员运行确认窗口)。如果不想管理员启动,或者说启动exe被杀毒软件删了,1.7版本起,我们在软件根目录提供了一个go-webui.bat,其实现的功能和启动exe一模一样,可以直接用这个bat启动
  • 由于WebUI组件已封装成.pyd,故去除了启动exe程序的VMProtect保护,现在启动速度更快了
  • API相关:重写msst_cli和vr_cli,如果需要使用,可以在scripts文件夹内找到,具体的使用介绍和方法请阅读docs\inference.md文档。输出目录可以是str或dict。输入可以是音频或Numpy数组。
  • 修改webui_config.json中的部分保存值。现在整个webui中的输入/输出文件夹将共用同一个值。意思是,当你在某处选择好输出文件夹后,第二次启动时,所有的输出文件夹都会默认更改为你上一次的输出文件夹
  • 修改webui_config.json中的部分保存值的类型
  • 优化项目Github页面的README说明
  • 修改MSST WebUI的icon
  • 修复了仅读取.ckpt, .pt文件来判断模型,会导致如果错误的将模型放置到类别文件夹中(例如single_stem_models放到了vocal_models文件夹里)会导致虽然可以读取,但是无法加载使用模型的bug
  • 修改模型下载链接至同一个仓库而非多个仓库,便于后续维护
  • 云端webui默认所有模型可用,缺什么下载什么。同时输入和输出目录(input和results)用户不可更改,防止一些小白乱改导致无法正确运行
  • 更新整合包内的ffmpeg版本至2024.9.30版本
  • 修复了因数值类型错误导致预设流程中UVR模型无法使用的bug
  • 新增GUI模型管理器:
    • 由@阿狸不吃隼舞 使用PySide6开发模型管理器,效果如下(在windows11系统下有云母,透明效果):
    • WebUI的安装模型页面增加了“一键启动模型下载管理器”的按钮
    • exe启动方式也将新增至项目根目录内
  • 修复在Linux下会出现RuntimeError: Cannot re-initialize CUDA in forked subprocess的问题
  • 更新webUI中安装模型页面。现在,选择模型之后,会显示该模型的基本信息,是否已经安装,以及sha256校验
  • 自动下载模型后,添加sha256校验。
  • 修复了使用小工具“SOME人声转MIDI”时,出现包导入错误的问题。
  • 修复了1.7 preview1-3版本中apollo模型无法使用的问题
  • roformer模型增加use_reentrant=False,可以略微降低显存占用
  • 训练/验证增加多卡验证以加速,bleedless和fullness支持GPU。增加自动重采样以适应模型支持的采样率。
    -设置页面增加“修改输出音频格式”,可以自定义不同输出格式的音质了!此页面支持用户自定义修改MSST/VR推理后输出音频的质量。输出音频的采样率, 声道数与模型支持的参数有关, 无法更改。修改完成后点击保存设置即可生效。
  • 将use_tts移动至模型设置里,并且新增chunk_size参数,所有参数都是越小越快,但数值不能乱填。
  • 增加对单声道模型推理的支持
  • 将部分模型的默认batchsize值设置为1,overlap值设置为4,以防止某些低端显卡爆显存
  • 整合云端webui启动到webui.py中,setup部分独立至webui/setup.py中
  • 新增合奏模式页面,允许用户从原始音频合奏和从分离后的音频合奏
  • 从原始音频合奏需要上传至少一个音频文件, 然后选择多个模型先进行分离处理, 然后将这些处理结果根据选择的合奏模式进行合奏。从分离结果合奏需要上传至少两个音频文件, 这些音频文件是使用不同的模型分离同一段音频的结果。因此, 上传的所有音频长度应该相同。
  • 新增scripts文件夹,内含6个cli命令行脚本
  • 完善了docs及一些文档
  • 其他一些更新

Notes

在安装完成后,软件根目录内一共有3个exe文件及一个bat文件:

  • webui.exe: webui启动程序(需要管理员权限),也是桌面快捷方式指向的启动文件。更新完成后的第一次务必使用此exe以管理员方式运行,进行初始化
  • webui_no_admin.exe: webui启动程序(无需管理员权限),如果担心权限过高,可以使用此exe,无需管理员权限运行webui。但如果运行过程中出现权限不足的问题,还是需要使用上面的带管理员权限的exe
  • DownloadManager.exe: GUI页面的模型管理器,提供下载,删除,管理模型。可以直接双击exe启动,也可以从webui的安装模型页面启动。注意:更新完新版本后,必须先启动一遍webui进行更新,才能直接双击此exe打开
  • go-webui.bat: 如果你的两个webui启动exe被windows defender或其他杀毒软件误删了,你可以使用此bat启动webui

1.7 Preview.4

26 Nov 07:53
Compare
Choose a tag to compare
1.7 Preview.4 Pre-release
Pre-release

更新 (Update)

  • 修复在Linux下会出现RuntimeError: Cannot re-initialize CUDA in forked subprocess的问题 (#32, #30)
  • 修复了使用小工具“SOME人声转MIDI”时,出现包导入错误的问题 (#33)
  • 自动下载模型后,添加sha256校验,校验失败不再删除失败文件
  • 修复了1.7 preview1-3版本中apollo模型无法使用的问题
  • roformer模型增加use_reentrant=False,可以略微降低显存占用
  • 训练/验证增加多卡验证以加速,bleedless和fullness支持GPU。增加自动重采样以适应模型支持的采样率(与ZFTurbo原仓库一致)
  • 设置页面增加“修改输出音频格式”,可以自定义不同输出格式的音质了!此页面支持用户自定义修改MSST/VR推理后输出音频的质量。输出音频的采样率, 声道数与模型支持的参数有关, 无法更改。修改完成后点击保存设置即可生效。(#34)
  • 继续完善了docs及一些文档

下载链接 (Download Link)

1.7 Preview.3

23 Nov 10:31
Compare
Choose a tag to compare
1.7 Preview.3 Pre-release
Pre-release

Download Link:https://huggingface.co/Sucial/MSST-WebUI/tree/main/1.7%20beta

仍在开发中的内容

由@阿狸不吃隼舞 制作的ComfyMSS正在开发中。ComfyMSS项目代码:https://github.com/KitsuneX07/ComfyMSS(同样的,目前已无明显代码错误,但仍然存在部分BUG,暂未对外发布)可以手动克隆源码体验

目前已完成的更新

  • 拆分webUI.py至webUI文件夹,细分函数和UI代码
  • 增加全局logger,实时保存日志文件(保存的级别为DEBUG)至log文件夹(以“日期.log”格式存储,默认上限为50个日志文件,超过会自动删除)
  • models文件夹已重命名为modules,并重新整理项目文件夹(新增inference和,train,utils等文件夹)
  • 将WebUI入口文件封装成.pyd以防止某些非法修改
  • 将MSST推理和VR推理使用面向对象的方法改写,并且现在推理支持自定义选择需要导出什么音轨(可多选)
  • 所有导出的MP3格式音频文件的采样率默认修改为最高(320kbps)
  • 开始分离按钮从两个修改为一个,会跟随你选择是“输入音频”还是“输入文件夹”自动变化,如下图
  • 去除vr推理的normalization选项,并且修改输出的wav格式质量为44.1khz,32bit
  • 预设流程大更改:
    • 预设将单独保存至data/presets文件夹下,一个预设一个json。备份的预设保存至data/presets_backup
    • 制作预设流程变化至如下:支持选择那个音轨作为下一模型的输入,以及哪些音轨直接保存至输出目录
    • 如果看不懂上面的预设流程,我这有一个较为容易理解的示意图
    • 新增“撤销上一步选项”
    • 管理预设中删除手动触发备份的选项,但每次删除预设时,都会自动进行备份删除的预设
    • 修复了批量音频输入处理时,会出现尝试删除TEMP_PATH的BUG(其实不影响使用)
    • 修复安装完成软件后,直接使用预设流程(从未使用过msst分离而直接使用预设流程)时,无法正确使用gpu_id的bug
  • 小工具"音频格式转换"新增更多输出格式选项
  • Ensenble模式中,修复了音频文件名称带有空格导致输出时报错的BUG
  • MSST训练页面新增"选择输出的评估指标"(多选)和"选择调度器使用的评估指标"(单选)可选参数如下
  • 验证页面也新增了“选择输出的评估指标”(多选),选项和上面相同
  • 重新排版训练页面的UI和验证页面的UI
  • 去除vr推理界面的“debug模式”,在设置中新增全局调试模式: 向开发者反馈问题时请开启。(该选项支持热切换)
  • 设置页面新增“选择webUI主题”,目前有三种主题(蓝色,粉色,蓝色且带有Miku图片)。主题文件存放在tools/themes文件夹内,可以自制json格式的主题进行加载哦!
  • 启动器新增取消快速编辑的模式以防止不必要的影响。由此带来的影响是每次启动都会强制管理员运行(弹一个管理员运行确认窗口)。如果不想管理员启动,或者说启动exe被杀毒软件删了,1.7版本起,我们在软件根目录提供了一个go-webui.bat,其实现的功能和启动exe一模一样,可以直接用这个bat启动
  • 由于WebUI入口文件已封装成.pyd,故去除了启动exe程序的VMProtect保护,现在启动速度更快了
  • API相关:详情可见https://github.com/SUC-DriverOld/MSST-WebUI/blob/develop/docs/inference.md。重写msst_cli和vr_cli,如果需要使用,可以在inference文件夹内找到,具体的使用介绍和方法请阅读docs\inference.md文档。输出目录可以是str或dict。输入可以是音频或Numpy数组。
  • 修改webui_config.json中的部分保存值。现在整个webui中的输入/输出文件夹将共用同一个值。意思是,当你在某处选择好输出文件夹后,第二次启动时,所有的输出文件夹都会默认更改为你上一次的输出文件夹
  • 修改webui_config.json中的部分保存值的类型
  • 优化项目Github页面的README说明
  • 修改MSST WebUI的icon
  • 修复了仅读取.ckpt, .pt文件来判断模型,会导致如果错误的将模型放置到类别文件夹中(例如single_stem_models放到了vocal_models文件夹里)会导致虽然可以读取,但是无法加载使用模型的bug
  • 修复了使用小工具“SOME人声转MIDI”时,出现包导入错误的问题。
  • (自1.7 preview.1起)更新整合包内的ffmpeg版本至2024.9.30版本
  • (自1.7 preview.1起)修复了因数值类型错误导致预设流程中UVR模型无法使用的bug
  • (自1.7 preview.1起)完成了对云端webui及colab的更新
  • (自1.7 preview.1起)完善了docs及一些文档
  • (自1.7 preview.2起)新增GUI模型管理器:
    • 由@阿狸不吃隼舞 使用PySide6开发模型管理器,效果如下(在windows11系统下有云母,透明效果):
    • WebUI的安装模型页面增加了“一键启动模型下载管理器”的按钮
    • exe启动方式也将新增至项目根目录内
  • (自1.7 preview.2起)更新webUI中安装模型页面。现在,选择模型之后,会显示该模型的基本信息,是否已经安装,以及sha256校验
  • (自1.7 preview.2起)自动下载模型后,添加sha256校验,如果校验失败,则会删除错误文件。
  • 其他一些更新

Release 1.6.2

24 Sep 11:55
Compare
Choose a tag to compare

更新

  • 新增对apollo和bs_mamba2模型的支持
  • 新增mp3音质修复模型Apollo_LQ_MP3_restoration.ckpt
  • 新增两个气声分离模型aspiration_mel_band_roformer_(less_aggr)_sdr_18.1201.ckpt
  • MSST分离新增“仅输出次级音轨”功能
  • 非加速训练train.py现在也能使用“训练前验证”功能

优化

  • 优化次级输出选项,当模型配置文件中的target_instrument为null时,默认输出所有音轨,此时“同时输出次级音轨”将更改为“此模型默认输出所有音轨”且无法进行修改。
  • 优化预设流程中MSST模型输出音轨显示。从原先的“primary_only”更改为此模型对应的target_instrument。若此模型的target_instrument为null,则显示“All stems”即输出所有音轨,此时保留次级输出选项无效。
  • 优化WebUI中GPU选择方式。从原先的手动填入GPU ID更改为复选框选择GPU。
  • 优化WebUI中音频输出格式选择。从原先的下拉选择更改为单选框。
  • 将处理输出信息更改为“处理完成,耗时x.xx”。注意:处理完成不一定代表处理成功,有可能中途报错。
  • 第一次使用swin_upernet, segm_models类型的模型时,需要从huggingface上下载pretrain模型,下载链接会根据所处地区进行修改。且下载的模型文件存放在pretrain/hub而非C盘。

修复

  • 修复了当预设流程的预设只使用了一个模型时,无法准确将结果输出到输出文件夹的问题。
  • 修复了预设流程上传音频运行时,错误的将临时目录保存为输入文件夹路径的问题。
  • 修复将gradio cache设置到程序根目录后会导致ensemble模式无法使用的问题。
  • 修复使用swin_upernet模型时出现的报错,详见 (#24)。

下载整合包

Release 1.6.1

15 Sep 07:58
Compare
Choose a tag to compare

更新

  • 支持多条音频同时上传进行分离,而非以文件夹形式上传。
  • Gradio缓存路径从原本的%TEMP%修改至程序目录cache文件夹内。
  • 设置页面增加自动清理缓存: 开启后, 每次启动WebUI时会自动清理缓存。

修复

  • 修复“设置-重置设置/路径记录”无法正确执行的问题 (#20)

Release 1.6.0

12 Sep 14:07
Compare
Choose a tag to compare

更新

  • 新增emoji语言
  • 新增多轨分离模型model_scnet_sdr_9.3244.ckpt,去混响模型dereverb_mdx23c_sdr_6.9096.ckpt
  • 新增和声&混响分离模型dereverb_mel_band_roformer_anvuew_sdr_19.1729.ckptdereverb_mel_band_roformer_less_aggressive_anvuew_sdr_18.8050.ckpt
  • 新增VR去混响模型UVR-DeReverb-aufr33-jarredou_4band_v4_ms_fullband.pth
  • 新增云端专属webUI(目前仅适用于Linux),此webUI默认所有模型可用,推理时缺什么模型,会先自动下载,然后推理。模型默认下载地址是huggingface.co(需要学术加速)。
  • webUI设置增加“对本地局域网开放”的选项。局域网中的设备可通过“本机ip:端口”来访问webUI。
  • 支持添加非官方MSST模型和UVR模型,且非官方模型可以参与预设流程
  • msst分离和预设流程支持选择音频输出格式
  • 支持用户自定义模型名称
  • 更新至原仓库8月28日的commits

优化

  • 细分MSST模型类型和预设流程模型类型,方便在模型数量较多时,筛选出想要使用的模型
  • 优化webui_config.json的备份和恢复逻辑。
  • 简化vr_inference代码,仅保留关键代码,去除复杂的判断过程 (#17, #18)
  • 优化增量更新判断逻辑
  • 删除无用依赖项
  • 整理了配置文件文件夹和第三方配置文件文件夹
  • 大大加快了SDR的计算时间

修复

  • 模型model_vocals_mel_band_roformer_kj_sdr_10.98.ckpt重命名为Kim_MelBandRoformer.ckpt (#19)
  • 修复云端修改模型下载链接后不生效的错误

下载整合包

Release 1.5

17 Aug 07:45
Compare
Choose a tag to compare

更新

  • 支持自定义Grdaio启动端口,自定义选择是否开放对外链接 (#13)
  • MacOS支持,MSST推理支持选择MPS为加速设备。需手动拉源码部署 (#14)
  • 增加“强制停止”按钮,支持在推理/训练过程中,强制停止进程
  • i18n支持,目前支持简体中文,繁体中文,英语,日语 (#15)
  • 支持选择huggingface或huggingface镜像站作为模型下载地址
  • 新增train_accelerate.py代码,对于多显卡用户,能加快训练速度
  • vocal_model新增两个模型:model_mel_band_roformer_karaoke_aufr33_viperx_sdr_10.1956.ckptmodel_vocals_mel_band_roformer_kj_sdr_10.98.ckpt,前一个是去和声模型
  • 小工具中添加“歌声转MIDI”功能,使用项目SOME,需自行下载权重文件后才可使用(1.4.3版本)
  • 设置页面添加系统信息显示,可显示GPU及序号,以及系统版本(1.4.3版本)
  • 预设流程中增加单个音频输入(1.4.3版本)
  • 添加最新去混响模型deverb_bs_roformer_8_384dim_10depth.ckpt(1.4.2版本)
  • MSST分离中,添加子进度条,现在单个音频文件分离也有进度条了(1.4.2版本)
  • 设置页面新增检查更新(1.4.2版本)
  • 添加最新降噪模型denoise_mel_band_roformer_aufr33_sdr_27.9959.ckptdenoise_mel_band_roformer_aufr33_aggr_sdr_27.9768.ckpt(1.4.1版本)
  • 新增bandit_v2模型支持(1.4.1版本)
  • 新增Valid的WebUI页面,在训练MSST的子页面(1.4.1版本)

优化

  • 若检测不到ffmpeg及python,将使用系统环境变量中的值 (#12)
  • 备份和恢复预设的功能迁移至预设流程子页面
  • 优化WebUI布局
  • 更新至原仓库8月15日的commits,优化bs_roformer代码,优化推理代码
  • 将3个去混响模型和2个降噪模型移动至single_stem_model
  • 优化覆盖安装,现在覆盖安装或增量更新后不会重置配置文件了(1.4.3版本)
  • 完善setup_webui函数以适合覆盖安装(1.4.2版本)
  • 小幅度优化了下载模型速度慢的问题(但实际上可能还是很慢)(1.4.2版本)
  • 修改部分模型配置文件参数(1.4.1版本)
  • 优化控制台日志输出(1.4.1版本)

修复

  • 修复requirements.txt部分依赖版本
  • 修复了FLAC格式的音频会导致输出文件名字不正确的bug (#11)(1.4.3版本)
  • 修复了预设流程中重复模型不会推理的bug(1.4.3版本)

下载整合包

若安装完整包后出现无法使用CPU进行推理的情况,请再安装一遍增量包获得更新

Release 1.4.3

09 Aug 13:24
Compare
Choose a tag to compare

更新

  • 小工具中添加“歌声转MIDI”功能,使用项目SOME,需自行下载权重文件后才可使用
  • 添加查看预设的功能。此外,我们将删除预设移动到了查看预设页面
  • 设置页面增加备份和恢复预设的功能
  • 设置页面添加系统信息显示,可显示GPU及序号,以及系统版本
  • dataset中添加verbose选择,配置文件中的use_amp选项现在会影响到推理了
  • 预设流程中增加单个音频输入

优化

  • 优化进度条,现在只有推理会有二级进度条,训练和验证保持仅总进度条
  • 优化覆盖安装,现在覆盖安装或增量更新后不会重置配置文件了

修复

  • 修复了FLAC格式的音频会导致输出文件名字不正确的bug #11
  • 修复了预设流程中重复模型不会推理的bug

下载整合包

Release 1.4.2

04 Aug 13:55
Compare
Choose a tag to compare

更新

  • 添加最新去混响模型deverb_bs_roformer_8_384dim_10depth.ckpt
  • MSST分离中,添加子进度条,现在单个音频文件分离也有进度条了
  • 设置页面新增检查更新

优化

  • 完善setup_webui函数以适合覆盖安装
  • 小幅度优化了下载模型速度慢的问题(但实际上可能还是很慢)

Release 1.4.1

03 Aug 16:40
Compare
Choose a tag to compare

更新

  • 添加最新降噪模型denoise_mel_band_roformer_aufr33_sdr_27.9959.ckpt和denoise_mel_band_roformer_aufr33_aggr_sdr_27.9768.ckpt
  • 项目源码更新至7月31日原作者ZFTurbo的commits
  • 新增bandit_v2模型支持
  • 新增Valid的WebUI页面,在训练MSST的子页面

优化

  • 修改部分模型配置文件参数
  • 优化WebUI布局
  • 优化控制台日志输出

此版本更新了环境,不支持增量更新,需要下载完整包