GPT-SOVITS模型|于新声音模型于新配音模型|

10天前更新

160

擅长领域磁性浑厚，自然动听｜情感，宣传片，影视，动漫，纪录片，百科，历史

模型配音效果

鉴于GPT-SOVITS模型自回归特性，即其配音情绪高度依赖于所提供的参考音频，特此说明：本视频所展示的配音情绪仅为采用某一特定参考音频时的效果示例，并不全面反映GPT-SOVITS模型能够生成的全部情绪范围及最终配音质量的上限。模型的最终表现将随着不同参考音频的输入而展现出多样化。

模型下载

训练日志

2024-08-09 10:09:47,857	于新	INFO	{'train': {'log_interval': 100, 'eval_interval': 500, 'seed': 1234, 'epochs': 25, 'learning_rate': 0.0001, 'betas': [0.8, 0.99], 'eps': 1e-09, 'batch_size': 4, 'fp16_run': True, 'lr_decay': 0.999875, 'segment_size': 20480, 'init_lr_ratio': 1, 'warmup_epochs': 0, 'c_mel': 45, 'c_kl': 1.0, 'text_low_lr_rate': 0.4, 'pretrained_s2G': 'GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2G2333k.pth', 'pretrained_s2D': 'GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2D2333k.pth', 'if_save_latest': True, 'if_save_every_weights': True, 'save_every_epoch': 25, 'gpu_numbers': '0'}, 'data': {'max_wav_value': 32768.0, 'sampling_rate': 32000, 'filter_length': 2048, 'hop_length': 640, 'win_length': 2048, 'n_mel_channels': 128, 'mel_fmin': 0.0, 'mel_fmax': None, 'add_blank': True, 'n_speakers': 300, 'cleaned_text': True, 'exp_dir': 'logs/于新'}, 'model': {'inter_channels': 192, 'hidden_channels': 192, 'filter_channels': 768, 'n_heads': 2, 'n_layers': 6, 'kernel_size': 3, 'p_dropout': 0.1, 'resblock': '1', 'resblock_kernel_sizes': [3, 7, 11], 'resblock_dilation_sizes': [[1, 3, 5], [1, 3, 5], [1, 3, 5]], 'upsample_rates': [10, 8, 2, 2, 2], 'upsample_initial_channel': 512, 'upsample_kernel_sizes': [16, 16, 8, 2, 2], 'n_layers_q': 3, 'use_spectral_norm': False, 'gin_channels': 512, 'semantic_frame_rate': '25hz', 'freeze_quantizer': True, 'version': 'v2'}, 's2_ckpt_dir': 'logs/于新', 'content_module': 'cnhubert', 'save_weight_dir': 'SoVITS_weights_v2', 'name': '于新', 'version': 'v2', 'pretrain': None, 'resume_step': None}
2024-08-09 10:09:48,775	于新	INFO	loaded pretrained GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2G2333k.pth
2024-08-09 10:09:48,937	于新	INFO	loaded pretrained GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2D2333k.pth
2024-08-09 10:10:06,976	于新	INFO	Train Epoch: 1 [0%]
2024-08-09 10:10:06,976	于新	INFO	[3.1496379375457764, 1.9902117252349854, 7.920314311981201, 22.499439239501953, 0.0, 3.335536479949951, 0, 9.99875e-05]
2024-08-09 10:10:23,753	于新	INFO	====> Epoch: 1
2024-08-09 10:10:39,387	于新	INFO	====> Epoch: 2
2024-08-09 10:10:54,250	于新	INFO	====> Epoch: 3
2024-08-09 10:11:05,345	于新	INFO	Train Epoch: 4 [70%]
2024-08-09 10:11:05,351	于新	INFO	[2.823479413986206, 2.177137613296509, 6.573363304138184, 18.72389793395996, 0.0, 1.3035833835601807, 100, 9.995000937421877e-05]
2024-08-09 10:12:31,374	于新	INFO	{'train': {'log_interval': 100, 'eval_interval': 500, 'seed': 1234, 'epochs': 20, 'learning_rate': 0.0001, 'betas': [0.8, 0.99], 'eps': 1e-09, 'batch_size': 3, 'fp16_run': True, 'lr_decay': 0.999875, 'segment_size': 20480, 'init_lr_ratio': 1, 'warmup_epochs': 0, 'c_mel': 45, 'c_kl': 1.0, 'text_low_lr_rate': 0.4, 'pretrained_s2G': 'GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2G2333k.pth', 'pretrained_s2D': 'GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2D2333k.pth', 'if_save_latest': True, 'if_save_every_weights': True, 'save_every_epoch': 20, 'gpu_numbers': '0'}, 'data': {'max_wav_value': 32768.0, 'sampling_rate': 32000, 'filter_length': 2048, 'hop_length': 640, 'win_length': 2048, 'n_mel_channels': 128, 'mel_fmin': 0.0, 'mel_fmax': None, 'add_blank': True, 'n_speakers': 300, 'cleaned_text': True, 'exp_dir': 'logs/于新'}, 'model': {'inter_channels': 192, 'hidden_channels': 192, 'filter_channels': 768, 'n_heads': 2, 'n_layers': 6, 'kernel_size': 3, 'p_dropout': 0.1, 'resblock': '1', 'resblock_kernel_sizes': [3, 7, 11], 'resblock_dilation_sizes': [[1, 3, 5], [1, 3, 5], [1, 3, 5]], 'upsample_rates': [10, 8, 2, 2, 2], 'upsample_initial_channel': 512, 'upsample_kernel_sizes': [16, 16, 8, 2, 2], 'n_layers_q': 3, 'use_spectral_norm': False, 'gin_channels': 512, 'semantic_frame_rate': '25hz', 'freeze_quantizer': True, 'version': 'v2'}, 's2_ckpt_dir': 'logs/于新', 'content_module': 'cnhubert', 'save_weight_dir': 'SoVITS_weights_v2', 'name': '于新', 'version': 'v2', 'pretrain': None, 'resume_step': None}
2024-08-09 10:12:32,273	于新	INFO	loaded pretrained GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2G2333k.pth
2024-08-09 10:12:32,446	于新	INFO	loaded pretrained GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2D2333k.pth
2024-08-09 10:12:49,717	于新	INFO	Train Epoch: 1 [0%]
2024-08-09 10:12:49,718	于新	INFO	[3.153109550476074, 1.9465125799179077, 7.29638147354126, 22.019227981567383, 0.0, 2.7570810317993164, 0, 9.99875e-05]
2024-08-09 10:13:09,698	于新	INFO	====> Epoch: 1
2024-08-09 10:13:27,125	于新	INFO	====> Epoch: 2
2024-08-09 10:13:40,948	于新	INFO	Train Epoch: 3 [78%]
2024-08-09 10:13:40,957	于新	INFO	[2.6408779621124268, 1.9174721240997314, 7.859657287597656, 18.377138137817383, 0.0, 1.5048741102218628, 100, 9.996250468730469e-05]
2024-08-09 10:13:44,696	于新	INFO	====> Epoch: 3
2024-08-09 10:14:01,941	于新	INFO	====> Epoch: 4
2024-08-09 10:14:19,067	于新	INFO	====> Epoch: 5
2024-08-09 10:14:29,384	于新	INFO	Train Epoch: 6 [56%]
2024-08-09 10:14:29,391	于新	INFO	[2.503169536590576, 2.2726094722747803, 7.643776893615723, 17.029273986816406, 0.0, 1.6093411445617676, 200, 9.99250234335941e-05]
2024-08-09 10:14:36,459	于新	INFO	====> Epoch: 6
2024-08-09 10:14:53,761	于新	INFO	====> Epoch: 7
2024-08-09 10:15:10,798	于新	INFO	====> Epoch: 8
2024-08-09 10:15:17,420	于新	INFO	Train Epoch: 9 [33%]
2024-08-09 10:15:17,426	于新	INFO	[2.5298006534576416, 2.308992862701416, 7.624506950378418, 16.099266052246094, 0.0, 1.6415294408798218, 300, 9.98875562335968e-05]
2024-08-09 10:15:28,119	于新	INFO	====> Epoch: 9
2024-08-09 10:15:45,259	于新	INFO	====> Epoch: 10
2024-08-09 10:16:02,351	于新	INFO	====> Epoch: 11
2024-08-09 10:16:05,128	于新	INFO	Train Epoch: 12 [11%]
2024-08-09 10:16:05,131	于新	INFO	[2.392897129058838, 2.306262493133545, 9.07137680053711, 19.44158935546875, 0.0, 1.4533690214157104, 400, 9.98501030820433e-05]
2024-08-09 10:16:19,939	于新	INFO	====> Epoch: 12
2024-08-09 10:16:37,001	于新	INFO	====> Epoch: 13
2024-08-09 10:16:52,678	于新	INFO	Train Epoch: 14 [89%]
2024-08-09 10:16:52,684	于新	INFO	[2.4441587924957275, 2.4001779556274414, 8.549159049987793, 18.354042053222656, 0.0, 0.906073808670044, 500, 9.982514211643064e-05]
2024-08-09 10:16:54,479	于新	INFO	====> Epoch: 14
2024-08-09 10:17:11,973	于新	INFO	====> Epoch: 15
2024-08-09 10:17:29,479	于新	INFO	====> Epoch: 16
2024-08-09 10:17:41,910	于新	INFO	Train Epoch: 17 [67%]
2024-08-09 10:17:41,918	于新	INFO	[2.442310333251953, 2.4451606273651123, 7.468312740325928, 18.82732391357422, 0.0, 1.3996145725250244, 600, 9.978771236724554e-05]
2024-08-09 10:17:47,198	于新	INFO	====> Epoch: 17
2024-08-09 10:18:04,553	于新	INFO	====> Epoch: 18
2024-08-09 10:18:21,776	于新	INFO	====> Epoch: 19
2024-08-09 10:18:30,409	于新	INFO	Train Epoch: 20 [44%]
2024-08-09 10:18:30,417	于新	INFO	[2.478011131286621, 2.2006115913391113, 8.228403091430664, 17.355730056762695, 0.0, 1.4401397705078125, 700, 9.975029665246193e-05]
2024-08-09 10:18:39,486	于新	INFO	Saving model and optimizer state at iteration 20 to logs/于新/logs_s2\G_233333333333.pth
2024-08-09 10:18:40,146	于新	INFO	Saving model and optimizer state at iteration 20 to logs/于新/logs_s2\D_233333333333.pth
2024-08-09 10:18:40,790	于新	INFO	saving ckpt 于新_e20:Success.
2024-08-09 10:18:40,790	于新	INFO	====> Epoch: 20