Prosody Control VITS: Audio Generation Samples

This repository showcases the performance of our Prosody-Controlled VITS model in comparison to the baseline SOTA VITS model. Below are various evaluation scenarios with audio samples.

🔈 Reference Audios (Original)

These audios serve as reference samples used to guide the prosody of the generated outputs.

Reference Audio	Link
Reference 1	1.wav
Reference 2	2.wav
Reference 3	3.wav
Reference 4	4.wav

🔁 Comparison of Generated Audios

▶️ It's an emergency, Go! Go! Go!

Description	Link
Reference audio 1	1.wav
Reference audio 2	2.wav
Reference audio 3	3.wav
Reference audio 4	4.wav
VITS	vits.wav

▶️ We are done here, let's go

Description	Link
Reference audio 1	1.wav
Reference audio 2	2.wav
Reference audio 3	3.wav
Reference audio 4	4.wav
VITS	vits.wav

🧪 Comparison Sample With Original Audio

▶️ I have to be careful of them, as they tear very easily

Description	Link
Reference audio 1	1.wav
Reference audio 2	2.wav
Reference audio 3	3.wav
Reference audio 4	4.wav
VITS	vits.wav
Original	original.wav

📈 Comparison Over Training Iterations

▶️ It's bed time, let's go to sleep

Iteration	Link
1000	1000.wav
3000	3000.wav
6000	6000.wav
9000	9000.wav
12000	12000.wav
15000	15000.wav
VITS	vits.wav

Each sample demonstrates how emotional prosody and speaker reference can enhance the expressiveness of synthesized speech using our model.

Name		Name	Last commit message	Last commit date
Latest commit History 29 Commits
Final_Audios		Final_Audios
configs		configs
filelists		filelists
monotonic_align		monotonic_align
resources		resources
text		text
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
README_prev.md		README_prev.md
attentions.py		attentions.py
commons.py		commons.py
data_utils.py		data_utils.py
inference.ipynb		inference.ipynb
losses.py		losses.py
mel_processing.py		mel_processing.py
models.py		models.py
modules.py		modules.py
params.ipynb		params.ipynb
preprocess.py		preprocess.py
requirements.txt		requirements.txt
train.py		train.py
train_ms.py		train_ms.py
train_prosody.py		train_prosody.py
transforms.py		transforms.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Prosody Control VITS: Audio Generation Samples

🔈 Reference Audios (Original)

🔁 Comparison of Generated Audios

▶️ It's an emergency, Go! Go! Go!

▶️ We are done here, let's go

🧪 Comparison Sample With Original Audio

▶️ I have to be careful of them, as they tear very easily

📈 Comparison Over Training Iterations

▶️ It's bed time, let's go to sleep

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Prosody Control VITS: Audio Generation Samples

🔈 Reference Audios (Original)

🔁 Comparison of Generated Audios

▶️ It's an emergency, Go! Go! Go!

▶️ We are done here, let's go

🧪 Comparison Sample With Original Audio

▶️ I have to be careful of them, as they tear very easily

📈 Comparison Over Training Iterations

▶️ It's bed time, let's go to sleep

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages