Tutorial Pembuatan Voicebank

Tutorial ini membahas rekaman dan OTOing.


Rilis resmi Arpasing ada di situs web Kanru Hua.


Meskipun kamu bisa pakai program apapun untuk rekaman, akan lebih mudah untuk rekaman dengan OREMO. Jika saat ini kamu tidak tahu cara memakainya, anggap ini sebagai kesempatan untuk belajar. Jika kamu berencana melakukan pemrosesan sampel, kamu harus melakukannya setelah rekaman.
Download resmi: OSDN
Wine wrapper untuk macOS UTAForum
Terjemahan Inggris OREMO Mac: UTAForum
(Aku merekomendasikan wine wrapper karena OREMO Mac tidak punya kotak comment.)


Jika kamu benar-benar tidak bisa pakai OREMO, kamu harus merujuk proposal PDF dalam unduhan Arpasing dari situs web Mr. Hua. Scroll ke bawah untuk melihat reclist, dan beri nama tiap file dengan nomor pasangannya.


Untuk memulai, download daftar reclist bawaan terbaru dari halaman reclist.
Folder berisi tiga file reclist, file comment OREMO, dan file index.
Daftar inti adalah nomor 000 sampai 119, n gram coverage 220 sampai 319, dan vokal terisolasi adalah nomor 320 sampai 334.
File komentar OREMO membantumu melihat fonem/kata-kata sebenarnya yang sesuai dengan masing-masing nomor.
File index adalah file referensi Moresampler untuk membuat OTO.
Kalau kamu memakai reclist selain reclist bawaan, kemungkinan besar mereka juga berisi reclist, komentar, dan indeks yang sama.


Buat folder untuk voicebankmu, copy paste index.csv dan OREMO-comment.txt ke dalam folder tersebut. Di OREMO, buka daftar inti sebagai reclist. (Setelah selesai, ganti ke daftar n gram, lalu daftar vokal.) atur folder tujuan ke folder barumu.


Kamu bisa merekam dengan atau tanpa paduan BGM. Jika kamu mau menggunakan panduan BGM, saya sarankan untuk menggunakan BGM CVVC yang pendek, seperti BGM CVVChinese atau VCCV English BGM.


File komentar akan memberi gambaran cara pengucapan dengan kata-kata dan gambaran pastinya dengan Arpabet. Artikel pendek ini menjelaskan cara membaca dan melafalkan arpabet. Aslinya ini lumayan gampang! Jika kamu sudah sudah familiar dengan sistem fonetik lan seperti milik PaintedCZ atau X-SAMPA, rujuk grafik di halaman ini.
Selain string vokal, masing-masing string cuma punya 1 tipe huruf vokal. Ketiga suku kata akan berima.


Nyanyikan 3 suku kata secara berurutan seperti VCV. Jika ada "q" dalam fonetik (atau tanda kutip) itu berarti jeda singkat (glottal stop).
Sebagai rujukan, kamu bisa download voicebanks yang ada dari direktori voicebank.


UNTUK MULTIPITCH: Pastikan OTO yang terletak di folder utama punya pitch tanpa sufiks. Pastikan juga pitch lain dalam subfoldernya sendiri. Jangan menambahkan sufiks ke nama file karena index.csv tidak bisa membuat rujukan sesuai nama file yang tidak tertera dalam indeks.




Ke OTO-ing! Cukup drag dan drop folder ke moresampler.exe untuk memulai.
Ketik 3 lalu enter untuk memilih arpasing. Saat diminta memberi nama duplikat, masukkan y atau yes. Kapanpun ada kemiripan lirik dari sampel berbeda, seperti [s t], Moresampler akan memberi akhiran angka yang berfungsi untuk membedakan lirik yang sama karena kedengarannya bisa berbeda dikarenakan konteks fonem terdekatnya dalam string. Kamu juga bisa memilih untuk menyertakan akhiran. huruf kanji dan panah tidak bisa dimasukkan, jadi kamu harus menggunakan akhiran seperti "S" atau "A#3".


Kalau kamu menggunakan Mac atau Linux, Kamu harus menggunakan wine untuk menjalankan Moresampler. Buka terminal di folder tempat moresampler.exe, dan ketik "wine moresampler.exe / jalur / ke / voicebank". Jika tidak bisa, transfer filemu ke komputer windows, atau mintalah seorang teman yang punya Windows untuk membuatnya.


Sekarang OTO dasar sudah jadi, saatnya merapikan. Setiap entri OTO adalah difon, yang artinya hanya ada dua fonem/suara. Umumnya, yang pertama menyambung nada sebelumnya, sedang yang kedua adalah fonem utama. Untuk OTO, pertama-tama cari bagian yang sesuai dengan fonem pertama, lalu cari bagian untuk fonem kedua.


Fonem pertama


Ini mencakup offset biru dan tumpang tindih.


[-]
Jumlah overlap sama sekali tidak penting untuk bagian ini, karena not ini selalu muncul pada awal kalimat, tepat setelah rest. SAtu-satunya hal yang penting adalah not ini mencakup area diam.



[c]
Plosive tanpa suara (p t k)
Jika ini adalah fonem pertama dalam string, geser offset sehingga overlap berakhir sekitar 15msec sebelum konsonan.
Jika ada fonem lain sebelumnya, pindahkan offset ke akhir fonem sebelumnya. Pastikan fonem sebelumnya tidak terdengar lalu geser overlap sekitar 15msec sebelum konsonan.



Plosive bersuara dan Affricate (b d g ch jh)
Jika ini adalah fonem pertama dalam string, gerakkan offset sehingga overlap beraakhir di tempat konsonan dimulai.
Jika ada fonem lain sebelum ini, pindahkan offset ke akhir fonem sebelumnya. Pastikan Aastikan fonem sebelumnya tidak terdengar lalu geser overlap ke awal konsonan.



Frikatif, nasal, dan cairan (f v th dh s z sh zh hh m n ng l r)
Pindahkan offset ke tempat konsonan dimulai. Untuk 'r', lihat bagian glides untuk lebih lanjut.



Glides / Luncuran (y w)
Konsonan ini sulit dilihat pada tampilan normal. Dengan mengklik tombol [s], kamu bisa beralih ke tampilan spectrogram, cara lain untuk memvisualisasikan audio. Area terang adalah frekuensi paling keras. Konsonan ini muncul sebagai perubahan frekuensi dari waktu ke waktu.
Pindahkan offset ke tempat konsonan dimulai, lalu letakkan overlap di tempat yang konsisten sebelum perubahan. Preutterance akan berakhir setelah perubahan.




[v]
Secara default, overlap sampel ini harus berada pada jumlah tertinggi. Jika jumlahnya ternyata sangat kecil, menggeser overlap sekiar 50ms akan cukup membantu.
Pindahkan offset awal sehingga area antara dan overlap berada di tingkat yang konsisten.



Fonem kedua


Harus diingat bahwa preutterance harus ditempatkan di akhir fonem pertama dan awal fonem kedua. Ini juga mencakup area pink, putih, dan biru.


[c]
Stops/Berhenti (p b t d k g ch jh)
Seharusnya ada keheningan sesaat sebelum konsonan. Gerakkan garis pink di tempat keheningan dimulai dan cutoff ke akhir keheningan. Ya, kita tidak memasukkan konsonannya. Karena dalam .UST not ini akan diikuti not lain yang TIDAK berkonsonan. Ini akan memungkinkan transisi yang mulus tanpa suara konsonan ganda.



Frikatif (f v th dh s z sh zh hh)
Tutupi seluruh konsonan dengan warna pink sampai akhir. Geser cutoff ke area yang sama lalu tinggalkan sedikit celah. Tanpa celah ini, resampler tidak akan bisa merendernya. Tapi kita juga tidak mau konsonan ini dipanjangkan.



Jika ada masih keheningan setelah konsonan, isi area putih dengan keheningan.



Nasal, liquid dan luncuran (m n ng l r y w)
Geser area pink ke tempat konsonan mulai stabil dan konsisten. Gunakan cutoff untuk menghapus konsonan yang memudar. Konsonan ini aman untuk dipanjangkan.



[v]
Geser area pink ke tempat vokal mulai stabil dan konsisten. Gunakan cutoff untuk menghapus vokal yang memudar. Area putih akan menjadi bagian not yang dipanjangkan, untuk memastikan hasil terdengar bagus.



[-]
Tutupi semuanga dengan warna pink, sampai semua area putih berisi keheningan.



Dan itu dia, voicebankmu sudah selesai. Jika kamu belum punya gambar untuk VBmu, Partial akan membuatkanmu satu secara gratis di thread ini. Kirimkan vb yang sudah dirilis ke direktori. Selamat bersenang-senang!

Arpasing

Home

About

Resource


Daftar isi

Kontak