1. using SentencePiece, Pretrained BPEmb

2. Using 40 Mel channels with 4000Hz upperbound
2026-06-11 01:52:08 +00:00 · 2019-09-24 10:29:34 +05:30
parent f449105b79
commit 6d3788d858
3 changed files with 19 additions and 7 deletions
--- a/data_utils.py
+++ b/data_utils.py
@@ -6,7 +6,7 @@ import torch.utils.data
 import layers
 from utils import load_wav_to_torch, load_filepaths_and_text
 # from text import text_to_sequence
-from spm_codec import text_to_sequence
+from text_codec import text_to_sequence

 class TextMelLoader(torch.utils.data.Dataset):
    """
--- a/hparams.py
+++ b/hparams.py
@@ -39,12 +39,12 @@ def create_hparams(hparams_string=None, verbose=False):
        win_length=1024,
        n_mel_channels=40,
        mel_fmin=0.0,
-        mel_fmax=8000.0,
+        mel_fmax=4000.0,

        ################################
        # Model Parameters             #
        ################################
-        n_symbols=len(symbols),
+        n_symbols=1000,#len(symbols),
        symbols_embedding_dim=512,

        # Encoder parameters
--- a/text_codec.py
+++ b/text_codec.py
@@ -1,10 +1,11 @@
 from utils import load_filepaths_and_text

-# from text import text_to_sequence, sequence_to_text
+from text import text_to_sequence, sequence_to_text

 from hparams import create_hparams
 import sentencepiece as spm
 from text import symbols
+from bpemb import BPEmb


 SPM_CORPUS_FILE = "filelists/text_corpus.txt"
@@ -44,7 +45,18 @@ def _spm_text_codecs():
    return ttseq, seqtt


-text_to_sequence, sequence_to_text = _spm_text_codecs()
+def _bpemb_text_codecs():
+    bpemb_en = BPEmb(lang="en", dim=50, vs=148)
+    def ttseq(text, cleaners):
+        return bpemb_en.encode_ids(text)
+
+    def seqtt(sequence):
+        return bpemb_en.decode_ids(sequence)
+
+    return ttseq, seqtt
+
+# text_to_sequence, sequence_to_text = _spm_text_codecs()
+text_to_sequence, sequence_to_text = _bpemb_text_codecs()


 def _interactive_test():
@@ -56,8 +68,8 @@ def _interactive_test():


 def main():
-    _create_sentencepiece_corpus()
-    _create_sentencepiece_vocab()
+    # _create_sentencepiece_corpus()
+    # _create_sentencepiece_vocab()
    _interactive_test()