From 6d3788d858731d3f72156bd87cdf09e53d4e7571 Mon Sep 17 00:00:00 2001
From: Malar Kannan <malarkannan.invention@gmail.com>
Date: Tue, 24 Sep 2019 10:29:34 +0530
Subject: [PATCH] 1. using SentencePiece, Pretrained BPEmb 2. Using 40 Mel
 channels with 4000Hz upperbound

---
 data_utils.py                 |  2 +-
 hparams.py                    |  4 ++--
 spm_codec.py => text_codec.py | 20 ++++++++++++++++----
 3 files changed, 19 insertions(+), 7 deletions(-)
 rename spm_codec.py => text_codec.py (74%)

diff --git a/data_utils.py b/data_utils.py
index 40fdbad..f842baa 100644
--- a/data_utils.py
+++ b/data_utils.py
@@ -6,7 +6,7 @@ import torch.utils.data
 import layers
 from utils import load_wav_to_torch, load_filepaths_and_text
 # from text import text_to_sequence
-from spm_codec import text_to_sequence
+from text_codec import text_to_sequence
 
 class TextMelLoader(torch.utils.data.Dataset):
     """
diff --git a/hparams.py b/hparams.py
index 9a34a14..ef38ee4 100644
--- a/hparams.py
+++ b/hparams.py
@@ -39,12 +39,12 @@ def create_hparams(hparams_string=None, verbose=False):
         win_length=1024,
         n_mel_channels=40,
         mel_fmin=0.0,
-        mel_fmax=8000.0,
+        mel_fmax=4000.0,
 
         ################################
         # Model Parameters             #
         ################################
-        n_symbols=len(symbols),
+        n_symbols=1000,#len(symbols),
         symbols_embedding_dim=512,
 
         # Encoder parameters
diff --git a/spm_codec.py b/text_codec.py
similarity index 74%
rename from spm_codec.py
rename to text_codec.py
index 92cdb9f..320a821 100644
--- a/spm_codec.py
+++ b/text_codec.py
@@ -1,10 +1,11 @@
 from utils import load_filepaths_and_text
 
-# from text import text_to_sequence, sequence_to_text
+from text import text_to_sequence, sequence_to_text
 
 from hparams import create_hparams
 import sentencepiece as spm
 from text import symbols
+from bpemb import BPEmb
 
 
 SPM_CORPUS_FILE = "filelists/text_corpus.txt"
@@ -44,7 +45,18 @@ def _spm_text_codecs():
     return ttseq, seqtt
 
 
-text_to_sequence, sequence_to_text = _spm_text_codecs()
+def _bpemb_text_codecs():
+    bpemb_en = BPEmb(lang="en", dim=50, vs=148)
+    def ttseq(text, cleaners):
+        return bpemb_en.encode_ids(text)
+
+    def seqtt(sequence):
+        return bpemb_en.decode_ids(sequence)
+
+    return ttseq, seqtt
+
+# text_to_sequence, sequence_to_text = _spm_text_codecs()
+text_to_sequence, sequence_to_text = _bpemb_text_codecs()
 
 
 def _interactive_test():
@@ -56,8 +68,8 @@ def _interactive_test():
 
 
 def main():
-    _create_sentencepiece_corpus()
-    _create_sentencepiece_vocab()
+    # _create_sentencepiece_corpus()
+    # _create_sentencepiece_vocab()
     _interactive_test()