From 2ae269d939ab2b25becddd37cc01eb547218a322 Mon Sep 17 00:00:00 2001
From: Malar Kannan <malar@avaz.in>
Date: Thu, 28 Dec 2017 20:01:44 +0530
Subject: [PATCH] generating test for phone seg model

---
 speech_samplegen.py | 13 +++++++------
 1 file changed, 7 insertions(+), 6 deletions(-)

diff --git a/speech_samplegen.py b/speech_samplegen.py
index 2b6faa4..ee390dc 100644
--- a/speech_samplegen.py
+++ b/speech_samplegen.py
@@ -12,9 +12,9 @@ import time
 from tqdm import tqdm
 
 from generate_similar import similar_phoneme_phrase,similar_phrase
-from speech_tools import hms_string,create_dir,format_filename
+from speech_tools import hms_string,create_dir,format_filename,reservoir_sample
 
-OUTPUT_NAME = 'story_phrases'
+OUTPUT_NAME = 'test_5_words'
 dest_dir = os.path.abspath('.') + '/outputs/' + OUTPUT_NAME + '/'
 dest_file = './outputs/' + OUTPUT_NAME + '.csv'
 
@@ -224,7 +224,7 @@ def generate_audio_for_stories():
     text_list = sorted(list(set(text_list_dup)))
     generate_audio_for_text_list(text_list)
 
-def generate_test_audio_for_stories():
+def generate_test_audio_for_stories(sample_count=0):
     story_file = './inputs/all_stories_hs.json'
     # story_file = './inputs/all_stories.json'
     stories_data = json.load(open(story_file))
@@ -234,11 +234,12 @@ def generate_test_audio_for_stories():
     word_list = [i.strip('\n_') for i in open('./inputs/wordlist.txt','r').readlines()]
     text_set = set(text_list)
     new_word_list = [i for i in word_list if i not in text_set and len(i) > 4]
-    test_words = new_word_list[:int(len(text_list)/5+1)]
+    # test_words = new_word_list[:int(len(text_list)/5+1)]
+    test_words = reservoir_sample(new_word_list,sample_count) if sample_count > 0 else new_word_list
     generate_audio_for_text_list(test_words)
 
 
 if __name__ == '__main__':
-    # generate_test_audio_for_stories()
+    generate_test_audio_for_stories(5)
     # generate_audio_for_text_list(['I want to go home','education'])
-    generate_audio_for_stories()
+    # generate_audio_for_stories()