From 41af0a87de43f063c77dfea0fc471f41795ae289 Mon Sep 17 00:00:00 2001
From: Malar Kannan <malarkannan.invention@gmail.com>
Date: Wed, 27 May 2020 15:54:16 +0530
Subject: [PATCH] respect verbose flag

---
 jasper/data/asr_recycler.py |  6 ++++--
 jasper/data/rev_recycler.py | 15 ++++++++++-----
 2 files changed, 14 insertions(+), 7 deletions(-)

diff --git a/jasper/data/asr_recycler.py b/jasper/data/asr_recycler.py
index 57e0bc6..d4f7b25 100644
--- a/jasper/data/asr_recycler.py
+++ b/jasper/data/asr_recycler.py
@@ -59,11 +59,13 @@ def extract_data(
             code_wav = code_fb.getvalue()
             # only starting 1 min audio has reliable alignment ignore rest
             if start_time > 60:
-                print(f'start time over 60 seconds of audio skipping.')
+                if verbose:
+                    print(f'start time over 60 seconds of audio skipping.')
                 break
             # only if some reasonable audio data is present yield it
             if code_seg.duration_seconds < 0.5:
-                print(f'transcript chunk "{transcript}" contains no audio skipping.')
+                if verbose:
+                    print(f'transcript chunk "{transcript}" contains no audio skipping.')
                 continue
             yield transcript, code_seg.duration_seconds, code_wav
 
diff --git a/jasper/data/rev_recycler.py b/jasper/data/rev_recycler.py
index c83204a..f37fcaf 100644
--- a/jasper/data/rev_recycler.py
+++ b/jasper/data/rev_recycler.py
@@ -63,7 +63,8 @@ def extract_data(
             # print(monologue["speaker_name"])
             speaker_channel = channel_map.get(monologue["speaker_name"])
             if not speaker_channel:
-                print(f'unknown speaker tag {monologue["speaker_name"]} in wav:{wav_path} skipping.')
+                if verbose:
+                    print(f'unknown speaker tag {monologue["speaker_name"]} in wav:{wav_path} skipping.')
                 continue
             try:
                 start_time = (
@@ -79,7 +80,8 @@ def extract_data(
                     .collect()(monologue)[-1]
                 )
             except IndexError:
-                print(f'error when loading timestamp events in wav:{wav_path} skipping.')
+                if verbose:
+                    print(f'error when loading timestamp events in wav:{wav_path} skipping.')
                 continue
 
             # offset by 500 msec to include first vad? discarded audio
@@ -92,7 +94,8 @@ def extract_data(
             text_clean = re.sub(r"\[.*\]", "", text)
             # only if some reasonable audio data is present yield it
             if tscript_wav_seg.duration_seconds < 0.5:
-                print(f'transcript chunk "{text_clean}" contains no audio in {wav_path} skipping.')
+                if verbose:
+                    print(f'transcript chunk "{text_clean}" contains no audio in {wav_path} skipping.')
                 continue
             yield text_clean, tscript_wav_seg.duration_seconds, tscript_wav
 
@@ -113,7 +116,8 @@ def extract_data(
                     .collect()(monologue)[-1]
                 )
             except IndexError:
-                print(f'error when loading timestamp events in wav:{wav_path} skipping.')
+                if verbose:
+                    print(f'error when loading timestamp events in wav:{wav_path} skipping.')
                 continue
 
             # offset by 500 msec to include first vad? discarded audio
@@ -125,7 +129,8 @@ def extract_data(
             text = "".join(lens["elements"].Each()["value"].collect()(monologue))
             text_clean = re.sub(r"\[.*\]", "", text)
             if tscript_wav_seg.duration_seconds < 0.5:
-                print(f'transcript chunk "{text_clean}" contains no audio in {wav_path} skipping.')
+                if verbose:
+                    print(f'transcript chunk "{text_clean}" contains no audio in {wav_path} skipping.')
                 continue
             yield text_clean, tscript_wav_seg.duration_seconds, tscript_wav