refactored module structure

2026-03-08 02:22:34 +00:00 · 2020-05-21 16:47:45 +05:30
parent 2d5b720284
commit fca9c1aeb3
23 changed files with 17 additions and 115 deletions
--- a/.gitignore
+++ b/.gitignore
@@ -1,4 +1,6 @@
-data/
+/data/
+/model/
+/train/
 .env*
 *.yaml

--- a/jasper/data_utils/validation/jasper_client.py
+++ b/jasper/data_utils/validation/jasper_client.py
--- a/jasper/data_utils/init.py
+++ b/jasper/data_utils/init.py
--- a/jasper/data_utils/asr_recycler.py
+++ b/jasper/data_utils/asr_recycler.py
--- a/jasper/data_utils/call_recycler.py
+++ b/jasper/data_utils/call_recycler.py
@@ -131,10 +131,11 @@ def analyze(
    call_logs = yaml.load(call_logs_file.read_text())

    def get_call_meta(call_obj):
-        s3_event_url_p = urlsplit(call_obj["DataURI"])
+        meta_s3_uri = call_obj["DataURI"]
+        s3_event_url_p = urlsplit(meta_s3_uri)
        saved_meta_path = call_meta_dir / Path(Path(s3_event_url_p.path).name)
        if not saved_meta_path.exists():
-            print(f"downloading : {saved_meta_path}")
+            print(f"downloading : {saved_meta_path} from {meta_s3_uri}")
            s3.download_file(
                s3_event_url_p.netloc, s3_event_url_p.path[1:], str(saved_meta_path)
            )
@@ -206,7 +207,7 @@ def analyze(
        utter_events = uevs[: ev_count - ev_count % 3]
        saved_wav_path = call_media_dir / Path(Path(s3_wav_url_p.path).name)
        if not saved_wav_path.exists():
-            print(f"downloading : {saved_wav_path}")
+            print(f"downloading : {saved_wav_path} from {s3_wav_url}")
            s3.download_file(
                s3_wav_url_p.netloc, s3_wav_url_p.path[1:], str(saved_wav_path)
            )
--- a/jasper/data_utils/process.py
+++ b/jasper/data_utils/process.py
--- a/jasper/data_utils/data_server.py
+++ b/jasper/data_utils/data_server.py
--- a/jasper/data_utils/tts/init.py
+++ b/jasper/data_utils/tts/init.py
--- a/jasper/data_utils/tts/googletts.py
+++ b/jasper/data_utils/tts/googletts.py
--- a/jasper/data_utils/tts/ttsclient.py
+++ b/jasper/data_utils/tts/ttsclient.py
--- a/jasper/data_utils/generator.py
+++ b/jasper/data_utils/generator.py
--- a/jasper/data_utils/utils.py
+++ b/jasper/data_utils/utils.py
--- a/jasper/data_utils/validation/process.py
+++ b/jasper/data_utils/validation/process.py
@@ -22,7 +22,7 @@ def preprocess_datapoint(idx, rel_root, sample, use_domain_asr):
    import librosa.display
    from pydub import AudioSegment
    from nemo.collections.asr.metrics import word_error_rate
-    from jasper.data_utils.validation.jasper_client import (
+    from jasper.client import (
        transcriber_pretrained,
        transcriber_speller,
    )
--- a/jasper/data_utils/validation/st_rerun.py
+++ b/jasper/data_utils/validation/st_rerun.py
--- a/jasper/data_utils/validation/ui.py
+++ b/jasper/data_utils/validation/ui.py
--- a/jasper/data_utils/parallel.py
+++ b/jasper/data_utils/parallel.py
@@ -1,30 +0,0 @@
-import concurrent.futures
-import urllib.request
-
-URLS = [
-    "http://www.foxnews.com/",
-    "http://www.cnn.com/",
-    "http://europe.wsj.com/",
-    "http://www.bbc.co.uk/",
-    "http://some-made-up-domain.com/",
-]
-
-
-# Retrieve a single page and report the URL and contents
-def load_url(url, timeout):
-    with urllib.request.urlopen(url, timeout=timeout) as conn:
-        return conn.read()
-
-
-# We can use a with statement to ensure threads are cleaned up promptly
-with concurrent.futures.ThreadPoolExecutor(max_workers=5) as executor:
-    # Start the load operations and mark each future with its URL
-    future_to_url = {executor.submit(load_url, url, 60): url for url in URLS}
-    for future in concurrent.futures.as_completed(future_to_url):
-        url = future_to_url[future]
-        try:
-            data = future.result()
-        except Exception as exc:
-            print("%r generated an exception: %s" % (url, exc))
-        else:
-            print("%r page is %d bytes" % (url, len(data)))
--- a/jasper/data_utils/validation/orig_ui.py
+++ b/jasper/data_utils/validation/orig_ui.py
@@ -1,73 +0,0 @@
-import json
-from pathlib import Path
-import streamlit as st
-
-# import matplotlib.pyplot as plt
-# import numpy as np
-import librosa
-import librosa.display
-from pydub import AudioSegment
-from jasper.client import transcriber_pretrained, transcriber_speller
-
-# from pymongo import MongoClient
-
-st.title("ASR Speller Validation")
-dataset_path: Path = Path("/dataset/asr_data/call_alphanum_v3")
-manifest_path = dataset_path / Path("test_manifest.json")
-# print(manifest_path)
-with manifest_path.open("r") as pf:
-    pnr_jsonl = pf.readlines()
-    pnr_data = [json.loads(i) for i in pnr_jsonl]
-
-
-def main():
-    # pnr_data = MongoClient("mongodb://localhost:27017/").test.asr_pnr
-    # sample_no = 0
-    sample_no = (
-        st.slider(
-            "Sample",
-            min_value=1,
-            max_value=len(pnr_data),
-            value=1,
-            step=1,
-            format=None,
-            key=None,
-        )
-        - 1
-    )
-    sample = pnr_data[sample_no]
-    st.write(f"Sample No: {sample_no+1} of {len(pnr_data)}")
-    audio_path = Path(sample["audio_filepath"])
-    # st.write(f"Audio Path:{audio_path}")
-    aud_seg = AudioSegment.from_wav(audio_path)  # .set_channels(1).set_sample_width(2).set_frame_rate(24000)
-    st.sidebar.text("Transcription")
-    st.sidebar.text(f"Pretrained:{transcriber_pretrained(aud_seg.raw_data)}")
-    st.sidebar.text(f"Speller:{transcriber_speller(aud_seg.raw_data)}")
-    st.sidebar.text(f"Expected: {audio_path.stem}")
-    spell_text = sample["text"]
-    st.sidebar.text(f"Spelled: {spell_text}")
-    st.audio(audio_path.open("rb"))
-    selected = st.radio("The Audio is", ("Correct", "Incorrect", "Inaudible"))
-    corrected = audio_path.stem
-    if selected == "Incorrect":
-        corrected = st.text_input("Actual:", value=corrected)
-    # content = ''
-    if sample_no > 0 and st.button("Previous"):
-        sample_no -= 1
-    if st.button("Next"):
-        st.write(sample_no, selected, corrected)
-        sample_no += 1
-
-    (y, sr) = librosa.load(audio_path)
-    librosa.display.waveplot(y=y, sr=sr)
-    # arr = np.random.normal(1, 1, size=100)
-    # plt.hist(arr, bins=20)
-    st.sidebar.pyplot()
-
-
-# def main():
-#     app()
-
-
-if __name__ == "__main__":
-    main()
--- a/jasper/training_utils/init.py
+++ b/jasper/training_utils/init.py
--- a/jasper/training_utils/train.py
+++ b/jasper/training_utils/train.py
--- a/jasper/training_utils/data_loaders.py
+++ b/jasper/training_utils/data_loaders.py
--- a/jasper/training_utils/featurizer.py
+++ b/jasper/training_utils/featurizer.py
--- a/setup.py
+++ b/setup.py
@@ -60,12 +60,14 @@ setup(
    entry_points={
        "console_scripts": [
            "jasper_transcribe = jasper.transcribe:main",
-            "jasper_asr_rpyc_server = jasper.server:main",
-            "jasper_asr_trainer = jasper.training_utils.train:main",
-            "jasper_asr_data_generate = jasper.data_utils.generator:main",
-            "jasper_asr_data_recycle = jasper.data_utils.call_recycler:main",
-            "jasper_asr_data_validation = jasper.data_utils.validation.process:main",
-            "jasper_asr_data_preprocess = jasper.data_utils.process:main",
+            "jasper_server = jasper.server:main",
+            "jasper_trainer = jasper.training.cli:main",
+            "jasper_data_generate = jasper.data.tts_generator:main",
+            "jasper_data_call_recycle = jasper.data.call_recycler:main",
+            "jasper_data_asr_recycle = jasper.data.asr_recycler:main",
+            "jasper_data_server = jasper.data.server:main",
+            "jasper_data_validation = jasper.data.validation.process:main",
+            "jasper_data_preprocess = jasper.data.process:main",
        ]
    },
    zip_safe=False,
--- a/streamlit.py
+++ b/streamlit.py
@@ -1,3 +1,3 @@
 import runpy

-runpy.run_module("jasper.data_utils.validation.ui", run_name="__main__", alter_sys=True)
+runpy.run_module("jasper.data.validation.ui", run_name="__main__", alter_sys=True)