jasper-asr/jasper/data/rev_recycler.py

import typer
from itertools import chain
from io import BytesIO
from pathlib import Path
import re

app = typer.Typer()


@app.command()
def extract_data(
    call_audio_dir: Path = typer.Option(Path("/dataset/rev/wavs"), show_default=True),
    call_meta_dir: Path = typer.Option(Path("/dataset/rev/jsons"), show_default=True),
    output_dir: Path = typer.Option(Path("./data"), show_default=True),
    dataset_name: str = typer.Option("rev_transribed", show_default=True),
    verbose: bool = False,
):
    from pydub import AudioSegment
    from .utils import ExtendedPath, asr_data_writer, strip_silence
    from lenses import lens
    import datetime

    call_asr_data: Path = output_dir / Path("asr_data")
    call_asr_data.mkdir(exist_ok=True, parents=True)

    def wav_event_generator(call_audio_dir):
        for wav_path in call_audio_dir.glob("**/*.wav"):
            if verbose:
                typer.echo(f"loading events for file {wav_path}")
            call_wav = AudioSegment.from_file_using_temporary_files(wav_path)
            rel_meta_path = wav_path.with_suffix(".json").relative_to(call_audio_dir)
            meta_path = call_meta_dir / rel_meta_path
            if meta_path.exists():
                events = ExtendedPath(meta_path).read_json()
                yield call_wav, wav_path, events
            else:
                if verbose:
                    typer.echo(f"missing json corresponding to {wav_path}")

    def contains_asr(x):
        return "AsrResult" in x

    def channel(n):
        def filter_func(ev):
            return (
                ev["AsrResult"]["Channel"] == n
                if "Channel" in ev["AsrResult"]
                else n == 0
            )

        return filter_func

    def time_to_msecs(time_str):
        return (
            datetime.datetime.strptime(time_str, "%H:%M:%S,%f")
            - datetime.datetime(1900, 1, 1)
        ).total_seconds() * 1000

    def process_utterance_chunk(wav_seg, start_time, end_time, monologue):
        # offset by 1sec left side to include vad? discarded audio
        full_tscript_wav_seg = wav_seg[
            time_to_msecs(start_time) - 1000 : time_to_msecs(end_time)  # + 1000
        ]
        tscript_wav_seg = strip_silence(full_tscript_wav_seg)
        tscript_wav_fb = BytesIO()
        tscript_wav_seg.export(tscript_wav_fb, format="wav")
        tscript_wav = tscript_wav_fb.getvalue()
        text = "".join(lens["elements"].Each()["value"].collect()(monologue))
        text_clean = re.sub(r"\[.*\]", "", text)
        return tscript_wav, tscript_wav_seg.duration_seconds, text_clean

    def dual_asr_data_generator(wav_seg, wav_path, meta):
        left_audio, right_audio = wav_seg.split_to_mono()
        channel_map = {"Agent": right_audio, "Client": left_audio}
        monologues = lens["monologues"].Each().collect()(meta)
        for monologue in monologues:
            # print(monologue["speaker_name"])
            speaker_channel = channel_map.get(monologue["speaker_name"])
            if not speaker_channel:
                if verbose:
                    print(
                        f'unknown speaker tag {monologue["speaker_name"]} in wav:{wav_path} skipping.'
                    )
                continue
            try:
                start_time = (
                    lens["elements"]
                    .Each()
                    .Filter(lambda x: "timestamp" in x)["timestamp"]
                    .collect()(monologue)[0]
                )
                end_time = (
                    lens["elements"]
                    .Each()
                    .Filter(lambda x: "end_timestamp" in x)["end_timestamp"]
                    .collect()(monologue)[-1]
                )
            except IndexError:
                if verbose:
                    print(
                        f"error when loading timestamp events in wav:{wav_path} skipping."
                    )
                continue
            tscript_wav, seg_dur, text_clean = process_utterance_chunk(
                speaker_channel, start_time, end_time, monologue
            )
            if seg_dur < 0.5:
                if verbose:
                    print(
                        f'transcript chunk "{text_clean}" contains no audio in {wav_path} skipping.'
                    )
                continue
            yield text_clean, seg_dur, tscript_wav

    def mono_asr_data_generator(wav_seg, wav_path, meta):
        monologues = lens["monologues"].Each().collect()(meta)
        for monologue in monologues:
            try:
                start_time = (
                    lens["elements"]
                    .Each()
                    .Filter(lambda x: "timestamp" in x)["timestamp"]
                    .collect()(monologue)[0]
                )
                end_time = (
                    lens["elements"]
                    .Each()
                    .Filter(lambda x: "end_timestamp" in x)["end_timestamp"]
                    .collect()(monologue)[-1]
                )
            except IndexError:
                if verbose:
                    print(
                        f"error when loading timestamp events in wav:{wav_path} skipping."
                    )
                continue

            tscript_wav, seg_dur, text_clean = process_utterance_chunk(
                wav_seg, start_time, end_time, monologue
            )
            if seg_dur < 0.5:
                if verbose:
                    print(
                        f'transcript chunk "{text_clean}" contains no audio in {wav_path} skipping.'
                    )
                continue
            yield text_clean, seg_dur, tscript_wav

    def generate_rev_asr_data():
        full_asr_data = []
        total_duration = 0
        for wav, wav_path, ev in wav_event_generator(call_audio_dir):
            if wav.channels > 2:
                print(f"skipping many channel audio {wav_path}")
            asr_data_generator = (
                mono_asr_data_generator
                if wav.channels == 1
                else dual_asr_data_generator
            )
            asr_data = asr_data_generator(wav, wav_path, ev)
            total_duration += wav.duration_seconds
            full_asr_data.append(asr_data)
        typer.echo(f"loaded {len(full_asr_data)} calls of duration {total_duration}s")
        n_dps = asr_data_writer(call_asr_data, dataset_name, chain(*full_asr_data))
        typer.echo(f"written {n_dps} data points")

    generate_rev_asr_data()


def main():
    app()


if __name__ == "__main__":
    main()
1. enabled silece stripping in chunks when recycling audio from asr logs 2. limit asr recycling to 1 min of start audio to get reliable alignments and ignoring agent channel 3. added rev recycler for generating asr dataset from rev transcripts and audio 4. update pydub dependency for silence stripping fn and removing threadpool hardcoded worker count 2020-05-27 08:52:44 +00:00			`import typer`
			`from itertools import chain`
			`from io import BytesIO`
			`from pathlib import Path`
			`import re`

			`app = typer.Typer()`


			`@app.command()`
			`def extract_data(`
			`call_audio_dir: Path = typer.Option(Path("/dataset/rev/wavs"), show_default=True),`
			`call_meta_dir: Path = typer.Option(Path("/dataset/rev/jsons"), show_default=True),`
			`output_dir: Path = typer.Option(Path("./data"), show_default=True),`
			`dataset_name: str = typer.Option("rev_transribed", show_default=True),`
			`verbose: bool = False,`
			`):`
			`from pydub import AudioSegment`
			`from .utils import ExtendedPath, asr_data_writer, strip_silence`
			`from lenses import lens`
			`import datetime`

			`call_asr_data: Path = output_dir / Path("asr_data")`
			`call_asr_data.mkdir(exist_ok=True, parents=True)`

			`def wav_event_generator(call_audio_dir):`
			`for wav_path in call_audio_dir.glob("*/.wav"):`
			`if verbose:`
			`typer.echo(f"loading events for file {wav_path}")`
			`call_wav = AudioSegment.from_file_using_temporary_files(wav_path)`
			`rel_meta_path = wav_path.with_suffix(".json").relative_to(call_audio_dir)`
			`meta_path = call_meta_dir / rel_meta_path`
			`if meta_path.exists():`
			`events = ExtendedPath(meta_path).read_json()`
			`yield call_wav, wav_path, events`
			`else:`
1. refactored wav chunk processing method 2. renamed streamlit to validation_ui 2020-05-28 05:48:39 +00:00			`if verbose:`
			`typer.echo(f"missing json corresponding to {wav_path}")`
1. enabled silece stripping in chunks when recycling audio from asr logs 2. limit asr recycling to 1 min of start audio to get reliable alignments and ignoring agent channel 3. added rev recycler for generating asr dataset from rev transcripts and audio 4. update pydub dependency for silence stripping fn and removing threadpool hardcoded worker count 2020-05-27 08:52:44 +00:00
			`def contains_asr(x):`
			`return "AsrResult" in x`

			`def channel(n):`
			`def filter_func(ev):`
			`return (`
			`ev["AsrResult"]["Channel"] == n`
			`if "Channel" in ev["AsrResult"]`
			`else n == 0`
			`)`

			`return filter_func`

			`def time_to_msecs(time_str):`
			`return (`
			`datetime.datetime.strptime(time_str, "%H:%M:%S,%f")`
			`- datetime.datetime(1900, 1, 1)`
			`).total_seconds() * 1000`

1. refactored wav chunk processing method 2. renamed streamlit to validation_ui 2020-05-28 05:48:39 +00:00			`def process_utterance_chunk(wav_seg, start_time, end_time, monologue):`
			`# offset by 1sec left side to include vad? discarded audio`
			`full_tscript_wav_seg = wav_seg[`
			`time_to_msecs(start_time) - 1000 : time_to_msecs(end_time) # + 1000`
			`]`
			`tscript_wav_seg = strip_silence(full_tscript_wav_seg)`
			`tscript_wav_fb = BytesIO()`
			`tscript_wav_seg.export(tscript_wav_fb, format="wav")`
			`tscript_wav = tscript_wav_fb.getvalue()`
			`text = "".join(lens["elements"].Each()["value"].collect()(monologue))`
			`text_clean = re.sub(r"\[.*\]", "", text)`
			`return tscript_wav, tscript_wav_seg.duration_seconds, text_clean`

1. added support for mono/dual channel rev transcripts 2. handle errors when extracting datapoints from rev meta data 3. added suport for annotation only task when dumping ui data 2020-05-27 09:49:25 +00:00			`def dual_asr_data_generator(wav_seg, wav_path, meta):`
1. enabled silece stripping in chunks when recycling audio from asr logs 2. limit asr recycling to 1 min of start audio to get reliable alignments and ignoring agent channel 3. added rev recycler for generating asr dataset from rev transcripts and audio 4. update pydub dependency for silence stripping fn and removing threadpool hardcoded worker count 2020-05-27 08:52:44 +00:00			`left_audio, right_audio = wav_seg.split_to_mono()`
			`channel_map = {"Agent": right_audio, "Client": left_audio}`
			`monologues = lens["monologues"].Each().collect()(meta)`
			`for monologue in monologues:`
			`# print(monologue["speaker_name"])`
			`speaker_channel = channel_map.get(monologue["speaker_name"])`
			`if not speaker_channel:`
respect verbose flag 2020-05-27 10:24:16 +00:00			`if verbose:`
1. refactored wav chunk processing method 2. renamed streamlit to validation_ui 2020-05-28 05:48:39 +00:00			`print(`
			`f'unknown speaker tag {monologue["speaker_name"]} in wav:{wav_path} skipping.'`
			`)`
1. enabled silece stripping in chunks when recycling audio from asr logs 2. limit asr recycling to 1 min of start audio to get reliable alignments and ignoring agent channel 3. added rev recycler for generating asr dataset from rev transcripts and audio 4. update pydub dependency for silence stripping fn and removing threadpool hardcoded worker count 2020-05-27 08:52:44 +00:00			`continue`
			`try:`
			`start_time = (`
			`lens["elements"]`
			`.Each()`
			`.Filter(lambda x: "timestamp" in x)["timestamp"]`
			`.collect()(monologue)[0]`
			`)`
			`end_time = (`
			`lens["elements"]`
			`.Each()`
			`.Filter(lambda x: "end_timestamp" in x)["end_timestamp"]`
			`.collect()(monologue)[-1]`
			`)`
			`except IndexError:`
respect verbose flag 2020-05-27 10:24:16 +00:00			`if verbose:`
1. refactored wav chunk processing method 2. renamed streamlit to validation_ui 2020-05-28 05:48:39 +00:00			`print(`
			`f"error when loading timestamp events in wav:{wav_path} skipping."`
			`)`
1. added support for mono/dual channel rev transcripts 2. handle errors when extracting datapoints from rev meta data 3. added suport for annotation only task when dumping ui data 2020-05-27 09:49:25 +00:00			`continue`
1. refactored wav chunk processing method 2. renamed streamlit to validation_ui 2020-05-28 05:48:39 +00:00			`tscript_wav, seg_dur, text_clean = process_utterance_chunk(`
			`speaker_channel, start_time, end_time, monologue`
			`)`
			`if seg_dur < 0.5:`
respect verbose flag 2020-05-27 10:24:16 +00:00			`if verbose:`
1. refactored wav chunk processing method 2. renamed streamlit to validation_ui 2020-05-28 05:48:39 +00:00			`print(`
			`f'transcript chunk "{text_clean}" contains no audio in {wav_path} skipping.'`
			`)`
fix skipping null audio and add more verbose logs 2020-05-27 10:19:58 +00:00			`continue`
1. refactored wav chunk processing method 2. renamed streamlit to validation_ui 2020-05-28 05:48:39 +00:00			`yield text_clean, seg_dur, tscript_wav`
1. enabled silece stripping in chunks when recycling audio from asr logs 2. limit asr recycling to 1 min of start audio to get reliable alignments and ignoring agent channel 3. added rev recycler for generating asr dataset from rev transcripts and audio 4. update pydub dependency for silence stripping fn and removing threadpool hardcoded worker count 2020-05-27 08:52:44 +00:00
1. added support for mono/dual channel rev transcripts 2. handle errors when extracting datapoints from rev meta data 3. added suport for annotation only task when dumping ui data 2020-05-27 09:49:25 +00:00			`def mono_asr_data_generator(wav_seg, wav_path, meta):`
			`monologues = lens["monologues"].Each().collect()(meta)`
			`for monologue in monologues:`
			`try:`
			`start_time = (`
			`lens["elements"]`
			`.Each()`
			`.Filter(lambda x: "timestamp" in x)["timestamp"]`
			`.collect()(monologue)[0]`
			`)`
			`end_time = (`
			`lens["elements"]`
			`.Each()`
			`.Filter(lambda x: "end_timestamp" in x)["end_timestamp"]`
			`.collect()(monologue)[-1]`
			`)`
			`except IndexError:`
respect verbose flag 2020-05-27 10:24:16 +00:00			`if verbose:`
1. refactored wav chunk processing method 2. renamed streamlit to validation_ui 2020-05-28 05:48:39 +00:00			`print(`
			`f"error when loading timestamp events in wav:{wav_path} skipping."`
			`)`
1. added support for mono/dual channel rev transcripts 2. handle errors when extracting datapoints from rev meta data 3. added suport for annotation only task when dumping ui data 2020-05-27 09:49:25 +00:00			`continue`

1. refactored wav chunk processing method 2. renamed streamlit to validation_ui 2020-05-28 05:48:39 +00:00			`tscript_wav, seg_dur, text_clean = process_utterance_chunk(`
			`wav_seg, start_time, end_time, monologue`
			`)`
			`if seg_dur < 0.5:`
respect verbose flag 2020-05-27 10:24:16 +00:00			`if verbose:`
1. refactored wav chunk processing method 2. renamed streamlit to validation_ui 2020-05-28 05:48:39 +00:00			`print(`
			`f'transcript chunk "{text_clean}" contains no audio in {wav_path} skipping.'`
			`)`
fix skipping null audio and add more verbose logs 2020-05-27 10:19:58 +00:00			`continue`
1. refactored wav chunk processing method 2. renamed streamlit to validation_ui 2020-05-28 05:48:39 +00:00			`yield text_clean, seg_dur, tscript_wav`
1. added support for mono/dual channel rev transcripts 2. handle errors when extracting datapoints from rev meta data 3. added suport for annotation only task when dumping ui data 2020-05-27 09:49:25 +00:00
1. enabled silece stripping in chunks when recycling audio from asr logs 2. limit asr recycling to 1 min of start audio to get reliable alignments and ignoring agent channel 3. added rev recycler for generating asr dataset from rev transcripts and audio 4. update pydub dependency for silence stripping fn and removing threadpool hardcoded worker count 2020-05-27 08:52:44 +00:00			`def generate_rev_asr_data():`
			`full_asr_data = []`
			`total_duration = 0`
			`for wav, wav_path, ev in wav_event_generator(call_audio_dir):`
1. added support for mono/dual channel rev transcripts 2. handle errors when extracting datapoints from rev meta data 3. added suport for annotation only task when dumping ui data 2020-05-27 09:49:25 +00:00			`if wav.channels > 2:`
1. refactored wav chunk processing method 2. renamed streamlit to validation_ui 2020-05-28 05:48:39 +00:00			`print(f"skipping many channel audio {wav_path}")`
			`asr_data_generator = (`
			`mono_asr_data_generator`
			`if wav.channels == 1`
			`else dual_asr_data_generator`
			`)`
1. enabled silece stripping in chunks when recycling audio from asr logs 2. limit asr recycling to 1 min of start audio to get reliable alignments and ignoring agent channel 3. added rev recycler for generating asr dataset from rev transcripts and audio 4. update pydub dependency for silence stripping fn and removing threadpool hardcoded worker count 2020-05-27 08:52:44 +00:00			`asr_data = asr_data_generator(wav, wav_path, ev)`
			`total_duration += wav.duration_seconds`
			`full_asr_data.append(asr_data)`
			`typer.echo(f"loaded {len(full_asr_data)} calls of duration {total_duration}s")`
			`n_dps = asr_data_writer(call_asr_data, dataset_name, chain(*full_asr_data))`
			`typer.echo(f"written {n_dps} data points")`

			`generate_rev_asr_data()`


			`def main():`
			`app()`


			`if __name__ == "__main__":`
			`main()`