speech-scoring/speech_data.py

import pandas as pd
import numpy as np
from spectro_gen import generate_aiff_spectrogram
from sklearn.model_selection import train_test_split
import itertools
import gc


def get_siamese_pairs(groupF1, groupF2):
    group1 = [r for (i, r) in groupF1.iterrows()]
    group2 = [r for (i, r) in groupF2.iterrows()]
    f = [(g1, g2) for g2 in group2 for g1 in group1]
    t = [i for i in itertools.combinations(group1, 2)
         ] + [i for i in itertools.combinations(group2, 2)]
    return (t, f)


def append_zeros(spgr, max_samples):
    return np.lib.pad(spgr, [(0, max_samples - spgr.shape[0]), (0, 0)],
                      'median')


def create_pair(l, r, max_samples):
    l_sample = append_zeros(l, max_samples)
    r_sample = append_zeros(r, max_samples)
    return np.asarray([l_sample, r_sample])


def create_test_pair(l, r, max_samples):
    l_sample = append_zeros(l, max_samples)
    r_sample = append_zeros(r, max_samples)
    return np.asarray([[l_sample, r_sample]])


def create_X(sp, max_samples):
    return create_pair(sp[0]['spectrogram'], sp[1]['spectrogram'], max_samples)


def get_word_pairs_data(word, max_samples):
    audio_samples = pd.read_csv(
        './outputs/audio.csv',
        names=['word', 'voice', 'rate', 'variant', 'file'])
    audio_samples = audio_samples.loc[audio_samples['word'] ==
                                      word].reset_index(drop=True)
    audio_samples.loc[:, 'spectrogram'] = audio_samples.loc[:, 'file'].apply(
        lambda x: 'outputs/audio/' + x).apply(generate_aiff_spectrogram)
    # max_samples = audio_samples['spectrogram'].apply(
    #     lambda x: x.shape[0]).max()
    same_data, diff_data = [], []
    for (w, g) in audio_samples.groupby(audio_samples['word']):
        sample_norm = g.loc[audio_samples['variant'] == 'normal']
        sample_phon = g.loc[audio_samples['variant'] == 'phoneme']
        same, diff = get_siamese_pairs(sample_norm, sample_phon)
        same_data.extend([create_X(s, max_samples) for s in same[:10]])
        diff_data.extend([create_X(d, max_samples) for d in diff[:10]])
    Y = np.hstack([np.ones(len(same_data)), np.zeros(len(diff_data))])
    X = np.asarray(same_data + diff_data)
    # tr_pairs, te_pairs, tr_y, te_y = train_test_split(X, Y, test_size=0.1)
    return (X, Y)


def create_spectrogram_data(audio_group='audio'):
    audio_samples = pd.read_csv(
        './outputs/' + audio_group + '.csv',
        names=['word', 'voice', 'rate', 'variant', 'file'])
    # audio_samples = audio_samples.loc[audio_samples['word'] ==
    #                                   'sunflowers'].reset_index(drop=True)
    audio_samples.loc[:, 'spectrogram'] = audio_samples.loc[:, 'file'].apply(
        lambda x: 'outputs/' + audio_group + '/' + x).apply(
            generate_aiff_spectrogram)
    audio_samples.to_pickle('outputs/spectrogram.pkl')


def create_speech_pairs_data(audio_group='audio'):
    audio_samples = pd.read_pickle('outputs/spectrogram.pkl')
    max_samples = audio_samples['spectrogram'].apply(
        lambda x: x.shape[0]).max()
    # sample_size = audio_samples['spectrogram'][0].shape[1]

    print('generating siamese speech pairs')
    same_data, diff_data = [], []
    for (w, g) in audio_samples.groupby(audio_samples['word']):
        sample_norm = g.loc[audio_samples['variant'] == 'normal']
        sample_phon = g.loc[audio_samples['variant'] == 'phoneme']
        same, diff = get_siamese_pairs(sample_norm, sample_phon)
        same_data.extend([create_X(s, max_samples) for s in same[:10]])
        diff_data.extend([create_X(d, max_samples) for d in diff[:10]])
    print('creating all speech pairs')
    Y = np.hstack([np.ones(len(same_data)), np.zeros(len(diff_data))])
    print('casting as array speech pairs')
    X = np.asarray(same_data + diff_data)
    print('pickling X/Y')
    np.save('outputs/X.npy', X)
    np.save('outputs/Y.npy', Y)
    del same_data
    del diff_data
    gc.collect()
    print('train/test splitting speech pairs')
    tr_pairs, te_pairs, tr_y, te_y = train_test_split(X, Y, test_size=0.1)
    print('pickling train/test')
    np.save('outputs/tr_pairs.npy', tr_pairs)
    np.save('outputs/te_pairs.npy', te_pairs)
    np.save('outputs/tr_y.npy', tr_y)
    np.save('outputs/te_y.npy', te_y)


def speech_model_data():
    tr_pairs = np.load('outputs/tr_pairs.npy') / 255.0
    te_pairs = np.load('outputs/te_pairs.npy') / 255.0
    # tr_pairs[tr_pairs < 0] = 0
    # te_pairs[te_pairs < 0] = 0
    tr_y = np.load('outputs/tr_y.npy')
    te_y = np.load('outputs/te_y.npy')
    return tr_pairs, te_pairs, tr_y, te_y


if __name__ == '__main__':
    # sunflower_pairs_data()
    # create_spectrogram_data()
    create_speech_pairs_data()
    # print(speech_model_data())
added spectrogram to model data code and implemented simple rnn model 2017-10-17 13:26:42 +00:00			`import pandas as pd`
			`import numpy as np`
			`from spectro_gen import generate_aiff_spectrogram`
			`from sklearn.model_selection import train_test_split`
1. fixed dimension issue in data 2. experimenting with different base network 2017-10-23 13:30:27 +00:00			`import itertools`
formatted 2017-10-25 08:06:41 +00:00			`import gc`


			`def get_siamese_pairs(groupF1, groupF2):`
			`group1 = [r for (i, r) in groupF1.iterrows()]`
			`group2 = [r for (i, r) in groupF2.iterrows()]`
			`f = [(g1, g2) for g2 in group2 for g1 in group1]`
			`t = [i for i in itertools.combinations(group1, 2)`
			`] + [i for i in itertools.combinations(group2, 2)]`
			`return (t, f)`

added spectrogram to model data code and implemented simple rnn model 2017-10-17 13:26:42 +00:00
1. fixed neg values in spectrogram 2. refactored get word spectrogram code 2017-10-25 11:22:45 +00:00			`def append_zeros(spgr, max_samples):`
			`return np.lib.pad(spgr, [(0, max_samples - spgr.shape[0]), (0, 0)],`
			`'median')`

added code to record and generate spectrogram, wip test model 2017-10-25 10:08:03 +00:00
1. fixed neg values in spectrogram 2. refactored get word spectrogram code 2017-10-25 11:22:45 +00:00			`def create_pair(l, r, max_samples):`
			`l_sample = append_zeros(l, max_samples)`
			`r_sample = append_zeros(r, max_samples)`
added code to record and generate spectrogram, wip test model 2017-10-25 10:08:03 +00:00			`return np.asarray([l_sample, r_sample])`


1. fixed neg values in spectrogram 2. refactored get word spectrogram code 2017-10-25 11:22:45 +00:00			`def create_test_pair(l, r, max_samples):`
			`l_sample = append_zeros(l, max_samples)`
			`r_sample = append_zeros(r, max_samples)`
			`return np.asarray([[l_sample, r_sample]])`

code cleanup 2017-10-26 07:18:31 +00:00
1. fixed neg values in spectrogram 2. refactored get word spectrogram code 2017-10-25 11:22:45 +00:00			`def create_X(sp, max_samples):`
code cleanup 2017-10-26 07:18:31 +00:00			`return create_pair(sp[0]['spectrogram'], sp[1]['spectrogram'], max_samples)`
1. fixed neg values in spectrogram 2. refactored get word spectrogram code 2017-10-25 11:22:45 +00:00

code cleanup 2017-10-26 07:18:31 +00:00			`def get_word_pairs_data(word, max_samples):`
formatted 2017-10-25 08:06:41 +00:00			`audio_samples = pd.read_csv(`
			`'./outputs/audio.csv',`
			`names=['word', 'voice', 'rate', 'variant', 'file'])`
			`audio_samples = audio_samples.loc[audio_samples['word'] ==`
1. fixed neg values in spectrogram 2. refactored get word spectrogram code 2017-10-25 11:22:45 +00:00			`word].reset_index(drop=True)`
formatted 2017-10-25 08:06:41 +00:00			`audio_samples.loc[:, 'spectrogram'] = audio_samples.loc[:, 'file'].apply(`
			`lambda x: 'outputs/audio/' + x).apply(generate_aiff_spectrogram)`
1. fixed neg values in spectrogram 2. refactored get word spectrogram code 2017-10-25 11:22:45 +00:00			`# max_samples = audio_samples['spectrogram'].apply(`
			`# lambda x: x.shape[0]).max()`
formatted 2017-10-25 08:06:41 +00:00			`same_data, diff_data = [], []`
			`for (w, g) in audio_samples.groupby(audio_samples['word']):`
1. fixed dimension issue in data 2. experimenting with different base network 2017-10-23 13:30:27 +00:00			`sample_norm = g.loc[audio_samples['variant'] == 'normal']`
			`sample_phon = g.loc[audio_samples['variant'] == 'phoneme']`
formatted 2017-10-25 08:06:41 +00:00			`same, diff = get_siamese_pairs(sample_norm, sample_phon)`
1. fixed neg values in spectrogram 2. refactored get word spectrogram code 2017-10-25 11:22:45 +00:00			`same_data.extend([create_X(s, max_samples) for s in same[:10]])`
			`diff_data.extend([create_X(d, max_samples) for d in diff[:10]])`
formatted 2017-10-25 08:06:41 +00:00			`Y = np.hstack([np.ones(len(same_data)), np.zeros(len(diff_data))])`
1. fixed neg values in spectrogram 2. refactored get word spectrogram code 2017-10-25 11:22:45 +00:00			`X = np.asarray(same_data + diff_data)`
			`# tr_pairs, te_pairs, tr_y, te_y = train_test_split(X, Y, test_size=0.1)`
code cleanup 2017-10-26 07:18:31 +00:00			`return (X, Y)`
formatted 2017-10-25 08:06:41 +00:00
added who data method 2017-10-17 13:34:07 +00:00
updated tested pickling 2017-10-17 13:47:44 +00:00			`def create_spectrogram_data(audio_group='audio'):`
formatted 2017-10-25 08:06:41 +00:00			`audio_samples = pd.read_csv(`
			`'./outputs/' + audio_group + '.csv',`
			`names=['word', 'voice', 'rate', 'variant', 'file'])`
			`# audio_samples = audio_samples.loc[audio_samples['word'] ==`
			`# 'sunflowers'].reset_index(drop=True)`
			`audio_samples.loc[:, 'spectrogram'] = audio_samples.loc[:, 'file'].apply(`
			`lambda x: 'outputs/' + audio_group + '/' + x).apply(`
			`generate_aiff_spectrogram)`
updated tested pickling 2017-10-17 13:47:44 +00:00			`audio_samples.to_pickle('outputs/spectrogram.pkl')`
added who data method 2017-10-17 13:34:07 +00:00
formatted 2017-10-25 08:06:41 +00:00
pickling intermediate data to save memory usage 2017-10-20 07:22:11 +00:00			`def create_speech_pairs_data(audio_group='audio'):`
updated tested pickling 2017-10-17 13:47:44 +00:00			`audio_samples = pd.read_pickle('outputs/spectrogram.pkl')`
formatted 2017-10-25 08:06:41 +00:00			`max_samples = audio_samples['spectrogram'].apply(`
			`lambda x: x.shape[0]).max()`
			`# sample_size = audio_samples['spectrogram'][0].shape[1]`
1. fixed dimension issue in data 2. experimenting with different base network 2017-10-23 13:30:27 +00:00
			`print('generating siamese speech pairs')`
formatted 2017-10-25 08:06:41 +00:00			`same_data, diff_data = [], []`
			`for (w, g) in audio_samples.groupby(audio_samples['word']):`
			`sample_norm = g.loc[audio_samples['variant'] == 'normal']`
			`sample_phon = g.loc[audio_samples['variant'] == 'phoneme']`
			`same, diff = get_siamese_pairs(sample_norm, sample_phon)`
added code to record and generate spectrogram, wip test model 2017-10-25 10:08:03 +00:00			`same_data.extend([create_X(s, max_samples) for s in same[:10]])`
			`diff_data.extend([create_X(d, max_samples) for d in diff[:10]])`
1. fixed dimension issue in data 2. experimenting with different base network 2017-10-23 13:30:27 +00:00			`print('creating all speech pairs')`
formatted 2017-10-25 08:06:41 +00:00			`Y = np.hstack([np.ones(len(same_data)), np.zeros(len(diff_data))])`
1. fixed dimension issue in data 2. experimenting with different base network 2017-10-23 13:30:27 +00:00			`print('casting as array speech pairs')`
formatted 2017-10-25 08:06:41 +00:00			`X = np.asarray(same_data + diff_data)`
1. fixed dimension issue in data 2. experimenting with different base network 2017-10-23 13:30:27 +00:00			`print('pickling X/Y')`
formatted 2017-10-25 08:06:41 +00:00			`np.save('outputs/X.npy', X)`
			`np.save('outputs/Y.npy', Y)`
			`del same_data`
			`del diff_data`
pickling intermediate data to save memory usage 2017-10-20 07:22:11 +00:00			`gc.collect()`
1. fixed dimension issue in data 2. experimenting with different base network 2017-10-23 13:30:27 +00:00			`print('train/test splitting speech pairs')`
formatted 2017-10-25 08:06:41 +00:00			`tr_pairs, te_pairs, tr_y, te_y = train_test_split(X, Y, test_size=0.1)`
1. fixed dimension issue in data 2. experimenting with different base network 2017-10-23 13:30:27 +00:00			`print('pickling train/test')`
formatted 2017-10-25 08:06:41 +00:00			`np.save('outputs/tr_pairs.npy', tr_pairs)`
			`np.save('outputs/te_pairs.npy', te_pairs)`
			`np.save('outputs/tr_y.npy', tr_y)`
			`np.save('outputs/te_y.npy', te_y)`

pickling intermediate data to save memory usage 2017-10-20 07:22:11 +00:00
			`def speech_model_data():`
formatted 2017-10-25 08:06:41 +00:00			`tr_pairs = np.load('outputs/tr_pairs.npy') / 255.0`
			`te_pairs = np.load('outputs/te_pairs.npy') / 255.0`
code cleanup 2017-10-26 07:18:31 +00:00			`# tr_pairs[tr_pairs < 0] = 0`
			`# te_pairs[te_pairs < 0] = 0`
pickling intermediate data to save memory usage 2017-10-20 07:22:11 +00:00			`tr_y = np.load('outputs/tr_y.npy')`
			`te_y = np.load('outputs/te_y.npy')`
formatted 2017-10-25 08:06:41 +00:00			`return tr_pairs, te_pairs, tr_y, te_y`

added who data method 2017-10-17 13:34:07 +00:00
			`if __name__ == '__main__':`
1. fixed dimension issue in data 2. experimenting with different base network 2017-10-23 13:30:27 +00:00			`# sunflower_pairs_data()`
formatted 2017-10-25 08:06:41 +00:00			`# create_spectrogram_data()`
1. fixed dimension issue in data 2. experimenting with different base network 2017-10-23 13:30:27 +00:00			`create_speech_pairs_data()`
			`# print(speech_model_data())`