main.py

import librosa.feature
import pandas as pd
import numpy as np
from pathlib import Path
from os import chdir
import os
import csv
from tensorflow import keras
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from keras import models
from keras import layers
from sklearn.metrics import classification_report
import constants
import sys


def create_csv_header():
    if os.path.isfile(constants.TRAINED_MODEL):
        sys.exit("Trained model file already exists, "
                 "remove/move trained_model.h5 to another location and start training again")
    if os.path.isfile(constants.FEATURES_CSV_NAME):
        sys.exit("features.csv already exist, please remove/move the file to another location and run main.py again")
    else:
        header = 'filename '
        for i in range(constants.MFCC_RANGE_START, constants.MFCC_RANGE_END):
            header += f' mfcc{i}'
        header += ' label'
        header = header.split()
        file = open(constants.FEATURES_CSV_NAME, 'x', newline='')
        with file:
            writer = csv.writer(file)
            writer.writerow(header)


def extract_features(trainingDataDir, trainingDataSubDirs):
    create_csv_header()
    # Looping over every file inside the subdirectories for feature extraction
    for trainingDataSubDir in trainingDataSubDirs:
        for audio_file_name in os.listdir(trainingDataDir/f'{trainingDataSubDir}'):
            if audio_file_name.endswith(".wav"):
                audio_file = trainingDataDir/f'{trainingDataSubDir}/{audio_file_name}'
                print("Extracting Features from Directory "+trainingDataSubDir+" and file "+audio_file.name)
                y, sr = librosa.load(audio_file, mono=True)
                mfcc_features = librosa.feature.mfcc(y=y, sr=sr,
                                                     n_mfcc=(constants.MFCC_RANGE_END - constants.MFCC_RANGE_START))
                to_append = f'{audio_file.name}'
                for mfcc_segment in mfcc_features:
                    to_append += f' {np.mean(mfcc_segment)}'
                if trainingDataSubDir == constants.CAR:
                    to_append += f' {constants.LIGHT_WEIGHT}'
                elif trainingDataSubDir == constants.BUS:
                    to_append += f' {constants.MEDIUM_WEIGHT}'
                elif trainingDataSubDir == constants.TRUCK:
                    to_append += f' {constants.HEAVY_WEIGHT}'
                elif trainingDataSubDir == constants.MOTORCYCLE:
                    to_append += f' {constants.TWO_WHEELED}'
                elif trainingDataSubDir == constants.TRAM:
                    to_append += f' {constants.RAIL_BOUND}'

                file = open(constants.FEATURES_CSV_NAME, 'a', newline='')
                with file:
                    writer = csv.writer(file)
                    writer.writerow(to_append.split())


def preprocessing_csv_data():
    features_data = pd.read_csv(constants.FEATURES_CSV_NAME)
    features_data.head()
    # Dropping unnecessary columns (Column Filename is dropped)