Text
SKRIPSI ANALISIS PERBANDINGAN CNN DAN LSTM PADA DETEKSI DEEPFAKE AUDIO BERBASIS FITUR MFCC DAN SPECTROGRAM
Penelitian ini bertujuan untuk menganalisis dan membandingkan kinerja dua arsitektur deep learning, yaitu Convolutional Neural Network (CNN) dan Long Short-Term Memory (LSTM), dalam mendeteksi deepfake audio. Sistem deteksi dibangun menggunakan dua jenis ekstraksi fitur, yakni Mel-Frequency Cepstral Coefficients (MFCC) dan Log-Mel Spectrogram. Dataset utama yang digunakan berasal dari ASVspoof 2019 yang memuat rekaman bonafide dan spoof, ditambah dengan dataset mandiri untuk menguji kemampuan generalisasi model. Tahapan penelitian meliputi pengumpulan data, prapemrosesan, ekstraksi fitur, normalisasi Z-score, serta pelatihan model dalam empat skenario (CNN-MFCC, CNN-Spectrogram, LSTM-MFCC, dan LSTM-Spectrogram). Evaluasi kinerja diukur menggunakan metrik akurasi, precision, recall, dan F1-score berdasarkan confusion matrix. Hasil penelitian menunjukkan bahwa CNN efektif dalam mengekstraksi pola spasial representasi fitur, sedangkan LSTM lebih unggul dalam mempelajari urutan temporal sinyal suara. Perbandingan komprehensif menyimpulkan bahwa model LSTM dengan input Log-Mel Spectrogram menghasilkan performa klasifikasi terbaik dalam mendeteksi deepfake audio dibandingkan skenario lainnya. Temuan ini memberikan wawasan terkait kelebihan dan kelemahan setiap arsitektur, sekaligus menjadi landasan ilmiah bagi pengembangan model hybrid CNN-LSTM di masa mendatang.
Tidak tersedia versi lain