GitHub - macreai/TFX-Pipeline-Audio-Classification: TFX Pipeline with Apache Beam for Extracted Audio Data Classification

	Deskripsi
Dataset	Extracted Heartbeat Audio Dataset tersebut adalah hasil pengolahan ekstraksi fitur pada data audio penyakit jantung, project dan github yang tercantum adalah project saya pribadi yang sebelumnya pernah digunakan sebagai submisi Machine Learning Terapan
Masalah	Menurut Organisasi Kesehatan Dunia (WHO), Penyakit kardiovaskular (CVD) adalah penyebab kematian utama di seluruh dunia, menyebabkan sekitar 17,9 juta kematian setiap tahunnya. CVD mencakup berbagai gangguan pada jantung dan pembuluh darah, termasuk penyakit jantung koroner, penyakit serebrovaskular, penyakit jantung rematik, dan kondisi lainnya. Lebih dari empat dari lima kematian akibat CVD disebabkan oleh serangan jantung dan stroke, dan sepertiga dari kematian tersebut terjadi pada orang yang belum mencapai usia 70 tahun. Dalam beberapa tahun terakhir, kemajuan dalam penelitian machine learning telah memberikan harapan baru untuk deteksi dini penyakit jantung. Teknologi ini berpotensi meningkatkan identifikasi penyakit kardiovaskular secara lebih awal, yang dapat mengurangi angka kematian dan meningkatkan hasil kesehatan. Namun, masih ada tantangan signifikan yang perlu diatasi. Salah satunya adalah akurasi identifikasi yang sering kali kurang optimal, dengan banyak sistem yang menghasilkan akurasi di bawah 90%. Hal ini mengarah pada kemungkinan mengurangi keandalan sistem dalam praktek klinis. Tantangan lainnya adalah masalah denoising, atau pengurangan gangguan dalam data yang digunakan oleh model machine learning. Data medis sering kali terpengaruh oleh noise atau gangguan, seperti kesalahan pengukuran atau variabilitas dalam sinyal medis. Ketika proses denoising kurang efektif, informasi yang relevan bisa hilang atau menjadi tidak jelas, sehingga mengurangi kemampuan model untuk melakukan prediksi yang akurat. Proses pelatihan model yang kompleks dan pengolahan data intensif memerlukan perangkat keras canggih serta biaya yang tinggi, yang sering kali membatasi penerapannya di fasilitas kesehatan dengan anggaran terbatas. Untuk memajukan teknologi ini, perlu ada upaya untuk meningkatkan akurasi algoritma, mengatasi masalah denoising, dan mengurangi biaya komputasi, misalnya melalui pengembangan model yang lebih efisien. Dengan mengatasi tantangan ini, pembelajaran mesin dapat lebih efektif dalam mendeteksi dan mengelola penyakit jantung, memberikan manfaat yang lebih besar dalam meningkatkan kesehatan global.
Solusi machine learning	Solusi machine learning yang diusulkan untuk deteksi penyakit jantung melibatkan pembuatan model jaringan saraf yang dirancang untuk mengklasifikasikan data audio berdasarkan fitur yang telah distandarisasi. Model ini memanfaatkan arsitektur dengan layer-layer yang dapat dikonfigurasi dinamis, termasuk pengaturan jumlah hidden layers, jumlah node per layer, dan dropout rate untuk mengurangi overfitting. Dengan menggunakan Tuner untuk hyperparameter optimization, model dioptimalkan untuk meningkatkan recall, yaitu kemampuan dalam mendeteksi kasus positif secara akurat. Proses ini melibatkan pembagian dataset menjadi 80% untuk pelatihan dan 20% untuk evaluasi, dengan fokus pada metrik recall untuk memastikan efektivitas deteksi penyakit jantung yang tinggi.
Metode pengolahan	Dataset ini terdiri dari 30 fitur numerik dan 5 kelas kategori. Fitur-fitur tersebut akan distandarisasi, sedangkan label dikodekan menggunakan label encoder. Dataset dibagi menjadi 80% untuk pelatihan dan 20% untuk evaluasi.
Arsitektur model	Model ini adalah jaringan saraf dengan beberapa layer input yang mewakili fitur berbeda, yang digabungkan dengan layer `concatenate`. Model ini memungkinkan konfigurasi dinamis dari jumlah hidden layers dan node per layer, dengan dropout rate yang dapat diatur untuk setiap layer guna mengurangi overfitting. Output model terdiri dari 5 unit dengan fungsi aktivasi softmax untuk klasifikasi multikelas. Model ini menggunakan `sparse_categorical_crossentropy` sebagai loss function dan Adam optimizer dengan learning rate yang dapat disesuaikan.
Metrik evaluasi	Metric yang digunakan pada kasus diagnosis medis yaitu Recall. Mengukur dan membandingkan Recall berbagai tes atau model untuk menentukan seberapa efektif mereka dalam mendeteksi penyakit atau kondisi tertentu. Recall mengukur proporsi kasus positif yang benar. Tes dengan Recall tinggi akan menghasilkan sedikit False Negatives (FN), yaitu kasus di mana pasien yang sakit malah didiagnosis negatif oleh tes. Dengan kata lain, jika tes sangat sensitif, hampir semua orang yang sakit akan terdeteksi oleh tes tersebut. Recall tinggi sangat penting ketika risiko gagal mendeteksi penyakit bisa berakibat serius, seperti pada penyakit yang mengancam jiwa.
Performa model	Dengan recall sebesar 75.6%, model menunjukkan kemampuan yang cukup baik dalam mengidentifikasi kelas positif di antara semua kasus yang benar-benar positif. Recall mengukur proporsi data positif yang berhasil diprediksi dengan benar oleh model dari total kasus yang benar-benar positif. Meskipun ini adalah hasil yang solid, ada kemungkinan untuk meningkatkan kinerja lebih lanjut, terutama jika berfokus pada meningkatkan kemampuan model untuk mengidentifikasi lebih banyak kasus positif atau mengurangi jumlah false negatives. Kemampuan model dapat ditingkatkan apabila menggunakan machine learning tradisional dibanding deep learning karena machine learning tradisional lebih cocok pada data tabular seperti ini yang dapat dibuktikan dari proyek pada dataset.
Opsi deployment	Saya menggunakan railway untuk mendeploy model, hanya memerlukan perintah railway up dan railway sudah dapat mendeteksi dockerfile secara otomatis
Web app	Tautan web app yang digunakan untuk mengakses model serving. Heartbeat-Classification-Model
Monitoring	Saya menggunakan Grafana dengan menyinkronasikan dengan Prometheus, metric yang saya monitoring adalah jumlah request pada model serve yang ada di server railway

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
config		config
data		data
modules		modules
monitoring		monitoring
output		output
screenshot		screenshot
testing		testing
Dockerfile		Dockerfile
README.md		README.md
pipeline.py		pipeline.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Releases

Packages

Languages

macreai/TFX-Pipeline-Audio-Classification

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages