Precision, Recall, F1-Score: Pengertian Dan Cara Hitung

Hey guys! Pernah denger istilah precision, recall, dan F1-score? Istilah-istilah ini sering banget muncul di dunia data science dan machine learning, khususnya saat kita lagi ngevaluasi performa model klasifikasi. Nah, biar gak bingung lagi, yuk kita bahas tuntas apa itu precision, recall, dan F1-score, lengkap dengan cara menghitungnya!

Apa Itu Precision?

Precision, sederhananya, adalah ukuran ketepatan model dalam memprediksi sesuatu yang positif. Jadi, dari semua hasil prediksi positif yang dihasilkan oleh model, seberapa banyak sih yang beneran positif? Gampangnya, precision ini menjawab pertanyaan: "Dari semua yang model bilang 'positif', berapa persen yang beneran positif?". Dalam konteks yang lebih teknis, precision mengukur seberapa akurat model dalam mengklasifikasikan instance sebagai positif. Semakin tinggi nilai precision, semakin sedikit false positive yang dihasilkan oleh model. False positive terjadi ketika model memprediksi suatu instance sebagai positif, padahal sebenarnya negatif. Misalnya, dalam kasus deteksi spam, false positive berarti email yang sebenarnya bukan spam malah terdeteksi sebagai spam. Tentu saja, kita gak mau hal ini terjadi karena bisa bikin kita ketinggalan email penting. Precision sangat penting dalam skenario di mana kesalahan klasifikasi positif memiliki konsekuensi yang signifikan. Contohnya, dalam diagnosis medis, precision yang tinggi memastikan bahwa pasien yang didiagnosis positif benar-benar sakit, sehingga meminimalkan risiko perawatan yang tidak perlu atau berbahaya. Selain itu, dalam sistem rekomendasi, precision yang baik berarti bahwa sebagian besar item yang direkomendasikan relevan bagi pengguna, meningkatkan kepuasan pengguna dan efektivitas sistem. Untuk menghitung precision, kita menggunakan rumus berikut:

Precision = True Positives / (True Positives + False Positives)

True Positives (TP): Jumlah instance positif yang diprediksi dengan benar sebagai positif.
False Positives (FP): Jumlah instance negatif yang diprediksi dengan salah sebagai positif.

Misalnya, model mendeteksi 100 email sebagai spam. Setelah dicek, ternyata hanya 80 email yang beneran spam, sedangkan 20 email lainnya ternyata bukan spam. Dalam kasus ini:

TP = 80
FP = 20

Dengan demikian, precision model adalah:

Precision = 80 / (80 + 20) = 0.8 atau 80%

Ini berarti, dari semua email yang model deteksi sebagai spam, 80% di antaranya memang benar spam. Lumayan bagus, kan?

Apa Itu Recall?

Nah, kalau recall beda lagi nih. Recall adalah ukuran kemampuan model untuk menemukan semua instance positif yang ada di dalam dataset. Jadi, dari semua instance positif yang sebenarnya, seberapa banyak yang berhasil diprediksi oleh model sebagai positif? Gampangnya, recall ini menjawab pertanyaan: "Dari semua yang beneran 'positif', berapa persen yang berhasil dideteksi oleh model?". Secara teknis, recall mengukur sensitivitas model terhadap instance positif. Semakin tinggi nilai recall, semakin sedikit false negative yang dihasilkan oleh model. False negative terjadi ketika model memprediksi suatu instance sebagai negatif, padahal sebenarnya positif. Dalam contoh deteksi spam tadi, false negative berarti email spam malah lolos dan masuk ke inbox kita. Ini juga gak enak, kan, karena bikin inbox kita penuh dengan spam. Recall sangat krusial dalam situasi di mana kegagalan untuk mengidentifikasi instance positif memiliki konsekuensi serius. Misalnya, dalam deteksi penyakit menular, recall yang tinggi memastikan bahwa sebagian besar kasus positif terdeteksi, memungkinkan intervensi dini dan mencegah penyebaran penyakit. Demikian pula, dalam sistem keamanan, recall yang baik memastikan bahwa sebagian besar ancaman terdeteksi, meminimalkan risiko kerugian atau kerusakan. Untuk menghitung recall, kita menggunakan rumus berikut:

Recall = True Positives / (True Positives + False Negatives)

True Positives (TP): Sama seperti tadi, jumlah instance positif yang diprediksi dengan benar sebagai positif.
False Negatives (FN): Jumlah instance positif yang diprediksi dengan salah sebagai negatif.

Masih pakai contoh deteksi spam tadi, misalkan dari 100 email spam yang ada, model hanya berhasil mendeteksi 80 email sebagai spam, sedangkan 20 email lainnya lolos. Dalam kasus ini:

TP = 80
FN = 20

Dengan demikian, recall model adalah:

Recall = 80 / (80 + 20) = 0.8 atau 80%

Ini berarti, dari semua email spam yang ada, model berhasil mendeteksi 80% di antaranya. Oke juga, tapi masih ada 20% spam yang lolos.

| Read Also : Exploring The Beauty Of Manado Cathedral

Apa Itu F1-Score?

Oke, sekarang kita udah tau apa itu precision dan recall. Tapi, gimana caranya kita menggabungkan kedua metrik ini jadi satu ukuran yang komprehensif? Nah, di sinilah F1-score berperan! F1-score adalah harmonic mean dari precision dan recall. Jadi, F1-score ini mencoba mencari keseimbangan antara precision dan recall. Kenapa pakai harmonic mean? Karena harmonic mean lebih sensitif terhadap nilai yang lebih rendah. Jadi, kalau salah satu dari precision atau recall nilainya rendah, maka F1-score juga akan ikut rendah. Dengan kata lain, F1-score memberikan gambaran yang lebih realistis tentang performa model, terutama jika ada ketidakseimbangan antara precision dan recall. F1-score sangat berguna ketika kita ingin membandingkan performa beberapa model klasifikasi dan memilih model terbaik. Model dengan F1-score tertinggi umumnya dianggap sebagai model terbaik karena memiliki keseimbangan yang baik antara precision dan recall. Selain itu, F1-score juga membantu kita memahami trade-off antara precision dan recall. Dalam beberapa kasus, kita mungkin lebih memprioritaskan precision daripada recall, atau sebaliknya. F1-score membantu kita membuat keputusan yang tepat berdasarkan kebutuhan spesifik kita. Untuk menghitung F1-score, kita menggunakan rumus berikut:

F1-score = 2 * (Precision * Recall) / (Precision + Recall)

Kembali ke contoh deteksi spam tadi, kita udah punya:

Precision = 0.8
Recall = 0.8

Dengan demikian, F1-score model adalah:

F1-score = 2 * (0.8 * 0.8) / (0.8 + 0.8) = 0.8

Dalam kasus ini, F1-score model adalah 0.8. Karena precision dan recall sama-sama 0.8, maka F1-score juga 0.8. Tapi, kalau precision dan recall berbeda, maka F1-score akan memberikan nilai yang berbeda pula.

Kapan Harus Memprioritaskan Precision atau Recall?

Pertanyaan bagus! Kapan kita harus lebih fokus ke precision dan kapan kita harus lebih fokus ke recall? Jawabannya tergantung pada kasus yang kita hadapi.

Prioritaskan Precision: Jika false positive itu lebih merugikan daripada false negative, maka kita harus memprioritaskan precision. Contohnya:
- Deteksi Spam: Lebih baik email spam lolos sesekali daripada email penting malah masuk ke folder spam.
- Diagnosis Medis (Penyakit yang Tidak Mematikan): Lebih baik orang sehat didiagnosis positif (dan kemudian ternyata negatif setelah pemeriksaan lebih lanjut) daripada orang sakit tidak terdiagnosis.
Prioritaskan Recall: Jika false negative itu lebih merugikan daripada false positive, maka kita harus memprioritaskan recall. Contohnya:
- Deteksi Penyakit Menular: Lebih baik ada false positive (yang bisa dikonfirmasi atau disangkal melalui tes lebih lanjut) daripada ada kasus positif yang tidak terdeteksi dan menulari orang lain.
- Deteksi Fraud: Lebih baik ada transaksi normal yang dicurigai sebagai fraud (dan kemudian terbukti tidak fraud) daripada ada transaksi fraud yang lolos.

Contoh Kasus: Analisis Sentimen

Biar makin kebayang, kita ambil contoh kasus analisis sentimen. Misalkan kita punya model yang bertugas untuk mengklasifikasikan tweet sebagai positif atau negatif. Kita punya dataset berisi 1000 tweet, dengan 500 tweet positif dan 500 tweet negatif. Setelah menjalankan model, kita mendapatkan hasil sebagai berikut:

True Positives (TP): 400 (model dengan benar mengklasifikasikan 400 tweet positif sebagai positif)
False Positives (FP): 50 (model salah mengklasifikasikan 50 tweet negatif sebagai positif)
False Negatives (FN): 100 (model salah mengklasifikasikan 100 tweet positif sebagai negatif)
True Negatives (TN): 450 (model dengan benar mengklasifikasikan 450 tweet negatif sebagai negatif)

Dengan data ini, kita bisa menghitung precision, recall, dan F1-score:

Precision: 400 / (400 + 50) = 0.889 atau 88.9%
Recall: 400 / (400 + 100) = 0.8 atau 80%
F1-score: 2 * (0.889 * 0.8) / (0.889 + 0.8) = 0.842

Dari hasil ini, kita bisa melihat bahwa model memiliki precision yang cukup tinggi (88.9%), yang berarti model cukup akurat dalam mengklasifikasikan tweet sebagai positif. Namun, recall-nya sedikit lebih rendah (80%), yang berarti model masih melewatkan beberapa tweet positif. F1-score-nya adalah 0.842, yang menunjukkan keseimbangan yang cukup baik antara precision dan recall.

Kesimpulan

Nah, itu dia penjelasan lengkap tentang precision, recall, dan F1-score! Semoga sekarang kalian udah gak bingung lagi ya. Intinya, precision itu tentang ketepatan, recall itu tentang kelengkapan, dan F1-score itu tentang keseimbangan. Jangan lupa, kapan kita harus memprioritaskan precision atau recall tergantung pada kasus yang kita hadapi. Sampai jumpa di artikel selanjutnya!

Apa Itu Precision?

Apa Itu Recall?

Apa Itu F1-Score?

Kapan Harus Memprioritaskan Precision atau Recall?

Contoh Kasus: Analisis Sentimen

Kesimpulan

Lastest News

Exploring The Beauty Of Manado Cathedral

Discover Oscxiaomisc TVs: A Showroom Experience

Megan Boni: Finance Tips On YouTube

Hulas Finance Teku Contact: Find It Here!

Basic Math Psychotest Practice: Examples & Solutions