Data Mining Menggunakan Metode Bayes
Data Mining
Data Mining merupakan proses pengekstraksian
informasi dari sekumpulan data yang sangat besar
melalui penggunaan algoritma dan teknik penarikan
dalam bidang statistik, pembelajaran mesin dan sistem
manajemen basis data. Data Mining adalah proses
menganalisa data dari perspektif yang berbeda dan
menyimpulkannya menjadi informasi-informasi penting
yang dapat dipakai untuk meningkatkan keuntungan,
memperkecil biaya pengeluaran, atau bahkan
keduanya. Definisi lain mengatakan Data Mining
adalah kegiatan yang meliputi pengumpulan, pemakaian
data hostoris untuk menemukan keteraturan, pola atau
hubungan dalam data berukuran besar. Dari beberapa
definisi di atas dapat ditarik kesimpulan bahwa Data
Mining merupakan proses ataupun kegiatan untuk
mengumpulkan data yang berukuran besar kemudian
mengekstraksi data tersebut menjadi informasi –
informasi yang nantinya dapat digunakan.
Tahap-tahap Data Mining
Sebagai suatu rangkaian proses, Data Mining
dapat dibagi menjadi beberapa tahap proses. Tahap-
tahap tersebut bersifat interaktif, pemakai terlibat
langsung atau dengan perantaraan knowledge base.
Tahap-tahap Data Mining adalah sebagai berikut :
a. Pembersihan data (Data Cleaning)
Pembersihan data merupakan proses menghilang-kan
noise dan data yang tidak konsisten atau data tidak
relevan.
b. Integrasi data (Data Integration)
Integrasi data merupakan penggabungan data dari
berbagai database ke dalam satu database baru.
c. Seleksi data (Data Selection)
Data yang ada pada database sering kali tidak semuanya
dipakai, oleh karena itu hanya data yang sesuai untuk
dianalisis yang akan diambil dari database.
d. Transformasi data (Data Transformation)
Data diubah atau digabung ke dalam format yang sesuai
untuk diproses dalam Data Mining.
e. Proses Mining
Merupakan suatu proses utama saat metode diterapkan
untuk menemukan pengetahuan berharga dan
tersembunyi dari data. Beberapa metode yang dapat
digunakan berdasarkan pengelompokan Data Mining.
f. Evaluasi pola (Pattern Evaluation)
Untuk mengidentifikasi pola-pola menarik ke dalam
knowledge based yang ditemukan.
g. Presentasi pengetahuan (Knowledge Presentation)
Merupakan visualisasi dan penyajian pengetahuan
mengenai metode yang digunakan untuk memperoleh
pengetahuan yang diperoleh pengguna.
Metode Naive Bayes
Naive Bayes merupakan sebuah
pengklasifikasian probabilistik sederhana yang
menghitung sekumpulan probabilitas dengan
menjumlahkan frekuensi dan kombinasi nilai dari dataset
yang diberikan. Algoritma mengunakan teorema Bayes
dan mengasumsikan semua atribut independen atau tidak
saling ketergantungan yang diberikan oleh nilai pada
variabel kelas. Definisi lain mengatakan Naive Bayes
merupakan pengklasifikasian dengan metode
probabilitas dan statistik yang dikemukan oleh ilmuwan
Inggris Thomas Bayes, yaitu memprediksi peluang di
masa depan berdasarkan pengalaman dimasa
sebelumnya.
Naive Bayes didasarkan pada asumsi penyederhanaan
bahwa nilai atribut secara konditional saling bebas jika
diberikan nilai output. Dengan kata lain, diberikan nilai
output, probabilitas mengamati secara bersama adalah
produk dari probabilitas individu. Keuntungan
penggunaan Naive Bayes adalah bahwa metode ini
hanya membutuhkan jumlah data pelatihan (Training
Data) yang kecil untuk menentukan estimasi paremeter
yang diperlukan dalam proses pengklasifikasian. Naive
Bayes sering bekerja jauh lebih baik dalam kebanyakan
Referensi :
Komentar
Posting Komentar