1. Data Mining
Larose (2005) dalam Kusrini & Luthfi
(2009) mengungkapkan bahwa menurut Gartner Group, data mining adalah suatu proses menemukan hubungan yang berarti,
pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang
tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti
teknik statistik dan matematika.
Data mining berisi pencarian trend atau pola yang diinginkan dalam database yang besar untuk membantu
pengambilan keputusan di waktu yang akan datang. Harapannya, perangkat data mining mampu mengenali pola-pola
ini dalam data dengan masukan yang minimal. Pola-pola ini dikenali oleh
perangkat tertentu yang dapat memberikan suatu analisa data yang berguna dan berwawasan yang kemudian dapat dipelajari
dengan lebih teliti, yang mungkin saja menggunakan perangkat pendukung
keputusan yang lainnya (Hermawati, 2013).
Larose (2005) dalam Kusrini & Luthfi (2009)
mengungkapkan bahwa data mining
dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan yaitu
Deskripsi, Estimasi, Prediksi, Klasifikasi, Pengklusteran dan Asosiasi.
2. Tahap-Tahap Data Mining
Fyaad (1996)
mengungkapkan istilah data mining dan
knowledge discovery in database (KDD)
sering kali digunakan secara bergantian untuk menjelaskan proses penggalian
informasi tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua
istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain.
Dan salah satu tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara garis besar dapat dijelaskan sebagai
berikut.
1. Data Selection
Pemilihan
(seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap
penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan
untuk proses data mining, disimpan
suatu berkas, terpisah dari basis data operasional.
2. Pre-prosessing/Cleaning
Sebelum proses data mining dapat dilaksanakan, perlu
dilakukan proses cleaning pada data
yang menjadi fokus KDD. Proses cleaning
mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten,
memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Juga dilakukan proses enrichment yaitu proses "memperkaya" data yang sudah ada
dengan data atau informasi yang relevan dan diperlukan untuk KDD, seperti data
atau informasi eksternal.
3. Transformasi
Coding
adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut
sesuai untuk proses data mining.
Proses coding dalam KDD merupakan
proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan
dicari dalam basis data.
4. Data mining
Data
mining adalah proses mencari pola atau
informasi menarik dalam data terpilih dengan menggunakan teknik atau metode
tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi pemilihan metode atau algoritma yang
tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
5. Interpretation/Evaluation
Pola informasi
yang dihasilkan dari proses data mining, perlu ditampilkan dalam bentuk yang
mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian
dari proses KDD yang disebut interpretation.
Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan
bertentangan dengan fakta atau hipotesis yang ada sebelumnya.
3. Klasifikasi
Teknik
klasifikasi (classifier) merupakan
suatu pendekatan sistematis untuk membangun model klasifikasi dari suatu
himpunan data masukkan. Tiap teknik menggunakan suatu algoritma pembelajaran (learning algorithm) untuk mendapatkan
suatu model yang paling memenuhi hubungan antara himpunan atribut dan label klasifikasi
dalam data masukkan. Tujuan dari algoritma pembelajaran adalah untuk membangun
model yang secara umum berkemampuan baik, yaitu model yang dapat memprediksi
label kelas dari record yang tidak
diketahui kelas sebelumnya dengan lebih akurat (Hermawati, 2013).
Teknik klasifikasi dalam data mining
dikelompokkan ke dalam
Teknik Pohon Keputusan, Bayesian
(Naive Bayesian dan Bayesian Belief Networks), Jaringan
Saraf Tiruan (Backpropagation), teknik yang berbasis konsep dari penambangan
aturan-aturan asosiasi, dan teknik lain (k-Nearest
Neighboor, algoritma genetik, teknik dengan pendekatan himpunan rough dan fuzzy). Untuk lebih memperjelas mengenai pengelompokan teknik
klasifikasi dapat dilihat pada Gambar 2.1.
Gambar 2.1 Pengelompokan Teknik Klasifikasi
Setiap teknik
memiliki kelebihan dan kekurangannya sendiri. Data dengan profil tertentu
mungkin paling optimal jika diklasifikasi dengan teknik tertentu, atau dengan
kata lain, profil data tertentu dapat mendukung termanfaatkannya kelebihan dari
teknik ini (Widiarto, 2011).
Pohon keputusan merupakan metode klasifikasi dan prediksi
yang sangat kuat dan terkenal. Metode pohon keputusan mengubah fakta yang
sangat besar menjadi pohon keputusan yang mempresentasikan aturan (Kusrini
& Luthfi, 2009).
4. Pohon Keputusan
Pohon (tree)
adalah sebuah struktur data yang terdiri dari simpul (node) dan rusuk (edge).
Simpulan pada sebuah pohon dibedakan menjadi tiga, yaitu simpul akar (root node), simpul percabangan/ internal
(branch/ internal node) dan simpul
daun (leaf node). Pohon keputusan
merupakan representasi sederhan dari teknik klasifikasi untuk sejumlah kelas
berhingga, dimana simpul internal maupun simpul akar ditandai dengan nama atribut,
rusuk-rusuknya diberi label nilai atribut yang mungkin dan simpul daun ditandai
dengan kelas-kelas yang berbeda (Hermawati, 2013).
Basuki & Syarif (2003) dalam Kusrini
& Luthfi (2009) mengungkapkan bahwa data dalam pohon keputusan biasanya
dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat sebagai
kriteria dalam pembentukan pohon. Misalkan untuk menentukan main tenis,
kriteria yang diperhatikan adalah cuaca, angin, dan temperatur. Salah satu
atribut merupakan atribut yang menyatakan data solusi per item data yang disebut target atribut. Atribut memiliki nilai-nilai
yang dinamakan dengan instance.
Misalkan atribut cuaca memiliki instance
berupa cerah berawan, dan hujan.
Basuki & Syarif (2003) dalam Kusrini
& Luthfi (2009) mengungkapkan bahwa proses pada pohon keputusan adalah
mengubah bentuk data (tabel) menjadi model pohon, mengubah model pohon menjadi
model rule, dan menyederhanakan rule.
Larose (2005) dalam Kusrini & Luthfi
(2009) mengungkapkan bahwa banyak algoritma yang dapat dipakai dalam
pembentukan pohon keputusan, antara lain ID3, CART, dan C4.5. Algoritma C4.5
merupakan pengembangan dari algorima ID3.
Dengan algoritma C4.5, sistem akan membentuk
pohon keputusan dan basis pengetahuan berbentuk aturan. Pengetahuan yang
dihasilkan merupakan pengetahuan yang telah disederhanakan (Kharis, Delima
& Purwadi, 2013).
5. Algoritma C4.5
Algoritma C4.5 merupakan
pengembangan dari ID3, bebeberapa kelebihan dari algoritma C4.5 seperti mampu
mengatasi missing data, bisa
mengatasi data kontinyu, pruning,
aturan dan menggunakan data yang besar jumlahnya (Santosa, 2007). Secara umum
algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut.
a.
Pilih atribut sebagai akar.
b.
Buat cabang untuk tiap nilai.
c.
Bagi kasus dalam cabang.
d.
Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki
kelas yang sama.
Untuk memilih atribut
sebagai akar, didasarkan pada nilai gain
tertinggi dari atribut-atribut yang ada. Untuk menghitung gain digunakan rumus seperti tertera dalam persamaan 1 berikut.
Keterangan:
S : himpunan kasus
A : atribut
n : jumlah partisi atribut A
|Si| : jumlah kasus pada partisi ke-i
|S| : jumlah kasus dalam S
Sementara itu, perhitungan nilai entropi
dapat dilihat pada persamaan 2 berikut.
Keterangan:
S :
himpunan kasus
A :
fitur
n :
jumlah partisi S
pi : proporsi dari Si terhadap S (Kusrini
& Luthfi, 2009).
Algoritma C4.5 akan berhenti apabila
atribut sempurna mengklasifikasikan data training. Atau secara rekursif
mengoperasikan nilai n, dimana n adalah banyaknya nilai kemungkinan dari suatu
untuk mendapatkan atribut terbaik.
Bambang
(2013) mengungkapkan bahwa sampel data yang digunakan oleh C4.5 memiliki
beberapa syarat, yaitu :
a.
Deskripsi atribut nilai.
Atribut yang sama harus mampu mendeskripsikan
setiap contoh dan memiliki jumlah nilai yang sudah ditentukan.
b.
Nilai yang sudah didefinisikan sebelumnya.
Suatu atribut contoh harus di definisikan,
karena atribut tersebut tidak dipelajari oleh C4.5.
c.
Nilai-nilai yang
diskrit.
Nilai
harus digambarkan dengan jelas. Nilai yang kontinu dipecah-pecah menjadi
kategori-kategori yang relatif, misalnya saja metal dikategorikan menjadi “hard, quite hard, flexible, soft, quite
soft”.
d.
Jumlah contoh (example) yang cukup.
Karena
pembangkitan induktif digunakan, maka dibutuhkan test case yang cukup untuk membedakan pola yang valid dari peluang
suatu kejadian.
Menerima jasa pembuatan skripsi tugas akhir informatika menggunakan pohon keputusan C4.5. Jika berminat bisa hubungi 0856-6480-4659
1. Tampilan lebih Menarik,
2. Terdapat Pohon Keputusan, Chart Pohon Keputusan & Rule Pohon Keputusan,
3. Dilengkapi Perhitungan Waktu untuk menghitung proses Training dan proses Testing,
4. Harga Terjangkau.
Algoritma, Algorithm, C4.5, ID3, Data Mining, Pohon Keputusan, Klasifikasi, Perhitungan, Atribut, Variabel, Aplikasi, PHP, Web, My SQL, Harga Murah, Mudah, Cepat, Skripsi, Tugas Akhir, Judul, Topik, Tema, Seminar, Kasus, Kusrini, Lutfi, Mengolah, Kuliah, Lulus, Kerja, Bimbingan, Jasa. Pembuatan.