info info

1. Data Mining

Larose (2005) dalam Kusrini & Luthfi (2009) mengungkapkan bahwa menurut Gartner Group, data mining adalah suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik statistik dan matematika.

Data mining berisi pencarian trend atau pola yang diinginkan dalam database yang besar untuk membantu pengambilan keputusan di waktu yang akan datang. Harapannya, perangkat data mining mampu mengenali pola-pola ini dalam data dengan masukan yang minimal. Pola-pola ini dikenali oleh perangkat tertentu yang dapat memberikan suatu analisa data yang berguna dan berwawasan yang kemudian dapat dipelajari dengan lebih teliti, yang mungkin saja menggunakan perangkat pendukung keputusan yang lainnya (Hermawati, 2013).

Larose (2005) dalam Kusrini & Luthfi (2009) mengungkapkan bahwa data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan yaitu Deskripsi, Estimasi, Prediksi, Klasifikasi, Pengklusteran dan Asosiasi.

2. Tahap-Tahap Data Mining

Fyaad (1996) mengungkapkan istilah data mining dan knowledge discovery in database (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara garis besar dapat dijelaskan sebagai berikut.

1. Data Selection

Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan suatu berkas, terpisah dari basis data operasional.

2. Pre-prosessing/Cleaning

Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Juga dilakukan proses enrichment yaitu proses "memperkaya" data yang sudah ada dengan data atau informasi yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.

3. Transformasi

Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data.

4. Data mining

Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.

5. Interpretation/Evaluation

Pola informasi yang dihasilkan dari proses data mining, perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya.

3. Klasifikasi

Teknik klasifikasi (classifier) merupakan suatu pendekatan sistematis untuk membangun model klasifikasi dari suatu himpunan data masukkan. Tiap teknik menggunakan suatu algoritma pembelajaran (learning algorithm) untuk mendapatkan suatu model yang paling memenuhi hubungan antara himpunan atribut dan label klasifikasi dalam data masukkan. Tujuan dari algoritma pembelajaran adalah untuk membangun model yang secara umum berkemampuan baik, yaitu model yang dapat memprediksi label kelas dari record yang tidak diketahui kelas sebelumnya dengan lebih akurat (Hermawati, 2013).

Teknik klasifikasi dalam data mining dikelompokkan ke dalam Teknik Pohon Keputusan, Bayesian (Naive Bayesian dan Bayesian Belief Networks), Jaringan Saraf Tiruan (Backpropagation), teknik yang berbasis konsep dari penambangan aturan-aturan asosiasi, dan teknik lain (k-Nearest Neighboor, algoritma genetik, teknik dengan pendekatan himpunan rough dan fuzzy). Untuk lebih memperjelas mengenai pengelompokan teknik klasifikasi dapat dilihat pada Gambar 2.1.

Gambar 2.1 Pengelompokan Teknik Klasifikasi

Setiap teknik memiliki kelebihan dan kekurangannya sendiri. Data dengan profil tertentu mungkin paling optimal jika diklasifikasi dengan teknik tertentu, atau dengan kata lain, profil data tertentu dapat mendukung termanfaatkannya kelebihan dari teknik ini (Widiarto, 2011).

Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang mempresentasikan aturan (Kusrini & Luthfi, 2009).

4. Pohon Keputusan

Pohon (tree) adalah sebuah struktur data yang terdiri dari simpul (node) dan rusuk (edge). Simpulan pada sebuah pohon dibedakan menjadi tiga, yaitu simpul akar (root node), simpul percabangan/ internal (branch/ internal node) dan simpul daun (leaf node). Pohon keputusan merupakan representasi sederhan dari teknik klasifikasi untuk sejumlah kelas berhingga, dimana simpul internal maupun simpul akar ditandai dengan nama atribut, rusuk-rusuknya diberi label nilai atribut yang mungkin dan simpul daun ditandai dengan kelas-kelas yang berbeda (Hermawati, 2013).

Basuki & Syarif (2003) dalam Kusrini & Luthfi (2009) mengungkapkan bahwa data dalam pohon keputusan biasanya dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan pohon. Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca, angin, dan temperatur. Salah satu atribut merupakan atribut yang menyatakan data solusi per item data yang disebut target atribut. Atribut memiliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut cuaca memiliki instance berupa cerah berawan, dan hujan.

Basuki & Syarif (2003) dalam Kusrini & Luthfi (2009) mengungkapkan bahwa proses pada pohon keputusan adalah mengubah bentuk data (tabel) menjadi model pohon, mengubah model pohon menjadi model rule, dan menyederhanakan rule.

Larose (2005) dalam Kusrini & Luthfi (2009) mengungkapkan bahwa banyak algoritma yang dapat dipakai dalam pembentukan pohon keputusan, antara lain ID3, CART, dan C4.5. Algoritma C4.5 merupakan pengembangan dari algorima ID3.

Dengan algoritma C4.5, sistem akan membentuk pohon keputusan dan basis pengetahuan berbentuk aturan. Pengetahuan yang dihasilkan merupakan pengetahuan yang telah disederhanakan (Kharis, Delima & Purwadi, 2013).

5. Algoritma C4.5

Algoritma C4.5 merupakan pengembangan dari ID3, bebeberapa kelebihan dari algoritma C4.5 seperti mampu mengatasi missing data, bisa mengatasi data kontinyu, pruning, aturan dan menggunakan data yang besar jumlahnya (Santosa, 2007). Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut.

a. Pilih atribut sebagai akar.

b. Buat cabang untuk tiap nilai.

c. Bagi kasus dalam cabang.

d. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama.

Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain digunakan rumus seperti tertera dalam persamaan 1 berikut.

Keterangan:

S : himpunan kasus

A : atribut

n : jumlah partisi atribut A

|S_i| : jumlah kasus pada partisi ke-i

|S| : jumlah kasus dalam S

Sementara itu, perhitungan nilai entropi dapat dilihat pada persamaan 2 berikut.

Keterangan:

S : himpunan kasus

A : fitur

n : jumlah partisi S

p_i : proporsi dari Si terhadap S (Kusrini & Luthfi, 2009).

Algoritma C4.5 akan berhenti apabila atribut sempurna mengklasifikasikan data training. Atau secara rekursif mengoperasikan nilai n, dimana n adalah banyaknya nilai kemungkinan dari suatu untuk mendapatkan atribut terbaik.

Bambang (2013) mengungkapkan bahwa sampel data yang digunakan oleh C4.5 memiliki beberapa syarat, yaitu :

a. Deskripsi atribut nilai.

Atribut yang sama harus mampu mendeskripsikan setiap contoh dan memiliki jumlah nilai yang sudah ditentukan.

b. Nilai yang sudah didefinisikan sebelumnya.

Suatu atribut contoh harus di definisikan, karena atribut tersebut tidak dipelajari oleh C4.5.

c. Nilai-nilai yang diskrit.

Nilai harus digambarkan dengan jelas. Nilai yang kontinu dipecah-pecah menjadi kategori-kategori yang relatif, misalnya saja metal dikategorikan menjadi “hard, quite hard, flexible, soft, quite soft”.

d. Jumlah contoh (example) yang cukup.

Karena pembangkitan induktif digunakan, maka dibutuhkan test case yang cukup untuk membedakan pola yang valid dari peluang suatu kejadian.

Menerima jasa pembuatan skripsi tugas akhir informatika menggunakan pohon keputusan C4.5. Jika berminat bisa hubungi 0856-6480-4659

1. Tampilan lebih Menarik,

2. Terdapat Pohon Keputusan, Chart Pohon Keputusan & Rule Pohon Keputusan,

3. Dilengkapi Perhitungan Waktu untuk menghitung proses Training dan proses Testing,

4. Harga Terjangkau.

Algoritma, Algorithm, C4.5, ID3, Data Mining, Pohon Keputusan, Klasifikasi, Perhitungan, Atribut, Variabel, Aplikasi, PHP, Web, My SQL, Harga Murah, Mudah, Cepat, Skripsi, Tugas Akhir, Judul, Topik, Tema, Seminar, Kasus, Kusrini, Lutfi, Mengolah, Kuliah, Lulus, Kerja, Bimbingan, Jasa. Pembuatan.

info info

Sabtu, 21 Mei 2016

Jual Program Algoritma Data Mining C4.5