Saturday, September 30, 2006

Print Story: Yahoo allows outsiders to innovate on Yahoo e-mail on Yahoo! News

Print Story: Yahoo allows outsiders to innovate on Yahoo e-mail on Yahoo! News

Perkembangan perangkat lunak memang sangat mengagumkan. Kolaborasi antar programmer makin lama semakin mudah. Dan di penghujung bulan September 2006 ini, Yahoo! mengumumkan kolaborasi semacam ini dapat dilakukan melalui Yahoo!eMail-nya.

Saturday, August 19, 2006

hdn - Data Mining

hdn - Data Mining

Yet another list of links of Data Mining Resources, courtesy of my colleague, hdn. Some of them already in my bookmark. Some of them are new.
http://www.tug.org/fonts/

Thursday, August 10, 2006

Every class of a software module has their own responsibilities. The same applies to every species in biological kingdom.

Wednesday, July 05, 2006

Penambangan Asosiasi (bagian 3)

(lanjutan dari bagian ke-2)

Dengan menggunakan contoh pada bagian ke-2, dalam bahasa yang mudah, Penambangan Asosiasi dapat didefinisikan (secara informal) sebagai pencarian sebuah aturan asosiasi dalam bentuk "Jika X maka Y". Di sini X dan Y adalah sebuah himpunan items. Dalam contoh sebelumnya, items sama dengan barang belanjaan (karena itulah Penambangan Asosiasi sering juga dinamakan Market Basket Analysis).

Yang harus diingat di sini adalah, himpunan X harus berbeda dengan himpunan Y. Secara matematis dikatakan "Irisan himpunan X dan himpunan Y adalah himpunan kosong (X and Y are disjoint sets)".

Sekarang kita bisa lanjutkan pembahasan dengan memperkenalkan konsep Frequent itemsets. Himpunan satu atau beberapa items disebut sebagai itemset. Frequent itemset adalah himpunan yang sering muncul dalam keranjang belanja pengunjung pasar. Dalam bahasa awam, ini bisa dikatakan sebagai barang-barang yang sering dibeli orang.

Penambangan Asosiasi tidak hanya 'menemukan' barang-barang yang sering dibeli orang, tapi juga sebuah pengetahuan dalam bentuk aturan asosiasi seperti di atas. "Jika orang sering belanja Rinso, maka dia juga sering beli Attack" (ini hanya sekedar contoh). Masalahnya pada titik pembahasan ini adalah bagaimana kita dapat menemukan bahwa barang-barang tertentu sering dibeli (frequent) orang atau tidak.

Sering atau tidaknya sebuah barang dibeli tentu saja diukur dari jumlah kemunculan (frequency) barang tersebut dalam keranjang belanja pembeli. Jika kita diberikan sebuah catatan oleh manajer pasar swalayan berisi daftar transaksi belanja selama sehari, maka kita memiliki sebuah basis data transaksi (transaction database). Basis data ini kita gunakan untuk mencari aturan asosiasi.

Sebuah contoh sederhana dari basis data semacam itu dapat disajikan seperti berikut ini:

TID Itemsets
100 a d f
200 c d e
300 b d
400 a b c d
500 b c
600 a b d
700 b d e
800 b c e g
900 c d f
1000 a b d

(akan dilanjutkan pada bagian berikutnya)

Kepongahan Mendidik

Ujian Akhir Nasional (UAN) di Indonesia memancing kontroversi. Korbannya juga tidak sekedar putus asa biasa..banyak berita terdengar siswa SMU yang tidak lolos UAN menderita depresi, malu (terhadap teman-teman dan orang tuanya), bahkan beberapa mencoba untuk bunuh diri. Dan dengan bijaknya pemerintah membuat keputusan untuk tidak mengadakan ujian ulangan.

Bagi saya, kriteria penilaian UAN itu sendiri bermasalah. Seorang siswa dikatakan lulus jika dia berhasil mengerjakan dengan baik hanya 3 mata pelajaran. Segala jerih payah pemahaman yang dilakukan siswa tersebut selama tiga tahun tidak digunakan sebagai perhitungan.

Coba sekarang kita lihat apa yang terjadi dengan kasus berikut: Seorang siswa kebetulan pada saat jadwal UAN diadakan mengalami musibah (sakit, banjir, gunung meletus, kerabat dekatnya meninggal, dsb). Siswa ini tidak akan lulus, karena dia tidak bisa mengikuti UAN, sekalipun dia memiliki prestasi bagus. Mungkin kasus saya terlalu ekstrem. Marilah kita perlunak sedikit, katakanlah sang siswa sedang sakit (flu) misalnya, sehingga dia tidak dapat berkonsentrasi dengan baik pada saat mengikuti UAN. Karena kelulusan siswa ini hanya ditentukan dari 3 hari UAN diadakan, jika gagal, tak lulus lah dia. Sungguh tak adil menilai lulus tidaknya seseorang dengan cara seperti ini.

Mari kita lihat dari sisi lain. Materi pelajaran yang diujikan dalam UAN hanyalah Bahasa Inggris, Bahasa Indonesia, dan Matematika. Nah, coba lah pikir jika siswa yang mengikuti UAN senang dan jatuh cinta dengan mata pelajaran Biologi, sedangkan kisah asmaranya dengan ketiga mata pelajaran UAN biasa-biasa saja. Kira-kira bagaimana? Padahal kalau mau ditelaah lebih jauh, siswa ini bisa jadi seorang calon dokter handal.

Pemerintah Republik ini agak pongah. Pertama, yang menanggapi soal ini terdengar vokal hanya Wakil Presiden (yang notabene adalah pengusaha). Dia lupa bahwa yang namanya belajar adalah lebih kepada bagaimana proses pembelajaran itu dilakukan, bagaimana prestasi siswa selama belajar di SMU itu berlangsung. Wakil Presiden hanya melihat hasil akhir tanpa melihat bagaimana prosesnya. Tipikal cara pikir pengusaha, yang penting bisa untung tanpa (terlalu) perduli bagaimana keuntungan itu diperoleh.

Hal kedua yang tampak aneh adalah tak ada sama sekali komentar Presiden tentang hal ini. Padahal pendidikan modal utama buat bangsa ini agar bisa berdiri sama tinggi di antara bangsa-bangsa lain.

Tampaknya memang pendidikan menjadi barang tak penting di negeri ini, sejak jaman Orde Baru, dan mungkin bahkan sejak jaman Orde Lama. Tak ada perhatian cukup untuk meningkatkan mutu pendidikan siswa dan guru-guru. Bahkan dosen-dosen perguruan tinggi pun lebih banyak dikenal sebagai dosen terbang, yang kerjanya mengajar sana, terbang ke perguruan tinggi lain, mengajar di sana. Tak ada waktu untuk menambah wawasan keilmuan. Wajar lah kalau Indonesia tertinggal dibanding mantan muridnya, Malaysia.

Tuesday, May 02, 2006

Hari Pendidikan Nasional 2006

Kangen juga rasanya nulis-nulis di belakang meja kayu. Tangan kanan bergerak lincah memandu alat tulis menorehkan angka dan kata. Tangan kiri ditekuk di atas meja, di antara dada dan pinggiran meja, agar dada tidak sakit terkena pinggiran meja kayu.

Mendengarkan cerita bapak dan ibu guru, menyimak soal yang diberikan, berteriak gembira ketika lonceng tanda istirahat berbunyi nyaring. Bermain bersama kawan-kawan, bercerita tentang film serial yang diputar di TVRI malam hari sebelumnya.

Bergiliran mengantri meminjam buku di perpustakaan. Membayangkan asyiknya mengelana berkeliling nusantara dan dunia bersama tokoh-tokoh dalam buku cerita yang dipinjam.

Selamat hari Pendidikan Nasional. Terima kasih banyak buat ibu dan bapak guru. Jasamu sungguh tak ternilai.

Tuesday, March 07, 2006

Text Mining Links

Maaf, interupsi sebentar. Sebelum melanjutkan pembahasan tentang Penambangan Asosiasi, berikut ini beberapa links menarik tentang topik KDT (Knowledge Discovery in Textual databases).

  1. Untangling Text Data Mining
  2. Text Data Mining: Issues, Techniques, and the Relationship to Information Access by Marti A. Hearst
  3. Text Mining, Web Mining, Information Retrieval and Extraction from the WWW References

Penambangan Asosiasi (bagian 2)

(lanjutan dari bagian 1)

Hal semacam itu mungkin terjadi jika anda belanja di pasar swalayan yang telah menerapkan 'findings' dari teknologi Penambangan Data (Data Mining). Seorang manajer pasar swalayan berusaha untuk meningkatkan jumlah penjualan dari barang-barang yang dijual di tokonya. Bagaimana caranya? Caranya adalah dengan menyusun barang-barang yang dijual dalam susunan yang membuat orang tertarik untuk membeli barang-barang lain di samping barang-barang yang sudah dibelinya.

Maaf kalau kalimat saya yang terakhir terlalu panjang. Saya coba untuk sederhanakan agar anda lebih mudah memahami dengan memberikan sebuah contoh.

Pernahkah anda mengamati dalam sebuah pasar swalayan kadang-kadang ada promosi produk tertentu? Di mana promosi barang tersebut diletakkan? Pada umumnya di area dekat kasir. Padahal kalau anda perhatikan lagi, barang yang dipromosikan sebenarnya sudah ada alokasi raknya sendiri di area lain di toko tersebut. Mengapa promosinya diletakkan di dekat kasir? Mungkin anda menjawab, agar orang melihat promosi itu, dan sambil menunggu antrian pembayaran di kasir, manajer toko berharap anda akan mengambil salah satu produk itu untuk anda coba. Jika ini terjadi, promosi yang dilakukan berhasil, dan manajer toko berhasil mencapai tujuannya meningkatkan jumlah penjualan.

Jika diamati lebih jauh, peletakan barang-barang di toko juga dilakukan berdasarkan pemikiran yang sama. Secara mudah, manajer toko menggunakan aturan sederhana: Letakkan barang-barang yang bisa menarik pembeli di tempat yang mudah terlihat. Tapi sebenarnya tidak hanya itu yang bisa dilakukan oleh manajer toko. Barang apa saja sih (misalkan barang X, Y, atau Z) yang bisa menarik seorang pembeli ketika dia membeli sesuatu (misalkan barang A)?

Hal ini bisa diketahui dengan teknik Penambangan Data. Data penjualan yang dimasukkan oleh kasir setiap kali anda membeli barang di pasar swalayan akan tersimpan dalam basis data. Hal yang sama juga dilakukan bagi keranjang belanja milik pembeli lain selain anda. Dalam satu hari, akan terkumpul data transaksi (Transactions) yang berisi informasi barang-barang apa saja yang dibeli oleh masing-masing pembeli yang telah mengunjungi toko tersebut sepanjang hari. Tentu saja nama pembeli tidak perlu diketahui, yang diperlukan hanyalah nomor identitas transaksi (Transaction ID, atau lebih singkat TID) yang bisa diambil dari waktu pembelian dicatat ke dalam basis data. Selain TID, informasi yang diperlukan tentu saja adalah barang-barang apa saja (itemlist) yang ada dalam keranjang belanja untuk TID yang bersangkutan.

Jika anda tadi membeli barang-barang berikut ini:
1. Teh Tarik MaxTea
2. Kopi Torabika Capuccino
3. Nutrisari Florida Orange
4. Gula Rendah Kalori Tropicana Slim
5. Nutri Tea Instant Original Tea
6. Teh Poci Celup
7. Ginseng Creamer
8. Jahe Wangi
(daftar ini saya dapatkan dari mas Wisnu)

Untuk setiap TID, ada itemlist-nya masing-masing. Dan semua ini tercatat di dalam basis data.

Nah, sekarang, karena datanya sudah tercatat semua, pertanyaan manajer toko bisa dijawab dengan lebih mudah. Salah satu pertanyaan yang mungkin diajukan oleh manajer toko misalnya seperti ini: "Kalo saya mau naro Jahe Wangi, sebaiknya ditaro di mana yah, biar banyak yang beli? Apa deket sama Teh Poci? Apa ditaro deket sama Rinso?"

Kira-kira, mana yang paling masuk akal? Tentu saja diletakkan di dekat Teh Poci. Kalau ada pembeli yang hobi dengan Teh Poci, dan melihat di sebelahnya ada Jahe Wangi, kemungkinan besar dia akan mengambil satu kotak untuk dicoba di rumah. Tapi kalo orang beli Rinso?

(berlanjut di bagian ke-3)

Tuesday, February 07, 2006

Penambangan Asosiasi (bagian 1)

Udah lama blog ini nggak ditambah isinya. Biar nggak kosong, sengaja saya mengisinya dengan topik-topik yang berkaitan dengan ide-ide. Soalnya, kalau hanya diisi dengan soal-soal cerita dari buku Tjerdas Tangkas saja, maka blog ini akan membosankan. Lagipula nanti saya bisa ditjap sebagai pembadjak buku.

Dan ini adalah entri pertama yang memuat ide semacam itu.

Dalam dunia Data Mining, ada sebuah teknik penambangan data yang dikenal dengan Mining Assocation Rules. Dalam bahasa Indonesia, terjemahannya kira-kira Penambangan Aturan Asosiasi. Walaupun mungkin agak terdengar aneh, tapi yang jadi pokok soal adalah apa sih sebenarnya yang dimaksud dengan Aturan Asosiasi ini?

Contoh klasik dalam literatur Data Mining tentang Aturan Asosiasi ini adalah keranjang belanja yang diisi oleh barang-barang belanjaan oleh para pembeli. Bagi pemilik toko, pertanyaan menarik yang biasa ditanyakan adalah, "Seperti apa sih perilaku belanja pelanggan saya?"

Bisa jadi, ketika anda membeli sekotak susu, kemungkinan besar anda juga akan membeli sekotak teh. Atau mungkin anda pernah mengalami sendiri, ketika selesai berkunjung ke sebuah pasar swalayan, anda menyadari bahwa barang-barang yang anda beli lebih banyak daripada yang seharusnya. Ketika anda berangkat dari rumah, anda hanya berniat membeli satu batang pulpen. Tapi sesampainya di rumah, ternyata anda membawa satu kantong belanja berisi barang-barang selain pulpen.

Mengapa hal ini bisa terjadi?

(bersambung ke bagian ke-2)