An
intelligent system for customer targeting- a data mining approach
Sistem Pendukung Keputusan
Tujuan
akhir dari sistem pendukung keputusan adalah untuk menyediakan manajer dengan
informasi yang berguna untuk memahami berbagai aspek manajerial dari suatu
masalah dan untuk memilih solusi terbaik di antara banyak alternatif. Sistem
pendukung keputusan yang sangat spesifik atas nama manajer pasar yang ingin mengembangkan
dan menerapkan program pemasaran yang efisien dengan sepenuhnya memanfaatkan
database pelanggan. Ini penting karena meningkatnya minat dalam pemasaran
mikro, banyak perusahaan mencurahkan banyak sumber daya untuk mengidentifikasi
rumah tangga yang mungkin terbuka untuk pesan pemasaran yang ditargetkan. Ini
menjadi lebih penting melalui ketersediaan gudang data yang mudah menggabungkan
informasi demografis, psikografis, dan perilaku.
Secara
tradisional, pemilihan target pengiriman yang optimal telah dianggap sebagai
salah satu faktor terpenting agar pemasaran langsung berhasil. Dengan demikian,
banyak model bertujuan untuk mengidentifikasi sebanyak mungkin pelanggan yang
akan menanggapi surat kampanye ajakan tertentu, berdasarkan perkiraan
kemungkinan pelanggan menanggapi program pemasaran.
Masalah
Interpretasi Model
Masalah
ini menjadi lebih rumit ketika interpretasi model menjadi penting. Misalnya,
dalam aplikasi pemasaran basis data, sangat penting bagi manajer untuk memahami
pendorong utama respons konsumen. Model prediktif yang pada dasarnya adalah
"kotak hitam" tidak berguna untuk mengembangkan strategi pemasaran
yang komprehensif. Pada saat yang sama, sistem berbasis aturan yang terdiri dari
terlalu banyak pernyataan jika-maka dapat mempersulit pengguna untuk
mengidentifikasi pendorong utama. Perhatikan bahwa dua tujuan utama, model
interpretabilitas dan akurasi prediktif, dapat bertentangan.
Akhirnya,
untuk meningkatkan kemampuan interpretasi model dengan mengurangi dimensi kumpulan
data. Secara tradisional, algoritma ekstraksi fitur termasuk analisis komponen
utama (PCA) telah sering digunakan untuk tujuan ini. Namun, PCA tidak tepat
ketika tujuan akhir tidak hanya untuk mengurangi dimensi, tetapi juga untuk
mendapatkan model prediksi yang sangat akurat.
Hal
ini dikarenakan PCA tidak memperhitungkan hubungan antara variabel dependen dan
variabel input lainnya dalam proses reduksi data. Selanjutnya, komponen utama
yang dihasilkan dari PCA bisa sulit untuk ditafsirkan ketika ruang variabel
input sangat besar.
Seleksi Fitur
Reduksi
data dilakukan melalui seleksi fitur dalam pendekatan. Seleksi fitur
didefinisikan sebagai proses memilih subset dari variabel prediktif asli dengan
menghilangkan fitur yang berlebihan atau memiliki sedikit informasi prediktif. Mengekstrak
informasi sebanyak mungkin dari kumpulan data yang diberikan saat menggunakan
jumlah fitur yang paling sedikit, tidak hanya dapat menghemat banyak waktu dan
biaya komputasi, tetapi juga membangun model yang dapat digeneralisasi lebih
baik untuk rumah tangga tidak dalam pengujian pengiriman. Pemilihan fitur juga
dapat secara signifikan meningkatkan pemahaman model pengklasifikasi yang
dihasilkan. Bahkan model yang rumit—seperti jaringan saraf—dapat lebih mudah
dipahami jika dibangun hanya dari beberapa variabel.
GA dan JST
Memanfaatkan karakteristik GA dan JST yang diinginkan untuk mencapai dua tujuan utama penargetan rumah tangga pada titik target tertentu: kemampuan interpretasi model dan akurasi prediktif. GA standar digunakan untuk menelusuri kemungkinan kombinasi fitur. Fitur masukan yang dipilih oleh GA digunakan untuk melatih JST. JST terlatih diuji pada perangkat evaluasi, dan model yang diusulkan dievaluasi dalam dua pengukuran kualitas, tingkat hit kumulatif (yang dimaksimalkan) dan kompleksitas (yang diminimalkan). Mendefinisikan hit rate kumulatif sebagai rasio jumlah pelanggan aktual yang diidentifikasi dari jumlah total pelanggan aktual dalam kumpulan data. Proses ini diulang berkali-kali karena algoritma mencari keseimbangan yang diinginkan antara akurasi prediksi dan kompleksitas model. Hasilnya adalah model prediktif yang sangat akurat yang hanya menggunakan Sebagian dari fitur asli, sehingga menyederhanakan model dan mengurangi risiko overfitting. Ini juga memberikan informasi yang berguna untuk mengurangi biaya pengumpulan data di masa mendatang.
Metodologi
GA/ANN yang baru diterapkan pada prediksi rumah tangga yang tertarik untuk
membeli polis asuransi kendaraan rekreasi. Untuk membandingkan prosedur baru, Membandingkan
prediksi kinerja Ensemble ke JST tunggal dengan set lengkap fitur. Tidak
membandingkan pendekatan dengan model regresi logit standar karena model regresi
logit adalah kasus khusus dari JST tunggal dengan satu simpul tersembunyi.
Evaluasi
Data diambil dari
ajakan 9822 rumah tangga Eropa untuk membeli asuransi kendaraan rekreasi. Data
ini, diambil dari kompetisi peramalan CoIL 2000. memberikan kesempatan untuk
menilai property prosedur GA/ JST dalam aplikasi pencarian pelanggan. Dalam
analisis menggunakan dua kumpulan data terpisah: kumpulan pelatihan dengan 5822
rumah tangga dan kumpulan evaluasi dengan 4000 rumah tangga. Data pelatihan
digunakan untuk mengkalibrasi model dan memperkirakan hit rate yang diharapkan
dalam set evaluasi. Dari 5.822 prospek dalam kumpulan data pelatihan, 348 membeli
asuransi RV, menghasilkan tingkat keberhasilan 348/5822 = 5,97%. Dari sudut
pandang manajer, ini adalah hit rate yang akan diperoleh jika permintaan
dikirim secara acak ke konsumen di database perusahaan.
Data
evaluasi digunakan untuk memvalidasi model prediksi. Model prediktif Ensemble
kami dirancang untuk mengembalikan yang teratas saya % pelanggan dalam kumpulan
data evaluasi yang dinilai paling mungkin untuk membeli asuransi RV. Keakuratan
prediksi model diperiksa dengan menghitung hit rate yang diamati di antara
rumah tangga yang dipilih. Penting untuk dipahami bahwa hanya informasi dalam
kumpulan data pelatihan yang digunakan dalam mengembangkan model. Data dalam
kumpulan data evaluasi digunakan secara eksklusif untuk peramalan.
Selain
pilihan polis asuransi RV yang diamati, catatan setiap rumah tangga juga berisi
93 variabel tambahan, yang berisi informasi tentang karakteristik
sosio-demografis (variabel 1–51) dan kepemilikan berbagai jenis polis asuransi
(variable 52–93). Awalnya, setiap kumpulan data memiliki 85 atribut. Menghilangkan
fitur pertama (subtipe pelanggan) terutama karena fitur tersebut akan
memperluas ruang pencarian secara dramatis dengan sedikit perolehan informasi jika
merepresentasikannya sebagai variabel 41-bit.
Selanjutnya, masih dapat memanfaatkan informasi tipe pelanggan dengan merekam fitur kelima (tipe utama pelanggan) sebagai variabel 10-bit, yang dikodekan ke dalam 10 variabel biner (variabel 4– 13). Detail disediakan diTabel 1. Data sosio-demografis didasarkan pada informasi kode pos. Artinya, semua pelanggan yang tinggal di daerah dengan kode pos yang sama memiliki atribut sosiodemografi yang sama.
Perusahaan
asuransi dalam penelitian ini menskalakan sebagian besar variabel sosiodemografis
pada skala ordinal 10 poin (menunjukkan kemungkinan relatif bahwa sifat
sosio-demografis ditemukan di area kode pos tertentu). Penskalaan ordinal 10
poin ini mencakup variabel yang dilambangkan sebagai ''proporsi'' diTabel 1.
Untuk tujuan penelitian ini, semua variabel ini dianggap sebagai kontinu.
Namun, penugasan segmen psikografik (variabel 4-13), adalah spesifik rumah
tangga dan merupakan variabel biner.
Kesimpulan
Menyajikan pendekatan baru untuk penargetan pelanggan dalam pemasaran basis data. Menggunakan algoritme genetika untuk mencari kemungkinan kombinasi fitur dan jaringan saraf tiruan untuk menilai pelanggan. Salah satu kekuatan yang jelas dari pendekatan GA/ ANN adalah kemampuannya untuk membangun model prediktif yang mencerminkan proses keputusan pemasar langsung. Secara khusus, dengan informasi biaya kampanye dan keuntungan per pelanggan aktual tambahan,
Menunjukkan
bahwa system tidak hanya memaksimalkan hit rate pada titik target tetap tetapi
juga memilih titik target ''terbaik'' di mana keuntungan yang diharapkan dari
pengiriman langsung dimaksimalkan. Selanjutnya, model dibuat lebih mudah untuk diinterpretasikan
dengan menggunakan lebih sedikit fitur. Dalam pekerjaan di masa depan, kita
akan melihat model penargetan pelanggan yang mengasumsikan struktur pendapatan
marjinal yang heterogen per setiap prospek.
Kumpulan
data yang analisis dalam makalah ini tidak mencakup informasi penting seperti
nilai moneter yang dikeluarkan setiap pelanggan untuk membeli polis asurans karavan.
Hal ini juga masuk akal untuk mengasumsikan bahwa ada perbedaan yang relatif
kecil dalam hal nilai moneter dalam pilihan jaminan yang tersedia untuk
pelanggan. Namun, asumsikan kasus bahwa organisasi nirlaba mengirimkan surat permohonan
kepada donor yang mungkin untuk amal. Bagi organisasi ini, memaksimalkan jumlah
total uang yang disumbangkan lebih penting daripada mengidentifikasi donor sebanyak
mungkin. Ini karena, dalam kasus yang ekstrim, donor tunggal dapat
menyumbangkan lebih banyak uang daripada semua donor lainnya.
Dalam
hal ini, penargetan pelanggan berbasis nilai menjadi penting. Dengan
mempertimbangkan peningkatan nilai uang oleh pelanggan yang ditargetkan sebagai
satu tujuan, model GA/ANN akan dapat menemukan solusi optimal dengan nilai uang
yang dimaksimalkan. Terkait dengan arah penelitian ini, menarik untuk melihat
apakah model bi-level yang memiliki dua prosedur terpisah, satu untuk mengestimasi
probabilitas donasi dan yang lainnya untuk mengestimasi jumlah donasi, bisa
lebih baik.
Diklaim
bahwa setiap model pengklasifikasi tunggal yang mempelajari dua parameter cenderung
membuat lebih banyak kesalahan dalam mempelajari aturan keputusan daripada
model dua tingkat. Arah penelitian lain adalah untuk menyelidiki apakah subset
fitur yang dipilih terkait dengan titik target atau tidak. Hasil eksperimen menunjukkan
bahwa subset fitur yang berbeda dipilih pada titik target yang berbeda kecuali
untuk beberapa fitur umum. Mengharapkan subset fitur prediktif yang baik muncul
di sebagian besar solusi lokal. Menduga bahwa subset fitur tertentu dapat
membedakan pembeli dengan baik dari non-pembeli pada titik target, tetapi tidak
serta fitur lain pada titik yang berbeda. Bisa juga terjadi karena korelasi yang
kuat antara fitur-fitur terkait asuransi. Namun, itu memerlukan penyelidikan
lebih lanjut untuk mendukung spekulasi kami.