Senin, 04 Juli 2022

An intelligent system for customer targeting- a data mining approach

 

An intelligent system for customer targeting- a data mining approach


Sistem Pendukung Keputusan

Tujuan akhir dari sistem pendukung keputusan adalah untuk menyediakan manajer dengan informasi yang berguna untuk memahami berbagai aspek manajerial dari suatu masalah dan untuk memilih solusi terbaik di antara banyak alternatif. Sistem pendukung keputusan yang sangat spesifik atas nama manajer pasar yang ingin mengembangkan dan menerapkan program pemasaran yang efisien dengan sepenuhnya memanfaatkan database pelanggan. Ini penting karena meningkatnya minat dalam pemasaran mikro, banyak perusahaan mencurahkan banyak sumber daya untuk mengidentifikasi rumah tangga yang mungkin terbuka untuk pesan pemasaran yang ditargetkan. Ini menjadi lebih penting melalui ketersediaan gudang data yang mudah menggabungkan informasi demografis, psikografis, dan perilaku.

Secara tradisional, pemilihan target pengiriman yang optimal telah dianggap sebagai salah satu faktor terpenting agar pemasaran langsung berhasil. Dengan demikian, banyak model bertujuan untuk mengidentifikasi sebanyak mungkin pelanggan yang akan menanggapi surat kampanye ajakan tertentu, berdasarkan perkiraan kemungkinan pelanggan menanggapi program pemasaran.

Masalah Interpretasi Model

Masalah ini menjadi lebih rumit ketika interpretasi model menjadi penting. Misalnya, dalam aplikasi pemasaran basis data, sangat penting bagi manajer untuk memahami pendorong utama respons konsumen. Model prediktif yang pada dasarnya adalah "kotak hitam" tidak berguna untuk mengembangkan strategi pemasaran yang komprehensif. Pada saat yang sama, sistem berbasis aturan yang terdiri dari terlalu banyak pernyataan jika-maka dapat mempersulit pengguna untuk mengidentifikasi pendorong utama. Perhatikan bahwa dua tujuan utama, model interpretabilitas dan akurasi prediktif, dapat bertentangan.

Akhirnya, untuk meningkatkan kemampuan interpretasi model dengan mengurangi dimensi kumpulan data. Secara tradisional, algoritma ekstraksi fitur termasuk analisis komponen utama (PCA) telah sering digunakan untuk tujuan ini. Namun, PCA tidak tepat ketika tujuan akhir tidak hanya untuk mengurangi dimensi, tetapi juga untuk mendapatkan model prediksi yang sangat akurat.

Hal ini dikarenakan PCA tidak memperhitungkan hubungan antara variabel dependen dan variabel input lainnya dalam proses reduksi data. Selanjutnya, komponen utama yang dihasilkan dari PCA bisa sulit untuk ditafsirkan ketika ruang variabel input sangat besar.

Seleksi Fitur

Reduksi data dilakukan melalui seleksi fitur dalam pendekatan. Seleksi fitur didefinisikan sebagai proses memilih subset dari variabel prediktif asli dengan menghilangkan fitur yang berlebihan atau memiliki sedikit informasi prediktif. Mengekstrak informasi sebanyak mungkin dari kumpulan data yang diberikan saat menggunakan jumlah fitur yang paling sedikit, tidak hanya dapat menghemat banyak waktu dan biaya komputasi, tetapi juga membangun model yang dapat digeneralisasi lebih baik untuk rumah tangga tidak dalam pengujian pengiriman. Pemilihan fitur juga dapat secara signifikan meningkatkan pemahaman model pengklasifikasi yang dihasilkan. Bahkan model yang rumit—seperti jaringan saraf—dapat lebih mudah dipahami jika dibangun hanya dari beberapa variabel.

GA dan JST

Memanfaatkan karakteristik GA dan JST yang diinginkan untuk mencapai dua tujuan utama penargetan rumah tangga pada titik target tertentu: kemampuan interpretasi model dan akurasi prediktif. GA standar digunakan untuk menelusuri kemungkinan kombinasi fitur. Fitur masukan yang dipilih oleh GA digunakan untuk melatih JST. JST terlatih diuji pada perangkat evaluasi, dan model yang diusulkan dievaluasi dalam dua pengukuran kualitas, tingkat hit kumulatif (yang dimaksimalkan) dan kompleksitas (yang diminimalkan). Mendefinisikan hit rate kumulatif sebagai rasio jumlah pelanggan aktual yang diidentifikasi dari jumlah total pelanggan aktual dalam kumpulan data. Proses ini diulang berkali-kali karena algoritma mencari keseimbangan yang diinginkan antara akurasi prediksi dan kompleksitas model. Hasilnya adalah model prediktif yang sangat akurat yang hanya menggunakan Sebagian dari fitur asli, sehingga menyederhanakan model dan mengurangi risiko overfitting. Ini juga memberikan informasi yang berguna untuk mengurangi biaya pengumpulan data di masa mendatang.

Metodologi GA/ANN yang baru diterapkan pada prediksi rumah tangga yang tertarik untuk membeli polis asuransi kendaraan rekreasi. Untuk membandingkan prosedur baru, Membandingkan prediksi kinerja Ensemble ke JST tunggal dengan set lengkap fitur. Tidak membandingkan pendekatan dengan model regresi logit standar karena model regresi logit adalah kasus khusus dari JST tunggal dengan satu simpul tersembunyi.

 

Evaluasi

Data diambil dari ajakan 9822 rumah tangga Eropa untuk membeli asuransi kendaraan rekreasi. Data ini, diambil dari kompetisi peramalan CoIL 2000. memberikan kesempatan untuk menilai property prosedur GA/ JST dalam aplikasi pencarian pelanggan. Dalam analisis menggunakan dua kumpulan data terpisah: kumpulan pelatihan dengan 5822 rumah tangga dan kumpulan evaluasi dengan 4000 rumah tangga. Data pelatihan digunakan untuk mengkalibrasi model dan memperkirakan hit rate yang diharapkan dalam set evaluasi. Dari 5.822 prospek dalam kumpulan data pelatihan, 348 membeli asuransi RV, menghasilkan tingkat keberhasilan 348/5822 = 5,97%. Dari sudut pandang manajer, ini adalah hit rate yang akan diperoleh jika permintaan dikirim secara acak ke konsumen di database perusahaan.

Data evaluasi digunakan untuk memvalidasi model prediksi. Model prediktif Ensemble kami dirancang untuk mengembalikan yang teratas saya % pelanggan dalam kumpulan data evaluasi yang dinilai paling mungkin untuk membeli asuransi RV. Keakuratan prediksi model diperiksa dengan menghitung hit rate yang diamati di antara rumah tangga yang dipilih. Penting untuk dipahami bahwa hanya informasi dalam kumpulan data pelatihan yang digunakan dalam mengembangkan model. Data dalam kumpulan data evaluasi digunakan secara eksklusif untuk peramalan.

Selain pilihan polis asuransi RV yang diamati, catatan setiap rumah tangga juga berisi 93 variabel tambahan, yang berisi informasi tentang karakteristik sosio-demografis (variabel 1–51) dan kepemilikan berbagai jenis polis asuransi (variable 52–93). Awalnya, setiap kumpulan data memiliki 85 atribut. Menghilangkan fitur pertama (subtipe pelanggan) terutama karena fitur tersebut akan memperluas ruang pencarian secara dramatis dengan sedikit perolehan informasi jika merepresentasikannya sebagai variabel 41-bit.

Selanjutnya, masih dapat memanfaatkan informasi tipe pelanggan dengan merekam fitur kelima (tipe utama pelanggan) sebagai variabel 10-bit, yang dikodekan ke dalam 10 variabel biner (variabel 4– 13). Detail disediakan diTabel 1. Data sosio-demografis didasarkan pada informasi kode pos. Artinya, semua pelanggan yang tinggal di daerah dengan kode pos yang sama memiliki atribut sosiodemografi yang sama.

Perusahaan asuransi dalam penelitian ini menskalakan sebagian besar variabel sosiodemografis pada skala ordinal 10 poin (menunjukkan kemungkinan relatif bahwa sifat sosio-demografis ditemukan di area kode pos tertentu). Penskalaan ordinal 10 poin ini mencakup variabel yang dilambangkan sebagai ''proporsi'' diTabel 1. Untuk tujuan penelitian ini, semua variabel ini dianggap sebagai kontinu. Namun, penugasan segmen psikografik (variabel 4-13), adalah spesifik rumah tangga dan merupakan variabel biner.

Kesimpulan

Menyajikan pendekatan baru untuk penargetan pelanggan dalam pemasaran basis data. Menggunakan algoritme genetika untuk mencari kemungkinan kombinasi fitur dan jaringan saraf tiruan untuk menilai pelanggan. Salah satu kekuatan yang jelas dari pendekatan GA/ ANN adalah kemampuannya untuk membangun model prediktif yang mencerminkan proses keputusan pemasar langsung. Secara khusus, dengan informasi biaya kampanye dan keuntungan per pelanggan aktual tambahan,

Menunjukkan bahwa system tidak hanya memaksimalkan hit rate pada titik target tetap tetapi juga memilih titik target ''terbaik'' di mana keuntungan yang diharapkan dari pengiriman langsung dimaksimalkan. Selanjutnya, model dibuat lebih mudah untuk diinterpretasikan dengan menggunakan lebih sedikit fitur. Dalam pekerjaan di masa depan, kita akan melihat model penargetan pelanggan yang mengasumsikan struktur pendapatan marjinal yang heterogen per setiap prospek.

Kumpulan data yang analisis dalam makalah ini tidak mencakup informasi penting seperti nilai moneter yang dikeluarkan setiap pelanggan untuk membeli polis asurans karavan. Hal ini juga masuk akal untuk mengasumsikan bahwa ada perbedaan yang relatif kecil dalam hal nilai moneter dalam pilihan jaminan yang tersedia untuk pelanggan. Namun, asumsikan kasus bahwa organisasi nirlaba mengirimkan surat permohonan kepada donor yang mungkin untuk amal. Bagi organisasi ini, memaksimalkan jumlah total uang yang disumbangkan lebih penting daripada mengidentifikasi donor sebanyak mungkin. Ini karena, dalam kasus yang ekstrim, donor tunggal dapat menyumbangkan lebih banyak uang daripada semua donor lainnya.

Dalam hal ini, penargetan pelanggan berbasis nilai menjadi penting. Dengan mempertimbangkan peningkatan nilai uang oleh pelanggan yang ditargetkan sebagai satu tujuan, model GA/ANN akan dapat menemukan solusi optimal dengan nilai uang yang dimaksimalkan. Terkait dengan arah penelitian ini, menarik untuk melihat apakah model bi-level yang memiliki dua prosedur terpisah, satu untuk mengestimasi probabilitas donasi dan yang lainnya untuk mengestimasi jumlah donasi, bisa lebih baik.

Diklaim bahwa setiap model pengklasifikasi tunggal yang mempelajari dua parameter cenderung membuat lebih banyak kesalahan dalam mempelajari aturan keputusan daripada model dua tingkat. Arah penelitian lain adalah untuk menyelidiki apakah subset fitur yang dipilih terkait dengan titik target atau tidak. Hasil eksperimen menunjukkan bahwa subset fitur yang berbeda dipilih pada titik target yang berbeda kecuali untuk beberapa fitur umum. Mengharapkan subset fitur prediktif yang baik muncul di sebagian besar solusi lokal. Menduga bahwa subset fitur tertentu dapat membedakan pembeli dengan baik dari non-pembeli pada titik target, tetapi tidak serta fitur lain pada titik yang berbeda. Bisa juga terjadi karena korelasi yang kuat antara fitur-fitur terkait asuransi. Namun, itu memerlukan penyelidikan lebih lanjut untuk mendukung spekulasi kami.