دانلود منابع دانشگاهی : دانلود مقالات و پایان نامه ها درباره پیش‌بینی ...

ارسال شده در 15 آذر 1400 توسط نجفی زهرا در بدون موضوع

شکل ‏۴‑۳: تاثیر روش انتخاب نخبه در الگوریتم ژنتیک بر دقت MCS 93

فهرست جدول‌ها:

عنوان صفحه

جدول ‏۲‑۱: علل پیاده‌سازی مدیریت ارتباط با مشتری (اکبری ۱۳۸۹) ۱۲

جدول ‏۲‑۲ : گام‌های تکامل داده‌کاوی ۱۷

جدول ‏۲‑۳ : انواع فاصله‌ها ۳۹

جدول ‏۲‑۴ :خلاصه سابقه تحقیق ۶۸

جدول ‏۳‑۱ :ماتریس آشفتگی ۸۰

جدول ‏۴‑۱ :میانگین دقت دسته‌بندهای استفاده شده در MCS 89

جدول ‏۴‑۲ : ماتریس آشفتگی برای داده‌های تالیا ۹۱
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

جدول ‏۴‑۳ :ماتریس آشفتگی برای داده‌های دانشگاه دوک ۹۲

جدول ‏۴‑۴ : مقادیر شاخص دیویس - بولدین به ازای تعداد خوشه‌های متفاوت ۹۴

جدول ‏۴‑۵ : مرکز خوشه‌های بدست آمده از SOM 94

جدول ‏۴‑۶ : تعداد اعضای خوشه‌ها ۹۵

فصل اول:

کلیات تحقیق

مقدمه

در این فصل مسئله مورد بررسی در این تحقیق را بیان می‌کنیم و با اشاره به اهمیت و ضرورت انجام این تحقیق، اهدافی را که در این پژوهش به آنها نائل می‌شویم شرح می‌دهیم. در ادامه سوالاتی را که در این تحقیق به دنبال پاسخ آنها هستیم ذکر کرده‌ایم. همچنین تعاریفی از کلمات کلیدی و نوآوری این تحقیق بیان شده است.

بیان مسئله

امروزه در سازمان‌ها هزینه‌ای که صرف جذب مشتری جدید می‌شود بسیار بیشتر از هزینه‌ای است که برای نگهداری مشتریان موجود انجام می‌شود. بسیاری از شرکت‌ها بر این باورند که هزینه جذب یک مشتری جدید بین ۶ تا ۸ برابر حفظ مشتری موجود است. از این جهت، سازمان‌ها مبالغ بیشتری را صرف نگهداری مشتریان موجودشان می‌کنند(Ngai, Xiu et al. 2009). در مدیریت ارتباط با مشتری (CRM)، پیش‌بینی رفتار مشتری از جمله عواملی است که در حفظ مشتریان موجود بسیار موثر خواهد بود؛ دانستن این که مشتری چه زمان احتمال دارد سازمان را به نفع رقیبان ترک کند، می‌تواند مدیران را در تصمیم‌گیری‌ها و انتخاب استراتژی‌های بازاریابی مناسب کمک کند (Brown 2000).

سازمان‌ها تلاش می‌کنند تا با ارزیابی میزان وفاداری مشتریان‌شان، مشتریانی که دارای ریسک بالایی برای قطع استفاده از محصولات هستند را شناسایی کنند و با تعیین استراتژی‌های موثر وفادار‌سازی از میزان مشتریان از دست رفته بکاهند. همچنین، سازمان برای تعیین نحوه تخصیص منابع خود، مشتریان باارزش خود را هدفگذاری می کند تا منابع مالی محدود خود را صرف حفظ مشتریانی کند که سود بیشتری برای سازمان ایجاد می‌کنند (عباسی‌مهر ۱۳۹۰).

با بهره گرفتن از داده‌کاوی می‌توان با در اختیار داشتن داده‌های پیشین مشتریان، مدلی را جهت شناسایی و پیش‌بینی مشتریانی که دارای احتمال بالای از دست رفتن هستند، ارائه کرد. همچنین، داده‌کاوی ابزاری را جهت خوشه‌بندی مشتریان بر اساس ارزش آنها فراهم می‌آورد تا به وسیله آن، مشتریان با ارزش‌تر از میان مشتریانی که در خطر از دست رفتن هستند شناسایی شوند.

ضرورت و اهمیت تحقیق

مدیریت ارتباط با مشتری امروزه در صنعت جایگاه خود را تثبیت کرده است و شرکتهای تجاری برای پیشی گرفتن از رقبای خود در یک بازار رقابتی به سیستم‌های مشتری محور روی آورده‌اند. حفظ مشتری یکی از ابعاد مهم CRM است که به ارائه راهکارهایی می‌پردازد تا نرخ رویگردانی مشتریان از سازمان را کاهش دهد؛ استراتژی‌هایی نظیر بازاریابی یک به یک، برنامه‌های وفاداری و مدیریت شکایات از جمله استراتژی‌های این فاز هستند. با پیش‌بینی رفتار مشتریان، می‌توان مشتریانی که به احتمال زیاد از دست خواهند رفت را شناسایی کرد و نرخ رویگردانی در این بعد از CRM را کاهش داد.

پیش‌بینی رویگردانی مشتری موضوع مهمی برای همه شرکت‌ها است، زیرا مشتری رویگردان باید با مشتری جدید جایگزین شود و جذب مشتری جدید نسبت به حفظ این مشتریان رویگردان هزینه بیشتری در بر خواهد داشت و همچنین در کوتاه مدت سود کمتری به شرکت می‌رساند. ریچهلد و ساسر^[۳]، در پژوهشی نشان داده‌اند که افزایش ۵ درصدی در نرخ حفظ مشتری به افزایش ۸۵ درصدی در سود بانک‌ها و افزایش ۵۰ درصدی در حق واسطه‌گری شرکت‌های بیمه را منجر می‌شود (Reichheld and Sasser 1990). داده‌کاوی با تحلیل داده‌های مشتری، مدل‌های پیشگویی را ایجاد می‌کند که به کمک آن‌ها مشتریانی که در خطر رویگردانی هستند، تشخیص داده می‌شوند.

از طرف دیگر، ارزش دوره عمر مشتری، معیاری برای ارزیابی مشتریان سازمان است که در سیستم‌های CRM محاسبه می‌شود. روش های متنوعی برای محاسبه ارزش عمر مشتری وجود دارد که تمرکز بیشتر آنها بر سودهای دریافتی و هزینه‌های پرداختی بابت آن مشتری است (شهرابی ۱۳۹۰a). داده‌کاوی با بهره گرفتن از ابزارهای خوشه‌بندی خود قادر به خوشه‌بندی مشتریان و شناسایی مشتریان با ارزش است. بنابراین، می‌توان از میان مشتریان رویگردان، مشتریان کلیدی و با ارزش را شناسایی کرد. شناسایی مشتریان کلیدی مستعد رویگردانی می‌تواند برای تعیین استراتژی‌های بازاریابی جهت جلوگیری از رویگردانی آنها و همچنین تخصیص منابع سازمانی کمک شایانی کند.

اهداف تحقیق

اهداف اصلی:

پیش‌بینی رویگردانی مشتری در جهت حفظ مشتری در CRM با بهره گرفتن از تکنیک‌های داده‌کاوی در صنعت تلفن همراه.
شناسایی مشتریان با ارزش از میان مشتریان مستعد رویگردانی با بهره گرفتن از داده‌کاوی.

اهداف فرعی:

استفاده از تکنیک سیستم چند دسته‌بند (MCS) برای افزایش دقت دسته‌بندی در پیش‌بینی رویگردانی مشتری.
استفاده از الگوریتم ژنتیک چندبعدی برای بهینه کردن ساختار MCS و درنتیجه بالا بردن دقت دسته‌بندی.
بکارگیری تکنیک‌ خوشه‌بندی برای شناسایی مشتریان با ارزش به گونه‌ای که خوشه‌ها بیشترین فاصله و اعضای هر خوشه کمترین فاصله را نسبت به هم داشته باشند.

سوالات تحقیق

هدف از انجام این تحقیق یافتن پاسخ‌هایی برای سوالات زیر است:

سوالات اصلی:

مدل‌های داده‌کاوی چگونه می‌توانند رویگردانی مشتریان را پیش‌بینی کنند؟
چگونه می‌توان با بهره گرفتن از تکنیک‌های داده‌کاوی مشتریان با ارزش را شناسایی کرد؟

سوالات فرعی:

چگونه تکنیک پیشنهادی تحقیق دقت پیش‌بینی رویگردانی مشتری را در صنعت تلفن همراه مخابرات بالا می‌برد؟
بکارگیری الگوریتم ژنتیک در ساختار سیستم چند دسته‌بند پیشنهادی چه تاثیری بر دقت پیش‌بینی دارد؟

نوآوری تحقیق

ما در این تحقیق، برای پیش‌بینی رویگردانی مشتریان ابتدا به طراحی یک MCS پرداخته‌ایم. در طراحی MCS پیشنهادی سعی شده است تکنیک‌هایی در کنار یکدیگر به کار گرفته شوندکه در تحقیقات گذشته برای پیش‌بینی رویگردانی استفاده شده‌اند ؛ همچنین از آنجایی که در حل یک مسئله دسته‌بندی با بهره گرفتن از MCS دارای پیچیدگی محاسباتی بالایی است (Gabrys and Ruta 2006)، در این تحقیق از الگوریتم ژنتیک چندبعدی برای بهینه‌سازی ساختار این سیستم پیشنهادی استفاده شده است. این مدل علاوه بر این که بر روی پایگاه داده اپراتور تلفن همراه تالیا پیاده‌سازی می‌شود، بر روی پایگاه داده مرتبط به دانشگاه دوک نیز پیاده‌سازی خواهد شد و نتایج به دست آمده با یکدیگر مقایسه خواهند شد.

پس از این که مشتریان مستعد رویگردانی شناسایی شدند، با بهره گرفتن از تکنیک خوشه‌بندی در داده‌کاوی به شناسایی مشتریان با ارزش از میان آنها خواهیم پرداخت تا سازمان بتواند با تمرکز بیشتر بر روی مشتریان کلیدی، به اتخاذ رویکرد بازاریابی مناسب جهت جلوگیری از رویگردانی این مشتریان بپردازد.

روش تحقیق

روش تحقیق از نظر هدف، کاربردی است و به کاربرد دانش داده‌کاوی در مدیریت ارتباط با مشتری در صنعت تلفن همراه می‌پردازد. به عبارت دیگر، در این تحقیق با بهره گرفتن از مدل‌های داده‌کاوی سعی در بهبود دقت پیش‌بینی رویگردانی مشتری و همچنین شناسایی مشتریان با ارزش از میان آنها داریم. از سوی دیگر با توجه به اینکه در این پژوهش به بررسی همبستگی بین متغیرهای پیشگو و متغیر هدف پرداخته می‌شود، می‌توان بیان کرد که پژوهش حاضر بر اساس ماهیت و روش گردآوری داده‌ها، یک پژوهش توصیفی-همبستگی است.

ساختار کلی مدل پیشنهادی

شکل ۱-۱ شمایی از ساختار کلی مدل را نشان می‌دهد. چنانچه در شکل نیز مشخص است از دو پایگاه داده اپراتور تلفن همراه تالیا و دانشگاه دوک در این مدل استفاده شده است. فاز اول که شامل شناسایی مشتریان مستعد رویگردانی است بر روی هر دو پایگاه داده پیاده‌سازی می‌شود. از مشتریان شناسایی شده به عنوان مشتریان مستعد رویگردانی مربوط به پایگاه داده دانشگاه دوک برای پیاده‌سازی فاز دوم که شامل خوشه‌بندی مشتریان جهت شناسایی مشتریان با ارزش است استفاده می‌شود. به این منظور از این پایگاه داده متغیرهای موثر بر ارزش مشتری استخراج شده و مورد استفاده تکنیک خوشه‌بندی قرار می‌گیرد.

شکل ۱-۱: ساختار کلی مدل

تعریف کلمات کلیدی

ارزش عمر مشتری: یک بیان ساده از ارزش مشتری عبارت است از کل ارزش حاصله از وجود مشتری منهای کل هزینه مصرف شده برای حفظ مشتری (شهرابی ۱۳۹۰a).

الگوریتم ژنتیک: الگوریتم ژنتیک الگوریتمی از محاسبات تکاملی است که با تکیه بر نظریه داروین برای تولید جمعیت بعدی تکامل‌یافته‌تر از فرایند تولید مثل الهام می‌گیرد (Karray and Silva 2004).

حفظ مشتری: فعالیتی است که یک سازمان فروش به منظور کاهش جدا شدن مشتری انجام می‌دهد. یک حفظ مشتری موفق با اولین تماس سازمان با مشتری شروع می‌شود و در سراسر طول عمر یک رابطه ادامه خواهد داشت (Ngai, Xiu et al. 2009).

داده‌کاوی: داده‌کاوی به بررسی و تجزیه و تحلیل مقادیر عظیمی از داده‌ها به منظور کشف الگوها و قوانین پنهان و معنی‌دار درون داده‌ها اطلاق می‌شود (شهرابی ۱۳۹۰a).

رویگردانی مشتری: رویگردانی مشتری که با عنوان فرار مشتری نیز شناخته شده است به عنوان تمایل مشتری برای متوقف نمودن تجارت خود با یک شرکت در یک دوره زمانی معین تعریف می شود (Neslin, Gupta et al. 2006).

سیستم چند دسته‌بند: سیستم‌های چند دسته‌بند (MCSs) راه حل قدرتمندی برای مسائل تشخیص الگوی پیچیده هستند که اجازه استفاده همزمان از روش‌های دسته‌بند متنوع برای حل یک مسئله خاص را می‌دهند (Ghosh 2002).

مدیریت ارتباط با مشتری: رویکردی یکپارچه برای درک و تاثیرگذاری بر رفتار مشتری از طریق ارتباطات معین با هدف بهبود کسب مشتری، حفظ مشتری، وفاداری مشتری و سودآوری مشتری یا استفاده استراتژیک از اطلاعات، فرایندها، تکنولوژی و افراد برای مدیریت ارتباط با مشتری با شرکت در طول چرخه عمر مشتری (Ngai, Xiu et al. 2009).

فصل دوم:

مروری بر ادبیات تحقیق

مقدمه

در این فصل سعی شده است مبانی نظری این تحقیق که شامل مفاهیم مدیریت ارتباط با مشتری (CRM) و داده‌کاوی است به همراه پیشینه تحقیق به تفصیل معرفی ‌شوند. در ابتدا مدیریت ارتباط با مشتری و ابعاد مختلف آن شرح داده شده است؛ در مبانی نظری CRM تلاش شده است تمرکز بیشتری بر روی مفهوم رویگردانی مشتری باشد. سپس، داده‌کاوی به همراه توضیح کاملی از مفاهیم مرتبط به آن شرح داده می‌شود و به بررسی کابرد داده‌کاوی در CRM می‌پردازیم. در ادامه، پیشینه تحقیق کاربرد داده‌کاوی در رویگردانی مشتری در داخل و خارج کشور بررسی می‌شود. در پایان این فصل، شرکت اپراتور تلفن همراه تالیا که شرکت مورد مطالعه این تحقیق است معرفی می‌شود.

مدیریت ارتباط با مشتری (CRM)

امروزه در اکثر سازمان‌ها، دیدگاه محصول محوری جای خود را به مشتری محوری داده است و این تغییر نتیجه بکارگیری سیستم‌های مدیریت ارتباط با مشتری است. یک تعریف پذیرفته شده برای مدیریت ارتباط با مشتری عبارت است از: رویکردی یکپارچه برای درک و تاثیرگذاری بر رفتار مشتری از طریق ارتباطات معین با هدف بهبود کسب مشتری، حفظ مشتری، وفاداری مشتری و سودآوری مشتری یا استفاده استراتژیک از اطلاعات، فرایندها، تکنولوژی و افراد برای مدیریت ارتباط با مشتری با شرکت در طول چرخه عمر مشتری^[۴] (Ngai, Xiu et al. 2009).

مدیریت ارتباط با مشتری برنامه پیچیده‌ای است که داده‌های مشتری را از همه کانال‌های ارتباط با مشتری بیرون می‌کشد و دید یکپارچه‌ای را از مشتری در کل سازمان بوجود می‌آورد. تکنولوژی CRM رفتارهای مشتریان را پیگیری و تحلیل می کند و به سازمان‌ها اجازه می‌دهد به راحتی مشتریان خود را بشناسند و بر روی فعالیتهای بازاریابی تمرکز کنند.

برآون به این نکته اشاره می‌کند که CRM به عنوان یک استراتژی رقابتی است که شما برای تمرکز روی نیازهای مشتریانتان و یکپارچه‌سازی رویکرد مواجهه با مشتری در کل سازمان به آن نیازمند هستید (Brown 2000).

گروه مشاورین گارتنر معتقد است که CRM بصورت راهبردی، فرایندی است که با سازماندهی دسته‌بندی مشتریان، ترویج رفتارهای رضایت بخش برای مشتری و پیاده‌سازی فرایندهای مشتری محور، سودآوری، درآمد و رضایت مشتری را به ارمغان می‌آورد.

مدیریت ارتباط با مشتری از سه بخش اصلی تشکیل شده است: مشتری، روابط و مدیریت. منظور از روابط، ایجاد مشتریان وفادارتر و سودمندتر از طریق ارتباطی یادگیرنده می‌باشد و مدیریت عبارت است از خلاقیت و هدایت یک فرایند کسب و کار مشتری‌مدار و قرار دادن مشتری در مرکز فرایندها و تجارب سازمان.

سازمان‌ها با بهره گرفتن از CRM می‌توانند چرخه فروش را کوتاه‌تر و وفاداری مشتری را با ایجاد روابط نزدیکتر افزایش دهند. سیستم CRM می‌تواند کمک کند تا مشتریان موجود حفظ و مشتریان جدید جذب شوند (Thompson 2002).

مدیریت ارتباط با مشتری، بر مبادله ارزش بین مشتری و سازمان بنا شده و بر ارزش ایجاد شده در این ارتباط تاکید می‌کند. بنابراین، تلاش سازمان‌ها برای توسعه ارتباط بلند مدت با مشتریان، بر مبنای ایجاد ارزش برای هر دو طرف از اهداف اصلی CRM است. به عبارت دیگر، هدف از ارتباط با مشتری ارائه مزایایی از طریق مبادله دوجانبه و عمل به وعده‌ها است.

از سوی دیگر CRM یک راهبرد کسب و کار است که با پیشرفت فناوری تقویت می‌شود و از طریق آن، شرکت‌ها به ایجاد ارتباطات سودمند بر پایه بهینه‌سازی ارزش دریافتی و ادراکی مشتریان می‌پردازند. در واقع CRM یک استراتژی است که برای کسب آگاهی بیشتر در مورد نیازها و رفتار مشتریان برای ارتباط بیشتر با آنان استفاده می‌شود. روابط خوب با مشتری رمز موفقیت در تجارت و کسب و کار می‌باشد.

تاریخچه CRM

سابقه مدیریت ارتباط با مشتری به دهه ۹۰ میلادی باز می‌گردد. اینکه سازمان چگونه به جذب مشتری بپردازد یا اینکه چگونه مشتری فعلی خود را حفظ نماید و به آنها خدمت بهتری ارائه نماید بحث جدیدی نیست، ولیکن مبحث فناوری اطلاعات و ابزار جدیدی که این فناوری فراهم ساخته موجب شده است که CRM به بحث جدیدی تبدیل شود. با بکارگیری فناوری اطلاعات در CRM روش‌های جدیدی برای افزایش سوددهی سازمان و کاهش هزینه‌های آن در روابط با مشتری بوجود آمده است.

ضرورت بهره‌گیری از CRM

در رقابت روزافزون برای کسب برتری در بازاریابی، بسیاری از شرکت‌ها از سیستم‌های CRM برای بهبود هوش تجاری، تصمیم‌گیری، تقویت ارتباط با مشتری و افزایش کیفیت خدمات و محصولات استفاده کرده‌اند. زیربنای مفهوم مدیریت مشتری‌مدار، شناخت و کسب رضایت مشتریان است که منجر به حفظ آنها می‌شود.

مدیریت ارتباط با مشتری یک دید و رویکرد وسیع برای یکپارچه‌سازی تعاملات سازمان و مشتریانش در حوزه‌های فروش، بازاریابی و نگهداری مشتری به منظور ایجاد و افزایش ارزش برای شرکت و مشتریانش ارائه می‌کند. برخی روندهای اخیر بر توانایی سازمان‌ها برای ایجاد روابط پایدارتر با مشتریان اثرگذار بوده است؛ در این میان افزایش قدرت کامپیوترها و در دسترس قرار گرفتن ابزارهای فوق پیشرفته برای انجام فرایندهای داده‌کاوی و تحلیل داده‌ها، ظهور تجارت الکترونیکی و توانایی هدف‌گیری مشتریان از طریق اینترنت با هزینه بسیار کمتر و افزایش توجه به اهمیت حفظ مشتریان و ارزش دوره عمر آنها، مهمترین عوامل موثر بوده‌اند.

بسیاری از مطالعات در بازاریابی نشان داده است که استفاده از ابزارهای داده‌کاوی در CRM می‌تواند کارایی شرکت‌ها را افزایش دهد. مدیران برای کاهش مشتریان از دست رفته نیاز به شناخت رفتار مشتریان و عوامل کسب رضایت آنها دارند. بکارگیری داده‌کاوی در پایگاه‌های داده بزرگ کمک می‌کند تا با کشف روابط و روندهای ناشناخته در ارتباط با مشتریان، تصمیم‌های پیچیده تجاری آسانتر و با دانش عمیق‌تر انجام پذیرد.

سازمان‌ها باید منابع محدود خود را به مشتریان سودآور خود تخصیص دهند تا بیشترین سود را کسب کنند؛ از اینرو بخش‌بندی مشتریان بر اساس ویژگی‌های آنها و ارزشی که برای سازمان ایجاد می‌کنند اهمیت پیدا می‌کند. همچنین بر اساس دسته‌بندی مشتریان سازمان می‌تواند استراتژی‌های اختصاصی برای برخورد با هر دسته از مشتریان تعریف نماید.

علل پیاده‌سازی CRM

تحقیقی که توسط سوییت در سالهای ۲۰۰۱ تا ۲۰۰۴ در بین شرکت‌های استفاده کننده از CRM در انگلیس صورت گرفته، نشان می‌دهد که عوامل مهم برای پیاده‌سازی CRM در سازمان‌ها، بهبود رضایت مشتری، حفظ مشتریان موجود، بهبود ارزش طول عمر مشتری، کسب اطلاعات استراتژیک، جذب مشتریان و صرفه‌جویی در هزینه‌ها می‌باشد (اکبری ۱۳۸۹).

بکارگیری سیستم‌های CRM برای جذب مشتریان جدید اهمیت کمتری در این تحقیق داشته است. اکثر مدیران دریافته‌اند که کسب مشتری جدید هزینه بیشتری نسبت به نگهداری مشتری موجود دارد.

در تحقیق دیگری نشان داده شده است که بدست آوردن مشتری مهم است اما نگهداری و رضایت آنها اهمیت بیشتری دارد و حفظ مشتری موجود هزینه کمتری دارد (Zineldin 1999).

جدول ‏۲‑۱: علل پیاده‌سازی مدیریت ارتباط با مشتری (اکبری ۱۳۸۹)

علل پیاده‌سازی	سال ۲۰۰۴	سال ۲۰۰۳	سال ۲۰۰۲	سال ۲۰۰۱
بهبود سطح رضایت مشتری	۴٫۱۹	۴٫۴۴	۴	۴٫۳۲
حفظ مشتریان موجود	۳٫۹۵	۳٫۹	۴٫۱۶	۴٫۴۶
بهبود ارزش دوره عمر مشتری	۳٫۴۸	۴٫۴۶	۴٫۲۲	۴٫۳۸
ایجاد اطلاعات استراتژیک بهتر جهت فروش، بازاریابی، مالی و غیره	۴٫۰۸	۳٫۸۲	۳٫۸۸	۴٫۱۲
جذب مشتریان جدید	۳٫۵	۳٫۴۸	۳٫۶۰	۳٫۹۸
صرفه‌جویی در هزینه	۲٫۹۸	۲٫۹۸	۳٫۳۱	۳٫۸۱

عدد ۱ به این معنی است که علت پیاده‌سازی مهم نمی‌باشد و عدد ۵ یعنی علت پیاده‌سازی بسیار مهم است

انواع مدیریت ارتباط با مشتری

در مجموع چهار نوع فناوری در CRM وجود داردکه عبارتند از:

مدیریت ارتباط با مشتری عملیاتی: داده‌های مشتری از نقاط تماس مانند مرکز تماس، سیستم مدیریت تماس، پست، فکس، پرسنل فروش، وب و غیره گرفته می‌شوند و داده‌ها در یک بانک اطلاعاتی مرکزی مشتری ذخیره و سازماندهی می‌شوند تا در دسترس همه کاربرانی که با مشتری در تعامل هستند قرار بگیرد. یک CRM عملیاتی شامل مرکز تماس و مدیریت تماس است. سیستم مدیریت تماس می‌تواند اطلاعات جامع و کاملی در ارتباط با هر تماس با مشتریان ایجاد نماید و به کاربردهایی از مدیریت ارتباط با مشتری می‌پردازد که در ارتباط رو در رو با مشتری است.
مدیریت ارتباط با مشتری تحلیلی: داده‌هایی که در بانک اطلاعاتی مرکز تماس ذخیره شده است، از طریق ابزارهای تحلیلی برای شناسایی مشخصات مشتری، شناسایی الگوهای رفتاری، تعیین سطح رضایت مشتری و تقسیم‌بندی مشتریان تحلیل می‌شود. اطلاعات بدست آمده از CRM تحلیلی جهت توسعه بازاریابی و استراتژی‌های تبلیغاتی کمک می‌کند. این نوع از CRM توسط کتورو به عنوان دید ۳۶۰ درجه مشتری نامیده شده است (Kotorov 2002).
مدیریت ارتباط با مشتری مشارکتی: به معنای مشارکت تمامی کانالهای ارتباط با مشتری است. سیستم‌های CRM با سیستم‌های سازمانی جهت پاسخگویی بیشتر به مشتریان در کل زنجیره تامین، یکپارچه می‌باشند (Kracklauer and Mills 2004).
مدیریت ارتباط با مشتری الکترونیکی: با بهره گرفتن از CRM الکترونیکی، اطلاعات مشتری در تمامی نقاط تماس سازمان از طریق اینترنت و اینترانت در دسترس سازمان و شرکای تجاری سازمان قرار می‌گیرد.

رویگردانی مشتری^[۵]

رویگردانی مشتری که با عنوان فرار مشتری^[۶] نیز شناخته شده است به عنوان تمایل مشتری برای متوقف نمودن تجارت خود با یک شرکت در یک دوره زمانی معین تعریف می شود (Neslin, Gupta et al. 2006). رویگردانی مشتری تقریبا مرتبط با حفظ مشتری، یکی از ابعاد اصلی CRM، و وفاداری مشتری است (ابعاد CRM در ادامه توضیح داده خواهند شد). رویگردانی مشتری تبدیل به یک نگرانی عمده برای شرکت‌ها در تمامی صنایع شده است؛ چراکه این موضوع منجر به کاهش سطح سود شرکت‌ها شده است. یک تحقیق انجام شده توسط ریچهلد و ساسر^[۷] نشان می‌دهد که افزایش ۵ درصدی در نرخ حفظ مشتری به افزایش ۸۵ درصدی در سود بانک‌ها و افزایش ۵۰ درصدی در حق واسطه‌گری شرکت‌های بیمه منجر می‌شود (Reichheld and Sasser 1990).

بطور کلی سه نوع رویگردانی مشتری وجود دارد (شهرابی ۱۳۹۰a):

رویگردانی اختیاری: مشتریان بر اساس تمایل خود و آزادانه تصمیم می‌گیرند که تجارت و خرید خود را در جای دیگری انجام دهند.
رویگردانی اجباری: رویگردانی اجباری زمانی اتفاق می‌افتد که شرکت و نه مشتری ارتباط را قطع می‌کند؛ بیشتر این امر به دلیل عدم پرداخت صورت‌حساب‌ها و بدهی‌ها توسط مشتریان اتفاق می‌افتد.
رویگردانی پیش‌بینی شده: زمانی که مشتری دیگر در بازار هدف یک محصول قرار نگیرد، رویگردانی پیش‌بینی شده اتفاق افتاده است. کودکانی که رشد کرده‌اند و دیگر به شیر خشک نیاز ندارند مثالی از این دسته مصرف‌کنندگان هستند.

بورز و ون دن پائل^[۸] رویگردانی اختیاری را در سرویس‌های مبتنی بر اشتراک، مانند سرویس Pay-TV به دو گروه تقسیم کرده‌اند: رویگردان‌های تجاری^[۹] و رویگردان‌های مالی^[۱۰] . بر طبق تحقیق آنها رویگردانان مالی مشتریانی هستند که به دلیل عدم استطاعت مالی شرکت را ترک می‌کنند، یعنی نمی‌توانند حق اشتراک را بپردازند و رویگردانان تجاری آنهایی هستند که بعد از اتمام قراردادشان با شرکت ، اقدام به تمدید قرارداد نمی‌کنند. به عبارت دیگر، آگاهانه می‌خواهند شرکت دیگری را به عنوان سرویس دهنده انتخاب کنند. آنها در تحقیق خود همچنین به بررسی و آنالیز بقای مشتریان در شرکت پرداخته‌اند. بر طبق یافته آنها منحنی بقا برای مشتریانی که دارای رویگردانی مالی بودند با منحنی بقای مشتریانی که دارای رویگردانی تجاری بودند متفاوت است. این منحنی‌ها نشان می‌داد که رویگردان‌های تجاری در خاتمه قراردادشان شرکت را ترک می‌کنند ولی رویگردان‌های مالی در میانه قراردادشان شرکت را ترک می‌کنند. آنها هم چنین به این نتیجه رسیدند که پیش‌بینی رویگردان‌های مالی آسان‌تر از پیش‌بینی نوع تجاری است (Burez and Van den Poel 2007).

نباید انواع مختلف رویگردانی را بجای یکدیگر اشتباه گرفت؛ به خصوص آنکه تمایز بین آنها ساده است. این موضوع در مورد مشتریان رویگردان اختیاری و اجباری حیاتی‌تر است. شرکت‌هایی که رویگردانی‌های اختیاری و اجباری را اشتباه می‌گیرند به واسطه دو عامل صرف هزینه برای حفظ مشتریان نامطلوب و همچنین افزایش بدهی‌های معوقه مشتریان متضرر می‌شوند.

رویگردانی به عنوان درصدی از مشتریان که شرکت را ترک می‌کنند توصیف می‌شود. برای مثال یک شرکت که دارای نرخ رویگردانی سالیانه به میزان ۲۵ درصد است، متوسط طول عمر مشتری در این شرکت ۴ سال است و وفاداری مشتریان ۷۵ درصد است.

با در نظر گرفتن نرخ رویگردانی مشتریان در صنایع مختلف، می‌توان به این موضوع پی برد که صنعت مخابرات یکی از صنایعی است که در خطر رویگردانی مشتری زیادی است، طوری که نرخ رویگردانی در این صنعت به طور سالانه ۲۰ تا ۴۰ درصد است (Berson, Smith et al. 1999). با توجه به رقابت شدید در بازار بخش مخابرات و بالا بودن نرخ رویگردانی در این بخش، بسیاری از تحقیقات انجام شده در زمینه پیش‌بینی رویگردانی مشتریان روی موارد مخابراتی صورت گرفته است.

داده‌کاوی و مفاهیم آن

در مرور ادبیات تعاریف متعددی برای داده‌کاوی ارائه شده است. برخی از این تعاریف عبارتند از:

داده‌کاوی به بررسی و تجزیه و تحلیل مقادیر عظیمی از داده‌ها به منظور کشف الگوها و قوانین پنهان و معنی‌دار درون داده‌ها اطلاق می‌شود(شهرابی ۱۳۹۰a).

داده‌کاوی عبارت است از فرایند استخراج اطلاعات معتبر، از پیش ناشناخته، قابل فهم و قابل اعتماد از پایگاه‌های داده بزرگ و استفاده از آن در تصمیم‌گیری در فعالیت‌های تجاری مهم (Witten and Frank 2005).

داده‌کاوی یعنی استخراج دانش کلان، قابل استناد و جدید از پایگاه داده‌های بزرگ (Han, Kamber et al. 2011).

داده‌کاوی به فرایند نیم خودکار تجزیه و تحلیل پایگاه داده‌های بزرگ به منظور یافتن الگوهای مفید اطلاق می‌شود (Han, Kamber et al. 2011).

داده‌کاوی یعنی تجزیه و تحلیل مجموعه داده‌های قابل مشاهده برای یافتن روابط مطمئن بین داده‌ها (Edelstein 1998).

چنانچه مشخص است، آنچه در تمامی این تعاریف مشترک است وجود مفاهیمی چون استخراج دانش و کشف الگوهای پنهان از میان داده‌ها است.

کاربرد موفق داده‌کاوی در زمینه‌های مختلف تجاری در دهه‌ های اخیر، موجب افزایش روزافزون محبوبیت این علم شده است. برای دانش داده‌کاوی هیچ محدودیتی را نمی‌توان متصور بود. به عبارت دیگر، کاربرد دانش داده‌کاوی در تمامی زمینه‌های برخوردار از داده بوده و تنها محدودیت آن فقدان داده است. هدف داده‌کاوی ایجاد مدل‌هایی برای تصمیم‌گیری است. بیشتر تکنیک‌های داده‌کاوی ابزار مدل‌سازی هستند که اغلب از سال‌ها یا دهه‌ های قبل وجود داشته‌اند و جزو زیرشاخه‌های علومی چون هوش مصنوعی^[۱۱]، یادگیری ماشین^[۱۲]، محاسبات نرم^[۱۳] و آمار^[۱۴] هستند.

تاریخچه داده‌کاوی

حجم عظیم داده‌ها نتیجه تجارت نوین است. امروزه پایگاه‌های داده با نرخ افزاینده‌ای در حال رشد هستند. بنابر تخمین‌های ارائه شده، حجم داده‌ها در جهان هر ۲۰ ماه به حدود دو برابر می‌رسد؛ این در حالی است که سازمان‌ها امروزه کمتر از یک درصد از داده‌هایشان را برای تحلیل استفاده می‌کنند(شهرابی ۱۳۹۰a). از طرف دیگر، قدرت و توانایی محاسباتی کامپیوترها نیز به سرعت در حال افزایش است. همه این موارد شرایطی را برای بکارگیری هرچه بیشتر و وسیع‌تر تکنیک‌های داده‌کاوی فراهم می‌آورند، بطوری که اخیرا داده‌کاوی موضوع بسیاری از مقالات، کنفرانس‌ها و تحقیقات کاربردی شده است.

واژه داده‌کاوی تا اوایل دهه ۹۰ میلادی مفهومی نداشت و بکار برده نمی‌شد. در دهه ۶۰ میلادی و پیش از آن زمینه‌هایی برای ایجاد سیستم‌های جمع‌ آوری و مدیریت داده‌ها ایجاد شد و تحقیقاتی در این زمینه انجام پذیرفت که منجر به معرفی و ایجاد سیستم‌های مدیریت پایگاه داده^[۱۵] (DBMS) شد. توسعه سیستم‌های پایگاهی پیشرفته در دهه ۸۰ و ایجاد پایگاه‌های شی‌گرا^[۱۶]، کاربردگرا^[۱۷] و فعال^[۱۸] باعث توسعه همه جانبه و کاربردی شدن این سیستم‌ها در سراسر جهان گردید. بدین ترتیب DBMSهایی همچون DB2، Oracle، Sybase و غیره ایجاد شدند و حجم زیادی از داده‌ها توسط این سیستم‌ها مورد پردازش قرار گرفت. شاید بتوان مهمترین عامل در معرفی داده‌کاوی را مبحث کشف دانش از پایگاه داده^[۱۹] (KDD) دانست بطوری که در بسیاری از موارد KDD و داده‌کاوی بصورت مترادف بکار برده می‌شوند. الگوریتم‌های داده‌کاوی در دهه اخیر با سرعت بسیار زیاد در حال توسعه هستند. روند تکامل فرایندهای داده‌ای در کسب و کار در جدول ۲-۲ آمده است (اکبری ۱۳۸۹).

جدول ‏۲‑۲ : گام‌های تکامل داده‌کاوی

ویژگی‌ها	تکنولوژی‌های مورد استفاده	سوالات کسب و کار	گام‌های تکامل
تحلیل داده‌های گذشته	تیپ‌های کامپیوتری – دیسکت‌ها	درآمد کل ۵ سال گذشته چقدر بوده است؟	جمع‌ آوری داده‌ها Data Collection دهه ۱۹۶۰
تحلیل پویای داده‌های گذشته در یک سطح	پایگاه داده‌های ارتباطی ODBC، SQL	در ماه گذشته چند واحد از یک محصول خاص بفروش رفته است؟	دسترسی به داده‌ها Data Access دهه ۱۹۸۰
تحلیل پویای داده‌های گذشته در چند سطح	OLAP، DW	در ماه گذشته چند واحد از یک محصول خاص در مقایسه با مراکز دیگر بفروش رفته است؟	انبار داده‌ها Data warehouse DSS دهه۱۹۹۰
ارائه اطلاعات و داده‌های مربوط به آینده	کامپیوترهای چند پردازنده الگوریتمهای پیشرفته	در ماه آینده چه اتفاقی خواهد افتاد؟	داده‌کاوی Data Mining امروزه

اگرچه عبارت داده‌کاوی اغلب به عنوان کشف دانش مورد استفاده قرار می‌گیرد، ولی فرایند کشف دانش مفهومی گسترده‌تر دارد که در ادامه به توضیح آن خواهیم پرداخت.

فرایند کشف دانش

فرایند استخراج دانش در شکل ۲-۱ نشان داده شده است. همان‌طور که در شکل مشاهده می‌کنید، فرایند کشف دانش یک فرایند شش مرحله‌ای است که داده‌کاوی فقط گامی از این فرایند است(Han, Kamber et al. 2011).

شکل ‏۲‑۱ : فرایند کشف دانش

مراحل فرایند استخراج دانش عبارت است از:

مرحله اول، انتخاب^[۲۰] داده: ورودی این مرحله حجم عظیمی از داده‌ است. داده‌ها عموما در شکل‌های گوناگون و در مکان‌های مختلف نگه‌داری می‌شوند. ابتدا باید داده‌ها یک‌پارچه و در یکجا ذخیره شوند. پس انبارداده‌ای^[۲۱] ایجاد می‌شود که مجموعه‌ای از مارت داده‌ها^[۲۲] است. انبارداده مجموعه‌ای از اطلاعات درباره موضوعات مختلف در گستره یک سازمان است، اما مارت داده‌ها زیر مجموعه‌ای از انبار داده است. انبارداده مخاطبش کل سازمان است درحالی‌که مارت داده‌ها بر اساس موضوعی که جمع‌ آوری شده است در همان بخش از سازمان مورد استفاده قرار می‌گیرد. انبار داده از طریق فرایند پاکسازی داده، یکپارچه‌سازی داده‌ها، انتقال داده‌ها، بارگیری داده‌ها و داده‌های متناوب ساخته می‌شود. اما معمولاً انبار داده به‌وسیله پایگاه داده‌های چند بعدی مدل می‌شوند، که هر کدام از بعدهای انبار داده نشان دهنده یک یا مجموعه‌ای از صفات^[۲۳] است. حال با توجه به مسئله مورد بحث و کاربردی که هدف فرایند داده‌کاوی است؛ از این انبار داده، مجموعه‌ای از داده‌ها انتخاب می‌شود. پس خروجی مرحله انتخاب، یک مجموعه داده هدف^[۲۴] است (Sumathi and Sivanandam 2006).

مرحله دوم، پیش‌پردازش^[۲۵]: داده‌های موجود در بانک‌های اطلاعاتی به‌خودی خود قابل استخراج شدن نیستند؛ زیرا کیفیت داده‌های اصلی پایین است. در این مرحله یک سری پردازش‌هایی بر روی داده انجام می‌شود تا داده‌ها آماده‌ی فرایند داده‌کاوی شوند. خروجی این مرحله، داده‌های آمایش شده است. سه عامل بر روی کیفیت داده‌ها تاثیرگذار است که در ذیل به آن‌ها اشاره می‌کنیم:

مقادیر مفقود شده^[۲۶]: اگر مقادیر برخی از رکوردها در مجموعه داده مورد بررسی در بعضی از ویژگی‌ها موجود نباشد در این صورت در آن ویژگی در رکورد مورد نظر با مشکل مقدار مفقود شده مواجه خواهیم بود (Larose 2005). برای برطرف کردن مقادیر مفقود شده، شش رویکرد توسط هان و همکاران ارائه شده است که عبارت است از (Han, Kamber et al. 2011):
1. حذف کردن رکوردهایی که دارای مقادیر مفقود شده هستند.
2. پر کردن دستی مقادیر مفقود شده.
3. پر کردن مقادیر با یک مقدار ثابت یا نامشخص.
4. پر کردن خودکار با بهره گرفتن از میانگین و یا مد در رکوردهای موجود.
5. پر کردن خودکار با بهره گرفتن از میانگین و یا مد آن ویژگی در رکوردهای موجود در کلاس مشابه با کلاس رکورد با مقادیر مفقود شده.
6. پر کردن خودکار با بهره گرفتن از استنتاج از روی سایر ویژگی‎های موجود در مجموعه داده و استفاده از الگوریتم‌های داده‌کاوی.
نویز : تغییراتی که در مقدار اصلی ویژگی ایجاد می‌شود را نویز گویند (Larose 2005). اگر مقادیر ویژگی در مقدار کوچکی مانند ε اضافه و یا از این مقدار کم شده باشد، در آن ویژگی نویز ایجاد شده است. مقادیر نویز در ویژگی‌ها قابل رفع شدن هستند.
مقادیر دور افتاده^[۲۷] : به مقادیری واقعی از ویژگی‌ها گفته می‌شود که با مقادیر دیگر ویژگی تفاوت معناداری داشته باشند. به‌عبارت دیگر، مقادیری که متفاوت از اکثریت مقادیر موجود باشند؛ مقادیر دور افتاده هستند (Larose 2005). در شکل ۲-۲ نقاط دور افتاده مشخص شده‌اند.

شکل ‏۲‑۲ : داده‌های دور افتاده

تفاوت داده‌های دور افتاده با نویز در این است که داده‌های دور افتاده به مقادیر واقعی گفته می‌شود که هویت دارند و مقادیر ناخواسته نیستند، در حالی‌که نویز مقادیر ناخواسته‌ای هستند که مقادیر اصلی را تغییر داده‌اند. مقادیر نویز هر ویژگی قابل رفع شدن است و باید این مقادیر رفع شوند. اما روش برخورد با داده‌های دور افتاده بستگی به کاربرد مسئله دارد. در بعضی از کاربردها باید نقاط دور افتاده را از تحلیل‌ها حذف کرد و در بعضی از کاربردها باید تحلیلی روی نقاط دور افتاده انجام داد (Han, Kamber et al. 2011).

پس از آن که هر یک از مشکلات ذکر شده در بالا از میان داده‌ها شناسایی و برطرف شدند، پردازش‌هایی در جهت آماده‌سازی داده‌ها برای مدل‌سازی بر روی داده‌ها انجام می‌شود. نمونه‌ای از این پردازش‌ها عبارتند از:

تجمیع:

در این مرحله بر اساس هدف مشخص شده چند ویژگی با هم ترکیب و یک ویژگی ایجاد می‌شود. به این نکته توجه داشته باشید زمانی که بعد یا مقیاس^[۲۸] داده بالا باشد، باعث می‌شود دانشی از دست برود. به این منظور این مرحله قبل از اجرای الگوریتم‌های داده‌کاوی بر روی داده انجام می‌شود. اهداف فرایند تجمیع عبارتند از:

کاهش ویژگی‌ها‌ و رکوردها،
تغییر دادن مقیاس داده؛ به‌عنوان مثال، می‌‌توان به‌جای ویژگی‌هایی مانند منطقه، ایالت و ناحیه، شهر را جایگزین کرد. این کار ممکن است دقت مسئله را کاهش دهد، اما باعث می‌شود فرایند داده‌کاوی بر روی داده انجام شود.
پایدار^[۲۹] کردن داده؛ اگر یک ویژگی، ویژگی باشد که تعداد مقادیر زیادی را اختیار کنند؛ در این صورت این ویژگی نمی‌تواند ویژگی موثری در فرایند داده‌کاوی باشد. چنین ویژگی‌ای باعث می‌شود دقت الگوریتم به شدت کاهش یابد. حال اگر بتوان بازه تغییرات ویژگی‌ها را کاهش داد، می‌توان از ویژگی‌ای که تأثیر منفی بر فرایند داده‌ کاوی می‌گذارد، ویژگی ایجاد کرد که تأثیر مثبتی بر روی الگوریتم‌ها داشته باشد.

نمونه‌گیری^[۳۰]:

فرایند نمونه‌گیری گاهی برای پردازش داده‌ها مورد استفاده قرار می‌گیرد. زمانی‌که با مجموعه داده‌های ناآشنا کار می‌شود، می‌توان از این گام برای شناخت مجموعه داده استفاده کرد. نمونه‌گیری در داده‌کاوی با مفهوم نمونه‌گیری آماری متفاوت است. در آمار نمونه‌گیری انجام می‌شود، به سبب آن که دسترسی به تمام رکوردها بسیار گران و هزینه‌بر است. اما در داده‌کاوی نمونه‌گیری به دلیل در دسترس نبودن رکوردها نیست، بلکه به دلیل هزینه‌بر و زمان‌بر بودن اجرای الگوریتم‌های داده‌کاوی بر روی تمام رکوردها است. در این حالت اگر الگوریتم‌های داده کاوی بر روی تمام رکوردهای موجود در پایگاه داده اجرا شود، الگوریتم مرتبه زمانی بسیار بالای خواهد داشت. پس گاهی به سبب زمان‌بر و هزینه‌بر بودن و گاهی نیز به دلیل در دسترس نبودن سیستم‌هایی که بتواند با حجم بالای از داده‌ها کار کند، باید از رکوردها نمونه‌گیری شود. نمونه باید به گونه‌ای باشد که نماینده مناسبی از مجموعه داده باشد. برای انتخاب یک نمونه مناسب باید به مسئله‌ توجه شود و با توجه به مسئله، نمونه انتخاب شود. علاوه بر این در نمونه‌گیری باید به توزیع ویژگی‌‌های مهم‌تر توجه بیشتری شود. فرایند نمونه‌گیری می‌تواند یکی از چهار روش زیر باشد:

نمونه‌گیری به صورت تصادفی: زمانی از این روش استفاده می‌شود که مجموعه داده ناشناخته باشد و درکی از مجموعه داده موجود نباشد.
نمونه‌گیری بدون جایگزینی: زمانی از این روش استفاده می‌شود که مجموعه داده کوچک بوده و رکوردها شبیه به هم نباشد.
نمونه‌گیری با جایگزینی: در این روش هر رکورد می‌تواند بیش از یکبار در نمونه آورده شود. از این روش زمانی استفاده می‌شود که مجموعه داده بزرگ و رکوردها شبیه به هم باشند.
نمونه‌گیری از دسته: ابتدا رکوردها را بر اساس معیاری دسته‌بندی کرده و از هر دسته، تعدادی رکورد انتخاب می‌شود.

در مواقعی که معیارهایی مانند سرعت و پیچیدگی زمانی مهم نیستند، روش نمونه‌گیری بدون جایگزینی مناسب‌تر از نمونه‌گیری با جایگزینی است. در نمونه‌گیری هر چقدر تعداد رکوردها بیشتر باشد امکان به‌دست آوردن نظم موجود بیشتر خواهد بود. نباید نمونه خیلی کوچک باشد که نظم موجود در داده‌ها از بین برود.

کاهش بعد^[۳۱]:

زمانی که بعد داده‌ها بالا باشد در این صورت پراکندگی داده بیشتر و هر چقدر پراکندگی داده‌ها بیشتر، داده‌ها از هم دورتر خواهند بود. در این صورت نمی‌توان به‌خوبی نظم موجود در داده‌ها را پیدا کرد و ممکن است برخی از نظم‌ها با افزایش بعد داده از بین برود. پس بهتر است تا حد امکان ویژگی‌های نامربوط در مسئله مورد بررسی حذف شوند. اهداف این مرحله عبارت است از:

کاهش ابعاد: این کار باعث کاهش زمان و افزایش سرعت در الگوریتم مورد نظر می‌شود.
درک آسان‌تر: انسان می‌تواند تا چهار بعد را درک کند، پس هر چقدر ابعاد مسئله کوچک‌تر شود درک مسئله آسان‌تر می‌شود.
بالا رفتن دقت و سرعت الگوریتم: با حذف ویژگی‌هایی که نمی‌تواند اثر مثبتی بر روی هدف تعیین شده در مسئله داشته باشد، سرعت اجرا الگوریتم بالا می‌رود و الگوریتم درگیر ویژگی‌های غیرمفید نمی‌شود. علاوه بر این، حذف ویژگی‌های غیر مرتبط باعث می‌شود تشخیص داده‌های نویز راحت‌تر شود.

انتخاب زیرمجموعه‌ای از ویژگی‌ها^[۳۲]:

تعداد زیاد ویژگی‌ها بر سرعت اجرای الگوریتم‌ها اثر منفی می‌گذارد. لازم است بنابر هدف، مجموعه‌ای از ویژگی‌ها انتخاب شود. بعضی از ویژگی‌ها در تمام مسائل ویژگی‌های هستند که کمکی به حل مسئله نمی‌کنند. برای هر هدفی می‌توان با بهره گرفتن از الگوریتم‌هایی مانند درخت تصمیم ویژگی‌های مهم‌تر را شناسایی کرد و از آن ویژگی‌ها برای ایجاد مدل‌ استفاده کرد.

ایجاد ویژگی:

با توجه به ویژگی‌های موجود می‌توان ویژگی جدیدی ایجاد کرد. به طوری که ویژگی ایجاد شده اطلاعات مهمی در مورد مجموعه داده در اختیار محقق قرار می‌دهد. سه روش برای ایجاد یک ویژگی وجود دارد که عبارت است از:

استخراج ویژگی^[۳۳]: زمانی که مجموعه داده مورد بررسی شامل داده‌های چند رسانه‌ای باشد، استخراج ویژگی بسیار موثر خواهد بود.
نگاشت داده به یک فضای جدید: با بهره گرفتن از نگاشتی داده از یک بعد به بعد دیگر انتقال داده می‌شود. این کار در الگوریتم تحلیل مولفه‌های اصلی و همچنین نوعی از الگوریتم ماشین بردار پشتیبان انجام می‌شود.
ترکیب ویژگی‌ها: این کار در مرحله تجمیع داده‌ صورت می‌گیرد.

مرحله سوم، تبدیل^[۳۴]: در این مرحله داده‌ها در صورت نیاز از یک حوزه به حوزه دیگر منتقل می‌شوند و برای تحلیل آماده می‌شوند.

مرحله چهارم، داده‌کاوی: در این مرحله از الگوریتم‌های داده‌کاوی برای ساخت مدل استفاده می‌شود. تعدادی از الگوریتم‌های داده‌کاوی در همین فصل توضیح داده شده‌اند.

مرحله پنجم، ارزیابی و بازنمایی: در این مرحله دقت هر الگوریتم‌ ارزیابی می‌شود. به‌عبارت دیگر تشخیص الگوهای صحیح مورد نظر، از سایر الگوها در این مرحله انجام می‌شود و صحت الگوها بر اساس معیارهایی سنجیده می‌شود.

مرحله ششم، دانش: دانش به‌دست آمده از الگوریتم‌ها به روشی که برای انسان قابل درک باشد، بیان می‌شود.

فرایند CRISP – DM ^[۳۵]

روش‌های گوناگونی برای پیاده‌سازی و اجرای پروژ‌ه‌های داده‌کاوی وجود دارد. استفاده از این روش‌ها باعث می‌شود، داده‌کاو مدیریت بهتری بر روی پروژه مورد بررسی خود داشته باشد. یکی از روش‌های بسیار قوی و رایج در ادبیات داده‌کاوی فرایند CRISP-DM است. این فرایند استانداردی جهانی برای انجام پروژه‌های کاربردی در داده‌کاوی است که از شش فاز به صورت یک روند حلقه‌ای تشکیل شده است. شکل ۲-۳ نحوه قرار گرفتن این شش فاز را در این مدل نمایش می‌دهد (شهرابی ۱۳۹۰a).

شکل ‏۲‑۳ : فرایند CRISP-DM

فاز اول – درک فضای کسب و کار^[۳۶]

در این فاز تمرکز اصلی بر روی تعیین اهداف پروژه و نیازهای وابسته به آن است که از منظر کسب ‌وکار مطرح می‌شود. در واقع در این فاز سعی می‌شود با توجه به نیازهای سازمان و خواسته‌های مورد انتظار از سازمان مسئله‌ای تعریف گردد. سپس مسئله‌ی تعریف شده به صورتی تبدیل می‌شود تا تکنیک‌های داده‌کاوی در آن قابل اجرا باشد. به‌عبارت دیگر، برای این‌که داده‌کاو فعالیت خود را آغاز کند، نیاز دارد با محیط و فرآیندها آشنا شود. هدف تحلیل‌گر کشف شاخص مهمی در آغاز پروژه است که می‌تواند در خروجی نهایی تأثیرگذار باشد. این فاز از چهار زیرفاز زیر تشکیل شده است:

تعیین اهداف تجاری
ارزیابی موقعیت
تعیین اهداف پروژه داده‌کاوی
تهیه برنامه پروژه

فاز دوم – درک داده‌ها^[۳۷]

مواد اولیه یک پروژه داده‌کاوی داده‌ها هستند. این فاز با جمع‌ آوری داده‌های اولیه آغاز می‌شود. سپس به منظور دست‌یابی به یک درک اولیه از داده‌ها و شناسایی مشکلات تاثیرگذار بر روی کیفیت آن‌ها پردازش‌هایی بر روی داده‌ها انجام می‌شود. پردازش‌های انجام شده بر روی داده‌ها باعث می‌شود، یک فرضیه جالب از داده‌ها به منظور کشف اطلاعات پنهان شکل گیرد. این فاز از چهار مرحله تشکیل شده است که عبارت‌اند از:

جمع‌ آوری داده‌ها
تشریح و توصیف داده‌ها
کاوش داده‌ها
اعتبارسنجی کیفیت داده‌ها

فاز سوم – آماده‌سازی داده‌ها^[۳۸]

تمام فعالیت‌هایی که باعث ساخت مدل از روی داده‌های اولیه می‌شود، توسط این فاز پوشش داده می‌شود. این فاز طولانی‌ترین مرحله در فرایند CRISP-DM است. ایجاد جدول، انتخاب ویژگی و رکوردها با توجه به هدف تعیین شده و همچنین تبدیل و تمیز کردن داده‌ها برای استفاده در مدل از جمله وظایفی است که در این فاز انجام می‌شود. این وظایف در قالب زیرفازهای زیر انجام می‌شود:

انتخاب داده‌ها
پاکسازی داده‌ها
ساختاردهی داده‌ها
یکپارچه‌سازی داده‌ها
تنظیم فرمت داده‌ها

فاز چهارم – مدل‌سازی^[۳۹]

هدف اصلی پروژه داده‌کاوی این فاز است. در این فاز تکنیک‌های مختلفی جهت آنالیز داده‌ها و استخراج دانش از آن‌ها به کار گرفته می‌شود، سپس کاراترین مدل انتخاب می‌شود. در برخی از مواقع برای استفاده از الگوریتمی خاص در مدل‌سازی، لازم است شکل داده تغییر پیدا کند. در نتیجه این فاز با فاز آماده‌سازی داده‌ها در ارتباط است. این فاز از چهار زیرفاز زیر تشکیل شده است:

انتخاب تکنیک‌های ساخت مدل
طراحی آزمایش‌ها
ساخت مدل
ارزیابی مدل

فاز پنجم – ارزیابی ^[۴۰]

پس از انتخاب مدل، در این فاز به بررسی و ارزیابی این موضوع پرداخته می‌شود که آیا نتایج آنالیز داده‌ها ما را در رسیدن به اهداف کسب و کار یاری می‌کنند؟ در این فاز، دانش به‌دست آمده در فاز چهار مورد تجزیه و تحلیل قرار می‌گیرد تا میزان سودمندی و کاربرد آن مشخص شود. به‌عنوان مثال در مورد مدل‌های پیش‌بینی کننده، دقت مدل با بهره گرفتن از داده‌های آزمون تعیین می‌شود تا در صورت تایید نتایج حاصل به‌کار گرفته شود. در پایان این فاز تصمیمی در رابطه با بهره گرفتن از نتایج داده‌کاوی گرفته می‌شود. مراحل این فاز عبارتند از:

ارزیابی نتایج
مرور فرایند داده‌کاوی
تعیین گام‌های بعدی

فاز ششم – توسعه ^[۴۱]

در این فاز سود حاصل از سرمایه‌گذاری انجام شده در مراحل قبلی به‌دست می‌آید. تمرکز این فاز روی یکپارچه‌سازی دانش در فرآیندهای کسب و کار است به‌گونه‌ای که مسائل اساسی کسب و کار حل شود. با این حال، این فاز می‌تواند به سادگی تهیه یک گزارش ساده و یا به پیچیدگی تکرار اجرای فرایند داده‌کاوی در گستره سازمان باشد. در بیشتر موارد این مشتری است که گام‌های این فاز را انجام می‌دهد و البته برای مشتری مهم است که بداند که چه اقداماتی در جهت به اجرا درآوردن مدل‌های ایجاد شده انجام دهد. این فاز از چهار مرحله تشکیل شده است که عبارت است از:

استقرار طرح
نظارت و نگهداری
آماده‌سازی گزارش نهایی
مرور پروژه

پس از آشنا شدن با نحوه‌ی اجرای پروژه‌های داده‌کاوی و مراحل استخراج دانش، لازم است تمرکز بیشتری بر روی داده‌کاوی و وظایفی که توسط آن قابل انجام است، و همچنین ابزار و تکنیک‌های داده‌کاوی داشته باشیم.

وظایف داده‌کاوی

داده‌کاوی بطور کلی به دو شکل هدایت شده^[۴۲] و غیرهدایت شده^[۴۳] وجود دارد(شهرابی ۱۳۹۰a). در داده‌کاوی هدایت شده با داشتن یک متغیر هدف خاص و از پیش تعیین شده به دنبال الگویی خاص می‌گردیم، بطوری که در داده‌کاوی غیرهدایت شده هیچ متغیر هدفی وجود نخواهد داشت و هدف یافتن تشابهات بین گروه‌هایی از اطلاعات است. اگر بخواهیم تکنیک‌های داده‌کاوی را بر اساس فعالیت و وظیفه تقسیم‌بندی کنیم، شش عمل زیر را خواهیم داشت(Larose 2005):

دسته‌بندی^[۴۴]
تخمین^[۴۵]
پیش‌بینی^[۴۶]
همبستگی^[۴۷]
خوشه‌بندی^[۴۸]
توصیف^[۴۹]

در این تقسیم‌بندی سه مورد اول داده‌کاوی هدایت شده هستند، همبستگی و خوشه‌بندی جزو داده‌کاوی غیر هدایت شده است و توصیف و نمایه‌سازی نیز می‌تواند هم هدایت شده و هم غیر هدایت شده باشد. در ادامه به توضیح مختصری از هر یک از این وظیفه‌ها می‌پردازیم.

دسته‌بندی

تکنیک‌های دسته‌بندی از جمله تکنیک‌های رایج و پرکاربرد در داده‌کاوی است. دسته‌بندی شامل بررسی ویژگی‌های یک شی جدید و تخصیص آن به یکی از کلاس‌های از قبل تعیین شده است(شهرابی ۱۳۹۰a). به عبارت دیگر، در مسائل دسته‌بندی هدف شناسایی ویژگی‌هایی از داده‌ها است که گروهی که داده به آن تعلق دارد را نشان می‌دهند. از این مدل هم می‌توان برای درک داده‌های موجود استفاده کرد وهم می‌توان آن را برای پیش‌بینی اینکه داده‌های جدید به کدام گروه تعلق دارند بکار برد. به همین دلیل اغلب به ویژگی‌های شناسایی شده متغیرهای پیشگو^[۵۰] و به برچسب کلاس‌ها متغیر هدف^[۵۱] گفته می‌شود.

برای ایجاد یک مدل دسته‌بندی نیاز به مجموعه داده‌های تاریخی است. این مجموعه داده که مجموعه داده آموزشی^[۵۲] نامیده می‌شود شامل هم متغیرهای پیشگو و هم متغیر هدف است. به این طریق، مدل یاد می‌گیرد که چه ترکیبی از متغیرهای پیشگو به کدام متغیر هدف مربوط می‌شوند. سپس، مدل آموزش دیده شده می‌تواند کلاس مجموعه داده‌های تست^[۵۳] را که هیچ اطلاعی از متغیر هدف آن‌ها نداریم، پیش‌بینی کند. (معمولا کارایی مدل‌های دسته‌بندی را با مجموعه داده‌های اعتبارسنجی^[۵۴] اندازه‌گیری می‌کنند.)

از جمله تکنیک‌های دسته‌بندی می‌توان به درخت تصمیم، دسته‌بند بیزین، k- نزدیکترین همسایه (KNN)، شبکه عصبی و SVM اشاره کرد.

تخمین

تخمین شبیه دسته‌بندی است با این تفاوت که متغیر هدف بجای این که دسته‌ای باشد بصورت عددی است (Larose 2005). مانند دسته‌بندی، یک مدل تخمین با بهره گرفتن از رکوردهای کاملی که حاوی مقادیر متغیر هدف و متغیرهای پیشگو است ساخته می‌شود. سپس، برای مشاهدات جدید، مقدار متغیر هدف بر اساس مقادیر متغیرهای پیشگو تخمین زده می‌شود.

مدل‌های رگرسیون و شبکه عصبی از جمله تکنیک‌های مناسب داده‌کاوی برای تخمین هستند.

پیش‌بینی

پیش‌بینی مانند تخمین و دسته‌بندی است بجز اینکه در پیش‌بینی نتایج به آینده مربوط می‌شود(Larose 2005). تمامی تکنیک‌های استفاده شده در دسته‌بندی و تخمین را می‌توان تحت شرایط خاص برای پیش‌بینی بکار گرفت. پیش‌بینی‌هایی که بر اساس مدل‌های دسته‌بندی ارائه می‌شوند دارای یک خروجی گسسته هستند که برچسب کلاس را برای آن مشاهده پیش‌بینی می‌کنند.

پیش‌بینی مقادیر پیوسته بر اساس یک سری خصوصیات داده شده، نوعی از پیش‌بینی است که به عنوان مثال می‌توان به پیش‌بینی درآمد یک فرد بر اساس مشخصات وی اشاره کرد. درخت تصمیم و شبکه‌های عصبی تکنیک‌هایی هستند که در این نوع پیش‌بینی‌ها قابل استفاده هستند. نوع دیگری از پیش‌بینی‌ها، پیش‌بینی یک یا چند مقدار بر اساس الگوهای تکراری و متوالی است. پیش‌بینی سطح سهام بازار در ۳۰ روز آینده بر اساس داده‌های ۶ ماه گذشته مثالی از این نوع پیش‌بینی‌ها است. این گونه پیش‌بینی‌ها به کمک سری‌های زمانی و تکنیک‌های رگرسیون انجام می‌شود.

همبستگی

قوانین همبستگی^[۵۵] که گروه‌بندی شباهت^[۵۶] نیز نامیده می‌شوند برای تعیین ویژگی‌های همزمانی هستند که در وقوع یک پدیده رخ می‌دهند. به عبارت دیگر، گروه‌بندی شباهت احتمال وقوع و یا عدم وقوع همزمان ویژگی‌ها را تعیین می کند(شهرابی ۱۳۹۰a). با توجه به مقیاس‌پذیری الگوریتم‌های قوانین همبستگی و حجم داده‌ها که دائما در حال افزایش است، می‌توان قوانین همبستگی را یکی از ابزارهای ضروری داده‌کاوی جهت استخراج دانش از داده‌ها قلمداد کرد.

تحلیل سبد خرید^[۵۷] یکی از بارزترین کاربردهای قوانین همبستگی بشمار می‌رود. در این تحلیل سعی می‌شود تا از طریق یافتن روابط و وابستگی‌های موجود بین اجناس خریداری شده توسط مشتری‌ها، الگوهای خرید شناسایی و تحلیل شوند(شهرابی and شجاعی ۱۳۸۸). به عنوان مثال، برای مشتری که شیر خریداری کرده چقدر احتمال دارد نان نیز خریداری کند. خروجی این تحلیل قوانینی به صورت قوانین اگر – آنگاه است که افراد را در رقابت‌های بازاریابی و نیز چیدمان مناسب اجناس در فروشگاه‌ها یاری می‌رساند. به منظور سنجش کیفیت یک قانون از مفاهیم پشتیبانی^[۵۸] و اطمینان^[۵۹] استفاده می‌شود.

پشتیبانی: درصدی از تراکنش‌هایی است که شامل هم مقدم و هم تالی قانون باشند (Witten and Frank 2005). به عبارت دیگر، برابر است با نسبت تعداد تراکنش‌هایی که شامل مقدم و تالی هستند به تعداد کل تراکنش‌ها.

اطمینان: درصدی از تراکنش‌هایی است که وقتی مقدم قانون در آن ظاهر شده است، تالی نیز در آن وجود داشته باشد (Witten and Frank 2005). به عبارت دیگر، برابر است با نسبت تعداد تراکنش‌هایی که شامل مقدم و تالی هستند به تعداد تراکنش‌هایی که شامل مقدم هستند.

خوشه‌بندی

خوشه‌بندی به عمل تقسیم جمعیت ناهمگن به تعدادی زیر مجموعه یا خوشه‌های همگن گفته می‌شود(شهرابی ۱۳۹۰a). وجه تمایز خوشه‌بندی از دسته‌بندی این است که خوشه‌بندی به دسته‎‌های از پیش تعیین شده تکیه ندارد. در خوشه‌بندی هیچ دسته از پیش تعیین شده‌ای وجود ندارد و داده‌ها صرفا بر اساس تشابه گروه‌بندی می‌شوند. بنابراین، برای اینکه بتوانیم داده‌ها را خوشه‌بندی کنیم باید بتوانیم میزان شباهت آنها را بدست آوریم. اینکار معمولا با بهره گرفتن از مقیاس‌های اندازه‌گیری فاصله که معرفترین آنها فاصله اقلیدسی است، انجام می‌شود.

چنانچه مشخص است، تعداد حالت‌های زیادی برای خوشه‌بندی n داده در k خوشه وجود دارد؛ تعداد این حالات حتی با در اختیار نداشتن تعداد خوشه‌ها (k) نیز افزایش خواهد یافت. به همین دلیل نیاز به معیارهایی برای سنجش اعتبار خوشه‌بندی داریم. فشردگی و تفکیک‌پذیری دو ویژگی اساسی و جالب در مورد خوشه‌ها هستند که می‌توانند به عنوان شاخص اعتبار خوشه محاسبه شوند(شهرابی and شجاعی ۱۳۸۸).

فشردگی: فشردگی، بیان کننده این موضوع است که عناصر موجود در خوشه چقدر به یکدیگر نزدیک هستند. به عنوان مثال،واریانس عناصر نشان دهنده فشردگی داده‌ها است؛ بطوری که هرچه واریانس کمتر باشد، فشردگی داده‌ها بیشتر است. می‌توان فاصله میان عناصر موجود در خوشه را نیز محاسبه کرد.

تفکیک‌پذیری: بوسیله این ویژگی، مجزا بودن خوشه‌ها را ارزیابی می‌کنیم. یکی از روش‌های تعیین تفکیک‌پذیری، محاسبه فواصل بین خوشه‌ای است.

بنابر آنچه گفته شد، به دنبال ساختاری هستیم که عناصر درون خوشه‌ها بیشترین شباهت را با یکدیگر و بیشترین اختلاف را با دیگر خوشه‌ها داشته باشند. به عبارت دیگر، ساختاری را مطلوب می‌پنداریم که در آن مقادیر فواصل درون خوشه‌ای کم و مقادیر فواصل بین خوشه‌ای زیاد باشد.

در کتاب هان و کرامبر روش‌های خوشه‌بندی به پنج دسته تقسیم شده است: روش‌های بخش‌بندی، روش‌های سلسله‌مراتبی، روش‌های مبتنی بر تراکم، روش‌های مبتنی بر Grid و روش‌های مبتنی بر مدل (Han, Kamber et al. 2011). در ادامه به توضیح مختصری از هر یک از دسته‌ ها می‌پردازیم.

خوشه‌بندی مبتنی بر بخش‌بندی^[۶۰]: در این نوع خوشه‌بندی اساس کار یک تابع هدف مشخص است که کمینه‌سازی آن، ما را به کشف ساختار موجود در مجموعه داده رهنمون می‌سازد (شهرابی and شجاعی ۱۳۸۸). با وجود آنکه ساختار الگوریتمی بسیار جذاب و متقاعدکننده است (مسئله بهینه‌سازی را می‌توان به خوبی فرموله کرد)؛ ولی، از آنجایی که شخص نمی‌داند چه نوع ساختاری را باید انتظار داشته باشد، تعیین مناسب‌ترین فرم برای تابع هدف با دشواری‌های فراوانی همراه است. بطور معمول، در این گروه از الگوریتم‌ها، تعداد خوشه‌ها را از قبل تعیین کرده و کار را با بهینه‌سازی تابع هدف ادامه می‌دهند.

الگوریتم‌هایی مانند ^[۶۱]CLARA، ^[۶۲]CLARANS، k – means، c – means و ^[۶۳]PAM نمونه‌هایی از الگوریتم‌های این گروه هستند (Mitra and Acharya 2003).

خوشه‌بندی سلسله‌مراتبی: در این نوع از روش‌های خوشه‌بندی، داده‌ها در درختی از خوشه‌ها گروه‌بندی می‌شوند. به طور کلی روش‌های سلسله‌مراتبی را می‌توان به دو دسته تقسیم کرد: روش‌های جمع‌کننده^[۶۴] و روش‌های تقسیم‌کننده^[۶۵] (شهرابی and شجاعی ۱۳۸۸). روش‌های جمع‌کننده در ابتدا هر داده را در خوشه‌ای جداگانه قرار می‌دهند. سپس خوشه‌ها را با هم ادغام کرده و خوشه‌های بزرگتری ایجاد می‌کنند. این کار تا زمانی ادامه می‌یابد که یا تمام داده‌ها در یک خوشه واحد قرار گیرند و یا شرط معینی برقرار شود، مثلاً تعداد خوشه‌ها به مقدار دلخواه برسد. در هر مرحله خوشه‌هایی به هم متصل می‌شوند که بیشترین شباهت را با هم دارند. برای بررسی میزان شباهت خوشه‌ها الگوریتم‌های مختلفی وجود دارد. دسته دوم که روش‌های تقسیم‌کننده نامیده می‌شوند عکس روش فوق را اعمال می‌کنند، یعنی درخت را از بالا به پایین می‌سازند.

برای بررسی میزان شباهت خوشه‌ها می‌توان فاصله بین خوشه‌ها را معیار مناسبی در نظر گرفت. روش‌های مختلفی مانند روش تک‌اتصالی^[۶۶]، اتصالی کامل^[۶۷] و اتصال میانگین گروهی^[۶۸] برای محاسبه فاصله بین خوشه‌ها استفاده می‌شود (شهرابی and شجاعی ۱۳۸۸).

خوشه‌بندی مبتنی بر تراکم: بسیاری از روش‌های بخش‌بندی، داده‌ها را بر اساس فاصله آنها با یکدیگر خوشه‌بندی می‌کنند. چنین روش‌هایی فقط خوشه‌های کروی شکل را پیدا می‌کنند (مانند k – means). در خوشه‌بندهایی که بر اساس تراکم داده‌ها انجام می‌شود، می‌توان خوشه‌هایی پیدا کرد که دارای شکل‌های پیچیده‌تری هستند. ایده اصلی این روش‌ها به این صورت است که یک خوشه تا زمانی که تراکم همسایگی تمامی اشیاء مرزی آن از حد معینی کمتر نشده گسترش می‌یابد. منظور از تراکم همسایگی یک شیء، تعداد اشیائی است که در فاصله ε از آن شیء قرار گرفته‌اند. چنین روش‌هایی برای فیلتر کردن نویزها و یافتن خوشه‌هایی با شکل‌های دلخواه به کار می‌رود (Han, Kamber et al. 2011). الگوریتم‌های DBSCAN^[69]، OPTICS^[70]، DENCLUE و ^[۷۱]CLIQUE در این دسته از الگوریتم‌ها قرار می‌گیرند (شهرابی and شجاعی ۱۳۸۸).

خوشه‌بندی مبتنی بر Grid: در این نوع خوشه‌بندی فضای اشیاء را به تعداد محدودی سلول کوانتیزه می‌کنند که این سلول‌ها یک Grid را بوجود می‌آورند. تمامی اعمال خوشه‌بندی بر روی ساختار این Grid (ساختار مشبک) انجام می‌شود. مزیت مهم این روش سرعت بالای آن است که مستقل از تعداد اشیاء بوده و فقط به تعداد سلول‌ها در هر بعد از فضای کوانتیزه شده بستگی دارد. الگوریتم‌های ^[۷۲]STING و CLIQUE نمونه‌هایی از این الگوریتم‌ها هستند.

خوشه‌بندی مبتنی بر مدل: الگوریتم‌های این دسته، برای هر خوشه مدلی را در نظر گرفته و سعی می‌کنند به بهترین نحو داده‌ها را به آن مدل‌ها انطباق دهند. دو راه عمده برای این کار وجود دارد: راه اول روش‌های آماری مانند COBWEB و CLASSIT و راه دوم شبکه‌های عصبی مانند ^[۷۳]SOM است.

توصیف

گاهی اوقات هدف داده‌کاوی، تنها توصیف آن چیزی است که در یک پایگاه داده‌ای پیچیده در جریان است. توصیف الگوها و روندها اغلب توضیحات ممکنی برای آن الگوها و روندها ایجاب می‌کند و درک ما را از مردم، محصولات و یا فرآیندهایی که داده‌ها در مرحله اول تولید کرده‌اند، افزایش می‌دهد.

مدل‌های داده‌کاوی باید تا حد ممکن شفاف باشند؛ به این معنی که نتایج مدل‌های داده‌کاوی باید الگوهای روشنی را که تمایلی به توضیح و تفسیر شهودی دارند، توصیف کنند. برخی از مدل‌های داده‌کاوی دارای تفسیر شفاف‌تری نسبت به دیگر مدل‌ها دارند. به عنوان مثال، درخت تصمیم توضیحات شهودی و انسان دوستانه‌ای از نتایج خود فراهم می‌آورد؛ در حالی که شبکه‌های عصبی با ارائه‌ مدل‌های پیچیده نیاز به تفسیر نتایج دارند، به همین دلیل گاهی به شبکه‌های عصبی جعبه سیاه گفته می‌شود.

درخت تصمیم و تکنیک‌های آماری ابزار مفیدی برای توصیف هستند؛ قوانین همبستگی و خوشه‌بندی را نیز می‌توان برای توصیف استفاده کرد.

ابزار و تکنیک‌های داده‌کاوی

ابزارها و تکنیک‌های بیشماری برای انجام پروژه‌های داده‌کاوی وجود دارد. بیشتر تکنیک‌های داده‌کاوی از سال‌ها و یا دهه‌ های قبل وجود داشته‌اند و ریشه در علومی دیگر چون آمار و ریاضی و زیرشاخه‌های علوم کامپیوتر مانند هوش مصنوعی و یادگیری ماشین دارند. در این تحقیق سعی کرده‌ایم به معرفی تکنیک‌هایی بپردازیم که پرکاربرد بوده و یا در تحقیق مورد استفاده قرار گرفته است.

درخت تصمیم

درخت تصمیم از تکنیک‌های پرکاربرد و رایج داده‌کاوی است که برای اهداف دسته‌بندی و پیش‌بینی مورد استفاده قرار می‌گیرد. الگوریتم‌های این تکنیک در حیطه الگوریتم‌های یادگیری با ناظر بشمار می‌رود و بر اساس الگوریتم یادگیری مفهوم طراحی شده‌اند. یک درخت تصمیم از تعدادی گره^[۷۴] و شاخه^[۷۵] تشکیل شده است. شاخه‌ها، گره‌ها را به یکدیگر متصل می‌کنند. گره‌هایی که در انتهای درخت واقع هستند را برگ^[۷۶] می‌نامیم. برگ‌ها بیانگر برچسب کلاس‌ها هستند. گره‌ای که در بالاترین سطح از درخت قرار دارد ریشه^[۷۷] نامیده می‌شود. ریشه شامل تمام داده‌های آموزشی است که باید به کلاس‌های مختلف تقسیم شوند. تمامی گره‌ها، بجز برگ‌ها را گره‌های تصمیم^[۷۸] می‌نامند. در هر کدام از این گره‌ها، تصمیم‌گیری در مورد فعالیتی که باید انجام شود با توجه به یک خصیصه صورت می‌گیرد. هر کدام از گره‌ها داری فرزندانی هستند که تعداد فرزندان هر گره برابر با تعداد مقادیری است که خصیصه مورد نظر می‌تواند اختیار کند (شهرابی and شجاعی ۱۳۸۸).

الگوریتم‌های مختلفی برای تولید درخت تصمیم وجود دارد. تمامی این الگوریتم‌ها بر اساس الگوریتم یادگیری مفهوم هانت طراحی شده‌اند. این الگوریتم، روشی را مد نظر قرار داده است که انسان‌ها از آن به منظور یادگیری مفاهیم ساده استفاده می‌کنند. در این روش خصیصه‌های اصلی که متمایزکننده دو گروه اصلی متفاوت هستند، مشخص می‌شوند. برای انجام این کار، از نمونه‌های آموزشی مثبت و منفی استفاده می‌شود. الگوریتم هانت بر پایه استراتژی تقسیم و غلبه^[۷۹] بنا نهاده شده است. مجموعه‌های آموزشی به طور بازگشتی با انتخاب بهترین خصیصه به عنوان متمایز کننده به گونه‌ای به زیرمجموعه‌های کوچک‌تر افراز می‌شوند که هر زیر مجموعه تنها حاوی نمونه‌هایی باشد که به یک کلاس تعلق دارند (شهرابی and شجاعی ۱۳۸۸). به این ترتیب، با انتخاب پی در پی خصیصه‌های متمایز کننده، درخت تصمیم شکل می‌گیرد.

آنچه که باعث می‌شود الگوریتم‌های متفاوتی برای ایجاد درخت تصمیم وجود داشته باشد، عامل انتخاب خصیصه متمایزکننده است. معیارهای گوناگونی برای انتخاب خصیصه وجود دارد که مهم‌ترین آن عبارت است از:

شاخص جینی^[۸۰]: یک شاخص رایج تقسیم‌بندی، جینی نام دارد که از نام کورادو جینی^[۸۱]، متخصص آمار و اقتصاددان ایتالیایی گرفته شده است. این شاخص احتمال قرارگیری دو مورد انتخاب شده تصادفی از یک جمعیت یکسان را در یک دسته نشان می‌دهد. برای یک جمعیت خالص، این احتمال برابر یک است. اندازه‌گیری جینی یک گره، به صورت مجموع نسبت‌های دسته‌ ها است. برای محاسبه تاثیر یک تقسیم، امتیاز جینی هر گره فرزند را محاسبه کرده و در نسبت اطلاعات که به آن گره می‌رسد ضرب کرده وسپس اعداد حاصل را با هم جمع می‌کنیم (شهرابی ۱۳۹۰b). الگوریتم CART^[82] برای پیاده‌سازی از این معیار استفاده می‌کند.
بهره اطلاعات^[۸۳]: در منظر بهره اطلاعات، اگر یک برگ کاملا خالص باشد آنگاه دسته‌ه ای این برگ را می‌توان به راحتی اینگونه توصیف کرد که همگی آنها در یک دسته جای می‌گیرند. از طرف دیگر، اگر یک برگ دارای ناخالصی بالایی باشد آنگاه توصیف آن بسیار مشکل خواهد بود. برای بیان این وضعیت اندازه‌ای به نام آنتروپی^[۸۴] تعریف می‌گردد. آنتروپی میزان بی‌نظمی یک سیستم است. آنتروپی یک گره خاص در یک درخت تصمیم عبارت است ازجمع نسبت‌های داده‌های متعلق به یک دسته خاص برای تمام دسته‌هایی که در گره نشان داده شده‌اند که در لگاریتم پایه دو آن نسبت ضرب شده است. آنتروپی یک تقسیم به صورت مجموع آنتروپی تمام گره‌های ناشی از تقسیم که بوسیله نسبت داده‌های هر گره وزن‌دهی شده است بدست می‌آید (شهرابی ۱۳۹۰b). الگوریتم ^[۸۵]ID3 از بهره اطلاعات برای انتخاب خصیصه استفاده می‌کند.
نسبت بهره^[۸۶]: اندازه‌گیری آنتروپی زمانی با مشکل مواجه می‌شود که به یک تقسیم‌بندی با متغیرهای دسته‌ای مواجه شویم. مشکل در اینجا کاهش تعداد دسته‌ه ای نمایش داده شده در هر گره و متعاقب آن کاهش آنتروپی است که صرفا از شکستن مجموعه داده‌های بزرگ‌تر به زیرمجموعه‌های کوچک‌تر ناشی می‌شود. کاهش آنتروپی که مربوط به تعداد شاخه‌ها باشد را اطلاعات نهادی^[۸۷] یک تقسیم‌بندی می‌نامند. اطلاعات نهادی موجب می‌شود تا درخت تصمیم ایجاد شده پر برگ و بار شود. درخت‌های پر برگ با تقسیمات متعدد چند مسیری مطلوب نیستند چرا که این تقسیمات به تعداد کم داده‌ها در هر گره منجر شده و مدل‌های حاصله از این طریق ناپایدار خواهند بود. برای رفع این مشکل، از نسبت کل بهره اطلاعاتی استفاده می‌کنند (شهرابی ۱۳۹۰b). الگوریتم‌ C4.5 از نسبت بهره برای انتخاب خصیصه استفاده می‌کند.

معیارهای انتخاب خصیصه دیگری هم وجود دارد، که می‌توان به درخت تصمیم CHAID، که برای انتخاب خصیصه از آزمون χ^۲ استفاده می‌کند و یا C-SEP که برای انتخاب خصیصه از آماره G (که بسیار نزدیک به توزیع χ^۲ است) استفاده می‌کند، اشاره کرد.

از درخت تصمیم ایجاد شده می‌توان برای پیش‌بینی برچسب نمونه‌های جدید بر اساس مقادیر خصیصه‌های آنها استفاده کرد. درخت تصمیم همچنین قوانین همبستگی میان خصیصه‌ها را آشکار می‌سازد. برخی از نقاط ضعف و قوت درخت‌های تصمیم عبارتند از:

قوانین تولید شده توسط آنها، تمامی کلاس‌های موجود در مجموعه داده آموزشی را به بهترین شکل توصیف می‌کند.
روابط موجود میان قوانین را آشکار ساخته؛ در نتیجه، درک ساختار داده‌ها را ساده می‌سازد.
از نظر محاسباتی ساده هستند.
این امکان وجود دارد که قوانین بسیار پیچیده‌ای را تولید کنند که در نتیجه آن، هرس کردن با دشواری‌هایی مواجه خواهد بود.
قادر هستند تا تعداد زیادی از قوانین متناظر را تولید کنند که در صورت عدم استفاده از تکنیک‌های هرس، درک آنها سخت خواهد بود.
به منظور ذخیره‌سازی کل درخت و استخراج قوانین، به حافظه زیادی نیاز است.

شبکه‌های عصبی

شبکه‌های عصبی مصنوعی (ANN) شبکه‌ای عظیم از نرون‌های محاسباتی به هم پیوسته هستند که باساختار فرایندی بصورت موازی توزیع شده نشان داده می‌شوند. ایده اصلی این شبکه‌ها از ساختار شبکه‌های عصبی بیولوژیک الهام گرفته شده است؛ زمانی که در سال ۱۹۴۳، وارن مک کالچ^[۸۸] به همراه والتر پیتس^[۸۹] برای توضیح نحوه عملکرد نرون‌های بیولوژیک به مدل‌سازی پرداختند (شهرابی ۱۳۹۰b). اگرچه این مدل فقط دارای یک نرون بود و توانایی محاسباتی محدودی داشت، ولی نقطه عطفی بود برای توسعه و پیشرفت شبکه‌های عصبی قوی‌تر و پیچیده‌تر؛ به گونه‌ای که امروزه شبکه‌های عصبی کاربرد گسترده‌ای در مسائل پیش‌بینی، دسته‌بندی و خوشه‌بندی دارد.

به طور کلی، شبکه‌های عصبی توسط سه مولفه زیر معرفی می‌شوند (Karray and Silva 2004):

ساختار
- رو به جلو
- بازگشتی
نوع یادگیری
- یادگیری با ناظر^[۹۰]
- یادگیری بدون ناظر^[۹۱]
- ترکیبی^[۹۲]
تابع فعال‌سازی^[۹۳]
- باینری
- پیوسته

ساختار شبکه‌های عصبی از تعدادی نرون و اتصالات موزون بین آنها تشکیل شده است (شکل ۲-۴). معمولا این نرون‌ها در لایه‌هایی شامل لایه ورودی، لایه‌های پنهان و لایه خروجی سازمان می‌یابند. در ساختار رو به جلو، تمامی اتصالات بین نرون‌ها به سمت جلو بوده و هیچ نرونی به نرون‌های لایه قبل اتصال ندارد. ولی چنین اتصالاتی را در ساختار بازگشتی خواهیم داشت. فرایند یادگیری شبکه‌های عصبی نیز مانند آنچه در داده‌کاوی هدایت‌شده و غیر هدایت‌شده ذکر شد، می‌تواند بصورت با ناظر و بدون ناظر باشد. در یادگیری با ناظر، داده‌های آموزشی برچسبی به عنوان متغیر هدف دارند ولی یادگیری بدون ناظر فاقد متغیر هدف است. در یادگیری ترکیبی، از هر دو فرایند در شبکه عصبی استفاده می‌شود. تابع فعال‌سازی نیز خروجی هر نرون را بر اساس ورودی‌های آن و همچنین حد آستانه^[۹۴] نرون مشخص می‌کند. تابع علامت^[۹۵] و تابع گامی^[۹۶] مثال‌هایی از تابع فعال‌سازی باینری هستند و تابع سیگموید^[۹۷] و تانژانت هایپربولیک^[۹۸] و خطی^[۹۹] جزو توابع فعال‌سازی پیوسته هستند (Karray and Silva 2004).

شکل ‏۲‑۴ : شبکه عصبی با دو لایه پنهان

مانند دیگر الگوریتم‌های یادگیری ماشین، یادگیری شبکه‌های عصبی نیز با داده‌های آموزشی صورت می‌گیرد. در پایان این مرحله، برای تمامی اتصالات نرون‌ها وزن‌های مناسبی قرار داده می‌شود. سپس، برای ارزیابی آن از داده‌های تست استفاده می‌کنند. شبکه عصبی آموزش دیده شده مانند یک جعبه سیاه کار می‌کند؛ در واقع درکی از وزن‌ها و لایه‌های پنهان به داده‌کاو نمی‌دهد. جعبه سیاه بودن شبکه‌های عصبی از معایب آن به حساب می‌آید. از دیگر معایب این الگوریتم این است که فقط در مورد داده‌های عددی کار می‌کنند.

الگوریتم‌های خوشه‌بندی

چنانچه پیش‌تر توضیح داده شد، یکی از وظایف اصلی داده‌کاوی خوشه‌بندی است. در خوشه‌بندی داده‌ها بر اساس شباهتی که به یکدیگر دارند به خوشه‌هایی افراز می‌شوند؛ بنابراین، معیار اصلی این تکنیک اندازه‌گیری شباهت داده‌ها است. لازم است قبل از توضیح هرگونه الگوریتم خوشه‌بندی، به معرفی انواع فاصله‌ها به عنوان معیاری برای اندازه‌گیری شباهت بپردازیم.

فرض کنید داده‌های ورودی دارای n ویژگی باشند، بنابراین هر داده را می‌توان بوسیله یک بردار n بعدی نمایش داد. اگر x و y دو نمونه از داده‌ها باشند خواهیم داشت:

جدول ۲-۳ تعاریف ریاضی انواع فاصله‌ها را نمایش می‌دهد (شهرابی and شجاعی ۱۳۸۸).

جدول ‏۲‑۳ : انواع فاصله‌ها

تابع فاصله	فرمول
فاصله اقلیدسی
فاصله همینگ
فاصله چبیشف
فاصله مینکوفسکی
فاصله کانبرا^[۱۰۰]
جدایی زاویه‌ای^[۱۰۱]

ما در این تحقیق به معرفی مختصر دو تکنیک خوشه‌بندی اکتفا کرده‌ایم.

K – Means:

در این الگوریتم تعداد خوشه‌ها (K) مشخص بوده و الگوریتم با تابع هدف حداقل نمودن فواصل درون یک خوشه به انتخاب K مرکز خوشه می‌پردازد. گام‌های این الگوریتم به صورت زیر است:

انتخاب k مرکز خوشه اولیه به صورت تصادفی
خوشه‌بندی داده‌ها: هر داده به خوشه‌ای تعلق دارد که کمترین فاصله را با مرکز آن خوشه داشته باشد.
به روز کردن k مرکز خوشه از طریق محاسبه میانگین وزنی اعضای هر خوشه

مراحل ۲ و ۳ تا زمان یافتن حداقل فاصله درون خوشه‌ای ادامه می‌یابد.

نگاشت‌های خودسازمانده^[۱۰۲] (SOM):

تکنیک SOM که توسط کوهنن^[۱۰۳] معرفی شد، نوعی شبکه عصبی است که به خوشه‌بندی داده‌ها می‌پردازد. این شبکه عصبی در حیطه شبکه‌های عصبی بدون ناظر قرار دارد و بدین معنی است که برای به روز کردن وزن‌های اتصالات شبکه نیازی به تاثیر بازخورد ناظر نیست؛ به همین دلیل به عنوان خودسازمانده شناخته می‌شوند. ساختار این شبکه فقط دارای دو لایه است؛ یک لایه ورودی که به اندازه ابعاد (تعداد ویژگی‌ها) داده‌های ورودی نرون دارد و یک لایه خروجی که به اندازه تعداد خوشه‌ها نرون دارد و می‌توانند در ابعاد مختلف سازمان یابند. تمامی نرون‌های ورودی به تمامی نرون‌های خروجی متصل هستند؛ بنابراین، برای هر نرون خروجی یا به عبارت دیگر برای هر خوشه، اوزان کمان‌های متصل به آن خوشه را می‌توان در غالب یک بردار وزن برای آن خوشه در نظر گرفت. ابعاد بردارهای وزن خوشه‌ها هم‌بعد باداده‌های ورودی است (Karray and Silva 2004). شکل ۲-۵ ساختار این شبکه را نشان می‌دهد.

شکل ‏۲‑۵ : ساختار SOM

الگوریتم SOM بر مبنای یادگیری رقابتی است؛ بدین معنا که نرون‌های خروجی بر اساس شباهتی که با بردار ورودی دارند با یکدیگر رقابت می‌کنند و نرونی که بیشترین شباهت را با بردار ورودی داشته باشد به عنوان نرون برنده انتخاب می‌شود. بر اساس همین الگوریتم یادگیری رقابتی است که SOM قادر خواهد بود داده‌های ورودی را بر اساس شباهت موجود بین داده‌ها خوشه‌بندی کند. از آنجایی که در SOM ویژگی‌های توپولوژیکی مربوط به مجموعه داده حفظ می‌شود، می‌توان از آن برای اهداف کاهش بعد نیز استفاده کرد. در واقع این بدان معناست که، اگر دو داده در فضای ابعاد اولیه به یکدیگر نزدیک باشند، این وضع در فضای تقلیل یافته نیز حفظ می‌شود.

قبل از بیان گام‌های الگوریتم لازم است با مفهوم همسایگی در این الگوریتم آشنا شویم. شعاع همسایگی برای یک نرون لایه خروجی مشخص کننده نرون‌های همسایه آن نرون است. مراحل الگوریتم SOM به صورت زیر است (Karray and Silva 2004):

تمامی وزن‌ها (w_ijها) و نرخ یادگیری α و شعاع همسایگی N_c مقداردهی اولیه می‌شوند.
یک داده ورودی x از مجموعه داده‌های ورودی به شبکه معرفی می‌شود.
انتخاب نرون برنده بر اساس معیار فاصله (معمولا فاصله اقلیدسی در نظر گرفته می‌شود) :
به روز کردن وزن نرون برنده و نرون‌های همسایه از تکرار k به تکرار k+1:
تکرار گام‌های ۲ تا ۴ به ازای تمامی برداهای ورودی.
کاهش نرخ یادگیری و شعاع همسایگی بر اساس رویکردی مشخص برای دوره بعد.
تکرار گام‌های ۲ تا ۶ تا زمان تحقق شرط خاتمه (معمولا تعداد مشخصی تکرار).

K - نزدیکترین همسایه

این الگوریتم نیز بر اساس شباهت‌ها کار می‌کند. هر داده اگر دارای n ویژگی باشد یک نقطه در فضای n بعدی است. تمام داده‌های آموزشی در فضای n بعدی ذخیره می‌شوند. زمانی که داده‌ای با کلاس نامشخص داده شود، k همسایه نزدیک به آن در این فضا شناسایی می‌شوند و برچسب داده مورد نظر با توجه به برچسب این k همسایه تعیین می‌شود (Larose 2005). برای محاسبه فاصله بین رکوردها از فاصله متری و به طور معمول از فاصله اقلیدسی استفاده می‌شود.

مقدار پارامتر k، به‌صورت تجربی تعیین می‌شود. ابتدا با ۱=k شروع و در هر مرحله با بهره گرفتن از داده‌های تست نرخ خطای دسته‌بندی محاسبه می‌شود؛ در هر مرحله مقدار k یک واحد افزایش داده می‌شود. در انتها کوچک‌ترین k که کمترین نرخ خطا را داشته باشد، انتخاب می‌شود. کوچک بودن مقدار k باعث می‌شود داده جدید به تعداد نقاط کم‌تری وابسته باشد، در این صورت خطا زیاد می‌شود. حال اگر مقدار k بزرگ باشد، داده جدید به کلاس‌های بیشتری وابسته می‌شود، در این صورت نیز خطا زیاد است. مقدار k باید یک مقدار میانی باشد.

از آنجایی که این الگوریتم مدلی برای دسته‌بندی داده‌ها ایجاد نمی‌کند و فقط داده‌های آموزشی را در یک فضای n بعدی قرار می‌دهد، زمان اجرای الگوریتم در مرحله آموزش کم است. ولی زمانی که داده جدیدی به الگوریتم معرفی می‌شود، برای تعیین برچسب آن محاسبات بیشتری باید انجام دهد. بنابراین زمان اجرا در مرحله تست بیشتر خواهد بود.

ماشین بردار پشتیبان^[۱۰۴] (SVM)

ماشین‌های بردار پشتیبان در ابتدا توسط وپنیک^[۱۰۵] در دهه ۹۰ میلادی توسعه داده شدند (شهرابی and شجاعی ۱۳۸۸). این الگوریتم ابزاری قدرتمند برای حل مسائل دسته‌بندی دو کلاسه است بگونه‌ای که بتوان کلاس‌ها را بطور خطی از یکدیگر جدا کرد. هدف SVM عبارت است از یافتن ابرصفحه جداکننده نقاط داده‌ای متعلق به دو کلاس با بیشترین حاشیه^[۱۰۶] و بهترین توانایی تعمیم. حاشیه، از دیدگاه هندسی عبارت است از فاصله موجود بین ابر صفحه و نزدیک‌ترین نمونه آموزشی. از یک منظر دیگر، حاشیه اینگونه تعریف می‌شود: مقدار فضا یا جدایی موجود میان دو کلاس که توسط ابرصفحه تعریف می‌شود. به نزدیک‌ترین نمونه‌های آموزشی به ابر صفحه جداکننده به اصطلاح بردار پشتیبان^[۱۰۷] گفته می‌شود (شهرابی and شجاعی ۱۳۸۸). شکل ۲-۶ خط جداکننده را به همراه بردارهای پشتیبان در فضای دو بعدی نشان می‌دهد.

شکل ‏۲‑۶: خط جداکننده SVM

تکنیک SVM در برخورد با داده‌هایی که به صورت خطی از یکدیگر جدا نمی‌شوند از یک نگاشت غیرخطی برای تبدیل داده‌های آموزشی به داده‌هایی با ابعاد بالاتر استفاده می‌کند. بدین ترتیب داده‌های تبدیل شده در ابعاد بالاتر به صورت خطی جدا پذیر خواهند بود. تابعی که وظیفه‌ی این نگاشت را به عهده دارد تابع کرنل^[۱۰۸] نامیده می‌شود. همچنین، تعمیم‌هایی از الگوریتم SVM برای حل مسائل دسته‌بندی چندکلاسه توسعه یافته است. اگرچه بنابر آنچه که گفته شد تکنیک SVM ابزاری قدرتمند برای حل اکثر مسائل دسته‌بندی است، ولی از جمله مهمترین معایب آن می‌توان به این نکته اشاره کرد که این تکنیک به محاسبات پیچیده و زمان‌بر نیاز دارد. به عبارت دیگر، SVM دارای پیچیدگی الگوریتمی بالا است و همچنین نیاز به حافظه زیادی دارد.

بیز ساده‌لوحانه^[۱۰۹]

طبقه‌بندی کننده‌های بیز، روشهایی آماری برای دسته‌بندی هستند. در این الگوریتم‌ها احتمال عضویت داده‌ها در کلاس محاسبه می‌شود. این طبقه‌بندی کننده بر پایه قضیه بیز کار می‌کند. از مزایای آن می‌توان به سرعت و دقت بالای آن‌ اشاره کرد. پس زمانی که مجموعه داده‌ بزرگ باشد، می‌توان از این طبقه‌بندی کننده استفاده کرد.

این الگوریتم احتمال عضویت داده جدید را در هر کلاس محاسبه می‌کند و داده متعلق به کلاسی خواهد بود که بیشترین احتمال عضویت را داشته باشد. در این الگوریتم برای محاسبه احتمال عضویت فرض شده است که ویژگی‌ها از هم‌ مستقل هستند، به‌عبارت دیگر فرض می‌شود بین ویژگی‌ها هیچ هم‌بستگی وجود ندارد. اگرچه این الگوریتم از قدرت دسته‌بندی بالایی برخوردار است ولی گاهی اوقات مفروضات آن ممکن است بر دقت دسته‌بندی اثر منفی داشته باشند.

سیستم‌های چند دسته‌بند

سیستم‌های چند دسته‌بند (MCSs) راه حل قدرتمندی برای مسائل تشخیص الگوی^[۱۱۰] پیچیده هستند. قدرت این سیستم‌ها در اجازه استفاده همزمان از روش‌های دسته‌بند متنوع برای حل یک مسئله خاص است. این سیستم‌ها با ترکیب خروجی مجموعه‌ای از دسته‌بندهای متفاوت سعی در بهبود کارایی و رسیدن به دقت بالاتر را دارند. بطور کلی MCSs شامل گروهی از الگوریتم‌های دسته‌بند متفاوت و همچنین یک تابع تصمیم برای ترکیب خروجی دسته‌بندها است. بنابراین، طراحی چنین سیستمی شامل دو بخش است: طراحی گروه دسته‌بندها و طراحی تابع ترکیب^[۱۱۱] (Ghosh 2002).

در بخش طراحی گروه دسته‌بندها دو ساختار متفاوت قابل اجراست: ساختار موازی^[۱۱۲] و ساختار آبشاری^[۱۱۳] (Ghosh 2002). در شکل ۲-۷ این دو ساختار نمایش داده شده است. همچنین در بخش ترکیب نتایج دسته‌بندها، توابع ترکیب گوناگونی وجود دارد. میانگین و میانگین وزنی، روش های ترکیب غیر خطی و روش انتگرال فازی از جمله روش‌هایی هستند که در این بخش مورد استفاده قرار می‌گیرند. روش‌های ترکیب غیر خطی شامل متدهای رأی گیری، متدهای رتبه دهی و متدهای احتمالی می‌باشد. توضیح کامل روش های ترکیب نتایج دسته‌بندها در (Xu, Krzyzk et al. 1992) و (Ruta and Gabrys 2000)ارائه شده است.

شکل ‏۲‑۷: ساختار گروه دسته‌بندها

ساختار سیستم و همچنین نوع تابع ترکیب مورد استفاده با توجه به مسئله مورد بررسی انتخاب می‌شوند.

الگوریتم ژنتیک

محاسبات تکاملی^[۱۱۴]، بر مبنای تکامل یک جمعیت از جواب‌های کاندید برای حل مسئله‌های بهینه‌سازی با الهام از عملگرهای انتخاب طبیعی توسعه یافته‌اند. الگوریتم ژنتیک^[۱۱۵] با تکیه بر نظریه داروین برای تولید جمعیت بعدی تکامل‌یافته‌تر از فرایند تولید مثل الهام می‌گیرد و کاربرد گسترده‌ای در حل مسائل NP-hard دارد(Mitra and Acharya 2003). این الگوریتم با انتخاب دو عضو تصادفی از میان بهترین‌های جمعیت و انجام عمل تقاطع^[۱۱۶] و جهش^[۱۱۷] و تکرار آن، نسل بعدی جمعیت را تولید می‌کند. برای درک بهتر الگوریتم ژنتیک به تعاریفی نیاز است که به قرار زیر است:

ژن: واحد پایه ژنتیک است.
کروموزوم: به گروهی از ژن‌ها اطلاق می‌شود. هر عضو از جمعیت یک کروموزون است و معمولا به صورت آرایه پیاده‌سازی می‌شود.
تقاطع: عملگری است که بر روی دو کروموزوم انتخاب شده به عنوان والدین اعمال می‌شود برای تولید فرزندان.
جهش: عملگری است که بر روی یک فرزند اعمال می‌شود برای تغییر مقدار یک ژن.

آنچه در این میان از اهمیت ویژه‌ای برخردار است نحوه ارزیابی اعضای جمعیت برای تعیین بهترین کروموزوم‌ها است. در الگوریتم ژنتیک این ارزیابی توسط تابعی به عنوان تابع برازندگی^[۱۱۸] انجام می‌شود. تابع برازندگی با توجه به مسئله تعریف می‌شود و به هر یک از اعضای جمعیت مقداری را بر اساس مقادیر ژن‌ها نسبت می‌دهد. مراحل الگوریتم ژنتیک به صورت زیر است:

ایجاد جمعیت اولیه بصورت تصادفی
محاسبه تابع برازندگی برای هر عضو
انتخاب والدین با توجه بر مقادیر تابع برازندگی هر عضو
انجام عمل تقاطع و تولید جمعیت فرزندان
انجام عمل جهش با احتمالی خاص
ایجاد جمعیت جدید
اگر شرایط خاتمه برقرار نبود به گام ۲ برگرد در غیر این صورت به گام ۸ برو
پایان.

برای هر یک از گام‌های این الگوریتم رویکردهای متفاوتی وجود دارد که این امر موجب شده تا نسخه‌ها و توسعه‌های زیادی از الگوریتم ژنتیک تولید شود و به ابزار قدرتمند برای حل مسائل بهینه‌سازی تبدیل شود.

کاربرد داده‌کاوی در CRM

داده‌های مربوط به مشتریان و تکنولوژی اطلاعات، زیر ساخت‌هایی هستند که هر استراتژی موفق CRM بر پایه آنها ساخته می‌شوند. بعلاوه رشد سریع اینترنت و تکنولوژی‌های مربوط به آن، بصورت گسترده‌ای باعث افزایش فرصت‌های بازاریابی گردیده و روش مدیریت روابط بین شرکت‌ها و مشتریانشان را تغییر داده است.

ابزارهای داده‌کاوی در راستای تحلیل داده‌های مشتری در ساختار CRM تحلیلی، بسیار مرسوم هستند. بسیاری از سازمان‌ها داده‌هایی در مورد مشتریان جاری، مشتریان بالقوه، تامین‌کنندگان و شرکای تجاری جمع‌ آوری و ذخیره می‌کنند. عدم توانایی کشف اطلاعات ارزشمند پنهان در میان این داده‌ها مانع از این می‌شود که سازمان‌ها این داده‌ها را به دانش مفید و با ارزش تبدیل کنند. ابزارهای داده‌کاوی کمک می‌کنند تا سازمان‌ها این دانش نهفته را از میان حجم عظیم داده‌ها استخراج کنند.

کاربرد ابزارهای داده‌کاوی در CRM، روندی نوظهور در تجارت جهانی است. با وجود داده‌های جامع مشتریان، تکنولوژی داده‌کاوی می‌تواند هوش تجاری با قابلیت ایجاد فرصت‌های جدید فراهم آورد. تحلیل و فهم رفتار و مشخصات مشتری مبنای توسعه یک استراتژی CRM رقابتی برای بدست آوردن و نگه داشتن مستریان بالقوه و ماکزیمم کردن ارزش مشتری است.

از آنجایی که تکنولوژی CRM در ارتباط مستقیم با داده‌های مشتری است و هر کجا که داده‌های وسیع وجود داشته باشد ابزارهای داده‌کاوی می‌توانند مفید باشند، اکثر تکنیک‌ها و استراتژی‌های CRM می‌توانند از داده‌کاوی بهره بگیرند. در ادامه نمونه‌هایی از این کاربردها را توضیح خواهیم داد.

داده‌کاوی برای بهبود بازاریابی مستقیم^[۱۱۹]

از تبلیغات می‌توان برای رسیدن به مشتریان بالقوه‌ای که چیزی در مورد آنها به عنوان یک فرد نمی‌دانیم استفاده کرد. اما در مقابل، بازاریابی مستقیم، نیازمند داشتن حداقل اندکی اطلاعات مانند نام فرد به همراه آدرس، شماره تلفن یا آدرس پست الکترونیک است. پایه‌ای‌ترین کاربرد داده‌کاوی، تعیین لیست مشتریان بالقوه برای برقراری تماس با آنها است.

در واقع، مرحله اول هدف‌گیری، نیازی به داده‌کاوی ندارد بلکه تنها به داده نیاز است. حتی در کشورهای توسعه‌یافته هم داده‌های بسیار کمی نسبت به بزرگی جامعه در دسترس است. در بسیاری از کشورها شرکت‌هایی وجود دارند که داده‌هایی را در سطح خانوارها در مورد موضوعات گوناگون از جمله درآمد، تعداد فرزندان، سطح تحصیلات و حتی نوع تفریحات جمع‌ آوری کرده و می‌فروشند. از طرف دیگر، قوانین حاکم بر استفاده از این داده‌ها برای اهداف بازاریابی از کشوری به کشور دیگر متفاوت است.

می‌توان داده‌های در سطح خانوار را به طور مستقیم برای تقسیم‌بندی اولیه بر اساس درآمد، تملک خودرو و وجود فرزندان بکار برد. مشکل این است که حتی بعد از فیلتر کردن اطلاعات هم داده‌های باقیمانده به میزان زیادی به تعداد مشتریان بالقوه که احتمال دارد جواب بدهند وابسته خواهد بود؛ بنابراین، کاربرد اصلی داده‌کاوی در مورد مشتریان بالقوه، هدف‌گیری مشتریان یعنی پیدا کردن مشتریان بالقوه‌ای که احتمالا به پیشنهاد ارائه شده پاسخ واقعی می‌دهند، است (شهرابی ۱۳۹۰a).

فعالیت‌های بازاریابی مستقیم معمولا دارای نرخ‌های پاسخ بسیار کم و تک‌رقمی هستند. از مدل‌های پاسخ^[۱۲۰] با تعیین مشتریان بالقوه‌ای که احتمال پاسخ به یک درخواست مستقیم را دارند، برای بهبود نرخ پاسخ استفاده می‌شود (شهرابی ۱۳۹۰a). مفیدترین مدل‌های پاسخ، تخمین واقعی از احتمال پاسخ را فراهم می‌کنند. هر مدلی که امکان رتبه‌بندی مشتریان بالقوه را بر اساس احتمال پاسخ‌دهی فراهم کند، مناسب است. تکنیک‌های داده‌کاوی را می‌توان برای مدل‌سازی پاسخ و بهبود بازاریابی مستقیم بکار برد.

بخش‌بندی مشتریان^[۱۲۱]

بخش‌بندی مشتریان یکی از کاربردهای معمول داده‌کاوی در رابطه با مشتریانی است که جذب سیستم شده‌اند؛ هدف بخش‌بندی، همگن نمودن محصولات، خدمات و پیام‌های بازاریابی با هر کدام از بخش‌ها است (شهرابی ۱۳۹۰a). بخش‌بندی مشتریان پایه فعالیت‌های شرکت در زمینه‌های فروش، بازاریابی و خدمت رسانی است. مشتریان در هر دسته دارای خصوصیات مشابهی هستند و مشتریان که در دسته‌ه ای مختلف هستند ویژگی‌های متفاوتی دارند. بخش‌بندی مشتریان بطور سنتی بر اساس تحقیقات در بازار و ویژگی‌های جمعیت‌شناختی صورت پذیرفته و مثلا بخش‌هایی چـون “جوان و مجرد” بوجود می‌آید. مشکل انجام بخش‌بندی مشتریان بر اساس تحقیقات در بازار این است که بکارگیری نتایج حاصله از مطالعه برای مشتریانی که آن مطالعه شامل آنان نبوده مشکل است؛ از سوی دیگر، مشکل بخش‌بندی بر اساس ویژگی‌های جمعیت‌شناختی هم این است که مثلا تمامی افراد “جوان و مجرد” یا “کسانی که تنها زندگی می‌کنند” به راستی دارای سلیقه و گرایشی نیستند که به آنها در مورد کالاها و خدمات نسبت داده شده است.

تحلیل تعداد محدودی از متغیرها و نداشتن نگاه جامع مشتمل بر تمامی متغیرها از جمله معایب بخش‌بندی بوسیله ابزارهای تحقیقات بازار است. دانش داده‌کاوی با برخورداری از توانمندی در نظر گرفتن تمامی متغیرها، نتایج کاملا عینی، واقعی و کاربردی ارائه می کند (شهرابی ۱۳۹۰a).

همچنین به منظور پیاده‌سازی روش‌های بازاریابی مستقیم از تکنیک‌های خوشه‌بندی استفاده می‌شود تا با تقسیم‌بندی مشتریان در خوشه‌های مختلف از این خوشه‌ها به عنوان مبنای دسته‌بندی و پس از آن پیش‌بینی دسته هر مشتری استفاده می‌شود (Ngai, Xiu et al. 2009). بخش‌بندی مشتریان اساس بازاریابی و سرویس‌دهی اثربخش یک سازمان است که تعداد زیاد مشتریان را در دسته‌هایی طبقه‌بندی می‌کند که چنانچه ذکر شد مشتریان یک دسته دارای خصوصیات مشابهی با هم و خصوصیات متفاوتی با مشتریان سایر گروه‌ها هستند. در مقایسه با روش‌های سنتی بخش‌بندی مشتریان، استفاده از تکنیک‌های داده‌کاوی مزایایی دارد که در ذیل به آنها اشاره می‌کنیم:

نتایج بخش‌بندی به کمک داده‌کاوی بر اساس واقعیت داده‌ها شکل می‌گیرد و نقش فاعلی افرادی که داده‌ها را پردازش می‌کنند حذف می‌گردد که باعث می‌شود نتایج نهایی هدف نشان دادن تفاوت‌های میان جمعیت‌ها را بیشتر محقق کند.
مشخصات تقسیم‌بندی مشتریان در گروه‌های متفاوت را به صورت جامع‌تر نمایش می‌دهد که این موضوع منجر به شناخت کامل‌تر متخصصان بازاریابی از مشتریان می‌شود و از این طریق برنامه‌های بازاریابی هدفمند و اختصاصی قابل اجرا است.
تغییرات رفتاری مشتریان می‌تواند به سادگی با کنار هم گذاشتن مدل‌های تحلیل خوشه‌بندی و به روز کردن گروه مشتریان به صورت منظم پیکیری شود.

قرار دادن تعدای از ویژگی‌های مشتریان در مجموعه‌ای تحت عنوان پروفایل مشتریان روش مرسوم است که از آن برای بخش‌بندی مشتریان در گروه‌های با رفتار مشابه مثلا خرید محصولات یکسان، استفاده می‌شود. داده‌کاوی می‌تواند نرخ پاسخ کمپین‌های بازاریابی را با تقسیم‌بندی مشتریان به گروه‌های با خصوصیات و نیازهای متفاوت افزایش دهد.

افزایش ارزش مشتری

محاسبه ارزش مشتری پیچیده است و این محاسبات بطور معمول شامل یافتن تعاریف صحیح مالی می‌شوند. یک بیان ساده از ارزش مشتری عبارت است از کل ارزش حاصله از وجود مشتری منهای کل هزینه مصرف شده برای حفظ مشتری (شهرابی ۱۳۹۰a). ولی هزینه‌ها بسیار مشکل آفرین هستند؛ تجارت‌ها دارای انواع هزینه‌هایی هستند که احتمالا از طریق خاصی به مشتریان اختصاص می‌یابند. حتی با در نظر نگرفتن هزینه‌های تخصیص یافته و توجه به هزینه‌های مستقیم، باز هم مسائل، همچنان گیج‌کننده خواهد بود. از طرف دیگر، ممکن است هزینه‌ها برای مشتریان مشابه، متفاوت باشد که این امر محاسبه ارزش مشتری را پیچیده‌تر می‌کند. از داده‌کاوی می‌توان برای برآورد ارزش آینده مشتریان استفاده کرد؛ این امر شامل تخمین سود حاصله از یک مشتری در هر واحد زمان و سپس تخمین این سود برای بقیه عمر مشتری است.

به منظور افزایش ارزش کسب شده از مشتریان موجود، استراتژی‌های فروش جانبی^[۱۲۲] بکار گرفته می‌شود. فروش جانبی بر اساس اصل برد – برد بنا شده است؛ یعنی شرکت‌ها محصولات جدیدشان را به مشتریان جاری خود می‌فروشند تا از این طریق اهداف دو طرف عرضه و تقاضا برآورده شود. مشتری به آسانی خدمت یا محصول مورد تقاضای خود را بدست می‌آورد و سازمان‌ها از طریق افزایش فروش خود سود کسب می‌کنند. در واقع فروش جانبی سود حاصله از مشتریان موجود را افزایش می‌دهد.

در مورد مشتریان فعلی، بیشترین تمرکز CRM بر افزایش سوددهی از طریق فروش جانبی است. از داده‌کاوی برای تعیین اینکه چه پیشنهادی را به چه کسی و در چه زمانی عرضه کرد استفاده می‌شود. یکی از روش‌ها در فروش جانبی که برای اجناس خرده‌فروشی بسیار مناسب است استفاده از قوانین همبستگی است. از قوانین همبستگی به منظور یافتن خوشه‌هایی از محصولات که معمولا با هم فروخته می‌شوند یا بوسیله فرد یکسانی در طول زمان خریداری می‌گردند، استفاده می‌شوند. مشتریانی که برخی و نه تمام اقلام موجود در یک خوشه را خریداری می‌کنند، مشتریان بالقوه مناسبی برای خرید سایر اقلام آن خوشه هستند.

داده‌کاوی و افزایش ارزش دوره عمر مشتری^[۱۲۳]

در برخی منابع، رویکرد CRM در چرخه عمر مشتری را متشکل از سه مرحله زیر در نظر گرفته‌اند (اکبری ۱۳۸۹):

بدست آوردن مشتری^[۱۲۴]
افزایش ارزش مشتری
حفظ مشتریان خوب^[۱۲۵]

داده‌کاوی می‌تواند در هر یک از مراحل ذکر شده کارایی و سوددهی را افزایش دهد. اولین قدم در CRM شناسایی مشتریان احتمالی و تبدیل آنها به مشتریان فعال است. جذب مشتری به معنای بالفعل درآوردن تقاضای مشتریانی است که اطلاعات کمی از محصولات شما دارند. داده‌کاوی می‌تواند بصورت مناسبی مشتریان را دسته‌بندی کند، مشتریان احتمالی را شناسایی کند و از این طریق نرخ پاسخ به فعالیت‌های بازاریابی را افزایش دهد. چنانچه قبلا ذکر شد، مدل‌های پاسخ از ابزارهای کاربردی داده‌کاوی در این زمینه هستند که در واقع از تکنیک‌های دسته‌بندی و پیش‌بینی برای تشخیص مشتریانی که احتمالا به یک محصول یا خدمت پاسخ مثبت می‌دهند، استفاده می‌کنند.

کمپین‌های بازاریابی^[۱۲۶] یکی دیگر از استراتژی‌های CRM است که در مرحله جذب مشتری می‌تواند مفید باشد. داده‌کاوی کمک می‌کند تا شرکت‌ها با هزیته‌های کمتر و استراتژی‌های جذب کاراتر با توجه به خصوصیات متفاوت مشتریان، موفقیت بیشتری در کسب مشتریان داشته باشند. روش‌هایی چون بخش‌بندی بازار هدف^[۱۲۷] و مشتریان برای انجام بازاریابی هدفگرا متداول‌ترین ابزارها در این مرحله بشمار می‌روند.

داده‌کاوی می‌تواند با فهم فروش جانبی به بازاریابی موثرتر کمک کند. با آنالیز رفتار مشتریان موجود می‌توان سرویس‌ها و محصولات دیگر را به آنان ارائه کرد و با دسته‌بندی مشتریان میزان پاسخگویی مشتریان به کمپین‌های بازاریابی را افزایش داد. همچنین، از طریق داده‌کاوی می‌توان مشتریان باارزش‌تر سازمان را شناسایی کرد. مشتریانی که مصرف بیشتری دارند و به محصولات بیشتری پاسخ مثبت می‌دهند و نسبت به سازمان وفادارتر هستند، مشتریان باارزش به حساب می‌آیند.

بنابراین، در مرحله دوم یعنی افزایش ارزش مشتریان موجود، با بهره گرفتن از تکنیک‌های داده‌کاوی و تحلیل داده‌های مربوط به رفتار مشتریان و خریدهایشان، می‌توان پیشنهادهای مناسبی برای خرید سایر کالاها به آنها ارائه داد تا از این طریق ارزش مشتریان برای شرکت افزایش یابد بدون اینکه بدلیل پیشنهادات نامناسب موجب نارضایتی آنها شویم. همچنین، به کمک داده‌کاوی می‌توان روابط را با مشتریان شخصی‌سازی^[۱۲۸] کرد به نحوی که در مراجعات مجدد آنها با توجه به خریدهای گزشته‌شان، محصولات جدید و مرتبط که احتمالا مورد علاقه‌شان است به آنها پیشنهاد شوند. چنین فرایندی با بهره گرفتن از تکنیک‌های مختلف داده‌کاوی همچون قوانین همبستگی و خوشه‌بندی قابل انجام است (اکبری ۱۳۸۹).

در مرحله سوم، یعنی حفظ مشتریان خوب، آنچه قابل توجه است ذکر این نکته است که امروزه در سازمان‌ها هزینه‌ای که صرف جذب مشتری جدید می‌شود بسیار بیشتر از هزینه‌ای است که سازمان‌ها برای نگهداری مشتریان موجودشان انجام می‌دهند. بسیاری از شرکت‌ها بر این باورند که هزینه جذب یک مشتری جدید بین ۶ تا ۸ برابر حفظ مشتری موجود است. از این جهت، سازمان‌ها مبالغ بیشتری را صرف نگهداری مشتریان موجودشان می‌کنند.

تحلیل وفاداری مشتری^[۱۲۹]، سنجش میزان ماندگاری و ثبات مشتری است. سازمان‌ها تلاش می‌کنند تا با ارزیابی میزان وفاداری مشتریان‌شان، مشتریانی که دارای ریسک بالایی برای قطع استفاده از محصولات هستند را شناسایی کنند و با تعیین استراتژی‌های موثر وفادار‌سازی از میزان مشتریان از دست رفته بکاهند. همچنین، سازمان برای تعیین نحوه تخصیص منابع خود، مشتریان باارزش خود را هدفگذاری می کند تا منابع مالی محدود خود را صرف حفظ مشتریانی کند که سود بیشتری برای سازمان ایجاد می‌کنند.

داده‌کاوی می‌تواند از طریق تحلیل رفتار گذشته و تطبیق آن با رفتار مشتریان از دست رفته پیشین، مشتریانی که دارای احتمال بالای از دست رفتن هستند را شناسایی و پیش‌بینی کند. برای ساخت چنین مدل‌هایی می‌توان مشتریان را به سه دسته تقسیم کرد: اول مشتریانی که ارزشی برای سازمان ندارند. دومین دسته مشتریان با ارزش پایدار برای سازمان و دسته سوم مشتریان ناپایدار که به دنبال قیمت و کیفیت دلخواه خود هستند.

بنابر اصول CRM دسته سوم مهمترین دسته‌ای هستند که باید از آنها نگهداری کرد. با شناسایی این گروه از مشتریان می‌توان با تخصیص مشوق‌هایی چون تخفیف‌ها یا خدمات رایگان، آنها را به استفاده از محصولات ترغیب نمود و میزان وفاداری آنها را افزایش داد. همانطور که پیش از این عنوان شد، از آنجایی که برای اکثر شرکت‌ها هزینه جذب مشتری جدید بیشتر از حفظ مشتریان فعلی است، نیاز به استراتژی‌های صحیح در راستای حفظ مشتریان بسیار با اهمیت است. اولین نکته در این مسئله داشتن توانایی پیش‌بینی مشتریانی است که به احتمال زیاد از دست می‌روند. با انتخاب داده‌های مناسب می‌توان با بهره گرفتن از تکنیک‌های داده‌کاوی مدلی ارائه نمود که بتواند رفتار مشتریان را پیش‌بینی کند. مرحله بعدی، شناسایی مشتریان خوب شرکت است که با بهره گرفتن از تحلیل‌های ارزشگذاری مشتریان صورت می‌گیرد. در نهایت، باید راهکارهایی برای نگه داشتن مشتریان خوب شرکت ارائه نمود. بنابراین، در این بخش به سه مدل نیاز داریم؛ اول مدلی که مشتریانی که از دست خواهند رفت را پیش‌بینی کند، سپس مدلی که مشتریان خوب و با ارزش را از میان آنها شناسایی کند و نهایتا مدلی که روش‌هایی برای متقاعد کردن این مشتریان و حفظ آنها ارائه نماید (Edelstein 2000).

ابعاد CRM و کاربردهای داده‌کاوی

بر اساس (Ngai, Xiu et al. 2009)، CRM دارای چهار بعد شناسایی مشتری^[۱۳۰]، جذب مشتری^[۱۳۱]، حفظ مشتری^[۱۳۲] و توسعه مشتری^[۱۳۳] است. این چهار بعد را می‌توان به عنوان یک چرخه سیستم مدیریت مشتری در نظر گرفت.

شناسایی مشتری: CRM با شناسایی مشتری آغاز می‌شود. این فاز شامل هدف‌گذاری جمعیتی است که بیشترین احتمال برای تبدیل شدن به مشتری شرکت را دارند. علاوه بر این شامل تحلیل مشتریانی که در رقابت از دست رفته‌اند و تعیین چگونگی برگرداندن آنها است.

تحلیل مشتری هدف^[۱۳۴] و بخش‌بندی مشتری^[۱۳۵] عناصر اصلی شناسایی مشتری هستند (Ngai, Xiu et al. 2009). تحلیل مشتری هدف شامل جستجوی بخش‌های سودآور مشتریان از طریق آنالیز مشخصات پنهان مشتریان است. در این بخش از انواع تکنیک‌های توصیف‌کننده و پیش‌بینی‌کننده داده‌کاوی می‌توان استفاده نمود.

جذب مشتری: این فاز در ادامه فاز شناسایی مشتری است. پس از شناسایی بخش‌های مشتریان بالقوه، سازمان‌ها می‌توانند به صورت مستقیم تلاش و منابع خود را مصرف جذب مشتریان هدف نمایند. عنصر اصلی جذب مشتری، بازاریابی مستقیم^[۱۳۶] است. بازاریابی مستقیم یک فرایند ارتقاء انگیزه مشتریان برای سفارش از طریق کانالهای مختلف است (Ngai, Xiu et al. 2009). برای نمونه، پست مستقیم و توزیع کوپن مثال‌های معمولی بازاریابی مستقیم هستند.

حفظ مشتری: این فاز اساسی‌ترین نگرانی برای CRM است. رضایت مشتری^[۱۳۷] که در واقع قیاس بین انتظارات مشتری و احساس رضایتمندی وی است، مهمترین شرط برای حفظ مشتریان است. عناصر این فاز شامل بازاریابی یک به یک^[۱۳۸]، برنامه‌های وفاداری^[۱۳۹] و مدیریت شکایات^[۱۴۰] هستند(Ngai, Xiu et al. 2009). بازاریابی یک به یک از ابزارهای داده‌کاوی برای شخصی‌سازی نحوه ارتباط با هر یک از مشتریان استفاده می‌کند. بخش‌بندی و تحلیل ارزش مشتریان در این بعد نیز اهمیت و کاربرد فراوانی دارد.

توسعه مشتری: این فاز در بر گیرنده افزایش پایدار تعداد تراکنش‌ها، ارزش تراکنش‌ها و سودآوری مشتریان است. تحلیل ارزش دوره عمر مشتری، متقاعد کردن مشتری به خرید بیشتر، فروش جانبی و تحلیل سبد خرید عناصر این فاز هستند (Ngai, Xiu et al. 2009). در واقع در این فاز از تکنیک‌های داده‌کاوی برای یافتن راهکارهای مناسب و کارا برای افزایش ارزش قابل اکتساب از مشتریان فعلی استفاده می‌شود.

استفاده از روش RFM^[141] برای تحلیل ارزش مشتریان روشی متداول است که در کنار تکنیک‌های خوشه‌بندی کارایی مناسبی از خود نشان داده است. در این روش سه مشخصه تاخیر، فراوانی و مقدار پول به عنوان مبنای خوشه‌بندی و ارزشگذاری مشتریان در نظر گرفته می‌شوند (Cheng and Chen 2008).

داده‌کاوی و بازاریابی هدفمند

امروزه با تغییر رویکرد ارتباط با مشتریان، رویکرد شرکت‌ها در بازاریابی از بازاریابی با حجم بالا^[۱۴۲] به بازاریابی یک به یک تغییر یافته و همچنین شرکت‌ها به جای هزینه فراوان برای جذب مشتریان جدید و افزایش سهم بازار خود به دنبال حفظ مشتریان فعلی و افزایش سوددهی آنها هستند. داده‌کاوی به شرکت‌ها کمک می‌کند تا هرچه بیشتر به سمت مشتری ‌مداری حرکت کنند.

بازاریابان سه روش را برای افزایش ارزش مشتری مد نظر قرار داده‌اند (اکبری ۱۳۸۹):

افزایش میزان مصرف و استفاده مشتریان
فروختن محصول بیشتر به آنان
نگه‌داشتن مشتری برای دوره زمانی طولانی‌تر

به صورت عمومی چرخه عمر مشتریان دارای ۴ مرحله است (Rygielski, Wang et al. 2002):

مشتریان احتمالی^[۱۴۳]: افرادی که هنوز مشتری نیستند ولی در بازار هدف قرار دارند.
پاسخگوها^[۱۴۴]: مشتریان احتمالی که به محصول یا خدمت مورد نظر علاقه نشان داده‌اند.
مشتریان فعال^[۱۴۵]: افرادی که در حال حاضر از محصول یا خدمت استفاده می‌کنند.
مشتریان سابق^[۱۴۶]: افرادی که به دلایل مختلف دیگر ارزشی برای شرکت ندارند و در دامنه بازار هدف قرار نمی‌گیرند؛ یا افرادی که به سمت خرید از رقبا تغییر موضع داده‌اند.

داده‌کاوی در CRM در زمبنه ارتباط مناسب با هر یک از این گروه‌ها مدل‌های مناسبی ارائه می‌کند. به عنوان مثال می‌توان از داده‌کاوی برای پیش‌بینی این که کدامیک از مشتریان احتمالی می‌توانند به مشتری فعال و سودآور تبدیل شوند، استفاده کرد.

داده‌کاوی و رویگردانی مشتری

از دست دادن مشتری مهم است، زیرا هزینه‌ای که برای جذب مشتری جدید مصرف می‌شود بسیار بیشتر از هزینه‌ای است که صرف نگهداری مشتریان موجود می‌شود؛ این امر به خصوص در مورد صنایع قدیمی و بازار نسبتا اشباع شده بیشتر صدق می‌کند. وقتی بازار اشباع شود و نرخ پاسخگویی به فعالیت‌های جذب مشتری کاهش یابد، هزینه جذب مشتریان جدید افزایش خواهد یافت. هدف داده‌کاوی از تولید مدل‌های رویگردانی مشتری، شناسایی مشتریان با ارزشی است که در خطر از دست رفتن قرار دارند. بر اساس این مدل‌ها و برای حفظ مشتریان با ارزشی که بدون مشوق‌های اضافی شرکت را ترک می‌کنند، پیشنهادهای خوبی داده می‌شود.

یکی از اولین چالش‌ها در مدلسازی رویگردانی مشتری این است که تعیین کنیم از دست رفتن مشتری چیست و چه زمانی اتفاق افتاده یا می‌افتد (شهرابی ۱۳۹۰a). تعیین و تشخیص این امر در برخی از صنایع دشوار است؛ زیرا در اکثر موارد نحوه رفتار مشتریان در هیچ پایگاه داده‌ای ثبت نمی‌شود. به عنوان مثال زمانی که یک مشتری وفادار، خرید معمول قهوه‌ی خود را متوقف می‌کند و به مغازه دیگری مراجعه می‌کند، فروشنده مغازه قهوه که نوع سفارش وی را به خاطر دارد این مسئله را در می‌یابد ولی در هیچ پایگاه اطلاعاتی ذخیره نمی‌شود.

حتی زمانی که اطلاعات جامعی از مشتریان در اختیار باشد، تشخیص یک مشتری از دست رفته از کسی که برای مدتی قطع رابطه کرده دشوار است. ممکن است خرید بعدی یک مشتری وفادار با کمی تاخیر همراه باشد؛ در این صورت آیا می‌توان وی را به عنوان مشتری رویگردان در نظر گرفت؟

کشف رویگردانی مشتری، زمانی که یک ارتباط پرداختی ماهانه مانند کارت‌های اعتباری وجود داشته باشد کمی آسان‌تر است. همچنین مفهوم رویگردانی مشتری در تجارت‌هایی که مشتریان دارای یک اشتراک بلند مدت هستند، راحت‌تر از سایر موارد تعریف می‌شود؛ به همین دلیل، مدلسازی رویگردانی مشتری در این گونه تجارت‌ها معمول‌تر است. شرکت‌های تلفن راه دور، تلفن همراه، شرکت‌های بیمه، شرکت‌های خدمات مالی، تامین‌کنندگان خدمات اینترنت و تلویزیون کابلی، مجلات و برخی از خرده‌فروشان مثال‌هایی از این تجارت‌ها هستند.

در نهایت، برای مدل‌سازی رویگردانی مشتری دو رویکرد اساسی وجود دارد. رویکرد اول، رویگردانی مشتری را به عنوان یک نتیجه دوگانه می‌بیند و پیش‌بینی می‌کند که کدام مشتری می‌ماند و کدام می‌رود. رویکرد دوم، درصدد است که دوره بقای مشتری^[۱۴۷] را پیش‌بینی کند.

رویکرد اول: پیش‌بینی و تعیین مشتریانی که سیستم را ترک می‌کنند

مدل‌سازی رویگردانی مشتری به صورت یک نتیجه دوگانه، نیازمند درنظر گرفتن یک افق زمانی است. این مدل‌ها معمولا افق زمانی کوتاهی در حد ۶۰ یا ۹۰ روز دارند. البته افق زمانی نباید انقدر کوتاه باشد که زمانی برای انجام اقدامات پیشگیرانه بر اساس پیش‌بینی‌های مدل وجود نداشته باشد. مدل‌های روگردانی مشتری با نتایج دوگانه را می‌توان با ابزارهای معمول دسته‌بندی مانند رگرسیون لجستیک، درخت‌های تصمیم و شبکه‌های عصبی تهیه کرد. داده‌های پیشین که جمعیتی از مشتریان را در یک بازه زمانی توصیف می‌کند، با برچسبی که نشان می‌دهد آیا مشتری در زمان‌های بعدی فعال بوده یا نه ترکیب می‌شوند. وظیفه مدل‌سازی، ایجاد تمایز بین مشتریانی است که مانده‌اند و آنهایی که رفته‌اند.

معمولا پیش‌بینی کننده‌های مدل رویگردانی مشتری، ترکیبی از اطلاعاتی هستند که یا در زمان جذب مشتری درباره آنها جمع‌ آوری شده است؛ یا مانند دیرکرد در پرداخت‌ها و مشکلات رخ داده با خدمات، در زمان ارتباط با مشتری پیش آمده است. دسته اول مدل‌های داده‌کاوی پیشگویی‌کننده رویگردانی مشتری، اطلاعاتی را در مورد چگونگی کم کردن رویگردانی‌های مشتریان در آینده با جذب نمودن مشتریانی با تمایل کمتر به رویگردانی فراهم می‌کنند. دسته دوم، بینشی برای کم کردن خطر رویگردانی مشتریانی که هم‌اکنون وجود دارند فراهم می‌کند (شهرابی ۱۳۹۰a).

رویکرد دوم: پیش‌بینی مدت زمانی که مشتریان باقی خواهند ماند

در این رویکرد، هدف درک این مطلب است که مشتری تا چه زمانی احتمال دارد باقی بماند. تخمین زمان نگهداری مشتری جزء مهمی از مدل ارزش عمر مشتری است و این تخمین می‌تواند مبنایی برای امتیاز وفاداری مشتری نیز باشد. یک مشتری وفادار کسی است که برای مدت طولانی در آینده باقی خواهد ماند، نه کسی که زمان زیادی را تا به امروز باقی مانده است.

یکی از رویکردهای مدل‌سازی طول عمر مشتری برای تخمین مدت زمان حفظ مشتری، داشتن تصاویر لحظه‌ای از گستره‌ی جمعیت مشتریان فعلی و در نظر گرفتن وضعیت آنها در ابتدای جذب شدن به سیستم است. مشکل این رویکرد این است که هرچه مشتریان با طول عمر طولانی‌تر وجود داشته باشند، شرایط متفاوت‌تری در هنگام جذب شدنشان وجود داشته است. قطعا استفاده از خصوصیات مشتری که در بیست سال پیش مشترک سیستم شده است برای پیش‌بینی این که کدام یک از مشتریان امروزی برای مدت طولانی در آینده، مشترک خدمات ما خواهند بود راه مطمئنی نیست.

پیشینه تحقیق

تحقیقات متعددی در زمینه پیش‌بینی رویگردانی مشتری انجام شده است. در این تحقیقات به دو موضوع بیشتر توجه شده است:

ساخت مدل‌های پیش‌بینی رویگردانی با کارایی و دقت بالا، در این زمینه همچنین یافتن متغیرها و ویژگی‌هایی از رفتار مشتری که می‌تواند در ساخت مدل به ما کمک کنند، مد نظر قرار گرفته شده است.
یافتن فاکتورهای تاثیرگذار بر رویگردانی مشتری، به عبارت دیگر، چه فاکتورهایی در رویگردانی مشتری تاثیر مثبت یا منفی دارند.

از آنجایی که هدف ما در این تحقیق ایجاد یک مدل پیش‌بینی رویگردانی مشتری است، در مرور ادبیات تمرکز بیشتر در تحقیقات نوع اول است. روش‌ها و تکنیک‌های متعددی از رشته‌های آمار، یادگیری ماشین و علوم کامپیوتر در ساخت مدل‌های پیش‌بینی رویگردانی مشتری به کار گرفته شده است.

تحقیقات انجام شده در خارج از کشور

دو رویکرد پایه‌ای برای حل مشکل رویگردانی مشتری وجود دارد. رویکرد مبتنی بر هدف‌گیری^[۱۴۸] و رویکرد غیرهدف‌گیری شده^[۱۴۹] (Neslin, Gupta et al. 2006) (شکل ۲-۸) . رویکردهای غیرهدف‌گیری شده متکی به تبلیغات انبوه و ویژگی‌های برتر محصول برای افزایش وفاداری نسبت به برند و حفظ مشتری است. رویکردهای مبتنی بر هدف‌گیری خیلی پیچیده هستند و متکی بر شناسایی مشتریانی است که دارای احتمال رویگردانی بالا هستند. نسلین و دیگران رویکردهای مبتنی بر هدف‌گیری را به دو زیر دسته تقسیم می‌کنند (Neslin, Gupta et al. 2006): واکنشی^[۱۵۰] و پیشگیرانه^[۱۵۱]. با اتخاذ رویکرد واکنشی شرکت منتظر می‌ماند تا مشتری با شرکت تماس بگیرد و تقاضای قطع رابطه نماید و سپس شرکت به مشتری مشوق‌هایی را برای ماندن پیشنهاد دهد. در رویکرد پیشگیرانه شرکت سعی می‌کند تا در همان ابتدا مشتریانی را که احتمال رویگردانی آنها بالا است را شناسایی کند، سپس شرکت اقدام به هدف‌گیری این مشتریان نموده و سعی می‌کند تا با پیشنهاد مشوق‌ها و اجرای برنامه‌های خاص از رویگردانی مشتری جلوگیری نماید. نسلین و دیگران اظهار کرده‌اند که رویکردهای پیشگیرانه به طور بالقوه نسبت به رویکردهای واکنشی دارای برتری هستند از این جهت که در رویکردهای پیشگیرانه میزان مشوق‌ها کمتر از رویکردهای واکنشی است.

شکل ‏۲‑۸: رویکردهای برخور با رویگردانی مشتری

اهن و دیگران به بررسی عامل‌های تعیین‌کننده رویگردانی مشتری در صنعت مخابرات کشور کره پرداخته‌اند. آنها در تحقیق خود به این نتیجه رسیده‌اند که عامل‌های رویگردانی در صنعت مخابرات کشور کره عبارت اند از (Ahn, Han et al. 2006):

نارضایتی مشتری: کیفیت سرویس عامل تعیین کننده ای در نارضایتی مشتری است.
هزینه‌های سوئیچینگ: مشتریان به دو دلیل می خواهند ارتباطشان را با شرکت حفظ کنند؛ یا حالت اجبار وجود دارد یا مشتری واقعا به شرکت وفادار است. منظور از حالت اجبار این است که هزیته‌های تغییر شرکت برای مشتری بالاست و مشتری ترجیح می‌دهد در شرکت بماند.
میزان استفاده از سرویس: الگوهای استفاده از سرویس با بهره گرفتن از سه معیار توصیف می‌شوند؛ تعداد دقایق استفاده، فرکانس استفاده، و تعداد گیرنده‌هایی که به وسیله مشترک تماس گرفته‌شده‌اند. سطح استفاده از سرویس که به طور شارژ ماهانه اندازه‌گیری می‌شود به عنوان یکی از پیش‌بینی‌کننده‌های رفتاری فرار مشتری در تحقیقات قبلی درنظر گرفته شده است. این موضوع قبلا تایید شده است که بین مقدار استفاده و رویگردانی ارتباط وجود دارد ولی اینکه آیا این ارتباط مثبت یا منفی است هنوز نامشخص است.
وضعیت مشتری: بعضی از مشتریان به طور ناگهانی شرکت را ترک نمی‌کنند در حقیقت یا به طور موقت از سرویس استفاده نمی‌کنند یا به دلیل عدم پرداخت قبوض توسط شرکت تعلیق می‌شوند. حالت‌های مشتریان به سه دسته تقسیم می‌شود: ۱-فعال،۲- تعلیق شده ، ۳-عدم استفاده.

مشتریانی که در وضعیت‌های۲ و ۳ هستند احتمال رویگردانی آنها نسبت به کسانی که در وضعیت ۱ هستند خیلی زیاد است. این تحقیق به این موضوع می‌پردازد که وضعیت مشتری نقش واسطه‌ای بین عامل‌های تعیین‌کننده رویگردانی و احتمال رویگردانی دارند. به عبارت دیگر، بعضی از این عامل‌ها ممکن است احتمال رویگردانی را به طور مستقیم یا غیر مستقیم به واسطه همین حالت‌ها تحت تاثیر قرار دهند.

لاریویری و ون دن پائل از تکنیک رندوم فارستس^[۱۵۲] و رگراسیون فارستس^[۱۵۳] به منظور ساخت مدل پیش‌بینی‌کننده رویگردانی استفاده کرده‌اند (Larivie`re and Van den Poel 2005). نتایج تحقیق آنها نشان می‌دهد که دو روش فوق بترتیب نسبت به رگرسیون لجستیک و رگرسیون خطی دارای کارایی بهتری هستند.

هانگ و دیگران از روش‌های داده‌کاوی برای مدیریت رویگردانی در صنعت مخابرات استفاده کرده‌اند (Hung, Yen et al. 2006). نتایج تحقیق آنها نشان می‌دهد که تکنیک‌های درخت تصمیم و شبکه عصبی می‌توانند مدل‌های پیش‌بینی رویگردانی دقیقی را با گرفتن داده‌های دموگرافیک، اطلاعات صورتحساب و دیگر اطلاعات مشتریان ارائه دهند. در این تحقیق، همچنین تعاریفی در مورد رویگردانی و مراحل مختلف داده کاوی آورده شده است.

سوینی و سویت در تحقیق خود به بررسی نقش برند در حفظ مشتریان می‌پردازند (Sweeney and Swait 2008). همچنین، به بررسی روابط بین اعتبار برند و فاکتورهای دیگر چون رضایتمندی و کیفیت سرویس می‌پردازند. نتایج بررسی موارد بانکی و مخابراتی نشان می‌هد که اعتبار برند نقش تدافعی دارد؛ یعنی اینکه برند به طور قابل توجهی WOM را افزایش داده و سوئیچینگ مشتریان را کاهش می‌دهد. مدل استخراج شده از روابط در شکل (۲-۹) نشان داده شده است. همانطور که در شکل می‌بینید اعتبار برند باعث ایجاد وفاداری به طور مستقیم یا غیر مستقیم می‌شود و نیز وفاداری و رضایتمندی مشتری باعث می‌شود تا تمایل به سوئچینگ مشتری کمتر شود و توصیه‌های مشتری به سایر افراد برای استفاده از سرویس‌های شرکت زیاد شود.

شکل ‏۲‑۹: روابط بین برند و سایر فاکتورها

کوزمنت و ون دن پائل، اطلاعات مربوط به ارتباط مشتریان و تعامل مشتریان با مراکز تماس را با متغیرهای رایج در پیش‌بینی رویگردانی ترکیب کرده‌اند تا بدین ترتیب بتوانند یک مدل کارا برای پیش‌بینی رویگردانی تولید کنند (Coussement and Van Den Poel 2008a). آنها پس از پردازش ایمیل‌های غیر ساخت‌یافته دریافتی از مشتریان و تبدیل به اطلاعات ساخت‌یافته، آنها را با اطلاعات تراکنش‌های مشتریان ترکیب کرده‌اند. آنها در تحقیق خود نشان می‌دهند که با افزودن اطلاعات متنی غیر ساخت‌یافته به مدل‌های پیش‌بینی رویگردانی معمول، عملکرد این مدل‌ها به میزان قابل توجهی افزایش یافته است. از نقطه نظر مدیریتی، چارچوب مجتمع شده به مدیران تصمیم‌گیرنده در بخش بازاریابی کمک می‌کند تا مشتریانی را که مستعد سوئیچ هستند بهتر شناسایی کنند. متعاقبا با پیش‌بینی دقیق اینکه کدام مشتری تمایل به ترک شرکت را دارد اقدامات نگهداری و حفظ مشتری به صورت هدفمند خواهد شد.

کوزمنت و ون دن پائل، همچنین در تحقیق دیگری قدرت پیش‌بینی تکنیک ماشین‌های بردار پشتیبان (SVM) را با رگرسیون لجستیک و نیز رندوم فارست در زمینه پیش‌بینی رویگردانی مشتری مقایسه کردند (Coussement and Van Den Poel 2008b). آنها در تحقیق خود از روش SVM با تابع کرنل RBF استفاده کرده‌اند. تابع RBF دارای دو پارامتر است؛ در این تحقیق از دو تکنیک انتخاب پارامتر برای انتخاب پارامتر هایRBF استفاده شده است. آنها در تحقیق خود به این نتیجه رسیدند که تکنیک‌های انتخاب پارامتر نقش برجسته‌ای در کارایی و دقت پیش‌بینی SVM دارد و نیز تکنیک رندوم فارست در هر صورت بهتر از SVM عمل می‌کند.

تی سای و لو از شبکه‌های عصبی مصنوعی (ANN) به منظور ساخت مدل پیش‌بینی رویگردانی مشتری استفاده کرده‌اند (Tsai and Lu 2009). آنها در تحقیق خود از رویکرد ترکیبی استفاده کردند و دو مدل ترکیبی زیر را توسعه دادند:

ANN + ANN: در این روش ANN اولی به منظور کاهش داده‌ای استفاده شده است. و دومی برای کار پیش‌بینی رویگردانی به کار برده شده است.
SOM + ANN: ابتدا خوشه‌بندی توسط روش نقشه‌های خود سازمانده (SOM) انجام می‌گیرد. دو خوشه دارای بیشترین تعداد رکورد انتخاب شده و وارد ANN برای پیش‌بینی می‌شوند.

نتایج تحقیق آنها نشان می‌دهدکه دو مدل ترکیبی ساخته شده در پیش‌بینی رویگردانی بهتر از مدل تکی شبکه‌های عصبی عمل می‌کنند. درضمن، مدل (ANN+ANN) عملکرد بهتری در پیش‌بینی نسبت به (SOM+ANN) دارد.

پندارکار برای اولین بار از شبکه عصبی مبتنی بر الگوریتم ژنتیک برای پیش‌بینی رویگردانی مشتری در سرویس‌های اشتراک بی‌سیم استفاده کرده است (Pendharkar 2009). در این تحقیق از الگوریتم ژنتیک جستجوی سراسری ابتکاری برای یادگیری وزن‌های اتصالات شبکه‌های عصبی استفاده شده است.

ونگ و دیگران با بهره گرفتن از تکنیک‌های داده‌کاوی به ایجاد یک سیستم توصیه‌گر به مشتریان پرداخته‌اند (Wang, Chiang et al. 2009). با بهره گرفتن از این سیستم دلیل رویگردانی مشتریان مشخص شده و یا به عبارت دیگر رفتارهای استفاده مشتریان رویگردان و مشتریان وفادار مورد بررسی قرار گرفته تا به موجب آنها بتوان استراتژی‌های بازاریابی مناسب جهت جلوگیری از رویگردانی مشتریان به مدیران شرکت ارائه داد.

الگوریتم‌های زیادی برای تحلیل رویگردانی وجود دارد ولی همه آنها با محدودیت‌هایی رو به رو هستند که این محدودیت‌ها به دلیل طبیعت مسئله رویگردانی به وجود می‌آیند. مسئله رویگردانی دارای سه ویژگی عمده است: ۱- داده‌ها معمولا نامتعادل هستند. ( تعداد مشتریان رویگردان خیلی کم هستند و معمولا تنها ۲ درصد از کل نمونه را در بر می‌گیرند) ۲- نویزهایی در داده‌ها وجود دارد. ۳- برای پیش‌بینی رویگردانی لازم است تا احتمال رویگردانی موجودیت‌ها را رتبه‌بندی کنیم (Xie, Li et al. 2009). زای و همکاران در تحقیق خود یک روشی به نام رندم فارست متوازن بهبودیافته^[۱۵۴] برای پیش‌بینی رویگردانی ارائه کرده‌اند. این الگوریتم روی یک مطالعه موردی بانکی پیاده‌سازی شده. نتایج نشان می‌دهد که دقت پیش‌بینی این الگوریتم نسبت به سایر الگوریتم‌های حوزه‌ی پیش‌بینی رویگردانی مانند شبکه‌های عصبی، درخت تصمیم و SVM بالاتر است. همچنین، الگوریتم نسبت به الگوریتم‌های مبتنی بر رندوم فارست مانند رندم فارست متوازن بهتر عمل می‌کند.

گلیدی و دیگران در مقاله خود وفاداری مشتری را از دیدگاه مشتری‌گرایی به جای دیدگاه محصول‌گرایی تعریف می‌کنند (Glady, Baesens et al. 2009). آنها همچنین مشتری رویگردان را به عنوان کسی که ارزش طول عمر آن در حال کاهش است تعریف می‌کنند. موضوع جدید دیگری که در این مقاله عنوان شده است این است که ضرر حاصل شده توسط کاهش CLV به عنوان ضرر حاصل از دسته‌بندی غلط مشتریان در نظر گرفته می‌شود. نتیجه نهایی که در این مقاله گرفته شده است این است که سود و منفعت تنها چیزی است که در محیط تجاری اهمیت دارد، شاخص‌های استاندارد آماری سنجش دقت و صحت پیش‌بینی بایستی تجدید نظر شده و بایستی سودگرایی در آنها دیده شود.

در حوزه ارتباطات از را ه دور، تکنیک‌های داده‌کاوی مانند درخت تصمیم ،شبکه‌های عصبی به منظور توسعه مدل‌های پیش‌بینی رویگردانی مشتری به کار رفته‌اند. با این وجود بسیاری از کارهای انجام شده صرفا کار پیش بینی را انجام داده‌اند و مرحله پیش‌پردازش از داده‌کاوی را نادیده گرفته‌اند.

تی سای و چن از ترکیب الگوریتم‌های قواعد همبستگی با الگوریتم‌های درخت تصمیم و شبکه‌های عصبی برای ساخت مدل پیش‌بینی رویگردانی استفاده کرده‌اند (Tsai and Chen 2010). روش کارشان به این صورت است که ابتدا در مرحله پیش‌پردازش با بهره گرفتن از قواعد همبستگی متغیرهای با اهمیت شناخته شده، سپس مدل پیش‌بینی رویگردانی توسط شبکه‌های عصبی و درخت تصمیم ساخته می‌شود. در این تحقیق از شاخص‌هایی در جهت ارزیابی کارایی مدل‌های ساخته شده استفاده شده است. نتیجه تحقیق نشان می‌دهد که متدهای ترکیبی قواعد همبستگی و درخت تصمیم یا شبکه‌های عصبی بهتر از متدهای تکی درخت تصمیم یا شبکه‌های عصبی عمل می‌کنند.

هوانگ و دیگران در تحقیق خود یک رویکرد انتخاب ویژگی چند هدفه را برای پیش‌بینی رویگردانی مشتریان در یک شرکت مخابراتی، بر اساس رویکرد بهینه‌سازی ^[۱۵۵]NSGA-II ارائه دادند (Huang, Buckley et al. 2010). هدف رویکردهای انتخاب ویژگی عبارتند از کاهش ویژگی‌های نا‌‌معتبر یا زاید و پیدا کردن ویژگی‌های مهم که منجر به افزایش کارایی مدل‌های داده‌کاوی می‌شود. در این تحقیق از درخت تصمیم به دلیل کارایی بالا و هزینه محاسباتی پایین به عنوان تابع برازش استفاده شده است.

کوزمنت و دیگران در مقاله خود از مدل‌های جمع‌پذیر عمومی^[۱۵۶] ( GAM) برای پیش‌بینی رویگردانی مشتری استفاده کرده‌اند (Coussement, Benoit et al. 2010). در مقایسه با رگرسیون لجستیک ، GAM محدودیت خطی بون را برداشته و اجازه می‌دهد تا رابطه بین متغیرها غیرخطی باشد. این تحقیق نشان می‌دهد که: ۱- GAM قادر به بهبود دادن تصمیم‌گیری‌های بازاریابی از طریق شناسایی مشتریان ریسک دار است. ۲- GAM خوانایی و تفسیرپذیری مدل‌های رویگردانی را با مصورسازی رابطه غیرخطی آنها نشان می‌دهد. ۳- مدیران بازاریابی می‌توانند ارزش کسب و کار خود را با بهره گرفتن از GAM در زمینه پیش‌بینی رویگردانی مشتری افزایش دهند.

هستی و تیبشیرانی اظهار کرده‌اند که روش‌های غیرپارامتریک در مواقعی که تعداد متغیرهای پیش‌بینی‌کننده بیشتر باشد بدتر عمل می‌کنند (Hastie and Tibshirani 1990)؛ برای اینکه پراکندگی داده‌ها ، واریانس تخمین‌ها را متورم می‌کند. این موضوع اغلب به عنوان مصیبت بعد یاد می‌شود. با بهره گرفتن از مدل‌های جمع‌پذیر، مشکل مصیبت بعد بر طرف می‌شود. روش GAM حداقل دو مزیت نسبت به رگرسیون لجستیک دارد: ۱- روابط غیرخطی بین داده‌ها را آشکار می‌کند. ۲- نشان داده شده است که حذف فرض خطی بودن منجر به درک صحیحی از تاثیر هر یک از متغیرهای پیش‌بینی‌کننده روی متغیر وابسته می‌شود که این موضوع به تصمیم‌گیران کمک می‌کند تا مشکل رویگردانی شرکت را به طور کامل درک کنند (Coussement, Benoit et al. 2010).

در اکثر تحقیقاتی که تاکنون در زمینه پیش‌بینی رویگردانی مشتریان صورت گرفته است، بیشتر به بالا بردن دقت و کارایی مدل‌های پیش‌بینی توجه شده است. وربک و دیگران در مقاله خود به جنبه‌های جدیدی در مورد مدل‌های پیش‌بینی رویگردانی مشتری اشاره کرده‌اند (Verbeke, Martens et al. 2011). اگرچه، این جنبه‌ها در تحقیقات قبلی به صورت تلویحی مورد توجه قرار گرفته بود ولی در این مقاله به صورت آشکار این جنبه‌ها ذکر شده‌اند. دقت پیش‌بینی^[۱۵۷]، قابلیت درک^[۱۵۸] و توجیه‌پذیری^[۱۵۹] سه جنبه کلیدی مدل‌های پیش‌بینی رویگردانی هستند. در حیطه داده‌کاوی یک مدل توجیه‌پذیر است اگر با دانش محیط کاربرد هم‌خوانی داشته باشد. یک مدل پیش‌بینی رویگردانی با دقت بالا موجب می‌شود تا مشتریان رویگردان آتی به طور درست مورد هدف کمپین‌های نگهداری قرار گیرند. در حالی که یک مجموعه قوانین قابل درک اجازه می‌دهد تا عوامل و دلایل اصلی رویگردانی مشتریان شناسایی شوند و استراتژی‌های موثر نگهداری مشتریان که مطابق با دانش حیطه باشد اتخاذ گردد.

در این تحقیق دو تکنیک جدید داده‌کاوی در زمینه پیش‌بینی رویگردانی مشتریان به کار گرفته شده است. این تکنیک‌ها عبارتند از: Ant-Miner+ و ^[۱۶۰]ALBA. روش Ant-Miner+ یک تکنیک داده‌کاوی با کارایی بالا بر اساس اصول بهینه‌سازی کلونی مورچه‌ها^[۱۶۱] است که اجازه می‌دهد تا بتوان دانش حیطه را وارد مدل کرد از طریق اعمال محدودیت‌های یکنواختی روی مجموعه قوانین نهایی. و تکنیک ALBA دقت بالای تکنیک SVM را با قابلیت درک مجموعه قوانین ترکیب می‌کند. به عبارت دیگر، ALBA یک روش استخراج مجموعه قوانین از یک مدل SVM است. نتایج مدل‌سازی‌ها نشان می‌دهد که ALBA منجر به یک مدل قابل درک با کارایی بالا می‌شود. همچنین برخلاف سایر تکنیک‌های استفاده شده در این تحقیق، Ant-Miner+ منجر به مدل‌های دقیق با قابلیت درک بالا و از همه مهم‌تر با توجیه‌پذیری بالا می‌شود. در این تحقیق از یک دیتاست عمومی استفاده شده است.

روش‌های فازی و نروفازی نیز در سال‌های اخیر به صورت خیلی کم در زمینه پیش‌بینی رویگردانی مشتریان کاربرد داشته‌اند. مطالعات ما در این زمینه نشان می‌دهد که تنها در دو مقاله از این روش‌ها استفاده شده است. قربانی و دیگران در تحقیق خود برای اولین بار از روش درخت مدل خطی محلی^[۱۶۲] در پیش‌بینی رویگردانی مشتریان استفاده کرده‌اند (Ghorbani, Taghiyareh et al. 2009)؛ که این روش مزایای شبکه‌های عصبی، مدل درختی و مدل‌سازی فازی را به صورت یکجا دارد. نتایج تحقیق آنها نشان می‌دهد که این متد در مقایسه با متدهایی نظیر شبکه‌های عصبی، درخت تصمیم و رگرسیون لجستیک، کارایی پیش‌بینی را به میزان قابل توجهی بالا می‌برد.

تحقیق دیگر در این زمینه مربوط به مقاله‌ی کاراهکا و کاراهکا است (Karahoca and Karahoca 2011). آنها در مقاله خود ابتدا از روش خوشه‌بندی فازی C-means برای خوشه‌بندی مشتریان یک شرکت مخابراتی استفاده کرده و با انجام این کار به هر مشتری یک برچسب یا ویژگی جدید نسبت دادند. سپس، از تکنیک سیستم استنتاج فازی عصبی تطبیقی^[۱۶۳] به منظور پیش‌بینی رویگردانی مشتریان استفاده کرده‌اند. تکنیک ANFIS دقت سیستم‌های دسته‌بندی مبتنی بر فازی را با خاصیت تطبیق‌پذیری (پیش انتشار) شبکه‌های عصبی ترکیب می‌کند. بر اساس نتایج تحقیق، آنها اظهار کرده‌اند تکنیک ANFIS می‌تواند به عنوان یک تکنیک جایگزین تکنیک‌های فعلی در فعالیت‌های کنونی CRM از جمله پیش‌بینی رویگردانی مشتریان استفاده شود.

تحقیقات انجام شده در داخل کشور

گسترش علم داده‌کاوی و افزایش توانایی تکنیک‌های داده‌کاوی در صنایع مختلف کشور از یک طرف، و اهمیت مسئله رویگردانی مشتری در نرخ نگهداری مشتری در یک بازار رقابتی برای سیستم‌های CRM از طرف دیگر موجب شده است تا در دهه اخیر تحقیقاتی در مورد پیش‌بینی رویگردانی مشتری با بهره گرفتن از داده‌کاوی در داخل کشور انجام پذیرد. در ادامه به مواردی از این تحقیقات اشاره خواهیم کرد.

(کرامتی, اردبیلی et al. 1388) در مقاله خود با بهره گرفتن از روش‌های داده‌کاوی به تحلیل رویگردانی مشتری در یکی از اپراتورهای تلفن همراه ایران پرداختند. آنها از تکنیک رگرسیون لاجستیک دوجمله‌ای^[۱۶۴] استفاده کردند و نشان دادند که نارضایتی مشتری، میزان استفاده از خدمات ارائه شده و نیز مشخصه‌ های دموگرافیک مشترک مهم‌ترین تأثیر را بر تصمیم او مبنی بر رویگردانی یا ماندگاری دارند. آنها همچنین به بررسی اثر واسطه‌ای وضعیت مشتری (وضعیت فعال یا غیر فعال) در رویگردانی نیز پرداخته‌اند.

(توکلی, مرتضوی et al. 1389) با بکارگیری تکنیک درخت تصمیم به پیش‌بینی رویگردانی مشتری در صنعت بیمه پرداخته‌اند. آنها در تحقیق خود از فرایند استاندارد داده‌کاوی CRISP – DM استفاده کردند و به کاوش در پایگاه‌های داده یکی از شرکت‌های سهامی عام بیمه‌ای در بیمه آتش‌سوزی پرداختند.

چنانچه پیش‌تر نیز ذکر شد، بیشتر تحقیقات به ارائه مدل‌هایی جهت پیش‌بینی رویگردانی مشتری پرداخته‌اند و کمتر علل رویگردانی را مورد مطالعه قرار داده‌اند. (سپهری, نوروزی et al. 1390) با ترکیب روش‌های داده‌کاوی و تحقیق پیمایشی به کشف دلایل رویگردانی مشتری از خدمات بانکداری پرداخته‌اند. در این تحقیق تلاش شده است تا با بهره‌گیری از تحقیق پیمایشی پرسشنامه محور نظریات مشتریان در خصوص سطوح رضایتمندی و مولفه‌های تاثیرگذار بر رویگردانی مشتری ارزیابی شود و از نتایج آن برای تحلیل تاثیر عوامل مختلف بر رویگردانی بهره گرفته‌اند.

(عباسی‌مهر ۱۳۹۰) در پایان نامه‌ی خود مدلی برای پیش‌بینی رویگردانی مشتریان با ارزش در بخش خدمات ارائه داده است. وی با بهره گرفتن از داده‌های مربوط به صنعت مخابرات، ابتدا با بهره گرفتن از تکنیک‌های خوشه‌بندی مشتریان با ارزش را شناسایی کرده و سپس بوسیله تکنیک ANFIS و ترکیب آن با الگوریتم بهینه‌سازی اجتماع مورچگان، به پیش‌بینی رویگردانی مشتریان باارزش پرداخته است.

خلاصه تحقیقات انجام شده

ویژگی‌هایی که تحقیقات انجام شده مربوط به ساخت مدل‌های پیش‌بینی رویگردانی مشتریان دارند عبارتند از:

در هر تحقیق از یک یا چند دیتاست عمومی یا خصوصی استفاده شده است.
تکنیک‌های به کارگرفته شده برای پیش‌بینی رویگردانی مشتریان متنوع هستند و هیچ تکنیکی برای همه مسائل و دیتاست‌ها بهتر از سایر تکنیک‌ها عمل نمی‌کند. برای مثال نتایج یک تحقیق نشان داده است که شبکه عصبی بهتر از درخت تصمیم عمل کرده است در حالی که نتایج تحقیق دیگر نشان داده است که درخت تصمیم بهتر از شبکه عصبی عمل کرده است. شاید دلیل این امر به ماهیت مسئله برگردد زیرا اساسا مسئله پیش‌بینی رویگردانی مشتریان یک مسئله دسته بندی است و از تکنیک‌های داده‌کاوی برای ساخت مدل پیش‌بینی استفاده می‌شود. در داده‌کاوی هیچ تکنیک دسته‌بندی نمی‌توان یافت که در همه شرایط و دیتاست‌ها بهتر از سایر تکنیک‌ها عمل کند (Han, Kamber et al. 2011).
در بیشتر تحقیقات، تکنیک‌های استفاده شده فقط روی یک دیتاست اعمال شده‌اند و کارایی تکنیک‌ها روی دیتاست‌های متعدد تست نشده است. حتی در مواردی که یک تکنیک پیش‌بینی جدید توسعه داده شده است، کارایی آن فقط روی یک دیتاست تست شده است.
در اکثر تحقیقات انجام شده فقط کارایی تکنیک‌ها از لحاظ معیارهای دقت پیش‌بینی و قابلیت درک ارزیابی شده است. معیارهای دیگر نظیر سرعت محاسباتی (پیچیدگی زمانی) و مسائل مربوط به حافظه زیاد مورد توجه قرار نگرفته‌اند. با توجه به افزایش داده‌های مربوط به مشتریان و حجیم شدن پایگاه داده‌های مربوط به مشتریان توجه به این معیارها امری اجتناب ناپذیر است.
تحقیقات انجام شده در این زمینه، هر کدام مربوط به یک صنعت خاص هستند.
در بیشتر تحقیقات انجام شده از تکنیک‌های مربوط به داده‌کاوی استفاده شده است.
در بیشتر تحقیقات ارزش مشتری مورد توجه نبوده و فقط رویگردانی مشتریان بدون توجه به ارزش آنها مد نظر بوده.

در جدول (۲-۴) خلاصه‌ای از تحقیقات انجام شده در زمینه ساخت مدل‌های پیش‌بینی رویگردانی مشتریان آورده شده است. در این جدول ویژگی‌های مربوط به این تحقیقات از قبیل نوع تکنیک‌های به کار گرفته شده در آنها، دیتاست‌ها و نیز صنعت یا سرویسی که تحقیق در آن صورت گرفته است آورده شده.

جدول ‏۲‑۴ :خلاصه سابقه تحقیق

ردیف	عنوان	نویسنده یا نویسندگان	سال	تکنیک‌ها	صنعت، عمومی (۱) یا خصوصی (۲) بودن داده‌ها
۱	کاربرد الگوریتم C4.5 برای ساخت مدل پیش‌بینی رویگردانی با بهره گرفتن از تعداد ویژگی‌های محدود	وی و چیو^[۱۶۵]	۲۰۰۲	درخت تصمیم C4.5	مخابرات بی‌سیم، (۲)
۲	استفاده از مدل پیش‌بینی رویگردانی به عنوان بخشی از مدل ارزش طول عمر مشتری	ونگ و همکاران	۲۰۰۴	رگرسیون لجستیک، درخت تصمیم، شبکه عصبی	مخابرات بی‌سیم، (۲)
۳	مقایسه تکنیک‌ها برای پیش‌بینی فرار نا تمام^[۱۶۶] در یک محیط غیرقراردادی^[۱۶۷]	بوکینکس و ون دن پائل	۲۰۰۵	رگرسیون لجستیک، شبکه‌عصبی، رندوم فارستس	خرده فروشی (۲)
۴	بررسی متغیرهای توصیفی و متدهای مدل‌سازی در پیش‌بینی رویگردانی مشتریان	لاریویری و ون دن پائل	۲۰۰۵	رگرسیون لجستیک و خطی، رندوم فارستس	مالی (۲)
۵	مقایسه تطبیقی و به کارگیری متدهای مدل‌سازی پیش‌بینی رویگردانی	هانگ و همکاران	۲۰۰۶	درخت تصمیم، شبکه عصبی	مخابرات بی‌سیم، (۲)
۶	کاربرد تکنیک‌های bagging و Boosting برای افزایش کارایی تکنیک‌های پیش‌بینی رویگردانی مشتریان	لمنس و کروکس	۲۰۰۶	رگرسیون لجستیک، درخت تصمیم	مخابرات بی‌سیم، (۱)
۷	توسعه مدل‌های پیش‌بینی رویگردانی و تست آنها در یک کمپین نگهداری واقعی	بورز^[۱۶۸] و ون دن پائل	۲۰۰۷	رگرسیون لجستیک (با زنجیره مارکوف)، رندوم فارستس	سرویس Pay-TV (۲)
۸	کاربرد تکنیک ماشین بردار پشتیبان در پیش‌بینی رویگردانی مشتریان در یک سرویس اشتراک روزنامه	کوزمنت و ون دن پائل	۲۰۰۸	رگرسیون لجستیک، ماشین بردار پشتیبان، رندوم فارستس	سرویس اشتراک روزنامه (۲)
۹	مطالعه متدهای نمونه برداری، متد و معیار‌های ارزیابی و تکنیک‌های مدل‌سازی	بورز و ون دن پائل	۲۰۰۹	رگرسیون لجستیک، Boosting، رندوم فارستس	بانک، مخابرات، اشتراک روزنامه، pay TV – خرده‌‎فروشی سوپرمارکت
۱۰	گنجاندن دانش محیط کاربرد در مدل‌های پیش‌بینی رویگردانی	لیما و همکاران	۲۰۰۹	رگرسیون لجستیک، درخت تصمیم	مخابرات بی‌سیم (۱)
۱۱	کاربرد دو شبکه عصبی مبتنی بر الگوریتم ژنتیک در زمینه پیش‌بینی رویگردانی	پندارکار	۲۰۰۹	شبکه عصبی مبتنی بر الگوریتم ژنتیک	مخابرات بی‌سیم (۱)
۱۲	توسعه یک تکنیک جدید به نام رندوم فارستس متوازن بهبود یافته در پاسخ به برخی محدودیت‌های مسائل پیش‌بینی رویگردانی	زای و همکاران	۲۰۰۹	شبکه عصبی، درخت تصمیم، SVM ، رندوم فارستس متوازن بهبود یافته	بانک (۲)
۱۳	توسعه دو مدل ترکیبی به منظور پیش‌بینی رویگردانی مشتریان	تی سای و لو	۲۰۰۹	شبکه عصبی، نقشه‌های خود سازمانده	مخابرات (۱)
۱۴	استفاده از مفهوم طول عمر مشتری برای تعریف مشتریان رویگردان و توسعه مدل‌های پیش‌بینی رویگردانی و ارزیابی آنها به وسیله یک معیار ارزیابی توسعه داده شده که معیار سود و زیان را درنظر می‌گیرد	گلیدی و همکاران	۲۰۰۹	رگرسیون لجستیک، شبکه‌های عصبی، درخت تصمیم، تکنیک توسعه داده شده به نام Ada Cost	بانک (۲)
۱۵	به کارگیری مدل‌های جمع‌پذیر عمومی در پیش‌بینی رویگردانی مشتریان	کوزمنت و همکاران	۲۰۱۰	رگرسیون لجستیک، GAM	اشتراک روزنامه (۲)
۱۶	کاربرد NSGA-II برای انتخاب ویژگی‌ها بهینه در پیش‌بینی رویگردانی مشتریان	هوانگ و همکاران	۲۰۱۰	درخت تصمیم	مخابرات (۲)
۱۷	استفاده از تکنیک‌های داده‌کاوی به منظور ساخت مدل‌های پیش‌بینی رویگردانی مشتریان و با تاکید بر مرحله پیش پردازش داده‌ها	تی سای و چن	۲۰۱۰	قوانین تلازمی، درخت تصمیم، شبکه عصبی	تقاضا (۲)
۱۸	توسعه تکنیک SVM توسعه یافته که نامتعادل بودن داده‌ها را در نظر می‌گیرد	یو و همکاران	۲۰۱۰	شبکه عصبی، SVM، SVM توسعه یافته	وب سایت تجارت الکترونیکی (۲)
۱۹	ارائه سیستمی برای مدیریت رویگردانی بر اساس تکنیک‌های خوشه‌بندی فازی و سیستم استنتاج فازی عصبی تطبیقی	کاراهکا و کاراهکا	۲۰۱۱	Fuzzy C-means، ANFIS، درخت تصمیم	مخابرات (۲)
۲۰	کاربرد دو تکنیک جدید داده‌کاوی به نامهای Antminer+ و ALBA برای پیش‌بینی رویگردانی مشتریان	وربک و همکاران	۲۰۱۱	Antminer+، ALBA،SVM، درخت تصمیم، رگرسیون لجستیک	مخابرات (۱)
۲۱	تحلیل رویگردانی مشتریان، بررسی وضعیت یکی از اپراتورهای تلفن همراه ایران با کمک روش‌های داده‌کاوی	عباس کرامتی و همکاران	۱۳۸۸	رگرسیون لاجستیک دو سطحی	مخابرات (۲)
۲۲	به کارگیری فرایند داده‌کاوی برای پیش‌بینی الگوهای رویگردانی مشتری در بیمه	احمد توکلی و همکاران	۱۳۸۹	درخت تصمیم	بیمه (۱)
۲۳	کشف دلایل رویگردانی مشتری از خدمات بانکداری با ترکیب روش‌های داده‌کاوی و تحقیق پیمایشی	محمد مهدی سپهری و همکاران	۱۳۹۰	درخت تصمیم، k-means	بانک (۱)
۲۴	مدل پیش‌بینی رویگردانی مشتریان با ارزش در بخش خدمات	حسین عباسی‌مهر	۱۳۹۰	ANFIS k-means cAnt-miner	مخابرات (۲)

جمع‌بندی

چنانچه ذکر شد در اکثر این تحقیقات، مدل ارائه شده فقط بر روی یک پایگاه داده پیاده‌سازی شده است. همچنین، هیچ یک از این تحقیقات به بررسی تکنیک سیستم چند دسته‌بند (MCS) بر دقت پیش‌بینی رویگردانی نپرداخته‌اند. از طرف دیگر، فقط یک تحقیق علاوه بر پیش‌بینی رویگردانی مشتری به ارزش مشتریان نیز توجه داشته؛ بطوری که ابتدا مشتریان با ارزش را مشخص کرده و سپس به پیش‌بینی رویگردانی در میان آنها پرداخته است.

ما در این تحقیق، ابتدا با بهره گرفتن از MCS پیشنهادی به پیش‌بینی رویگردانی مشتریان پرداخته‌ایم. در MCS پیشنهادی سعی شده است از تکنیک‌هایی استفاده شود که در تحقیقات مذکور به کار رفته‌اند؛ همچنین ساختار این سیستم با بهره گرفتن از الگوریتم ژنتیک چندبعدی بهینه‌سازی شده است که در هیچ یک از تحقیقات گذشته چنین اقدامی انجام نشده بود. این مدل علاوه بر این که بر روی پایگاه داده اپراتور تلفن همراه تالیا پیاده‌سازی می‌شود، بر روی پایگاه داده مرتبط به دانشگاه دوک نیز پیاده‌سازی خواهد شد و نتایج به دست آمده با یکدیگر مقایسه خواهند شد. پس از این که مشتریان مستعد رویگردانی شناسایی شدند، با بهره گرفتن از ابزار داده‌کاوی به شناسایی مشتریان با ارزش از میان آنها خواهیم پرداخت تا سازمان با تمرکز بیشتر بر روی مشتریان کلیدی، به اتخاذ رویکرد بازاریابی مناسب جهت جلوگیری از رویگردانی این مشتریان بپردازد.

اپراتور تلفن همراه تالیا

شرکت تالیا به عنوان اولین شبکه مستقل پیش پرداخت^[۱۶۹] تلفن همراه از سال ۱۳۸۳ با بهره گرفتن از تجهیزات سخت افزاری و نرم افزاری شرکت های زیمنس، آلکاتل و اریکسون و با مشاوره یکی از برجسته ترین مشاوران GSM در دنیا (شرکت Tel 2 ) آغاز به کار کرد. این شرکت که توسط مجتمع صنعتی رفسنجان تاسیس گردید، به طور رسمی از سوم خرداد ۱۳۸۴ ابتدا در تهران و به تدریج در سایر شهرها و مراکز استان‌ها سرویس‌دهی خود را آغاز کرده و تاکنون ادامه دارد.

شرکت تعاونی مجتمع صنعتی رفسنجان اولین عرضه‌کننده سیم‌کارت‌های اعتباری در کشور پس از گذشت هفت سال از شروع به کار رسمی، نزدیک به ۲۰۰ هزار مشترک دارد. تعاونی مجتمع صنعتی رفسنجان ، در آغاز سال ۱۳۹۱ تمام سهام خود و اجرای پروژه تالیا را به شرکت جدیدالتاسیسی به نام ” گسترش ارتباطات تالیا ” واگذار کرد از این پروژه بیرون رفت. تالیا پس از تغییر و تحولات مدیریتی‌اش، فعالیت‌های بازاریابی خود را به طور محسوسی افزایش و بهبود داده است و تلاش دارد تا خاطره خوش و لذت استفاده از خدمات تالیا را در بین مردم مجدداً زنده نماید.

فصل سوم:

مدل پیشنهادی

مقدمه

در این تحقیق، پیش‌بینی رویگردانی مشتریان و شناسایی مشتریان با ارزش از میان آنها برای مشتریان تلفن همراه در صنعت مخابرات مورد توجه قرار گرفته است. این هدف طی یک فرایند دو مرحله‌ای با بهره گرفتن از تکنیک‌های داده‌کاوی مدل‌سازی شده است. در این فصل، ابتدا ساختار کلی مدل پیشنهادی معرفی می‌شود؛ سپس نحوه پیاده‌سازی هر یک از مراحل مدل پیشنهادی در بخش‌های جداگانه‌ای توضیح داده شده است.

روش تحقیق

روش‌های استفاده شده برای تجزیه و تحلیل داده‌ها در این تحقیق به قرار زیر است:

استفاده از سیستم چند دسته‌بند (MCS) برای پیش‌بینی رویگردانی مشتری
استفاده از الگوریتم ژنتیک چند بعدی برای بهینه‌سازی ساختار MCS
استفاده از نرم‌افزار SPSS Clementine برای پیش‌پردازش داده‌ها
استفاده از نرم‌افزار MATLAB برای پیاده‌سازی مدل‌های پیشنهادی
استفاده از تکنیک خوشه‌بندی SOM برای شناسایی مشتریان با ارزش

ساختار کلی مدل

شکل ۳-۱ شمای کلی از ساختار مدل پیشنهادی را نشان می‌دهد. چنانچه در شکل نیز مشخص است، مدل پیشنهادی این تحقیق از یک ساختار دو مرحله‌ای تشکیل شده است.

شکل ‏۳‑۱: ساختار کلی مدل پیشنهادی

در فاز اول، مشتریانی که به احتمال زیاد رویگردان خواهند بود شناسایی می‌شوند. در این فاز با بهره گرفتن از داده‌های مشتریان پیشین، به ایجاد یک مدل داده‌کاوی می‌پردازیم. داده‌های پیشین که جمعیتی از مشتریان را در یک بازه زمانی توصیف می‌کند، با برچسبی^[۱۷۰] که نشان می‌دهد آیا مشتری در زمان‌های بعدی فعال بوده یا نه ترکیب می‌شوند. وظیفه مدل‌سازی، ایجاد تمایز بین مشتریانی است که مانده‌اند و آنهایی که رفته‌اند. در این فاز سعی شده است که از ابزاری مانند شبکه‌های عصبی، سیستم چند دسته‌بند^[۱۷۱] (MCS) و الگوریتم ژنتیک برای ارائه یک مدل دسته‌بندی استفاده شود.

فاز دوم شامل شناسایی مشتریان با ارزش از میان مشتریانی است که در فاز اول به عنوان رویگردان شناسایی شده‌اند. در این مرحله، مدل‌سازی فقط بر روی داده‌های مشتریان رویگردان انجام خواهد گرفت؛ بدین گونه که با بهره گرفتن از تکنیک SOM، با توجه به معیارهای ارزش‌گذاری، این مشتریان را خوشه‌بندی می‌کنیم و خوشه‌ای را که شامل مشتریان با ارزش است مورد توجه قرار می‌دهیم.

فاز اول: پیش‌بینی رویگردانی مشتری

داده‌کاوی برای پیش‌بینی رویگردانی مشتری با بهره گرفتن از داده‌های پیشین مشتریان ابزار متنوعی را در اختیار قرار داده است. با توجه به این که در این فاز با یک مسئله داده‌کاوی هدایت شده سر و کار داریم، مسئله پیش‌بینی رویگردانی مشتری قابل تبدیل به یک مسئله دسته‌بندی است؛ بدین گونه که با داشتن داده‌های مشتریان به همراه برچسب رویگردان و غیر رویگردان، با ارائه یک مدل دسته‌بندی به دنبال ایجاد تمایزی بین مشتریان این دو کلاس هستیم.

چنانچه ذکر شد، ابزار متنوعی برای حل یک مسئله دسته‌بندی در داده‌کاوی وجود دارد. این تنوع ابزار محققین را بر آن داشته است که به طراحی سیستم‌های ترکیبی و هیبرید روی آورند. از جمله سیستم‌های ترکیبی می‌توان به سیستم چند دسته‌بند اشاره کرد و همچنین از جمله ابزاری که در سیستم‌های هیبرید به فراوان استفاده شده است الگوریتم ژنتیک است. در ادامه، مدل هیبرید طراحی شده برای این فاز توضیح داده می‌شود.

مدل پیشنهادی

از آنجایی که تمامی داده‌های ورودی باید به تمامی دسته‌بندها معرفی شوند تا نتایج هر یک از دسته‌بندها مشخص شود، از ساختار موازی MCS برای پیش‌بینی رویگردانی مشتری در فاز اول استفاده شده است. در طراحی این سیستم در بخش گروه دسته‌بندها، سعی کرده‌ایم از ابزار و تکنیک‌هایی استفاده کنیم که کاربرد گسترده‌ای در پیش‌بینی رویگردانی مشتری داشته‌اند. پس از مرور ادبیات، تکنیک‌های درخت تصمیم (DT)، ماشین بردار پشتیبان (SVM)، k – نزدیک‌ترین همسایه (KNN)، تحلیل تفکیک‌کننده^[۱۷۲] (DA) و بیز ساده‌لوحانه (NB) انتخاب شدند. همچنین در انتخاب این دسته‌بندها از تنوعی استفاده کردیم که هر دسته‌بند نقطه قوت خاصی داشته باشد:

تکنیک SVM: بیشترین حاشیه اطمینان بین دسته‌ ها را فراهم می‌آورد و در مقابله با مشاهدات جدید انعطاف‌پذیرتر است (Auria and Moro 2008).
درخت تصمیم: به دلیل ساختار غیر پارامتریک خود موجب دسته‌بندی سریع نمونه‌های آموزشی می‌گردد. همچنین قادر به شناسایی ویژگی‌های مهم داده‌ها است (Mitra and Acharya 2003).
تکنیک KNN: برای دسته‌بندی نمونه‌های آموزشی از حافظه استفاده می‌کند و در کار با داده‌های با حجم متوسط دارای سرعت بهتری نسبت به تکنیک‌های دیگر است(Bishop 1995).
تکنیک DA: قادر است تعیین کند که کدام متغیر پیشگو به متغیر هدف مرتبط است (Hu 2011).
تکنیک NB: بر اساس قوانین احتمال بیز کار می‌کند و در صورت وجود شرط استقلال متغیرها از یکدیگر، در مجموعه داده‌های بزرگ دارای سرعت و دقت بالایی است (Bishop 2006).

ساختار کلی MSC پیشنهادی در شکل ۳-۲ نشان داده شده است.

شکل ‏۳‑۲: ساختار کلی سیستم چند دسته‌بند

از آنجایی که در فاز اول با یک مسئله دسته‌بندی دو کلاسه سروکار داریم و همچنین قدرت دسته‌بندهای استفاده شده متفاوت است، در طراحی بخش تابع ترکیب، از رویکرد رای اکثریت^[۱۷۳] به گونه‌ای استفاده کردیم که تکنیک دسته‌بند با دقت بیشتر، حق بیشتری در رای‌گیری داشته باشد. به عبارت دیگر، از رای‌گیری موزون به جای رای اکثریت استفاده شده است. بنابراین، فرمول زیر نشان دهنده تابع ترکیب رای‌گیری موزون است (Ruta and Gabrys 2000).

که در آن N تعداد دسته‌بندها، lb خروجی هر دسته‌بند و w وزنی است که به هر دسته‌بند اختصاص داده شده است. پس از طراحی ساختار کلی سیستم، برای رسیدن به ساختار بهینه در این سیستم از الگوریتم ژنتیک استفاده کردیم.

بکارگیری الگوریتم ژنتیک در سیستم چند دسته‌بند پیشنهادی

در بکارگیری الگوریتم ژنتیک تلاش کرده‌ایم به طور همزمان سه بخش از ساختار مدل پیشنهادی را بهینه کنیم. این سه بخش عبارتند از:

انتخاب ویژگی^[۱۷۴] در بخش پایگاه داده
انتخاب دسته‌بند در بخش گروه دسته‌بندها
انتخاب وزن‌های بهینه در تابع ترکیب رای‌گیری موزون

در شکل ۳-۳ بخش‌هایی از ساختار مدل پیشنهادی که توسط الگوریتم ژنتیک بهینه می‌شوند مشخص شده است.

شکل ‏۳‑۳: ساختار مدل پیشنهادی برای فاز اول

ساختار پاسخ:

برای پیاده‌سازی این مسئله از نرم‌افزار MATLAB استفاده کردیم. در این مسئله نیاز است که از الگوریتم ژنتیک چند بعدی^[۱۷۵] استفاده کنیم. در الگوریتم ژنتیک چند بعدی، کروموزوم‌ها به جای آرایه‌های یک بعدی به صورت ساختارهای چند بعدی به گونه‌ای طراحی می‌شوند که در هر بعد بخشی از مسئله بهینه‌سازی می‌شود. با توجه به این که در مسئله ما سه بخش از ساختار به صورت همزمان بهینه می‌شوند، نیاز است کروموزوم‌ها به صورت مکعب‌های سه بعدی پیاده‌سازی شوند.

می‌توان برای راحتی پیاده‌سازی و همچنین درک بهتر مسئله از یک آرایه سه بخشی به عنوان جایگزینی برای مکعب استفاده کرد. شکل ۳-۴ ساختار این کروموزوم را نشان می‌دهد. در این ساختار، بخش اول که شامل ژن‌های باینری است بیان‌کننده ویژگی‌های انتخاب شده از داده‌های مسئله است. طول این بخش از کروموزوم به اندازه تعداد تمام ویژگی‌های موجود در پایگاه داده است و مقدار یک برای هر ژن به معنی انتخاب آن ویژگی و مقدار صفر به معنی عدم انتخاب آن ویژگی برای مسئله دسته‌بندی است. بخش دوم کروموزوم نیز از ژن‌های باینری تشکیل شده است و دسته‌بندهای انتخاب شده را تعیین می‌کند. طول این بخش از کروموزوم نیز به اندازه تعداد دسته‌بندهای استفاده شده در مسئله است و مانند آنچه در بخش اول داشتیم، مقدار یک برای هر ژن نشان دهنده انتخاب آن دسته‌بند و مقدار صفر به معنی عدم انتخاب دسته‌بند مربوطه برای حل مسئله است. بخش سوم، وزن دسته‌بندها را برای استفاده در تابع ترکیب رای‌گیری موزون نشان می‌دهد. طول این بخش از کروموزوم به اندازه طول بخش دوم یعنی به اندازه تعداد دسته‌بندهای استفاده شده در مسئله است.

شکل ‏۳‑۴: ساختار کروموزوم سه بعدی

عملگرهای الگوریتم ژنتیک:

تقاطع: برای پیاده‌سازی عملگر تقاطع از ماسک تقاطع^[۱۷۶] به گونه‌ای استفاده کردیم که بخش‌های باینری بصورت تک نقطه‌ای تقاطع شوند و در بخش وزن‌ها عملگر تقاطع حسابی^[۱۷۷] اعمال شود.
جهش: در پیاده‌سازی عملگر جهش تفاوت بین جهش باینری و حسابی در نظر گرفته شده است.
انتخاب: در انتخاب والدین از تکنیک چرخ رولت به گونه‌ای استفاده کردیم که احتمال انتخاب هر عضو برابر باشد. به عبارت دیگر از روش انتخاب تصادفی استفاده شده است.

تابع برازندگی:

تابع برازندگی این الگوریتم ژنتیک را برابر با دقت سیستم چند دسته‌بند قرار داده‌ایم. برای محاسبه دقت دسته‌بندی، روش ماتریس آشفتگی^[۱۷۸] را بکار گرفته‌ایم؛ این روش با بهره گرفتن از ماتریس آشفتگی که در جدول ۳-۱ نشان داده شده است دقت پیش‌بینی را محاسبه می‌کند.

جدول ‏۳‑۱ :ماتریس آشفتگی

کلاس پیش‌بینی شده
غیر رویگردان	رویگردان		کلاس واقعی
FP	TP	رویگردان
TN	FN	غیر رویگردان

با توجه به ماتریس آشفتگی سه معیار زیر برای دقت دسته‌بند قابل محاسبه است:

در این پروژه ما دقت Total Accuracy را به عنوان مقدار تابع برازندگی در نظر گرفته‌ایم.

معیار توقف: الگوریتم به تعداد مشخص ۵۰ مرتبه تکرار می‌شود.

دیگر پارامترهای الگوریتم ژنتیک بر مبنی روش آزمون و خطا تنظیم شدند که به قرار زیر است:

اندازه جمعیت: ۵۰ عضو
تعداد تکرار: ۵۰ مرتبه
احتمال تقاطع: ۸۰ درصد
احتمال جهش: ۲۰ درصد
انتخاب والدین: تصادفی
انتخاب جمعیت اولیه: تصادفی

الگوریتم ژنتیک فوق برای بهینه‌سازی ساختار مدل پیشنهادی فاز اول برای پیش‌بینی رویگردانی مشتری در صنعت مخابرات، بر روی دو مجموعه داده متفاوت اعمال شد. در ادامه توضیحی از داده‌های استفاده شده در مسئله آورده شده است.

داده‌ها

در این تحقیق برای پیش‌بینی رویگردانی مشتریان در صنعت مخابرات از دو مجموعه داده متفاوت استفاده کرده‌ایم. مجموعه اول، داده‌های مربوط به شرکت تالیا یکی از اپراتورهای تلفن همراه داخل کشور است؛ در حالی که مجموعه دیگر داده‌های مسابقات مدل‌سازی رویگردانی است که در سال ۲۰۰۳ در دانشگاه دوک در دورهام برگذار شده است. اگرچه هر دو پایگاه داده مربوط به مشتریان تلفن همراه در صنعت مخابرات هستند ولی تفاوت‌هایی دارند که پس از معرفی هر دو مجموعه داده نمایان می‌شوند.

داده‌های اپراتور تالیا

این مجموعه داده شامل اطلاعات مربوط به ۳۱۵۰ مشتری است که در یک دوره زمانی ۱۲ ماهه از آغاز شهریور ۱۳۸۶ تا پایان مرداد ۱۳۸۷ به تفکیک ماه جمع‌ آوری شده است. این مشتریان از میان گروهی انتخاب شده‌اند که حداقل در ۲ ماه اول دوره مورد بررسی اقدام به رویگردانی نکرده باشند؛ بدین ترتیب این مجموعه داده فاقد مقادیر گمشده خواهد بود. پایگاه داده بدست آمده دارای ۱۱ ویژگی با شرح زیر است:

Call Failure: تعداد تماس‌های بی‌نتیجه.
Complains: شکایات داشتن مشترک از اپراتور.
Subscription Length: طول دوره ارتباط با اپراتور.
Charge Amount: میزان اعتبار شارژ شده توسط مشترک.
Seconds of Use: طول زمان مکالمات انجام شده.
Frequency of Use: تعداد تماس‌های گرفته شده توسط مشترک.
Frequency of SMS: تعداد پیامک‌های ارسالی.
Distinct Called Numbers: تعداد شماره‌های متفاوتی که مشترک با آنها تماس گرفته است.
Age Group: گروه سنی (۱= کمتر از ۱۵ سال، ۲= بین ۱۵ و ۳۰ سال، ۳= بین ۳۰ و ۴۵ سال، ۴= بین ۴۵ و ۶۰ سال، ۵= بالاتر از ۶۰ سال).
Tariff Plan: نوع طرح خدماتی مورد استفاده (۱= دارای اینترنت، ۰= فاقد اینترنت)
Status: وضعیت مشترک (۱= فعال، ۲= غیر فعال).

این مجموعه داده همچنین دارای برچسب رویگردانی برای تمامی متشریان مورد بررسی است. منظور از مشتری رویگردان کسی است که در طول دوره مورد بررسی به فروش و واگذاری سیم‌کارت خود به شخص دیگر مبادرت ورزیده است.

داده‌های مسابقات مدل‌سازی رویگردانی دانشگاه دوک

دانشگاه دوک در سال ۲۰۰۳ مسابقه‌ای را در بخش CRM خود تحت عنوان مسابقات مدل‌سازی رویگردانی^[۱۷۹] تدارک می‌بیند. داده‌های این مسابقه به صنعت بی‌سیم شرکت مخابرات مربوط می‌شود و شامل حجم بالایی از اطلاعات جامعی در مورد تعداد زیادی از مشتریان است. این اطلاعات جامع شامل ۱۷۱ ویژگی برای هر مشترک است. در این مجموعه داده نیز مشتریان از میان کسانی انتخاب شده‌اند که حداقل ۶ ماه در شرکت بوده‌اند. مشتریان در طول ماه‌های جولای، سپتامبر و نوامبر سال ۲۰۰۱ و ژانویه سال ۲۰۰۲ نمونه‌برداری شده‌اند. برای هر مشتری، ویژگی‌ها و یا به عبارت دیگر متغیرهای پیشگو بر مبنای ۴ ماه گذشته محاسبه شده‌اند. در این مجموعه داده، مشتری رویگردان به کسی گفته می‌شود که در دوره ۳۱ تا ۶۰ روز پس از انتخاب شرکت را ترک کرده باشد.

به دلیل تعداد بسیار زیاد ویژگی‌ها و نمونه‌ها و همچنین وجود مقادیر گم شده در میان داده‌ها لازم است قبل از استفاده از داده‌ها، اقدامات پیش‌پردازش بر روی داده‌ها انجام شود.

پیش‌پردازش

اقداماتی که در مرحله پیش‌پردازش برای آماده‌سازی داده‌ها لازم است انجام شود به قرار زیر است:

انتخاب نمونه^[۱۸۰]: به دلیل تعداد بیش از اندازه نمونه‌ها در این پایگاه داده و برای جلوگیری از بیش‌برازش^[۱۸۱]، عمل انتخاب نمونه را به گونه‌ای انجام می‌دهیم که تقریبا توزیع یکسانی از نمونه‌های هر دو کلاس در نمونه انتخاب شده وجود داشته باشد. بنابراین، از میان داده‌های اصلی با در نظر گرفتن معیار ذکر شده تعداد ۱۵۰۰ نمونه به تصادف انتخاب کردیم.
انتخاب ویژگی^[۱۸۲]: اگرچه فرایند انتخاب ویژگی در ساختار مدل پیشنهادی این تحقیق قرار دارد ولی از آن جایی که از میان ۱۷۱ ویژگی موجود در این پایگاه داده تعدادی از آنها بالای ۷۰% دارای مقادیر گم شده‌اند و همچنین تعدادی نیز دارای مقادیری یکنواخت و یا با پراکندگی بسیار بالا هستند، لازم است با انتخاب ویژگی اولیه در مرحله پیش‌پردازش این ویژگی‌ها شناسایی و حذف شوند. برای انجام این کار از نرم‌افزار داده‌کاوی SPSS Clementine استفاده کردیم؛ نحوه پیاده‌سازی پیش‌پردازش در این نرم‌افزار و نتیجه بدست آمده در شکل ۳-۵ قابل مشاهده است. چنانچه در شکل نیز مشخص است، خروجی فرایند انتخاب ویژگی لیست مرتب شده‌ای از ویژگی‌هاست که به ترتیب اهمیت قرار گرفته‌اند. همچنین ویژگی‌های دارای مقادیر گمشده زیاد به همراه آن ویژگی‌های دسته‌ای که تقریبا در یک دسته توزیع شده‌اند و یا دارای پراکندگی بالایی هستند در بخش مجزایی نشان داده شده‌اند.

شکل ‏۳‑۵: فرایند انتخاب ویژگی در Clementine

برخورد با داده‌های گم شده^[۱۸۳]: پس از حذف ویژگی‌هایی که مقادیر بسیار زیادی داده گم شده دارند، هنوز مجموعه داده شامل داده‌های گم شده است. برای برخورد با این داده‌های گم شده با بهره گرفتن از نرم‌افزار MATLAB سه رویکرد زیر مورد استفاده قرار گرفته است:

حذف نمونه: پس از بررسی داده‌ها، ۳ نمونه شناسایی شد که در بسیاری از ویژگی‌های خود دارای مقدار گم شده بودند. این نمونه‌ها پس از شناسایی از مجموعه داده حذف شدند.

جایگذاری با مقدار مد: ویژگی hnd_price در ۱۶ نمونه دارای مقدار گم شده است که در تمامی آنها مقدار مد این ویژگی یعنی ۲۹٫۹۹۰۰ جایگزین شده است.

جایگذاری با مقدار نمونه مشابه: ویژگی change_mou نیز در ۸ نمونه دارای مقدار گم شده است. برای جایگذاری این مقادیر برای هر نمونه، ابتدا مشابه‌ترین نمونه با آن را شناسایی کردیم سپس مقدار ویژگی change_mou نمونه شناسایی شده را جایگزین مقدار گم شده کردیم.

فاز دوم مدل: شناسایی مشتریان با ارزش

پس از پیش‌بینی و شناسایی مشتریانی که در خطر رویگردانی قرار دارند، شرکت باید تمرکز خود را بر مشتریانی قرار دهد که دارای ارزش بیشتری هستند؛ تا بدین طریق منابع سازمان را به صورت بهینه برای جلوگیری از رویگردانی مشتریان با ارزش اختصاص دهد. در این تحقیق ما برای شناسایی مشتریان با ارزش از میان مشتریان مستعد رویگردانی، به خوشه‌بندی مشتریان شناسایی شده در فاز اول پرداختیم. برای خوشه‌بندی از تکنیک شبکه عصبی SOM استفاده کرده‌ایم. همچنین برای تعیین متغیرها برای خوشه‌بندی، هم از متغیرهای سنتی CRM استفاده کردیم و هم از متغیر استخراج شده از شبکه اجتماعی مشتری؛ تمامی متغیرهای استخراج شده به نوعی متاثر بر ارزش مشتری هستند.

متغیرهای سنتی CRM

ارزش عمر مشتری^[۱۸۴] به عنوان معیاری برای تعیین مشتریان باارزش است. مدلهای مختلفی برای محاسبه ارزش عمر مشتری ارائه شده است. در این تحقیق برای استخراج متغیرهای سنتی CRM برای خوشه‌بندی، از مدل LRFM که توسط چنگ و تی‌سای ارائه شد (Chang and Tsay 2004)، استفاده می‌کنیم.

مدل RFM یک مدل رفتار محور برای تحلیل رفتار یک مشتری و سپس پیش‌بینی کردن بر اساس رفتار مشتریان پایگاه داده است. در این مدل سه مشخصه تاخیر^[۱۸۵]، فراوانی^[۱۸۶] و مقدار پولی^[۱۸۷] به عنوان مبنای ارزش‌گذاری مشتریان در نظر گرفته می‌شوند. تاخیر، طول مدت زمان از آخرین خرید را نشان می‌دهد؛ فراوانی، تعداد خریدها را در یک دوره زمانی مشخص بیان می‌کند و مقدار پولی، یعنی میزان پول مصرف شده در این دوره زمانی مشخص (Lin, Wei et al. 2011).

چنگ و تی‌سای مدت^[۱۸۸] را به مدل RFM اضافه کردند و آن را به مدل LRFM تبدیل کردند. مدت، دوره زمانی بین اولین بازدید و آخرین بازدید یک مشتری خاص را اندازه می‌گیرد. مدت به این دلیل به مدل اضافه شد که مدل RFM نمی‌تواند مشتریانی که ارتباط کوتاه مدت و یا بلد مدت با شرکت داشته‌اند را بخش‌بندی کند. با معرفی مدت به مدل، ارتباط بین مشتریان و شرکت از نقطه نظر عددی مشخص می‌شود.

در میان دو پایگاه داده مورد استفاده در این تحقیق، داده‌های اپراتور تالیا فاقد اطلاعات مربوط به خصیصه‌های LRFM است. در داده‌های مسابقات مدل‌سازی رویگردانی دانشگاه دوک متغیرهای زیر به عنوان متغیرهای سنتی CRM استخراج شده‌اند:

Months: مدت زمان حضور مشتری در شرکت.
Complete-mean: میانگین تعداد تماس‌های کامل صوتی و داده‌ای.
Mou-mean: میانگین ماهانه تعداد دقایق استفاده.
Recv-vce-mean: میانگین تعداد تماس‌های صوتی وارده به مشتری.
Rev-Mean: میانگین درآمد ماهانه.

متغیر استخراج شده از شبکه اجتماعی مشتری

برای شناسایی مشتریان با ارزش از دیدگاه رویگردانی فقط در نظر گرفتن متغیرهای سنتی CRM کافی نیست بلکه باید تاثیر وی بر نظر افراد دیگر را نیز مورد توجه قرار بدهیم. ممکن است یک فرد که دارای احتمال رویگردانی بالایی است از نظر مدل LRFM دارای ارزش زیادی نباشد ولی همین فرد دارای ارتباطات موثری در اجتماع باشد و رویگردانی وی تبلیغات منفی کسترده‌ای را برای شرکت در پی داشته باشد. انتشار دهان به دهان خبر و یا تبلیغات در اجتماعی از افراد را با اصطلاح WOM^[189] بیان می‌کنند. لازم است برای بررسی ارزش مشتریان رویگردان علاوه بر متغیرهای سنتی CRM به دنبال استخراج متغیرهای موثر بر WOM نیز باشیم.

واضح است که یک شبکه اجتماعی می‌تواند از روابط موجود بین اعضای یک خانواده تشکیل گردد و WOM هم از طریق این شبکه تشکیل شده ایجاد گردد. تاثیر WOM منتشر شده درشبکه اجتماعی ناشی از روابط خانوادگی می‌تواند به صورت بالقوه بسیار زیاد باشد. زیرا اعضای یک خانواده اعتماد زیادی نسبت به یکدیگر دارند و در تصمیم‌گیری‌ها از یکدیگر کمک می‌گیرند. ممکن است در یک خانواده چندین نفر از سرویس‌های یک شرکت استفاده کنند. در این صورت با نارضایتی و رویگردانی یک نفر از اعضا خانواده ممکن است اعضای دیگر خانواده هم تحت تاثیر قرار گیرند.

در پایگاه داده مربوط به مسابقات مدل‌سازی رویگردانی دانشگاه دوک متغیری به نام ACTVSUBS وجود دارد که نشان دهنده تعداد مشترکین فعال در خانواده است. به عبارت دیگر، این متغیر بیان می‌کند که چند مشترک فعال در خانواده یک مشترک وجود دارد. برای مثال اگر این عدد ۲ باشد، آنگاه در این خانواده علاوه بر این مشترک، ۲ مشترک فعال دیگر وجود دارد. این فیلد از دید تحلیل شبکه‌های اجتماعی برابر با درجه هر گره در شبکه است. یک فرد که دارای مقدار بیشتری برای این متغیر است ارتباطات WOM بیشتری دارد و از دید رویگردانی فردی با ارزش است، چراکه می‌تواند تعداد افراد بیشتری را تحت تاثیر قرار دهد.

در پایان برای ارزیابی خوشه‌بندی از معیار دیویس – بولدین^[۱۹۰] استفاده کردیم. این شاخص معیاری برای ارزیابی خوشه‌بندی است که فشردگی و تفکیک‌پذیری را مورد توجه قرار می‌دهد و به صورت زیر محاسبه می‌شود:

که در آن k برابر با تعداد خوشه‌ها است. برابر با فاصله درون خوشه‌ای مربوط به خوشهi است. برابر با فاصله بین خوشه i و j است . خوشه‌بندی که کمترین مقدار index را داشته باشد مناسب‌تر است.

نتیجه‌گیری

ما در این فصل به شرح نحوه پیاده‌سازی مدل ارائه شده برای پیش‌بینی رویگردانی مشتریان با ارزش در صنعت مخابرات و انتخاب استراتژی مناسب بازاریابی جهت جلوگیری از رویگردانی این مشتریان کلیدی، پرداختیم. مدل پیشنهادی ما از سه فاز تشکیل شده است که در فاز اول، با طراحی یک سیستم چند دسته‌بند دقیق که ساختار آن توسط الگوریتم ژنتیک چند بعدی بهینه شده است، به پیش‌بینی رویگردانی مشتریان پرداختیم. الگوریتم ژنتیک در این فاز سعی در بهینه‌سازی همزمان در انتخاب ویژگی، انتخاب دسته‌بند و اوزان تابع ترکیب نتایج دارد.

کلیه مطالب این سایت فاقد اعتبار و از رده خارج است. تعطیل کامل

کلیه مطالب این سایت فاقد اعتبار و از رده خارج است. تعطیل کامل

آخرین مطالب

جستجو

موضوعات

فیدهای XML