براساس ارتباطهایی که دادهکاوی با علوم مختلف برقرار کرده است، از الگوریتمها و روشهای بسیار متنوعی بهره میبرد. طبقهبندیهای مختلفی برای الگوریتمها ارائه شده است. بر اساس مشهورترین طبقهبندیها، این الگوریتمها را میتوان به دو دسته الگوریتمهای توصیفی و الگوریتمهای پیشبینیکننده تفکیک کرد. بر این اساس، برخی از مهمترین الگوریتمهای توصیفی به شرح زیر هستند:
مطلب مرتبط : دادهکاوی (Data Mining) چیست و چه کاربردهایی دارد؟
خوشهبندی دادهها (Clustering)
یکی از روشهای بدون ناظر برای اکتشاف دانش از دادهها است که بدون پیشفرض، دادهها را براساس فاصله معنیدار تفکیک و دستهبندی میکند. اعضای درون یک خوشه شباهتهای زیادی به یکدیگر دارند ولی اعضای هر خوشه با اعضای موجود در خوشه های دیگر شباهت کمتری دارند. الگوریتمهایی مانند K-Means، K-Medoids، AGNES، DIANA، DBSCAN و OPTICS از جمله الگوریتمهای خوشهبندی به شمار میآیند. نمونههایی از خوشهبندی دادهها به شرح زیر هستند:
- بخشبندی بازار بر مبنای روند مراجعات و تماس مشتریان با سازمان
- تعیین راهبردهای بازاریابی بر مبنای رفتار خرید مشتریان در خوشههای مختلف
- تعیین انواع قراردادهای پیمانکاری بر اساس روند پرداخت وجه از سوی مشتریان
- تقسیمبندی مشتریان بر اساس هزینهها و درآمدهایی که برای سازمان ایجاد میکنند.
الگوریتم قواعد وابستگی (Association Rules)
قواعد وابستگی، یک روش مناسب و توانمند برای یافتن روابط جذاب بین متغیرهای موجود در پایگاههای داده بزرگ است. بر اساس این روش، میزان وابستگی بین مشخصهها یا فیلدهای داده به شکل یک مجموعه از قواعد شناسایی میشوند و به کمک این قواعد، امکان رخ دادن دو یا چند مشخصه در کنار یکدیگر تعیین میشود. برخی از الگوریتمهای محاسبه قواعد وابستگی عبارتند از Apriori و FP-Growth. برای نمونه در تحلیل موارد زیر از قواعد وابستگی استفاده میشود:
- تحلیل روند خرید مشتریان در سبدهای خرید جدید بر اساس خریدهای قبلی
- یافتن رابطه بین خرابی ماشینآلات و قطعات و دلایل خرابی آنها
- تحلیل ارتباط فعالیتهای بازاریابی و برندینگ شرکت با افزایش یا کاهش سرعت عکسالعمل بازار نسبت به محصولات شرکت
- همگروهی یا Bundling محصولات یا خدمات بر اساس میزان علاقه مشتریان به خرید گروهی آنها.
- برقراری ارتباط میان کیفیت پاسخگویی کارشناسان خدمات پس از فروش سازمان با نیاز مشتری بر اساس تخصص کارشناسان، نوع مشکلات محصول، بلوغ محصول مورد نظر و ویژگیهای مشابه
مهمترین الگوریتمهای پیشبینیکننده را به شرح زیر میتوان تفکیک کرد:
طبقهبندی دادهها (Classification)
یکی از روشهای یادگیری نظارتشده برای پیشبینی طبقه دادهها است که بر مبنای طبقات پیشفرض و از قبل مشخصشده، اقدام به شناسایی طبقه دادههای جدید میکند. برخی از الگوریتمهای طبقهبندی دادهها عبارتند از: Decision Tree, Navie Bayes و K-Nearest Neighbors. چند نمونه از کاربردهای طبقهبندی به شرح زیر است:
- دستهبندی نمایندگیهای فروش بر اساس قابلیتها و توانمندیهای فروش و بازاریابی
- درخت تصمیم برای تصمیمگیری درباره فرآیند و نحوه فروش به مشتریان بزرگ یا خاص
- یادگیری انواع گروهبندی مشتریان بر اساس سوابق قراردادی، گارانتی یا پشتیبانی و تعیین رویکرد و نگرش سازمان نسبت مشتریان جدید پیش از آغاز دوره پشتیبانی یا گارانتی
- تفکیک مشتریان جدید بر اساس مدت زمان و نوع خدمات یا محصول دریافتی با توجه به سوابق یادگرفته شده از مشتریان فعلی و مشتریان جداشده از سازمان
رگرسیون و سریهای زمانی (Regression and Time Series Analysis)
در صورتی که دادههای سازمان با گذشت زمان و بر اساس روند مشخصی ثبت شده باشند، امکان پیشبینی روند آینده سازمان بر اساس سریهای زمانی و توابع رگرسیونی دادهها وجود خواهد داشت. رگرسیون یکی از سادهترین روشهای دادهکاوی است که بر اساس روند گذشته، تخمینی از مقادیر آینده ارائه میکند. چند نمونه از کاربردهای رگرسیون به شرح زیر است:
- تحلیل تاثیر شاخصهای اقتصادی بر روند افزایش یا کاهش قیمت سهام در بورس
- مقایسه عملکرد مالی شرکت در مقایسه با شرکتهای مشابه در همان صنعت
- تحلیل روند رشد درآمدها بر مبنای سیاستهای بازاریابی و فروش سازمان
- شناسایی عوامل و بازههای زمانی موثر بر نوسانات قیمتی سهام
- مقایسه میزان انطباق عملکرد خط تولید با سیاستها و اهداف سازمان در سالهای گذشته
شبکه های عصبی (Neural Networks)
شبکههای عصبی مصنوعی، مدل پیشرفتهای از رگرسیونهای پیوسته قابلآموزش هستند که میتوانند آینده را بر مبنای رویدادهای گذشته پیشبینی کنند. پیشبینی دادهها در این الگوریتم مشابه الگوریتمهای طبقه بندی است با این تفاوت که در این روش، هدف پیشبینی مقادیر داده پیوسته (مانند مبلغ فروش، درآمد، سود یا قیمت سهام) است ولی در طبقهبندی، نتایج پیشبینی بر اساس طبقات فعلی که الگوریتم آنها را آموزش دیده است، ارائه می شوند و خروجی دارای طیف گسسته است. (در حقیقت تعداد طبقات محدود به چند طبقه یا گروه خاص است و تنوع کمی دارد). برخی از انواع شبکههای عصبی عبارتند از شبکههای MLP، RBF، SVM، SOM و LVQ. نمونههایی از کاربرد شبکههای عصبی به شرح زیر است:
- یادگیری و پیشبینی رفتار مشتریان فعلی و آتی بر اساس بازخوردهای دریافتی از سیستم پیشنهادها
- بهینهسازی ارسال و دریافت محصولات و قراردادهای پشتیبانی بر مبنای روندهای گذشته
- تنظیم رویکرد فروشندگان نسبت به مشتریان بالقوه و جدید بر اساس یادگیری از رفتار مشتریان فعلی
- درک نحوه و کیفیت کار کارکنان ممتاز در پاسخگویی به درخواست مشتریان و شناسایی علل عدم تبعیت رفتار آنها از الگوی نرمال و روزمره سازمان.
- پیشبینی قیمت در پورتفوی سهام بر اساس شاخصهای اقتصادی کشور و شاخصهای مالی بورس و ارائه پیشنهاد برای خرید یا فروش سهام پورتفو به منظور بهینهسازی مجموع سود سهام.
در کنار الگوریتمهای توصیفی و پیشبینی، مجموعهای از الگوریتم های فراابتکاری (Meta-Heuristics) نیز ارائه شدهاند که هدف آنها دستیابی به پاسخ بهینهی سوالات و مسائل مدیریتی و عملیاتی است. برخی از مهمترین الگوریتم های فراابتکاری یا اصطلاحا تکاملی (Evolutionary) عبارتند از:
- الگوریتم ژنتیک (Genetic Algorithm)
- بهینهسازی ازدحام ذرات (Particle Swarm Optimization)
- بهینهسازی کلونی مورچگان (Ant Colony Optimization)
- بهینهسازی کلونی زنبورهای عسل (Bees Colony Optimization)
- الگوریتم کرم شب تاب (Firefly Algorithm)
- جستجوی متوازن (Harmony Search)
در تمامی این الگوریتمها، سعی در یافتن پاسخ بهینه از بین تعداد زیادی پاسخ، در کمترین زمان و با بیشترین دقت و کیفیت است. این الگوریتمها زمانی به کار میروند که تعداد پاسخهای مساله بسیار زیاد و متنوع بوده و حل مساله با روشهای معمول برای دستیابی به نتیجه قابلقبول، نیازمند صرف هزینه و زمان فوق العادهای باشد که از توان اغلب کسبوکارها خارج است. برای حل مسائل کسبوکار، گاهی اوقات از الگوریتمهای تکاملی در ترکیب با الگوریتمهای توصیفی و پیشبینیکننده استفاده میشود تا کیفیت و دقت پاسخها افزایش یابد، هرچند که این نکته منجر به افزایش مدت زمان یادگیری و ساخت مدلهای حل مساله خواهد شد.
در بسیاری از پروژههای دادهکاوی، از ترکیب متنوعی از الگوریتمهای اشاره شده برای تحلیل داده و ساخت مدلهای حل مساله استفاده میشود. این رویکرد باعث شده است تا میزان اعتبار و کیفیت تحلیلها و تصمیمهای اتخاذ شده بر مبنای خروجی دادهکاویبهبود یابد و به تدریج، به مدلهای آموزشدیده و مبتنی بر واقعیت دست یابیم که با اهداف و فرآیندهای کسبوکار متناظر بوده و قادر به پیشبینی دقیق آینده کسبوکار هستند.
.
نویسنده: دکتر ایمان رئیسی – ستاد مدیریت محصول همکاران سیستم
.