دانشگاه قم
دانشکده فنی و مهندسی
پایاننامه دوره کارشناسی ارشد مهندسی فناوری اطلاعات
گرایش تجارت الکترونیک
عنوان:
تدوین شاخصها و داشبورد ارزیابی و پیشبینی پیشرفت تحصیلی دانشجویان با شبکهعصبی و درختتصمیمC5
استاد راهنما:
دکترامیرافسر
نگارنده:
مرضیه حبیبزاده
زمستان ۱۳۹۳
تقدیم به
خانوادهام که همواره مشوق تفکر خلاق برایم هستند
( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
و
در مراحل این پایان نامه یاریگرم بوده اند.
تشکرو قدردانی
سپاس بیکران پروردگار یکتا را که هستیمان بخشید و به طریق علم و دانش رهنمونمان شد و به همنشینی رهروان علم و دانش مفتخرمان نمود و خوشه چینی از علم و معرفت را روزیمان ساخت.
از کمک اساتید محترم جناب آقای دکتر دیانت و جناب آقای دکتر ملکی و سایر اساتید خصوصا جناب آقای دکتر افسر که در طول مراحل تحصیل و پژوهش از راهنمایی ایشان استفاده نموده ام سپاسگزاری می نمایم.
چکیده
درک عواملی که منجر به موفقیت یا شکست در امتحانات مسئله ای جالب و چالش برانگیز است.مفاهیم مرتبط، تجزیه و تحلیل عوامل موفقیت در امتحانات، ممکن است به درک و به طور بالقوه به بهبود پیشرفت تحصیلی کمک کند.بنابراین در این پژوهش ضمن مروری کلی بر داده کاوی و ویژگی های اصلی یک داشبورد مدیریتی کارا، سعی بر این است تا یک مطالعه موردی بر روی پایگاه داده های دانشگاه های سراسری و آزاد استان قم صورت گیرد تا پیشرفت تحصیلی دانشجویان پیش بینی گردد.
در این پژوهش ابتدا توسط الگوریتم k-means خوشه بندی صورت گرفته است و با بهره گرفتن از شاخص ارزیابی SSE ، تعداد خوشه بهینه تعیین گردیده است. بنابراین تعداد خوشه بهینه برای دانشجویان چهار خوشه می باشد و سپس خوشه ها با روش های پیش بینی داده کاوی از جمله شبکه عصبی و درخت تصمیم C5 که از پرکاربردترین و دقیق ترین روش های پیش بینی می باشند، پیش بینی شده اند و درنهایت با بهره گرفتن از نتایج این روش ها، شاخص های مناسب یافت شدند و به صورتی روشن در یک داشبورد نمایش داده شدند.
واژههای کلیدی:داده کاوی آموزشی، شبکه عصبی، خوشه بندی، درخت تصمیمC5، داشبورد.
فهرست مطالب
فصل اول: ۱
۱-۱-مقدمه ۲
۱-۲-تعریف مساله و بیان سوال های اصلی تحقیق ۳
۱-۳-ضرورت انجام تحقیق ۶
۱-۴-هدفها و کاربردهای مورد انتظار از انجام تحقیق ۷
۱-۵-جنبه جدید بودن و نوآوری طرح ۷
۱-۶-قلمرو مکانی و زمانی تحقیق ۸
۱-۷-روش تجزیه و تحلیل دادهها ۸
۱-۸-ساختار تحقیق ۸
۱-۹-تعاریف و اصطلاحات ۹
۱-۱۰-نتیجه گیری ۱۲
فصل دوم: ۱۲۲
۲-۱- مقدمه ۱۳۳
۲-۲-انگیزههای کاوش داده ۱۳
۲-۳-نیاز به دادهکاوی ۱۵
۲-۴- چالشهای دادهکاوی ۱۶
۲-۴-۱- چالشهای اولیه ۱۷
۲-۴-۲- چالشهای ثانویه ۱۸
۲-۵-معرفی دادهکاوی ۱۹
۲-۵-۱-منشاُ علمی ۲۱
۲-۵-۲- معماری سیستم دادهکاوی ۲۱
۲-۵-۳- مراحل عملیات دادهکاوی ۲۳
۲-۵-۳-۱-آمادهسازی داده ۲۳
۲-۵-۳-۲-یادگیری مدل ۲۴
۲-۵-۳-۳-ارزیابی و تفسیر مدل ۲۵
۲-۶- محدودیتهای دادهکاوی ۲۵
۲-۷- قابلیتهای دادهکاوی ۲۶
۲-۸- روشهای یادگیری مدل در دادهکاوی ۲۶
۲-۸-۱- روشهای پیشبینی ۲۶
۲-۸-۱-۱- دستهبندی ۲۷
۲-۸-۱-۲- رگرسیون ۲۷
۲-۸-۱-۳-تشخیص انحراف ۲۸
۲-۸-۲- روشهای توصیفی ۲۹
۲-۸-۲-۱- خوشهبندی ۳۰
۲-۸-۲-۲- کشف قوانین انجمنی ۳۲
۲-۸-۲-۳- کشف الگوهای ترتیبی ۳۲
۲-۹- فنون دادهکاوی ۳۲
۲-۹-۱- یافتن خودکارخوشهها ۳۴
۲-۹-۱-۱-نقاط قدرت این روش ۳۴
۲-۹-۱-۲-نقاط ضعف ۳۴
۲-۹-۱-۳- کاربرد ۳۴
۲-۹-۲- درختهای تصمیمگیری و استقرا قاعدهای ۳۵
۲-۹-۲-۱-نقاط قوت ۳۵
۲-۹-۲-۲-نقاط ضعف روش درختتصمیمگیری ۳۵
۲-۹-۲-۳-کاربرد ۳۶
۲-۹-۳- شبکههای عصبی ۳۶
۲-۹-۳-۱- نقاط قوت شبکههای عصبی مصنوعی ۳۶
۲-۹-۳-۲- نقاط ضعف شبکهعصبی ۳۷
۲-۹-۳-۳-کاربرد ۳۷
۲-۱۰- درجهبندی فنون مختلف دادهکاوی از جهت سختی و آسانی ۳۷
۲-۱۱-تعریف داشبورد ۳۸
۲-۱۲- سابقه تحقیق ۴۳
۲-۱۲-۱- سابقه دادهکاوی ۴۳
۲-۱۲-۲- سابقه داشبورد ۴۷
۲-۱۳ بررسی مراحل داشبورد در چند نمونه ۴۹
۲-۱۴-نتیجه گیری ۵۰
فصل سوم: ۵۱
۳-۱- مقدمه ۵۲
۳-۲- چارچوب تحقیق ۵۳
۳-۳- روش تحقیق ۵۴
۳-۳-۱- طبقهبندی تحقیق برمبنای هدف ۵۴
۳-۳-۲- طبقه بندی تحقیق بر مبنای روش ۵۴
۳-۳-۳- طبقهبندی تحقیق بر مبنای نوع دادهها ۵۵
۳-۴- جامعه آماری ۵۵
۳-۵- نمونهگیری ۵۶
۳-۵-۱- روش نمونهگیری ۵۶
۳-۶- روش ها و ابزار گردآوری و تحلیل دادهها ۵۶
۳-۷- ساختار اجرایی تحقیق ۵۷
۳-۷-۱- ساختار اجرایی بخش اول تحقیق ۵۸
۳-۷-۱-۱- درک مساله ۵۹
۳-۷-۱-۲- شناخت دادهها ۶۰
۳-۷-۱-۳- آماده سازی دادهها ۶۱
۳-۷-۱-۴- مدلسازی ۶۱
۳-۷-۱-۵- ارزیابی نتایج ۶۲
۳-۷-۱-۶- بکارگیری مدل ۶۲
۳-۸- تحلیل خوشهای ۶۳
۳-۹- الگوریتم k-means 64
۳-۱۰-شبکهعصبی ۶۵
۳-۱۰-۱- معماری شبکه ۶۶
۳-۱۱-درختتصمیم ۶۷
۳-۱۲- شاخص مقایسه نتایج خوشهبندی با رویکردهای مختلف ۶۹
۳-۱۲-۱- شاخص مجموع خطای مربعی ۶۹
۳-۱۳- ابزارهای دادهکاوی ۶۹
۳-۱۴- بخش دوم ساختار اجرایی تحقیق ۷۰
۳-۱۴-۱- شناسایی شاخص ۷۰
۳-۱۴-۲- پیادهسازی داشبورد ۷۰
۳-۱۵- ابزار پیادهسازی داشبورد ۷۱
۳-۱۶- نتیجهگیری ۷۱
فصل چهارم: ۷۳
۴-۱-مقدمه ۷۴
۴-۲-فرایند دادهکاوی ۷۴
۴-۲-۱-درک مساله ۷۴
۴-۲-۲-شناخت دادهها ۷۵
۴-۲-۲-۱- دادهها ۷۵
۴-۲-۲-۲- انتخاب دادهها ۷۵
۴-۲-۳- آماده سازی و پیش پردازش دادهها ۷۶
۴-۲-۳-۱- آماده سازی دادهها ۷۶
-۲-۳-۲-پیش پردازش دادهها ۷۷
۴-۲-۴-مدلسازی ۸۲
۴-۲-۴-۱-خوشهبندی ۸۳
۴-۲-۴-۲- خوشهبندی k-means 83
۴-۲-۴-۳- پیشبینی خوشهها ۸۴
۴-۲-۴-۴- پیشبینی با شبکهعصبی ۸۵
۴-۲-۴-۵- پیشبینی با درختتصمیم C5 85
۴-۲-۵- ارزیابی ۸۸
۴-۲-۶- بهکارگیری مدل ۸۹
۴-۳- فرایند طراحی و پیادهسازی داشبورد ۸۹
۴-۳-۱- شناسایی شاخص ۸۹
۴-۴- نتیجهگیری ۹۳
فصل پنجم: ۹۴
۵-۱- مقدمه ۹۵
۵-۲- مروری برفصلهای گذشته ۹۵
۵-۳- دستاوردها و نوآوریهای تحقیق ۹۶
۵-۴- پیشنهادات برای تحقیقهای آتی ۹۷
۵-۵- محدودیتهای تحقیق ۹۸
فهرست منابع ۹۹
فهرست جداول
جدول۲-۱ درجهبندی فنون مختلف دادهکاوی ۳۸
جدول ۲-۲ تعاریف داشبورد در مرور ادبیات ۳۸
جدول ۲-۳ مراحل طراحی داشبورد ۴۹
جدول۳-۱ الگوریتم خوشهبندی ۶۵
جدول ۴-۱ اقلام اطلاعات فردی دانشجویان ۷۸
جدول ۴-۲ اقلام اطلاعاتی معدل دانشجویان ۷۹
جدول ۴-۳ اقلام اطلاعاتی دانشگاهی دانشجویان ۷۹
جدول ۴-۴ نرخ پارامتر SSE به ازای تعداد خوشهها در k-means 84
جدول ۴-۵ پیش بینی با بهره گرفتن از روش شبکهعصبی ۸۵
جدول ۴-۶ دستهبندی معدلها ۸۶
جدول ۴-۷ پیش بینی با بهره گرفتن از روش درخت تصمیمC5 87
جدول ۵-۱ دقت پیشبینیهای انجام شده ۹۷
فهرست شکلها و نمودارها
۹
شکل۲-۱: قیاس رشد حجم داده با رشد تعداد تحلیلگران داده ۱۵
شکل ۲-۲ سلسله مراتب داده تا خرد ۲۰
شکل ۲-۳ معماری یک سیستم دادهکاوی ۲۲
شکل ۲-۴ ساختار دادهکاوی آموزشی ۴۴
شکل ۳-۱ مراحل اصلی پیشنهادی برای اجرای تحقیق ۵۳
شکل ۳-۲ استاندارد جهانی CRISP 59
شکل ۴-۱ بخشی از ارتباط دادهای جداول ۷۷
نمودار ۴-۱ میزان استفاده تکنیکهای پیشپردازش داده ۸۱
شکل ۴-۲بخشی از دادهها در نرمافزار Excel 82
شکل ۴-۳ تعداد رکوردها در هر خوشه ۸۴
شکل ۴-۵ اهمیت فیلدها در پیشبینی معدل ترم شش دانشجویان ۸۸
شکل۴-۶ پیشرفت تحصیلی دانشجویان ورودی سال ۱۳۷۱ ۹۱
شکل۴-۷ پیشرفت تحصیلی دانشجویان ورودی سال ۱۳۸۱ ۹۱
شکل ۴-۸ پیش بینی پیشرفت تحصیلی دانشجویان فاقد شغل ورودی سال ۱۳۸۱ ۹۲
شکل ۴-۹ پیشبینی پیشرفت تحصیلی دانشجویان شاغل در سازمانهای دولتی ورودی سال ۱۳۸۱ ۹۳
فصل اول:
مقدمه و کلیات تحقیق
۱-۱-مقدمه
پیشبینی آینده در زمینههای مختلف همواره برای انسان جالب و جذاب بوده است. با اطمینان میتوان گفت که پیشبینی آینده و روند تغییرات در همهی حوزهها از دغدغههای اصلی و همیشگی مدیران سطح بالا و میانی میباشد. اما همواره مشکلات فراوانی در برابر آن وجود داشته است که انجام پیشبینیهای دقیق و قابل اعتماد را تقریباً غیرممکن نموده است (توحیدی- مقدم و فرهادی، ۱۳۹۱). در سالهای اخیر با توجه به جذابیتهایی که در زمینه دادهکاوی و همچنین پیشبینی که یکی از اهداف دادهکاوی میباشد وجود دارد،تحقیقات زیادی در این حوزه انجام شده است.
در حال حاضر در اکثر دانشگاهها بانکهای اطلاعاتی وسیعی از ویژگیهای دانشجویان موجود است که حجم بالایی از اطلاعات مربوط به سوابق آموزشی و تحصیلی را شامل میشود و از آنجایی که امروزه فضای رقابتی شدیدی در دانشگاههای مختلف حاکم شده است. مدیران باید سریعتر و درستتر از قبل تصمیم بگیرند. لازمه چنین امری، دستیابی سریع و دقیق به دانش است و برای دستیابی به دانش، وجود ابزارهای کارا و موثری نظیر داشبوردهای مدیریتی ضرورت دارد. ارزش داشبورد در اتصال ویژگیها و کاربرد مناسب آن در سازمان است. گرچه تا به امروز توافق خاصی در اینکه داشبورد باید دقیقا چگونه باشد و چه کارهایی را انجام دهد، وجود ندارد اما به طور کلی انتظار میرود داشبورد، امکان جمع آوری، خلاصهسازی و ارائه اطلاعات مناسب از منابع مختلفی را داشته باشد تا بدین وسیله کاربر بتواند وضعیت شاخصها را به طور یکجا ملاحظه نماید
هدف از انجام این تحقیق، دادهکاویآموزشی جهت مقاصد پیشبینی پیشرفت تحصیلی دانشجویان به همراه داشبورد آن میباشد، دادهکاویآموزشی یک حوزه علمی نوظهور است که به توسعه روشهایی برای کاوش و اکتشاف دانش در محیطهای آموزشی میپردازد. پیشرفت تحصیلی دانشجویان یکی از اموری است که در امر آموزش مطرح است و از مسائل مورد توجه مدیران آموزشی دانشگاههاست. در این تحقیق سعی شده از دادهکاوی و فنون آن استفاده شود و با بهره گرفتن از دادههایی که در دانشگاهها موجود است پیشرفت تحصیلی را پیشبینی نمود. پس از آشنایی با ادبیات مسئله و مرورکلی بر ویژگیهای اصلی یک داشبورد مدیریتی کارا، روش های دادهکاوی و پیشبینی به عنوان مطالعه موردی کار پیشبینی در امور آموزش را انجام دادهایم. معدل دانشجویان بهصورت تصادفی تغییر نمیکند، بلکه تغییرات بر اساس یک روند تکرار پذیر و قابل تشخیص صورت میگیرد، پس قابل پیشبینی است. برای این منظور پس از گردآوری دادهها جهت دادهکاوی، با بهره گرفتن از روش های شبکهعصبی و درختتصمیم C5، کار پیشبینی را انجام داده ایم و بعد از پیشبینی، طراحی و پیادهسازی داشبورد آن صورت گرفت.
۱-۲-تعریف مساله و بیان سوال های اصلی تحقیق
از هنگامی که رایانه در تحلیل و ذخیرهسازی دادهها بهکار رفت (۱۹۵۰) پس از حدود ۲۰ سال، حجم دادهها در پایگاهدادهها دو برابر شد ولی پس از گذشت دو دهه و همزمان با پیشرفت فنآوری اطلاعات(IT) هر دو سال یکبار حجم دادهها، دو برابر شد. همچنین تعداد پایگاهدادهها با سرعت بیشتری رشد نمود. این در حالی است که تعداد متخصصین تحلیل دادهها و آمارشناسان با این سرعت رشد نکرد. حتی اگر چنین امری اتفاق میافتاد، بسیاری از پایگاهدادهها چنان گسترش یافتهاند که شامل چندصدمیلیون یا چندصدمیلیارد رکورد ثبت شده هستند و امکان تحلیل و استخراج اطلاعات با روشهای معمول آماری از دل انبوه دادهها مستلزم چند روز کار با رایانههای موجود است. حال با وجود سیستمهای یکپارچه اطلاعاتی، سیستمهای یکپارچه بانکی و تجارت الکترونیک، لحظه به لحظه به حجم دادهها در پایگاهدادههای مربوط اضافه شده و باعث بهوجود آمدن انبارهای ( تودههای ) عظیمی از دادهها شده است بهطوری که ضرورت کشف و استخراج سریع و دقیق دانش از این پایگاهدادهها بیش از پیش نمایان شده است. دادهکاوی یا استخراج و کشف سریع و دقیق اطلاعات باارزش و پنهان از این پایگاهدادهها از جمله اموری است که هر کشور، سازمان و شرکتی به منظور توسعه علمی، فنی و اقتصادی خود به آن نیاز دارد. با توجه به فصول دهم و یازدهم قانون برنامه سوم توسعه در خصوص داد و ستدهای الکترونیکی و همچنین تأکید بر برخورداری کشور از فنآوریهای جدید اطلاعات برای دستیابی آسان به اطلاعات داخلی و خارجی، دولت مکلف شده است امکانات لازم برای دستیابی آسان به اطلاعات، زمینهسازی برای اتصال کشور به شبکههای جهانی و ایجاد زیرساختهای ارتباطی و شاهراههای اطلاعاتی فراهم کند. واضح است این امر باعث ایجاد پایگاههای عظیم دادهها شده و ضرورت استفاده از دادهکاوی را بیش از پیش نمایان می سازد.
دادهکاوی فرآیندی تحلیلی است که برای کاوش دادهها(معمولا حجم عظیمی از دادهها) صورت میگیرد و یافتهها با بهکارگیری الگوهایی، احراز اعتبار میشوند. این تکنولوژی امروزه دارای کاربرد بسیاروسیعی در حوزههای مختلف است بهگونهای که حدومرزی برای کاربرد این دانش درنظر نگرفته و زمینههای کاری این دانش را از ذرات کف اقیانوسها تا اعماق فضا میدانند. امروزه، بیشترین کاربرد دادهکاوی در بانکها، مراکز درمانی، بیمارستآنها، بازاریابی هوشمند، مراکز تحقیقاتی و زمینههایی که در آن مقدار زیادی از دادهها در حال جمع آوری و ذخیره میباشد. هدف اصلی دادهکاوی پیشبینی است. یکی از عناصر کلیدی در مدیریت و تصمیمگیری، پیشبینی پارامترها و متغیرهای لازم در یک محدوده سیستمی میباشد.
پیشبینی به عنوان یکی از مهمترین شاخههای علمی مطرح شده است و روز به روز توسعه و پیشرفت می نماید و در بخش های مختلف به کار گرفته میشود. پیشرفتهای اخیر در تکنولوژیهای جمع آوری و ذخیرهسازی داده، موجب شده که سازمانها، حجم زیادی از دادههای مربوط به فعالیتهای روزانهی خود را انباشته کنند. دادههایی که توسط سازمانها جمع آوری شده است بسیار ارزشمند است و برای اهداف مختلف میتواند مورد استفاده قرار گیرد. یکی از این اهداف پیشبینیهایی میباشد که جهت بهبود عملکرد و برنامهریزیهایشان از آنها استفاده مینمایند.
مدیران سازمانهای مختلف به دلیل عدم قطعیت و پیچیدگی محیط سعی بر آن دارند تا مکانیزمی را در اختیار داشته باشند که بتوانند آنها را در امر تصمیمگیریشان یاری و مشاوره دهد و به همین دلیل سعی در استفاده از روشهای پیشبینی دارند که به واسطهی آنها تخمینهایشان به واقعیت نزدیک و خطاهایشان بسیارکم باشد. این امر باعث توجه بسیاری به روشهای نوین پیشبینی شده است.
دادهکاوی پل ارتباطی میان علم آمار، علم کامپیوتر، هوشمصنوعی، الگوشناسی، فراگیری ماشین و بازنمایی بصری داده میباشد. دادهکاوی فرایندی پیچیده جهت شناسایی الگوها، مدلهای صحیح و بالقوه مفید در حجم وسیعی از داده است، به طوریکه این الگوها ومدلها برای انسآنها قابل درک باشند(Han et al,2006). دادهکاوی بهصورت یک محصول قابل خریداری نیست، بلکه یک رشته علمی و فرآیندی است که باید بهصورت یک پروژه پیادهسازی شود. در گذشته موسسات آموزشی از مزیت دادهکاوی به خوبی بعضی حوزههای دیگر توجه نداشتهاند اما در سالهای اخیر تحقیقات زیادی در زمینه بکارگیری فرایند دادهکاوی در امر آموزش صورت میگیرد. این زمینه تحقیقاتی جدید، دادهکاویآموزشی نامیده میشود که به امر توسعه روشهای کشف دانش از دادههای محیطهای آموزشی خصوصاً دانشجویان میپردازد(Romero et al,2007). دادههای جمع آوری شده در مورد دانشجویان میتواند شخصی یا آموزشی باشد که از طریق دفاتر و پایگاه دادههای موجود در مدارس یا دانشکدهها جمعآوری میشوند. این نوع دادهها همچنین از طریق سیستمهای آموزش الکترونیکی قابل دستیابی هستند. با بهکارگیری تکنیکهای شبکهعصبی و درختتصمیم روی دادههای آموزشی می توان اطلاعات و دانش مفیدی را از آنها استخراج کرد که این دانش نیز به نوبه خود میتواند برای درک و فهم رفتار دانشجویان، کمک در امر آموزش و تدریس، ارزیابی و بهبود برنامهآموزشی، افزایش بازدهی و کارایی دانشجویان و اهداف دیگری بکار گرفته شود.
امروزه فضای رقابتی شدیدی در دانشگاههای مختلف حاکم شده است. دانشگاهها برای رسیدن به اهداف خود و سبقت گرفتن از یکدیگر در تلاشند. دانشگاهها نیاز به داشبورد دارند تا اطلاعات جزیی را در یک لحظه داشته باشند و این چیزی فراتر از یک نگاه کلی است. داشبوردها جهت نمایش حجم بزرگی از دادهها در یک نمایش گرافیکی قابل فهم هستند که کاربران با بهره گرفتن از آنها قادر به تحلیل اطلاعات از طریق دادهها باشند (LogiXML,2011).
داشبوردهای مدیریتی سیستمهای نرمافزاری نوینی هستند که به سازمانها در جهت غنیسازی اهداف با بهره گرفتن از اطلاعات و تجزیه و تحلیل آنها کمک میکند. داشبورد به مدیران این امکان را میدهد تا با تعریف، نظارت و تحلیل شاخصها در ایجاد تراز بین اهداف و فعالیتها و ایجاد یک محیط نمایش مشترک بین اهداف و فعالیتها برای تصمیمگیری درست و کارامد اقدام نمایند. یک نکته که معمولا به اشتباه گرفته میشود این است که داشبورد تنها برای مدیران ارشد به منظور ارائه اطلاعات جامع از عملکرد سازمان به آنها مورد استفاده قرار می گیرد. امروزه تکنولوژی داشبورد سازمانی بهگونهای است که میتواند در سطوح مختلف سازمان استقرار یابد(زرین،۱۳۸۸).
در این تحقیق سعی شده است تا با بهره گرفتن از اطلاعات مربوط به دانشجویان از جمله سال و ترم ورود به دانشگاه، نوع تاهل، معدلهای دریافتی در هر ترم، نوع تحصیل، نوع شغل و دیگر اطلاعات دانشجویان دانشگاههای سراسری و آزاد اسلامی استان قم و امکانات موجود در محیط نرمافزارهای Sql server، Matlab ، Qlick view ، Clementine ، Excelو همچنین با خوشهبندی دادهها و بکار بردن تکنیکهای دادهکاوی به پیشبینی پیشرفت تحصیلی دانشجویان بپردازیم و با بهره گرفتن از نتایج پیشبینی و نظر خبرگان، شاخصها را تعیین کرده و طراحی و پیادهسازی داشبورد مربوطه را انجام دهیم.
در راستای موضوع ارائه شده ما به دنبال آن هستیم تا به سوالات زیر پاسخ دهیم:
- چه تکنیک دادهکاوی برای دادههایمان پیشبینی بهتری دارد؟
- متغیرهای تاثیرگذار در تعیین شاخصها کداماند؟
مشخص کردن اینکه کدام روش نتایج بهینه و دقیقتری ارائه میکند و پاسخ به این پرسشها، پیشبینیها به طور مناسب انجام شده و این کار فواید زیادی را برای دانشگاه به همراه خواهد داشت.
۱-۳-ضرورت انجام تحقیق
یکی از چالشهای جدی در مدیریت امور آموزشی دانشگاهها، پیشبینی وضعیت تحصیلی دانشجویان در نیمسالهای آینده به منظور شناسایی دانشجویانی است که دچار پیشرفت یا افت تحصیلی شده و ادامه تحصیل آنها با مشکل روبرو خواهد شد. در این تحقیق با بهره گرفتن از تکنیکهای داده کاوی وضعیت تحصیلی آتی دانشجویان پیشبینی شده است. با بکارگیری این تکنیکها و تجزیه و تحلیل و تفسیر دادهها مدیران آموزشی میتوانند مشاورههای لازم را برای پیشگیری از رسیدن دانشجویان به وضعیت بحرانی بکار گیرند و همچنین مدیران به استفاده از ابزارهای کارا و موثر مصورسازی داشبورد مدیریتی نیاز دارند تا با نمودارها و اشکال مختلف تفسیر دادهها را بهتر درک کنند و بتوانند تصمیمگیری صحیحتری داشته باشند بنابراین میتوان این ابزارهای پشتیبان تصمیمگیری در سیستمهای آموزشی را مورد بهرهبرداری قرار داد و نقش مهمی را در ارتقاء سطح علمی دانشگاهها داشت.
۱-۴-هدفها و کاربردهای مورد انتظار از انجام تحقیق
هدف اصلی این تحقیق، بررسی کاربرد روشهای شبکهعصبی و درختتصمیمC5 درجهت شناخت بهتر وضعیت تحصیلی دانشجویان و پیشبینی پیشرفت تحصیلی آنها میباشد. عمده ترین هدفها در موارد زیر به آن اشاره شده است:
- خوشهبندی دانشجویان برای انجام پیشبینی بهینه
- بهکارگیری روشهای مختلف دادهکاوی جهت پیشبینی
- مقایسه روشهای مورد استفاده و انتخاب بهترین روش برای دادههای مورد بحث
- طراحی و پیادهسازی داشبورد مربوطه
۱-۵-جنبه جدید بودن و نوآوری طرح
این تحقیق از حیث هدف جزء تحقیقهای کاربردی است، زیرا فنون و نظریههای تدوین شده در تحقیقهای بنیادی پیشین در مورد دادهکاویآموزشی را به منظور حل مسائل اجرایی و واقعی به کار می برد. این تحقیق روشهای مختلف پیشبینی را بررسی و مقایسه میکند که استفاده از خوشهبندی قبل از بهکارگیری این روشها نوآوری تکنیک خواهد بود. همچنین طراحی داشبوردی برای پیشبینی پیشرفت تحصیلی دانشجویان میتواند به عنوان ابزاری برای نمایش و گزارش گیری استفاده شود.
۱-۶-قلمرو مکانی و زمانی تحقیق
این تحقیق در دانشگاههای سراسری و آزاد اسلامی استان قم انجام شده است. قلمرو زمانی تحقیق سال ۱۳۷۱ تا ۱۳۹۱ میباشد که در مجموع اطلاعات ۱۰۶۶۸ دانشجوی کارشناسی از دانشگاههای مذکور جمع آوری شد. جزییات بیشتر در فصل چهارم شرح داده خواهد شد.
۱-۷-روش تجزیه و تحلیل دادهها
برای اجرای این تحقیق نیازمند استفاده از تمامی دادههای مربوط به دانشجویان از جمله ویژگیهای فردی و آموزشی آنها میباشد اما فقط بخشی از این دادهها در اختیار این تحقیق قرار گرفت. پس از پالایش و آمادهسازی دادهها، برای آنکه بتوان پیشرفت تحصیلی دانشجویان را بهصورت دقیقتری پیشبینی کرد نیازمند آن هستیم که دانشجویان را در گروههای مجزا از هم قرار دهیم ما برای این کار از الگوریتم خوشهبندی k-means استفاده میکنیم و بعد از انجام خوشهبندی برای پیش بینی از روشهای شبکهعصبی و درختتصمیمC5 که از روشهای دقیق برای پیش بینی میباشند استفاده میکنیم و در انتها با بهره گرفتن از نتایج بدست آمده از پیشبینیها و نظر خبرگان، شاخصها را تدوین کرده تا بتوان براساس شاخصها داشبورد ارزیابی و پیشرفت تحصیلی دانشجویان را طراحی و پیادهسازی کنیم.
۱-۸-ساختار تحقیق
در این پایاننامه در فصل اول پس از تشخیص، توصیف مسائل و کلیات تحقیق در دومین فصل که حاوی مرور ادبیات موضوع میباشد به پیشزمینههای مطالعاتی مرتبط با موضوع تحقیق و مرور دادهکاوی و داشبورد ارائه شده در مقالات، کاربرد و ویژگیهای بررسی شده در آنها پرداخته میشود. در فصل سوم روش تحقیق شرح داده میشود و در فصل چهارم چگونگی آمادهسازی و پیشپردازش دادهها به منظور ارتقا کیفیت داده برای مدلسازی شرح داده میشود و با مدلسازی، گامهایی در خصوص پیشبینی برداشته میشود و در انتهای این فصل با تعیین شاخص مناسب، طراحی و پیادهسازی داشبورد انجام میگیرد. درنهایت در فصل پنجم به بررسی
تفسیر مراحل تحقیق پرداخته و نتایج حاصل را بیان می کنیم. در شکل ۱-۱ مراحل تحقیق نشان داده شده است.
شکل ۱-۱-ساختار تحقیق
۱-۹-تعاریف و اصطلاحات
در این قسمت به تعریف برخی از مهمترین اصطلاحات به کار گرفته شده درتحقیق،
پرداخته شده است:
دادهکاویآموزشی[۱]: یک حوزه علمی نوظهور است که به توسعه روشهایی برای کاوش و اکتشاف دانش در محیطهای آموزشی میپردازد(Baker&Yacef,2010).
شبکههایعصبیمصنوعی[۲]: به زبان سادهتر شبکههای عصبی، سیستمها و روشهای محاسباتی نوینی هستند برای یادگیری ماشینی، نمایش دانش، و در انتها اعمال دانش بهدست آمده در جهت بیشبینی پاسخهای خروجی از سامانههای پیچیده.
درختتصمیمC5: درختتصمیم یک ابزار برای پشتیبانی از تصمیم است، شیوه منحصر بفردی از ارائه یک سیستم است، که تصمیمگیریهای آتی را تسهیل و سیستم را به نحو مناسبی تعریف می کند. الگوریتم درختتصمیم C5 نسخهی بهبود یافته از C4.5 است .
خوشهبندی: خوشهبندی را میتوان به عنوان مهمترین مسئله در یادگیری بدون نظارت در نظر گرفت. خوشهبندی با یافتن یک ساختار درون یک مجموعه از دادههای بدون برچسب درگیر است. خوشه به مجموعهای از دادهها گفته میشود که به هم شباهت داشته باشند. در خوشهبندی سعی میشود تا دادهها به خوشههایی تقسیم شوند که شباهت بین دادههای درون هر خوشه حداکثر و شباهت بین دادههای درون خوشههای متفاوت حداقل شود.
داشبورد: کاربر میتواند آیتمهای گزارشی مانند گرید اطلاعاتی پویا، نمودار، گیج و گزارش چاپی را در یک صفحه کنار هم قرار دهد و بهصورت داشبوردهای اطلاعاتی مختلف نامگذاری و به کاربران خاص دسترسی نمایش دهد.
شاخص: شاخصها به منزله معیارهایی هستند که بهوسیله آنها میتوان کمیت، کیفیت و یا پیشرفت یک موضوع را اندازهگیری کرد. از آنجایی که بررسی و تجزیه و تحلیل موضوعات نیازمند اطلاعات مناسب است، شاخصها اولین پل ارتباطی کارشناس با موضوع مورد نظر است. وجود معیارها و شاخصهای معین به منظور بررسی عملکرد گذشته و هدفگذاری برای آینده، از جمله مواردی است که ممکن است فرایند تخصیص بهینه منابع و بازنگری در برنامهها، اهداف و سازوکارهای حصول به آنها را تسهیل کند.
پیشبینی[۳]: پیش بینی عبارت است از تجسم یک موقعیت در آینده براساس اطلاعات گذشته در واقع در پیش بینی براساس معیارهای کمی از دادههای به وقوع پیوسته در زمآنهای گذشته برای تخمین آینده استفاده میشود. هر تصمیمی به یک پیشبینی استوار است. تصمیمات دولتی بر پیشبنیهای اقتصادکلان، سیاسی و غیره، تصمیمات مهندسی بر پیشبینی میزان تحمل فشار توسط دستگاه و غیره، تصمیمات سرمایهگذاری بر پیشبینی ریسکها و غیره.
۱-۱۰-نتیجهگیری
در فصل حاضر تلاش شد تا به منظور ترسیم فضای کلی دادهکاویآموزشی و ضرورت اجرای این تحقیق و سوالاتی که در تحقیق حاضر در پی پاسخ به آنها هستیم تبیین شود.
فصل دوم:
مرور ادبیات تحقیق
۲-۱- مقدمه
در اواسط نیمهی دوم قرن بیستم گروهی از پژوهشگران آمریکایی دست به اقدام جالبی زدند. آنها کلیه اطلاعلاتی را که انسآنها تا قرن دوم میلادی از خورشید، گردش زمین، ماه، شب و روز و … داشتند بهصورتی قابل پردازش درآوردند و به شکل مجموعهای از دادههای عددی و سیمبلیک جهت کاوش آماده نمودند. با بهره گرفتن از روشهای دادهکاوی پس از حدود یک ماه خروجی الگوریتم بهصورت مجموعهای از روابط آماده شد. این روابط پس از تفسیر مجموعه قوانین حیرتانگیزی به شکل ذیل بهدست آورد:
- شیءای که زمین نامیده شده گرد است.
- شیء زمین به دور شیءای که خورشید نامیده شده میگردد.
- شیءای که ماه نامیده شده به دور زمین میگردد.
این اقدام باعث شد که این پژوهشگران به نتیجه مهمی دست یابند: با بهره گرفتن از دادهکاوی میتوان به دانشی دست یافت که خود انسان قرنها بعد این دانش را کسب خواهد کرد.
در این فصل با مقدمات علم دادهکاوی آشنا شده و سپس به تعاریف و دستهبندی داشبورد خواهیم پرداخت و در ادامه تحقیقات انجام شده تاکنون در زمینه دادهکاوی آموزشی و داشبورد و چند نمونه از مراحل طراحی داشبورد را مورد بررسی قرار خواهیم داد.
۲-۲-انگیزههای کاوش داده
به شکل ۲-۱ توجه کنید. دراین شکل دو نمودار وجود دارد. نمودار اول (نمودار پایین شکل) نشاندهنده تعداد تحلیلگرها است، با توجه به نمودار مشخص است با گذشت زمان تعداد تحلیلگرها در مقایسه با رشد داده تقریبا ثابت است. نمودار دوم نشاندهندهی رشد داده در طی زمان میباشد، از روی نمودار میتوان مشاهده نمود که حجم داده با گذشت زمان در حال رشد انفجارگونه است. به تفاوت بین این دو نمودار (فضای خالی بین دو نمودار) شکاف دادهای[۴] بین دو نمودار گفته میشود. فاصلهای که بین این دو نمودار است نشان میدهد که به مرور زمان تعداد دادهها نسبت به تعداد افرادی که بتوانند این دادهها را تحلیل کنند مرتبا در حال افزایش است، پس نیاز به ابزار مکانیزهای برای تحلیل داده، روزبهروز در حال افزایش است. برای تبیین سرعت رشد دادهها، میتوان به نمونههای ذیل اشاره نمود:
- مرکز ستارهشناسی VLBI دارای ۱۶ تلسکوپ بزرگ است که هر یک با سرعت ۱ گیگابیت بر ثانیه داده ستارهشناسی را برمبنای مشاهدات یک ماه ۲۵ روز تولید میکنند.
- شرکت مخابراتی AT&T با میلیاردها تماس در روز سروکار دارد. چنین دادهی عظیمی را نمیتوان ذخیره نمود – تجزیه و تحلیل آن میبایست بهصورت برخط[۵] بر روی جریان داده باشد.
- تیم جمع آوری وب کتابخانهی ملی آمریکا در ماه می ۲۰۰۸ اعلام نموده که کتابخانه بیش از۸۲٫۶ ترابایت داده گردآوری نموده است.
- موسسهی Ancestry.com ادعا میکند که در حدود۶۰۰ ترابایت اطلاعات شجرهنامهای از دادههای سرشماری آمریکا طی سالهای ۱۷۹۰ الی ۱۹۳۰ جمع آوری نموده است.
- در سال ۱۹۹۳ تمامی ترافیک اینترنت ۱۰۰ ترابایت برآورد نموده است (معادل با ۵ زتابایت درسال)
با توجه به مطالب مطرح شده، شاید بتوان اولین انگیزه کاوش داده را رشد روزافزون آن
دانست. در واقع رشد داده به حدی است که تنها در صورت وجود ابزار مکانیزه برای بررسی آن میتوان امیدوار به استفاده از آن بود. زیرا در غیر این صورت همزمان با تحلیل حجم کوچکی داده، حجم بسیار زیادی از همان داده در حال تولید شدن است که هرگز فرصتی برای کاوش آن وجود نخواهد داشت. به علاوه مشکلاتی دیگر که در ادامه اشاره شدهاند نیز وجود دارند:
- معمولا دانشی که در دادهها وجود دارد خیلی بدیهی، روشن و واضح نیست.
- تحلیل گران انسانی ممکن است هفتهها برای کشف اطلاعات باارزش از داده وقت صرف کنند و گاهی اوقات ممکن است با صرف زمان زیادی لزوما موفق هم نشوند.
- گاهی اوقات با وجود امکان جمع آوری داده، این کار انجام نمیشود. دلیل عدم جمع آوری داده معمولا عدم وجود دانش برای جمع آوری آن است. اینکه داده سرمایه یک سازمان است خود دانشی مهم و باارزش است که همیشه وجود ندارد.
شکل۲-۱: قیاس رشد حجم داده با رشد تعداد تحلیلگران داده
۲-۳-نیاز به دادهکاوی
روش سنتی تبدیل دادهها به دانش، متکی به تجزیه، تحلیل و تفسیر دستی است. این تجزیه و تحلیلهای دستی مجموعههای دادهای، کند، گران و بسیار موضوعی است. در حقیقت با رشد نمایی حجم دادهها، این نوع تجزیه و تحلیلها در بسیاری از حوزهها غیر عملی است. هنگامی که مقیاس بهکارگیری دادهها و استدلال بر مبنای آنها فراتر از ظرفیتهای انسانی میرود، امید به کمک فناوری کامپیوتر میرود. مساله استخراج دانش از پایگاههای دادهای بزرگ شامل مراحل بسیاری از دستکاری، بازیابی و پیشپردازش دادهها تا استدلالات ریاضی، آماری، جستجو و استنتاج میباشد(Wai-Ki Ching&Michael Kwok,2005).
۲-۴- چالشهای دادهکاوی
شاید بتوان مهمترین نقاط ضعف روشهای دادهکاوی را در سه مورد خلاصه نمود: وجود داده، صحت داده و کافی بودن ویژگیها. منظور از وجود دادهاین است که اصولا دادهای برای کاوش وجود داشته باشد و اینگونه نباشد که داده در محیط مورد کاوش استخراج و یا ثبت نشده باشد. متاسفانه این مشکل در بسیاری از محیطهای واقعی وجود دارد. صحت داده مبین آن است که داده جمع آوری شده صحیح بوده و نادرستی در آن وجود نداشته باشد. به عنوان مثال نباید جنسیت شخصی با نام «محسن» زن وارد شده باشد و یا اشتباه های دیگری که دلیل وجودی آنها خطا در ورود داده است، رخ دهد. کافی بودن ویژگیها بدین معنا است که ویژگیهای اخذ شده برای هر رکورد یا شیء برای یادگیری مدل و یا کشف نظم حاکم بر داده موثر، مناسب و کافی باشند. به عنوان مثال اگر هدف ما یادگیری یک مدل در دستهبندی کننده برای تشخیص بیماری دیابت در یک کلینیک است، ثبت ویژگی قندخون بسیار مهم است در حالی که وجود ویژگی میزان تحصیلات اهمیتی ندارد. توجه کنید چنان چه هر کدام از مشکلات سهگانه فوق در داده وجود داشته باشند هیچ یک از الگوریتمهای دادهکاوی، هر قدر هم که توانا باشند، نخواهند توانست نظم حاکم بر داده را تحت هیچ شرایطی بیابند.
در دادهکاوی چالشهای متفاوتی وجود دارد که در اینجا به بررسی آنها می پردازیم.
توجه کنید، منظور از چالش در اینجا مشکلاتی است که فرایند دادهکاوی و الگوریتمهای مربوط به این فرایند قادر به مواجهه با آنها میباشند. بنابراین سه مورد اشاره شده، نقاط ضعف و نه چالشهای موجود در دادهکاوی هستند. در دادهکاوی میتوان چالشها را به دو گروه اولیه و ثانویه تقسیم نمود. در ادامه به بررسی هر کدام از این دو دسته میپردازیم.
۲-۴-۱- چالشهای اولیه
چالشهای اولیه که انگیزه مهم به کارگیری فرایند دادهکاوی به جای روشهای سنتی تحلیل دادهها هستند عبارتند از: حجیم بودن دادهها، ابعاد بالای دادهها، طبیعت توزیع شده و ناهمگن دادهها. در ادامه به بررسی هر کدام از این چالشها میپردازیم
- حجم بالای داده: الگوریتمهای دادهکاوی با تعداد زیادی از رکوردها کار میکنند و حجم زیادی از دادهها را پردازش میکنند. به طور کلی هر چه تعداد رکوردهای موجود زیادتر باشد باعث میشود روشهای سنتی نتوانند این رکوردها را پردازش کنند. اگر تعداد رکوردها کم باشد فرایند تحلیل آنها بسیار ساده است و معمولا احتیاج به روشهای دادهکاوی نیست چرا که روشهای سادهتر از دادهکاوی نیز میتوانند جوابگو باشند. هرچه تعداد رکوردها بیشتر باشد باعث میشود علم دادهکاوی بتواند کارکرد درخشانتری داشته باشد. دراین موارد روشهای ساده، سنتی و روشهایی که ممکن است حتی مکانیزه هم نباشند و شاید از کامپیوتر در آنها استفاده نشود، نمیتوانند خیلی کارگشا باشند.
- ابعاد بالای دادهها: منظور از بعد همان فیلد یا ویژگی (خصیصه) میباشد. به طور کلی هر چه تعداد ویژگیها بیشتر باشد، باعث خواهد شد که تحلیل دادهها مشکلتر شود. هرچه تعداد ویژگیهای موجود در دادهها بیشتر باشد، نمیتوان با بهره گرفتن از روشهای سنتی بین آنها نظمی پیدا کرد. این درحالی است که در اینگونه مواقع الگوریتمهای دادهکاوی میتوانند اثربخشی و توان بالقوهای که دارا هستند را نشان دهند. در غیر این صورت از روشهای سادهتر هم میتوان برای پردازش دادهها استفاده نمود.
- طبیعت توزیع شده دادهها: به طور کلی طبیعت توزیع شده دادهها وجود دادهها در منابع پراکنده باعث میشود نتوانیم از روشهای سنتی برای پردازش دادهها استفاده کنیم. دراین مواقع به روشهای دادهکاوی نیاز داریم. این روشها باید قادر باشند دادههایی را که در مکآنهای مختلف ذخیره شدهاند به گونهای مدیریت کند که دانش نهفته را از نهان این دادههای پراکنده و توزیع شده استخراج کنند.
- طبیعت ناهمگن دادهها: در انباره دادهای که بهعنوان مخزن فرایند دادهکاوی عمل میکند، انواع مختلفی از ویژگیها وجود دارند. هر ویژگی محدوده مقادیر مشخص و ویژه ای اختیار میکند. کمینه و بیشینه مقادیر مربوط به بعضی از ویژگیها باهم تفاوت زیادی دارند. بعضی از ویژگیها، حوزه مقداری بسار وسیع بعضی دیگر حوزه محدودی دارند. دراین مواقع میتوان از مباحث نرمالسازی برای برخورد با این مشکل استفاده کرد. اما مسائل دیگری نیز در ارتباط با ویژگیها وجود دارند. بهعنوان مثال بعضی از ویژگیهای عددی (صحیح یا حقیقی) هستند، بعضی دودویی هستند، بعضی دیگر از ویژگیها اسمی هستند (مثل رنگ چشم). بعضی از ویژگیها نیز به گونهای هستند که در مورد آنها تنها میتوان گفت آیا باهم مساوی هستند یا خیر (مثل رنگ چشم)، گونهای دیگر از ویژگیها به این شکل اند که در مورد آنها علاوه بر مساوی یا نامساوی بودن میتوان بزرگتر و کوچکتر بودن را نیز تعیین نمود (مثل سطح تحصیلات)، در مورد برخی دیگر از ویژگیها علاوه برمساوی یا نامساوی بودن و تعیین کوچکتر و یا بزرگتری، میتوان از عملگرهای جمع و تفریق نیز استفاده نمود (مثل تاریخهای تقویم) و در نهایت در مورد گروهی دیگر از ویژگیها علاوه بر مساوی یا نامساوی، کوچکتر و یا بزرگتر بودن، همچنین جمع و تفریق آنها، میتوان عملگرهای ضرب و تقسیم را نیز به کار برد (مثل قد و وزن). درنتیجه به دلیل تنوع بالای ماهیت ویژگیها نمیتوان از روشهای سنتی برای پردازش دادهها استفاده نمود.
۲-۴-۲- چالشهای ثانویه
چالشهای ثانویه به آن دسته از چالشهایی گفته میشود که در قیاس با چالشهای اولیه از اهمیت کمتری برخوردارند. البته میبایست توجه نمود، این امر بدان معنا نخواهد بود که اهمیت این چالشها پایین است و یا حل مشکلات مربوط به آنها کار ساده و یا کمتاثیری است. در ادامه به بررسی این چالشها خواهیم پرداخت.
- کیفیت داده[۶] : مربوط به زمانی است که کیفیت دادهها پایین است. به عنوان نمونه هنگامی که دادههای ما شامل نویز، داده پرت[۷]، داده گمشده[۸] و داده تکرارشده[۹] باشد، شاهد پایین آمدن کیفیت دادهها خواهیم بود.
- عدم مالکیت داده[۱۰]: به دلایل گوناگون مانند توزیعشدگی ممکن است نتوانیم کل دادهها را یکجا در مالکیت داشته باشیم و فرایند کاوش را روی آنها انجام دهیم.
- حفظ حریم شخصی دادهها[۱۱]: مربوط به زمانی است که باید با رعایت حریم شخصی، دادهها را کاوش نماییم. فرایند کاوش میبایست بهگونهای انجام شود که بتوان بدون دسترسی به همه دادهها و با دیدن تنها بخش محدودی از آن فرایند دادهکاوی را پیشبرد. تفاوت حفظ حریم شخصی دادهها با توزیعشدگی و عدم مالکیت داده دراین است که در توزیعشدگی و عدم مالکیت داده ممکن است برای یادگیری مدل از همه دادهها استفاده شود ولی در اینجا ممکن است به بخشی از دادهها اصلا دسترسی وجود نداشته باشد، یعنی باید بتوانیم مدل خود را با همان دادههای در دسترس بسازیم.
- دادههای جریانی[۱۲]: به دادههایی گفته میشود که سرعت تولید آنها بالا است به گونهای که فرصت تحلیل آنها و ساخت مدل وجود ندارد چرا که حین انجام عملیات کاوش مرتبا دادههای جدیدی تولید میشوند. بنابراین سیستم باید به صورت برخط باشد تا بتواند خودش را تصحیح کند و قادر باشد مدل بهروزی را در اختیار قرار دهد.
۲-۵-معرفی دادهکاوی
برای درک کامل معنای دادهکاوی میبایست ابتدا تعریف درستی از معانی کلمات داده،
اطلاعات و دانش داشته باشیم. این تعاریف در ذیل ارائه شده اند.
داده: به هر گونه سیمبل، عدد، رقم، کاراکتر، رشته و یا سیگنال که معنای خاصی را به ذهن القاء نکند داده گفته میشود. داده پایهایترین مفهوم در دادهکاوی است که مبرا از هرگونه پردازشی میباشد.
اطلاعات: چنانچه در کنار عدد، کاراکتر و یا هر عنصر دادهای رشتهای به عنوان توصیفکنندهی معنای آن داده وجود داشته باشد، داده ابتدایی به اطلاعات تبدیل خواهد شد.
دانش: وجود یک رابطه میان دو عنصر اطلاعاتی مبین دانشی در آن زمینه است.
خرد: عالیترین سطح بینش است که توسط علائم و نمادهای قراردادی تبیین میشود.
میتوان شکل ۲-۲ را جهت نشان دادن سلسله مراتب ارزشی برای معانی داده، اطلاعات، دانش و خرد در نظر گرفت. همانگونه که در این شکل دیده میشود همزمان با افزایش ارزش معنایی برای مفاهیم مذکور حجم آنها کاهش مییابد که کاملا طبیعی است. به عبارت دیگر این بسیار بدیهی است که بتوان حجم بالایی داده را با تنها چند قانون توصیف و تبیین نمود. کاری که اصلیترین هدف در فرایند دادهکاوی است(صنیعیآباده،۱۳۹۱).
شکل ۲-۲ سلسله مراتب داده تا خرد
تعارف مختلفی برای دادهکاوی وجود دارد، شاید بتوان تعریف ذیل را به عنوان یک تعریف کامل و جامع برای دادهکاوی ارائه نمود:
استخراج خودکار دانش جدید و مفید از منابع دادهای حجیم موجود طی یک فرایند غیر بدیهی مشخص دادهکاوی نامیده میشود.
۲-۵-۱-منشاُ علمی
علم دادهکاوی از علوم مختلفی از جمله علم آمار، هوش مصنوعی، یادگیری ماشین، شناسایی الگو و پایگاهداده نشات گرفته است. در واقع این علوم ریشههای علم دادهکاوی هستند. ما میتوانیم از همه تکنیکهایی که در این علوم هستند بهره بگیریم بهگونهای که بتوانیم بفهمیم الگوریتمها و روشهایی که در دادهکاوی هستند چگونه عمل میکنند. الگوریتمهای موجود در هوش مصنوعی و علم آمار کمک شایانی به دادهکاوی میکنند. مباحث موجود در یادگیری ماشین و شناسایی الگو نیز با مباحثی که در دادهکاوی هستند همپوشانی قابل ملاحظهای دارند. به عنوان مثال الگوریتمهایی که یک مدل را یاد میگیرند یا الگویی را شناسایی میکنند، به خصوص اگر دادههای مورد پردازش عددی یا متنی باشند (سیمبلیک نباشند) معمولا وجه مشترک یادگیری ماشین و شناسایی الگو با دادهکاوی هستند. بهعلاوه، در علم پایگاهداده یک پایگاهداده بزرگ داریم و همین پایگاهداده را در دادهکاوی به عنوان انبار داده میشناسیم. این انبار داده باید حتما وجود داشته باشد تا یک الگوریتم دادهکاوی بتواند روی آن انبار داده کار کند. حال از تکنیکهایی که در پایگاهداده برای جمع آوری دادهها وجود دارد میتوانیم برای ایجاد این انبار داده جهت استفاده در فرایند دادهکاوی استفاده نماییم.
۲-۵-۲- معماری سیستم دادهکاوی
دادهکاوی فرایند اکتشاف اطلاعات و روندهای جالب نهفته از درون حجم بسیار زیاد دادههایی است که در قالب پایگاهدادهای، انبارهای دادهای، یا هرنوع انباره اطلاعاتی، ذخیره میشود. براساس این دیدگاه معماری یک سیستم دادهکاوی میتواند بهصورتیکه درشکل ۲-۳ نمایش داده شده است، درنظرگرفته شود.
شکل ۲-۳ معماری یک سیستم دادهکاوی
- پایگاه داده، پایگاه داده تحلیلی، یا مخزن اطلاعاتی دیگری
این قسمت شامل یک یا چند پایگاه داده، پایگاه دادهی تحلیلی یا مخازن اطلاعاتی دیگری است که دراینجا فنون یکپارچهسازی وپاکسازی دادهای ممکن است برروی دادهها به کار گرفته شود.
- سرویس دهندهی پایگاهداده
این سرویس دهنده مسئولیت واکشی داده را براساس درخواست دادهکاوی کاربر بر عهده دارد.
دامنه دانشی است که برای هدایت جستجوها ویاارزیابی جالب بودن نتایج الگوها به کار میرود. چنین دانشی میتواند دربرگیرنده سلسله مراتب مفهومی، باشد که برای سازماندهی صفات یا مقادیر صفات به سطوح مختلف انتزاع بهکارگرفته میشود (دانشی ازجمله غیرمترقبه بودن آنها)
این قسمت برای یک سیستم دادهکاوی بسیار ضروری است و درواقع دربرگیرنده مجموعهای
از پیمانههای کارکردی برای وظایفی همچون طبقهبندی، خوشهبندی، انجمنی، وتحلیلهای تکاملی است.
این قسمت نیز بهطورکلی دربرگیرنده مقیاسهای جالب بودن است و درتعامل با پیمانههای دادهکاوی قرار دارد و تمرکز اصلی آن، جستجو به دنبال الگوهای جالب است. ممکن است از حدود آستانه جالب بودن برای فیلتر کردن الگوهای استخراج شده استفاده نماید. بهصورت متناوب براساس روش بهکار گرفته شده در دادهکاوی میتوان پیمانه ارزیابی الگو را با پیمانه کاوش یکی درنظر گرفت. برای داشتن دادهکاوی کارآمدتر توصیه میشود ارزیابی الگوهای جالب تا حدامکان درفرآیند کاوش قرار گیرد تا دامنه جستجو محدود به الگوهای جالب شود.
این پیمانه ارتباط بین کاربر و سیستم دادهکاوی را برقرار میسازد و به کاربر اجازه میدهد تا با سیستم دادهکاوی در تعامل باشد. علاوهبراین، این قسمت برای کاربر قابلیت مرور بر پایگاهداده، انبار داده یا ساختارهای داده، الگوهای کشف شده و بصریسازی این الگوها را به صور مختلف، فراهم میکند.
۲-۵-۳- مراحل عملیات دادهکاوی
فرایند دادهکاوی شامل سه مرحله است:
- آمادهسازی داده
- یادگیری مدل
- ارزیابی و تفسیر مدل
در ادامه به توصیف هر کدام از این مراحل خواهیم پرداخت.
۲-۵-۳-۱-آمادهسازی داده
اولین و مهمترین مرحله در فرایند دادهکاوی آمادهسازی داده میباشد. هدف در این
مرحله تامین ورودی مناسب برای مرحله حیاتی یادگیری مدل است. دراین مرحله داده پردازش نشده از کل منابع دادهای موجود (که ممکن است توزیع شده نیز باشد) استخراج شده، سپس در مرحلهای مستقل مورد پردازش اولیه قرار میگیرد. خروجی در مرحله آمادهسازی داده عبارت است از داده پیش پردازش شده که امکان یادگیری مدل از روی آن وجود دارد.
همانگونه که گفته شد اولین گام در مرحله آمادهسازی داده استخراج داده از منابع دادهای موجود است. در این گام میبایست دادهها که در منابع مختلفی پراکنده شدهاند، بهصورت متمرکز در یک محل جمع آوری شده و یک انباره داده مرکزی ایجاد شود. دلیل اصلی این گردآوری آن است که در اغلب موارد داده بهصورت متمرکز در یک مکان وجود ندارد. بهعلاوه دادهها در بخشهای مختلف ممکن است در فرمتهای گوناگونی نیز ذخیره شده باشند. مثلا ممکن است بخشی از دادهها در یک پایگاهداده Oracel و بخش دیگر دادهها در یک پایگاهداده Sql ذخیره شده باشند. حتی ممکن است بخشی از دادهها در چند فایل اکسل یا حتی فایل متنی ذخیره شده باشند. گاهی اوقات دادههایی وجود دارند که روی کاغذ نوشته شدهاند و حتی تایپ هم نشدهاند. حال اگر قرار باشد فرایند دادهکاوی صورت پذیرد، باید دادههای موجود در منابع مختلف متحد شده و در یک فرمت مشخص در یک انبار داده مرکزی ذخیره شوند. در غیر این صورت فرایند دادهکاوی هر چقدر هم که هوشمندانه و بی نقص انجام شود، نخواهد توانست دانشی باارزش ودرخور توجه تولید نماید.
دومین گام در مرحله آمادهسازی داده، پیشپردازش دادههای استخراج شده است. مهمترین رسالت این گام زدودن مشکلات مختلفی که احتمالا در داده وجود دارند، خواهد بود. این مشکلات مانع از آن میشوند که مرحلهی یادگیری مدل بتواند نظم واقعی را در داده بیابد. در هر حال پس از پایان مرحلهی آمادهسازی داده، مجموعه دادهای آماده خواهد شد که فاقد مشکلات جدی و کلیدی است و امکان کشف دانش نهفته در آن با بهره گرفتن از مرحله یادگیری مدل وجود دارد. این مرحله در ادامه توصیف میشود.
۲-۵-۳-۲-یادگیری مدل
دراین مرحله با بهره گرفتن از الگوریتمهای متنوع و با توجه به ماهیت داده سعی ما بر این است که نظم های مختلف موجود در داده را شناسایی نموده و در فرمتی مشخص به عنوان دانش نهفته در داده ارائه کنیم. برای یادگیری مدل میبایست روشهای آن را بهدرستی شناخت تا بتوان در جای مناسب، روش درست را انتخاب نمود و بهکار بست. در بخش ۲-۸ انواع روشهای یادگیری مدل در دادهکاوی مورد بحث و بررسی قرار خواهند گرفت. قبل از آن به توضیح مرحله نهایی در دادهکاوی یعنی ارزیابی و تفسیر مدل میپردازیم.
۲-۵-۳-۳-ارزیابی و تفسیر مدل
در این مرحله دانش تولید شده در مرحله قبل ارزیابی شده و مورد تفسیر قرار میگیرد. منظور از ارزیابی دانش آن است که میبایست میزان صحت دانش تولید شده مشخص شود تا بتوان به آن اعتماد نمود و به صورت عملی از آن استفاده کرد. روشهای مختلفی برای ارزیابی دانش تولید شده، وجود دارند که رابطهی تنگاتنگی با روش یادگیری مدل دارند.
تفسیر مدل به معنای آن است که دانش تولید شده را مورد بررسی قرار داده و توجیهی معنایی جهت تبیین منطق آن ارائه نماییم. در صورت قابل تفسیر بودن دانش تولید شده، انجام این کار بسیار ساده است (به عنوان مثال زمانی که دانش بهصورت درخت یا مجموعه قوانین باشد). در مقابل امکان تفسیر دانش برای مواقعی که دانش به صورت غیرقابل تفسیر باشد (مانند دانش تولید شده توسط شبکههای عصبی و یا ماشین بردار پشتیبان) بسیار مشکلتر و شاید غیرممکن خواهد بود.
۲-۶- محدودیتهای دادهکاوی
دادهکاوی نیاز شما را به دانستن نجارت دادهها و روشهای تحلیل دادههای شما را حذف نخواهد کرد. درواقع دادهکاوی به تحلیلهای با یافتن الگوها و روابط بین دادهها کمک نخواهد کرد و علاوهبراین الگوهایی که توسط دادهکاوی کشف میشوند باید در دنیای واقعی وارسی شوند.
باید همواره به خاطر داشت که رابطه پیش گویآنهای که بهوسیله دادهکاوی یافته میشود، لزوما سبب انجام رفتاری خاص یا عکسالعمل نمیشود. دادهکاوی هیچگاه جای یک مدیر یا تحلیلگرحرفهای را نمیگیرد بلکه ابزار جدید و قدرتمندی را دراختیارشان قرار میدهد تا به کمک آن بتوانند در کارها و وظایف خود موفقتر و دقیقتر عمل نمایند بنابراین کاری که دادهکاوی میتواند انجام دهد استفاده از تجارب و یافتن الگوهایی دقیق و جدید میباشد که سبب توسعه و رشد آن شرکت خواهد شد(پناهی آذر،۱۳۸۵).
۲-۷- قابلیتهای دادهکاوی
اهداف سطح بالای دادهکاوی، پیشبینی و توصیف یا ترکیبی از پیشبینی و توصیف است. هدف پیشبینی متمرکز بر روی دقت در توانایی پیشبینی است و هدف توصیف، متمرکز بر روی درک فرایند تولید دادههاست. در پیشبینی، تا زمانیکه مدل قدرت پیشبینی دارد، کاربر توجهی به اینکه آیا مدل منعکس کننده واقعیت باشد ندارد. مثلا مدلی که شاخصهای مالی را به شکلی غیرخطی ترکیب میکند تا نرخ تبادل بازار را پیشبینی کند. از سویی دیگر، مدل توصیفی به عنوان انعکاس واقعیت تفسیر میشود (مثلا مدلی که متغیرهای اقتصادی و جمعیتی را به پیشرفتهای آموزشی مرتبط میسازد، به عنوان مبنایی برای توصیههای سیاست اجتماعی منتهی به تغییر استفاده میشود).
۲-۸- روشهای یادگیری مدل در دادهکاوی
روشهای مختلف کاوش داده در دو گروه روشهای پیشبینی و روشهای توصیفی طبقهبندی میشوند. در ادامه به شرح هر کدام از این دو گروه میپردازیم.
۲-۸-۱- روشهای پیشبینی
این روشها از مقادیر بعضی از ویژگیها برای پیشبینی کردن مقدار یک ویژگی مشخص استفاده میکنند. در متون علمی مختلف روشهای پیشبینی بانام روشهای باناظر[۱۳] نیز شناخته میشوند. روشهای دستهبندی[۱۴]، رگرسیون[۱۵] و تشخیص انحراف[۱۶] سه روش یادگیری مدل در دادهکاوی با ماهیت پیشبینی هستند.
۲-۸-۱-۱- دستهبندی
در الگوریتمهای دستهبندی مجموعه داده اولیه به دو مجموعه داده با عنوان مجموعه دادههای آموزشی[۱۷] و مجموعه دادههای آزمایشی[۱۸] تقسیم میشود، با بهره گرفتن از مجموعه دادههای آموزشی مدل ساخته میشود و از مجموعه داده آزمایشی برای اعتبار سنجی و محاسبه دقت مدل ساخته شده استفاده میشود. هر رکورد شامل یک مجموعه از ویژگیها است. یکی از این ویژگیها، ویژگی دسته نامیده میشود. در الگوریتمهای دستهبندی چون ویژگی دسته مربوط به هر رکورد مشخص است بنابراین جزء الگوریتمهای باناظر محسوب میشوند. الگوریتمهای باناظر شامل دو مرحله با عنوان مرحله آموزش و مرحله ارزیابی هستند. در مرحله آموزش، مجموعه دادههای آموزشی به یکی از الگوریتمهای دستهبندی داده میشود تا براساس مقادیر سایر ویژگیها برای مقادیر ویژگی دسته، مدل ساخته شود. شکل مدل ساخته شده به نوع الگوریتم یادگیرنده بستگی دارد. به عنوان مثال اگر الگوریتم یادگیرنده الگوریتم درختتصمیم[۱۹] باشد مدل ساخته شده یک درختتصمیم خواهد بود، اگر الگوریتم یادگیرنده یک دستهبندی مبتنی بر قانون[۲۰] باشد مدل ساخته شده یک مجموعه قانون خواهد بود. در هر صورت با نوجه به الگوریتم یادگیرنده مورد استفاده درمرحلهی آموزش، مدل ساخته میشود. پس از ساخت مدل در مرحله ارزیابی، دقت مدل ساخته شده به کمک مجموعه دادههای آزمایشی که مدل ساخته شده در مرحله آموزش این مجموعه دادهها را ندیده[۲۱] است، ارزیابی خواهد شد. از مجموعه دادههای آزمایشی در مرحله آموزش و ساخت مدل استفاده نمیشود.
۲-۸-۱-۲- رگرسیون
پیشبینی مقدار یک متغیر پیوسته براساس مقادیر سایر متغیرها بر مبنای یک مدل وابستگی خطی یا غیرخطی رگرسیون نامیده میشود. رگرسیون در علوم آمار و شبکههای عصبی به صورت وسیع مورد مطالعه و بررسی قرار میگیرد. در واقع یک بردار x بهعنوان ورودی داریم که به یک متغیر خروجیy نگاشت شده است. هدف محاسبه yیا همانF(x) است که از روی تخمین تابع مقدار آن محاسبه میشود. در اینجا میبایست به ازای یک بردارx ، مقدار دقیق y قابل محاسبه باشد. این کاربرد نیز مانند دستهبندی یک کاربرد از نوع پیشبینی یا با ناظر است. دلیل آنهم کاملاً روشن است، چرا که باید مقدار یک متغیر که در اینجا با نشان داده شده، از روی مقادیر متغیرهای دیگر که آن را با بردار x مشخص میکنیم، پیشبینی شود. بنابراین در رگرسیون هم دو مرحله آموزش و ارزیابی وجود خواهد داشت که طی آنها از مجموعه دادههای آموزشی و مجموعه دادههای آزمایشی استفاده میشود. روشهای موجود در رگرسیون بیشتر مبتنی بر ریاضیات آماری هستند. یک نوع خاصی از رگرسیون، پیشبینی سریهای زمانی[۲۲] است. در مسائل پیشبینی سریهای زمانی یکی از متغیرهای اصلی زمان میباشد. در این مسائل یک مجموعه ازx ها و y ها بهصورت یک تابع ریاضی وجود دارند. به عبارت دیگر به ازای هر xفقط و فقط یک y موجود میباشد. (درغیر این صورت زمان به عقب برخواهد گشت). هدف این است که به ازای یک x جدید مقدار y آن را پیشبینی کنیم. بهعنوان مثال تغییرات قیمت سهام ایران خودرو را از سه سال پیش تا به امروز به صورت یک نمودار داریم، حال میخواهیم ادامه این نمودار را برای مدتی مشخص ( مثلاً یک ماه آینده) پیشبینی کنیم. به این مساله پیشبینی سری زمانی گفته میشود که نوع خاصی از رگرسیون است. بدیهی است که رگرسیون لزوماً میتواند سری زمانی نباشد.
۲-۸-۱-۳-تشخیص انحراف
آخرین کاربرد مهم یادگیری با ناظر در دادهکاوی تشخیص انحراف است. در مواقعی از این کاربرد استفاده میشود که تنها نمونههای با یک برچسب یکسان، که معمولا وضعیت نرمال را نشان میدهد، دردسترس باشند و امکان مالکیت بر دادهها با تمامی برچسبهای موجود به دلایل مختلف وجود نداشته باشد. بنابراین چون فقط نمونههای دسته نرمال در اختیار است، الگوریتم برای وضعیت نرمال و با توجه به یک آستانه[۲۳] مشخص مدل میسازد و هرگونه تخطی از آن آستانه را به عنوان وضعیت غیر نرمال در نظر میگیرد و هشدار میدهد. دو نمونه از کاربردهای تشخیص انحراف عبارتند از: کشف کلاهبرداریهای کارتهای اعتباری[۲۴] و تشخیص نفوذ به شبکههای کامپیوتری.
۲-۸-۲- روشهای توصیفی
بعضی از اوقات هدف از دادهکاوی توصیف وضعیتی است که در پایگاه اطلاعاتی وجود دارد، بهگونهای که سبب افزایش دریافتهای ما از افراد، محصولات یا پردازشهایی شود که دادهها را در اولین گام تولید میکنند. توصیفی خوب از یک رفتار پیشنهاددهنده توضیحی برای آن میباشد و در نهایت توصیف، خود پیشنهاد میکند که کجا را برای یک توضیح باید شروع به جستجو نمود.
هر چند که مدلهای توصیفی پیشگو نیستند ولی برعکس آن صادق هستند. یعنی مدلهای پیشگو اغلب توصیفی هستند. در کاربردهای تجاری واقعی، دادهکاوی معمولا برروی پایگاههای دادهای خیلی بزرگ اعمال میشود، دلیل این امر را میتوان در دو مورد زیر خلاصه نمود.
- درپایگاههای دادهای کوچک، امکان یافتن الگوهای جالب و روابط با بررسی خیلی ساده نتایج به کمک ابزارهای کمکی همچون صفحه گسترده موجود است.
- اکثر فنون دادهکاوی نیاز به آموزش برروی دادهها و مثالهایی دارند که از قبل جواب
آنها مشخص میباشد، در پایگاههای دادهای به دلیل کوچک بودن محدوده اطلاعاتی، نمیتوان الگوهای مناسب و خوبی یافت.
روشهای توصیفی الگوهای قابل توصیفی را پیدا میکنند که روابط حاکم بر دادهها را بدون در نظر گرفتن هر گونه برچسب و یا متغیر خروجی تبیین نمایند. در متون علمی مختلف روشهای توصیفی با نام روشهای بدون ناظر نیز شناخته میشوند. روشهای خوشهبندی، کاوش قوانین انجمنی و کشف الگوهای ترتیبی سه روش یادگیری مدل در دادهکاوی با ماهیت توصیفی هستند. در ادامه به بررسی هر کدام از این روشها میپردازیم.
۲-۸-۲-۱- خوشهبندی
در مسائل خوشهبندی یک مجموعه رکورد داریم که هر کدام یک مجموعه از ویژگیها دارا هستند. یک معیار مشابهت میان آنها تعریف میکنیم. این معیار مشابهت در مسائل مختلف متفاوت است. به عنوان مثال اگر ویژگیها پیوسته باشند میتوان فاصله اقلیدسی را به عنوان معیار مشابهت در نظر گرفت. به این ترتیب هر رکورد را به صورت یک نقطه در فضای چند بعدی در نظر میگیریم. هر بعد، نماینده یکی از ویژگیهای مساله است. در مسائل خوشهبندی هیچگونه دسته خاصی وجود ندارد. در واقع ویژگی دسته نداریم و فقط براساس معیار شباهت گروهبندی و خوشهبندی دادهها صورت میپذیرد. خوشهبندی به این شکل انجام میشود که رکوردهایی که بیشترین شباهت را به یکدیگر دارند (با توجه به معیار شباهت تعریف شده) در یک خوشه قرار میگیرند. در نتیجه دادههای موجود در خوشههای متفاوت کمترین شباهت را به یکدیگر خواهند داشت. از آنجایی که برای الگوریتمهای خوشهبندی ِویژگی دسته تعریف نمیشود و رکوردها برچسب خاصی ندارند، بنابراین جزء الگوریتمهای بدون ناظر محسوب میشوند. خروجی الگوریتمهای خوشهبندی دوباره تحلیل خواهد شد تا در صورت امکان نظمی در خوشهها آشکار شود. نکته مهمی که میبایست به آن توجه نمود آن است که خوشهبندی همیشه براساس ویژگیهای ورودی نمونهها انجام میشود. به عنوان مثال در صورت خوشهبندی رکوردهای مربوط به دانشجویان یک دانشکده هر خوشه ممکن است بیانگر رکوردهایی باشد که از جنبههای مختلف به یکدیگر شبیه هستند. مثلا یک وضعیت ممکن است این باشد که دو خوشه به وجود آید که نشانگر دانشجویان زرنگ و تنبل باشند. ممکن است این دو خوشه بیانگر دانشجویان پسر و دختر باشند. حالت دیگر دو وضعیتی را نشان میدهد که دانشجویان را براساس شهر قبولی آنها به دو خوشه بومی و غیربومی تقسیم نموده است. میتوان وضعیتهای دیگری را نیز در نظر گرفت ( حتی تعداد خوشهها نیز میتواند بیشتر از دو باشد) این که کدامیک از حالات ذکر شده رخ میدهد، کاملاً به ویژگیهای انتخاب شده (فیلدهای اطلاعاتی دانشجویان) بستگی دارد و بهصورت مستقیم به الگوریتم خوشهبندی مرتبط نیست. هدف در همه الگوریتمهای خوشهبندی کمینه کردن فاصله درون خوشهای و بیشینه نمودن فاصله بین خوشهای میباشد. عملکرد خوب یک الگوریتم خوشهبندی زمانی محرز میشود که تا حد امکان خوشهها را از یکدیگر دورتر کند (یعنی رکوردهای موجود در خوشههای مختلف کمترین شباهت را به یکدیگر داشته باشند) و به علاوه رکوردهای موجود در یک خوشه بیشترین شباهت را به یکدیگر دارا باشند.
هدف از خوشهبندی یافتن گروههایی است که با یکدیگر بسیار متفاوتند ولی اعضای این گروهها بسیار به هم شبیهاند. در خوشهبندی، کلاس از پیش تعریف شدهای وجود ندارد. رکوردها بر اساس شباهتهای خودشان گروهبندی میشوند و افرادی که خبره هستند باید این خوشهها را تفسیر کنند. غالبا خوشهبندی پیشدرآمدی برای دیگر فنون دادهکاوی یا مدلسازی میباشد(Wai-Ki Ching&Michael Kwok,2005).
خوشهبندی به دو صورت انجام میشود:
- خوشهبندی انحصاری[۲۵] و خوشهبندی با همپوشی[۲۶]
در روش خوشهبندی انحصاری پس از خوشهبندی هر داده دقیقاً به یک خوشه تعلق میگیرد مانند روش خوشهبندی k-means ولی در خوشهبندی با همپوشی پس از خوشهبندی به هر داده یک درجه تعلق به ازای هر خوشه نسبت داده میشود. به عبارتی یک داده میتواند با نسبتهای متفاوتی به چندین خوشه تعلق داشته باشد. نمونهای از آن خوشهبندی فازی است.
- خوشهبندی سلسله مراتبی[۲۷] و خوشهبندی مسطح[۲۸]
در روش خوشهبندی سلسله مراتبی، به خوشههای نهایی براساس میزان عمومیت آنها ساختاری سلسله مراتبی نسبت داده میشود. مانند روش Single Link، ولی در خوشهبندی مسطح تمامی خوشههای نهایی دارای یک میزان عمومیت هستند مانند k-means. به ساختار سلسله مراتبی حاصل از روشهای خوشهبندی سلسله مراتبی دندوگرام [۲۹]گفته میشود(زهرا نوراله،۱۳۹۲).
با توجه به اینکه روشهای خوشهبندی سلسله مراتبی اطلاعات بیشتر و دقیقتری تولید میکنند برای تحلیل دادههایی با جزییات بیشتر پیشنهاد میشوند، ولی از طرفی چون پیچیدگی محاسباتی بالایی دارند برای مجموعه دادههای بزرگ روشهای خوشهبندی مسطح پیشنهاد میگردد.
یکی از روشهای معروف در این زمینه k-means میباشد، که علیرغم وابستگی به شرایط اولیه و همگرایی به نقاط بهینه محلی، تعدادN داده را به K خوشه با سرعت بالا، دستهبندی می کند.
۲-۸-۲-۲- کشف قوانین انجمنی
دراین کاربرد به دنبال پیداکردن یک مجموعه از قوانین وابستگی یا انجمنی هستیم که براساس آن قوانین بگوییم وجود کدامیک از مجموعه اشیاء بروجود چه مجموعه اشیاء دیگری اثرگذار است.
۲-۸-۲-۳- کشف الگوهای ترتیبی
دراینجا به دنبال کشف الگوهای ترتیبی هستیم که وابستگیهای ترتیبی محکمی را در میان وقایع مختلف نشان میدهند.
۲-۹- فنون دادهکاوی
تاریخچه فنون دادهکاوی بهطورکلی نسبت به دیگر روشها کمی متفاوت و برجستهتر میباشد. الگوریتم ژنتیک و شبکههای عصبی در راستای تلاش برای مدل کردن پردازشهای زیستشناسی بر روی کامپیوتر بهوجود آمدهاند. استنتاج براساس حافظه، فنی است که بهطور مستقیم از حوزه هوشمصنوعی آمده است و تحلیل پیوندی از نظریه گرافها و کاربردهای آن در ساختارهای دادهها در علم کامپیوتر بهوجود آمده است.
گونهها و تعداد زیادی الگوریتم دادهکاوی از حوزههای آماری، بازشناسی الگو، یادگیری ماشین و پایگاهدادهها وجود دارند. اغلب الگوریتمهای دادهکاوی بیشتر شامل ترکیبی از سه جزء زیر میباشند.
۱٫مدل
دربرگیرنده ۲ عامل میباشد. تابع مدل (مثلاً خوشهبندی) و شکل بازنمایی مدل (مثلاً: تابع خطی ازچندین متغیر و تابع چگالی احتمال گوسی) مدل شامل پارامترهایی است که براساس دادهها تعیین میشوند. کلمه مدل، کاربرد بسیار زیادی دارد بنابراین میتوان تفاسیر مختلفی نیز از آن داشت.
در گذشته رسم بر این بود که به دنبال مدل کردن روابط بودیم. بدون آنکه توجهی به جنبه تئوری آن داشته باشیم، بنابراین بهعنوان مثال میتوانستیم یک مدل برارزشی را برای مرتبط کردن متغیری به چندین متغیر توضیحی و بهدست آوردن مدل پیشگویآنهای دقیق بدون داشتن هیچگونه باور و اعتقادی به اینکه مدل نمایانگر مکانیزمی غیر رسمی است بسازیم یا اینکه بر این باور هستیم که مدل ساخته شده توضیحدهنده واقعیت مورد نظر میباشد، تا بدین ترتیب سبب افزایش یک متغیر و در نتیجه دیگر متغیرها بشویم. همچنین میتوان مدلهایی را که برای پیشگویی به کار میروند از مدلهایی که برای کمک به فهم مسئلهای به کار میروند ازهم جدا نمود.
۲٫معیار اولویت
پایهای برای اولویت یک مدل یا مجموعهای از پارامترها نسبت به مدل یا پارامترهای دیگر براساس دادههای موجود میباشد.
۳٫الگوریتم جستجو
مشخصات الگوریتم برای یافتن مدلها و پارامترهای به خصوص است. الگوریتم دادهکاوی معمولاً نمونهای از اجزای مدل اولویت جستجو میباشد. (مثلاً طبقهبندی برمبنای بازنمایی درختتصمیمگیری، اولویت مدل برمبنای احتمال دادهها که توسط جستجوی حریصانه با بهره گرفتن از مکاشفهای به خصوص تعیین میشود).
الگوریتمها اغلب برحسب بازنمایی مدل (مثلا خطی و سلسله مراتبی) تفاوت زیادی دارند و درالگوریتمهای یادگیری، بازنمایی مدل، معیار اولویت یا روش جستجو مورد استفاده به شکل روشنی بیان نمیشوند، بلکه آنها در توصیف الگوریتمی به خصوص ترکیب میشوند.
۲-۹-۱- یافتن خودکارخوشهها
یافتن خوشهها ساختمان مدلهایی است که به دنبال یافتن رکوردهای دادهای مشابه باهم هستند و این دسته ازشباهتها تحت عنوان خوشه مطرح میشوند. روشهای متعدد و مختلفی برای یافتن خوشهها وجود دارد که از آن جمله روشهای هندسی، آماری و شبکههای عصبی میتوان نام برد. خوشههای تشکیل شده میتواند نقطه شروعی برای شناسایی آنچه که درون دادهها هستند و استفاده بهینه از آنها را ارائه می کند.
۲-۹-۱-۱-نقاط قدرت این روش
این روش میتواند حتی زمانی که دانش قبلی از ساختار پایگاهدادههای ورودی نداریم به کار گرفته شود. بادادههای متنی، رقمی و بدون قید و شرط به خوبی کار میکنند. با انتخاب مسافتهای اندازه گیری متفاوت، روش خوشهبندی خودکار میتواند تقریباً روی هر نوع دادهای بهکار گرفته شود، به راحتی قابل اجرا میباشد. اکثر فنون یافتن خوردکار خوشهها نیاز به حداقل پیغامدهی در رابطه با دادههای ورودی دارند و هیچ نیازی به شناسایی فیلدهای خاصی بهعنوان ورودی ندارند.
۲-۹-۱-۲-نقاط ضعف
به سختی میتوان مسافت اندازهگیری و وزنهای صحیح را انتخاب نمود. کارایی الگوریتمهای این روش وابسته به انتخاب مسافتهای متریک یا دیگر اندازههای مشابه میباشد. حساسیت نسبت به پارامترهای اولیه دارد. در روش k-mean انتخاب اولیه مقداری برای k تعیین کننده تعداد خوشههایی است که یافت میشوند. اگر این تعداد با ساختار طبیعی داده جفت نشوند، این فرد به نتایج خوبی دست نخواهد یافت.
۲-۹-۱-۳- کاربرد
خوشهبندی، ابزار قدرتمندی است برای زمانیکه مواجح باحجم بسیار زیاد و پیچیدهای از مجموعه دادهها با متغیرهای بسیار و ساختارهای داخلی فراوان باشیم. درشروع بهکار یک پروژه دادهکاوی، خوشهبندی میتواند غالبا یکی از بهترین فنون برای اجرا باشد. همچنین اگر در روش یافتن خودکار خوشهها نواحی از دادهها و رکودهای مشابه وجود داشته باشند کار برای ادامه کار دیگر ابزار های دادهکاوی راحتتر خواهد شد.
۲-۹-۲- درختهای تصمیمگیری و استقرا قاعدهای
پوشش درختهای تصمیمگیر برای دادهکاوی هدایت شده و رکوردها را به مجموعههای یادگیر و جدا از هم که هرکدام نیز از واحد سادهای بر روی یک یا چند فیلد تشکیل شدهاند پیروی میکند.
۲-۹-۲-۱-نقاط قوت
قادر به تولید قوانین قابل فهم میباشند و با بهره گرفتن از زبانهای ساده مانند Sql قابل پیادهسازی هستند. توانایی انجام محاسبات را بدون نیاز به انجام محاسبات زیاد دارند. به طور کلی درختهای تصمیم به طور خاص انتخابی مناسب در دامنههایی هستند که درآنجا قواعدی برای یافت شدن وجود دارد. قادر به بکارگیری متغیرهای دنبالهای و بدون شرط هستند و متدهای درختتصمیمگیری برای این منظور تعریف شدهاند و تعریفی مشخص از اینکه چه فیلدهایی برای تصمیمگیری و پیشگویی مناسب هستند ارائه میدهند.
۲-۹-۲-۲-نقاط ضعف روش درختتصمیمگیری
درختهای تصمیمگیر برای وظایف تخمین زدن که هدف آنها پیشگویی مقادیر دنبالهدار همچون درآمد، بانرخهای قابل توجه میباشند ممکن است مشکل ایجاد کنند. البته تازمانیکه ورودیهای زیادی برای نمایش دادهای به گونهای که مشخصکننده روند مشخصی نباشند وجود داشته باشد.
۲-۹-۲-۳-کاربرد
روشهای درختتصمیمگیری انتخاب خوبی برای زمانی هستند که وظایف دادهکاوی بهصورت طبقهبندی رکوردها یا پیشگویی خروجیها باشد. باید زمانی از درختتصمیمگیری استفاده نمود که هدف انتساب هر رکورد به یکی از دستهبندیهای انجام شده باشد. درختهای تصمیمگیری نیز انتخابی طبیعی برای فهم راحتتر، توضیح و ترجمه به زبان طبیعی یاSql میباشند(Mehmed,2003).
۲-۹-۳- شبکههای عصبی
یکی از متداولترین فنون دادهکاوی است. شبکههای عصبی برای پیشگوییهای سری زمانی استفاده شوند. یکی از مزایای بارز شبکههای عصبی گستره کاربرد وسیع آنها میباشند. به خاطر امکانات آن، ابزارهایی که از شبکههای عصبی پشتیبانی میکنند برروی هر بستری به راحتی یافت میشوند. بهطور کلی شبکههای عصبی دارای دو مشکل عمده میباشند. یکی سختی فهم مدلهایی که میسازند و دیگری حساسیت خاص عناصر به غالب دادههای ورودی. بازنمایی مختلف دادهای میتواند نتایج متفاوتی تولید نماید بنابراین تنظیم دادهها قسمت مهمی در استفاده مطلوب از آنها میباشد.
۲-۹-۳-۱- نقاط قوت شبکههای عصبی مصنوعی
میتواند گستره بزرگی از مسائل را پوشش دهد. شبکههای عصبی روشهای کلی و عمومی را برای رهیافتهای مسائل مختلف در برمیگیرند، زمانیکه خروجی این شبکهها بهصورت دنبالهدار باشد در آن صورت بهصورت پیشگویانه عمل مینمایند. نتایج خوبی راحتی اگر برروی دامنههای پیچیده کار نمایند تولید مینمایند. بازیادشدن تعداد صنایع و کاربردهای آنها شبکههای عصبی نیز خود را پیشرفت میدهند که این نتایج در دامنههای پیچیدهتر همانند تحلیل سریهای زمانی و کشف تقلب که به سادگی قابل پیگیری توسط دیگر فنون دادهکاوی نمیباشند نمایانگراست. میتوانند از متغیرهای دنبالهدار و بدون قید و شرط استفاده کنند. هرچند که دادهها باید برای ورودی آماده شوند ولی شبکههای عصبی میتوانند خود را با هر نوع دادهای، یعنی دنبالهدار و بدون قید و شرط تطبیق دهند.
۲-۹-۳-۲- نقاط ضعف شبکهعصبی
نیازمند ورودیهایی دردامنه صفر و یک میباشند که این امر موجب پردازش اضافی در دادههایی میشود که به این صورت وجود ندارند. متاسفانه هیچ ضمانتی وجود ندارد که این راه حل ها تولیدکننده بهترین مدل از دادهها باشند.
۲-۹-۳-۳-کاربرد
شبکههای عصبی انتخاب خوب و مناسبی برای وظایف پیشگویی و طبقه بندی میباشد. شبکههای عصبی همچنین میتوانند برای دادهکاوی غیرجهتیافته مثلا خوشهبندی نیز بهکار روند. دراین حال شبکهای از رکوردهایی که شبیه بههم هستند شناسایی میکند اما هیچ توضیحی راجعبه آنکه چگونه اینها شبیه بههم هستند را نمیدهد. تنها زمانی شبکههای عصبی نمیتوانند بهخوبی کار کنند که ورودی آن دارای صدتا یا هزاران خصیصه باشد، چراکه تعداد زیاد این خصیصهها کار شبکهعصبی را در یافتن الگو دشوار میسازد و میتواند در طول یادگیری به نتایج قابل قبولی دست نیابد. شبکههای عصبی میتواند بهخوبی با درختهای تصمیمگیری کار نماید. درختهای تصمیمگیری میتواند انتخابهای مهم و خوبی از متغیرهای ورودی داشته باشد و این میتواند ورودی خوبی برای شبکهعصبی محسوب شود.
۲-۱۰- درجهبندی فنون مختلف دادهکاوی از جهت سختی و آسانی
در جدول زیر از ابعاد مختلف به درجهبندی فنون مختلف دادهکاوی میپردازیم.
جدول۲-۱ درجهبندی فنون مختلف دادهکاوی
|
سهولت در فهم مدل |
سهولت در یادگیری مدل |
سهولت در بکارگیری مدل |
عمومیت |
امکانات |
دردسترس بودن |
کاوش خوشه |
B+ |
B+ |
A- |
A- |
B- |
B |
درختهای تصمیم گیری |
A+ |
B+ |
A+ |
A |
A |
B+ |
شبکههای عصبی |
C- |
B- |
A- |
A |
A |
A |
۲-۱۱-تعریف داشبورد
در جدول ۲-۲ تعاریفی که در رابطه با داشبورد در ادبیات موضوع بیان گردیده، ارائه شده است.
جدول ۲-۲ تعاریف داشبورد در مرور ادبیات
نویسنده |
تعریف |
(Hu et al.,2011) |
داشبورد واسط کامپیوتر_انسانی است که تصمیمگیران، کسب و کارهای یکپارچه و شبیهسازی مهندسی و مدل بهینه را به یکدیگر متصل نموده تا ارائه اطلاعات را برای تصمیمگیری در سطح بالا تسهیل بخشد. |
(Yigitbasioglu and Velcu,2011) |
داشبورد وسیلهای است که جمع آوری، خلاصهسازی و ارائه اطلاعات از چندین منبع همچون ERP، نرمافزارهای هوشمند میپردازد. در نتیجه کاربر قادر است با یک نگاه شاخصهای کارایی و عملکرد همچون نرخ سفارشات، بازگشت و فروش را مشاهده نماید. داشبورد بهصورت کلی تمامی موارد خواسته شده را نمایش داده و امکان مشاهده جزییات هر قسمت را نیز به کاربر ارائه میدهد. |
(Rosow et al.,2003) |
داشبورد گزارشات تاریخی مورد تقاضا، زمان واقعی و پیشگویانه، هشدارها و توصیهها را ارائه میدهد و تصمیمگیران را قادر میسازد تا از دیدی کلی به جزییات سطح تراکنشها دست یابند. اشتراکگذاری این اطلاعات در بنگاه سبب بهدست آوردن دانش و تصمیمگیریهایی متناسب با زمان و با بهره گرفتن از دادهها خواهد شد. |
(Khorasani,2008 b) |
داشبورد کمک میکند تا اهداف را بهصورت یک گروه چید. همچنین چنین داشبوردی به تمرکز بر ماموریتها و وظایف و موارد مهم میپردازد و توسط آن میتوان چارچوبی جهت پیشرفت مداوم کیفی پروژهها ارائه نمود. |
(Harrington et al.,2006) |
داشبورد اجازه نظارت بر روندها و واکنش سریع را جهت انجام تغییرات در برنامه میدهد. همچنین با فراهمآوری مختصر اطلاعات، ارتباط با ذینفعان را جهت تصمیمگیری بهتر در سازمان ایجاد می کند. |
همانطور که در تعاریف اشاره شد، داشبورد نگاهی سریع به کارایی سازمان، توسط شاخصهای کلیدی کارایی دارد. داشبوردها صفحاتی هستند که در آن اطلاعات ضروری سازمان در پنلهایی نمایش داده میشود و به کاربران اجازه میدهد که دادههایی که برای کار نیاز دارند را ببینند.
بهطور مثال ممکن است که ما نیاز به داشبورد صبحگاهی برای زندگی شخصی خود داشته باشیم. شاخصهای کلیدی کارایی دراین داشبورد را میتوان سلامت، رفتار هر یک از اعضای خانواده، عملکرد چایساز و ماشین، دمای داخل و بیرون، وضعیت اتاق، لباسهای تمیز و تعداد ایمیلهای بررسی نکرده دانست. این نگاه کلی سبب میشود که سریعا بدانیم که آن روز چگونه خواهد بود. اما گاهی برخی سازمانها نیاز به داشبورد دارند تا اطلاعات جزئی را در یک لحظه داشته باشند و این چیزی فراتر از یک نگاه کلی است. در این حالت بهتر است که به جستجوی راه حلی برای گزارشدهی مناسب باشیم(Logi XML,2011).
انواع بسیاری از نرمافزارهای داشبورد وجود دارند. محدودهی این داشبوردها را میتوان از داشبوردهای اکسل تا داشبوردهای مبتنی بر وب دانست(Logi XML,2011).
داشبورد ایدهآل باید ۷ ویژگی را دارا باشد که از این قرار است(Park et al.2010):
- تمام اهداف را در برگیرد. داشبورد باید با اهداف خاصی توسعه داده شود و باید اطلاعات انتخاب شدهای را از منابع و شاخصهای کلیدی عملکردی در یک فضای محدود نمایش دهد. درست همانند کاری که داشبورد اتومبیل انجام میدهد. در واقع داشبورد میبایست معیارهای بسیار مهم و حیاتی را برای تصمیمگیرندگان دربر گیرد. نمایش محتوا و نوع نمایش نیز باید بهطور مناسب طراحی شود.
- منابعی که از طریق آن اطلاعات داشبورد نمایش داده میشود نیز باید بسیار دقیق بوده و از طریق دادههای علمیباشند. دادهها باید با معنای مناسبی نمایش داده شوند. بهطور مثال درصورتی که مدیران تصمیمگیرنده بخواهند تاخیرات را کاهش دهند، خیلی مهم است که داشبوردها بتوانند علل تاخیرات را نشان دهند و دادههای مرجع باید در اندازهگیری تاخیر کمک نمایند.
- از دیگر کارهای داشبورد این است که باید نمونههای عملی برتر و شاخصهای کارایی را نشان دهند. داشبوردهایی که به شاخصهای مناسبی وابسته شده باشند، تاثیر بهسزایی در پیشرفت فرآیندهای خروجی دارند.
داشبوردها، همانند ابزارهای نمایشی باید اطلاعات را بهطور شهودی نمایش دهند. در نتیجه شاخصهای خاص یا متغیرهای سببی خاصی را مشخص کرده و میتوانند هشدارهای مناسبی را ارائه دهند. توسط سیستمهای تشخیص الگو میتوان نمایش خوبی را برای داشبورد طراحی نمود. بهترین نمایش، نمایشی است که ساده و قابل فهم باشد.
- داشبورد باید مطابق با زمان باشد. این بدان معناست که دادهها باید زمان واقعی باشند. استخراج داده و فرآیندهای نمایش نباید تنها بهصورت تاریخی باشد. ارتباط بین منابع داده و داشبورد باید بهصورت دادههای خودکار باشد و اطلاعات نمایش داده شده باید اجازه بازخوردهای زمان واقعی بر روی فعالیتهای کنونی و آینده را داشته باشند. خصوصا زمانیکه داشبورد با مقیاسهای کیفی میباشد، بسیار مهم است که خروجیها زمان واقعی باشند.
- داشبورد باید ساختاری جهت نمایش سلسلهی منطقی از اطلاعات را داشته باشد، بسیار سخت است که تمام اطلاعات در یک صفحه قرار گیرد به همین دلیل داشبورد باید قابلیت جزیی شدن و یافتن اطلاعات بیشتر را داشته باشد.
- جهت دسترسی آسان به اطلاعات، داشبورد باید براساس اینترنت یا اینترانت به همراه رمز عبور باشد و در عین حال امنیت اطلاعات مورد نیاز را مدنظر قرار دهد. سیستمهای گزارشدهی کاغذی معایب زیادی دارند. این نوع سیستمها محدودیت در تحلیل، محدودیت در قابلیت جزییشدن، محدودیت در دامنه گزارشدهی و مشکل در نمایش داده با توزیع غیرنرمال را دارند. به دلیل اینکه ارائه کلیات و اطلاعات جزیی در یک نمایش دشوار است و سیستمها دقت کافی را ندارند. سیستمهای مبتنی بر وب قابلیت اتصال بین منابع داده و استخراج داده را خواهند داشت.
- داشبوردها در فرهنگ سازمانی بسیار موثر هستند تا بدین وسیله در تصمیمگیریها بتوان دادههای هدف را مدنظر قرار داد. تغییرات در رفتار و عمل جهت رسیدن به اهداف سازمان بسیار مهم هستند و این تغییرات را میتوان توسط داشبورد ایجاد نمود. اما تغییرات از جانب افرادی که دقت دادهها را زیر سوال میبرند، با مقاومت مواجه میشود. باید توجه نمود که جمع آوری، تحلیل و بازبینی دادهها مهمترین اثر را دارند و میتوانند تاثیر بهسزایی در فرهنگ سازمانی داشته باشند و تصمیمگیرندگان باید توانایی استفاده از دادههای داشبورد را داشته باشند.
بسیاری از سازمانهای ایرانی در حال حاضر سیستمهای اطلاعاتی پایه مانند حسابداری، انبار، حقوق و فروش را بهخوبی عملیاتی کردهاند. اما علیرغم وجود گزارشهای مفید در سطوح عملیاتی و مدیران میانی، مدیران ارشد معمولا بدون واسطه از گزارشهای سیستمی استفاده نمیکنند. حجم زیاد اطلاعات و عدمتلفیق و تحلیل اطلاعات سیستمهای مختلف دلیل اصلی این مسئله است(همکاران سیستم،۱۳۹۱).
داشبورد باید به مدیران کمک نماید تا الگوها، مشخصه ها و قواعد کسب و کار را که در طراحی اطلاعات دیداری مهم است، مشخص نمایند. اهداف داشبورد را میتوان اینگونه بیان نمود(Pauwels et al,2008):
- سازگاری[۳۰]
- نظارت
- طرحریزی
- ارتباط
سازگاری به روال مقیاسها و اندازهگیریهای مورد استفاده در بخشهای مختلف کسب و کار باز میگردد. داشبورد همچنین برای طرحریزی استفاده میشود و میتواند سناریوهای چه میشد اگر در آینده را شبیهسازی نماید. با انتخاب معیارهای مناسب برای داشبورد،علاوه بر ایجاد کارایی برای ذینفعان میتوان به سازمان ارزشدهی داد.
دو نوع ویژگی طراحی برای داشبورد وجود دارد:
- ویژگیهای عملکردی
- ویژگیهای دیداری
ویژگیهای عملکردی به آن دسته از ویژگیها گفته میشود که بهطور غیرمستقیم به چشم میآید، اما آنچه را که داشبورد قادر به توصیف آن است را مشخص می کند. در سمت دیگر ویژگیهای دیداری، چگونگی تاثیرپذیری و بازدهی اطلاعات به کاربر را نشان میدهد. ویژگیهای عملکردی داشبورد میبایست با اهداف آن متناسب باشد: ضعف تناسب این موضوع، سبب کاهش بهینهسازی تصمیمات و ارائه تصمیمات ناکامل برای تصمیمگیران میشود. بهطور مثال داشبورد ضعف اساسی در تحلیل سناریوها خواهد داشت. داشبورد همچنین ممکن است به عنوان ابزاری برای کاربران موجود باشد، طراحی نمایشی ضعیف (عدم استفاده از رنگهای مناسب، نمایش کم اطلاعات) سبب گیج شدن کاربران خواهد شد. داشبوردها با توجه به اصول ادراکی طراحی میشوند. این اصول ادراکی را میتوان در روانشناسی گشتالت یافت. روانشناسی گشتالت، روش درک ذهن ما از حفرهها را در عناصر ناکامل مشخص می کند. به دلیل روانشناسی گشتالت، استفاده از داشبوردها تشابه، تداوم و تقارن را به همراه دارد(Yigitbasioglu & Velcu,2011).
در سالهای اخیر، با توجه به فراهم آمدن زیرساختهای مورد نیاز سیستمهای پشتیبانی تصمیم از قبیل نرمافزارهای سازمانی در زمینههای مختلف، تلاش قابل توجهی از سوی فعالان کسب و کار و متخصصان نرمافزاری کشور برای ایجاد داشبوردهای مدیریتی و کشف دانش انجام گرفته است.
۲-۱۲- سابقه تحقیق
پس از تعیین مسئله، میبایست جاهای دیگری برای اطلاعات جستجو شوند. پروژههای مشابه ممکن است که مفید باشند. همچنین سوالات و روشهای تحقیقی که بایستی مورد استفاده قرار بگیرند، باید تدوین شوند.از آنجایی که تحقیق حاضر شامل دو قسمت دادهکاوی و داشبورد میباشد در ادامه نگاهی به سابقهی هر قسمت میاندازیم.
۲-۱۲-۱- سابقه دادهکاوی
دادهکاوی و کشف دانش در پایگاهدادهها از جمله موضوعهایی هستند که همزمان با ایجاد و استفاده از پایگاهدادهها در اوایل دهه ۸۰ برای جستجوی دانش در دادهها شکل گرفت.
شاید بتوان لوول (۱۹۸۳) را اولین شخصی دانست که گزارشی در مورد دادهکاوی تحت عنوان «شبیهسازی فعالیت دادهکاوی» ارائه نمود.همزمان با او پژوهشگران و متخصصان علوم رایانه، آمار، هوشمصنوعی، یادگیری ماشین و … نیز به پژوهش در این زمینه و زمینههای مرتبط با آن پرداختهاند.پژوهش جدی روی موضوع دادهکاوی از اوایل دهه ۹۰ شروع شد.پژوهشها و مطالعههای زیادی در این زمینه صورت گرفته، همچنین سمینارها، دورههای آموزشی و کنفرانسهایی نیز برگزار شده است.
امروزه در کشورهای در حال توسعه تحقیقات زیادی در زمینه دادهکاوی آموزشی در حال انجام است. از سال ۲۰۰۴ کنفرانسهای مهمی ازجمله ITS،UM،AIED،ICALT فعالیت خود را در این زمینه گسترش دادند، تا اینکه در سال ۲۰۰۸ اولین کنفرانس مستقل دادهکاوی آموزشی در شهر موترال کانادا برگزار گردید. همانطور که اشاره شد کار گروه تحقیقاتی دادهکاوی آموزشی از سال ۲۰۰۴ و با برگزاری کارگاه آموزشی تحلیل تعاملات یادگیرنده آموزگار با هدف بهبود نتایج آموزشی در حاشیه هفتمین کنفرانس سیستمهای آموزشی هوشمند در برزیل، فعالیت خود را آغاز نمودند. تاریخچه این کار گروه در کنار مقالات ارائه شده در کارگاههای آموزشی و کنفرانسهای برگزار شده، باعث تمایل پژوهشگران در استفاده
از روشهای دادهکاوی در سیستمهای آموزش و یادگیری شد. بنابه تحقیقات موجود روشهای دادهکاوی آموزشی اکثرا با روشهای عادی دادهکاوی متفاوت است، زیرا این حوزه نیازمند تشریح سلسله مراتب چند سطحی از دادههای آموزش و وابستگی ضمنی میان آنها میباشد. رومرو و همکاران ساختار دادهکاوی آموزشی را مانند شکل زیر نشان دادهاند(Romero & Ventura,2007).
شکل ۲-۴ ساختار دادهکاوی آموزشی
در پژوهشهای مختلف، پیشبینی و استخراج قوانین انجمنی، بررسی شده است. در پژوهش رومرو و همکاران بررسی جامعی از پژوهشهای این حوزه از سال ۱۹۹۵ تا ۲۰۰۵ ارائه شده است و خلاصهای از دستاوردهای هر یک از پژوهشها معرفی گردیده است.
بهروز مینایی بیدگلی به پیشبینی کارایی دانشجویان و نمرات پایانی آنها با بهره گرفتن از ترکیبی از روشهای ردهبندی پرداخته است(Minaei_Bidgoli & punch,2003). بیکر و همکاران استفاده نادرست دانشجویان از محیط آموزشی و رفتار غیرمسئولانه آنها را با بهره گرفتن از روشهای ردهبندی تشخیص دادهاند(Baker et al,2004). همچنین کتسینتیس کارایی دانشجویان را در محیط آموزشی در کنار ارتباط ویژگیهای تاثیرگذار در بهبود آن مورد بررسی قرار داده است (Kotsiantis et al,2004).
یودلسن دانشجویان را برحسب الگوی استفاده به دو گروه متمایل به خطا و متمایل به درستی تقسیمبندی کرده و با بهره گرفتن از نتایج این دستهبندی، علل معلول رویداد اشتباه در دانشجویان مورد بررسی قرار گرفته است(Yudelson et al,2006). کار دیگری که در این زمینه انجام شده است، استخراج قوانین انجمنی میباشد. قوانین انجمنی برای استخراج ارتباط میان ویژگیهای مختلف در پایگاهداده بهکار میرود. نتایج این الگوریتمها معمولا بهصورت مجموعهای از قوانی ارائه میشود که در آن yوx مجموعهای از ویژگیها هستند. ویبلزهل قوانین انجمنی را برای ساخت عاملهای توصیهدهنده به دانشجویان مورد استفاده قرار داده است. این عوامل فعالیتهای آموزشی مختلف را مناسب با الگوی استفاده دانشجویان به آنها توصیه کرده و میانبرهایی برای حذف منابع آموزشی غیرضروری به آنها پیشنهاد میکنند(Cocea & Weibelzahl,2006). هملنین قوانین انجمنی را برای برطرف کردن مشکلات دانشجویان در محیط آموزشی و ارائه مشاوره به آنها مورد استفاده قرار داده است(Hamalainen & Vinni,2006). زین نیز از این قوانین برای هدایت فعالیتهای دانشجویان و پیشنهاد محتوای آموزشی استفاده کرده است(Zaiane,2002). هونگ در پژوهشی بهطور خاص مناسبترین محتوای آموزشی برای ارائه به دانشجو را مشخص میکند(Hwang et al,2003). مرکلو روشی را برای تعیین ویژگیهای اصلی متمایز کننده دانشجویان از منظر کارایی ارائه کرده است(Markellou et al,2005).
در تمام مقالات و پژوهشهایی که در زمینه دادهکاوی صورت پذیرفته است، جمع آوری داده و پیشپردازش آن جزءاصلیترین مراحل میباشد و بیشترین زمان و هزینه را به خود اختصاص میدهد. ماده اولیه به کار رفته در دادهکاوی، داده است. از این رو سنگ بنای عملیات دادهکاوی خوب، بهکارگیری و دستررسی به دادههای اولیه خوب و مناسب است، که از آن به آمادهسازی یا پیشپردازش دادهها یاد میشود(Ramli,2005). فقدان داده باکیفیت، برابر با فقدان کیفیت در نتایج کاوش است و ورودی بد، خروجی بد به دنبال دارد.
شناخت عوامل (به عنوان مثال، متغیرهای پیشبینی) که بر پیشرفت تحصیلی دانشجویان تاثیر میگذارد یک ورودی مهم برای درک وبهبود سیستم آموزشی است. بسیاری از مطالعات، این مسئله را تجزیه و تحلیل کردهاند. آنها سعی در جمع آوری دادهها، بررسی انواع روشها داشتهاند تا رابطهی بین یک عامل و تاثیر آن در پیشرفت تحصیلی را درک کنند. بهعنوان مثال، برخی از محققان ارتباط بین دستاوردهای دانشگاهی و شرایط والدین را مورد مطالعه قرار دادهاند(Attaway & Bry,2004). برخی دیگر بر روی وضعیت اجتماعی_اقتصادی متمرکز شدهاند(Goddard,Sweetland & Hoy,2000). برخی نیز به بررسی تاثیر کمک استاد به پیشرفت تحصیلی پرداختهاند(Gerber & Fin,2001). درحالی که برخی دیگر نگاهی به اهمیت نوع دانشگاههای مختلف داشتهاند(Carpenter,1985). برخی از این مطالعات روابط قوی آماری بین عوامل فردی و پیشرفت تحصیلی براساس اطلاعات محدود شده به آنها را پایه و اساس مطالعات خود قرار دادهاند.
برخی محققان یک نمایش ساختگی از دستاوردهای دانشگاهی را درنظر میگیرند. برخی ادعا میکنند که روابط قویای بین نمرات دانشجویان و درآمد خانوادهها وجود دارد. نتایج بهدست آمدهی آنها اشاره به این دارد که سطح درآمد، اثر مثبتی در نمرات و دستاوردهای دانشگاهی دارد(Carneiro,2008). از سوی دیگر، برخی از محققان دیگر اعلام کردند که درآمد بر پیشرفت تحصیلی یا دستاوردهای علمی به طور مستقیم اثر ندارد، اما اعتقادات و نگرش خانواده اثرگذار است که به نوبهی خود بر نتیجهی نهایی اثر میگذارد(Davis-Kean,2005). بهعنوان مثال، خانوادههای با درآمد بالا میتوانند برای فرزندان خود تدریس خصوصی فراهم کنند که در پایان ممکن است به پیشرفت تحصیلی بالاتری منجر شود(بهطورکلی، اما نه همیشه).
در مطالعهی نسبتا اخیر روشهای مختلف، انتخاب ویژگی در روابط را با پیشبینی عملکرد مقایسه میکند. بهطورکلی، این مطالعه جذابیت خاصی در آن نهفته بود که (۱) چندین ویژگی جالب توجه از جمله بینایی دانشجویان، عادات غذایی دانشجویان و معمولا عمق بیشتر ویژگیها شرح خانوادهی دانشجویان را شامل میشد و (۲) معیارهای جایگزینی برای تجزیه و تحلیل طبقهبندی عملکرد ارائه شد(Baha,Emine & Dursun,2012).
مینایی و همکاران در سال ۲۰۱۲ شناسایی عوامل موثر بر افت تحصیلی با بهره گرفتن از قوانین انجمنی و تحلیل خوشهای را مورد بررسی قرار دادهاند (مینایی و همکاران،۲۰۱۲). صفاریان و همکارش پیشبینی رتبه داوطلبان کنکور سراسری دانشگاهها را با بهره گرفتن از روشهای دادهکاوی انجام دادند که نتایج بهکارگیری الگوریتم شبکه عصبی نشان داد که با دقت بالای ۹۰ درصد، میتوان رتبه داوطلبان در کنکور سراسری را تخمین زد(صفاریان و همکارش،۲۰۱۰(. طاهری و هکاران پیشبینی موفقیت و یا عدمموفقیت دانشجویان در درس مبانی برنامهنویسی را بررسی کردند. در این مقاله تکنیکهای دادهکاوی بر روی دادههای مربوط به درس مبانی برنامهنویسی اعمال و پیشبینیهای مناسبی در مورد موفقیت یا عدمموفقیت دانشجو در این درس ارائه شده است(طاهری و همکاران،۲۰۱۰). خیرآبادی و همکاران به بررسی و خوشهبندی نتایج ارزشیابی اساتید دانشگاه با بهره گرفتن از روشهای دادهکاوی پرداختند در این مقاله دو روش ارزشیابی تلفیقی و ارزشیابی الکترونیکی با هم مقایسه شدهاند(خیرآبادی و همکاران،۲۰۱۰).
۲-۱۲-۲- سابقه داشبورد
به لحاظ تاریخی، ایدهی داشبوردهای دیجیتال پس از کارهایی که در دهه۱۹۷۰ با مطالعهی سیستمهای پشتیبانی تصمیم آغاز شدند مطرح شد. در اواخر ۱۹۹۰، با بلندشدن موج وب، داشبورد دیجیتال شروع به ظهور کرد(Maseri et al.,2007) و در نهایت داشبوردها بعد از Enron در سال ۲۰۰۱ روی کار آمدند(Few,2006 ). تاکنون تعریف دقیقی از داشبورد توسط دانشگاهیان و برنامهنویسان ارائه نشده است. ارائه کنندگان، داشبورد را از دیدگاه مشخصات محصولشان میبینند. محققان به انواع مختلف کاربردهای داشبورد، و مراحل مختلف آنها در توسعهشان توجه مینمایند ( Pauwels et al.,2008 ). میتوان گفت، داشبورد واسطی گرافیکی شامل متریکهای عملکردی کسب و کار جهت تصمیمگیریهای مدیریتی است. این تعریف دیدی قابل تصور برای داشبورد ارائه میدهد.
مدنیک و همکارانش در تحقیق خود داشبوردی ارائه نمودهاند که این داشبورد دادههای تجاری قبلی، ایستا و اخبار فعلی را برای سیاستگذاران، دانشگاهیان، متخصصین IT و دیگر ذینفعان را فراهم میآورد و در تحلیل دادههای CERT کاربرد دارد. به کمک این داشبورد، کاربران قادر به مقایسه بازار در سطح جهانی برای مواردی چون تهدیدات و آسیبپذیریهای امنیتی در بین کشورها و مناطق مختلف میباشند(Madnick et al.,2009).
در تحقیقی که به منظور استفاده درمانگاهی است، به دادهکاوی جهت آزمایش طبقهبندی اهدا خون و گسترش این امر برای تسهیل در مدیریت بهموقع اهدا خون پرداخته شده است و از داشبوردی که دربرگیرندهی پروفایل خون و دادههای جغرافیایی است، استفاده شده است. الگوریتم امتیازدهی پیادهسازی شده در این داشبورد به تخصیص منابع و بودجه کمک شایانی خواهد نمود. جهت بهبود دادهها از درختتصمیم استفاده شده است. چنین داشبوردی مدیریت و طرحریزی فعالیتهای اهدای خون را برحسب مشخصه های کلیدی جهت تصمیمگیری امکانپذیر می کند(Sundaram&Santhanam,2011).
در مقالهای با بررسی دادههای پروژههای تحقیقاتی بینالمللی به پیشگویی فعالیتهای آنلاین دانشجویان پرداخته شده است. تحلیل دادههای بهدست آمده از ردیابی LMS ، ۱۵ متغیر را که با نمرات نهایی دانشجویان در ارتباط است را بهدست آورد. مدلسازی رگرسیون مدلی قابل پیشبینی را ارائه نموده است. متغیرهای کلیدی در این تحقیق عبارتند از: تعداد کل پستها، تعداد کل ایمیلهای ارسال شده و تعداد کل تکالیف کامل شده که نقش مهمی در نمره نهایی دانشجو دارند. این تحقیق بر اطلاعات استخراج شده دادههای دانشجویان درLMS تاکید داشته و با بهدست آوردن این اطلاعات به توسعه داشبوردی سفارشی شده پرداخته است تا بدین وسیله بهصورت بلادرنگ دادههای دانشجویان را استخراج نماید(Macfadyen and Dawson,2009 ).
در تحقیقی با هدف تعیین موضوعات بحرانی و مهمی که سازمان در پیادهسازی داشبورد باید مدنظر قرار دهد، این نتایج حاصل شده است که: داشبورد انعطاف پذیر بوده و به کاربران اجازهی تغییر فرمتهای ارائه را به طور متناوب خواهد داد.(Yigitbasioglu and Velcu,2011).
در مقالهای بیان گردید که داشبورد باید در یک صفحه تک باشد، اما به دادهها اجازه جزیی شدن دهد.(Few ,2006).کاردینایل در تحقیقی به این نتیجه رسید که کاربرانی که دانش حسابرسی پایین دارند با تصاویر و کاربرانی که دانش حسایرسی بالا دارند، با جداول تصمیم بهتری میگیرند.(Cardinaels,2008).
۲-۱۳ بررسی مراحل داشبورد در چند نمونه
در جدول زیر مراحل طراحی داشبورد را در چند نمونه مورد بررسی قرار داده شده است.
جدول ۲-۳ مراحل طراحی داشبورد
نویسنده |
مراحل طراحی داشبورد |
(Patterson,2010) |
- تراز کردن بازاریابی با خروجیهای کسب و کار
- تعیین معیارها
- مستند سازی زنجیره دادهها
- بدست آوردن دادهها
- تعیین اعتبار و بازبینی
|
(Barr,2011) |
- تمرکز بر ۲ یا ۳ مورد از نتایج مهمی که بر کارایی اثر میگذارد.
- انتخاب معیارهای کارایی برای موارد مرحله یک
- تعیین چگونگی محاسبه معیارهای مهم و همچنین تعیین دادههای مورد نیاز
- فهرست نمودن منابع دادههای مورد نیاز برای معیارهای مهم و راهاندازی اتصالاتی به داشبورد برای این دادهها
- ایجاد نمودارها در داشبورد به طور سیستماتیک برای هر یک از معیارها و تنظیم آنها در یک داشبورد واحد
|
(Vovsi,2010) |
- ایجاد بدنه داشبورد
- پر نمودن بدنه با معیارها
- نمایش داشبورد
- هدایت به نیازمندیها جزیی
- پیروی از رویکرد توسعه تکرارشونده با کاربران کسب و کار
- اعتباردهی داشبورد با تیم کارکردی متقابل
|
۲-۱۴-نتیجه گیری
دراین فصل به پیش زمینههای مطالعاتی مرتبط با موضوع تحقیق پرداخته شد. درابتدا به بحث نیاز و نگرش بر دادهکاوی پرداخته شد و سپس انواع محدودیتها و قابلیتها و فنون دادهکاوی مورد استفاده در تحقیق و مراحل عملیات دادهکاوی بهصورت مختصر شرح داده شد. تعاریف ارائه شده از داشبورد با توجه به ادبیات موضوع بیان گردید و به مرور دادهکاوی آموزشی و داشبوردهای ارائه شده در مقالات، کاربرد ویژگیهای بررسی شده در آنها پرداخته شد. در آخر مراحل طراحی داشبورد در چند نمونه بررسی گردید.
فصل سوم:
روش تحقیق
۳-۱- مقدمه
روش تحقیق ابزاری برای دستیابی به واقعیت به شمار میرود. روشهای متعددی برای تحقیق وجود دارند که هر کدام تا اندازهای به کشف قوانین علمی کمک میکنند. در هر تحقیق، تحقیقگر تلاش میکند تا مناسبترین روش را به منظور کشف واقعیت انتخاب نماید. بنابراین، شناخت واقعیتها و پی بردن به روابط میان آنها مستلزم انتخاب روش تحقیق مناسب است. انتخاب روش تحقیق به عواملی مانند موضوع تحقیق، اهداف و سوالات تحقیق، قلمرو تحقیق و نیز امکانات اجرایی بستگی دارد. هدف از انتخاب روش تحقیق آن است که تحقیقگر مشخص نماید چه شیوه و روشی را اتخاذ نماید تا او را هر چه دقیقتر، آسانتر، سریعتر و ارزانتر در دستیابی به پاسخ پرسشهای تحقیقگر کمک کند.
در این فصل به روش تحقیق پرداخته میشود و با توجه به اینکه دادهها در فرایند دادهکاوی نقش مهمی را ایفا مینمایند تشریح جامعی از نحوهی جمع آوری دادهها و تعریف متغیرهای مورد استفاده در این تحقیق ارائه خواهد شد. همچنین در ضمن مطرح نمودن استاندارد دادهکاوی، که قسمتی از ساختار تحقیق بر اساس متدولوژیCRISP[31] است، تشریح تمامی مراحل بهصورت گامبهگام آمده است و با توجه به بهرهگیری از الگوریتم k-means و شبکهعصبی و درختتصمیمC5 توضیحاتی در این مورد ارائه شده است. پس از انجام دادهکاوی، نوبت به انتخاب شاخص و پیادهسازی داشبورد آن میرسد که نهایتاً در پایان توضیحاتی در این مورد بیان گردید.
۳-۲- چارچوب تحقیق
در جهت اینکه بتوانیم ساختاری را برای تحقیقمان در فصل چهارم طراحی نماییم شکل زیر این مراحل را نشان میدهد.
درک مساله کسب وکار
پیاده سازی داشبورد
شناسایی و جمع آوری اطلاعات مورد نیاز
بدست آوردن شاخص های مناسب
داده کاوی مساله
شکل ۳-۱ مراحل اصلی پیشنهادی برای اجرای تحقیق
۳-۳- روش تحقیق
پایهی هر علمی روش شناخت آن است و اعتبار و ارزش قوانین هر علمی به روش شناختی مبتنی است که در آن علم بهکار میرود. روشهای تحقیق را با معیارهای مختلف دستهبندی مینمایند، که دراین فصل به موارد استفاده شده دراین تحقیق می پردازیم:
۳-۳-۱- طبقهبندی تحقیق برمبنای هدف
این نوع طبقهبندی به پنج دسته زیر تقسیم میشود:
- تحقیقات بنیادی
- تحقیقات کاربردی
- تحقیقات ارزیابی
- تحقیقات توسعهای
- تحقیقات علمی
هدف اساسی در تحقیق کاربردی پیداکردن راهحل برای مسائل واقعی، توسعه دانش کاربردی در یک زمینه خاص و ابداع و اختراع روشها و وسائلی برای انجام کارهای عملی است. این تحقیق از حیث هدف جزء تحقیقهای کاربردی است، زیرا فنون و نظریههای تدوین شده در تحقیقهای بنیادی پیشین در مورد دادهکاویآموزشی را به منظور حل مسائل اجرایی و واقعی به کار میبرد و تاکید بر کاربرد عملی دانش موجود در حوزه تحقیق دارد.
۳-۳-۲- طبقه بندی تحقیق بر مبنای روش
غالب مطالعات تحقیقی یک روش یا استراتژی را که شامل رویههای مشترک خاصی است نشان می دهند که خود به نه دسته زیر تقسیم میشوند:
- تحقیقات تاریخی
- تحقیقات توصیفی
- تحقیقات پیمایشی
- تحقیقات محتوایی
- تحقیقات میدانی
- تحقیقات موردکاوی
- تحقیقات همبستگی
- آزمایش میدانی
- تحقیقات علی
با توجه به اینکه این تحقیق به بررسی و توصیف شرایط موجود میپردازد در دسته تحقیقهای توصیفی قرار میگیرد.
۳-۳-۳- طبقهبندی تحقیق بر مبنای نوع دادهها
براساس این طبقهبندی به دو دسته تحقیق میتوان اشاره کرد:
با توجه به اینکه تمام دادههای این تحقیق در قالب اعداد و ارقام هستند، تحقیق حاضر از نوع کمی است.
۳-۴- جامعه آماری
برای دستیابی به اهداف تحقیق ابتدا بایستی جامعهای را که قصد داریم نمونه مورد مطالعه را از آن انتخاب کنیم، تعریف نماییم. این تعریف باید به اندازهای روشن باشد که هیچ نوع سوالی درباره قابلیت تعمیمپذیری یا کاربرد نتایج به هر یک از اعضای جامعه مطرح نباشد.
جامعه آماری به دو نوع تقسیم میشود، محدود و نامحدود. اگر جامعه مقادیری از تعداد محدود و ثابتی تشکیل شود و پایانپذیر باشد آن را محدود و در غیر این صورت، وقتی که جامعه از یک ردیف بیانتهای مقادیر تشکیل شده باشد، آن را نامحدود گویند.
جامعه آماری مورد استفاده دراین تحقیق دادههای مربوط به اطلاعات دانشجویان دانشگاههای سراسری و آزاد اسلامی استان قم که در طی سالهای ۱۳۹۱-۱۳۷۱ در دانشگاهها جمع آوری شده است میباشد. همچنین قابل ذکر است که اطلاعات دانشجویان در قالب جدول میباشند، که در پایگاهداده ذخیره شده است. جداول دو پایگاهداده باهم ترکیب شدهاند و فیلدهای اضافی که در این تحقیق مورد نیاز نبوده است از فایل دادهها حذف گردیده و یا در صورت لزوم متغیر جدید از روی متغیرهای موجود ایجاد گردیده است. کلیهی فیلدها و جزییات فرآیندهای صورت گرفته بر روی دادهها به طور کامل در فصل چهارم شرح داده خواهد شد.
۳-۵- نمونهگیری
نمونه آماری عبارت است از مجموعهای از نشانهها که از یک قسمت، یک گروه یا جامعهای بزرگتر انتخاب میشود، بهطوریکه این مجموعه معرف ویژگیهای آن قسمت، گروه یا جامعه بزرگتر باشد. با توجه به جامعه آماری بیان شده به شرح فوق، در این تحقیق دانشجویان کارشناسی که سه سال تحصیلی خود را گذراندهاند به عنوان نمونه در نظر گرفته شده است.
۳-۵-۱- روش نمونهگیری
روش نمونهگیری مناسب روشی است که به تمام اعضای جامعه شانس انتخاب شدن بدهد. یعنی تمام اعضا با شانس برابر (در نمونهگیری تصادفی ساده) در تشکیل نمونه نهایی سهیم باشند.
در تحقیق حاضر به دلیل استفاده از روش دادهکاوی و داشتن هرچه بیشتر تعداد نمونهها در این روش، از روش نمونهگیری استفاده نشده و تمام دادههای موجود به شرح فوق را به عنوان دادههای این تحقیق به کار بردهایم.
۳-۶- روش ها و ابزار گردآوری و تحلیل دادهها
جهت جمع آوری دادههای لازم از جامعه یا نمونه باید از ابزارهای مناسب استفاده گردد.
نوع این ابزارها تابع عوامل گوناگونی از جمله ماهیت و روش تحقیق است. بنابراین با توجه به
روش ذکر شده، از روشهای زیر استفاده میشود:
- مطالعات کتابخآنهای و جستجوی اینترنتی
- روش میدانی
- مصاحبه
دراین تحقیق گردآوری دادهها و اطلاعات با مطالعه اطلاعات موجود در پایگاهداده دانشگاههای مورد نظر انجام شده است. این اطلاعات شامل مشخصات شخصی، دانشگاهی، درسی دانشجویان میباشد. براساس بررسی تحقیقهای مشابه قبلی، برای این دادهها مشخصههایی تعیین شدهاند، درنتیجه با توجه به اینکه هدف این تحقیق پیشبینی پیشرفت تحصیلی دانشجویان میباشد، مشخصههایی از عوامل اصلی هستند که بر میزان پیشرفت تاثیر بسزایی داشته و دراین تحقیق نیز انتخاب شدهاند.
پس از جمع آوری دادهها از پایگاهداده اطلاعات دانشجویان در قالب فایل my Sql server، جهت آمادهسازی دادهها کدنویسیهایی در Sql server 2014صورت گرفت و البته بخشی از این آمادهسازی نیز در نرمافزار excel 2013انجام گرفته است. جزییات بیشتر در فصل چهارم آورده شده است.
۳-۷- ساختار اجرایی تحقیق
با توجه به این نکته که پایگاههای داده، غنی از اطلاعات پنهانی هستند که میتوان از آنها در بسیاری از موارد از جمله تصمیمگیریهای هوشمندانه، استفاده بهینه نمود. هدف از این تحقیق کاوش در پایگاهداده دانشگاه با بهره گرفتن از روشهای دادهکاوی به منظور خوشهبندی و انجام پیشبینی با توجه به خوشههای دانشجویان و نهایتاً استفاده از نتایج کار در کمک به تدوین شاخصها و طراحی داشبورد میباشد.
درانجام این تحقیق از نرمافزارهایMatlab ،Qlick View 11 ،Clementine 12 استفاده شده است. از نرمافزار Matlab که پرکاربردترین نرمافزار آمار و ریاضی میباشد برای تعیین تعداد خوشهها و از نرمافزارClementine 12 به عنوان ابزار دادهکاوی استفاده شده است.
این ابزار به دلیل ماهیت گرافیکی کاملا منعطف بوده و به طور کلی از غالب روش دادهکاوی پشتیبانی میکند، از دیگر قابلیتهای مهم این نرمافزار، خروجی گرافیکی منطبق با استانداردهای مصورسازی است. به جز تکنیکها و الگوریتمهای مورد استفاده در دادهکاوی که در فصل دوم به طور مفصل به آن پرداخته شد، در این فصل هم به آن خواهیم پرداخت.
درمرحلهی دادهکاوی به تجزیهوتحلیل و تفسیر دادهها پرداخته میشود. منظور از تجزیهوتحلیل و تفسیر دادهها، تبیین یا تشریح معانی است که در دل دادهها نهفته است. تفسیر سبب میشود که فهم جامع و روشنی از معانی و مفاهیم پیدا شود. در خلال تفسیر دادهها، تناقضات و مطالب ضدونقیض و یا چگونگی روابط متقابل واقعیتها یا رخدادها خود را نشان میدهند. تجزیهوتحلیل این امکان را فراهم میسازد تا چارچوب منطقی و عقلانی از واقعیتها به وجود آید. پیش از تفسیر، دادهها درهم آمیخته اند و این دادهها به خودی خود نمیتوانند گویای چیزی باشند. لذا با تجزیه و تحلیل و تفسیر دادههاست که آنها به اطلاعات کاربردی تبدیل میشوند و میتوان بر اساس آنها به تهیه شاخصها اقدام کرد.
پس از انجام تجزیه و تحلیل، نوبت انتخاب شاخصها و طرح اجرای آن میرسد. دراین مرحله تلاش خواهد شد تا به کمک اطلاعاتی که در اختیار است و خردورزیهای لازم، نخست چند شاخص اولیهی مناسب در نظرگرفته شود. این شاخصها، بررسی میشوند و از میان آنها و با ترکیب آنها یک شاخص، به عنوان شاخص مناسب انتخاب میشود. ویژگیهای آن به درستی مشخص و با بهره گرفتن از نرمافزار Qlick View 11 داشبوردی برای آن تهیه میشود. بهگونهای که دیگران، با ملاحظه آن بدون ابهام از چندوچون آن آگاه شوند.
۳-۷-۱- ساختار اجرایی بخش اول تحقیق
پرکاربردترین استاندارد رسمی برای دادهکاوی استاندارد CRISP است که در انجام این
تحقیق نیز استفاده شده است و دلیل اصلی آن استاندارد بودن این روش و تضمین نتیجه مورد استفاده با جزئیات کامل میباشد(۲۰۰۹،Sharma ).
بهطورکلی استاندارد CRISP همانطور که در شکل ۳-۲ قابل مشاهده است دارای شش مرحله
میباشد که جزئیات آن و مواردی که باید در طی مراحل مدنظر قرارگیرد به شرح زیر میباشد.
شکل ۳-۲ استاندارد جهانی CRISP
۳-۷-۱-۱- درک مساله
این مرحله با هدف شفافسازی مسائل، اهداف و منابع انجام خواهد شد و دارای دو فعالیت اصلی زیر است:
- تعیین ساختار سازمانی
- تعریف حدود مساله
دراین مرحله پیشزمینه و اساس احتیاجاتی که در دانشگاه قرار است توسط دادهکاوی بر روی آنها تحلیل انجام شود تعیین شد. یکی از مهمترین نیازها در دنیای امروز دسترسی به اطلاعات مفید، به هنگام و قابل اطمینان میباشد که این مهم در دانشگاهها نیز فراهم شده است. سپس از طریق پرداختن به جزییاتی درباره منابع، ابزار، اهداف دادهکاوی تعیین گردید تا نیازهای اطلاعاتی تحقیقگر به کمک آنها تامین شود. در مراحل بعدی دادهها مورد بررسی قرار میگیرند.
۳-۷-۱-۲- شناخت دادهها
در مرحله قبل درک کلی برای تحقیقگر حاصل گردید. این مرحله به منظور اجتناب از مسائل غیرمنتظره در طول مرحله (فاز آمادهسازی دادهها) بسیار حیاتی است. به طوری که طولانیترین مرحله از یک پروژه دادهکاوی تلقی میشود. جهت انجام این مرحله باید به پرسشهای زیر پاسخ داده شود:
- کدامیک از معیارها (ستونها) از بانک داده، مناسبتر به نظر میرسند؟ (دراین مرحله میتوان از نظریات خبرگان بهره برد)
- کدامیک از معیارها بیربط به نظر میرسند و قابلیت حذف شدن دارند؟
- آیا تعداد دادهها برای تعمیم نتایج یا ایجاد یک پیشگویی دقیق، کافی است؟
- آیا معیارهای فراوانی برای انتخاب روش مدلسازی وجود دارد؟
- آیا منابع داده گوناگونی را باهم ادغام میکنید؟ اگر چنین است، آیا ناحیهای که در هنگام ادغام، مساله را پیچیده کند وجود دارد؟
- آیا توجه کردهاید که چگونه مقادیر گمشده در هریک از منابع داده توزیع شدهاند؟
درواقع دراین مرحله پیش از آن که بتوان کاری انجام داد باید با توجه به درک صورت گرفته از اهداف و وضعیت موجود، شناخت صحیحی از وضعیت دادهها بهدست آورد. برای این منظور لازم است دادههای مورد نیاز جمع آوری و تهیه شوند و بررسیهای لازم از جهت قابل قبول بودن حجم دادههای سالم و امکان چشمپوشی از موارد دادههای گمشده و بیمقدار یا دادههای ناقص، صورت پذیرد. بنابراین دراین بخش با مراجعه به خبرگان و مطالعه تحقیقهای قبلی دادههای مورد نیاز از پایگاهداده اصلی استخراج شد.
۳-۷-۱-۳- آماده سازی دادهها
برای انجام این گام کافی است به موارد زیر توجه شود:
- مجموعه دادهها یا رکوردهای ادغام شده
- انتخاب یک نمونه زیرمجموعه از دادهها
- رکوردهای انباشته
- استنتاج معیارهای جدید
- مرتبسازی دادهها برای مدلسازی
- حذف یا جایگزینی مقادیر گمشده یا مقادیر خالی
- جداکردن مجموعه دادههای آموزشی از آزمایشی
- ارائه گزارشی از کیفیت دادهها
آمادهسازی دادهها برای دادهکاوی تنها به معنی داشتن دادهها نمیباشد بلکه تمیزکردن دادهها و همچنین تبدیل فرمت آنها به دادههای مناسبتر، ممکن است پس از دریافت دادهها لازم باشد. زیرا که دادهها در پایگاهداده در حالت عادی برای دادهکاوی مناسب نیست. بنابراین لازم بود تا در این مرحله برروی مجموعه دادههای مورد نیاز که از بخش پایگاهداده دانشگاه دریافت شد، اقدامات لازم صورت پذیرد تا بتوان در نرمافزارهای مورد نظر از آنها استفاده نمود و برای ورود به مراحل بعدی مهیا گردند.
یکی دیگر از فعالیتهایی که دراین مرحله انجام شد قالببندی دادهها در نرمافزار ECXEL بود. زیرا بخشی از دادهها بهصورت یک فایل پشتیبان MY SQL SERVER دریافت شده بود. پس از آنکه تعدیلاتی بر روی دادهها در نرمافزار SQL SERVER صورت پذیرفت، فایل به نرمافزارEXCEL وارد گردید و رکوردهای مورد نیاز در یک جدول گردآوری شد تا در قالب یک فایل EXCEL وارد نرمافزار CLEMENTINE شوند.
۳-۷-۱-۴- مدلسازی
اگرچه فعالیتهای این مرحله کم است ولی از حیث تکرار بسیار حایز اهمیت هستند:
- انتخاب تکنیکهای مدلسازی
- ایجاد یک طرح آزمایشی
- ساخت مدلها
- ارزیابی مدلها
دراین بخش، لازم است تکنیک مورد نظر بر اساس آنچه در فصل دوم در بخش انواع فنون دادهکاوی تشریح شد انتخاب شود. با توجه به اهداف دادهکاوی و عنوان مطرح شده دراین تحقیق تکنیک مورد استفاده خوشهبندی و شبکهعصبی و درختتصمیمC5 میباشد. دربین روشهای خوشهبندی، روش k-means، به دلیل زمان محاسبه کم، قدرت انطباق بالا در نمونهها با سایز بزرگ و سهولت استفاده، پرکاربردترین است(Kuo et al,2006 ).
لذا با توجه به این ویژگیها و نوع دادهها، این الگوریتم برای یافتن تعداد بهینه خوشهها انتخاب شد و در میان مدلهای پیشبینی مدلهای شبکهعصبی و درختتصمیمC5. به دلیل داشتن دقت بالاتری نسبت به مدلهای دیگر اتخاذ گردیدند. که در ادامه به تشریح این مدلها خواهیم پرداخت.
۳-۷-۱-۵- ارزیابی نتایج
دراین قسمت باید نتایج تلاشهای صورت گرفته در ایجاد معیارهای موفقیت که در آغاز پروژه مطرح نمودهایم را ارزیابی نماییم. ارزیابی کلیدی جهت اعتمادسازی برای سازمان است که بتواند نتایج بهدست آمده توسط این فرایند را استفاده نماید. برای این منظور میتوان پرسشهای زیر را مدنظر قرار داد:
- آیا نتایج، در قالب جزءبهجزء و شفاف و بهصورتی که قابل ارائه باشند تشریح شدهاند؟
- آیا نتیجه و موضوع خاص و منحصربهفردی که باید پررنگ شود، کشف شده است؟
- به طور کلی، روش مناسب پاسخگویی این کشفیات به اهداف تجاری سازمان چیست؟
۳-۷-۱-۶- بکارگیری مدل
دراین مرحله با توجه به پایان یافتن ساخت و ارزیابی مدل نتیجهی کار، نیازمند این است که سازماندهی شود و به شکلی ارائه گردد که بهره برداران بتوانند از آن استفاده نمایند. بسته به ملزومات کار، فاز بکارگیری میتواند به سادگی ایجاد یک گزارش یا به پیچیدگی اجرای یک فرایند قابل تکرار کشف دانش در پایگاهداده باشد.
۳-۸- تحلیل خوشهای
در تحلیل خوشهای به دنبال کاهش و تقلیل موجودیتها هستیم. تجزیه و تحلیل خوشهای دستهبندی واحدهای آماری براساس حداقل دو متغیر قابل اندازهگیری است.
تحلیل خوشهای یکی از روشهای پرکاربرد در بسیاری از شاخههای علمی است. این تکنیک برای گروهبندی افراد یا موضوعات میباشد بهطوریکه درون گروه شباهت زیادی با همدیگر داشته، اما تفاوت قابل توجهی با گروههای دیگر ندارند. بنابراین اگر گروهبندی فوق به شیوه صحیح انجام گیرد، در صورت رسم نمودار آنها، افراد درون گروه در یک مجموعه نزدیک بههم قرار میگیرند درحالیکه فاصله زیادی با سایر گروهها خواهند داشت (کلانتری، ۱۳۸۷). در فصل دوم بهطور مفصل مفاهیم و تعاریف تحلیل خوشهای شرح داده شده است.
دراین تحقیق از روش k-meanبرای این منظور استفاده شده است. الگوریتمهای دادهکاوی، خوشهبندی و انواع آن به طور کامل در فصل دوم شرح داده شده است و دراین فصل مروری بر تکنیکهای مورد استفاده دراین تحقیق خواهیم داشت. خوشهبندی نوعی عملیات دادهکاوی غیرمستقیم است. در اکثر روشهای دادهکاوی مثل درختتصمیم و شبکههای عصبی، با یک مجموعه آموزشی شروع کرده و به کمک این مجموعه سعی میکنیم یک مدل ایجاد نماییم که داده را بخشبندی کرده و سپس برای یک داده جدید دسته مناسب را پیشبینی کنیم. اما در روش خوشهبندی هیچ دستهای از قبل وجود ندارد و یک فرایند کنترل نشده از تقسیم اشیا به گروهها صورت میپذیرد(۲۰۱۰،Wang).خوشهها طوری گروهبندی میشوند که شباهت زیادی در بین اشیاء از یک خوشه و همچنین عدم شباهت زیادی بین اشیاء از خوشههای مختلف وجود داشته باشد (۲۰۱۱،Yong).
۳-۹- الگوریتم k-means
درمیان الگوریتمهای خوشهبندی روشk-means به دلیل زمان محاسبه کم و قدرت انطباق بالا در نمونهها با سایز بزرگ و سهولت استفاده، پرکاربردترین است (۲۰۰۶،Kuo et al ). این روش برای مجموعه دادههای بزرگ، معمولا سریعترین راه خوشهبندی است(۲۰۰۸،Bin et al).
الگوریتم k-means یکی از شناختهشدهترین الگوریتمهای خوشهبندی افرازی است. این الگوریتم هنگامی که خوشهها بهصورت ابرهای فشرده هستند و این ابرها نیز خودشان از یکدیگر مجزا هستند، به خوبی کار میکند. این روش با یک تقسیمبندی تصادفی اشیا شروع میشود و براساس میزان شباهت اشیا ادامه پیدا میکند و براساس مشابهت اشیا با مراکز خوشهها، کار تخصیص اشیا به خوشهها را انجام میدهد. این حلقه تا زمانی ادامه دارد که شرط همگرایی محقق شود. یعنی وقتی که هیچ جابهجایی دیگری از اشیا بین خوشهها وجود نداشته باشد. دراین زمان تابع هدف خطای مجذور بعد از تعدادی تکرار به میزان چشمگیری کاهش یافته است. خوشهبندی k-meansبه عنوان نماینده خوشهبندی کلاسیک دراین تحقیق برای خوشهبندی در کنار شبکههای عصبی و درختتصمیمC5 مورد استفاده قرار میگیرد. شکل زیر مراحل الگوریتم k-meansرا نشان میدهد. دراین شکل مراکز خوشه بهصورت (+) مشخص شده است.
شکل۳-۳ مراحل خوشهبندی الگوریتم k-means
دراین الگوریتم لازم است مقدار میانگین را داشته باشیم به همین دلیل دادههای دستهای را نمیتوان با این روش خوشهبندی نمود. از معایب این روش تعیین k است که میبایست کاربر ابتدا آنرا معین کند و راه خاصی برای تعیین آن مشخص نشده است. یک راه مناسب، امتحانk های مختلف و بررسی معیار مرجع خطا برای هر k میباشد. این الگوریتم برای ساختن خوشههای غیرمحدب و پیچیده مناسب نیست. علاوه براین نسبت به دادههای پرت حساس است چرا که این نوع دادهها میتوانند میانگین خوشه را تحت تاثیر قرار دهند. جدول زیر نشاندهنده روش کلی این الگوریتم است.
جدول۳-۱ الگوریتم خوشهبندی
تعیین مقدار به عنوان تعداد خوشه |
۱ |
انتخاب شی ء از مجموعه دادهها به عنوان مراکز اولیه خوشهها |
۲ |
تخصیص اشیاء به خوشهها با توجه به مراکز خوشهها |
۳ |
بهروزرسانی مراکز خوشههای جدید |
۴ |
توقف در صورت عدم تغییر در مرکز خوشه درتکرار، درغیر این صورت بازگشت به مرحله۳ |
۵ |
(K young-jae Kim & Hyunchul Ahn,2008)
۳-۱۰-شبکهعصبی
شبکههای عصبی برای مدل کردن ارتباطات بین ورودیها و خروجیها به سبب یافتن یک الگو به کار میروند و مدلهای مختلفی دارد از جمله شبکه پیشخور، شبکه پسخور یا برگشتی و غیره که در این تحقیق از شبکههای عصبی چند لایه پیشخور که عموما شبکههای چند لایه پرسپترون(MLP) نامیده میشود استفاده شده است. برای آموزش شبکهعصبی فوق از قانون یادگیری پس انتشار خطا استفاده شده است. این قانون از دو مسیر اصلی تشکیل میشود. مسیر اول به مسیر رفت مرسوم میباشد که در این مسیر، بردار ورودی به شبکه MLP اعمال و تاثیراتش از طریق لایههای میانی به لایههای خروجی انتقال مییابد. بردار خروجی تشکیل یافته در لایه خروجی، پاسخ واقعی شبکه MLP را تشکیل میدهد. در این مسیر پارامترهای شبکه، ثابت و بدون تغییر در نظر گرفته میشوند. مسیر دوم به مسیر برگشت موسوم است. در این مسیر، برعکس مسیر رفت، پارامترهای شبکه MLP تغییر و تنظیم میگردند. این تنظیم مطابق با قانون اصلاح خطا انجام میگیرد. سیگنال خطا در لایه خروجی شبکه تشکیل میگردند. بردار خطا برابر با اختلاف بین پاسخ مطلوب و پاسخ واقعی شبکه میباشد. مقدار خطا، پس از محاسبه، در مسیر برگشت از لایه خروجی و از طریق لایههای شبکه در کل شبکه توزیع میگردد. چون توزیع اخیر، در خلاف مسیر ارتباطات وزنی سیناپسها صورت می پذیرد، کلمه پس انتشار خطا جهت توزیع اصلاح رفتاری شبکه انتخاب شده است. پارامترهای شبکه طوری تنظیم میشوند که پاسخ واقعی شبکه هرچه بیشتر به سمت پاسخ مطلوب نزدیکتر شود(ابراهیمی،۱۳۹۱).
۳-۱۰-۱- معماری شبکه
NN=(N,A) یک شبکهعصبی است که در آن N مجموعهای از گروههاست و A مجموعهای از کمآنها میباشد. N به ۳ گروه تقسیم میشود. NI گروههای ورودی، NH گروههای پنهان و NO گروههای خروجی است. فرض ما بر این است که n تا متغیر در تابع ما وجود دارد که میخواهیم پیشبینی نماییم بنابراین NI=n و شبکه عصبی m گروه پنهان دارد بنابراین NH=m میشود.
NI={1,2,… …,n} و NH={n+1,n+2,…,n+m} و no={s}
براساس الگوی ورودی x=(x1,…,x2) شبکه عصبی خروجی NN(X,W) را تولید میکند که تابعی از وزن W میباشد، هر گره I در لایه ورودی سیگنالی از مقدار xi دریافت میکند که از طریق آرکها به گرههای لایه پنهان فرستاده میشود سپس هر گره n+j در لایه پنهان سیگنال ورودیت n+j را دریافت میکند، که در فرمول شماره ۱ مشاهده میشود.
(۳-۱)
Wn+j ارزش اولیه برای گره n+j است و wi,n+j ارزش وزن مربوط به آرکی است که از گره I در لایه ورودی به گره n+j در لایه پنهان مقدار ورودیاش را بهوسیله تابع sig(x)=1/(1+e-x) انتقال میدهد. سپس هر گره پنهان n+j مقدار سیگنال خروجی n+j را از طریق آرک (n+j,s) میفرستد و سرانجام گره S در لایه خروجی جمع وزنهایی را که از لایه پنهان میآیند را دریافت میکند، این مجموع NN(x,w) در واقع خروجیهای شبکه با توجه به فرمول زیر خواهند بود.
(۳-۲) NN(x,w)=W s+
کلاً در پردازش دادهها، مسئله پیدا کردن ارزش مربوط به وزنهاست که خطای المآنهای x در مجموعه Eرا به حداقل برسانند. بعد از اینکه بهینهسازی انجام شد و وزنها به صورت W=W* تنظیم شدند شبکه آماده است که خروجی را براساس ورودیها تولید نماید. خطای تست (T,W*) بر اساس المآنهای موجود در مجموع تست T={y1,y2,…,ys} بهصورت زیر محاسبه خواهد شد.
(۳-۳ ) Error(T,W*)=
در فاز پیشبینی خروجیهای بزرگتر از صفر روند به سمت بالا را و خروجیهای کوچکتر از صفر روند به سمت پایین را پیشبینی میکنند.
۳-۱۱-درختتصمیم
این روش بهصورت بازگشتی مشاهدات مجزا را در یک شاخه قرار میدهد تا یک درخت به منظور دستیابی به بالاترین دقت پیشبینی ممکن ساخته شود. در انجام این کار، الگوریتمهای ریاضی مختلفی (به عنوان مثال، شاخص جینی، آمار Chi square و غیره) استفاده میشود تا یک ویژگی و حد آستانهی مربوط برای آن ویژگی شناسایی شود تا مخزن مشاهدات به دو یا چند زیر گروه تقسیم شود. این مرحله تا گره برگ تکرار میشود تا درخت کامل ساخته شود. معروفترین الگوریتمهای درختتصمیم عبارتند از:
در این تحقیق الگوریتم C5 انتخاب شده که یک نسخه بهبود یافته از C4.5 است (یک الگوریتم درختتصمیمگیری بسیار معروف که توسط محققان و تحقیقگران از اوایل ۱۹۹۰ استفاده شده است). درختهای تصمیمگیری در زمانی که یک متغیر وابسته و متغیرهای مستقل مختلف داشته باشند شبیه مدلهای رگرسیون درنظر گرفته میشوند. آنها میتوانند الگوهای مختلف از دادهها را کشف کنند که مدلهایی برای مدلهای رگرسیون استفاده شوند(Cox,2002).
درختهای تصمیمگیری یک روش به سرعت در حال محبوبیت هستند که به عنوان یک جایگزین قابل دوام برای رگرسیون لجستیکی در شرایطی که وابستگی ویژگی قطعی است استفاده میشود. اغلب، الگوریتمهای درختتصمیمگیری، مدلهایی که دقت بیشتری در پیشبینی و قابل درکتر هستند را تولید میکنند.
اولین گرهی درختتصمیم ریشه نامیده شده، گرهی وسط در درخت، برگ و آخرین گره از درخت، گرهی پایانی نامیده میشود. ویژگیها بر روی هر گره از درختتصمیم در برابر هر یک از مجموعه دادههای آموزشی با بهره گرفتن از الگوریتمهای جداسازی تست میشوند. الگوریتم درختتصمیم، درخت را از پایین به بالا میسازد در حقیقت، درختهای تصمیم معمولا به عنوان یک درخت وارونه که در بالای آن ریشه قرار دارد نشان داده میشوند.از این رو، آن بالا به پایین نیز نامیده شده است. تعداد شاخه ایجاد شده برای هر گره، به الگوریتم خاص استفاده شده و تعداد مقادیر ویژگی انتخاب شده وابسته است.
۳-۱۲- شاخص مقایسه نتایج خوشهبندی با رویکردهای مختلف
مقیاسهای مختلفی برای ارزیابی و مقایسهی نتایج خوشهبندی وجود دارد. در این تحقیق از شاخص زیر برای مقایسه استفاده شده است.
۳-۱۲-۱- شاخص مجموع خطای مربعی
در این روش ابتدا مراکز خوشه در نظر گرفته میشود و سپس فاصله نقطه مورد نظر از مراکز خوشه محاسبه میگردد. برای این امر از فرمول زیر استفاده میشود.
SSE (3-4)
در این روش را مراکز خوشه در نظر میگیریم و P را نقطه مورد نظر در این روش خوشهای که SSE پایینتری دارد نشاندهنده بهترین خوشهبندی (تعداد خوشه) استLarose,2005)).
۳-۱۳- ابزارهای دادهکاوی
ابزارهای دادهکاوی نرمافزارهایی هستند که به کاربران اجازه استخراج اطلاعات از دادهها را میدهند. این ابزارها توانایی گردآوری دادهها و کاربرد آنها به منظور پیشبینی در خصوص مسائل مختلف را، به سازمانها و افراد میدهند. استخراج دستی دادهها از صدها سال پیش وجود داشته است. این درحالی است که ماشینی شدن فرایند دادهکاوی از هنگام ورود کامپیوتر شایع شده است. هدف نهایی این ابزارها ظاهر ساختن الگوهای پنهان میباشد. به هرحال ابزارهای دادهکاوی میتواند شامل نرمافزارهای زیر باشد:
- ACL
- Clementine
- Data to Knowledge
- Intelligent-miner
- Insightful miner
- Microsoft excel
- Rapid miner
- Sas
- Weka
یکی از ابزارهای دادهکاوی برجسته و سرشناسی که مورد استفاده قرار میگیرد نرمافزار Clementine میباشد. دراین تحقیق هم ازاین نرمافزار استفاده شده است.
۳-۱۴- بخش دوم ساختار اجرایی تحقیق
مطابق با چارچوب پیشنهادی اولیه، ابتدا میبایست دادهها را مورد تجزیه و تحلیل قرار داده و سپس، با توجه به مسالهی مورد نظر الگویی که به حل مساله کمک میکند بهدست آید. در بخش بعد، شاخص مناسب برای مساله شناسایی میشود. انتخاب محیط کاربری مرحله بعد است و در پایان با توجه به مراحل پیشین داشبورد پیادهسازی میگردد.
۳-۱۴-۱- شناسایی شاخص
بعد از مراحل دادهکاوی باید نتایج بهدست آمده را پایش نموده و شاخص مناسب را یافت. شاخص باید نشاندهندهی عملکرد دانشجویان در زمینهی مسالهی موردنظر باشد.
۳-۱۴-۲- پیادهسازی داشبورد
دراولین بخش از مرحله پیادهسازی داشبورد باید عملیات دادهای مورد نیاز را انجام داد. این عملیات شامل یکپارچهسازی دادههای بهدست آمده است. در بخش بعدی از مرحلهی پیادهسازی، باید با توجه به نیازمندیهای استخراج شده و شاخصهای تعیین شده، داشبورد مورد نظر را پیادهسازی کرد. در پیادهسازی داشبورد باید اصول گفته شده در فصل دوم، در نظر گرفته شود.
عموما فنون مصورسازی ابزاری قدرتمند هستند که بهطور متناوب در فرایند کشف دانش بهکار میروند. مصورسازی میتواند روابط پیچیده را بهطور ساده قابلفهم سازد و تفکر مصور را برانگیزد. بهویژه، ابزارهایی که ساختار خوشهای از داده را مصور میسازند، برای جستجو و فهم داده ارزشمند هستند. در این تحقیق برای پیادهسازی داشبورد از نرمافزار Qlick View 11 استفاده شده است که در ادامه شرح داده شده است.
۳-۱۵- ابزار پیادهسازی داشبورد
زمانی ایجاد داشبوردها و تجزیه و تحلیل دادهها برای هر خروجی چند ماه طول میکشید و سرعت تصمیمگیری سازمانی را پایین میآورد اما با کلیک ویو میتوان آن را در چند دقیقه انجام داد. کلیک ویو بستر هوش کسب و کار برای تبدیل دادهها به دانش میباشد. این نرمافزار هر کسب و کار و کاربرهای فنی را قادر میسازد تا دادههای خود را بدون هیچ محدودیتی جدا کنند و به آنها کمک میکند زمانی که نیاز به تصمیمگیری در مورد مسائل سازمانی است، تصمیمات موثر و بهتری مبتنی بر اطلاعات صحیح بگیرند. کلیک ویو نرمافزاری است که امکان بازیافتن و تطبیق دادن دادهها را از منابع گوناگون، فراهم میکند. با بارگذاری در برنامه، دادهها در مسیری که فهم و کار با آنها آسانتر باشد، ارائه میشوند. نرمافزاری ساده و قابلانعطاف میباشد و کاربران نهایی در سازمان به راحتی میتوانند از آن استفاده کنند و در زمان کوتاهی آن را آموزش ببینند. در کلیک ویو میتوان حجم بالایی از اطلاعات را با سرعت بسیار زیادی بارگذاری کرد و استفاده نمود. با کلیک ویو میتوان در هر زمانی اطلاعات و دادهها را بر اساس معیارها و شاخصهای تعیین شده بررسی نمود.
براساس معتبرترین موسسه تحقیقات تکنولوژی دنیا - گارتنر [۳۲] کلیک ویو چهارمین نرمافزار هوش تجاری در دنیا میباشد. کلیک ویو یک راه حل جامع و انعطافپذیر هوش تجاری است. این راهحل با بهره گرفتن از تکنولوژی انحصاری خود میتواند با محاسبات در لحظه، سطحی از بینش و شهود صحیح از حقایق سازمان را از طریق اکتشاف اطلاعات ایجاد کند.
۳-۱۶- نتیجهگیری
در این فصل روش تحقیق صورت گرفته طبق چارچوب پیشنهادی بهصورت گام به گام تشریح گردید. روش انجام بخش اول تحقیق برمبنای استفاده از یک مدل استاندارد دادهکاوی میباشد که مراحل اجرای تحقیق با الگوگیری از این مدل بهصورت گام به گام مورد بررسی قرار گرفت و در بخش دوم تحقیق توضیحاتی در مورد شناسایی شاخص و پیادهسازی داشبورد داده شد.
در نهایت اینکه، این فصل تمامی مراحلی را که برروی دادههای تحقیق درفصل بعد صورت خواهد گرفت را پوشش داده است.
فصل چهارم:
تجزیه و تحلیل و تفسیر دادهها
۴-۱-مقدمه
با توجه به تعاریف ارائه شده در فصول قبلی، در این فصل به تشریح، توضیح مراحل اجرای این تحقیق پرداخته شده است، همچنین لازم به ذکر است که توضیحات براساس چارچوب ارائه شده در فصل سوم میباشد و در بخش مربوط به دادهکاوی، مراحل استاندارد دادهکاوی که در فصول قبل توضیح داده شد مدنظر قرار گرفته است. خوشهبندی با روش k-means اجرا و نتیجه با بهره گرفتن از شاخص اعتبارسنجی مجموع خطای مربعی ارزیابی شده است و با بهره گرفتن از روشهای شبکهعصبی و درختتصمیم C5 خوشهها مورد پیشبینی قرار گرفته اند و در آخر سعی شده است تا شاخصهای مناسب استخراج گردد و با توجه به شاخصها، داشبورد مطلوب طراحی گردد.
۴-۲-فرایند دادهکاوی
این فرایند که یک بخش اصلی تحقیق حاضر میباشد برطبق استاندارد CRISPکه در فصل گذشته توضیح داده شد مرحله به مرحله صورت گرفته است.
۴-۲-۱-درک مساله
در این مرحله طی برقراری چند جلسه مشاوره با متخصصین موارد زیر بررسی گردید:
استفاده از مدلهای آماری و تکنیکهای دادهکاوی و داشبورد مدیریتی در کنارهم، جهت
خوشهبندی و همچنین استفاده از تکنیکهای مختلف پیشبینی در جهت دسترسی به نتایج بهتر و دقیقتر و درنهایت استفاده از این نتایج در تدوین شاخصها و در جهت طراحی داشبوردی که به ارزیابی و پیشبینی پیشرفت تحصیلی دانشجویان کمک کند، تلقی شود.
۴-۲-۲-شناخت دادهها
این تحقیق از بعد هدف انجام آن از نوع تحقیقات کاربردی میباشد، لذا با توجه به این امر که کشف دانش در پایگاهداده فرایند اکتشاف مدلهای گوناگون، خلاصهها و ارزشهای نشات گرفته از مجموعه خاصی از دادههاست(Hand & smith,2005). در ادامه دادههای مورد استفاده در تحقیق حاضر شرح داده میشود.
۴-۲-۲-۱- دادهها
اطلاعات ثبت شده دانشجویان دانشگاههای آزاد و سراسری استان قم در بازه زمانی سال ۱۳۷۱ تا ۱۳۹۱، از پایگاهدادههای موجود در دانشگاههای مذکور در این تحقیق مورد استفاده قرار گرفته است. با توجه به حجم زیاد دادههای ثبت شده درخصوص دانشجویان، برای تحقیق مورد نظر دادههای ثبت شده دانشجویان مقطع کارشناسی که سه سال تحصیلی خود را گذراندهاند، درنظر گرفته شده است که شامل ۱۰۶۶۸ رکورد و هر رکورد نماینده یک دانشجو میباشد.
۴-۲-۲-۲- انتخاب دادهها
با توجه به انواع مختلف ویژگیها در بانک اطلاعاتی دانشگاه و ماهیت یکسان برخی از آنها و همچنین با توجه به عوامل تاثیرگذار در پیشبینی پیشرفت تحصیلی دانشجویان اقلام اطلاعاتی در سه گروه مورد بررسی قرار گرفت:
- اقلام اطلاعاتی دانشگاهی دانشجویان : شامل سال و ترم ورود به دانشگاه، نحوه پذیرش، نوع سهمیه، نوع تحصیل، نحوه تحصیل، مقطع تحصیلی و نوع دانشگاه میباشد.
- اقلام اطلاعاتی فردی دانشجویان : شامل وضعیت تاهل، وضعیت بومی، وضعیت اشتغال، وضعیت جسمی و ملیت میباشد.
- اقلام اطلاعاتی معدل دانشجویان : شامل مشخصات ترم و معدل دریافتی در ترم میباشد.
بررسی ها نشان دادهاند که:
- مشکل پیچیدگی مساله در ادغامها وجود نداشت.
- مقادیری در دادهها وجود داشت که لازم بود قبل از اجرای مدل به مقادیر قابل استفاده در تحقیق تبدیل شوند که در ادامه به این موضوع خواهیم پرداخت.
۴-۲-۳- آماده سازی و پیش پردازش دادهها
این مرحله حساسترین مرحله از دادهکاوی به ویژه در مطالعه موردی تحقیق حاضر میباشد. چرا که یکی از تکنیکهای استفاده شده در این تحقیق برای خوشهبندی دانشجویان الگوریتم k-means میباشد و این الگوریتم نسبت به دادههای پرت بسیار حساس است. پس سعی برآن شده تا حدامکان از میزان دادههای پرت کاسته شود.
۴-۲-۳-۱- آماده سازی دادهها
از آنجایی که دادههای دانشگاه سراسری استان قم در قالب فایل my Sql server بوده است و به دلیل ناهمخوانی این ساختار با ساختار مطلوب پردازش تحقیق لازم بود تا ساختار سلولهای موردنظر به ساختار مطلوب تبدیل شود.
عملیات تمیزکاری دادهها به شرح زیر است:
- حذف کاراکتر (،) Quotation از عناوین فیلدها
- حذف unsigned از تعاریف فیلدها
سپس فیلدهای جدید معدل دریافتی هر ترم دانشجویان ازطریق ارتباط جداول و با بهره گرفتن از کدهای برنامه نویسی SQL SERVER 2014 بهدست آمد. که در شکل ۴-۱ میتوان ارتباط دادهای این جداول را با یکدیگر مشاهده کرد.کدهای Sql استفاده شده به منظور تعریف این فیلدها به صورت زیر است.
select grade,s.PersonID,sum(grade*LesTotalUnit)/sum([LesTotalUnit]) as moadel,
persons as p join StudentSpecs as s on s.PersonID=p.PersonID
join grades as g on g.StNo=s.StNo
join lessons as l on l.LesCode=g.LesCode
از آنجایی که دادههای دانشگاه آزاد اسلامی استان قم در قالب EXCEL2013 دریافت شد، دادههای دانشگاه سراسری نیز به نرمافزار EXCEL 2013 وارد گردید.
شکل ۴-۱ بخشی از ارتباط دادهای جداول
۴-۲-۳-۲-پیش پردازش دادهها
در این مرحله سلسله عملیاتی صورت میپذیرد که باعث برطرف شدن مشکلات مختلف دادههای مساله مورد بررسی میگردد، تا برای انجام فرایند یادگیری و مدل پالایش شده و آماده گردد.دادههای خام موجود در پایگاههای داده اغلب به شکل پردازش نشده و غیرکامل هستند. برخی از محدودیتهای موجود در پایگاههای داده مواردی نظیر وجود دادههای قدیمی[۳۳] یا زاید[۳۴]مقادیر مفقوده[۳۵]، دادههای دور افتاده[۳۶]، شکل مناسب دادهها برای کشف دانش در پایگاهداده و مواردی از این دست هستند. از این رو برای آمادهسازی این دادهها، نیاز به اجرای گامهایی نظیر پاکسازی داده [۳۷] و تبدیل داده[۳۸] میباشد (Berry & Linoff,2004). در ادامه وضعیت هریک از اقلام اطلاعاتی مورد استفاده و تکنیکهای آمادهسازی بهکاررفته شرح داده شده است.
جدول ۴-۱ اقلام اطلاعات فردی دانشجویان
عنوان : اقلام اطلاعات فردی دانشجویان |
تکنیکهای استفاده شده برای آمادهسازی داده |
وضعیت تاهل |
مجرد |
تبدیل داده |
متاهل |
تبدیل داده |
مطلقه |
تبدیل داده |
وضعیت بومی و غیربومی |
بومی |
تبدیل داده |
غیربومی |
تبدیل داده |
غیربومی دارای آشنا یا فامیل ساکن استان قم میباشند |
تبدیل داده |
وضعیت جسمانی |
سالم |
تبدیل داده |
معلول |
تبدیل داده |
وضعیت اشتغال |
بازنشته |
تبدیل داده |
سازمان دولتی |
تبدیل داده |
سازمان غیردولتی |
تبدیل داده |
حوزه علمیه و نهادهای انقلابی |
تبدیل داده |
آزاد |
تبدیل داده |
فاقد شغل |
تبدیل داده |
ملیت |
ایرانی |
تبدیل داده |
افغانی |
تبدیل داده |
پاکستانی |
تبدیل داده |
عراقی |
تبدیل داده |
سایر |
تبدیل داده |
جدول ۴-۲ اقلام اطلاعاتی معدل دانشجویان
عنوان: اقلام اطلاعاتی معدل دانشجویان |
تکنیکهای استفاده شده در آمادهسازی داده |
معدل دریافتی ترم |
ترم یک |
ساخت ویژگی_ تبدیل داده |
ترم دو |
ساخت ویژگی_ تبدیل داده |
ترم سه |
ساخت ویژگی_ تبدیل داده |
ترم چهار |
ساخت ویژگی_ تبدیل داده |
ترم پنج |
ساخت ویژگی_ تبدیل داده |
ترم شش |
ساخت ویژگی_ تبدیل داده |
جدول ۴-۳ اقلام اطلاعاتی دانشگاهی دانشجویان
عنوان : اقلام اطلاعاتی دانشگاهی دانشجویان |
تکنیکهای استفاده شده در آمادهسازی داده |
نحوه تحصیل |
حضوری |
تبدیل داده |
غیر حضوری |
تبدیل داده |
ترم ورود به دانشگاه |
یک |
|
دو |
|
سال قبولی |
۱۳۷۱ |
|
۱۳۷۲ |
|
۱۳۷۳ |
|
۱۳۷۴ |
|
۱۳۷۵ |
|
۱۳۷۶ |
|
۱۳۷۷ |
|
۱۳۷۸ |
|
۱۳۷۹ |
|
۱۳۸۰ |
|
۱۳۸۱ |
|
۱۳۸۲ |
|
۱۳۸۳ |
|
۱۳۸۴ |
|
۱۳۸۵ |
|
۱۳۸۶ |
|
۱۳۸۷ |
|
۱۳۸۸ |
|
۱۳۸۹ |
|
۱۳۹۰ |
|
۱۳۹۱ |
|
نوع سهمیه |
عادی |
تبدیل داده |
منطقه ۱ |
تبدیل داده |
منطقه ۲ |
تبدیل داده |
منطقه ۳ |
تبدیل داده |
کارمند |
تبدیل داده |
شاهد |
تبدیل داده |
جانباز |
تبدیل داده |
رزمندگان و ایثارگران |
تبدیل داده |
دبیری |
تبدیل داده |
سایر کارکنان طرف قرارداد |
تبدیل داده |
نحوه پذیرش |
سنجش |
تبدیل داده |
بدون آزمون رسمی |
تبدیل داده |
مقطع تحصیلی |
کارشناسی پیوسته |
تبدیل داده |
کارشناسی ناپیوسته |
تبدیل داده |
میزان استفاده از تکنیکهای آمادهسازی همانطور که در نمودار ۴-۱ نشان داده شده است تبدیل داده بیشترین کاربرد را داشته است.
نمودار ۴-۱ میزان استفاده تکنیکهای پیشپردازش داده
با توجه به اهمیت کیفیت داده در فرایند کشف دانش در پایگاهداده، پردازش اولیه انجام گرفت تا مقادیر گمشده، انحرافات، مقادیر ثبت نشده، نمونههای ناکافی و مسائلی از این قبیل
مشخص گردد.
بخش کوچکی از اطلاعات تمیز در قالب نرمافزار EXCEL 2013 در شکل ۴-۲ نشان داده شده است.
شکل ۴-۲بخشی از دادهها در نرمافزار Excel
پس از آمادهسازی دادهها و مشخص شدن وضعیت آنها، پایگاهداده حاصل آماده ورود به مرحله بعد که همان فرایند مدلسازی است، میباشد.
۴-۲-۴-مدلسازی
در این مرحله، انواع تکنیکهای مدلسازی، انتخاب شده و بهکار گرفته میشوند. نوعاً برای یک نوع مساله چندین تکنیک وجود دارد. بعضی از تکنیکها نیازمند فرمت ویژهای از دادهها میباشند.بنابراین بازگشت به مرحله آمادهسازی داده، اغلب مورد نیاز است. در این مرحله گامهای زیر دنبال شد که جزییات آنها در ادامه بیان میشود.
- انتخاب تکنیک مدلسازی
- ساخت مدل
برای ساخت مدل لازم است که ابتدا تکنیک مدلسازی انتخاب شود که در این تحقیق برای بخش دادهکاوی خوشهبندی، شبکهعصبی و درختتصمیم C5 انتخاب گردیده است.
۴-۲-۴-۱-خوشهبندی
در این مرحله دادهها وارد فرایند خوشهبندی میشوند.یکی از مسائل مهم در خوشهبندی، تعیین تعداد بهینه خوشهها میباشد که در اکثر الگوریتمها مانند k-means باید توسط خود کاربر معین شود.
یک راه ممکن و رایج، جهت تعیین تعداد خوشه بهینه، امتحان k های مختلف و تعیین مقدار بهینه براساس یکسری شاخصهای از پیش تعریف شده است. در این تحقیق جهت اطمینان از نتیجه خوشهبندی، روش k-means جهت خوشهبندی با k های مختلف استفاده شده است.
۴-۲-۴-۲- خوشهبندی k-means
تابع k-means دادهها را به k خوشه دوبهدو ناسازگار تفکیک میکند، این روش بر مشاهدات واقعی عمل میکند و یک سطح واحد از خوشهها را ایجاد میکند. به منظور انجام خوشهبندی k-means، از متغیرهای موردنظر تحقیق استفاده میکنیم. در خوشهبندی k-means، همانطور که قبلا ذکر شد، تعیین تعداد خوشهها از اهمیت زیادی برخوردار بوده و بر نتیجه بهینه کارمان تاثیر خواهد گذاشت از اینرو با بهره گرفتن از معیار SSE برای ارزیابی کیفیت خوشهبندی به بررسی تعداد خوشهها پرداخته میشود. با توجه به حجم دادههای دراختیار مقایسه تعداد خوشهها را از ۲ خوشه آغاز میکنیم.روند اجرا و ارزیابی متد خوشهبندی k-means در نرمافزار matlab 2012 انجام شده است.همانطور که در جدول ۴-۴ مشاهده میکنید خوشهبندی با ۴ خوشه شاخص SSE کمتری نسبت به خوشهبندی های دیگر دارد، درواقع عملکرد بهتری را نشان میدهد.
جدول ۴-۴ نرخ پارامتر SSE به ازای تعداد خوشهها در k-means
تعداد خوشهها |
SSE |
۲ |
۱۱٫۷۹ |
۳ |
۱۶٫۳۴ |
۴ |
۷٫۰۸ |
۵ |
۹٫۳۰ |
خوشهبندی نهایی با درنظر گرفتن ۴ خوشه مبنای این تحقیق قرار گرفته است تا مبنایی برای مرحله پیشبینی با بهره گرفتن از شبکهعصبی و درختتصمیم C5 باشد.درشکل زیرتعداد رکوردهای موجود در هر خوشه نمایش داده شده است.
شکل ۴-۳ تعداد رکوردها در هر خوشه
۴-۲-۴-۳- پیشبینی خوشهها
با توجه به اینکه پیشبینی، اساسیترین و مهمترین مرحلهای است که قبل از انجام هر اقدام پیشگیرانه باید صورت پذیرد. لذا با درختتصمیم C5 به پیشبینی پیشرفت تحصیلی دانشجویان پرداخته شده است.
متغیری که در اینجا باید پیشبینی شود معدل ترم ششم دانشجویان میباشد، الگوریتمهای پیشنهادی برای ساخت مدل مورد نظر شامل انواع درختتصمیم(CHAID, QUEST,CART,C5)، رگرسیون لجستیک، شبکههایعصبی هستند. با توجه به اینکه ما بهدنبال بهدست آوردن بهترین و دقیقترین پیشبینی هستیم بهتر است از تکنیکهای شبکهعصبی و درختتصمیم استفاده نمود.
۴-۲-۴-۴- پیشبینی با شبکهعصبی
شبکههایعصبی یکی از متداولترین فنون دادهکاوی است و میتواند برای پیشبینیها
استفاده شود، یکی از مزایای بارز شبکههایعصبی کاربرد وسیع آنها میباشد و به خاطر امکانات آن، ابزارهایی که از شبکههایعصبی پشتیبانی میکنند بر روی هر بستری بهراحتی یافت میشوند که در این تحقیق از نرمافزار Clementine 12 استفاده شده و برای خوشههای بهدست آمده، پیشبینیهایی طبق جدول ۴-۵ بهدست آمد.
جدول ۴-۵ پیش بینی با بهره گرفتن از روش شبکهعصبی
عنوان خوشهها |
دقت درستی پیشبینی |
خوشه ۱ |
%۷۵٫۹۳ |
خوشه ۲ |
%۶۸٫۶ |
خوشه ۳ |
%۷۳٫۳۴ |
خوشه ۴ |
%۶۹٫۶۷ |
۴-۲-۴-۵- پیشبینی با درختتصمیم C5
درختتصمیم یکی از ابزارهای قوی و متداول برای دستهبندی و پیشبینی میباشد. در مورد خصوصیات درختتصمیم به موارد زیر میتوان اشاره نمود:
- روش درختتصمیم در تقسیمبندی دادهها به گروههای مختلف، بهگونهای است که هیچ دادهای حذف نمیشود.
- استفاده از درختتصمیم آسان است.
- درک مدل ایجاد شده توسط درختتصمیم آسان میباشد. به عبارت دیگر با وجود اینکه فهمیدن روش کار الگوریتمهای سازنده درخت، چندان ساده نیست ولی فهمیدن نتایج بهدست آمده از آنها آسان است.
- دستهبندیهایی که توسط درختتصمیم ایجاد میشوند، از روی شباهت دادههای ذخیره شده در پارامترهای پیشبینی کننده، قابل انجام میباشد.
مهمترین قسمت الگوریتم C5 فرایند ساخت یک درختتصمیم اولیه از دادهها است.
بنابراین این الگوریتم یک دستهبندی کننده در قالب درختتصمیم با بهره گرفتن از دادهها تولید میکند. این دستهبندی در ۴ سطح A تا ِD طبق جدول ۴-۶ صورت گرفته است.
جدول ۴-۶ دستهبندی معدلها
دستهی معدلها |
معدلهای دریافتی در ترم |
A |
۲۰-۱۷ |
B |
۱۶٫۹۹-۱۲ |
C |
۱۱٫۹۹-۰٫۰۱ |
D |
۰ |
برای انجام پیشبینی بر روی خوشههای بهدست آمده و کارهای مرتبط با آن استفاده از نرمافزار Clementine 12 انجام شده است. در این نرمافزار به دلیل فراهم کردن محیط بصری زیباتر، استفاده از روشها و ابزارهای کشف دانش در پایگاهداده بهصورت شبکهای از گرهها و جریانها، امکان مدلسازی در پایگاهداده را سهلتر و برای کاربر آسانتر کرده است. مراحل اجرای درختتصمیم C5 در شکل ۴-۴ نشان داده شده است.
شکل ۴-۴ مراحل ساخت درخت تصمیم C5
پیشبینی های انجام شده برای خوشه های بدست آمده در جدول ۴-۷ نشان داده شده است.
جدول ۴-۷ پیش بینی با بهره گرفتن از روش درخت تصمیمC5
عنوان خوشهها |
دقت درستی پیش بینی |
خوشه ۱ |
۷۸٫۱۵% |
خوشه ۲ |
۷۱٫۶۸% |
خوشه ۳ |
۷۶٫۳۴% |
خوشه ۴ |
۷۴٫۵۹% |
از آنجا که این تحقیق نشان داده، تکنیکهای دادهکاوی میتوانند پیشرفت تحصیلی دانشجویان را با دقت پیشبینی کنند و از اینرو به تجزیهوتحلیل و تعیین عوامل مهم اجازه میدهند.بعد از انجام پیشبینی، نوبت به ارزیابی آنها می رسد که در ادامه شرح داده شده است.
۴-۲-۵- ارزیابی
با توجه به بررسیهای انجام شده بر روی تعداد خوشه در الگوریتم k-means و استفاده از شاخص SSE خروجی از دیدگاه تعداد خوشه مناسب، قابل اطمینان میباشد.
اعتبار و قابلیت اطمینان از نتایج ارزیابی به دقت مدلهای پیشبینی بستگی دارد.هرچه مدلهای پیشبینی دقت بالاتر و قابلیت اطمینان بیشتر داشته باشد، نتایج ارزیابی معتبر خواهد بود. در این تحقیق هردو مدل پیشبینی به خوبی انجام شده و دقتی بالاتر از %۶۵ داشتهاند، از اینرو نتایج، قابل اعتماد و معتبر تلقی میشوند و درنتیجه در ارزیابی مدل میتوان گفت که مدل به هدف ابتدایی خود که همان پیشبینی پیشرفت تحصیلی دانشجویان بوده نایل گردیده است.
نتایج ارزیابی همانطور که در شکل ۴-۵ نشان داده شده است مهمترین متغیرهای پیشبینی پیشرفت تحصیلی دانشجویان معدلهای دریافتی ترمهای گذشته آنها بوده است.این یک نتیجه بصری است که نشان میدهد دانشجویانی که در ترمهای گذشته موفق به کسب معدل بالا شدهاند در ترم ششم نیز معدل بالایی کسب میکنند. برخی از متغیرهای دیگر همچون سال ورود به دانشگاه و وضعیت اشتغال دانشجو در تعیین معدل دریافتی آن تاثیر زیادی داشتهاند.
شکل ۴-۵ اهمیت فیلدها در پیشبینی معدل ترم شش دانشجویان
۴-۲-۶- بهکارگیری مدل
مدل در این تحقیق راهکاری جهت اطمینان و استفاده هرچه بیشتر مدیران آموزشی از تکنیکهای دادهکاویآموزشی میباشد.
۴-۳- فرایند طراحی و پیادهسازی داشبورد
طراحی و پیادهسازی داشبورد شامل مراحل اجرای فرایند دادهکاوی، تدوین شاخص و
طراحی داشبورد است .پس از انجام دادهکاوی و تجزیهوتحلیل و تفسیر دادهها مرحلهی بهدست آوردن شاخص وجود دارد و آن، عبارت از مرحلهای است که طی آن مسیری که برای حل مساله باید طی شود، مشخص میشود. به عبارت دیگر، در این مرحله تعیین میکنیم که چه الگویی باید با بهره گرفتن از داشبورد کشف شود.
۴-۳-۱- شناسایی شاخص
بسیاری از جلسات تحلیل نیازمندی داشبورد منجر به نتایج آنچنان درخشانی نمیشوند.بخش عمدهای از این مشکل به آنجا برمیگردد که کاربران دقیقاً نمیدانند که در صفحهی نمایش داشبورد یا گزارش چه میخواهند مگر اینکه آن را ببینند(Wayne,2011).
در طی چندین جلسه با خبرگان و با توجه به خروجیهایی که از مدل پیشبینی دادهکاوی طبق شکل ۴-۴ بهدست آمد، میانگین معدل دریافتی در ترمهای گذشته از درجهی اولویت بالاتری نسبت به متغیرهای دیگری که مورد سنجش بودند، برخوردار شدند بنابراین نیاز به ساخت شاخصهایی با بهره گرفتن از این متغیرها حس گردید. شاخصهایی که در زیر میتوان به آنها اشاره نمود.
- =
- =
- =
- =
- =
- =
با دقت بیشتر در این شاخصها میتوان شاخصی ترکیبی از این شاخصها ایجاد نمود که درنهایت منجر به مقایسه یا به عبارتی ارزیابی دقیقتری از پیشرفت تحصیلی دانشجویان در سنوات مختلف انجام داد.شاخص بهدست آمده به شرح زیر است.
(۴-۱)
همچنین برای ارزیابی، بدیهی است در این شاخص جامع میتوان شاخص وضعیت اشتغال را نیز در داشبورد مورد نظر ملاحظه نمود.
۴-۳-۲- طراحی داشبورد
برای گزارشگیری از ابزارهای داشبورد Qlick view 11 استفاده شد. شکلهای ۴-۶ و
۴-۷ نمایی از گزارشی است که در آن با گروهبندی بر اساس سال ورود به دانشگاه، پیشرفت
تحصیلی دانشجویان نسبت به تمامی دانشجویان در این دوره زمانی ۱۳۹۱- ۱۳۷۱را نمایش میدهد.
شکل۴-۶ پیشرفت تحصیلی دانشجویان ورودی سال ۱۳۷۱
شکل۴-۷ پیشرفت تحصیلی دانشجویان ورودی سال ۱۳۸۱
در قیاس ۲۰ ساله مورد مطالعه ، پیشرفت تحصیلی نسبت به سال بعد دارای رشد چشمگیری بوده است . که این مقایسه در شکلهای بالا قابل مشاهده میباشد همانطور که ملاحظه میشود، ورودی سال ۷۱ دارای ضریب ۵۲٫۸۹ و ورودی سال ۸۱ به ۶۹٫۸۰ تغییر یافته است .
علاوه بر این با کلیک بر روی ستون وضعیت اشتغال میزان تاثیر هر عنوان شغلی بر روی موفقیت تحصیلی دانشجویان در سنوات مختلف را میتوان مشاهده نمود. حالیه با عنایت به شکلهای شمارهی ۴-۸ و ۴-۹ ، دانشجویانی که فاقد شغل میباشند به مراتب دارای پیشرفت تحصیلی بالاتری نسبت به دانشجویان شاغل میباشند .
شکل ۴-۸ پیش بینی پیشرفت تحصیلی دانشجویان فاقد شغل ورودی سال ۱۳۸۱
شکل ۴-۹ پیشبینی پیشرفت تحصیلی دانشجویان شاغل در سازمانهای دولتی ورودی سال ۱۳۸۱
۴-۴- نتیجهگیری
در این فصل با بهره گرفتن از الگوریتم خوشهبندی k-means، اطلاعات دانشجویان خوشهبندی گردید و این خوشهها با روشهای پیشبینی شبکهعصبی و درختتصمیم C5 که مناسبترین روش برای پیشبینی تشخیص داده شد، مورد پیشبینی قرار گرفت و درنهایت با توجه به خروجی پیشبینی شاخص مناسب تدوین و پیادهسازی داشبورد آن صورت گرفت.
فصل پنجم:
نتیجهگیری و پیشنهادات
۵-۱- مقدمه
در این فصل به جمعبندی مباحث مطرح شده در طول این تحقیق خواهیم پرداخت. نتایج و نوآوریهای حاصل از این تحقیق ، محدودیتهایی که در طول تحقیق با آن مواجه شدیم بیان میشود و پیشنهادهایی برای کارهای آینده در انتهای فصل ارائه میگردد.
۵-۲- مروری برفصلهای گذشته
این تحقیق با هدف پیشبینی پیشرفت تحصیلی دانشجویان طی سالهای ۱۳۹۱-۱۳۷۱ انجام گرفت.
درفصل اول کلیاتی درباره تحقیق همچون تعریف مساله مورد بررسی، اهداف تحقیق، ضرورت اجرا و فرضیه ارائه گردید و در راستای درک فضای کلی و نیازهای مساله که منجر به شکلگیری تحقیق حاضر شد، مطالب لازم بیان گردید.
فصل دوم حاوی مرور ادبیات موضوع میباشد که در این فصل به پیشزمینههای مطالعاتی مرتبط با موضوع تحقیق، مرور دادهکاوی و داشبورد ارائه شده در مقالات، کاربرد و ویژگیهای بررسی شده در آنها پرداخته شد.
در فصل سوم روش تحقیق صورت گرفته طبق چارچوب پیشنهادی بهصورت گام به گام تشریح گردید. روش انجام شدهی بخش اول تحقیق برمبنای استفاده از یک مدل استاندارد دادهکاوی میباشد که مراحل اجرای تحقیق با الگوگیری از این مدل بهصورت گام به گام مورد بررسی قرار گرفت و در بخش دوم تحقیق توضیحاتی در مورد شناسایی شاخص و پیادهسازی داشبورد داده شد.
در فصل چهارم چگونگی آمادهسازی و پیشپردازش دادهها به منظور ارتقا کیفیت داده برای مدلسازی شرح داده شد و با مدلسازی، گامهایی در خصوص پیشبینی برداشته شد و در انتهای این فصل با تعیین شاخص مناسب طراحی و پیادهسازی داشبورد انجام گرفت.
۵-۳- دستاوردها و نوآوریهای تحقیق
دانشجویان ممکن است نمرات و معدلهای مختلفی در طول دوره تحصیل خود داشته باشند.در طول ترم ها و سالهای متفاوت ممکن است معدلهای متفاوتی داشته باشند، از این منظر میتوان بررسی کرد که دانشجویان در طول تحصیل خود چگونه نمرات و معدل دریافتی خود را تغییر می دهند . در این تحقیق سعی شد تا با بهره گرفتن از ابزار مناسب، داشبوردی برای ارزیابی و پیش بینی پیشرفت تحصیلی دانشجویان ارائه گردد تا مدیران آموزشی در راستای افزایش پیشرفت تحصیلی با مدیریت دقیق و درست گامهایی را اتخاذ نمایند. یافتهها و نوآوریهای این تحقیق را میتوان اینگونه بیان کرد:.
در اکثر تحقیقات انجام شده در حوزه دادهکاوی آموزشی صرفاً عملیات پیشبینی را انجام دادهاند.عمده تحقیقات از این دست با بهره گرفتن از روشهای دادهکاوی ،پیشبینی را انجام میدهند اما در این تحقیق از خوشهبندی قبل از بهکارگیری تکنیک شبکه عصبی و درخت تصمیم C5 استفاده شده است و علاوه بر انجام پیشبینی، داشبورد ارزیابی و پیشبینی پیشرفت تحصیلی دانشجویان پیادهسازی شد.
در بخش نتایج حاصل از پردازش میتوان گفت که در این تحقیق جهت ارزیابی و پیشبینی پیشرفت تحصیلی دانشجویان، آنها را خوشهبندی کرده وبرای تفکیکسازی دانشجویان از الگوریتم خوشهبندی k-means استفاده شده است و نتیجه با بهره گرفتن از شاخص اعتبارسنجی مجموع خطای مربعی ارزیابی شده است و با بهره گرفتن از روشهای شبکهعصبی و درختتصمیم C5 خوشهها مورد پیشبینی قرار گرفتهاند.در جدول ۵-۱ دقت پیشبینیهای انجام شده با دو روش مذکور ارائه شده است.
انتخاب یک روش بر دیگر روشها برای یک مسئلهی پیشبینی، علاوه بر دقت پیشبینی به عواملی مانند بهرهوری مدت زمان لازم برای ساخت یک مدل،سهولت درک مدل توسعه یافته و توجیه نظری وابسته است.
جدول ۵-۱ دقت پیشبینیهای انجام شده
عنوان خوشهها |
دقت شبکهعصبی |
دقت درختتصمیمC5 |
خوشه ۱ |
%۷۵٫۹۳ |
۷۸٫۱۵% |
خوشه ۲ |
%۶۸٫۶ |
۷۱٫۶۸% |
خوشه ۳ |
%۷۳٫۳۴ |
۷۶٫۳۴% |
خوشه ۴ |
%۶۹٫۶۷ |
۷۴٫۵۹% |
همانطور که از نتایج نمایان است، روش درخت تصمیمC5 نسبت به روش شبکهعصبی با سرعت بالاتری پیشبینی دقیقتری را دارند و خروجیهای درخت تصمیمگیری برای کاربران شفافترند زیرا مدل به شکل درخت بهراحتی قابل فهم هستند. بنابراین با دلایل ذکر شده میتوان نتیجه گرفت که روش درختتصمیمC5 روش بهینهتری نسبت به شبکهعصبی میباشد.
از آنجا که این تحقیق نشان داده، تکنیکهای دادهکاوی میتوانند معدل ترم آتی دانشجویان را با دقت پیشبینی کنند و از اینرو به تجزیهوتحلیل و تعیین عوامل مهم اجازه میدهد..در مرحله اول تحقیق تعداد زیادی شاخص درنظر گرفته شد و پس از مشورتهای صورت گرفته ترکیبی از مهمترین شاخصها به عنوان شاخص مناسب تعیین شد و با توجه به این شاخص داشبورد مدنظر پیادهسازی شد.
۵-۴- پیشنهادات برای تحقیقهای آتی
با توجه به مطالعات صورت گرفته پیشنهاداتی را که میتوان برای تحقیقات آتی مورد
استفاده قرار گرفت به صورت زیر پیشنهاد میشود:
- به کارگیری روانشناسی گشتالت در طراحی داشبورد
- به جای انتخاب یک روش، ترکیبی از روشها جهت پیشبینی استفاده شود.
- ارزیابی خوشهها با بهره گرفتن از سایر معیارهای ارزیابی
۵-۵- محدودیتهای تحقیق
در طول انجام تحقیق با محدودیتهایی مواجه شدیم که در موارد زیر به آن اشاره میکنیم.
۱٫حساسیت مسئولین در خصوص ارائه اطلاعات دانشجویان و عدم نشت اطلاعات آنها میباشد که با تعهدات صورت گرفته این مشکل مرتفع شد.
۲٫عدم واگذاری برخی از دادههای دانشجویان مثل نمرات دریافتی در هر درس که این کار انجام تحقیق را با مشکل مواجه کرد و در صورت در اختیار قرار گرفتن این دادهها میتوانستیم در روند انجام تحقیق استفاده کنیم.
فهرست منابع
الف) منابع فارسی:
- پناهیآذر، مریم.(۱۳۸۵)، ”دادهکاوی جهت مقاصد پیشبینی “، دانشگاه صنعتی شریف.
- زرین، غ. (۱۳۸۸)”, جایگاه هوش تجاری در شهرداری الکترونیک, “دومین کنفرانس بین المللی شهرداری الکترونیک.
.http://www.systemgroup.net/web/guest/sgbi
ب) منابع لاتین :
- Attaway, N. M., & Bry, B. H. (2004). Parenting style and black adolescents’ academic achievement. Journal of Black Psychology, 30, 229–۲۴۷٫
- Baker R.S.,Corbet A.T. and Koedinger K.,Detecting Student Misuse of Intelligent Tutoring Systems,in proceedings of the International Conference on Intelligent Tutoring Systems, Maceio, Brazil,2004, PP.531_540.
- Berry, Michael J.A, and Gordons.Linoff.Data Mining Techniques for Marketing Sales and Customer Relationship Management. 2Ed. Johan.Wiley. &.Sons.Publishing Inc., 2004.
- Carpenter, P. (1985). Type of school and academic achievement. Journal of Sociology, 21(2), 219–۲۳۶٫
- Carneiro, P. (2008). Equality of opportunity and educational achievement in Portugal. Portuguese Economic Journal, 7(1), 17–۴۱٫
- Cocea M. and Weibelzahl S.,Can Log Files Analysis Estimate Learners’Level of Motivation?, in Proceeding of the 14th Workshop on Adaptation and User Modeling in Interactive System, Hildesheim, Germany,2006,PP.32_35.
- Davis-Kean, P. E. (2005). The influence of parent education and family income on child achievement: The indirect role of parental expectations and thehome environment. Journal of Family Psychology, 19(2), 294–۳٫
- De Busk, G.K., Brown, R.M. and Killough, L.N.(2003), ”Components and relative weights in utilization of dashboard measurement systems like the Balanced Scorecard,” The British Accounting Review,VOL.35 NO.3,pp.215-231.doi:10.1016/S 0890-8389(03) 00026-X.
- Desmarais, M. & Baker, R. (2011).A review of recent advances in learner and skill modeling in intelligent learning environments.User Modeling and User_Adapted Interaction,1-30.
- Dr Eamonn Keogh,”Data Mining and Machine Learning in Time Series Data base”, Computer Science and Engineering Department, University of California, 2003.
- Few, S. (2006), Information Dashboard Design, Gravenstein Highway North Sebastopol, O’Reilly Media, first. ,p. 224.
- Gianluca Bontempi,”Data Mining for Prediction”, ULB University, 2002.
- Gerber, S. B., & Fin, J. D. (2001). Teacher aides and students’ academic achievement. Educational Evaluation and Policy Analysis, 23(2), 123–۱۴۳٫
- Goddard, R. D., Sweetland, S. R., & Hoy, W. K. (2000). Academic emphasis of urban elementary schools and student achievement in reading and mathematics: A multilevel analysis, Educational Administration Quarterly, 36(5), 683-702.
- Harrington,L., Hoffman,E., Pactricia,M., Wright,K. and Cargo, V.(2006),”Nursing Research Dashboard Nursing Research Program,”Nurse leader,No.October 2006.
- Hamalainen W.and Vinni M.,Comparison of Machine Learning Methods for Intelligent Tutoring Systems, in Proceedings of the 8th
- Han J. and Kamber M., Data Mining Cancepts and techniques Morgan Kaufmann Publishers,2006.
- Hu,W., Almansoori,A., Kannan,P.K., Azarm,S. and Wange,Z. (2011), ”Corporate dashboards for integrated business and engineering decisions in oil refineries:An agent-based approach,”Decision Support Systems,VOL.52 NO.3,pp.729-741.doi:10.1016/j.dss.2011.11.019.
- http://www.statsoft.com/textbook/sttimser.htm
- Hwang G.J.,Hsiao C.L. and Tseng C.R.,A computer_Assisted Approach to Diagnosing Student Learning Problems in Science, Journal of Information Science and Engineering, Vol.19, 2003, PP. 229_248.
- International Conference in Intelligent Tutoring Systems, Taiwan, 2006, PP.525_534.
- Khorasani,R. (2008),”Settingup a dashboard for your practice.” Journal of the American College of Radiology: JACR, VOL.5 NO.4,P.600.doi:10.1016/j.jacr.2008.01.021.
- Kotsiantis S.B., Pierrakeas C.J. and pintelas P.E., Predicting Students’ Performance in Distance Learning Using Machine Learning Techniques,Applied Artificial Intelligence, Vol.18, No.5, 2004, PP. 411_426.
- Kuo.R.J. An.Y.L., Wang.H.S., Chung.W.J.Integration of self-organizing feature maps neural network and genetic k-means algorithm for market segmentation. Expert Systems with Application, 30, (2006):313-324.
- Kyoung-jae Kim,Hyunchul Ahn.A recommender system using GA K-means clustering in an online shopping market.Expert System with Applications 34(2008).1200-1209.
- Logi XML. (2011),”Dashboard Software Buyers Guide,” Access. Retrieved from www.logixml.com
- Maseri,W., Wan,B., Embong,A., Zain,J.M. and Engineering,S. (2007),”Improve Knowledge Visualization through and Interactive Graph-based Dashboard System with Key Performance Indicator: A Case Study of University Dashboard for Higher.”
- Markellou P., Mousurouli I., Spiros S. and Tsakalidis A., Using Semantic Web Mining Technologies for Personalized e_Learning Experiences, in Proceedings of the Web_based Education Conference, Grindelwald, Switzerland, 2005, PP.461_826.
- Mehmed Kantardzic,”Data Mining (Concepts, Models, Methods and Algorithms)”, University of Louisvilla. IEEE Press, ISBN 0-471-22852, 2003.
- Meyers, Tomas A,”The technical analysis course: a wining Program for investors and traders”, erd, ed. 2002, ISBN: 964-410-053-0, 2002.
- Minaei_Bidgoli B.and punch B.,using Genetic Algorithms for Data Mining Optimization in an Educational Web_based System , Genetic and Evolutionaly Computation,Vol 2,2003,PP.2252_2263.
- Park,K.W., Smaltz,D., Mc Fadden,D. and Souba,W. (2010), ”The operating room dashboard.,” The Journal of surgical research, Elsevier Inc.VOL.164 NO.2,pp.294-300.doi:10.1016/j.jss.2009.09.011
- Pauwels,K., Ambler,T., Clark,B., Lapointe,P. Reibstein,D., Skiera,B., Wierenga,B., et al. (2008), ”Dashboards & Marketing: Why, What, How and What Research is Needed?by.”
- Ramli A.A., Web Usage Mining Using Apriori Algorithm: UUM Learning Care Portal Case, in proceedings of the International Conference on Knowledge Managment, Malaysia, 2005, PP.1_19.
- Romero, C., Ventura. S. Educational data mining: A survey from 1995 to 2005, Expert Systems with Applications 135–۱۴۶, ۲۰۰۷٫
- Rosow, E., Adam, Joseph and Coulombe,C. (2003),”Case Study: A Real-time Bed Management and Census Control Dashboard,” Nursing dministration Quarterly,Vol.27 No.1,pp.58-76.Retrievedform http://www.himss.org/content/files/proceedings/2003/casestudies/Cs-113.pdf.
- Scipioni,A., Mazzi,A., Mason,M. and Manzardo,A. (2009), ”Ecological Indicators,VOL.9 NO.2,pp.364-380. doi: 10, 1016/j. ecolind. 2008,05,002.
- Sharma, Parveen. Advanced Application of Data Warehousing Using 3-tier Architecture. Journal of library & information technology, 29(2), (2009):61-66.
- Stan Matvin,”Data Mining for Prediction of Aircraft Component, Scool of Iinformation Technology and Engineering“ University of Ottawa, Canada, 2002.
- U.M.Fayyad,G.Piatetsky-Shapiro, and P.smyth, ”From Data Mining to Knowledge Discovery: An Overview,” in Advances in Knowledge discovery and data mining, U.M.Fayyad, G.Piatetsky-Shapiro, P. Smyth, and R.Uthursamy, Eds. Menlo Park, California: AAAI Press, 2002.
- Wai-Ki Ching and Michael Kwok ,”Advances in Data Mining and Modeling“, University of Hong Kong , Jone, World Scientifc, ISBN 981-238-354-9,2005.
- Wayne,W. (2011), PERFORMANCE DASHBOARDS, Wiley, Second.
- Yigitbasioglu, O.M. and Velcu, O. (2011),”A review of dashboards in performance management: Implications for design and research,” International Journal of Accounting Information Systems, Elsevier Inc.doi:10,1016/j.accinf.2011.08.002.
- Yudelson M.V. and et al., Mining Student Learning Data to Develop High Level Pedagogic Strategy in a Medical ITS, in Proceeding of the AAAI Workshop on Educational Data Mining, Boston, MA, USA, 2006, PP.1_8.
- Zaiane O., Bulding a Recommender Agent for e_Learning Systems, in proceedings of the International Conference on Computers in Educational, 2002, PP.55.
Abstract
Understanding the factors that lead to success (or failure) of students at tests is an interesting and challenging problem. related concepts, analysis of the success factors behind tests may help understand and potentially improve academic achievement.In this research, basides a glance at main features of effective executive dashboards,the effort is to a case study is conducted on the database Azad & state university in Qom city in the center of Iran to predict collegian’ improvement study .
In this research clustering is done by k-means and With using of SSE the optimal number of clusters is determined.Therefore,the optimal number of clusters for collegian is four clusters and then clusters with Prediction methods Including neural network and decision tree C5 and finally the used results of this methods,find the indicators.these indicators should be exposed clearly and increasing knowledge in a single dashboard.
Keywords: Education Data mining, Neural network, Clustering, Decision tree C5,Dashboard.
The University of Qom
Faculty of Engineering
A Thesis Submitted in Partial Fulfillment of the Requirements for the Degree of Master of Science in E-commerce
Title:
Present the indexes and Dashboard assessment and prediction Collegian’ Improvement Study with Using Neural Network and Decision Tree(C5)
Supervisor:
Dr Amir Afsar
By
Marzieh Habibzadeh
winter 2014
- Education Data Mining ↑
- Artificial Neural Network ↑
- Prediction ↑
- Data Gap ↑
- online ↑
- Data Quality ↑
- outlier ↑
- Missing value ↑
- Duplicate data ↑
- Data Ownership and Distribution ↑
- Privacy preservation ↑
- Streaming data ↑
- Supervised Methods ↑
- classification ↑
- Regression ↑
- Anomaly Detection ↑
- Train Dataset ↑
- Test Dataset ↑
- Decision Tree ↑
- Rule – Based Classifier ↑
- Previously Unseen Data ↑
- Time series prediction ↑
- threshold ↑
- Credit card fraud detection ↑
- Exclusive or Hard Clustering ↑
- Overlapping or Soft Clustering ↑
- Hierarchical ↑
- Flat ↑
- Dendogram ↑
- Consistency ↑
- Cross Industry Standard Process for Data Mining ↑
- Gartner ↑
- Obsolete ↑
- Redundant ↑
- Missing ↑
- Outlier ↑
- Data cleaning ↑
- Data transformation ↑