Flowerfire,
Angoss, Net
Genesis
WWW, Internet,
monumental scale
Database
“What’s likely
to happen to
Mumbai unit
sales
next/previous
millions
months? “
Web Mining
(Emerging Today)
۲-۴ مشکلات کاربران در استفاده ازوب
یافتن اطلاعات مورد نیاز در وب دشوار می باشد و کاربران معمولا از موتورهای جستجو که مهم ترین و رایج ترین ابزار برای یافتن اطلاعات در وب می باشند، استفاده می کنند.اما موتورهای جستجو دارای دو مشکل اصلی هستند.
( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
- دقت موتورهای جستجو پایین است، چراکه این موتورها در پاسخ به یک پرسوجوی کاربر صدها یا هزاران سند را بازیابی می کنند.
- میزان فراخوان این موتورها کم می باشد، به آن معنی که قادر به بازیابی کلیه اسناد مرتبط با نیاز اطلاعاتی کاربر نیستند. چرا که حجم اسناد در وب بسیار زیاد است و موتورهای جستجو قادر به نگهداری اطلاعات کلیه اسناد وب، در پایگاه دادههای خود نمی باشند[۲۴,۵۰].
مشکل بعدی ایجاد دانش جدید با بهره گرفتن از اطلاعات موجود در وب است تابتوان دادههای فراوان موجود در وب را به دانشی قابل استفاده تبدیل کرد، به طوری که یافتن اطلاعات مورد نیاز در آن به سادگی صورت بگیرد. شخصی سازی اطلاعات مشکل دیگری است که برای این منظور با توجه به خواسته ها و تمایلات کاربران متفاوت، نحوه ارائه اطلاعات به آنها باید سفارشی گردد. زمان پاسخ درک شده توسط کاربر بسیار طولانی است .رشد انفجاری وب تقاضای سنگین را در شبکه تحمیل کرده است.از این رو، راه حل روشن به منظور بهبودکیفیت سرویس ها، افزایش پهنای باند خواهد بود. اما چنین انتخابی شامل افزایش هزینه های اقتصادی میشود.[۵۰,۳۶,۲۰]
طرح ذخیره وب[۱۷] سه شکل معنی داردارد : اگر پروکسی به درستی به روز نشود ،کاربر ممکن است دادههای تاریخ گذشته و قدیمی را دریافت کند ، و تعدادکاربران به صورت فزاینده ای افزایش می یابد، سرور مبدا به طور معمول خود به تنگنا [۱۸]تبدیل میشود[۵۰].
چند عامل که اثر ایده آل ذخیره وب را کاهش میدهد. عوامل آشکارمنابع سیستم از سرویس دهنده های ذخیره سازی محدود می سازد ( یعنی فضا حافظه، ذخیره سازی دیسک ، پهنای باند I / O ، قدرت پردازش، و منابع شبکه ) . با این حال، حتی اگرفضای ذخیره سازی نامحدود است ، مشکلات قابل توجهی وجود داردکه با چنین روشهایی نمی توان از آنها اجتناب کرد . به طور خاص، ذخیره سازی بزرگ یک راه حل نیست زیرا مشکل به روز رسانی چنین مجموعه عظیمی از اشیاء وب غیر قابل کنترل است.اشکال اصلی سیستم که باعث افزایش سیاست های واکشی اولیه است،این است که برخی از اشیاء واکشی شده ممکن است در نهایت توسط کاربران درخواست نشوند. دراین صورت ، طرح واکشی اولیه ترافیک شبکه و همچنین بار سرویس دهنده وب را افزایش میدهد.تکنیک های وب کاوی قادر به حل این مشکلات می باشند[۳۶,۲۰,۵۰].
۲-۵ شباهت ها و تفاوت های وبکاوی و داده کاوی
وب کاوی و داده کاوی ارتباط بسیار نزدیکی با یکدیگر دارند اما شباهت ها و تفاوت هایی بین این دو وجود دارد از جمله این که:
- داده کاوی فرایند ارائه پرسوجوها و استخراج الگوها و اطلاعات مفید و ناشناخته از دادههایی است که معمولا در پایگاه دادهها ذخیره شدهاند.
- بسیاری از تکنیک های داده کاوی قابل استفاده در وب کاوی هستند.اماحوزه وب کاوی وسیع تر از داده کاوی است.
- در وب دو نوع داده اصلی برای کاوش مورد استفاده قرار می گیرند. نوع اول، اطلاعات ساختاری وب است که منظور از آن پیوندهای بین صفحات وب می باشد. نوع دوم نیز، اطلاعات مربوط به نحوه استفاده کاربران از وب است. در واقع تحلیل رفتار کاربر در استفاده از وب، ترجیحات و علایق وی درباره نوع و قالب اطلاعات، … بخش مهمی از وب کاوی است. در داده کاوی این دو نوع از داده وجود ندارند[۲۳,۳,۳۹].
مقایسه وبکاوی و داده کاوی از نظر مقیاس، دسترسی و ساختار را در جدول ۲-۲ مشاهده می کنید[۵۰].
جدول۲-۲.مقایسه وبکاوی و داده کاوی [۵۰]
Data mining
Web mining
مقایسه
در این پردازش جستجو بزرگ است،۱ میلیون شغل در پایگاه داده
در این پردازش جستجو بزرگ نیست، ۱۰
میلیون شغل(job) در پایگاه داده وب سرور
مقیاس(scale)