ب کاوی (Web Mining) یکی از زمینه های تحقیقاتی است که با به کارگیری تکنیک های داده کاوی به کشف و استخراج خودکار اطلاعات از اسناد و سرویس های وب می پردازد. داده کاوی (Data Mining) یعنی استخراج اطلاعات گرانبها از حجم عظیم معادن داده ها. داده کاوی دو راهکار مشخص ارائه می کند: ارائه گزارشات مستند برای حل مشکلات کسب و کار؛ و ارائه راهکار نرم افزاری با طراحی سیستم پشتیبان تصمیم گیری. فلسفه ی داده کاوی این است که آینده بسیار به گذشته شبیه است. اگر گذشته را خوب بشناسید می توانید آینده را پیش بینی کنید.

آمار به عنوان علم جمع آوری و تجزیه و تحلیل در مورد پدیده های تحت بررسی، جزء لاینفک مدیریت مؤثر و کارآمدی است که بر فعالیتهای هدفدار تمرکز دارد. آمار و اطلاعات، قوی ترین ابزار جهت ارزیابی عملکرد گذشته، برنامه ریزی آینده و تصمیم گیری در سطوح مختلف مدیریت است، چرا که تجزیه و تحلیل وضعیت موجود و پیش بینی وضعیت آینده در بخشهای مختلف علوم، به ویژه مسائل اقتصادی، مستلزم وجود داده های آماری دقیق، جامع و به روز است.

آمار و اطلاعات، یکی از عوامل مؤثر و ضروری برای برنامه ریزی، ارزیابی عملکردها و تصمیم گیری در سطوح مختلف مدیریت بوده و سیاستگزاران، برنامه ریزان و کارشناسان، برای تدوین راهبردها، تعیین خط مشی، برنامه ریزی، نظارت، هماهنگی و هدایت برنامه ها به آن نیاز دارند. علاوه بر آن، فعالان اقتصادی، تجار و بازرگانان نیز در فرآیند ارتقاء جایگاه کشور در بازارهای جهانی به داده های آماری نیازمندند.

در بازار رقابتی امروز، داشتن اطلاعات و آمار از بازاری که در آن مشغول به کاریم و بازارهای موازی، از مهمترین پارامترهای تجارت است که اگر بنگاه اقتصادی آنرا در اختیار داشته باشد می تواند امید به فعالیت و افزایش سهم بازار خود داشته باشد و در غیر اینصورت با مشکلات عدیده ای مواجه خواهد شد.

یکی از به روز ترین روشهای تحقیق بازار همان داده کاوی الکترونیک یا جستجو در هزاران داده درون اینترنت است که می تواند به علمی قابل اتکا مبدل شود. ولی با توجه به حجم زیاد داده غیر مرتبط و غیر واقعی در اینترنت، تهیه این اطلاعات مفید کار دشواری شده است.

وب‌کاوی چیست؟

همانطور که همه شما می‌دانید اطلاعات بسیار زیاد و ناهمگونی در محیط وب وجود دارد که سبب می‌شود کسب دانش موجود در محتوای صفحات وب مشکل‌تر شود. بنابراین در چنین محیطی به کارگیری ابزارها و فنون داده کاوی برای کشف اطلاعات و دانش مرتبط ضروری است. وب کاوی اشاره به کلیه فعالیت‌های داده کاوی و فنون وابسته به آن دارد که برای کشف خودکار و استخراج دانش از اسناد و خدمات وب به کار می‌روند.

در فرآیند وب کاوی، محقق سعی می کند جنبه های مختلف موضوع را در داخل فضای مجازی دنبال کند و سرنخ های بدست آمده را طبقه بندی و بر اساس الگوهای داده کاوی به جمع بندی برسد. هنر محقق کشف سرنخ های مفید و مرتبط و دنبال کردن آنها تا کشف دقیق موضوع می باشد.

ملزومات وب کاوی

حالا که با مفهوم وب‌کاوی و چالش‌های جستجو در محیط وب آشنا شدید بهتر است برای آنکه در این محیط بهتر و سریعتر کار کنید با ملزومات داده‌کاوی آشنا شوید. برخی از این ملزومات عبارتند از:

نیاز به کارهای مبتنی بر متن و درخواست های غیر دقیق

نیاز به خلاصه سازی و قیاس

نیاز به شخصی سازی و یادگیری

انواع وب کاوی

کاوش محتوای وب، کاوش ساختار وب و کاوش کاربری سه شیوه مختلف وب‌کاوی هستند که البته در برخی متون، وب‌کاوی دارای روش چهارمی هم هست که کاوش پرونده کاربران وب نامیده می‌شود.

مراحل وب کاوی

وب کاوی شامل چهار مرحله اصلی به شرح زیر است:

پیدا کردن منبع: این مرحله شامل بازیابی اسناد وب مورد نظر است.

انتخاب اطلاعات و پیش پردازش: در این مرحله به صورت خودکار اطلاعات خاصی از اسناد بازیابی شده، انتخاب و پیش پردازش می‌شوند.

تعمیم: در این مرحله به صورت خودکار الگوهای عام در یک یا چندین سایت وب کشف می‌شود.

تحلیل: در مرحله تحلیل الگوهای به دست آمده در مرحله قبل اعتبار سنجی و تفسیر می‌شوند.

وب کاوی و داده کاوی

وب کاوی ، فرآیند کشف اطلاعات و دانش ناشناخته و مفید از داده های وب

در واقع وب کاوی، فرآیند کشف اطلاعات و دانش ناشناخته و مفید از داده های وب می باشد. روش های وب کاوی بر اساس آن که چه نوع داده ای را مورد کاوش قرار می دهند، به سه دسته کاوش محتوای وب، کاوش ساختار وب و کاوش استفاده از وب تقسیم می شوند.

در ادامه پس از بررسی بیشتر وب کاوی و مراحل آن، ارتباط وب کاوی با سایر زمینه های تحقیقاتی بررسی شده و به چالش ها، مشکلات و کاربردهای این زمینه تحقیقاتی اشاره می شود. همچنین هر یک از انواع وب کاوی به تفصیل مورد بررسی قرار می گیرند. برای این منظور مدل ها، الگوریتم ها و کاربردهای هر طبقه معرفی می شوند.

با توسعه سیستم های اطلاعاتی، داده به یکی از منابع پر اهمیت سازمان ها مبدل گشته است. بنابراین روش ها و تکنیک هایی برای دستیابی کارا به داده، اشتراک داده، استخراج اطلاعات از داده و استفاده از این اطلاعات، مورد نیاز می باشد. با ایجاد و گسترش وب و افزایش چشمگیر حجم اطلاعات، نیاز به این روش ها و تکنیک ها بیش از پیش احساس می شود. وب، محیطی وسیع، متنوع و پویا است که کاربران متعدد اسناد خود را در آن منتشر می کنند.

در حال حاضر بیش از دو بیلیون صفحه در وب موجود است و این تعداد با نرخ ۷٫۳ میلیون صفحه در روز افزایش می یابد. با توجه به حجم وسیع اطلاعات در وب، مدیریت آن با ابزارهای سنتی تقریبا غیر ممکن است و ابزارها و روش هایی نو برای مدیریت آن مورد نیاز است. به طور کلی کاربران وب در استفاده از آن با مشکلات زیر روبرو هستند:

یافتن اطلاعات مرتبط

یافتن اطلاعات مورد نیاز در وب دشوار می باشد. روش های سنتی بازیابی اطلاعات که برای جستجوی اطلاعات در پایگاه داده ها به کار می روند، قابل استفاده در وب نمی باشند و کاربران معمولا از موتورهای جستجو که مهمترین و رایج ترین ابزار برای یافتن اطلاعات در وب می باشند، استفاده می کنند. این موتورها، یک پرس و جوی مبتنی بر کلمات کلیدی از کاربر دریافت کرده و در پاسخ لیستی از اسناد مرتبط با پرس و جوی وی را که بر اساس میزان ارتباط با این پرس و جو مرتب شده اند، به وی ارائه می کنند. اما موتورهای جستجو دارای دو مشکل اصلی هستند.

اولا دقت موتورهای جستجو پایین است، چراکه این موتورها در پاسخ به یک پرس و جوی کاربر صدها یا هزاران سند را بازیابی می کنند، در حالی که بسیاری از اسناد بازیابی شده توسط آنها با نیاز اطلاعاتی کاربر مرتبط نمی باشند. دوما میزان فراخوان این موتورها کم می باشد، به آن معنی که قادر به بازیابی کلیه اسناد مرتبط با نیاز اطلاعاتی کاربر نیستند. چرا که حجم اسناد در وب بسیار زیاد است و موتورهای جستجو قادر به نگهداری اطلاعات کلیه اسناد وب، در پایگاه داده های خود نمی باشند.

ایجاد دانش جدید با استفاده از اطلاعات موجود در وب

این مشکل در واقع بخشی از مشکل مطرح شده در قسمت قبل می باشد. در حال حاضر این سوال مطرح است که چگونه می توان داده های فراوان موجود در وب را به دانشی قابل استفاده تبدیل کرد، به طوری که یافتن اطلاعات مورد نیاز در آن به سادگی صورت بگیرد. همچنین چگونه می توان با استفاده از داده های وب به اطلاعات و دانشی جدید دست یافت.

خصوصی سازی اطلاعات

از آن جا که کاربران متفاوت هر یک درباره نوع و نحوه بازنمایی اطلاعات سلیقه خاصی دارند، این مسئله باید توسط تامین کنندگان اطلاعات در وب مورد توجه قرار بگیرد. برای این منظور با توجه به خواسته ها و تمایلات کاربران متفاوت، نحوه ارائه اطلاعات به آنها باید سفارشی گردد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این فیلد را پر کنید
این فیلد را پر کنید
لطفاً یک نشانی ایمیل معتبر بنویسید.

فهرست