سه شنبه 29 خرداد 1397 | Tuesday 19 th of June 2018 صفحه اصلی گروه الکترونیکی کامپیوتر
4-6- داده کاوی

 

داده­کاوی برای بیان کشف دانش در یک پایگاه داده استفاده می­شود. داده­کاوی فرایندی است که از     روش­های اماری، ریاضی، هوش مصنوعی و یادگیری ماشین برای استخراج  و تعیین  اطلاعات و دانش­های مفید از یک پایگاه داده بزرگ، استفاده می­کند. عبارت داده­کاوی برای بیان فرایندی که الگوهای کشف نشده در میان داده­ها را پیدا می­کند، استفاده می­شود. داده­کاوی شامل الگوریتمهای مخصوص داده­کاوی است، بطوریکه، تحت محدودیتهای مؤثر محاسباتی قابل قبول، الگوها و یا مدلها را در داده­ها کشف می­کند.            به بیان ساده­تر، داده­کاوی به فرایند استخراج دانش ناشناخته، درست، و بالقوه مفید، از داده­ها اطلاق می­شود. ابزارهای داده­کاوی داده­ها را انالیز می­کنند و الگوهای داده­ای را کشف می­کنند که می­توان از ان در کاربردهایی نظیر: تعیین استراتژی برای کسب و کار، پایگاه دانشو تحقیقات علمی و پزشکی، استفاده کرد. شکاف موجود بین داده­ها و اطلاعات سبب ایجاد نیاز برای ابزارهای داده­کاوی شده است تا داده­های بی ارزش را به دانشی ارزشمند تبدیل کنیم. در حال حاضر داده­کاوی، مهمترین فناوری جهت بهره­برداری موثر از        داده­های حجیم است و اهمیت ان نیز، رو به افزایش است. به طوریکه تخمین زده شده است که مقدار داده­ها در جهان هر 20 ماه به حدود دو برابر می­رسد. در یک تحقیق که بر روی گروه­های تجاری بسیار بزرگ در      جمع­اوری داده­ها صورت گرفت، مشخص گردید که 19 درصد  از این گروه­ها دارای پایگاه داده­هایی با سطح بیشتر از 50 گیگا بایت می­باشند و 59 درصد از ان ها انتظار دارند که در اینده­های نزدیک در چنین سطحی قرار گیرند.

در صنایعی مانند کارت­های اعتباری و ارتباطات و فروشگاه­های زنجیره­ای و خریدهای الکترونیکی هر روزه داده­های زیادی تولید و ذخیره می­شوند. افزایش سرعت کامپیوتر ها باعث بوجود امدن الگوریتم­هایی شده است که قدرت تجزیه و تحلیل بسیار بالایی دارند بدون اینکه محدودیتی در زمینه ظرفیت و سرعت کامپیوترها     داشته باشند. به طور رسمی اصطلاح داده­کاوی برای اولین­بار،در اولین کنفرانس بین­المللی "کشف دانش و   داده­کاوی " در سال 1995 مطرح شد. افزایش داده­های بسیار باعث پیدایش فرصت­های تازه برای کار در       علوم مهندسی وکسب و کار شد. زمینه داده­کاوی و کشف دانش از پایگاه داده­ها به عنوان یک رشته علمی جدید در مهندسی و علوم کامپیوتر ظهور کرده است.

تعاریف متنوعی از داده­کاوی در مراجع مختلف و توسط افراد مختلف ارائه شده است. از جمله:

  • داده­کاوی یک فرایندشناخت الگوهای معتبر، جدید، ذاتا مفید و قابل فهم از داده­ها می­باشد.
  •  داده­کاوی (کشف دانش از پایگاه داده­ها نامیده می­شود) نشانگر فرایند جالب استخراج دانش از قبل ناشناخته (الگو) از داده است.
  • فرایند کشف الگوهای مفید از داده­ها را داده­کاوی می­گویند.
  • داده­کاوی عبارتست از فرایند یافتن دانش از مقادیر عظیم داده­های ذخیره شده در پایگاه داده،       انبارداده ویا دیگر مخازن اطلاعات.

بر اساس این دیدگاه یک سیستم داده­کاوی به طور نمونه دارای اجزاء اصلی زیر است

  • پایگاه داده، انبارداده یا دیگر مخازن اطلاعات: که از مجموعه­ای از پایگاه داده­ها، انبارداده،          صفحه گسترده، یا دیگر انواع مخازن اطلاعات تشکیل شده است. پاکسازی داده­ها و تکنیکهای   یکپارچه­سازی روی این داده­ها انجام می­شود.
  •  سرویس­دهنده پایگاه داده یا انبارداده: که مسئول بازیابی داده­های مرتبط بر اساس نوع درخواست    داده­کاوی کاربر می­باشد.
  • پایگاه دانش: این پایگاه از دانش زمینه تشکیل شده تا به جستجو کمک کند، یا برای ارزیابی الگوهای یافته شده از ان استفاده می­شود.
  •  موتور داده­کاوی: این موتور جزء اصلی از سیستم داده­کاوی است و به طور ایده ال شامل،          کلاس­بندی، انالیزخوشه­هاو انالیز تکامل وانحرافاست.
  •  پیمانه ارزیابی الگو: این جزء معیارهای جذابیت را به کار می بندد و با پیمانه داده­کاوی تعامل می­کند بدینصورت که تمرکز ان بر جستجو بین الگوهای جذاب می­باشد، و از یک حد استانه جذابیت استفاده می­کند تا الگوهای کشف شده را ارزیابی کند.
  • واسط کاربرگرافیکی:  بین کاربر و سیستم داده­کاوی ارتباط برقرار می­کند، به کاربر اجازه می­دهد تا با سیستم داده­کاوی از طریق پرس­وجو ارتباط برقرار کند، این جزء به کاربر اجازه می­دهد تا شمای   پایگاه داده یا انبارداده را مرور کرده، الگوهای یافته شده را ارزیابی کرده و الگوها را در فرمهای بصری گوناگون بازنمایی کند.

با انجام فرایند داده­کاوی، دانش، ارتباط یا اطلاعات سطح بالا از پایگاه داده استخراج می­شود و قابل مرور از دیدگاه­های مختلف خواهد بود. دانش کشف شده در سیستم های پشتیبان تصمیم، کنترل فرایند، مدیریت اطلاعات و پردازش پرس­وجو قابل استفاده خواهد بود

بنابراین داده­کاوی به عنوان یکی از شاخه­های پیشرو در صنعت اطلاعات مورد توجه قرار گرفته و به عنوان یکی از نوید بخش­ترین زمینه­های توسعه بین رشته­ای در صنعت اطلاعات است. داده­کاوی کمک می­کند تا سازمان­ها با کاوش بر روی داده­های یک سیستم، الگوها، روندها و رفتارهای اینده را کشف و پیش­بینی کرده و بهتر تصمیم بگیرند. داده­کاوی با استفاده از تحلیل وقایع گذشته یک تحلیل اتوماتیک و پیش­بینانه ارایه می­نماید و به سوالاتی جواب می­دهد که پاسخ ان­ها در گذشته ممکن نبوده و یا به زمان زیادی نیاز داشته است.

ابزارهای داده­کاوی الگوهای پنهانی را کشف و پیش­بینی می­کنند که متخصصان ممکن است به دلیل اینکه، این اطلاعات و الگو­ها خارج از انتظار ان­ها باشد، ان­ها را مد نظر قرار ندهند و به ان­ها دست نیابند.

سه روش که برای پیدا کردن الگوها در داده­کاوی مورد استفاده قرار می­گیرند عبارتند از:

  • مدل­های ساده (مبتنی بر دستورات اس کیوئل[1]، OLAP، قضاوت­های انسان)
  • مدل­های میانی (رگرسیون، درخت تصمیم، دسته­بندی)
  • مدل­های پیچیده (شبکه­های عصبی، دیگر قوانین تولید).

این الگوها و قوانین می­توانند برای تصمیم­گیری و پیش­بینی تصمیم­های موثر استفاده شوند. داده­کاوی      می­تواند با تمرکز بیشتر بر روی  موارد مهم، سرعت انالیز را افزایش دهد.

 

 داده­کاوی و انبارداده­ها: 

معمولا داده­هایی که در داده­کاوی مورد استفاده قرار می­گیرند از یک انبار­داده استخراج می­گردند و در یک پایگاه داده  یا مرکز داده­ای ویژه برای داده­کاوی قرار می­گیرند.

 اگر داده­های انتخابی جزیی از انبار داده­ها باشند بسیار مفید است چون بسیاری از اعمالی که برای ساختن انبارداده­ها انجام می­گیرد با اعمال مقدماتی داده­کاوی مشترک است و در نتیجه نیاز به انجام مجدد این اعمال وجود ندارد، از جمله این اعمال پاکسازی داده­ها می­باشد.

پایگاه داده مربوط به داده­کاوی می­تواند جزیی از سیستم انبارداده­ها باشد و یا می­تواند یک پایگاه داده جدا باشد.

ولی با این حال وجود انبارداده­ها برای انجام داده­کاوی شرط لازم نیست و بدون ان هم اگر داده­ها دریک یا چندین پایگاه داده باشند می­توانیم داده­کاوی را انجام دهیم و بدین منظور فقط کافیست داده­ها را در یک    پایگاه داده جمع­اوری کنیم و اعمال جامعیت داده­ها و پاکسازی داده­ها را روی ان انجام دهیم. این پایگاه داده جدید مثل یک مرکز داده­ای عمل می­کند.

 

داده­کاوی وسیستم پردازش تحلیل برخط:

بسیاری فکر می­کنند که داده­کاوی و سیستم پردازش تحلیل برخط،دو چیز مشابه هستند در این بخش سعی می­کنیم این مسئله را بررسی کنیم و همانطور که خواهیم دید این دو ابزار های کاملا متفاوت می­باشند که      می­توانند همدیگر را تکمیل کنند.

سیستم پردازش تحلیل برخط،جزیی از ابزارهای تصمیم­گیری می­باشد. سیستم­های سنتی گزارش­گیری و پایگاه داده­ای انچه را که در پایگاه داده بود، توضیح می­دادند حال انکه درسیستم پردازش تحلیل برخط، هدف بررسی دلیل صحت یک فرضیه است.

بدین معنی که کاربر فرضیه­ای در مورد داده­ها و روابط بین انها ارائه می­کند و سپس به وسیله ابزار OLAPبا انجام چند کوئری[2]، صحت ان فرضیه را بررسی می­کند.

اما این روش برای هنگامی که داده­ها بسیار حجیم بوده و تعداد پارامترها زیاد باشد نمی­تواند مفید باشد چون حدس روابط بین داده­ها کار سخت و بررسی صحت ان بسیار زمانبر خواهد بود.

تفاوت داده­کاوی با سیستم پردازش تحلیل بر­خط،در این است که داده­کاوی برخلاف سیستم          پردازش تحلیل برخط،برای بررسی صحت یک الگوی فرضی استفاده نمی­شود بلکه خود سعی می­کند این الگوها را کشف کند. درنتیجه داده­کاوی و سیستم پردازش تحلیل برخط،  می­توانند همدیگر را تکمیل کنند و تحلیل­گر می­تواند به وسیله ابزار OLAPیک سری اطلاعات کسب کند که در مرحله داده­کاوی می­تواند مفید باشد و همچنین الگوها و روابط کشف شده در مرحله داده­کاوی می­تواند درست نباشد که با اعمال تغییرات در انها می­توان به وسیله سیستم پردازش تحلیل برخط،بیشتر  بررسی شوند.

 

کاربرد یادگیری ماشین و امار در داده­کاوی:

داده­کاوی از پیشرفت­هایی که در زمینه هوش مصنوعی و امار رخ می­دهد بهره می­گیرد. هر دو این زمینه­ها در مسائل شناسایی الگو و طبقه­بندی داده­ها کار می­کنند و بالتبع در داده­کاوی استفاده مستقیم خواهند داشت. و هر دو گروه در شناخت و استفاده از شبکه­های عصبی و درخت­های تصمیم­گیری فعال می­باشند.

داده­کاوی اساسا یک رشته کاربردی است و یک داده­کاو، باید از روش­های اماری درک خوبی داشته باشد.

 برقراری این ارتباط به دلیل وجود یک سلسله از فرضیات ضمنی و غیر واضح و دشوار بودن تبدیل مفاهیم نظری به الگوریتم­های کامپیوتری در ادبیات اماری و به دلیل وجود الگوریتم­های فراوان در ادبیات کامپیوتری

دشوار است. لذا داشتن درکی درست از مدل­سازی و الگوریتم­های محاسباتی برای کارهای داده­کاوی ضروری است.

روابط در داده­کاوی غالبا به صورت الگوها و مدل­هایی از قبیل معادلات رگرسیون، سری­های زمانی،         خوشه­ها، رده­بندی­ها، گراف و غیره ارائه می­شوند. در داده­کاوی نیز همانند امار غالبا داده­هایی که تحلیل       می­شوند، نمونه­ای از جامعه هستند که به تبع بزرگ بودن جامعه با نمونه­ای حجیم مواجه هستیم. در هنگام کار با مجموعه داده­های حجیم، مشکلات تازه­ای بروز می­کند. برخی از این مشکلات به نحوه ذخیره­سازی یا فراخوانی  داده­ها مربوط می­شوند و برخی دیگر مربوط به مسائلی مانند نحوه تحلیل داده­ها در زمانی مناسب و استخراج الگو­ها و مدل­های حاکم بر داده­ها است.



[1]SQL

[2]Query

Compatability by:
آخرین به روز رسانی سایت: سه شنبه, 22 اسفند 1391 - 00:26