یکشنبه 30 شهریور 1399 | Sunday 20 th of September 2020 صفحه اصلی گروه الکترونیکی کامپیوتر
مقدمه

پیشرفت­های به وجود امده در جمع­اوری داده و قابلیت­های ذخیره سازی در طی دهه­های اخیر باعث شده در بسیاری از علوم با حجم بزرگی از اطلاعات روبرو شویم. محققان در زمینه­های مختلف مانند مهندسی، ستاره شناسی، زیست شناسی و اقتصاد هر روز با مشاهدات بیشتر و بیشتری روبرو می­شوند. در مقایسه با بسترهای داده­ای قدیمی و کوچکتر، بسترهای داده­ای امروزی چالش­های جدیدی در تحلیل داده­ها بوجود اورده­اند. روش­های اماری سنتی به دو دلیل امروزه کارایی خود را از دست داده­اند. علت اول افزایش تعداد مشاهدات (observations) است و علت دوم که از اهمیت بالاتری برخوردار است، افزایش تعداد متغیرهای مربوط به یک مشاهده می­باشد.

تعداد متغیرهایی که برای هر مشاهده باید اندازه­گیری شود، ابعاد داده نامیده می­شود. عبارت "متغیر" (variable) بیشتر در امار استفاده می­شود در حالی که در علوم کامپیوتر و یادگیری ماشین بیشتر از عبارات "ویژگی" (feature) و یا "صفت" (attribute) استفاده می­شود.

بسترهای داده­ای که دارای ابعاد زیادی هستند علیرغم فرصت­هایی که به وجود می­اورند، چالش­های محاسباتی زیادی را ایجاد می­کنند. یکی از مشکلات داده­های با ابعاد زیاد این است که در بیشتر مواقع تمام ویژگی­های داده­ها برای یافتن دانشی که در داده­ها نهفته است مهم و حیاتی نیستند. به همین دلیل در بسیاری از زمینه­ها کاهش ابعاد داده یکی از مباحث قابل توجه باقی مانده است.

روش­های کاهش ابعاد داده[1] به دو دسته تقسیم می­شوند [Moto98],[Theo06] :

 روش­های مبتنی بر استخراج ویژگی[2]: این روش­ها یک فضای چند بعدی را به یک فضای با ابعاد کمتر نگاشت می­کنند. در واقع با ترکیب مقادیر ویژگی­های موجود، تعداد کمتری ویژگی بوجود می­اورند به طوریکه این ویژگی­ها دارای تمام (یا بخش اعظمی از) اطلاعات موجود در ویژگی­های اولیه باشند. این روش­ها به دو دسته­خطی و غیر خطی تقسیم می­شوند.

  • روش­های مبتنی بر انتخاب ویژگی[3]:این روش­ها سعی می­کنند با انتخاب زیرمجموعه­ای از ویژگی­های اولیه، ابعاد داده­ها را کاهش دهند. در پاره­ای از اوقات تحلیل­های داده­ای نظیر طبقه­بندی برروی فضای کاسته شده نسبت به فضای اصلی بهتر عمل می­کند. روش­هایانتخابویژگیبر ایناساساستوارندکهاستفادهازبعضیازویژگی­هابهجایکلان­هامی­توانددقتوسرعتسیستمدستهبندیراافزایشدهد.

هم چنین Pyleکاهش داده­ها را به چندین بخش از جمله Feature ExtractionوFeature Selectionتقسیم کرده است [Pyle99]. Koahaviنیز کاهش ویژگی­ها را به دو دسته بزرگ، البته با نام­های متفاوت Feature Transformو Variable Selectionمجزا کرده است [Koha97].

کاهش ابعاد داده با توجه به هدف از کاهش می­تواند به دو دسته تقسیم شود [Petr10]:

  • کاهش داده برای ارایه داده بهینه
  • کاهش داده برای دسته بندی[4]

[1]- Dimension Reduction

[2] - Feature Extraction

[3] - Feature Selection

[4]  -Classification

Compatability by:
آخرین به روز رسانی سایت: سه شنبه, 22 اسفند 1391 - 00:26