پنج شنبه 26 مهر 1397 | Thursday 18 th of October 2018 صفحه اصلی گروه الکترونیکی کامپیوتر
1-3-1 استخراج داده ها

هر نمونه ( تاپل ) از چندین صفت تشکیل شده است که انواع مختلفی از مقادیر برای هر صفت وجود دارد . دو نوع معمول از این نوع مقادیر عبارتند از : 

•    عددی یا numeric: مقادیر عددی شامل مقادیر حقیقی و صحیح مثل سن ، سرعت و طول میباشد.یک صفت با مقادیر numeric  دارای دو ویژگی مهم است:مقدار ان صفت دارای یک رابطه مرتب (ترتیبی)است(مثل 5>2 و 7>5) و یک رابطه فاصله (تفاضل) است (مثل=1.9(d(3.2,4.2).

•     مطلق یا categorical  :به این نوع مقادیر اغلب  :به این نوع مقادیر اغلب symbolicگفته میشود.این متغیرها دو رابطه ی موجود در مقادیر numeric  را ندارند.دو مقدار یک صفت categorical  ممکن است مساوی و یا نامساوی باشند.بعبارت دیگر این نوع متغیرها فقط دارای یک رابطه ی برابری میباشند(مثلا blue=blueیا red<>black).رنگ چشم ، جنسیت  و تابعیت مثال هایی از این نوع متغیر ها هستند.یک متغیر categoricalدو مقداری میتواند به یک متغیرباینری   numeric  بادومقدار0و1 تبدیل شود. بهمین ترتیب یک متغیر Categoricalبا Nمقدار می تواند به Nمتغیر باینری numericتبدیل شود. یعنی یک متغیر باینری برای هر مقدار Categorical.این متغیرهای Categoricalتبدیل یافته در امار به متغیرهای ساختگی[1] معروف هستند.

نوع دیگری از تقسیم بندی انواع متغیرها عبارتست از: مقادیر پیوسته[2] و مقادیر گسسته[3] مقادیر پیوسته مثل درجه دما و طول و مقادیر گسسته مثل کدپستی.

موقعی که یک مساله تعریف شد ، باید داده های وابسته به ان مساله جمع اوری شوند.دربسیاری از موارد، داده های مورد نیاز از یک پایگاه داده یا انبار داده ها[4] استخراج می گردند.معمولا الگوریتم های داده کاوی نمی توانند مستقیما روی داده های بانک اطلاعات اجرا شوند، در اینگونه موارد باید داده ها قبل از اعمال الگوریتم ها، اماده شوند.



[1]Dummy variable

[2]Continuous variable

[3]Discrete variable

[4]Data Warehouse

Compatability by:
آخرین به روز رسانی سایت: سه شنبه, 22 اسفند 1391 - 00:26