سه شنبه 23 مرداد 1397 | Tuesday 14 th of August 2018 صفحه اصلی گروه الکترونیکی کامپیوتر
1-3-2 اماده کردن داده ها

از انجایی که داده های مورد نظر جمع اوری شده اند پاکسازی داده ها خیلی مهم است و باید زمان زیادی را صرف این کار بکنیم . زیرا بسیاری از منابع خطا ، می توانند هنگام جمع اوری داده ها از چندین پایگاه داده در یک پایگاه داده تحلیلی ، موجود باشند ویک تحلیلگر خوب ناچار است بسیاری از بررسی های اعتبار داده ای را بر روی داده های استخراج شده ، انجام دهد. بسیار نادر اتفاق می افتد که داده های جمع اوری شده دارای مشکل نباشند.

سه عمل اساسی که انجام می گیرد :

·        حذف یا کاهش noiseها در داده ها و تنظیم و جایگزینی مقادیر نامعلوم [1] (Data cleaning) مثلا با جایگزینی یک مقدار نامعلوم با مقداری که برای ان صفت بیشتر اتفاق می افتد و یا بیشترین احتمال را دارد که ان مقدار همان مقدار همان مقدار درست ان مقدار نامعلوم باشد.

·        حذف صفت های افزونگی و نامرتبط[2] . (Feature selectionیاRelvance analysis)

·        تغییر داده ها (Data transformation): بسیاری از داده ها ممکن است که بصورت دیگری غیر از شکل فعلی خود بیان شوند که بسیار مفیدتر باشند . همانطور که قبلا اشاره گردید ، مثلا برای خصوصیت جنسیت ، اگر این ویژگی متنی باشد، می توانیم ان را به دودویی تبدیل کنیم . مثلا femaleرا صفر و maleرا یک در نظر بگیریم.



[1]Missing value

[2]Irrelevant

Compatability by:
آخرین به روز رسانی سایت: سه شنبه, 22 اسفند 1391 - 00:26