شنبه 28 مهر 1397 | Saturday 20 th of October 2018 صفحه اصلی گروه الکترونیکی کامپیوتر
4-4-2- فعالیت های انبارداده

در یک انبارداده فرایندی داریم به نام ETL:استخراج[1]، تبدیل[2]،بارگذاری[3]،که در طی ان داده­ها از      سیستم­های پرادزش تراکنش استخراج می­شود (E) تغییر فرمت­های لازم در ان صورت می­گیرد (T) و سپس در قالب داده­ای جدید مناسب برای گزارش­گیری اماده می­شود (L) پس از ان از طریق داده­کاوی  و مکانیزم­هایی مانند OLAPپرس­وجوها ایجاد و گزارشات مورد نیاز، تهیه می­شود.

بخش یک: دریافت داده

داده­هاییکهبایستدرقالبانبارگردهمایندغالبابهصورتپراکنده­ایتولیدشده­اند. برایمثالدریکفروشگاهزنجیره­ایداده­هاازطریقکامپیوترهایمراکزخریدمختلف، دستگاههایخریداتوماتیک (مثلدستگاههایخریدنوشابهیاروزنامه)وداده­هاینرم­افزارهایانبارداریوحسابداری، بهدستمی­ایند. انباردادهبرایانجاموظیفهخودکههمانتحلیلداده­هااستبایدهمهاینداده­هاراباهرقالبیکهتولیدمی­شوندبهطورمرتب ودقیقدریافت نماید.

شکل 4-1- مراحل ساخت یک انبار داده فرایند

شکل 4-1- مراحلساخت یک انباردادهفرایند

سیستم­هایانباردادهمختلف، نیازبهدریافتدادهدربازه­هایزمانیمتفاوتیدارندولیمعمولاداده­هایکلمجموعه، هرماهیاهرچندماهیکباربرایانبارفرستادهمی­شوند. روش­هایمختلفیبرایدریافتدادهوجوددارد. مثلدریافتداده­هاازرویشبکهسازمانویادریافتداده­هایهربخش بهطورمجزابررویسی­دی.

بخش دو پیش­پردازش داده­ها:

۱.  پاکسازی

پاکسازیداده­هاعبارتاستازشناساییوحذفخطاهاوناسازگاری­هایداده­ای،بهمنظوردستیابیبهداده­هاییباکیفیتبالاتر. اگرداده­هاازمنابعیکسانمثلفایل­هایاپایگاه­هایداده­ایگرفتهشوند،خطاهایی ازقبیلاشتباهاتتایپی، داده­هاینادرستوفیلدهایبدونمقدارراخواهیمداشتوچنانچهداده­هاازمنابعمختلفمثلپایگاه داده­هایمختلفیاسیستماطلاعاتیمبتنیبروبگرفتهشوندباتوجهبهنمایش­هایداده­ایمختلف، خطاهابیشتربودهوپاکسازیداده­هااهمیت بیشتریپیداخواهدکرد.  برایدستیابیبهداده­هایدقیقوسازگار، بایستیداده­هارایکپارچهنمودهوتکرارهایانهاراحذف نمود. وجودخطاهاینویزی، ناسازگاریدرداده­هایانباردادهوناقصبودنداده­هاامریطبیعیاست.  فیلدهاییکجدولممکناستخالیباشندویادارایداده­هایخطاداروناسازگارباشند. برایهرکدامازاینحالتهاروش­هاییجهت پاکسازی  واصلاح   داده­ها، ارایهمیشود.

دراینبخش عملیاتمختلفیبرایپاکسازیداده­هاقابلانجاماست:

  • نادیدهگرفتنتاپلهاینادرست
  • پرکردنفیلدهاینادرست بهصورتدستی
  • پرکردنفیلدهاینادرست بایک مقدارمشخص
  • پرکردنفیلدهاباتوجهبهنوعفیلدوداده­هایموجود
  • پرکردنفیلدهابانزدیکترینمقدارممکن  مثلا  میانگینفیلدتاپلهایدیگرمی­تواندبهعنوانیکمقدارمناسبدرنظرگرفتهشود.

۲.  یکپارچه­سازی:

اینفازشاملترکیبداده­هایدریافتیازمنابعاطلاعاتیمختلف، استفادهازمتاداده­هابرایشناساییحذف افزونگیداده­ها، تشخیص ورفعبرخوردهایداده­ایمی­باشد. یکپارچه­سازیداده­هاازسهفازکلیتشکیلشدهاست:

  •   شناساییفیلدهاییکسان؛ فیلدهاییکسانکهدرجدولهایمختلف داراینامهایمختلف    می­باشند.
  • شناساییافزونگی­هایموجوددرداده­هایورودی؛ داده­هایورودیگاهیدارایافزونگیاست. مثلابخشیازرکورددرجداولمختلف وجوددارد.
  • مشخص کردنبرخوردهایداده­ای؛مثالیازبرخوردهایداده­اییکساننبودنواحدهاینمایش     داده­ایاست. مثلافیلدوزندریک جدولبرحسبکیلوگرمودرجدولیدیگربرحسبگرمذخیرهشدهاست.

۳.  تبدیلداده­ها:

دراینفاز، داده­هایورودیطیمراحلزیربهشکلیکهمناسب عملداده­کاویباشند، درمی­ایند:

١. ازبینبردننویزداده­ها

٢. تجمیعداده­ها

٣. کلی­سازی

٤. نرمال­سازی

٥. افزودنفیلدهایجدید

درادامهبهشرحهریک از این موارد می­پردازیم:

١. ازبینبردننویزهایداده­ای؛ منظورازداده­هاینویزی، داد ه­هاییهستندکهدرخارجازبازهموردنظرقرارمی­گیرند. مثلااگربازهحقوقیکارمندانبینیکصدهزارتومانویکمیلیونتومانباشد، داده­هایخارجازاینبازهبهعنوانداده­هاینویزیشناختهشدهودراینمرحلهاصلاحمی­گردند.  برایاصلاح         داده­هاینویزیاز روش­هایزیراستفادهمی­شود:

  • استفادهازمقادیرمجاوربرایتعیینیک مقدارمناسب برایفیلدهایداراینویز
  • دستهبندیداده­هایموجودومقداردهیفیلددارایدادهنویزیبااستفادهازدستهنزدیکتر
  • ترکیبروش­های  فوقباملاحظاتانسانی، دراینروش، اصلاحمقادیرنویزیبااستفادهازیکیازروش­هایفوقانجاممی­گیرداماافرادیبرایبررسیواصلاحنیزوجوددارند.

٢.  تجمیعداده­ها؛ تجمیعداده­هابهمعنیبدستاوردناطلاعاتجدیدازترکیبداده­هایموجود         می­باشد. بهعنوانمثالبدست اوردن  فروش ماهانهازحسابفروش­هایروزانه.

٣. کلی­سازی؛کلی­سازیبهمعنیدسته­بندیداده­هایموجودبراساسماهیتونوعانهااست. بهعنوانمثالمی­تواناطلاعرده­هایسنیخاص (جوان، بزرگسال، سالخورده )راازفیلدسناستخراجکرد.

٤. نرمال­سازی؛منظورازنرمال­سازی، تغییرمقیاسداده­هااست.  بهعنوانمثالیازنرمال­سازی، می­توانبهتغییربازهیک فیلدازمقادیرموجودبهبازه٠تا١اشارهکرد.

۵. افزودنفیلدهایجدید؛گاهیاوقاتبرایسهولتعملداده­کاویمی­توانفیلدهاییبهمجموعهفیلدهایموجوداضافهکرد. مثلامی­توانفیلدمیانگینحقوقکارمندانیکشعبهرابهمجموعهفیلدهایموجوداضافهنمود.

٤. کاهش داده ها:

دراینمرحله، عملیاتکاهشداده­هاانجاممی­گیردکهشاملتکنیک­هاییبراینمایشکمینهاطلاعاتموجوداست. اینفازازسهبخشتشکیلمی­شود:

۱. کاهشدامنهوبعد؛ فیلدهاینامربوط، نامناسبوتکراریحذفمی­شوند. برایتشخیصفیلدهایاضافی، روش­هایاماریوتجربیوجوددارند؛یعنیبااعمالالگوریتم­هایاماریویاتجربیبرروی        داده­هایموجوددریکبازهزمانیمشخص، بهایننتیجهمی­رسیمکهفیلدیافیلدهایخاصیکاربردیدر  انبارداده­ایوداده­کاوینداشتهوانهاراحذف می­کنیم.

۲. فشرده­سازیداده­ها؛ ازتکنیک­هایفشرده­سازیبرایکاهش اندازهداده­هااستفادهمی­شود.

۳. کدکردنداده­ها؛ داده­هادرصورتامکانباپارامترهاواطلاعاتکوچکترجایگزینمی­شوند.


[1]Extract

[2]Transform

[3]Load

Compatability by:
آخرین به روز رسانی سایت: سه شنبه, 22 اسفند 1391 - 00:26