پنج شنبه 10 فروردین 1396 | Thursday 30 th of March 2017 صفحه اصلی گروه الکترونیکی کامپیوتر
2-2- ETL

فرایند ETL، یک پروسه محسوب می‌شود، به این معنی که به صورت پیوسته و مداوم در سیستم باید انجام شود. این فرایند به ازای داده‌های عملیاتی که در طول زمان در سازمان به وجود می‌اید نیز انجام می‌شود. انچه که در استقرار یک سیستم هوش تجاری در سازمان مهم است ایجاد معماری و ساختاری مناسب است. ساختار مورد استفاده برای ETLقبل از انجام فرایند ان از اهمیت بالایی برخوردار است. فرایند ETLبه دلیل اینکه روی حجم بالایی از اطلاعات انجام می‌شود و معمولا همراه با یکپارچه‌کردن داده‌ها همراه است بایستی در طول دوره‌های مختلف انجام شود. در این دوره‌ها و به هنگام اغاز فرایند ETLبه دلیل بالا رفتن حجم ترافیک شبکه و پردازش سرورهای پایگاه داده ممکن است در انجام فرایندهای دیگر تجاری اختلال ایجاد شود که حتما باید در طراحی سیستم هوش تجاری مورد توجه قرار گیرد.

ETLفرایند استنتاج و استخراج داده‌ها از محیط‌های عملیاتی، تغییر در ساختار و ماهیت داده‌های استخراج شده و بارگذاری داده‌ها در پیاده سازی انبار داده‌ها می‌باشد. در ادامه به صورت مختصر به توضیح اجزای ETLپرداخته می‌شود:

  • مرحله Extractشامل استنتاج و استخراج داده‌ها از محیط‌های عملیاتی، ایجاد روابط و روند داده‌ای در محیط‌های عملیاتی از جمله بانک اطلاعاتی رابطه‌ای[1]، برنامه‌های کاربردی[2]، فایل‌ها، سیستم‌های مدیریت اطلاعات و مهیا و یکپارچه‌نمودن اطلاعات جهت قرارگیری در انبار داده می‌باشد.
  • پردازش اطلاعات استخراج شده از مرحله قبل که شامل پالایش، متراکم سازی، کیفی‌سازی داده‌ها و یکپارچگی داده‌ها از منابع متعدد و متمایز می‌باشد، در مرحله Transformationاجرا می‌شود.

از جمله اقداماتی که در فرایند Transformationبر روی داده‌ها اعمال می‌شود به موارد زیر می‌توان اشاره نمود:

  • انتخاب ستون‌های قطعی و صحیح جداول برای بارگذاری (Load)
  • تبدیل یک فرمت ذخیره‌سازی یکسان برای مقدارهای یکسان (به طور مثال اگر در منابع مختلف برای فیلد جنسیت، چند حالت male or female، m or f، 1 یا 0 وجود داشت، به یک فرمت همانند 0 یا 1 تبدیل شود.)
  • خلاصه‌سازی از منابع متفاوت
  • فراهم‌اوری روشی یکسان برای مقدارهای محاسباتی[3] یکسان در سطح یک رکورد و یا در چند جدول مختلف
  • انتخاب واحد اندازه‌گیری و شمارش یکسان برای مقدارهای یکسان و از یک جنس، به‌طور مثال اگر در رکوردی طول مسیری را با واحد کیلومتر و در جای دیگر با واحد متر ذخیره شده‌است، در انبار داده به یک واحد مثل کیلومتر تبدیل شود.
  • مرحله بارگذاری اطلاعات جمع‌اوری شده از منابع مختلف بر روی انبار داده Loadمی‌باشد که متناسب با نیازهای سازمان صورت می‌پذیرد. به عنوان نمونه بعضی از سازمان‌ها صرفا اطلاعات جدید را جایگزین اطلاعات قدیمی می‌کند ولی برخی دیگر داده‌ها را به صورت تاریخی نگهداری می‌نمایند.

 

طی فرایند ETLداده‌ها از منابع اطلاعاتی مورد نیاز موجود در سازمان یا خارج از ان مانند پایگاه‌های داده، فایل‌های متنی، سیستم‌های قدیمی و صفحات گسترده استخراج‌شده و تبدیل به اطلاعاتی سازگار با فرمت معین می‌شوند و سپس در یک مخزن اطلاعاتی که در اغلب اوقات یک انبار داده است، قرار داده می‌شوند. برای انجام این فرایند نیاز به تخصص‌های مختلفی چون تجزیه و تحلیل تجاری، طراحی پایگاه داده و برنامه نویسی وجود دارد.

پیش از انجام فرایند ETLابتدا باید منابع اطلاعاتی که قرار است داده‌های انها به انبار داده منتقل شوند، شناسایی و مقصد انها در انبار داده مشخص شوند و تبدیلاتی که باید بر انها انجام شود، تعیین شوند. نحوه نگاشت اطلاعات به صورت اولیه، باید در مرحله جمع‌اوری نیازها و مدل‌سازی اطلاعات انجام شود. اطلاعات جزیی‌تر مربوط به نحوه نگاشت داده‌ها از منابع اطلاعاتی اولیه به انبار داده در مرحله طراحی و پیاده سازی ETLمشخص می‌شود:

  • شناسایی منابع اطلاعاتی: پایگاه‌های داده مختلف مانند اوراکل،اکسس،اکسل و ...  نمونه‌هایی از مهمترین انواع منابع اطلاعاتی را تشکیل می‌دهند. در برخی سیستم‌ها شناسایی منابع اطلاعاتی به سادگی مکان‌یابی سرورهای پایگاه داده سیستم است. در برخی سیستم‌های پیچیده‌تر، برای شناسایی این منابع باید اعمالی نظیر تعریف دقیق فیلدهای اطلاعاتی و تعریف ارزش‌های اطلاعاتی مربوط به این فیلدها انجام شود.
  • تعیین مقصد داده‌ها: برای تمامی اطلاعات موجود در منابع اطلاعاتی شناسایی شده باید مکانی در انبار داده در نظر گرفته شود. داده‌های اطلاعاتی در قسمت‌های مختلف ان قرار می‌گیرند.
  • نگاشت داده‌های اطلاعاتی از مبدا به مقصد: نحوه نگاشت داده‌ها از مبدا به مقصد و تغییراتی که باید بر داده‌های اولیه اعمال شود تا به فرمت مناسب برای انبار داده درایند، باید تعیین شوند. این تغییرات موارد زیر را شامل می‌شود:
  • خلاصه‌سازی اطلاعات
  • تغییر اطلاعات
  • کدگشایی اطلاعات کد‌شده
  • ایجاد تغییرات لازم برای هماهنگ‌سازی داده‌های اطلاعاتی مشابه که در چند منبع اطلاعاتی مختلف وجود دارند.

اطلاعات مربوط به نحوه نگاشت اطلاعات در نقشه اطلاعات[4] نگهداری می‌شود.



[1]Relational Databases

[2]Application Program

[3]Calculated Value

[4]Data Map 

Compatability by:
آخرین به روز رسانی سایت: سه شنبه, 22 اسفند 1391 - 00:26