قبل از اینکه بتوان روی مجموعهای از دادهها، دادهکاوی انجام بدهیم و یک مدل پیشبینی مناسب ایجاد کنیم، باید بتوان دادهها را به خوبی شناخت که برا ی شروع این کار میتوان از پارامترهایی مثل میانگین , انحراف معیار، استفاده کرد.
ابزارهای تصویرسازی دادهها و گرافسازی برای شناخت دادهها بسیار مفید میباشند و نقش انها در امادهسازی دادهها بسیار مفید و غیر قابل انکار است، مثلا با استفاده از این ابزار میتوان توزیع مقادیر مختلف دادهها را در یک نمودار مشاهده کرد و میزان دادههای دارای خطا را به طور تقریبی حدس زد.
مهمترین مشکل این ابزار این است که معمولا تحلیلها دارای تعداد زیادی پارامتر هستند که به هم مربوطاند و باید رابطه این پارامترها را که چند بعدی میباشد در دو بعد نمایش دهند که این کار اگر هم عملی باشد برای استفاده از انها نیاز به افراد خبره میباشد.
خوشه بندی:
هدف از خوشهبندی این است که دادههای موجود را به چند گروه تقسیم کنند و در این تقسیمبندی دادههای گروههای مختلف باید حداکثر تفاوت ممکن را به هم داشته باشند و دادههای موجود در یک گروه باید بسیار به هم شبیه باشند. خوشهبندی یکی از مهمترین ابزارهای کشف دادهها است که در کشفهای تصادفی به کار گرفته میشود. الگوریتمهای یادگیری ماشین و دادهکاوی با هدف استخراج دانش از دادهها، به عنوان روشی برای حل این مشکل مطرح میباشند. یک روش متداول در این زمینه خوشهبندی است که برای تصمیمگیری یا دستهبندی یا کلاسبندی میتواند تصمیمات نمادینی را به نمونههای جدید با استفاده از نمونههای موجود منتسب کنند.
خوشهبندی عملی است که در طی ان گروهایی از دادهها و یا اقلام وجود دارند به طوریکه هر مورد به یک خوشه نسبت داده میشوند و اعضای داخل خوشه نیز باید دارای شباهت ذاتی با هم باشند و معیار اندازهگیری شباهت باید کاملا مشخص باشد و برای هر جفت از موارد قابل محاسبه باشد. بنابراین در هر خوشه یک شباهت بین اقلام ان خوشه وجود دارد.
خوشهبندی یک روش دادهکاوی غیر مستقیم است. برای اکثر روشهای دادهکاوی مثل درخت تصمیمگیری و شبکههای عصبی، با یک مجموعه اموزشی شروع کرده و به کمک این مجموعه سعی میشود یک مدل برای بخشبندی دادهها، ایجاد گردد. سپس از ان مدل برای پیشبینی دادههای جدید استفاده شود.
در روش خوشهبندی هیچ دستهای از قبل وجود ندارد و در واقع متغیرها به صورت مستقل و وابسته تقسیم نمیشوند. بلکه در اینجا به دنبال گروههایی از دادهها هستیم که به هم شباهت دارند و با کشف این شباهتها میتوان رفتارها را بهتر شناسایی کرد و بر مبنای انها طوری عمل کرد که نتیجه بهتری حاصل شود.
پس از اینکه دادهها به چند گروه منطقی و توجیهپذیر تقسیم شدند از این تقسیمبندی میتوان برای کسب اطلاعات در مورد دادهها یا تقسیم دادههای جدید استفاده کنیم.
از مهمترین الگوریتمهایی که برای خوشهبندی استفاده میشوند می توان Kohnenو الگوریتم K-میانگین[1] را نام برد.
تحلیل روابط و وابستگی[2]:
همزمان با پیدایش علم دادهکاوی در اوایل دهه 90 الگوریتمهای استخراج قوانین وابستگی از پایگاه دادهها نیز پا به عرصه گذاشت. اساسا ارتباط میان مجموعه اشیا، وابستگیهای جالب توجهی هستند که منجر به امکان اشکارسازی الگوهای مفید و قوانین وابستگی برای پشتیبان تصمیم، پیشبینیهای مالی، سیاستهای بازاریابی، وقایع پزشکی و خیلی کاربردهای دیگر میشود. در حقیقت توجهات زیادی را در تحقیقات اخیر به خود جلب کرده است.
تحلیل وابستگی یک حالت غیر نظارتی دادهکاوی میباشد که به جستجو برای یافتن ارتباط در مجموعه دادهها میپردازد. یکی از کاربردیترین حالات تحلیل وابستگی تجزیه تحلیل سبد بازار میباشد که در ان هدف یافتن کالاهایی است که معمولا به طور همزمان خریداری میشوند. این کار کمک میکند که خرده فروشان بهتر بتوانند کالاهای خود را سازماندهی کرده و چیدمان بهتری از محصولات خود داشته باشند.
از مهمترین راههای تحلیل لینک کشف وابستگی و کشف ترتیب میباشد.
منظور از کشف وابستگی یافتن قوانینی در مورد مورادی است که با هم اتفاق میافتند مثلا اجناسی که در یک فروشگاه احتمال خرید همزمان انها زیاد است.
کشف ترتیب نیر بسیار مشابه میباشد ولی پارامتر زمان نیز در ان دخیل میباشد.
وابستگیها به صورت A->B نمایش داده میشوند که به A مقدم و به Bموخر یا نتیجه گفته میشود. مثلا اگر یک قانون به صورت زیر داشته باشیم:
" اگر افراد چکش بخرند انگاه انها میخ خواهند خرید"
در این قانون مقدم خرید چکش و نتیجه خرید میخ میباشد.