
سطح مقاله : مقدماتی
پایگاه داده های واقعی به دلایل اندازه بزرگ و منابع غیرهمگن سازنده حاوی داده های اختلال دار، گم شده و ناسازگار هستند. داده های با کیفیت پایین منجر به نتایج داده کاوی با کیفیت پایین میشود. چندین تکنیک پیش پردازش داده وجود دارد. تمیزکردن داده ها (data cleaning) را میتوان برای حذف اختلال در داده ها و اصلاح ناسازگاری آنها بکار برد. با استفاده از یکپارچه سازی داده ها (data integration) میتوان داده هایی از منابع مختلف را در یک انباره ی منسجم داده ها (ware house) ذخیره نمود. کاهش داده ها (data reduction) میتواند حجم داده ها را کاهش دهد. تبدیل یا تغییر دادن داده ها (data transformation) برای مثال نرمال کردن (نرمال کردن داده چیست ؟) ممکن است درجایی بکار گرفته شود که هدف تغییر دامنه داده ها در یک دامنه کوچکتر مانند 0 تا 1 باشد.
برای آشنایی با مراحل پیش پردازش داده ها در ادامه مطلب با ما همراه باشید.
پاکسازی داده ها
داده های واقعی ناقص، دارای اختلال و ناسازگار هستند. روش های پاکسازی داده ها، مقادیر گم شده را پر میکنند، اختلال داده های دارای اختلال را رفع میکنند، همچنین داده های دور افتاده را نیز شناسایی میکنند و ناسازگاری در داده ها را اصلاح میکنند.مقادیر گم شده
فرض کنید میخواهید داده های مشتریان را تحلیل کنید. در حین تحلیل متوجه میشوید بسیاری از چندتایی ها دارای مقادیر ثبت شده برای برخی از خصوصیات، مانند درآمد مشتری، نمیباشند. چگونه با چنین مقادیر گم شده ای مواجه میشوید ؟ برخی از روش های مواجه در زیر آماده است :1. چشم پوشی از چندتایی ها یا ignore the tuple : این روش زمانی مورد استفاده قرار میگیرد که برچسب دسته گم شده باشد (با فرض اینکه هدف داده کاوی، طبقه بندی باشد). با نادیده گرفتن یک چندتایی، از مقادیر دیگر خصوصیات آن چندتایی نیز استفاده نخواهد شد.
2. پرکردن مقادیر گمشده به صورت دستی : این روش بسیار وقت گیر است و ممکن است برای پایگاه داده های بزرگ با مقادیر گمشده فراوان، محتمل و قابل اجرا نباشد.
3. استفاده از یک ثابت برای پرکردن مقادیر گمشده : جایگزین کردن همه مقادیر گمشده توسط ثابتی یکسان ("نامعلوم"). این روش اگرچه ساده است اما عاری از خطا نیست.
4. استفاده از سنجه های تمایل مرکزی (مثل میانگین یا میانه) برای پرکردن مقادیر گمشده : برای توزیع نرمال (متقارن) داده ها، میتوان از میانگین استفاده نمود، درحالیکه برای توزیع های چوله میبایست از میانه استفاده کرد.
5. استفاده از میانگین و یا میانه خصوصیت برای تمام چندتایی های متعلق به یک دسته : برای مثال، اگر دسته بندی مشتریان با توجه به ریسک اعتباری آنها باشد، میتوان مقادیر گمشده درامد را با میانگین درامد مشتریانی که در همان طبقه ریسک اعتباری قرار دارند، جایگزین نمود. اگر توزیع داده ها برای یک دسته نامتقارن باشد، مقدار میانه انتخابی بهتر است.
6. استفاده از محتمل ترین مقدار برای پرکردن مقادیر گمشده : این روش ممکن است با رگرسیون، ابزارهای مبتنی بر استنتاج با استفاده از فرمول های بیزی یا درخت های تصمیم انجام شود.
روش های 3 تا 6 به علت تعصبی که تولید میکنند، ممکن است مقادیر نادرست را جایگزین داده های گم شده کنند.