
سطح مقاله : مقدماتی
پایگاه داده های واقعی به دلایل اندازه بزرگ و منابع غیرهمگن سازنده حاوی داده های اختلال دار، گم شده و ناسازگار هستند. داده های با کیفیت پایین منجر به نتایج داده کاوی با کیفیت پایین میشود. چندین تکنیک پیش پردازش داده وجود دارد. تمیزکردن داده ها (data cleaning) را میتوان برای حذف اختلال در داده ها و اصلاح ناسازگاری آنها بکار برد. با استفاده از یکپارچه سازی داده ها (data integration) میتوان داده هایی از منابع مختلف را در یک انباره ی منسجم داده ها (ware house) ذخیره نمود. کاهش داده ها (data reduction) میتواند حجم داده ها را کاهش دهد. تبدیل یا تغییر دادن داده ها (data transformation) برای مثال نرمال کردن (نرمال کردن داده چیست ؟) ممکن است درجایی بکار گرفته شود که هدف تغییر دامنه داده ها در یک دامنه کوچکتر مانند 0 تا 1 باشد.
برای آشنایی با مراحل پیش پردازش داده ها در ادامه مطلب با ما همراه باشید.