دیتا مایند

ناسازگاری داده ها و روش ها

زیر مجموعه : مفاهیم داده کاوی

در تحقیقات انجام‌شده برای داده‌کاوی همواره به‌دقت بالاتر روش ارائه‌شده اشاره می‌شود. به‌طور مثال برای اینکه اثبات شود روش ارائه‌شده مفید و سودمند‌است گفته می‌شود که دقت مدل طبقه‌بندی بیشتر است .

ولی آیا می‌توان 2 روش را که بر روی  2 مجموعه داده متفاوت تست‌شده‌اند را مقایسه کرد ؟ وابستگی به مجموعه داده یکی از مهم‌ترین چالش‌های داده‌کاوی است . آیا می‌توان با توجه به انواع مجموعه داده‌ها ، دقت‌های به‌دست‌آمده از طریق این مدل‌ها را به‌درستی اعتبار سنجی کرد ؟

به‌طور مثال : محققین روشی برای نظرکاوی برای زبان فارسی ارائه می‌دهد او از مجموعه داده نظرات فیلم استفاده کرده است و به‌دقت 85 درصدی رسیده است ، محقق دیگری با استفاده از مجموعه داده نظرات هتل دقت 89 درصدی را گزارش می‌کند واقعاً می‌توان به این بهبودی 4 درصدی اعتماد کرد ؟ سؤالی است که همه محققین داده‌کاوی باید به آن بپردازند . از این مشکل بانام ناسازگاری مجموعه داده یاد می‌شود .