دیتا مایند

مفهوم استخراج کلمات کلیدی

دسته : متن کاوی
زیر مجموعه : مفاهیم متن کاوی

استخراج کلمات کلیدی یکی از زیرشاخه‌های متن‌کاوی است.متن‌کاوی حوزه‌ای است که با متن سروکار دارد.  بخش قابل‌توجهی از اطلاعات قابل‌دسترس در پايگاه داده هاي متني كه شامل مجموعه بزرگي از اسناد متنی هستند در منابع بسیار مختلف و گسترده ذخیره‌شده‌اند. پايگاه داده هاي متني به علت افزايش مقدار اطلاعات موجود به فرم الكترونيكي سريع رشد مي كنند.  امروزه بيشتر اطلاعات در صنعت، کسب و کار و سازمان هاي ديگر به صورت الكترونيكي و به فرم پایگاه داده متنی ذخیره‌شده‌اند. داده هاي ذخيره شده در بيشتر پایگاه  داده هاي متنی، داده های نيمه ساختاريافته هستند، چون نه به طور كامل غيرساخت يافته هستند و نه به طور كامل ساخت يافته هستند. به زبان ساده،  متن‌کاوی یعنی جستجوی الگوها در متن غیرساخت یافته. متن‌کاوی برای کشف اتوماتیک دانش مورد علاقه یا مفید از متن نیمه ساخت یافته استفاده می شود. بدون عمل متن‌کاوی پردازش کردن پایگاه داده های متنی غیرساخت یافته باید به صورت دستی توسط کاربران انجام شودکه این امر بسیار طاقت فرساست. بنابراین می توان گفت هدف متن‌کاوی اتوماتیک کردن مقدار زیادی از کار کاربران است. گاهي اوقات به جاي واژه  متن‌کاوی  از واژه های "کاوش داده هاي متني"و نيز نام  معروف "کشف دانش در متن" استفاده مي شود. متن‌کاوی تكيه اش روي پيدا كردن دانش جديد از متن است  در این مورد انتخاب کلمات کلیدی بسیار کمک کننده و راهگشاست. یک انتخاب اتوماتیک عبارات مهم و متعلق به موضوع از بدنه سند را، انتخاب اتوماتیک کلمات کلیدی می گویند.  در واقع هدف استخراج مجموعه ای از عبارات است که به موضوع اصلی مرتبط هستند یعنی اگر خواننده ه آن کلمات نگاهی بیاندازد متوجه شود موضوع متن درباره چه چیزی است. به طور مثال در خبرهای خبرگزاری ها می توان عناوینی مانند برچسب مشاهده کرد که به کلمات کلیدی متن اشاره دارد. به زبان ساده تر، استخراج کلمات کلیدی درباره پیداکردن کلمات مهم و کلیدی در متن است.
با دانستن کلمات کلیدی در یک متن، راحت تر می توانیم آن متن را سازماندهی و تحلیل کنیم. بدین شکل که فهمیدن ویژگی ها ، مفاهیم و تم اصلی متن توسط استخراج کلمات کلیدی آن امکان پذیر است.