دیتا مایند

کاربرد استخراج کلمات کلیدی در متن کاوی

دسته : متن کاوی
زیر مجموعه : مفاهیم متن کاوی

استخراج کلمات کلیدی در متن‌کاوی و علوم زیر مجموعه ای آن نقش مهمی ایفا می کند به همین دلیل سعی خواهد شد در این مقاله درباره این موضوع و کارهای انجام شده در این حوزه مطالب مفیدی ارائه شود. کارهای انجام شده بسیاری در حوزه انجام شده است و مقالات زیادی نیز برای بررسی این کارهای انجام شده ارائه شده که در این مجال بخشی از آن ها را مورد بررسی قرار خواهیم داد. در این قسمت سعی خواهد شد تحقیقاتی که روی استفاده از استخراج کلمات کلیدی در متن کاوی انجام شده و کارهایی که با استفاده از استخراج کلمات کلیدی ارائه شده معرفی گردد.
ژانگ و دوستانش در سال 2003 سعی کرده اند با استفاده از استخراج کلمات کلیدی عمل خلاصه سازی صفحات وب را انجام دهند. خلاصه سازی صفحات وب یکی از موضوعات مهم در حوزه متن‌کاوی است. در دنیای انفجار وب که تعداد و حجم اطلاعات به بی نهایت میل می کند خلاصه سازی مطالب غیر قابل اجتناب است. مححقین و پژوهشگران حوزه متن‌کاوی و پردازش زبان طبیعی از دیزباز به دنبال رسیدن به خلاصه مفید و سدمند متن هستند تا به این شکل بتوانند به جای خواندن کل متن، درصد قابل استفاده را مطالعه و جمع بندی نمایند.
در این تحقیق نیز یک روش شش مرحله ای ارئه شده است که در مرحله چهارم استخراج کلمات کلیدی انجام می شود. در روش ارائه شده ابتدا در مراحل اول و دوم صفحه وب و سپس صفحه متن استخراج می شود. در این مراحل هدف جمع آوری متن نهایی برای پردازش و خلاصه سازی است. بعد از جمع آوری متن نهایی برای پردازش نوبت به فیلتر کردن محتوای غیرمفید می شود. در تمامی روش های داده کاوی مرحله ای به نام انتخاب ویژگی وجود دارد که در آن مرحله از بین تمام ویژگی ها تعدادی ویژگی برای ایجاد مدل و یا پردازش نهایی انتخاب می شود. در روش ارائه شده نیز بعد از جمع آوری و پیش پردازش مجموعه داده، پاراگراف های مهم تر انتخاب شده و بقیه غربال می شود. بعد از این مراحل نوبت به مرحله استخراج کلمات کلیدی می رسد. در این مرحله کلمات کلیدی پاراگراف های انتخاب شده متن با استفاده از روش های استخراج کلمات کلیدی انتخاب شده است. روشی که برای استخراج کلمات کلیدی استفاده شده بر این اصل استوار است که کلمات برجسته، یا لینک دار دارای اهمیت بیشتری هستند و به عنوان کلمه کلیدی استخراج می شوند محققین بر این ادعا هستند که استخراج کلمات کلیدی در صفحات وب از متن سنتی متفاوت است.  بعد از این مرحله بر اساس جملاتی که کلمات کلیدی در آن ها حضور دارند اقدام به انتخاب جملات کلیدی می کنند. این روش به دنبال استخراج کلمات کلیدی از وب بر اساس ساختار صفحتن وب است.