1- دانشجوی کارشناسی ارشد هوش مصنوعی، دانشگاه آزاد اسلامی واحد تهران شمال، تهران، ایران
2- استادیار دانشکدۀ علوم ریاضی، دانشگاه فردوسی، مشهد، ایران. ، j.nasiri@irandoc.ac.ir
چکیده: (3998 مشاهده)
هدف اصلی استخراج کلمات کلیدی انتخاب مجموعهای از لغات در متن است که میتواند موضوع اصلی متن را بازگو کند. استخراج کلیدواژگان در بازیابی اطلاعات، سیستمهای پیشنهاددهندۀ متنی و دستهبندی متون، نقش مهم را ایفا میکند. در زبان فارسی باتوجه به پیچیدگی ذاتی زبان فارسی استخراج کلیدواژگان بهمراتب دشوارتر شده است. در این پژوهش سعی شده است با رویکرد نوین ترکیبی آماری و یادگیری ماشین به استخراج کلیدواژگان پرداخته شود. ابتدا باتوجه به ساختار زبان فارسی پیشپردازهای لازم برای حذف کلمات و علائم نگارشی صورت میگیرد. سپس با استفاده از سه نوع ویژگی آماری و دستهبند بیز سیستم بهصورت خودکار الگوی کلمات کلیدی با کلمات عادی را آموزش میبیند. همچنین پسپردازش کارا برای کم کردن کلمات مثبت کاذب در چارچوب پیشنهادی طراحی شده است. گفتنی است که مدل ساختهشده قادر به شناسایی تعداد حداکثر 20 کلیدواژه در هر پایاننامه است و این کلمات با کلیدواژگان نوشتهشده در هر متن مقایسه و ارزیابی میشوند. نتایج ارزیابیهای متنوع نشان میدهد روش پیشنهادی با دقت مناسبی توانسته است کلمات کلیدی نوشتارهای فارسی علمی (پایاننامه و رساله) را استخراج کند.
نوع مقاله:
مقالات علمی پژوهشی |
موضوع مقاله:
زبان شناسی انتشار: 1400/11/1