استادیار زبانشناسی، دانشگاه الزهرا، تهران، ایران. ، golshaie@alzahra.ac.ir
چکیده: (6138 مشاهده)
شناسایی هویت نویسنده یکی از حوزههای تحقیقاتی مهم در حیطۀ زبانشناسی حقوقی است که موضوع پژوهشهای زبانشناختی و رایانشیِ گسترده در زبانهای مختلف بوده است. با این حال شواهد محدودی از پژوهشهای صورتگرفته با موضوع شناسایی نویسنده در زبان فارسی وجود دارد. در این پژوهش امکان شناسایی نویسندۀ یک متن با تکیه بر مفهوم گویش فردی و با استفاده از واژههای دستوری زبان فارسی بررسی شده است. واژههای دستوری از آن جهت که بهطور ناخودآگاه در تولید زبان بهکار گرفته میشوند، مستقل از موضوع متن بهکار میروند و بسامد بالایی در متون کوتاه دارند، میتوانند نشانگرهای مؤثری برای کدگذاری گویش فردی و ممیز سبک نویسندگان باشند. در این پژوهش، ابتدا پیکرههایی متنی از نوشتههای پنج محقق و نویسندۀ معاصر جمعآوری و سپس با استفاده از نرمافزار خطایاب وفا، استانداردسازی شدند. با استفاده از بستۀ سبکسنجی stylo نرمافزار آماری R، واژههای پربسامد دستوری با توالیهای یک تا سهنگاشتی از متون استخراج شدند و سپس قابلیت تفکیک متون بر اساس این واژهها و با استفاده از تحلیل مؤلفههای اصلی و همچنین تحلیل خوشهای بر اساس مقیاس فاصلهای دلتا بررسی شد. نتایج نشان داد که واژههای دستوری در زبان فارسی قابلیت تفکیک متون متعلق به یک نویسنده را دارند و عملکرد واژههای تکنگاشتی بهتر از دونگاشتی و سهنگاشتیها در متون کمحجم است. همچنین نتایج پژوهش نشان داد که حجم کمینۀ متن برای شناسایی موفقیتآمیز نویسنده در متون فارسی حدود 4000 واژه بر اساس 20 واژۀ دستوری پربسامد است.
نوع مقاله:
مقاله پژوهشی |
موضوع مقاله:
هنر و علوم انسانی (عمومی) انتشار: 1398/4/24