واژه‌های دستوری به‌مثابه نشانگرهای گویش فردی: رویکردی پیکره‌ای به شناسایی هویت نویسنده در زبان فارسی

گلشائی, رامین

جستجو در:

همه

صفحات وب

کتب

نشریات

مرکز نشر آثار علمی

جستارهای زبانی

دوره 10، شماره 3 - ( 1398 ) جلد 10 شماره 3 صفحات 317-293 | برگشت به فهرست نسخه ها

‎ 20.1001.1.23223081.1398.10.3.5.1

Mendeley

Zotero

RefWorks

Golshaie R. Function Words as Idiolect Markers: A Corpus-based Approach to Authorship Attribution in Farsi. LRR 2019; 10 (3) :293-317
URL: http://lrr.modares.ac.ir/article-14-15756-fa.html

گلشائی رامین. واژه‌های دستوری به‌مثابه نشانگرهای گویش فردی: رویکردی پیکره‌ای به شناسایی هویت نویسنده در زبان فارسی. جستارهای زبانی. 1398; 10 (3) :293-317

URL: http://lrr.modares.ac.ir/article-14-15756-fa.html

واژه‌های دستوری به‌مثابه نشانگرهای گویش فردی: رویکردی پیکره‌ای به شناسایی هویت نویسنده در زبان فارسی

رامین گلشائی^*

استادیار زبان‌شناسی، دانشگاه الزهرا، تهران، ایران. ، golshaie@alzahra.ac.ir

چکیده: (6785 مشاهده)

شناسایی هویت نویسنده‌ یکی از حوزه‌های تحقیقاتی مهم در حیطۀ زبان‌شناسی حقوقی است که موضوع پژوهش‌های زبان‌شناختی و رایانشیِ گسترده در زبان‌های مختلف بوده است. با این حال شواهد محدودی از پژوهش‌های صورت‌گرفته با موضوع شناسایی نویسنده در زبان فارسی وجود دارد. در این پژوهش امکان شناسایی نویسندۀ یک متن با تکیه بر مفهوم گویش فردی و با استفاده از واژه‌های دستوری زبان فارسی بررسی شده است. واژه‌های دستوری از آن جهت که به‌طور ناخودآگاه در تولید زبان به‌کار گرفته می‌شوند، مستقل از موضوع متن به‌کار می‌روند و بسامد بالایی در متون کوتاه دارند، می‌توانند نشانگرهای مؤثری برای کدگذاری گویش فردی و ممیز سبک نویسندگان باشند. در این پژوهش،‌ ابتدا پیکر‌ه‌هایی متنی از نوشته‌های پنج محقق و نویسندۀ معاصر جمع‌آوری و سپس با استفاده از نرم‌افزار خطایاب وفا، استانداردسازی شدند. با استفاده از بستۀ سبک‌سنجی stylo نرم‌افزار آماری R، واژه‌های پربسامد دستوری با توالی‌های یک تا سه‌نگاشتی از متون استخراج شدند و سپس قابلیت تفکیک متون بر اساس این واژه‌ها و با استفاده از تحلیل مؤلفه‌های اصلی و همچنین تحلیل خوشه‌ای بر اساس مقیاس فاصله‌ای دلتا بررسی شد. نتایج نشان داد که واژه‌های دستوری در زبان فارسی قابلیت تفکیک متون متعلق به یک نویسنده را دارند و عملکرد واژه‌های تک‌نگاشتی بهتر از دونگاشتی و سه‌نگاشتی‌ها در متون کم‌حجم است. همچنین نتایج پژوهش نشان داد که حجم کمینۀ متن برای شناسایی موفقیت‌آمیز نویسنده در متون فارسی حدود 4000 واژه بر اساس 20 واژۀ دستوری پربسامد است.

واژه‌های کلیدی: واژه‌های کلیدی: گویش فردی، شناسایی نویسنده، تحلیل پیکره‌ای، زبان‌شناسی حقوقی، روش دلتا.

متن کامل [PDF 339 kb] (2599 دریافت)

نوع مقاله: مقاله پژوهشی | موضوع مقاله: هنر و علوم انسانی (عمومی)
انتشار: 1398/4/24

ارسال پیام به نویسنده مسئول

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.