ارتقاء و اصلاح فرایندهای رایج در بازشناسی نوری حروف متون فارسی با بکارگیری ویژگی‌های خط فارسی و الگوریتم انتقال فضا

نوع مقاله : مقالات علمی پژوهشی

نویسندگان
1 دانشجوی دکتری گروه زبان‌شناسی، دانشگاه پیام نور، تهران، ایران
2 دانشیار گروه زبان‌شناسی، دانشگاه پیام نور، تهران، ایران
3 استاد گروه زبان‌شناسی، دانشگاه پیام نور، تهران، ایران
4 دانشیار گروه کامپیوتر، دانشکده مهندسی برق و کامپیوتر، دانشگاه شیراز، شیراز، ایران
چکیده
از آنجا که فن­آوری بازشناسی نوری حروف اصالتاً بر پایه ویژگی‌های خطی لاتین بنا شده است، تقریباً کلیه الگوریتم‌ها و مراحل مورد استفاده در نظام‌های رایج بازشناسی حروف فارسی نیز بر اساس همان ساختار و ویژگی‌های خطوط لاتین گسترش یافته‌اند. بکارگیری ابزار و ویژگی‌های خطوط لاتین در طراحی نظام‌های فارسی محور، نه تنها در نهایت به انجام بازشناسی صحیح حروف فارسی منجر نگردیده است، بلکه باعث سردرگمی همزمان نرم‌افزار و کاربر فارسی‌زبان نیز شده است. از اینرو، در اینجا، پس از مقدمه‌ای کوتاه پیرامون اهمیت خط و زبان در حوزه فن‌آوری اطلاعات به سیر تحول خط فارسی در دوره‌های مختلف و شرح ویژگی‌های این خط و تفاوت‌های آن با خطوط دیگر پرداخته شده است و عناصر شکلی این خط، با توجه به کاربرد و اهمیت آنها در تعامل کاربر با نرم‌افزارهای بازشناسی نوری متون فارسی، طیقه‌بندی گردیده است. در این بخش، با توصیف و تحلیل مراحل بازشناسی حروف بر اساس ویژگی‌های خط فارسی و شرح تفاوتهای آن با گونه‌های لاتین محور موجود، چهره‌ای متفاوت از دستگاه خط فارسی به هنگام کار با رایانه‌ها و به ویژه در سیستم‌های بازشناسی نوری حروف عرضه می‌شود بطوری که مخاطب عملاً قابلیت و ظرفیت‌های دستگاه خط فارسی در هماوردی با دستگاه ساده خط لاتین را مشاهده خواهد نمود. با اتکا به همین ویژگی‌ها، در جهت ارتقاء و اصلاح الگوریتم‌های رایج در بازشناسی نوری حروف فارسی، تسهیل بکارگیری الگوها، و تعدیل حجم پایگاه داده‌ها، از فرایند انتقال هندسی فضای دو بعدی به تک بعدی نیز بهره جسته‌ایم.

کلیدواژه‌ها

موضوعات


Al-badr, B. and Mahmoud, S. A. (1995). Survey and bibliography of Arabic optical text recognition, Signal Process. 41, 1, 49–77.
Assi, S.M. (1385). Persian in cyberspace, Position of Persian in the Modern World of Information Technology. Vol.8, No.3, Fall 2006.
Azmi, R. (1378). Recognition of Persian manuscripts, Ph.D. thesis. Tarbiat Modares University.
Cheriet, M. (2008). Visual recognition of Arabic handwriting: challenges and new directions, Arabic and Chinese Handwriting Recognition, Lecture Notes in Computer Science, vol. 4768, Springer, 1–21.
Faramazi, E. (1384). Optical Character Recognition: A Review of Theoretical and Practical Considerations with Special Emphasis on Particularities of Farsi Language. Vol.20, No.3.
Fujisawa, H. (2008). Forty years of research in character and document recognition, An industrial perspective, Pattern Recogn. 41, 8, 2435–2446.
Khorsheed M. S. (2000). Automatic recognition of words in Arabic manuscripts, PhD thesis, University of Cambridge.
Lorigo, L. and Govindaraju, V. (2006). Offline Arabic handwriting recognition: A survey. IEEE Trans, Pattern Anal. Mach. Intell. 28, 5, 712–724.
Margner, V. and El-Abed, H. (2008). Databases and competitions: strategies to improve Arabic recognition systems, Arabic and Chinese Handwriting Recognition, Lecture Notes in Computer Science, vol. 4768, Springer, 82–103.
Margner, V. and El-Abed, H. (2009). Arabic handwriting recognition competition, Proceedings of the 10th International Conference on Document Analysis and Recognition (ICDAR).
Nazif, A. (1975). A system for the recognition of the printed Arabic characters, Master’s thesis, Faculty of Engineering, Cairo University.
Trier, O.D. (1996). Feature Extraction Methods for Character Recognition: A Survey, Pattern Recognition, Vol.29, PP.641-662.