Zareian A, Mosavi Miangah T, Rovshan B, Fakhr Ahmad S M. Correction and Improvement of the Common Processes in Optical Character Recognition (OCR) of Persian Texts: Using the Features of the Persian Script and a Dimension Transference Algorithm. LRR 2023; 14 (2) :363-400
URL:
http://lrr.modares.ac.ir/article-14-53265-fa.html
زارعیان آرش، موسوی میانگاه طیبه، روشن بلقیس، فخر احمد سید مصطفی. ارتقاء و اصلاح فرایندهای رایج در بازشناسی نوری حروف متون فارسی با بکارگیری ویژگیهای خط فارسی و الگوریتم انتقال فضا. جستارهای زبانی. 1402; 14 (2) :363-400
URL: http://lrr.modares.ac.ir/article-14-53265-fa.html
1- دانشجوی دکتری گروه زبانشناسی، دانشگاه پیام نور، تهران، ایران
2- دانشیار گروه زبانشناسی، دانشگاه پیام نور، تهران، ایران ، mosavit@pnu.ac.ir
3- استاد گروه زبانشناسی، دانشگاه پیام نور، تهران، ایران
4- دانشیار گروه کامپیوتر، دانشکده مهندسی برق و کامپیوتر، دانشگاه شیراز، شیراز، ایران
چکیده: (3676 مشاهده)
از آنجا که فنآوری بازشناسی نوری حروف اصالتاً بر پایه ویژگیهای خطی لاتین بنا شده است، تقریباً کلیه الگوریتمها و مراحل مورد استفاده در نظامهای رایج بازشناسی حروف فارسی نیز بر اساس همان ساختار و ویژگیهای خطوط لاتین گسترش یافتهاند. بکارگیری ابزار و ویژگیهای خطوط لاتین در طراحی نظامهای فارسی محور، نه تنها در نهایت به انجام بازشناسی صحیح حروف فارسی منجر نگردیده است، بلکه باعث سردرگمی همزمان نرمافزار و کاربر فارسیزبان نیز شده است. از اینرو، در اینجا، پس از مقدمهای کوتاه پیرامون اهمیت خط و زبان در حوزه فنآوری اطلاعات به سیر تحول خط فارسی در دورههای مختلف و شرح ویژگیهای این خط و تفاوتهای آن با خطوط دیگر پرداخته شده است و عناصر شکلی این خط، با توجه به کاربرد و اهمیت آنها در تعامل کاربر با نرمافزارهای بازشناسی نوری متون فارسی، طیقهبندی گردیده است. در این بخش، با توصیف و تحلیل مراحل بازشناسی حروف بر اساس ویژگیهای خط فارسی و شرح تفاوتهای آن با گونههای لاتین محور موجود، چهرهای متفاوت از دستگاه خط فارسی به هنگام کار با رایانهها و به ویژه در سیستمهای بازشناسی نوری حروف عرضه میشود بطوری که مخاطب عملاً قابلیت و ظرفیتهای دستگاه خط فارسی در هماوردی با دستگاه ساده خط لاتین را مشاهده خواهد نمود. با اتکا به همین ویژگیها، در جهت ارتقاء و اصلاح الگوریتمهای رایج در بازشناسی نوری حروف فارسی، تسهیل بکارگیری الگوها، و تعدیل حجم پایگاه دادهها، از فرایند انتقال هندسی فضای دو بعدی به تک بعدی نیز بهره جستهایم.
نوع مقاله:
مقالات علمی پژوهشی |
موضوع مقاله:
زبان شناسی انتشار: 1402/3/10