در دنیای بازشناسی متون اصطلاحات مختلفی استفاده می شود که هرچند برای اهل فن آشناست، لیکن اکثریت مردم از تعریف دقیق آنها بی اطلاعند. در این مقاله به تعریف سه اصطلاح متداول OMR، ICR و OCR می پردازیم.
۱٫ OMR چیست؟
OMR که مخفف کلمات Optical Mark Reader/Recognition است به معنی خواندن نوری مارک بوده و عمدتا در آزمونهای چند گزینه ای استفاده می شود. به این ترتیب که فرمهای خاصی طراحی شده و آزمون دهندگان مارکهای (غالبا بیضی شکل یا مستطیل) مورد نظر را با قلمهای نرم پر می کنند. برای خواندن خودکار این فرمها، می توان از دستگاههای مارک خوان استفاده کرد یا از نرم افزارهای مارک خوان کمک گرفت. دستگاههای مارک خوان (OMR Scanner) نوعی اسکنر ویژه اند که قادرند با استفاده از تاباندن نور به سطرهای مختلف برگه امتحان، موقعیت مارکهای پرشده را تشخیص دهند. این دستگاهها مقادیر آستانه ای برای یافتن مواردی که چند گزینه پر شده است و یا هیچ گزینه ای پر نشده است، دارند.نرم افزارهای OMR در واقع کار دستگاهها را شبیه سازی می کنند؛ به این ترتیب که تصویر اسکن شده را دریافت کرده و با پردازش آن موقعیت مارکهای مختلف را در می یابند. به دلیل سهولت پردازش اطلاعات، این تکنولوژی همچنان در بسیاری از آزمونهای روز دنیا مورد استفاده است و در کشور ما نیز شرکتهای زیادی در این زمینه کار می کنند.
۲٫ ICR چیست؟
ICR مخففRecognition Intelligent Character است. این اصطلاح که بیشتر توسط بخش تجاری جا افتاده است، شاخه ای از بازشناسی متن است که به طور خاص به بازشناسی حروف و ارقام دستنویس می پردازد. به این صورت که اطلاعات درخواستی کاربر روی فرمهای کاغذی و در کادرهای مجزا وارد می شود (مثلا برای نوشتن نام محمد حروف م ح م د در چهار خانه مربع شکل جداگانه وارد می شود)، برای داده آمایی خودکار این اطلاعات، از فن آوری ICR استفاده می شود.در این روش، پس از اسکن فرمها، موقعیت فیلدهای مختلف (مثل نام، فامیل، شماره شناسنامه و …) با پردازش تصویر مشخص می شود و هر فیلد برای بازشناسی حروف و ارقام موجود در آن آنالیز می شود. پس از یافتن موقعیت تک تک نویسه ها، با استفاده از تکنیکهای هوش مصنوعی (مثلا SVM، شبکه عصبی، یا روشهای ساختاری) شناسایی نویسه ها صورت می گیرد.
۳٫ OCR چیست؟
تشخیص نوری نویسهها (Optical Character Recognition) که با سرواژهی OCR شناخته میشود، از مهمترین شاخه های بازشناسی متن است. OCR عبارت است از بازشناسی خودکار متون موجود در تصاویر اسناد و تبدیل آنها به متون قابل جستجو و ویرایش توسط رایانه. تصویر سند غالبا توسط اسکنر و یا دوربین دیجیتال تولید میشود و شامل تعدادی پیکسل با رنگهای مختلف و سطوح روشنایی گوناگون است. از دید انسان، یک سند ممکن است ارزش اطلاعاتی زیادی داشته باشد، لیکن از دید رایانه تصویر یک سند با تصویر یک منظره تفاوتی ندارد، چرا که هر دوی آنها مجموعهای از پیکسلها هستند. برای اینکه بتوان از اطلاعات نوشتاری تصویر سند استفاده کرد، باید به نحوی نوشتههای موجود در سند را بازشناسی کرد. چنین کاری توسط نرم افزارهای نویسهخوان نوری انجام میشود.واژه OCR ابتدا تنها در مورد بازشناسی ارقام و حروف چاپی بکار گرفته میشد. پسوند نوری در این عبارت در مقابل عبارت مرکب مغناطیسی (Magnetic Ink) قرار داده شد تا این روش را از روش قدیمیتر بازشناسی نویسهها با مرکب مغناطیسی ،MICR، متمایز کند. با گذشت زمان و پیشرفت قابل توجه در این زمینه، روشهای بازشناسی دستنوشته و متون چاپی مطرح شدند که دامنه کار را به کلمات و عبارات رساندند. با وجود عدم تطبیق دقیق OCR با این موارد، این نام برای این روشها هم استفاده شد و رواج پیدا کرد. هماکنون OCR را بیشتر برای بازشناسی مستندات چاپی مثل صفحات کتابها، مجلهها و نامههای چاپی به کار میبرند.سامانه نویسهخوان مثل یک نفر ماشین نویس یا تایپیست، متن سند را میخواند و آن را به قالب مناسب برای ذخیره در رایانه تبدیل میکند. معمولاً یک اسکنر، تصویر سند را برای OCR فراهم میکند. سامانه نویسهخوان، اشیاء موجود در تصویر سند را که ارقام، حروف، علائم و کلمات هستند، بازشناسی کرده و رشتهی متناظر با آنها را در قالب مناسب ذخیره میکند. یک فایل تصویری، حجم زیادی دارد و جستجوی متنی در آن ممکن نیست. این در حالیست که فایل خروجی سامانه نویسهخوان بسیار کم حجم و قابل جستجو است. ضمن اینکه اطلاعات فایل متنی را به راحتی می توان ویرایش کرد و در جای دیگر استفاده کرد در حالی که اطلاعات موجود در تصویر سند قابل ویرایش نیست.سامانههای نویسهخوان مثل بسیاری از سامانه های هوشمند دیگر، پیچیدگی زیادی داردپردازش تصویر و بازشناسی الگو دو پایه اصلی این سامانهها هستند. پیچیدگی این سامانهها برای زبانهای گوناگون، متفاوت است. به عنوان مثال نوشتن OCR برای زبانهای لاتین به دلیل اینکه حروف آنها به طور مجزا نوشته میشود آسانتر است از زبانهایی مثل فارسی و عربی که حروف یک کلمه به یکدیگر میچسبند. این موضوع به علاوه جمعیت کم کاربران زبان فارسی، سبب شده سامانههای نویسهخوان کمی برای زبان فارسی داشته باشیم.یک سیستم OCR از بخشهای متعددی تشکیل شده است. ابتدا باید تصویر ورودی آنالیز شده و اگر متن آن دارای چرخش است، اصلاح شود. پس از اصلاح چرخش باید موقعیت بلوکهای متنی، شکل و جدول در تصویر سند مشخص شود. پس از تعیین موقعیت بلوکهای مختلف (ناحیه بندی یا آنالیز ساختار سند)،باید بلوکهای متنی بازشناسی شوند؛ یعنی خطوط متنی یافت شده و سپس موقعیت کلمات مشخص شود و در مرحله بعد، موقعیت حروف در کلمه مشخص شود، در نهایت تک تک حروف باید شناخته شده و با یکدیگر ترکیب شوند تا کلمهی معادل آنها مشخص شود. این کل فرایند تشخیص خودکار متن بود که به صورت بسیار ساده بیان شد. لازم به ذکر است که به دلیل پیچیدگیهای زبان فارسی نسبت به زبانهای لاتین تولید OCR فارسی به مراتب دشوارتر از نمونه های انگلیسی است. از این رو محصولات موجود در این زمینه برای زبان فارسی بسیار کم است.
رامین کریمی