OCR چيست؟ |
|||||||||
فرض كنيد كه ما متني را روي كاغذ داريم و ميخواهيم آن را وارد رايانه كنيم. اولين روشي كه به ذهن ميرسد اين است كه متن را به تايپيست بدهيم تا با كامپيوتر تايپ كند. اما آيا ميشود عين همان متن را وارد رايانه بكنيم تا نيازي به تايپ نباشد؟ البته دستگاه «اسكنر» ميتواند تصويري از آن متن را وارد رايانه كند، تا اينجا بخشي از مشكل ما حل شده است. اما رايانه كه نه عقلي دارد و نه «زبان» ميفهمد، نميتواند حروف و كلمات را از هم تشخيص دهد. مثلاً اگر از كامپيوتر بخواهيم به ما بگويد كه در متن اسكنشده كلمة «علي» چند بار آمده است، بيآنكه شرمنده شود، ميگويد نميتوانم تشخيص بدهم! در واقع اين «تصوير ديجيتالشده» بايد به «تصوير قابل پردازش» تبديل شود. موضوع اصلي OCR همين است.OCR سرنام اصطلاحي است كه صورت كامل آن در واژهنامههاي انگليسي به دو صورت آمده است: 1. Optical Character Recognition 2. Optical Character Reader انواع OCRدر زبانهاي ديگر، به ويژه زبانهايي كه با حروف لاتيني نوشته ميشوند، سالهاست كه از OCR استفاده ميشود. اما در ايران تازه دو سه سالي است كه به فكر استفاده از OCR در زبان فارسي افتادهايم. فارسي ما و مشكلات آنقبل از اينكه به مراحل ديگر OCR بپردازيم، لازم است اندكي هم به مشكلات خط فارسي ــ يا در واقع ويژگيهاي اين خط ــ بپردازيم. اول اينكه ما در فارسي حروف را به صورت چسبيده و پيوسته مينويسيم و اين كار براي تشخيص حرف به حرف نوشته از سوي رايانه (كه قرار است در مراحل بعدي آن را تايپ كند) بسيار مشكل است. تصور كنيد كه همين كلمه ساده «است» را به حالتهاي مختلف ميشود نوشت: يكي براي «س» دندانه ميگذارد، يكي نميگذارد، يكي آن را ميكشد و يكي نميكشد و… حالا اگر همين صورتهاي مختلف «س» به «ت» هم بچسبند، تشخيص حروف براي ما انسانها هم سخت ميشود، چه رسد به رايانه. شباهت حروفمشكل ديگر خط ما اين است كه حرفهاي فارسي بسيار به هم شبيهاند. مثلاً در نظر بگيريد كه تفاوت «ر» با «ز» با «ذ» يا «ب» با «ت» تنها در يك نقطه است، و چون نقطه جزء بسيار كوچكي است، اگر يك خط يا حتي يك لك كوچك روي كاغذ بيفتد، تشخيص حروف از هم بسيار دشوار ميشود و دردسر جدي براي بازشناسي حروف توسط رايانه ايجاد ميكند. اينها تازه مشكلات خط فارسي است. دربارة اعداد فارسي هم اين مشكل وجود دارد: صفر ما يك نقطه كوچك است كه ميتواند رايانه را به اشتباه بيندازد؛ اعداد 4، 3، 2، 1 هم بسيار به هم شبيه هستند و تنها تفاوتشان يك دندانه كوچك است. بازشناسي حروف و الگوتا اينجا گفتيم تصوير صفحهاي كه در آن حروف به طور جداجدا (هر حرف داخل يك كادر) نوشته شده است، به وسيلة اسكن وارد رايانه ميشود. مرحلة بعدي اين است كه حروف بازشناسي شوند، يعني مكان آنها از ديگر خطوط (مثل خطوط كادري كه داخل آن نوشته شده) بازشناسي شود، و اگر متن پيوسته تايپي است، حروف جدا شوند و زوايد تصوير حذف شود. مثلاً اگر دانشآموزي «س» را به گونهاي نوشت كه بيرون از كادر بود، به رايانه بفهمانيم كه بيدقتي شده است او بايد همان حرف داخل كادر را بخواند. مدلسازي يا پردازش زبانيمرحله بعدي «مدلسازي زباني» يا «پردازش زباني» نام دارد. حروف به هم چسبيده، كه كلمه را درست ميكنند، بايد معنيدار يا شناختهشده باشند. در اين مرحله بررسي ميشود كه چه كلماتي در زبان وجود دارد؟ چه تركيبهايي از كلمات مجاز است؟ و… البته در مراحل پيشرفتهتر، مدلسازي گرامري (دستور زبان) و مدلسازي معنايي هم وجود دارد كه تشخيص ميدهد جمله از لحاظ دستوري و معنايي درست است يا بيمفهوم است. اما در OCR گسسته ــ كه بيشتر براي ثبتنام استفاده شده ــ شباهت يك كلمه به نام، نام خانوادگي، شهر و … كافي است. بانكهاي ما و ديگرانمهندس «رزازي» دربارة مشكل بانكهاي اطلاعاتي در زبان فارسي ميگويد: «در دنيا براي توسعة OCR و ارزيابي آن، بانكهاي اطلاعاتي استاندارد ساخته شده است كه در آنها همة كلمات وجود دارند، يعني بانك هم مشكل ديجيتال كلمه را دارد، و هم تصويرش را. اما براي زبان فارسي، اين بانكهاي اطلاعاتي چه براي ارزيابي و چه براي توسعه، استاندارد شده نيست. در واقع هر كسي براي خودش يك بانك اطلاعاتي ميسازد، و اين نمونههاي متفاوت مشكلاتي را ايجاد ميكند. مثلاً براي ثبتنام دانشآموزاني كه در آزمون مدارس تيزهوشان شركت كرده بودند، يك بانك اطلاعاتي حاوي نامهاي فارسي، از روي اطلاعات فرمهاي سالهاي قبل، تهيه شد كه از روي آن كلماتي كه خيلي شبيه به نامهاي فارسي بودند تشخيص داده ميشد. مثلاً اگر رايانه كلمهاي را «مصيبت» تشخيص داد، براساس بانك اطلاعاتي معلوم ميشود كه «مصيب» بوده است كه يك نام ايراني است. علي، ولي، قلي … و سيبنكتة ديگر اين است كه يك بانك اطلاعاتي بايد شامل تعدادي كلمات خام باشد، بلكه «بسامد» آن واژگان، يعني ميزان استعمال و تكرار كلمات در زبان و مشخصات آماري آنها هم بايد ثبت شده باشد، والا كارايي زيادي ندارد. مثلاً «علي» نامي است كه شباهت زيادي به «ولي» و «قلي» دارد. كارهاي آماري در بانك اطلاعاتي بايد طوري انجام شده باشد كه تعداد «علي» بيشتر باشد، تا و بعد نوبت «ولي» و «قلي» برسد، چون درصد بسامدي «علي» به لحاظ آماري و كاربرد در ميان نامهاي بيشتر است. سرنوشت OCR دستنويسدر مورد OCR پيوسته دستنويس نيز روند كار به همان صورتي است كه شرح داديم، اما آنچه كار را دشوارتر ميكند، قطعهبندي و جداجدا كردن حروف به هم چسبيده و تشخيص آنهاست. اگر اين روند طي شود، اين اميد وجود دارد كه روزي از OCR پيوسته دستنويس فارسي هم در سطح گستردهاي استفاده شود. البته OCR پيوسته دستنويس حتي در زبان انگليسي هم هنوز به كاربرد وسيع و عملي نرسيده است. مهندس «رزازي» دراين مورد ميگويد: « OCRانگليسي در سيستم عامل windows وجود دارد كه همراه با office فروخته ميشود، ولي فكر نكنيد كه نامههاي اداري انگليسي كه با دستنويس نوشته شدهاند همه با OCR تايپ ميشوند. اين كار براي به نتيجه رسيدن به حداقل يك روند 10 ساله را بايد طي كند. OCR فارسي يك مرحله عقبتر است، پس زمان بيشتري ميبرد.» |
کمک رایانه
مشکلات رایانه ای
سوالات رایانه ای
پاسخگویی به سوالات رایانه ای