OCR چیست؟
تشخیص کاراکتر نوری (OCR) به فرآیند تبدیل تصاویر متنی به قالب متن قابل خواندن توسط ماشین اشاره دارد. به عنوان مثال، اگر یک فرم یا رسید را اسکن کنید، رایانه اسکن را به عنوان یک فایل تصویری ذخیره می کند. شما نمی توانید با استفاده از یک ویرایشگر متن، متن را در یک فایل تصویری ویرایش، جستجو یا شمارش کنید. با این حال، می توانید از OCR برای تبدیل تصاویر به اسناد متنی و ذخیره محتوا به عنوان داده های متنی استفاده کنید.

چرا OCR اینقدر مهم است؟
بیشتر جریان های کاری کسب و کار شامل دسترسی به اطلاعات از طریق رسانه های چاپی است. فرم های کاغذی، فاکتورها، اسناد قانونی اسکن شده و قراردادهای چاپی، همه بخشی از فرآیند کسب و کار هستند. ذخیره و مدیریت این اسناد عظیم به زمان و فضای زیادی نیاز دارد. علیرغم گرایش به سمت مدیریت اسناد بدون کاغذ، اسکن اسناد در تصاویر هنوز چالش برانگیز است. این فرآیند به مداخله انسانی نیاز دارد، دست و پا گیر و کند است.
علاوه بر این، دیجیتالی کردن محتوای سند می تواند منجر به فایل های تصویری با متن پنهان شود. پردازشگرهای کلمه نمی توانند متن را در تصاویر مانند اسناد متنی پردازش کنند. OCR این مشکل را با تبدیل تصاویر متنی به داده های متنی که توسط نرم افزارهای تجاری دیگر قابل تجزیه و تحلیل هستند، حل می کند. سپس می توانید از داده ها برای تجزیه و تحلیل، بهبود عملیات، خودکارسازی فرآیندها و افزایش بهره وری استفاده کنید.

OCR چگونه کار می کند؟
تهیه تصویر
اسکنرها اسناد را می خوانند و آن اسناد را به داده های باینری تبدیل می کنند. نرم افزار OCR تصویر اسکن شده را تجزیه و تحلیل می کند و مناطق روشن را به عنوان پس زمینه و مناطق تاریک را به عنوان متن طبقه بندی می کند.
پیش پردازش
نرم افزار OCR ابتدا تصویر را پاک می کند و خطاهای آماده سازی برای خواندن را برطرف می کند. در اینجا چند تکنیک تمیز کردن مورد استفاده برای آن آورده شده است:
اصلاح جزئی افست یا انحراف اسناد اسکن شده در حین اسکن برای رفع مشکلات تراز.
نویز را حذف کنید، لکه ها را از تصاویر دیجیتال حذف کنید، یا لبه های تصاویر متنی را صاف کنید.
مرزها و خطوط را در یک تصویر پاک کنید.
تشخیص اسکریپت با فناوری OCR چند زبانه
تشخیص متن
دو نوع اصلی الگوریتم OCR یا فرآیندهای نرم افزاری که توسط نرم افزار OCR برای تشخیص متن استفاده می شود، تطبیق الگو و استخراج ویژگی است.
تطبیق الگو
تطبیق الگو، تصویری از یک کاراکتر (که گلیف نامیده میشود) را جدا میکند و آن را با علائم مشابه ذخیره شده مقایسه میکند. تطبیق الگو فقط در صورتی کار میکند که حروف ذخیره شده دارای فونت و اندازه مشابه با علامت ورودی باشد. این روش برای تصاویر اسکن شده اسناد وارد شده با فونت های شناخته شده به خوبی کار می کند.
استخراج ویژگی
بخشهایی را استخراج میکند یا حروف را به ویژگیهایی مانند خطوط، حلقههای بسته، جهتگیری خط و فوکوس خط تجزیه میکند. سپس از این ویژگیها برای یافتن بهترین یا نزدیکترین تطابق در میان حروفهای مختلف ذخیره شده استفاده میکند.
پس پردازش
پس از تجزیه و تحلیل، سیستم داده های متنی استخراج شده را به فایل های کامپیوتری تبدیل می کند. برخی از سیستمهای OCR میتوانند فایلهای PDF حاشیهنویسی ایجاد کنند که حاوی نسخههای پیش و پس از اسکن اسناد اسکن شده است.


