Помогнете на развитието на сайта, споделяйки статията с приятели!

Тази статия ще бъде допълнение към предишната (https://pcpro100.info/skanirovanie-teksta/) и по-подробно ще разкрие същността на директното разпознаване на текст.

Нека да започнем със самата същност, която много потребители не разбират напълно.

След като сканирате книга, вестник, списание и т.н., получавате набор от снимки (т.е. графични файлове, а не текстови файлове), които трябва да разпознаете в специална програма (един от най-добрите за това е ABBYY FineReader). Разпознаването е и е процесът на получаване на текст от графики и процесът, който ще напишем по-подробно.

В моя пример ще направя екранна снимка на този сайт и ще се опитам да получа текст от него.

1) Отваряне на файла

Отваряме снимките, които планираме да разпознаем.

Между другото, тук трябва да се отбележи, че можете да отворите не само формати на изображения, но също така, например, файлове DJVU и PDF. Това ще ви позволи бързо да разпознаете цялата книга, която обикновено се разпространява в мрежата в тези формати.

2) Редактиране

Веднага, за да се съгласи с авто-признаване на големия смисъл не присъства. Ако, разбира се, имате книга, в която можете само текст, снимки и таблети, както и сканирани в отлично качество. В други случаи е най-добре да зададете ръчно всички области.

Обикновено първо трябва да премахнете ненужните зони от страницата. За да направите това, кликнете върху бутона за редактиране на панела.

След това трябва да оставите само областта, с която искате да работите по-дълго. За това има инструмент за изрязване на ненужни граници. Отдясно на колоната изберете режима на изрязване .

След това изберете областта, която искате да запазите. На снимката по-долу тя е маркирана в червено.

Между другото, ако имате няколко снимки отворени, тогава изрязването може да се приложи към всички изображения наведнъж! Удобно е да не отрежете отделно. Обърнете внимание, в долната част на този панел има още един прекрасен инструмент - гума . Като го използвате от картинката, можете да изтриете ненужни петна, номера на страници, петна, ненужни специални символи и отделни области.

След като кликнете, за да изрежете краищата, оригиналното ви изображение трябва да се промени: само работното пространство ще остане.

След това можете да излезете от редактора на изображения.

3) Избиране на области

На панела, над отворената снимка, има малки правоъгълници, които определят зоните за сканиране. Има няколко от тях, нека разгледаме накратко най-често срещаните.

Картина - тази област няма да разпознае програмата, просто ще копира посочения правоъгълник и ще го залепи в разпознатия документ.

Текстът е основната област, върху която да фокусирате програмата и да опитате да получите текст от изображението. Избираме тази област в нашия пример.

След избора площта е боядисана в светлозелен цвят. След това можете да продължите към следващата стъпка.

4) Разпознаване на текст

След като сте задали всички области, кликнете върху командата на менюто, за да разпознаете. За щастие в тази стъпка нищо повече не е необходимо.

Времето за разпознаване зависи от броя на страниците в документа и от силата на компютъра.

Средно една цяла страница, сканирана с добро качество, отнема 10-20 секунди. на средната мощност на компютъра (по днешните стандарти).

5) Проверка на грешки

Каквато и да е качеството на оригиналното изображение, обикновено има грешки след признаването. Все пак, досега никоя програма не може напълно да изключи работата на човек.

Кликнете върху опцията за отметка и ABBYY FineReader ще започне да ви показва алтернативно тези места в документа, където е затънал. Вашата задача, като сравнявате оригиналната снимка (между другото, това място той ще ви покаже в разширената версия) с варианта на разпознаване - отговорът е положителен, или коригирайте и одобрете. След това програмата ще се премести в следващото сложно място и така нататък, докато целият документ бъде проверен.

По принцип този процес може да бъде дълъг и скучен …

6) Запазване

ABBYY FineReader предлага няколко възможности за запазване на работата ви. Най-често използваното е "точно копие". Т.е. целият документ и текста в него също ще бъдат форматирани, както е в изходния код, удобен вариант за прехвърлянето му в Word. Така направихме в този пример.

След това ще видите разпознатия текст в познат документ на Word. Мисля, че още боя какво да правя с него, няма смисъл …

По този начин анализирахме, на конкретен пример, как да преведем картината в обикновен текст. Този процес не винаги е лесен и бърз.

Във всеки случай, всичко ще зависи от оригиналното качество на картината, вашия опит и скоростта на компютъра.

Успешна работа!

Помогнете на развитието на сайта, споделяйки статията с приятели!