Помогнете на развитието на сайта, споделяйки статията с приятели!

Рано или късно всеки, който често работи с офис програми, е изправен пред типична задача - да сканира текст от книга, списание, вестник, само листовки и след това да преведе тези снимки в текстов формат, например в документ на Word.

За да направите това, имате нужда от скенер и специална програма за разпознаване на текста. В тази статия ще говорим за безплатния аналогов FineReader - CuneiForm (за разпознаване във FineReader - вижте тази статия).

Нека започнем …

съдържание

  • 1. Характеристики на функциите на CuneiForm
  • 2 2. Пример за разпознаване на текст
  • 3 3. Разпознаване на партида текст
  • 4 4. Заключения

1. Характеристики на функциите на CuneiForm

клиновиден

Можете да го изтеглите от сайта на програмиста: http://cognitiveforms.com/

Програма за разпознаване на текст с отворен код. В допълнение, работи във всички версии на Windows: XP, Vista, 7, 8, което е удоволствие. Плюс това, добавете пълния руски превод на програмата!

плюсове:

- признаване на текста в 20-те най-популярни езика на света (сам по себе си е включен английският и руският език);

- огромна подкрепа за различни печатни шрифтове;

- да проверявате речника на разпознатия текст;

- възможност за запазване на резултатите от работата в няколко варианта;

- запазване на структурата на документа;

- отлична подкрепа и разпознаване на таблици.

минуси:

- не поддържа твърде големи документи и файлове (повече от 400 dpi);

- не поддържа директно някои видове скенери (добре, това не е страшно, драйверът на скенера се предлага със специална програма за сканиране);

- Дизайнът не блести (но кой се нуждае от него, ако програмата напълно решава проблема).

2. Пример за разпознаване на текст

Ще приемем, че вече сте получили необходимите снимки за разпознаване (сканирани там или сте изтеглили книга във формат pdf / djvu в Интернет и сте извадили необходимите снимки от тях.) За да направите това, вижте тази статия.)

1) Отворете желаната снимка в програмата CuineForm (файл / отворен или "Cntrl + O").

2) За да започнете разпознаването - трябва първо да изберете различни области: текст, картини, таблици и т.н. В Cuneiform това може да се направи не само ръчно, но и автоматично ! За целта кликнете върху бутона "Маркиране" в горния панел на прозореца.

3) След 10-15 секунди. програмата автоматично ще открои всички области с различни цветове. Например, текстовата област е маркирана в синьо. Между другото, тя подчерта всички области правилно и сравнително бързо. Честно казано, не очаквах такава бърза и правилна реакция от нея …

4) За тези, които не вярват на автоматичното маркиране, можете да използвате ръчно. За да направите това, има лента с инструменти (вижте снимката по-долу), благодарение на която можете да изберете: текст, таблица, картина. Преместване, увеличаване / намаляване на първоначалното изображение, изрязване на ръбовете. Като цяло, добър набор.

5) След като всички области са маркирани, можете да започнете да разпознавате . За да направите това, просто кликнете върху бутона със същото име, както е показано на снимката по-долу.

6) буквално в 10-20 секунди. преди да отворите документ в Microsoft Word с разпознатия текст. Интересното е, че в текста за този пример, разбира се, имаше грешки, но няма много такива! Особено, като се има предвид каква несъвършена качество е изходен материал - картината.

С бързина и качество е доста сравнима с FineReader!

3. Разпознаване на партида текст

Тази функция на програмата може да бъде полезна, когато трябва да разпознаете повече от една снимка, но няколко наведнъж. Етикетът за стартиране на разпознаване на пакети обикновено е скрит в менюто "Старт".

1) След отваряне на програмата, трябва да създадете нов пакет или да отворите преди това запазения. В нашия пример създайте нов.

2) В следващата стъпка му даваме име, за предпочитане такова, че след половин година ще си спомним какво се съхранява в него.

3) След това изберете езика на документа (руско-английски), укажете дали има снимки и таблици във вашия сканиран материал.

4) Сега трябва да посочите папката, в която се намират файловете за разпознаване. Между другото, интересното е, че самата програма ще намери всички картини и други графични файлове, които може да разпознае и да ги добави към проекта. Ще трябва да премахнете допълнителните такива.

5) Следващата стъпка не е важна, изберете какво да правите с изходните файлове след разпознаване. Препоръчваме да поставите отметка в квадратчето "не правете нищо".

6) Остава само да се избере форматът, в който разпознатият документ ще бъде запазен. Има няколко опции:

- rtf - файл от думата документ, се отваря с всички популярни офиси (включително безплатни, връзка към програмите);

- txt - текстов формат, можете да запазвате само текст, картини и таблици в него;

- htm - хипертекстна страница е удобно, ако сканирате и разпознавате файлове за сайта. Ще го изберем в нашия пример.

7) След като кликнете върху бутона "готов", ще започне обработката на вашия проект.

8) Програмата работи доста бързо. След разпознаването, пред вас се появява раздел с htm файлове. Ако кликнете върху такъв файл, започва браузър, където можете да видите резултатите. Между другото, пакетът може да бъде запазен за по-нататъшна работа с него.

9) Както виждате, резултатите от работата са много впечатляващи. Програмата беше лесна за разпознаване от програмата и под нея беше лесно да се разпознае текстът. С факта, че програмата е безплатна - обикновено е супер!

4. Заключения

Ако често не сканирате и не разпознавате документи, няма смисъл да купувате FineReader. С повечето задачи CuneiForm лесно се справя.

От друга страна, тя има и против.

Първо, има твърде малко инструменти за редактиране и проверка на резултата. На второ място, когато трябва да разпознаете много снимки, то в FineReader е по-удобно да видите веднага всичко, добавено към проекта в колоната отдясно: бързо да премахнете ненужните, да правите корекции и т.н. И трето, при документи с много лошо качество, CuneiForm губи като признание: Необходимо е да се внедри документът - да се коригират грешките, да се поставят пунктуационни знаци, обърнати запетаи и т.н.

Това е всичко. Знаете ли някаква друга достойна безплатна програма за разпознаване на текст?

Помогнете на развитието на сайта, споделяйки статията с приятели!