Исправить отсканированный документ онлайн. Чистка сканированных документов от мусора, устранение перекоса и искажения строк

Как улучшить качество отсканированного изображения

Вы скачали журнал или книгу из интернета, открыли файл и увидели, например, такие страницы:



Я специально для примера взяла страницы из журналов с крючковыми схемами вязания (где в схемах много мелких обозначений) и выкройками (где много линий для разных моделей).


Я не обвиняю тех, кто выкладывает такие сканы в интернет. Часто это зависит от характеристик сканеров. Кроме того, многие журналы печатаются на тонкой просвечивающейся бумаге, а иногда и просто на газетной бумаге.


Конечно, можно пользоваться и такими сканами. Но если вы собираетесь вязать или шить, по-моему лучше почистить страницы от грязи, сделать поярче и четче.


Я расскажу, как сама поступаю в таких случая. Но возможны и другие варианты.


Для работы нужна программа Adobe Photoshop . У меня на компьютере установлена русифицированная версия, поэтому название команд я буду писать на русском языке, а в скобках давать их английское обозначение.


Не буду рассказывать о сложных манипуляциях с использованием разных слоев и множества функций фотошопа. Мне кажется, в данном случае не стоит усложнять себе работу.


Открываем в фотошопе страницу из журнала.




Если вы никогда не занимались таким делом, рекомендую создать дубликат картинки.


На панели меню открываем: Изображение (Image) → Создать дубликат (Duplicate).




Открывается окно, где вы можете указать новое название файла. Мы не будет ничего переименовывать, нажмем Да (ОК).



На странице журнала, которую мы собираемся обработать, нет никаких цветных изображений или надписей, но отсканирована она в цвете, поэтому и получился розоватый фон. Я такие картинки сразу перевожу в черно-белые, дальше чистить будет гораздо легче.


Изображение (Image) → Коррекция (Adjustment) → Черно-белый (Desaturate). Удобнее воспользоваться горячими клавишами: нажать одновременно Alt+Shift + Ctrl+B.




Откроется новое окно, в нем ничего менять не надо. Просто нажмите "Да" и получите черно-белое изображение.



Теперь попробуем его почистить. Чтобы было удобнее работать, надо увеличить изображение. В фотошопе это можно сделать разными способами.


Слева на панели инструментов есть кнопка Лупа .


Через меню: Просмотр (View)→ Увеличение (Zoom in), с помощью горячих клавиш: Ctrl ++.


Я обычно пользуюсь панелью Навигатор (Navigator), расположенной справа. Внизу есть бегунок, двигая который вправо или влево, можно увеличивать или уменьшать картинку.



Находим на картинке наиболее грязное, затемненное место.


Затем нам нужна функция "Уровни" (Levels). Открыть ее можно или через меню: Изображение (Image) → Коррекция (Adjustment) → Уровни (Levels). Или горячими клавишами Ctrl+L.




В открывшемся окне выбираем правую пипетку и отмечаем ею на скане грязное пятно. Нажимаем "Да". Если грязь не удалилась полностью, операцию можно повторить.




В результате мы получим вот такое очищенное изображение.



Оно несколько бледноватое. Можно повысить контрастность изображения: Изображение (Image) → Коррекция (Adjustment) → Автоконтраст (Auto Contrast) или Контраст/Яркость (Contrast/ Brightness ).


А можно сделать так: опять открыть окно "Уровни" и подвигать ползунок (отмечено красным) вправо. Вы сразу увидите, как улучшается вид изображения. Когда вы решите, что изображение достаточно улучшено, нажмите "Да".

После завершения поиска документа, можно открыть документ в Word для его изменения. Как это сделать зависит от версии Office, в которой установлены.

Сканирование документа в формате PDF и изменить в Word

Совет: Преобразование лучше всего работает с документами, содержащими преимущественно текст.

    Сканирование документа в соответствии с инструкциями для сканера и сохраните его на своем компьютере как PDF-файл.

    В Word, выберите файл > Открыть .

    Перейдите к нужному PDF-файл на своем компьютере и нажмите кнопку Открыть .

    Появится сообщение о том, что Word будет преобразовать PDF-файла в редактируемый документ Word. Нажмите кнопку ОК .

См. также

Параметр со сканера или камеры для сканирование изображений и документов недоступен в Word 2010. Вместо этого можно использовать сканер для сканирования документа, и сохраните файл на своем компьютере.

Программа Microsoft Office Document Imaging была удалена из Office 2010, однако вы можете установить ее на своем компьютере, используя один из вариантов, описанных в статье Установка приложения MODI для использования совместно с Microsoft Office 2010 .

Прежде чем продолжать

    Найти и открыть изображений документов Microsoft Office для Обработки изображений документа Microsoft Office в меню Пуск Windows.

    В меню Файл выберите команду Открыть .

    Найдите отсканированный документ и нажмите кнопку Открыть .

    После запуска Microsoft Office Document Imaging нажмите клавиши CTRL+A, чтобы выделить весь документ, а затем нажмите клавиши CTRL+C.

    Запустите Microsoft Word.

    На вкладке Файл нажмите кнопку Создать .

    Дважды щелкните элемент Новый документ .

    Нажмите клавиши CTRL+V, чтобы вставить содержимое отсканированного документа в новый файл.

Параметр со сканера или камеры для сканирование изображений и документов недоступен в Microsoft Office Word 2007. Вместо этого можно использовать сканер для сканирования документа, и сохраните файл на своем компьютере.

Шаг 1: Установка Microsoft Office документа обработки изображений

    Завершите работу всех программ.

    Совет: Перед завершением работы всех программ советуем распечатать этот раздел.

    Откройте панель управления: Щелкните правой кнопкой мыши кнопку Пуск и затем выберите пункт Панель управления или введите Панель управления в поле поиска в Windows.

    На панели управления щелкните Программы , а затем - Программы и компоненты .

    Щелкните правой кнопкой мыши название выпуска Microsoft Office установлен, или щелкните правой кнопкой мыши Microsoft Office Word 2007 (в зависимости от того как часть Office или отдельной программы установлен Word) и нажмите кнопку Изменить .

    Выберите Добавить или удалить компоненты , а затем нажмите кнопку Продолжить .

    В разделе Параметры установки щелкните знак "плюс" (+) рядом с компонентом Средства Office .

    Щелкните стрелку рядом с компонентом Microsoft Office Document Imaging , выберите параметр Запускать все с моего компьютера , а затем нажмите кнопку Продолжить .

Шаг 2: Создание документа, который можно редактировать

Отсканируйте документ, следуя инструкциям для сканера.

Прежде чем продолжать , преобразуйте полученный файл в формат TIFF. Для этого можно использовать Paint или другую подобную программу.

Теперь у вас есть документ, который можно редактировать. Не забудьте сохранить новый файл, чтобы не потерять изменения.

Программа для оптического распознавания текстов. ABBYY FineReader умеет распознавать текст из отсканированных бумажных документов, PDF-файлов, а также документов, отснятых цифровым фотоаппаратом. Распознанные программой текстовые документы можно в дальнейшем редактировать, используя приложения Microsoft Office. Если нужно, то при распознавании текста будет сохранена вся структура оформления документов. FineReader работает со всеми популярными моделями современных сканеров и многофункциональных устройств (МФУ). Если пользователю нужно отсканировать и распознать большое количество страниц текста, то в программе предусмотрен специальный режим для работы с автоматическими сканерами (сканер с автоподатчиком бумаги). Программа может распознавать текст в файлах следующего формата: PDF, BMP, PCX, DCX, JPEG, JPEG 2000, TIFF, PNG, DjVu, при необходимости будет произведена обработка цифровых изображений для повышения качества оптического распознавания текста (изображение можно обрезать, очистить от ненужных элементов, устранить неточности, искажения строк, осуществить поворот или зеркальное отображение).

Программа представляет собой комплексное приложение для работы с текстовыми документами. Её основное назначение – оптическое распознавание символов. Создатель программы - российская кампания ABBYY Software (мировой лидер в области систем распознавания). Приложение осуществляет быстрый и точный перевод отсканированных документов в редактируемый формат, с сохранением всех оригинальных деталей источника. FineReader умеет распознавать PDF файлы, цифровые фотографии и бумажные документы. Программа точно воспроизводит вид оригинального источника, поддерживая распознавание текста на 186 языках и осуществляет прямой экспорт в приложения Microsoft Office.

С помощью приложения решаются такие задачи, как: создание и редактирование электронных документов на основе бумажных источников, перевод в редактируемый формат документов слабого качества, обработка документов со сложной структурой содержания, включающих таблицы, иллюстрации, схемы и т.д., поиск и редактирование текста в любых форматах. По мнению большинства специалистов, программа является лучшей в своей области.

Если говорить о практике использования этой программы в Рунете, то многим пользователям уже давно известна эта программа Файн Ридер (русский перевод названия), основное назначение которой – выполнение так называемого оптического распознавания текста. Если проще – с помощью этой программы любой напечатанный на бумаге текст может быть преобразован в один из электронных форматов. Последняя версия программы отличается не только обновленным и более удобным интерфейсом, но и улучшенной функциональностью.

Фактически, все основные действия могут быть выполнены посредством одного щелчка мыши, которым выбирается одно из предлагаемых при запуске программы действий. Среди них – возможность сканирования документов в формат.doc, конвертация фотографий, сканирование в Excel, сохранение изображений и их сканирование, распознавание изображений и др. С целью повышения удобства использования программы, рабочая область была увеличена, а кнопки, запускающие то или иное действие, находятся теперь на боковой панели.

Чтобы не затруднять пользователя, по умолчанию все файлы, которые он открывает, распознаются автоматически. При необходимости, опытный пользователь может выполнить глубокие настройки функционала FineReader. А работа с изображениями значительно упростилась благодаря новому диалогу. Использование приложения позволяет распознавать документы, составленные с использованием более чем одного языка, преобразовывать файлы PDF, распознавать штрих-коды и вести морфологический поиск. И хотя это далеко не полный перечень его возможностей, уже только это может сподвигнуть многих пользователей установить у себя на постоянной основе Файн Ридер и использовать его по мере необходимости.

И подводя черту под вышесказанным, можно вкратце так обозначить функциональные возможности: эта программа используется для оптического распознавания различных текстовых документов. При распознавании текста, программа сохраняет исходное форматирование и оформление документа (цветной текст, текст на фоне картинок, различные начертания шрифтов, обтекание картинок текстом, таблицы и т.д.). FineReader умеет работать с отсканированными бумажными документами (поддерживается работа практически со всеми популярными моделями сканеров и многофункциональных устройств), с документами, отснятыми цифровыми фотоаппаратами, распознаёт текст и графику из PDF файлов. А также экспортирует результаты оптического распознавания текстов в популярные офисные приложения: Word, Excel, PowerPoint, Lotus Word Pro, Corel WordPerfect, OpenOffice. Распознанный текст можно сохранить в различных форматах: PDF, PDF/A, DOCX, XLSX, RTF, DOC, XLS, CSV, TXT, HTML, Unicode TXT, Word ML, LIT, DBF.

При работе с документами и объемными базами данных довольно часто возникают различные проблемы. Имеются ввиду не ошибки в документации, требующие корректировки и исправления. Речь идет о простой лени. Но, как известно, лень это двигатель прогресса.


Людям во все времена хотелось побыстрее разделаться с рутинной работой и уделить больше времени отдыху.

Но ведь чтобы спокойно и беззаботно заниматься чем-то приятным, сначала нужно качественно сделать свою работу. Очень часто в случае, если документы необходимо занести в реестр или базу данных, приходится перепечатывать большой объем информации. Подобный процесс довольно часто надоедает пользователям. Чтобы упростить этот процесс можно использовать сканер и программу для редактирования.

Функции сканера

Сканер – это специальное устройство, которое позволяет перенести текст из печатного источника (журнала, газеты, книги и т.д.) на экран компьютера. В результаты работу сканера получается изображение страницы исходного документа. На некоторых устройствах используются специальные программы, которые позволяют контролировать весь процесс сканирования. Также предусмотрена возможность выбрать формат, в которых будет преобразовываться используемый материал. При сканировании фактически получается простой снимок документа. Из-за невозможности распознать символы редактирование документа выполнить не получится.

Что можно сделать со сканированным документом

Полученным в результате сканирования документом легко можно управлять, редактируя весь текст или только его фрагмент. Для этой цели обычно используется специальная программа для редактирования сканированных документов. Основная функция таких утилит состоит в распознавании сканированного изображения и перевода его в текстовый фрагмент. В дальнейшем его можно редактировать и обрабатывать. Сегодня можно найти массу подобных программ и приложений. У каждой из них есть свои особенности и нюансы. Рассмотрим некоторые из таких программных продуктов.

ABBYY FineReader

Наиболее распространенной программой для редактирования сканированных изображений является ABBYY FineReader. Данный программный продукт представляет собой совокупность редакторов, предназначенных для выполнения всевозможных операций со сканированными документами. Программа может распознавать текстовые документы со снимков любого качества. Также в программе реализована возможность распознавания многоуровневых документов, содержащих рисунки, таблицы и другие детали. Функционал программы позволяет задать язык в процессе распознавания текста.

Можно также задавать правильные символы сравнения. Это дает возможность выполнять распознавание текста с минимальным количеством ошибок. Программа ABBYY FineReader прекрасно работает с документами в формате PDF. Так что, если вам необходимо отредактировать файл данного формата, сделать это можно легко и без лишних усилий, достаточно просто использовать ABBYY FineReader.

Программа имеет удобный и интуитивно понятный интерфейс. Для использования данного программного продукта не требуется обладать никакими особыми навыками. Именно такая доступность ABBYY FineReader и повлияла на ее популярность среди пользователей по всему миру. После завершения процесса распознавания текста, вы легко может открыть файл с полученным результатом и исправить ошибки, которые сделала программа. Сделать это можно не выходя из меню редактора. Результат в итоге будет сохранен в форме отдельного документа, который можно в любой момент отредактировать.

Тонкости работы с форматом PDF

Если исходный файл имеет формат PDF, то при работе с ним можно использовать некоторые хитрости. В процессе распознавания PDF-файлов особенно удобно использовать FineReader, однако стоимость данного программного продукта зачастую отталкивает пользователей и вынуждает искать аналогичные программные продукты. К счастью, существует несколько утилит, с помощью которых можно осуществлять распознавание текста в файлах, имеющих формат PDF.

PDFill PDF Tools

Данная программа предназначена специально для работы с файлами, имеющими формат PDF. В ней имеется ряд отдельных опций, позволяющих объединять несколько документов в одно целое или, наоборот, делить один документ на несколько. Также PDFill PDF Tools позволяет редактировать содержимое PDF-файлов и преобразовывать их в изображения. Кроме этого, программа дает возможность создавать списки, работать со встроенными изображениями, выравнивать текст и проводить другие операции, которые пользователь может осуществлять при работе с пакетом программ Microsoft Office.

Программа распространяется совершенно бесплатно. Предназначена она как для домашнего, так и для корпоративного использования. Есть, конечно, и недостатки. Одним из них является интерфейс программы. Его нельзя назвать удобным. Но данный недостаток с лихвой компенсируется широким набором функций программы. Также стоит учесть, что русскоязычной версии PDFill PDF Tools пока нет.

Free PDF Editor

Еще одно бесплатное приложение, при помощи которого можно редактировать файлы в формате PDF, это Free PDF Editor. Программа обладает простым и понятным интерфейсом, поддерживается многими распространенными операционными системами. Единственный недостаток Free PDF Editor заключается в следующем: результат сканирования нельзя отредактировать. Сканировать можно прямо в программу. Однако, придется дополнительно повозиться с настройкой виртуального принтера. Иначе программа просто откажется работать.

Редактор OCR

Если уж вести разговор о бесплатных аналогах программы ABBYY Fine Reader, то следует обязательно упомянуть программу под названием OCR Form. Эта полезная и функциональная утилита особенно понравится тем пользователям, которым приходится работать сразу с несколькими языками. OCR поддерживает свыше двадцати иностранных языков. Утилита также неплохо справляется с документами плохого качества и полиграфией. Однако есть у нее и свои недостатки. Программа не очень хорошо работает с рукописным текстом.

Конечно, в функционале программы указана возможность операций с рукописным текстом, но качество результата мягко говоря сомнительное. Если говорить о внешнем виде программе, то здесь OCR вполне может составить достойную конкуренцию платным приложениям. Работать с программой очень просто: достаточно просто открыть нужный файл, сканировать его и сохранить в нужном формате. Еще одна особенность, благодаря которой OCR завоевала популярность среди пользователей – это возможность самообучения. Программа оснащена адаптивной системой распознавания, которая позволяет при каждом новом запросе все лучше и лучше осуществлять распознавание текста.

Еще одна программа из семейства OCR – SimpleOCR.

Даная утилита представляет собой упрощенный аналог OCR. В данной программе имеется возможность ручного добавления слов при помощи встроенного редактора. Кстати, редактирование текста можно проводить прямо в окне программы. Работу можно осуществлять сразу над несколькими файлами. Программа имеет немного необычный интерфейс, который может сбить с толку. Но если уделить некоторое время работе с данной программой, вы получите очень полезный инструмент для редактирования сканированного текста.

Работа с изображениями

В некоторых случаях приходиться иметь дело со сканированными документами в формате jpg. Тогда процесс распознавания текста будет осуществляться совершенно по другому принципу. Ведь нужно не просто распознать картинку, но еще привести ее к приемлемому виду. Например, если вам нужно отсканировать схему из учебника, то на скане будут отображаться следы чернил с других страниц. Для того чтобы избавиться от этих недостатков, можно использовать специальные графические редакторы.

Можно применить для этой цели такой продвинутый инструмент, как Photoshop. С его помощью можно осуществлять редактирование сканированных документов. Photoshop позволяет избавиться от таких недостатков, как отпечатки чернил и пятна. Также можно изменить яркость и цвет изображения, используя различные фильтры. В интернете можно найти множество видео-уроков, посвященных работе с данным программным продуктом. Существует и множество других графических редакторов, при помощи которых можно редактировать сканированный документ.

Хранить отсканированные документы на жестком диске компьютера или внешнем носителе удобно и безопасно. Однако как внести изменения в страницы, обычно представленные в виде изображения? Нам понадобятся специальные программы, об установке и управлении которыми мы расскажем ниже.

Как отсканировать документ перед редактированием?

Чтобы успешно манипулировать файлом в дальнейшем, важно правильно перевести его в формат “картинки”, а также учесть несколько простых, но полезных нюансов в самом процессе. Для этого:

  • Разгладьте все заломы и складки, чтобы они не отобразились на скане и не привели к трудностям в распознавании букв.
  • Для удобства обращения сохраните файл в формате PDF, JPG или TIFF.
  • PDF-документ можно будет открыть и редактировать программой Adobe Acrobat (или любой другой, предназначенной для подобных целей).
  • Зайдите на сайт компании-создателя сканера, либо поищите фирменную программу на прилагавшемся диске (часто известные бренды имеют собственные приложения для изменения отсканированных страниц).
  • Для последующего использования файла в MS Office 2003 или 2007, установите утилиту Microsoft Office Document Scanning. Она производит конвертацию сканируемого файла автоматически, переводя его сразу в текст (программа не работает с более “свежими” версиями Офиса).
  • Рекомендуется сканировать в черно-белой гамме, а не в цветной – это упрощает анализ текста.
  • TIFF формат лучше всего применять для OCR конвертеров, то есть программ, производящих оптическое распознавание.

Как отредактировать отсканированный документ – работа с OCR-утилитами

Принцип метода Optical Character Recognition - считывание имеющихся на бумаге символов, их последующее сравнение с элементами из собственной базы данных. Таким образом происходит преобразование сплошной картинки в редактируемый текст. Яркие примеры программ, справляющихся с данной задачей – Adobe Acrobat и Evernote. Чтобы внести исправления в имеющийся скан, просто откройте его одним из таких приложений, весь последующий процесс произойдет автоматически. Когда программа закончит распознавание, то предложит пользователю сохранить документ в одном из доступных форматов.


Как отредактировать отсканированный документ PDF

Если отсканированный документ сохранен в файле PDF, мы с легкостью сможем отредактировать его в программе Acrobat DC. Для этого:

  • открываем меню “Инструменты” -> “Редактировать PDF”;
  • программа запускает процесс редактирования, показывая меню подсказок в правом углу сверху;
  • щелкнув на ней и выбрав “Параметры”, можно указать язык распознавания;
  • что внести изменения, просто щелкните на любой строке документа;
  • документ, открытый для редактирования через OCR, сопровождается особой панелью с настройками, размещенной в правой стороне экрана;
  • в разделе “Настройки”, кроме языка, также удобно выбирать отображаемый шрифт, отмечать страницы, которые необходимо редактировать (все или по одной).


Во всемирной сети существует доступная альтернатива устанавливаемым программам-конвертерам. Это онлайновые OCR, которые без труда переведут полученное изображение в любой текстовый формат. К примеру, сайт pdfonline.com позволит за несколько минут из отсканированного PDF-документа сделать обычный файл MS Word.