- Google Lens (через мобильное приложение)
- Хорошо распознаёт чёткие сканы.
- Для старых шрифтов: загрузите изображение, выберите «Текст», затем вручную исправьте очевидные ошибки (например, «ѣ» → «е», «ъ» на конце).
- Бесплатно.
- Online OCR (onlineocr.net)
- Поддерживает кириллицу, в т. ч. дореформенную.
- Можно загрузить PDF или изображение, выбрать язык «Русский» и получить текстовый файл.
- Бесплатно до 15 файлов в день.
- Convertio (convertio.co)
- Распознаёт кириллические шрифты, включая устаревшие начертания.
- Загружаете скан → выбираете «Русский» → скачиваете TXT/DOCX.
- Бесплатно до 10 файлов/день.
- Tesseract OCR (через веб‑интерфейсы)
- Мощный движок с поддержкой старых кириллических шрифтов.
- Попробуйте:
- OCR.Space (ocr.space) — выберите язык «Russian» и загрузите файл.
- Online OCR использует Tesseract под капотом.
Программы для установки (более точный OCR)
- ABBYY FineReader (платная, есть пробная версия)
- Лучшая точность для сложных шрифтов и рукописей.
- В настройках языка выберите «Русский (дореформенный)» или «Церковнославянский».
- Сохраняет форматирование, позволяет править распознанный текст.
- OCRopus (open‑source)
- Бесплатный инструмент на базе Tesseract.
- Требует базовой настройки: укажите язык как «ru» или «chu» (церковнославянский).
- Подходит для пакетной обработки сканов.
- CuneiForm (бесплатная)
- Старинная, но рабочая программа для распознавания старых текстов.
- Поддерживает кириллицу XIX–XVIII веков.
- Интерфейс на русском.
Специализированные решения для церковнославянских/старопечатных текстов
- PRIMA OCR
- Разработан для исторических документов.
- Есть шаблоны для церковнославянского и дореформенного русского.
- Требуется установка; есть демо‑версия.
- Transkribus (transkribus.eu)
- Платформа для распознавания рукописей и старопечатных книг.
- Используйте модель «Russian cursive 18–19 cc.» или «Church Slavonic».
- Бесплатно для некоммерческого использования (требуется регистрация).
- Позволяет обучать собственные модели под конкретный почерк.
- ReadIRIS (платная)
- Поддерживает старые кириллические шрифты.
- В настройках выберите «Russian Historical» или «Church Slavonic».
Как повысить точность распознавания
- Предварительная обработка изображения:
- Увеличьте контрастность (в Photoshop, GIMP или онлайн‑сервисах).
- Уберите фоновые шумы («размытие» или «повышение резкости»).
- Разбивайте текст на блоки: если страница перегружена, обрабатывайте по абзацам.
- Сверяйте с оригиналом: OCR часто ошибается в «ѣ», «ѳ», «ъ» — вручную исправьте такие места.
- Используйте словари: если слово не распозналось, попробуйте найти его в «Словаре древнерусского языка» или «Словаре церковнославянского языка».
Где искать шаблоны и модели для OCR
- GitHub: ищите репозитории с моделями Tesseract для «старорусского» или «церковнославянского».
- Форум genealogy.ru или forum.vgd.ru: там делятся настройками OCR для архивных документов.
- Сайт Российской государственной библиотеки (rsl.ru): иногда выкладывают готовые распознанные тексты из фондов.
Совет: начните с Online OCR или Transkribus — они наиболее дружелюбны к новичкам и дают хороший результат для типографских текстов XVIII–XIX веков. Для рукописей лучше подойдёт Transkribus с обучением модели.
Инструкция, таблица символов и пособия по скорописи
Все необходимые материалы — инструкция по чтению, таблица с начертаниями старославянских букв и скорописных знаков, а также рекомендации по изучению — собраны в одной записи: шпаргалка по скорописи