Возможность: расшифровать документ с дореволюционной орфографией с помощью нейросети

 378

Автор: Юлия Сацук

«Яндекс» разработал сервис, который пригодится историкам, социологам и всем, кто ищет сведения о своей семье.

«Поиск по архивам» — это электронный каталог архивных документов и материалов от середины XVIII до начала XX века. В базе уже более 2,5 млн страниц документов. 

Искать информацию в каталоге можно с помощью фильтров по годам, архивам, фондам и описям. В базе можно найти материалы с упоминанием определённой фамилии или населённого пункта.

Специалисты компании рассказали, что алгоритм построен на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт дореволюционный  алфавит и «понимает особую структуру архивных документов».

Нейросеть обучали на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров. 

Разработчики обучали нейросеть на материалах Главархива Москвы, в базе также есть архивы Оренбургской и Новгородской областей.

Со временем количество хранилищ и доступных отсканированных файлов планируют увеличить. 

Следите за нашими публикациями в Telegram на канале «Другой город» и ВКонтакте