Возможность: расшифровать документ с дореволюционной орфографией с помощью нейросети
724
«Яндекс» разработал сервис, который пригодится историкам, социологам и всем, кто ищет сведения о своей семье.
«Поиск по архивам» — это электронный каталог архивных документов и материалов от середины XVIII до начала XX века. В базе уже более 2,5 млн страниц документов.
Искать информацию в каталоге можно с помощью фильтров по годам, архивам, фондам и описям. В базе можно найти материалы с упоминанием определённой фамилии или населённого пункта.
Специалисты компании рассказали, что алгоритм построен на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт дореволюционный алфавит и «понимает особую структуру архивных документов».
Нейросеть обучали на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров.
Разработчики обучали нейросеть на материалах Главархива Москвы, в базе также есть архивы Оренбургской и Новгородской областей.
Со временем количество хранилищ и доступных отсканированных файлов планируют увеличить.
Следите за нашими публикациями в Telegram на канале «Другой город» и ВКонтакте