Сборник тезисов докладов X Международной молодежной научной конференции

Полярное сияние 2007

Ядерное будущее: безопасность, экономика и право

Содержание сборника

Секция «Безопасность реакторов и установок ЯТЦ»

Все доклады секции


ТЕХНОЛОГИЯ СОЗДАНИЯ ЭЛЕКТРОННЫХ АРХИВОВ ДЛЯ АЭС С ВОЗМОЖНОСТЬЮ РАСШИРЕННОГО ПОИСКА

Шушкова С.А.

Обнинский государственный технический университет
атомной энергетики

Моисеев К.В., Калафати Ю.Д.

ООО «Controlling Chaos Technologies», г. Москва

В настоящее время является актуальным перевод в электронную форму большого числа текстовых и графических документов, хранящихся на АЭС, что может обеспечить возможность переиздания многочисленных архивных материалов, технической документации и научных трудов в электронном виде. Такие электронные издания сохраняют первозданный вид бумажного издания, при этом появляется возможность быстрого и интеллектуального поиска в этом архиве необходимой информации с удобным отображением найденных результатов.

Потоковые сканеры, интеллектуальные программы для оптического распознавания текста позволяют решить эту задачу для документов, которые содержат только напечатанную текстовую информацию. После сканирования и оптического распознавания текста документ можно сохранить в одном из текстовых или векторных форматов. Программы семантического анализа в некоторых случаях могут выделять из текста заглавие, авторов и другую необходимую для описания документа информацию и затем передавать эту информацию для пополнения базы данных. В результате всех этих процессов может быть создан архив документов с возможностью поиска информации по электронным каталогам и по полным текстам.

Ситуация, однако, усложняется для научно-технических документов, где содержится большое количество формул, таблиц, иллюстраций и графиков. Оптическое распознавание для математических и химических формул не работает, при этом распознанный текст может содержать символы от неправильно распознанных формул. Процесс создания архива научно-технической документации возможен, если за единицу хранения в архиве принять пару документов - оригинальную страницу в графическом формате и соответствующий этой странице распознанный текст.

Разработанное компанией Controlling Chaos Technologies программное обеспечение позволяет решить проблемы, возникающие при обработке научно-технической документации. Инструментарий для создания электронных архивов состоит из двух программных продуктов — CCT Publisher и CCT DjVu Toolkit. CCT DjVu Toolkit — программный продукт, предназначенный для автоматической обработки отсканированных документов и преобразования их в многостраничный DjVu файл. При помощи CCT Publisher можно готовить издания материалов, подготовленных сразу в электронном виде и уже изданных на бумаге, а затем оцифрованных.

На первом этапе происходит сбор и обработка научно-технической документации. Далее вся документация проходит процесс преобразования. На следующем этапе создается единая информационная среда и готовится электронное издание с помощью программного обеспечения, параллельно разрабатывается пользовательский интерфейс. Программа CCT Publisher в комбинации с одним из вариантов защиты StarForce позволяет защитить издания от несанкционированного копирования.

Описанная технология позволяет обрабатывать архивы большого объема, создавать тематические и авторские каталоги, быстро находить нужную информацию. Использование формата DjVu позволяет объем информации в 50000 бумажных страниц при полноцветном сканировании с качеством 300 dpi поместить на 1 DVD диск. Средний размер одной страницы составляет 60 килобайт. Весь распознанный в автоматическом режиме текст подкладывается под графический образ страницы. Распознанный текст используется только для проведения полнотекстовой индексации и выполнения поисковых операций. Ввиду того, что текст в явном виде нигде не показывается конечному потребителю издания, появляется возможность не исправлять ошибки в распознанном тексте. Все ошибки, появляющиеся при распознавании формул, различных специальных символов, а также ошибки, возникающие при автоматической обработке сложной верстки, не мешают проводить полнотекстовую индексацию.