Цифровой документооборот: DjVu против PDF

Большинство компаний рано или поздно сталкивается с необходимостью введения электронного документооборота. При этом одним из наиболее важных вопросов становится выбор формата, в котором документы будут создаваться, храниться и передаваться в другие фирмы или удаленные подразделения. Сегодня мы сравним два таких формата: PDF и DjVu.

Пара слов о DjVu

История DjVu началась в 1996 году. Именно тогда одно из подразделений компании AT&T начало работу над созданием нового формата. Главная задача, которая была поставлена перед разработчиками – создать технологию хранения и пересылки отсканированных документов, то есть, фактически, документов в электронном виде. Однако в то время мало кто мог предположить, что в будущем компании будут обмениваться через глобальную сеть договорами и актами. Поэтому под документами понимались отсканированные журналы, газеты, книги, техническая документация. В 1998 году появились первые плагины для просмотра DjVu-документов с помощью браузеров.

В 1999 году была опубликована новая версия формата DjVu. В ней была реализована функция объединения нескольких изображений в один файл с возможностью перелистывания страниц, а также нанесения так называемых “горячих точек”, фактически, являющихся гиперссылками. В следующем году появилась третья версия формата DjVu. Примерно тогда же компания AT&T продала свою разработку фирме LizardTech, которая начала использовать ее в своих коммерческих продуктах. При этом сам формат является открытым. А поэтому сегодня существует немало бесплатного программного обеспечения для работы с ним.

Сам по себе формат DjVu является очень интересным решением, представляющим собой технологию сжатия изображения с потерями. Суть ее заключается в разделении документа на три слоя: передний план, задний план и черно-белую маску. Каждый из них обрабатывается по-своему. При этом используется целый ряд различных технологий: алгоритм отделения текста от фона на отсканированном изображении, вейвлетный алгоритм сжатия фона IW44, алгоритм сжатия черно-белых изображений JB2, универсальный алгоритм сжатия ZP, алгоритм распаковки по запросу. Такой подход позволяет добиться максимальной степени сжатия при минимальных искажениях. Одна отсканированная из книги страница имеет в формате DjVu объем всего 10-25 кбайт.

Пара слов о PDF

Впервые о формате PDF (Portable Document Format) общественность услышала в 1991 году. Именно тогда компания Adobe Systems анонсировала его как новую технологию представления в электронном виде любой полиграфической продукции. Новинка получилась очень удачной. Уже в следующем году формат PDF получил приз на престижной международной выставке Comdex Fall. Компания Adobe Systems очень большое внимание уделяла развитию своей разработки. В 1994 году появилась версия 1.1 формата PDF, в которой была реализована поддержка внешних ссылок, машинно-независимого цвета, потоков статей, а также комментарии и некоторые функции, касающиеся безопасности. Следующая версия рассматриваемого формата появилась в 1996 году. В ней была реализована поддержка спецификации OPI 1.3 и цветового пространства CMYK.

Формат PDF 1.3 был выпущен в 1999 году. Он отличался от своего предшественника поддержкой 2-байтовых CID шрифтов, спецификации OPI 2.0, наличием технологий сглаживания теней и градиентов. Следующая версия рассматриваемого формата была опубликована в 2001 году. В ней появились такие важные функции, как поддержка прозрачности, 128-битное шифрование, возможность установки качества печати. Ну и, наконец, последней на сегодняшний день является версия 1.7 формата PDF, которая появилась в 2006 году.

Главным отличием формата PDF является его широкое распространение. Сегодня именно в этом формате поставляются многие руководства, технические документации, периодическая пресса и другие виды документов. И практически на каждом компьютере установлено программное обеспечение для просмотра документов в формате PDF.

Форматы DjVu и PDF: разные области применения

Если говорить об использовании форматов DjVu и PDF для организации электронного документооборота, то стоит обратить внимание на следующие особенности каждого из них. Главное достоинство формата DjVu – очень маленький размер файлов. Особенно он хорош при работе с такими документами, в которых много нераспознаваемых элементов: картинок, схем и формул. Кроме того, DjVu прекрасно подходит в случаях, когда необходимо передать не только сам текст, но и его оформление: цвет и фактуру носителя, существующие на нем дефекты и следы, которые оставили другие предметы. Таким образом, DjVu прекрасно подходит для хранения технической документации, например, инструкций и руководств, а также исторических и просто редких документов. Сегодня в глобальной сети существуют обширные библиотеки всевозможной литературы, которая записана в этом формате.

Однако обратите внимание, что каждый раз, говоря о файлах в формате DjVu, мы упоминаем о сканировании реально существующих на бумаге или другом носителе документах. И это неспроста. Данный формат изначально создавался для хранения именно отсканированных копий документов. И сегодня практически нет инструментов, да и необходимости, создавать DjVu-файлы как-то иначе.

Недостатков, препятствующих использованию формата DjVu в электронном документообороте, немало. Во-первых, в нем применяется сжатие данных с потерями. А это не очень хорошо, когда речь идет о договорах, актах, и других имеющих юридическую силу документах. Во-вторых, относительно малое распространение формата DjVu не позволяет компаниям свободно использовать его для обмена информацией со своими партнерами или клиентами. На подавляющем большинстве как корпоративных, так и домашних компьютеров просто-напросто нет программного обеспечения для просмотра таких электронных документов. В-третьих, в рассматриваемом формате полностью отсутствуют хоть какие-то средства для обеспечения безопасности и конфиденциальности документов.

Что касается формата PDF, то он больше подходит для организации электронного документооборота. Самое главное – это его широкое распространение. Как мы уже говорили, практически на каждом ПК вне зависимости от используемой на нем операционной системы установлено программное обеспечение, позволяющее не только прочитать PDF-документ, но и “материализовать” его на любом печатающем устройств. Причем именно в том виде, в котором его создал владелец. Таким образом, устраняется проблема совместимости форматов – одна из самых серьезных проблем в процессе организации электронного документооборота.

Вторым преимуществом формата PDF является встроенная защита от несанкционированного доступа. С ее помощью пользователь может обезопасить любой свой документ от просмотра или использования посторонними лицами. В качестве защиты применяется криптографическая технология, многократно протестированная как разработчиками программного обеспечения, так и экспертами в области информационной безопасности.

Ну и, наконец, третьим преимуществом PDF является его стандартизация организацией ISO (International Organization for Standardization). На данный момент этот формат уже имеет статус стандарта для хранения архивных документов и для обмена компаниями информацией в электронном виде. И это только начало. Разработчики формата собираются передать его спецификацию общественной организации Association for Information and Image Management. В этом случае существует очень большая вероятность того, что PDF станет международным стандартом для организации электронного документооборота.

Какой же вывод можно сделать из всего вышесказанного? Оказывается, форматы DjVu и PDF нельзя считать соперниками. Они предназначены для решения различных задач, а поэтому не соперничают, а дополняют друг друга. В качестве основы системы электронного документооборота лучше брать, конечно же, формат PDF, который, де-факто, стал общемировым стандартом. Стоит отметить, что в некоторых компаниях уже существуют цифровые DjVu-архивы технической и другой документации, созданные путем сканирования бумажных документов. Однако это не является основанием для выбора именно этого формата. Лучше построить современную, реально работающую систему электронного документооборота, а уже существующие DjVu-файлы просто конвертировать в формат PDF.

Конвертируем документы из DjVu в PDF

Для реализации системы электронного документооборота используется обычное для работы с файлами выбранного формата программное обеспечение, в том числе, и распространяемое на бесплатной основе. Однако есть одна задача, с которой такое ПО справиться не сможет. Речь идет о конвертировании документов из формата DjVu в формат PDF. Для решения данной задачи приходится использовать дополнительное программное обеспечение, например, Universal Document Converter. Это универсальный продукт для конвертирования документов в различные форматы, который прекрасно подходит в нашем случае.

По принципу работы программа Universal Document Converter является виртуальным принтером. В процессе установки она создает в операционной системе дополнительное печатающее устройство, доступное в любом программном обеспечении. Печатая на этом принтере, на выходе пользователь получает файл нужного формата. Такой подход наиболее удобен на практике. Во-первых, он позволяет осуществлять процесс конвертирования быстро, практически без предварительной работы. Во-вторых, он настолько прост, что не требует обучения конечных пользователей.

Алгоритм конвертирования файла формата DjVu в PDF-документ с помощью программы Universal Document Converter выглядит следующим образом. Сначала пользователь должен открыть нужный файл DjVu. Сделать это можно в программе Internet Explorer с предварительно установленным специальным плагином. После этого ему остается только нажать на кнопку “Печать” и выбрать в качестве принтера Universal Document Converter.

Marc Dubray

Honeywell International, Inc.

«Универсальный конвертер документов – это лучшая программа для конвертирования документов из тех, что я использовал. Её очень просто установить и легко использовать. Экспорт документов в TIFF происходит без потери качества. Это очень важно для тех, кто занимается подготовкой оригинал-макетов для отправки в типографию.»