Форматы представления текстовых блоков электронного издания
Еще несколько лет тому назад ответ на поставленный в заголовке данного параграфа вопрос был предельно прост: текстовые блоки должны быть в
гипертекстовом (HTML) формате или же в формате PDF, так как только эти форматы поддерживали возможность включения в электронное издание мультимедийных компонентов. В настоящее время практически все верстальные пакеты поддерживают не только преобразование подготовленного издания в формат РОР (или HTML), ной подключение к изданию мультимедиа-компонентов. В частности, в программном пакете PageMaker фирмы Adobe предусмотрена в секции меню «Сервис» команда «Дополнения /QuickTime Media» (рис. 3.1), которая обеспечивает подключение к электронному документу объекта в универсальном формате QuickTime, который позволяет работать с любой времязависимой информацией, начиная от аудиоданных и кончая фильмами с несколькими видео-и аудиодорожками.В широко распространенном в нашей стране текстовом редакторе Microsoft Word, начиная с версии 1997 г., предусмотрена возможность включения в состав документа не только анимации в формате GIF, но также и видеофильма в формате QuickTime, видеоклипа в формате AVI, клипа мультимедиа. На рис. 3.2
показано диалоговое окно для команды «Вставка/Объект», которая иллюстрирует сделанное утверждение. Кроме того, принятый в этой версии редактора формат DOC стал в полной мере гипертекстовым, так как в нем появилась возможность включать в документ гипертекстовые ссылки как внутренние, для чего в документе делаются специальные закладки, так и внешние - по URL-адресу любого другого документа. В редакторе добавлена также возможность преобразования исходного документа в формат HTML, а также создания специальных HTML-форм. Часть этих возможностей представлена и усовершенствована в новой версии редактора - MS Word 2000.Таким образом, наряду с форматом HTML и PDF (последний, строго говоря, хранит текст в графическом формате), текстовые блоки электронных изданий могут быть представлены в
форматах DOC (MS Word), P65 (Adobe PageMaker) и многих др.В том случае, когда электронное издание не содержит мультимедиа-компонентов, то оно может храниться в формате любого текстового редактора или верстального пакета; единственное дополнительное требование к текстовому редактору состоит в том, что он должен поддерживать графические форматы рисунков, если они включены в текст издания.
Для чисто текстовых изданий ограничений еще меньше. Их можно хранить и распространять в любом текстовом формате, используемом в современных персональных компьютерах. В частности, может использоваться форматТХТ (в том числе «простой текст» или plain text), гораздо более экономичный, чем формат DOC. Для кодирования любого символа такого текста используется всего один байт. Пример такой кодировки представляет American Standart Code for Information Interchange (ASCII) - Американский стандартный код для обмена информацией. Для языков на основе латиницы и кириллицы такое кодирование вполне удовлетворительно.
Однако для некоторых восточных языков, например китайского или японского, этот подход неприменим, так как разнообразие символов в этих языках многократно превышает 256 - предельное значение этого параметра в ASCII-стандарте. В последние годы все более прочные позиции приобретает стандарт Unicode, или ISO 10646, т. е. стандарт под номером 10646 Международной организации по стандартизации (International Organization for Standartization). В этом стандарте каждый символ кодируется уже 2 байтами, т. е. предельное разнообразие символов достигает значения 65536. Этот стандарт часто называют стандартом многоязыковой поддержки, так как он позволяет кодировать символы государственных языков всех стран нашей планеты.
Однако в ТХТ-формате электронное издание не удовлетворяет даже самым скромным эстетическим запросам, так как в нем нет возможности использования не только графики, но даже шрифтов различного начертания, заголовков и подзаголовков, примечаний и других элементов, которые в совокупности называют «разметкой текста» (markup).
Из языков разметки текста помимо HTML, рассмотренного в предыдущей главе, наибольшее распространение получили:
TROFF, применяющийся при оформлении документации в рамках операционной системы UNIX и различных ее версий, включая LINUX;
ТЕХ, который широко используется для подготовки изданий с большим количеством математических формул;
SGML (Standart Generic Markup Language).
Исходная программа форматирования электронных документов в системе UNIX называлась ROFF (от Run OFF - тиражирование). TROFF означает Typesetting ROFF, т. е. форматирование текста для принтеров с высоким разрешением и фотонаборных устройств. Хотя область распространения этого языка и поддерживающих его программ постепенно сужается, в США он продолжает использоваться для создания электронных отчетов, которые могут одинаково успешно выводится на терминалах с низким разрешением и распечатываться с полиграфическим качеством.
Система верстки и язык ТЕХ был разработан хорошо известным среди программистов и математиков профессором Дональдом Кнутом для подготовки книг и пособий по математическим дисциплинам. ТЕХ работает на различных аппаратных и программных платформах. Его можно отыскать в сети Интернети бесплатно перенести паевой компьютер. Имеются и коммерческие версии этого продукта, в частности для платформы Macintosh фирмы Apple. Отметим, что помимо математических книг на этом языке издаются различные академические журналы, в том числе и в нашей стране.
Язык SGML реализует принцип логической разметки текста, который позволяет разграничить содержимое издания и его электронное представление. Именно этим принципом руководствовались специалисты фирмы
IBM, создавшие этот язык, который с 1986 г. получил статус международного стандарта. Кстати, HTML был создан именно на основе SGML. Основное достоинство языка SGML состоит в его универсальности независимости от программных средств для его интерпретации. Этот формат может быть конвертирован в форматы TROFF или ТЕХ. Язык изначально создан для производственных нужд, связанных с длительным хранением электронных документов большого объема, таких как описания крупных проектов или их документация.
Большинство из перечисленных текстовых форматов можно встретить в многочисленных «Электронных библиотеках», представленных в сети Интернет, о чем подробнее будет сказано в главе 8. Для ускорения загрузки таких изданий на компьютер пользователя они нередко представлены в архивированном виде, для чего чаще всего используются программы-архиваторы ARJ, ZIP и RAR, работающие в DOS'e, и WINZIP и WINRAR, предназначенные для работы в оболочке Windows.
Специальные языки разметки страниц в будущем будут активно развиваться. Одна из причин этого связана с автоматизацией извлечения информации из подготовленных электронных изданий. Такая операция обязательно производится для облегчения поиска информации, в частности, в сети Интернет. Для изданий, в производстве которых использованы принципы логической разметки и языки разметки страниц, многократно повышается эффективность поиска ключевых слов и выражений, адекватно отражающих содержание этих изданий.
3.3.
Содержание раздела