суббота, 30 марта 2019 г.

Электронный текст



eText (электронная книга)- специально отформатированный электронный документ, загружаемый на компьютеры или специализированные устройства (eBook), полноценно заменяющий полиграфическую книгу.


Подробнее

Форматы электронных книг

DjVu
Использует специальный алгоритм, позволяющий получать файлы меньшего размера при сжатии без потерь за счет технологии, разработанной специально для хранения оцифрованных документов рукописей, книг, журналов. Популярнейший формат книг в файлообменных сетях.
RTF
Формат, поддерживаемый большинством текстовых редакторов, созданный для документов в среде ОС Windows. обеспечивает возможность сохранения структуры текстовых документов, позволяет выделять их фрагменты (курсивом или жирным шрифтом, создавать колонки и т. п.). Книги в формате RTF доступны для скачивания во многих книгообменных сайтах.
HTML
Стандартный язык разметки документов во Всемирной паутине. Разметка позволяет вставку спецсимволов, изменение размера, типа, начертания шрифта, создание гиперссылок и таблиц, выравнивание текста. Электронные книги в формате HTML чаще всего выставляются в полнотекстовом виде на сайте, в этом случае в скачивании на компьютер нет необходимости.
OPF FlipBook
Открытый формат электронных книг – стандартная версия программы FlipAlbum создает альбомы-книги FlipBooks с расширением OPF (Open Electronic Book Package Format). Эти файлы могут быть просмотрены с помощью самой программы или бесплатной утилиты для работы с OPF-файлами.
CHM
Книга – файл формата .chm (HTMLHelp). Содержит в себе набор HTML-страниц , может также включать в себя содержание со ссылками на страницы, предметный указатель, а также базу для полнотекстового поиска по содержимому страниц. Используется для создания справки в ОС Windows и, по аналогии, для создания книг, с помощью специального программного обеспечения.
FB2
Открытый формат, основан на XML (текстовый формат для хранения структурированных данных, обмена информацией между программами, создания на его основе более специализированных языков разметки). XML позволяет легко создавать документы, готовые к непосредственному использованию и программной обработке (конвертации, хранению, управлению) в любой среде, поэтому на его основе создан формат FictionBook. Основное преимущество FictionBook(.fb2) – возможность автоматически создавать книги из файлов всех популярных текстовых форматов (*.txt, *.doc, *.rtf. *.html и пр.). FictionBook поддерживается большинством распространенных программ и устройств для чтения книг.
FB3
Разрабатывается для удовлетворения возросших требований к форматированию текста книг и возможностям их каталогизации. В основу fb3 положен стандарт Open Packaging Convention. Помимо этого в качестве картинок можно использовать SVG-файлы (и GIF-файлы).
TEX
TEX – система вёрстки, разработанная в целях создания компьютерной типографии. В неё входят средства для секционирования документов, для работы с перекрёстными ссылками и для набора сложных математических формул. Документы набираются на собственном языке разметки в виде файлов, содержащих информацию о форматировании текста или выводе изображений. Электронные книги обычно имеют расширение .tex, конвертируются специальной программой в файлы «.dvi», которые могут быть отображены на экране или напечатаны. DVI-книги можно специальными программами преобразовать в PostScript, PDF, или другой электронный формат.
PDF
Формат электронных документов, созданный фирмой Adobe Systems с использованием ряда возможностей языка PostScript. Обычно используется для книг с иллюстрациями (в т.ч. схемы и математические формулы). PDF – формат, позволяющий внедрять необходимые, векторные и растровые изображения, формы и мультимедиа-вставки.
LIT
Фирменный формат Microsoft (.lit) , достаточно распространенный, в том числе из-за поддержки производителя. Существует некоторое затруднение с прочтением, поскольку формат читается в основном с помощью Microsoft Reader, официального ПО. Microsoft LIT включает ряд функций, из-за которых его считают очень похожим на Adobe PDF: закладки, аннотации и масштабирование.
ExeBook
Книга в формате ExeBook – по сути, Win32-приложение, скомпилированное с помощью специального программного обеспечения. Основной особенностью книги в формате EXE является ее максимальная приближенность к бумажному аналогу.
RBS
RBS (Radix-Tools REBUS) – это защищенный формат, основанный на HTML и включающий в себя текстовый, графический, мультимедиа-контент и интерактивные составляющие. Использование в формате HTML-языка позволяет легко конвертировать файлы практически любого формата в RBS-вид с помощью специального ПО. В электронном виде в формате RBS может быть представлено множество типов бумажных изданий, как то – учебные и контрольные тесты, анкеты – результаты опросов, картографические документы, справочники, энциклопедические материалы и художественная литература.
PRC
Сжатый формат PRC – так называемый Palm-формат, использует механизм шифрования контента электронной книги, что обеспечивает защиту интеллектуальной собственности при ее продаже. Файлы с расширением PRC используются для электронных книг в формате Mobipocket Reader для чтения книг на кпк и телефонах .
ePUB
Формат, основанный на XML. Позволяет издателям производить и распространять цифровую публикацию в одном файле, обеспечивая совместимость между программным и аппаратным обеспечением, необходимым для воспроизведения незашифрованных цифровых книг и других публикаций с плавающей версткой».
MOBI (AZW)
Создан в 2000 году из формата PRC, основан на XML. специализированный формат Amazon, поддерживается Kindle.
KF8 (AZW3)
Kindle Format 8 (KF8,  AZW3) -  XML-формат от Amazon (заменит Mobi), основан на ePUB,  поддерживает HTML5, SVG, CSS3). 
TXT
Файлы формата TXT имеют наименьший вес, поэтому зачастую использовались в самом начале эры электронных интернет-библиотек, у посетителей которых была предельно низкая скорость скачивания, равно как и объемы жестких дисков, а также различных носителей. Для того, чтобы скачать крупное издание, создавались ZIP-архивы, объединяющие все главы книги. Основной плюс TXT – его совместимость со всеми устройствами и практически любым программным продуктом, Хотя данный формат и не поддерживает графику и сложное форматирование.



FictionBook

FictionBook – это xml-формат хранения книгразработанный Дмитрием Грибовым
FictionBook fb2 )– универсальный формат хранения электронной литературы (электронный текст в .fb2 автоматически, без потери качества можно переконвертировать во все другиеформаты электронных книг).

FictionBook содержит в себе всю необходимую информацию о книге:
  • структурированный текст,
  • иллюстрации,
  • информацию об авторе и издании.
На основе данных, хранящихся внутри файла FictionBook, легко можно построить хранилище книг любого масштаба.
FictionBook не содержит информацию о внешнем виде документа (это зависит от настроек программы-просмотрщика).

Более всего формат FictionBook подходит для художественной литературы.
FictionBook - набор жестких правил для создания электронных версий художественных книг, годных к прочтению на различных устройствах и легко управляемых в библиотеке.
Хорошей книгой считается валидная книга с грамотно выделенными сносками, стихами, эпиграфами, другим форматированием и имеющая полнокровный заголовок (имя переводчика, обложка, etc.).

07.12.2009 Дмитрий Грибов (технический директор «ЛитРес», разработчик формата FictionBook):
Формат FB2 стал популярен в первую очередь благодаря своей простоте. Это что-то типа AK47 – легко собрать, трудно сломать. Но минимализм превращается в недостаток, когда возникает потребность в работе со сложными документами. Поэтому сейчас мы разрабатываем новый формат FB3, включающий, помимо прочего, полноценную поддержку векторной графики и обширный набор средств форматирования текста. Также будет доработан блок метаинформации, в результате чего, например, можно будет указывать не только автора книги, но и иллюстратора и т.п. При этом FB3 будет по-прежнему технологичен, например будет доступно простое автоматическое преобразование FB3 в FB2, PDF или ePub.

Многие электронные библиотеки полностью перешли на формат fb2 (FictionBook) и не принимают книги, подготовленные в других форматах.
Однако, на страницах этих библиотек можно скачать одну и ту же книгу в виде файлов других распространённых форматов (plain text, RTF, HTML), полученных из FB2 путём автоматической конвертации.

Wiki2FB2 (http://alexcomputing.com/wiki2fb2-ru.html) - конвертер статей "Википедии" в FictionBook 2.0 для последующего чтения с экрана e-book? портативного компьютера, сотового телефона ит.д. Утилита позволяет упаковывать в один FB2-файл несколько энциклопедических материалов, автоматически вычищает ненужные данные и поддерживает работу с изображениями.



FictionBook и XML

FictionBook – это подмножество стандарта XML (eXtensible Markup Language).
Документ в формате FictionBook в обязательно сопровождается XML-схемой (XML Schema).
XML-схема – файл, содержащий все применяемые теги соответствующего формата и описывающие правила их применения.
В FictionBook – это файл FictionBookX.xsd, где X – номер версии, для которой создана схема.
Схема описывает такие параметры, как последовательность применения тегов, обязательность или необязательность применения, правила вложенности, то есть какие теги могут присуствовать внутри определенного тега, а какие нет. Именно эта схема применяется для валидации (проверки правильности подготовки) документа.
Подробное описание формата FictionBook здесь



SDK для FictionBook





FictionBook: Переводчикам

Wiki-сообщество формата FictionBook (http://fictionbook.org/) нуждается в помощи переводчиков.
Необходимо перевести на английский язык основные статьи и документы.

На сайте http://fictionbook.org/ создана глобальная категория Eng, в которую входит все, что будет переведено на английский.

Кто хочет помочь с переводом, просто найдите статьи в категории Надо перевести на английский или Надо перевести на русский и переводите, хоть по строчке в день - Вы сделаете полезное дело.
Статьи, требующие переводы уже размещены в соответствующих местах и их надо просто переводить нажав таб"править".
После полного окончания перевода следует убрать шаблон "Надо перевести ..."

Что-то можете?
Присоединяйтесь!
С наилучшими пожеланиями, kmp 



ePub

Международный форум цифровых издателей (International Digital Publishing Forumна основе xml (это zip-контейнер, содержащий гипермедийный контент в формате HTML/XHTML и xml-файлы с описаниямиразработал формат ePub (electronic publication), призванный стать отраслевым стандартом для eText.
Первоначальный вариант — Open eBook Publication Structure или «OEB» был задуман ещё в 1999 году, релиз ePub — 2007 год.
 ePub - XML-формат цифровых книг и публикаций с плавающей (резиновой) версткой, позволяющий производить и распространять цифровую публикацию в одном файле, обеспечивая совместимость между программным и аппаратным обеспечением, необходимым для воспроизведения незашифрованных цифровых публикаций».
ePub составлен из трех открытых стандартов:
  • Open Publication Structure (OPS),
  • Open Packaging Format (OPF),
  • Open Container Format (OCF).
ePub отличается поддержкой огромного количества шрифтов и гарнитур, чего нельзя сказать о fb2.
07.12.2009 Дмитрий Грибов (технический директор «ЛитРес», разработчик формата FictionBook):
  • Сравнивать FB2 и набирающий популярность ePub довольно сложно: у этих форматов слишком мало общего.
  • За форматом ePub стоит Adobe, изначально его «продвигали» совместно с Microsoft. FB2 был создан группой энтузиастов и популярен стал сам собой, никто его особенно не лоббировал.
  • С технической точки зрения они также сильно различаются. Имея текст в FB2, вы сможете без потерь сконвертировать его в ePub и еще в пару десятков других форматов, начиная от TXT и заканчивая PDF. С ePub-книгой ничего подобного не получится.
Структура EPUB-контейнера:

ePUB v3 стал стандартом для обмена и дистрибуции электронных публикацийподдерживается на большинстве мобильных платформ, лег в основу ряда других подобных форматов (в т.ч. ibooks компании Apple).
ePUB v3 популярен у разработчикев eLearning систем (LMS), т.к.
  • поддерживает мультимедийные объекты (HTML5, CSS, JavaScript, SVG, аудио, видео, растровые изображения3D объекты), что позволяет реализовать любой тип электронных образовательных ресурсов,
  • стандарт xAPI (aka Tin Can) позволяет отправлять данные о действиях обучаемого прямо из ePUB без непосредственного участия LMS.







ePub и  XML

Zip-архив контейнера ePub содержит описание издания в xml, тексты в форматах xHTML, html или pdf  (каждая глава отдельный файл), в папках — графика, включая векторную (SVG), и встроенные шрифты (иногда несколько сотен), таблицы стилей и пр.

Файл .epub содержит как минимум следующие каталоги и файлы:
  • mimetype — сообщает читалке/операционной системе, что находится внутри;
  • META-INF каталог — этот каталог содержит, как минимум, файл container.xml, который покажет программе для чтения, где в контейнере найти книгу;
  • OEBPS каталог — рекомендованное размещение содержания книги.
Все названия файлов чувствительны к регистру.
Если к файлу «Chapter1.xhtml», обратится «chapter1.xhtml» в файле .OPF file или .NCX, то книга не будет отображаться правильно.

mimetype
Этот файл — просто ASCII текст, содержащий строку:
"application/epub+zip"
Операционная система, увидев этот файл, понимает взамен чего используется расширение файла .epub. Этот файл должен быть первым в zip-файле и не должен быть сжат.

META-INF каталог
Он содержит файл container.xml, который указывает местоположение файла Content.opf. Этот каталог один и тот же для всех e-book.

OEBPS каталог включает файлы:

images Folder
Все картинки книги должны быть здесь
Content.opf
Выдаёт список всех файлов в .epub контейнере, описывая их порядок, и хранит метаданные (автор, жанр, издатель, etc.):
  • dc:title — название книги;
  • dc:language — идентификация языка, используемого в книге, согласно RFC 3066;
  • dc:identifier — уникальный идентификатор книги. Спецификация не даёт чётких рекомендаций, поэтому туда можно лепить что угодно хоть ISBN.
manifest
Перечень файлов в контейнере .epub и их типов. Каждому пункту назначается свой ID, используемый в спин-секции content.opf.
Спин-секция обозначает порядок чтения содержания.
toc.ncx
Таблица содержания — оглавление. Этот файл управляет отображением левой панели содержания в Digital Editions
page-template.xpgt
Этот файл не является частью спецификации IDPF, но Adobe Digital Editions использует его для форматирования. Остальные ereader его игнорируют
Content .xhtml
Файлы содержания — XML 1.1 документы. Возможно хранение всей книги в одном файле с закладками для каждой части или по одной части в отдельном, якобы это лучше для большинства читалок

Здесь подробнее о спецификациях ePubhttp://www.openebook.org/specs.htm




Конвертация и редактирование eText


Конвертация на компьютере
  • Calibre - бесплатная  кроссплатформенная программа с открытым кодом , имеет больше всего возможностей для конвертирования, есть поддержка русского языка. Преображает форматы: cbz, cbr, cbc, epub, fb2, html, lit, lrf, mobi, odt, pdf, prc**, pdb, pml, rb, rtf, tcr, txt в epub, fb2, oeb, lit, lrf, mobi, pdb, pml, rb, pdf, tcr, txt.
  • EPUBGen (http://code.google.com/p/epub-tools/) - простая утилита, которая конвертирует fb2, doc, rtfв epub. В ее окно нужно перетащить файлы, и если они не большого размера, то конвертация проходит мгновенно.
  • Sigil (http://code.google.com/p/sigil/) -  бесплатный  полноценный текстовый редактор, назначение которого — редактирование epub.

Сетевые сервисы конвертации:
  • http://convertfileonline.com/ru/  (конвертирует из многих во многие)
  • http://www.2epub.com  (конвертирует из из doc, epub, fb2, html, lit, lrf, mobi, odt, pdb, pdf, prc, rtf, txt в epub, fb2, lit, lrf или mobi)
Нужно загрузить исходные файлы, подождать когда закончится конвертация и сохранить получившийся файл себе.


Редактирование:
Fiction Book Editor (FBE) - редактор текстов fb2 c огромным функционалом и дополнительными скриптами для качественного редактирования книги или создания новой.

Adobe InDesign (редактор с опцией экспорта документа в ePub).


0 коммент.:

Отправить комментарий