Отправляет email-рассылки с помощью сервиса Sendsay

[Саха Википедия] Методическое пособие ЮНЕСКО: Как обеспечить присутствие языка в киберпространстве. Часть 2

Сегодня продолжаю публиковать методичку "Как обеспечить присутствие языка в киберпростанстве
(в сокращенном варианте):

2.2. Наборы знаков и шрифты
Знаком называют любой значимый, отдельный символ, входящий в систему письма...

2.2.1. Наборы знаков
Установив орфографию языка, можно составить полный список знаков, необходимых
для письма в рамках правил соответствующей орфографии....

2.2.2. Шрифты
Шрифт- это комплект знаков письма, выполненных в едином художественном стиле.
Современные компьютерные шрифты могут содержать графические данные большого числа
знаков различных письменностей. Помимо этого они также могут включать программный
код, который корректирует форму знаков при выводе на экран монитора и помогает
соблюдать типографские правила использования различных знаков в наборе. Разработка
профессиональных шрифтов требует особых знаний и больших технических навыков.
Поэтому шрифты являются коммерческой продукцией,
защищенной патентами и торговыми марками, такими как, например, Times New Roman,
Саrатоnd, Arial и т. д. Бесплатные шрифты, находящиеся в свободном доступе, редко
соответствуют необходимым техническим требованиям, однако и среди них иногда
встречаются неплохие образцы. В случае, когда возникает потребность в специальных
шрифтах для какого-либо языка, если таковые не удается найти среди существующих,
необходимо обратиться к специалисту или в шрифтовую фирму, которые могут спроектировать
и разработать шрифт на заказ. При этом пользователь получи
гарантию, что его шрифт соответствует международным нормам.

2.3. Кодирование символов
Важно понимать, как символы кодируются в шрифте, хотя бы для того, чтобы задавать
правильные вопросы специалистам, когда вам понадобится создать шрифт со специфическими
знаками конкретного языка.
Большинство африканских языков, получивших письменность недавно, используют латинский
алфавит, дополненный большим количеством знаков, взятых из числа фонетических,
утвержденных Международной фонетической ассоциацией и адаптированных Международным
африканским институтом. В качестве примера ограничимся этим случаем, не заостряя
внимания на других системах письма.

2.3.1. Однобайтная кодировка
Электронные компоненты компьютеров, используемые для хранения и передачи данных,
могут иметь два устойчивых состояния, поэтому все вычисления производятся в двоичной
системе. Для простаты можно представить себе, что отсутствие напряжения в некоторой
точке А означает 0, а наличие - 1. То есть, точку А можно воспринимать как минимальную
единицу хранения информации, которая может иметь только два значения: 0 или 1.
Эта единица обозначается бинарной (двоичной) цифрой, называемой бит. Если с помощью
одного бита можно отобразить два значения (0
,1), то с двумя битами можно отобразить 4 значения (00, 01, 10, 11), а с тремя
битами получится уже восемь значений (000, 001, 010, 011, 100, 101, 110, 111).
То есть, образуется последовательность степеней числа 2. В следующей таблице
показано количество значений, которые можно получить в зависимости от количества
используемых битов:

Количество битов 1 2 3 4 5 6 7 8
Количество значений 2 4 8 16 32 64 128 256
Если мы условимся, что каждая буква имеет значение из 3 битов, та мы получим
следующие значения:

000 = а 001 = b 010 = с 011 = d 100 = е 110 = f 111 = g

Так мы можем кодировать все буквы алфавита. На самом деле никто никогда не кодировал
буквы 3 битами. Вначале кодировали 7, а потом 8 битами. Буквы, кодированные 7
битами, нумеруются от О до 127 и представляют собой набор знаков, называемый
АSСII. Этот набор содержит 26 букв базового латинского алфавита и ни одной буквы
с диакритическими знаками. Один добавочный бит позволил определить 128 дополнительных
символов, пронумерованных от 129 до 255. Это расширение дало возможность добавить
пунктруационные знаки, необходимые для соблюдения базовых прав
ил типографики, знаки специального назначения типа знаков валют, градуса, копирайта
и т. п. и дополнительные буквы наиболее распространенных языков, использующих
алфавитное письмо. Полученные таким образом наборы знаков содержат по 256 символов,
кодированных от 0 до 255. Эти наборы были зафиксированы группой стандартов 150-8859-n
(где n указывает номер отдельного набора). Группа из 8 битов называется байтом,
поэтому такие наборы или, точнее сказать, кодировки стали называть однобайтными.
Кодировка шрифта устанавливает соответствие между кодами, представляющими знаки
шрифта в компьютере, и соответствующими изображениями букв, появляющимися на
экране (называемые глифами). Так, в шрифте Times New Roman коду 097 (строчная
латинская <<а>>) может соответствовать один из следующих вариантов: а, а, а,
а в зависимости от выбранного начертания. Эти варианты буквы <<а>> представляют
четыре базовых начертания шрифта Times New Roman, все они, несмотря на различия
в насыщенности и рисунке, имеют общие черты, свойственные данному шрифту, который
характ
еризуется определенным контрастом, наклоном оси овалов и наличием специфических
деталей рисунка. В частности, характерной чертой этого шрифта является наличие
небольших тонких перпендикулярных штрихов на концах основных штрихов, называемых
<<засечками>>. Для примера можно сравнить этот шрифт со шрифтом Arial, буквы
которого засечек не имеют.

2.3.2. Ограничения однобайтной кодировки
Ввиду быстрого нарастания мощности компьютеров, увеличения числа международных
связей и роста спроса на издания возможностей однобайтной кодировки скоро оказалось
недостаточно. Одной из наиболее неудобных сторон применения этой кодировки является
необходимость использования отдельного набора знаков для каждой группы близких
языков, требующих специальных символов. Так, в наборе IS0-8859-1 (также называемый
Latin-1) коду 198 соответствует знак <<Заглавная латинская ж>>, то есть лигатура
<</E=>>. Предположим, что эта буква используется каким-то
ункционально ограниченным языком. Альтернативой этому знаку может выступать
буква, не входящая в стандартный набор, и обозначающая <<е открытое>>, то есть
<<г>>. Если последняя, по мнению автора, больше соответствует языку, он при помощи
существующего программного обеспечения имеет возможность отредактировать стандартный
шрифт, заменив знак <</E=>> на знак <<Е>>, и пользоваться им для набора текста.
В дальнейшем, чтобы прочесть такой текст на другом компьютере, на нем необходимо
установить такой модифицированный шрифт. Это приводит к опред
ленным неудобствам. Качественный шрифт, как правило, является коммерческим продуктом,
который распространяется не бесплатно, и обычному пользователю невыгодно тратиться
на новый шрифт всякий раз, когда ему необходимо поменять язык. Даже если в его
распоряжении находится бесплатный шрифт, при любой пересылке документа (коллеге,
издателю и т. д.) необходимо обязательное использование этого специального шрифта,
который после использования попросту никому не нужен. Эти недостатки представляют
лишь небольшую часть всех неприятностей,
связанных с использованием специальных шрифтов, которые, с другой стороны, вполне
удобны, когда они используются локально и тексты не требуется передавать на сторону.
В любом случае, при максимальном количестве в 256 возможных значений одного байта
никак недостаточно для кодирования 2000основных символов китайской письменности,
как, впрочем, японской и корейской.

2.3.3. Кодирование несколькими байтами
Для преодоления ограничений кодирования одним байтом Концорциум Unicode и Всемирная
организация стандартизации (ISO) ввели новый стандарт ISO/IEC-10646, согласно
которому кодирование производится с использованием двух байтов... Теперь появилась
возможность размещения знаков всех систем мира!... Но для латинских символов,
довольствовашихся однобйтной кодировкой, кодирование двумя байтами - вещь сложная...
и неудобная. Поэтому,... был предложен формат кодирования UTF-8.

Комментарий: Этот отрывок я сам не очень понял))), даже предварительная "накачка"
теорией , когда-то проведенная Бэрт Дьикти, не помогла)))
Но надеюсь, вы, друзья, почерпнули что-то полезное)))

--
С искренним уважением,
halan

Саха Википедия - http://incubator.wikimedia.org/wiki/Wp/sah

Ответить   Thu, 20 Dec 2007 02:52:32 +0300 (#712141)

 

Ответы:

Zitiere halan (20.12.2007, 03:52:32):

киберпростанстве

Пишите, пожалуйста, "интернет" или "Сеть". Что такое киберпространство, мне,
например, неизвестно.

К сожалению, я ничего не понял из *всего* представленного текста.

Все определения либо неверны, либо неточны, либо неполны.

Самое главное: непонятно, какие практически вопросы Вы намерены разрешить с помощью
этой методички, и на какую аудиторию она рассчитана.

В порядке обмена опытом: ниже даю ссылки на две моих аналитических записки (кое-в
чём, правда, утратившие уже актуальность - в частности, в связи с очередным расширением
кириллического ряда в стандартных шрифтах MS Windows Vista):

Сахарных Д.М. Использование удмуртского языка при наборе текстов на платформе
MS Windows; аналитическая записка (~138 кбайт)
http://udmurt.info/texts/udmlang-pc.pdf

Сахарных Д.М. Удмуртские компьютерные шрифты: проблемы функционирования и разработки;
аналитическая записка (~105 кбайт)
http://udmurt.info/texts/udmfont-pc.pdf

Denis

Ответить   Thu, 20 Dec 2007 13:31:49 +0400 (#712250)