Отправляет email-рассылки с помощью сервиса Sendsay
Пожалуйста, ответьте на вопрос нашей анкеты:
Кем Вы работаете?

Автозамена символов

Вот ещё мысли вслух. Зачем заменять знак номера на No (две буквы), а
кавычки-ёлочки -- на два знака "<" или ">"? Это ведь всё из ASCII и
везде нормально отобразится. Был бы юникод -- да, стоило бы
подстраховаться, а так-то зачем? Первое замечено в тексте дайджеста
выпуска, второе -- прямо здесь, в письмах в листе. Подозреваю, что это
лишь часть того, что проходит автозамену. Слава богу в выпусках
рассылок этого нет (вроде бы).

Ответить   Fri, 30 Jul 2010 16:30:59 +0400 (#1154051)

 

Ответы:

Здравствуйте, Ерёмин.

Вы писали 30 июля 2010 г., 16:30:59:

В UTF-8 таких символов нет.

Ответить   Andrey Yakushev Sat, 31 Jul 2010 09:00:11 +0400 (#1155980)

 

Hello, Andrey,

On 31 июля 2010 г. you wrote:

U+00AB, U+00BB.

Номера -- да, его нет, но тогда логичнее заменять на #.

Ответить   Mon, 2 Aug 2010 13:42:07 +0400 (#1156034)

 

Я даже вам больше скажу - в UTF-8 вообще нет символов
Ни одного. Вообще. И не было.

Потому что UTF-8 не набор символов а способ кодирования
двух-байтного набора символом Unicode в 1-2 байта :)

А вот в Unicode и знак номера (No) есть в
наборе "Letterlike Symbols" c кодом 2116
и кавычки-ёлочки в "C1 Controls and Latin-1 Supplement"
с кодами 00AB и 00BB.

Ответить   Mon, 2 Aug 2010 14:05:09 +0400 (#1156037)

 

Здравствуйте, Павел.

Вы писали 2 августа 2010 г., 14:05:09:

Ради бога простите! Я имел в виду КОИ8! Ошибся! :(

Ответить   Andrey Yakushev Mon, 2 Aug 2010 14:50:40 +0400 (#1156956)

 

Да я и не обижался :)
Тем боле прощать ради некой абстрактой сущности "Бог" .... :)

И да вы правы - к КОИ-8 их нет как бы не мечтал об этом
зачинатель темы :)

Ответить   Tue, 3 Aug 2010 12:22:00 +0400 (#1157101)

 

а ASCII нет ни знака номера ни кавычек-ёлочек вообще-то

а вот в юникоде они как раз есть :)

Ответить   Mon, 2 Aug 2010 13:52:45 +0400 (#1156036)

 

Здравствуйте, Павел.

Вы писали 2 августа 2010 г., 13:52:45:

&#171; - левые ёлочки.
&#187; - правые ёлочки

Ответить   Andrey Yakushev Mon, 2 Aug 2010 14:59:50 +0400 (#1156957)

 

То что вы написали

а - не имеет отношения к ASCII ибо написали вы entity из HTML

б - entity записаные кодами - это кода из ISO-8859-1/Latin-1
http://www.w3.org/TR/html401/sgml/entities.html

в - знак номера и ёлочки могут быть в _расширеном_ ASCII
про который ни кто и незаикался (и который
так и называется Extended ASCII а не просто ASCII)
и которого поверьте существует несколько вариантов :)

Ответить   Tue, 3 Aug 2010 12:20:20 +0400 (#1157100)

 

Hello, Павел,

On 2 августа 2010 г. you wrote:

В стандартной -- нет, а в расширенной (которая до 255 и которая везде
используется) -- есть. Или я письма в юникоде оправляю, по-вашему?
Ну в общем вновь разговор как со стеной. Что-то этот лист всё больше
стал походить на отписки.

Ответить   Mon, 2 Aug 2010 14:21:36 +0400 (#1156959)

 

В расширеной - да. Но вы написали просто "в ASCII"
А телепаты по такой жаре в отпуске знаете ли.
Да и какой отношение расширеное ASCII имеет к России ?

А "везде используется" это где ?
У нас ? У нас в основновном CP-1251
В европе ? У них Latin-*/ISO-8859-*
У америках ? У них может быть да.
Но они скорее всего дружно мигрировали на UTF-7/8
ибо они же его под себя и придумали - он побайтно
совпадает с их ASCII и им так удобнее - старый документ
в ASCII автоматически валиден в UTF
Правда европеёцев обломали с их некоторыми специфическими
символами французкого, немецкого и прочих.

Письма вы отправляете вообще-то в КОИ-8, что следует из заголовков
письма вашего ответа.

А в КОИ-8-r (RFC1489) тоже ни знака номера ни ёлочек нет.

Они есть в СР-1251

Попробуйте верно формулировать.
Вот например были недавно у человека проблемы с выпуском по-рассписанию - ему
лист помог. Правда он не путал ничего.

Так что то ,что именно вы не получили ответа которого очень хотели
или согласия с вашими доводами ещё ни очём не говорит.

Кроме того что вы на это явно обиделись :)

Ответить   Tue, 3 Aug 2010 12:13:34 +0400 (#1157098)

 

Hello, Павел,

On 3 августа 2010 г. you wrote:

В кои было единственное письмо :-) И всё из-за новой версии Бата.
Остальные в 1251.

Этот ужас вообще зря придумали -- попытка выпендриться перед другими,
но сейчас не об этом :-)
В таком случае, что увидят те, кто получает в кои, если символы не
трогать, а оставить как есть?

ему

Угу. Ну, скажем так, Subscribe -- первый сайт, где я увидел такую
замену :-) Больше нигде не видел, честно-честно :-) Откройте тайну,
что там ещё заменяется и на что? Вся расширенная аски заменяется на
похожие символы? :-)

Ответить   Tue, 3 Aug 2010 14:16:17 +0400 (#1157374)

 

А рубашку на груди рвали что в ASCII :)

Как раз таки это они нормально придумали
На тот момент не было реально ни одно стандарта на кирилицу.
Потом ещё буржуины с большого ума придумали мёртво рождённый ISO-8859-5
Мелкомягкие взяв массой расплодили cp-1251

А КОИ-8 как раз таки стандартизировали те кто реально занимался
первыми сетями в СССР

По части всяких красивых символов он конечно имеет меньше чем винда
но у него есть одно специальное свойство которое на тот момент было
очень важно - если текст пострадает при передаче и у байтов занулится
старший бит то текст останется читаем - русские буквы станут латинскими
(правда с заменой регистра) но прочитать "по латински" текст вы
сможете.

Это сейчас выгляд ужасом, то тогда семибитные пути и протоколы передачи данных
были во весь рост (привет всё от тех же пиндосов с их семибитным ASCII
и мнением что по другому чем у них в мире не бывает) и текст
в котором есть символы бОльшие по коду чем 127 корячило только так.

Виндовая же и прочие кодировки при такой "обработке" превращались
вообще в нечитаемое для обычного человека.

-

Всё чего нет в КОИ заменяется на "аналог" для _текстовых_ версий
(в ХТМЛ проблем нет - entity и вперёд)

И причина так же проста как и стара - с самого начала (>10 лет назад)
кодировка серверов и _хранения_ архива была КОИ-8 - с ЮТФ тогда было
не очень хорошо.

Вот такие вот родимые пятна. Думы конвертнуть всё в UTF конечно еcть,
но каких-то огромных плюсов это не даст (внутри обработка выпуска
всё же в Unicode да и новые части в UTF-8) + не тронь что работает.

Ответить   Tue, 3 Aug 2010 18:17:23 +0400 (#1157442)

 

Hello, Павел,

On 3 августа 2010 г. you wrote:

Спасибо за лекцию :-) Лист у нас познавательный :-)

Понятно. Ну хоть в хтмл этого нет, и на том спасибо ;) Дайджест,
значит, считается текстом? Если он хранится в двух версиях, то можно
версию для хтмл не автозаменять.

Ответить   Tue, 3 Aug 2010 19:26:52 +0400 (#1158069)

 

Дайджест текстовый (это в документации написано)
И хранится в одном экземпляре

Ответить   Wed, 4 Aug 2010 11:11:19 +0400 (#1158310)