Отправляет email-рассылки с помощью сервиса Sendsay

Перекодировка....

Доброго времени суток!
Возникла небольшая проблемка: есть небольшой (всего 35 мегабайт ) текстовый
файл. В нем смешаны стразу три кодировки - UTF-8, KOI8-R, CP1251.
Вопрос - может кто знает, как это все можна перевести в одну кодировку
(любую).
Вариант ручной обработки методом вырезания-вставки ессно отпадает =)
Благодарю за оказанное внимание...

Ответить   Ischenko Yaroslav Sat, 20 Dec 2003 00:41:05 +0200 (#38818)

 

Ответы:

On Sat, 20 Dec 2003 00:41:05 +0200, Ischenko Yaroslav <si***@a*****.ua>
wrote:

Сначала надо разделить фрагменты с разными кодировками на разные файлы.
А потом iconv -f src_encoding -t koi8-r -o output_file

Ответить   NixoiD Sat, 20 Dec 2003 12:34:58 +0200 (#39021)

 

В сообщении от Сб 20 Дек 2003 12:34 NixoiD написал:

Совет конечно хороший, спасибо... Но проблема в том, что в файле кодировки
смешаны беспорядочно размером примерно по 2 килобайта. Вы представляете
сколько это работы?

Ответить   Ischenko Yaroslav Sun, 21 Dec 2003 00:43:09 +0200 (#39289)

 

Уважаемый Ischenko Yaroslav!!!

Sunday, December 21, 2003, 1:43:09 AM, you wrote:

Двигаться надо в таком направлении:

1. Написать утилитку разбивки файла на мелкие - каждый фрагмент -
отдельный файл.
Там ведь наверно не плеин текстом все написано? должны же быть
какие-то метки о начале/конце фрагмента текста?

2. Написать утилитку которая ко всем получившимся файлам
последовательно применяет стандартные средства определения кодировки и
перекодировки
в цикле вызываем iconv и ему подобное.

3. Если необходимо, собрать обратно мелкие файлы в большой.

По описанию, похоже что этот большой файл не что иное как почтовый
ящик, если это так, то задача рещается весьма тривиально при помощи
перла...

--

С Уважением,

Сергей.

-*Информационный канал Subscribe.Ru
Написать в лист: mailto:comp.soft.linux.discuss-list@subscribe.ru
Отписаться: mailto:comp.soft.linux.discuss--unsub@subscribe.ru

http://subscribe.ru/ mailto:ask@subscribe.ru

Ответить   Sergey Tamkovich Mon, 22 Dec 2003 02:00:31 +0300 (#39777)