Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Некоторые заметки по языку программирования perl


Служба Рассылок Subscribe.Ru

18.01.2002

Чтение файлов в формате *.doc для Word 6 и Word 7.

Преположим Вы владеете сайтом, на который сваливается информация в формате *.doc & *.rtf. Много информации. Даже, быть может, структурированной. Необходимо эту информацию перевести в "божеский" вид, т.е. выцепить из таких файлов текст. Скачиваем следующие модули:

Unicode-Map
Startup
OLE-Storage

Устанавливаем их. Мне пришлось убрать строку №1099 при установке Startup. Ну, это вылилось в отсутствие мануала по одному из многочисленных методов этого модуля, ибо эта строчка находилась в самом конце моудля, где обычно находятся описания и комментарии.

Далее берем файл, удовлетворяющий описанным выше условиям и пишем скрипт(предварительно прочитав man lhalw):

#!/usr/bin/perl
print qx[lhalw --to_stdout Label.doc]
А можно и просто из командной строки
[root@www OLE-Storage-0.386]# lhalw --to_stdout Label.doc


Кому:   «ФАМИЛИЯ» «ИМЯ» «ОТЧЕСТВО»
------------------------------ ОБРАТНЫЙ АДРЕС ------------------------------
WWW.RBC.RU, отдел "Новости экономики".

[root@www OLE-Storage-0.386]#
А вообще, старайтесь сохранять файлы в формате *.rtf, ибо Microsoft Office страдает поддержкой форматов только снизу вверх и для этого специально введен формат *.rtf, для совместимости Word различных версий. Пишите, если чего вдруг, письма dmitriy@genphys.phys.msu.su адрес: http://genphys.phys.msu.su/~dmitriy/perl

http://subscribe.ru/
E-mail: ask@subscribe.ru
Отписаться
Убрать рекламу

В избранное