Преположим Вы владеете сайтом, на который сваливается информация
в формате *.doc & *.rtf. Много информации. Даже, быть может,
структурированной. Необходимо эту информацию перевести в "божеский" вид,
т.е. выцепить из таких файлов текст. Скачиваем следующие модули:
Устанавливаем их. Мне пришлось убрать строку №1099 при установке Startup.
Ну, это вылилось в отсутствие мануала по одному из многочисленных методов
этого модуля, ибо эта строчка находилась
в самом конце моудля, где обычно находятся описания и комментарии.
Далее берем файл, удовлетворяющий описанным выше условиям и
пишем скрипт(предварительно прочитав man lhalw):
[root@www OLE-Storage-0.386]# lhalw --to_stdout Label.doc
Кому: «ФАМИЛИЯ» «ИМЯ» «ОТЧЕСТВО»
------------------------------ ОБРАТНЫЙ АДРЕС ------------------------------
WWW.RBC.RU, отдел "Новости экономики".
[root@www OLE-Storage-0.386]#
А вообще, старайтесь сохранять файлы в формате *.rtf, ибо Microsoft Office
страдает поддержкой форматов только снизу вверх и для этого специально
введен
формат *.rtf, для совместимости Word различных версий.
Пишите, если чего вдруг, письма dmitriy@genphys.phys.msu.su
адрес: http://genphys.phys.msu.su/~dmitriy/perl