Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Устройство персонального компьютера: выпуск 8 - долгожданный Pentium 4


Устройство персонального компьютера

Итак, сегодня мы, как и всегда, продолжаем разглагольствовать о железках. Основное внимание уделим (ибо пора уже) популярнейшим интеловским наработкам. Так как рассматривать в одном выпуске всю подноготную Pentium 4 со товарищи было бы явным безумием, я не решился подготавливать к публикации и выпуску всю эту гору материала. Поэтому сегодня мы дойдем только до Northwood, а остальное рассмотрим как-нибудь в другой раз. Не все, естественно, уж больно много за последние годы цифровых изысканий было осуществлено. Нам же надо двигаться вперед: Интелом и процессорами компьютерная индустрия не ограничивается.

Выпуск: #8
 
Долгожданный Pentium 4
 

Всем привет! В связи с тем, что очередной выпуск моей рассылки пришелся на такой светлый праздник, я просто не смею оставить без поздравлений прекрасную половину человечества.

Быть женщиной очень трудно уже потому, что в основном приходится иметь дело с мужчинами.

Джозеф Конрад

Пусть радостно сегодня солнце светит,
В тени, оставив спор больших тревог,
И все цветы, какие есть на свете,
Цветут сегодня пусть у ваших ног!

Начало 2000 года ознаменовалось весьма радостным событием: Intel наконец-таки обнародовала детали относительно нового (со времен Pentium Pro, представленного в 1995 году) ядра. Разработка имела прижившуюся (традиционную) 32-разрядную архитектуру IA-32 и кодовое имя "Willamette" в честь реки, протекающей через штат Орегон. Несколько месяцев спустя было объявлено, что новое поколение микропроцессоров поступит в продажу под брендом Pentium 4 и будет нацелено на рынок передовых настольных систем, а не серверных решений.

Значительным изменениям подверглась 32-разрядная интеловская архитектура (о всех предыдущих продуктах на отрезке времени Pentium 4 - Pentium Pro сказать подобного было нельзя), позволившим устройству работать на более высоких тактовых частотах. Также в "операции усовершенствования приняли участие" логические элементы. В итоге, возросло число обрабатываемых за тактовый цикл команд.
Обновленный конвейер явился поистине передовым решением и именовался не иначе как Hyper-конвейер. В его ведении находилось аж 20 стадий (против 10 у микроархитектуры P6).

Типичный конвейер имеет своей задачею определенное (фиксированное) количество работы, необходимой для декодирования и выполнения инструкций. Эта работа осуществляется обособленными логическими элементами, каждый из которых состоит из множества транзисторов. Путем увеличения стадий в конвейере уменьшается число элементов, необходимых для одной стадии. Так как каждый элемент требует некоторого количества времени (задержка) для выдачи результата, снижение числа элементов на каждой стадии позволяет увеличить тактовую частоту. Разжевываем сказанное. К примеру, берем 5-ти ступенчатый конвейер. Предполагаем, что каждая ступень (стадия) требует X логических элементов для выполнения, а совместная работа этих X элементов приводит к результату через 2 наносекунды. Поделим эту стадию на 2 этапа. Соответственно, для исполнения 1-го этапа потребуется X/2 элементов, которые выдадут промежуточный результат через 2/2 = 1 наносекунду. Хоть результат и промежуточный, однако, он будет получен гораздо быстрее. Учитывая тот факт, что конвейерная технология предусматривает загрузку всех стадий различными инструкциями, находящихся на различных этапах выполнения, каждую наносекунду (вместо двух прежних наносекунд) мы будем получать результат выполнения очередной инструкции из последовательности, загруженной конвейером.

Для работы логических элементов требуются электрические импульсы. У пятиступенчатого конвейера за время прохождения первой инструкции всех стадий требовалось 5 тактовых импульсов. У нового, десятиступенчатого, - 10 импульсов, т.е. в первом случае каждый импульс возникает 1 раз в две наносекунды, в последнем - в 1 наносекунду (что и эквивалентно увеличению тактовой частоты, определяющей число тактовых импульсов в единицу времени). При этом результат выполнения очередной инструкции мы будем получать не каждые 2 наносекунды, а "еженаносекундно". Все это приводит к тому, что в процессе выполнения ("в процессе") будет находиться большее количество инструкций, различающихся стадиями декодирования и непосредственного выполнения в конвейере. Несмотря на то, что реальная выгода несколько меньше теоретической (отчасти это обусловлено необходимостью включения в работу нескольких дополнительных логических элементов, управляющих функционированием добавленных стадий), общий эффект от увеличения числа конвейерных ступеней выразится в снижении количества логических элементов, приходящихся на отдельную стадию, тем самым обеспечив способность ядра работать на более высоких частотах и повысив уровень масштабируемости.
Кстати, дополнительная "частотная прибыль" может быть получена сменой кремниевого процесса производства альтернативным и/или использованием транзисторов меньших размеров в целях снижения времени задержки, обусловленной работой каждого логического элемента.

Прочие нововведения, представленные микроархитектурой Pentium 4 (dubbed NetBurst):

  • инновационное исполнение КЭШа 1-го уровня, содержащего в дополнение к 8-килобайтному КЭШу данных трассирующий кэш команд (Execution Trace Cache), который может хранить до 12 Kb декодированных инструкций x86 (micro-ops), таким образом, исключая латентность (время задержки), связанную с работой декодера инструкций, из главных циклов выполнения.
  • быстрый механизм выполнения, который заставляет процессорное АЛУ работать на частоте, вдвое большей, чем частота ядра, тем самым, обеспечивая более высокую производительность (пропускную способность) на этапе выполнения и снижая латентность (время ожидания). Для примера: у процессора с частотой в 1.4 ГГц АЛУ будет работать на частоте в 2.8 ГГц. Фактически чип использует 3 различные частоты: ядра, АЛУ и шины, при этом выполнение операции в арифметико-логическом устройстве производится за половину такта работы процессора.
  • Advanced Dynamic Execution Engine - усовершенствованный механизм динамического исполнения, имеющего своими частями механизм выполнения команд с изменением последовательности выполнения (out-of-order) и механизм исполнения по предположению (speculative execution), который предусматривает выполнение инструкций, находящихся после команды перехода до того, как будет получен реальный адрес перехода.
  • Для чего нужны эти механизмы? Увеличение числа стадий в конвейере усложняет процедуру поддержания его полной загрузки, а также приводит к тому, что при возникновении ошибок, на очистку всех стадий конвейера и последующую загрузку тратится гораздо больше времени. Означенные механизмы позволяют задействовать внутренний алгоритм предсказания переходов, который не всегда правильно прогнозирует дальнейший путь исполнения (ветви), однако его уровня точности оказывается вполне достаточно для того, чтобы в значительной степени оптимизировать работу гиперконвейерной архитектуры.

  • 256-килобайтный Advanced Transfer Cache 2-го уровня, оснащенный 256-разрядной (32-байтной) шиной и работающий на частоте ядра процессора, обеспечивает большую пропускную способность - 44.8 Гб/с (32 байта * 1 передачу данных за такт * 1.4 ГГц) для процессора Pentium 4 с частотой 1.4 ГГц.
  • второе поколение команд, относящихся к расширенному набору - SSE2 (Streaming SIMD Extensions 2) - потоковые SIMD-расширения, включающие 144 новые инструкции. Операции SIMD (Single Instruction, Multiple Data) работают на основании того факта, что большие объемы данных, над которыми многочисленные программы постоянно выполняют повторяющиеся операции, можно представить в виде набора из нескольких бит. Добившись максимально компактного кодирования данных и разработав специальные операции, способные обращаться с такими данными, удалось сократить среднее количество команд, необходимых в процессе выполнения программы. SSE2 объединяет в себе 76 абсолютно новых SIMD-инструкций и 68 усовершенствованных инструкций для работы с целыми числами, что позволяет чипу осуществлять захват 128-бит за раз (как целочисленных, так и с плавающей точкой), тем самым, ускоряя выполнение операций шифрования и декодирования, требующих интенсивной эксплуатации вычислительных мощностей процессора. К таким данным относятся потоковое видео, речь, 3D-рендеринг и прочее мультимедиа.
  • первая 400-мегагерцовая системная шина промышленного стандарта, обеспечивающая трехкратное увеличение пропускной способности по сравнению с действующей 133-мегагерцовой.

Основанный на стареющем 0.18-микронном процессе, новый чип содержал 42 миллиона транзисторов. Беспрекословное следование первоначально разработанному проекту привело бы к еще большему по размерам решению по сравнению с описываемым, которое и так считается довольно-таки массивным. Особенности, которые были исключены из оригинальной архитектуры Willamatte:

  • 16 Кб КЭШ первого уровня;
  • 2 полнофункциональных блока выполнения операций над числами с плавающей точкой;
  • 1 Мб внешний кэш 3-го уровня.

Необходимость принятия исключений послужила толчком к началу производства Pentium 4 на основе технологического процесса 0.13 микрон в начале 2002 года.

Первые отгрузки Pentium 4 на скоростях 1,4 и 1,5 ГГц были произведены в ноябре 2000 г. Новый чип продемонстрировал наилучшие результаты производительности в 3D-приложениях, таких как игры, и в программах, интенсивно оперирующих графикой - видеокодировщиках. В повседневных офисных задачах, вроде набора и форматирования текста в Word, вычислений в электронных таблицах, веб-серфинге и работе с электронной почтой выигрыш в производительности оказался куда менее существенным.

Одним из наиболее спорных аспектов Pentium 4 была эксклюзивная поддержка (через связанный набор микросхем) динамической оперативной памяти типа Direct Rambus DRAM, которая обусловила значительную дороговизну по сравнению с конкурирующей AMD, позволившую использовать в своих новых решениях обычные модули SDRAM даже при некотором выигрыше в производительности. Действительно, комбинация AMD Athlon и DDR SDRAM превзошла в "шустрости" системы с Pentium 4, оснащенные DRDRAM по значительно более низкой цене.

В течение 1-й половины 2001 года конкурирующие между собой поставщики "ядерной" логики SiS и VIA пользовались ситуацией, поставляя на рынок чипсеты под Pentium 4 с поддержкой DDR SDRAM. Летом того же года уже и Intel выступила с релизом своего чипсета i845. Однако даже такая уступка не вызвала кардинальных перемен, ибо i845 поддерживал память только со спецификацией PC 133 SDRAM. К 2002 руководство компании поумерило свой пыл, признав "некоторую несостоятельность" собственных амбиций. i845 был подправлен и наравне с PC133 мог обслуживать DDR-ки.

В течение 2001 года было реализовано множество более быстрых версий Pentium 4. Выпущенные летом 2000 года 1,9 ГГц и 2 ГГцовые модификации были доступны как в форм-факторе 423 Pin Grid Array (PGA), так в новой архитектуре Socket 478. Принципиальное отличие одного от другого состоит в том, что новый интерфейс обладает куда большей плотностью расположения контактных штырьков, что в значительной мере снижает как размеры самого процессорного модуля, так и пространства, занимаемого сокетом на материнской плате. Интерфейс получил название микро PGA (mPGA). Представление широким массам Socket 478 на тот период расценивалось как средство безболезненного перехода на выпуск 0,13-микронного модификации Willamette. Преемник получил название Northwood.

О нем и прочих новациях Intel побеседуем в самое ближайшее время в самом ближайшем выпуске.

Пока на сегодня все. Остались вопросы? Присылайте их по адресу vumalkov@rambler.ru. Предложения, пожелания и прочее шлите туда же.




Copyright © 2006 by Вадим Мальков
Все права защищены.


В избранное