Итак, товарищи, свершилось. Официальный релиз Pentium 4 (раньше известного как Willamette) состоялся, и теперь мы можем сказать все, что знали раньше, но были вынуждены молчать до 20 ноября. Чем же характерен новый процессор и ради чего столько шума?
Ну, во-первых, новая микроархитектура ядра - NetBurst. Сразу прошу не пугаться названий - они рождены маркетингом (известно, что супер-пупер-устройство для соединения чего угодно с чем угодно посредством заостренных металлических штифтов будет продаваться лучше, чем простой молоток). Итак, NetBurst. Затеяна вся переделка ядра была потому, что архитектура P6 не позволяла поднять частоту процессоров на ее основе (PIII) выше 1.2-1.3 ГГц. А гигагерцев надо было побольше (на 0.18-микронном процессе, по которому сейчас прозводится P4, можно получить процессоры до 1.7 ГГц, а ведь уже готова к работе 0.13-микронная производственная линия, и гонка гигагерцев возобновится). Увеличить частоту процессора позволил более длинный конвейер (20 этапов против 12 у P6) с более короткими отдельными этапами. Это называется Hyper-pipelined technology.
Кроме длинного быстродействующего конвейера, имеется еще так называемая Rapid Execution Engine - то есть блок АЛУ (арифметико-логическое устройство) работает на удвоенной частоте процессора (для 1.5 ГГц P4 это составит 2.8 ГГц). Чтобы непрерывно кормить этого суперскоростного монстра инструкциями, было разработано несколько отдельных решений. Первое - Advanced Dynamic Execution. Эта технология обеспечивает более надежное предсказание переходов (примерно на 30% лучше, чем у P6), больший резерв команд (126 против 44 у P6), из которых можно выбирать команды для выполнения (учтите, что этот блок работает уже не в порядке выполнения команд, то есть имеет место out of order execution) и больший буфер ветвлений (4 Кб против 512 байт - это тоже позволяет надежнее предсказывать ветвление). Плюс полностью была изменена идеология кэша команд первого уровня - назвали его по такому случаю Execution Trace Cache. Теперь в этом кэше хранятся не команды x86, а декодированные цепочки микроопераций. Таким образом, не надо каждый раз декодировать команду на микрооперации, а можно сразу загружать последовательность из кэша, что должно резко увеличить скорость работы. Объем ETC - 12 тысяч микроопераций.
Еще одно нововведение - набор команд SSE2 (то бишь, Streaming SIMD Extensions 2). Как и раньше, они предназначены для выполнения одинаковых действий над набором данных (SIMD = Single Instruction Multiple Data). Основное достоинство SSE2 - работа со 128-разрядными (целочисленными и с плавающей точкой) операндами (было 64 бита). В принципе, такое увеличение разрядности может в два раза ускорить обработку поточных данных (видео, аудио и тому подобные).
Что еще хорошего? Системная шина с эффективной частотой работы 400 МГц и, соответственно, пропускной способностью 3.2 Гб/с вместо 1.06 у PIII. Кэш данных первого уровня - 8 Кб. Кэш второго уровня 256 Кб, сделанный по той же технологии Advanced Transfer Cache, что и в PIII. Все это плюсы. Ну а минус P4 достаточно очевиден - это все тот же длинный конвейер: ибо чем длиннее конвейер, тем дольше его перезапускать, если предсказание ветвления все же оказалось неправильным, и в конвейр пошла не та ветка. Intel, в принципе, признает проблему и недаром бросила такие силы на улучшение системы предсказания ветвления. Но все равно, в программах, где много условных переходов (большинство офисных приложений), P4 может оказаться на 10-20% медленнее, чем PIII с такой же частотой. Зато в обработке потоковых данных (которыми должен в ближайшее время просто таки переполниться Internet, откуда, собственно, и взялось название NetBurst) P4 должен проявить себя во всей красе. И тут мы переходим к предварительным результатам тестирования, предоставленным Intel.
Сравнивались PIII 1 ГГц на плате VC820 (чипсет i820) с 800 МГц RDRAM (одноканальный) и P4 1.5 ГГц на новой плате D850GB (i850 под P4) с такой же 800 МГц RDRAM, но уже двухканальной (то есть пропускная способность памяти в два раза выше). Плюс разница в три раза по частоте системной шины: 133 против 400 МГц. Результаты - в таблице.
Процессор | Specfp 2000 | Specint 2000 | Q3 demo1 | 3D Winbench 2000 CPU | 3DMark CPU | Video2000 кодирование MPEG 2 |
PIII 1 ГГц | 314 | 443 | 149 | 1.93 | 393 | 29.80 |
P4 1.5 ГГц | 562 | 544 | 210.3 | 2.55 | 457 | 37.61 |
Отношение | 1.79 | 1.23 | 1.41 | 1.32 | 1.16 | 1.26 |
И что же? Хотелось увидеть превосходство нового процессора хотя бы на 50 процентов за счет разницы в частоте (не говоря уже о преимуществах архитектуры, быстрой шине и двухканальной памяти). Но что-то я их не наблюдаю. Да, конечно, плата использовалась инженерная и все такое, но результаты наводят на размышления о том, что гигагерцы и производительность - вещи разные и связанные нелинейно. В общем, будем смотреть на серийных образцах - может, результаты будут другими. Ну а Intel можно поздравить - Athlon пока так быстро не бегает.
Досье P4
Техпроцесс: 0.18 мкм (с переходом на 0.13)
Размер кристалла: 218 мм2
Количество транзисторов: 42 миллиона
Рабочая частота: 1.4, 1.5 ГГц
Тепловыделение: до 50 ватт (по непроверенным сведениям)
Разъем: Socket 423
Кэш L1: 12 Кб команды, 8 Кб данные
Кэш L2: 256 Кб
Шина: 100 МГц Quad Pumped (эффективная частота 400 МГц)
Цена: $644 за 1.4 ГГц P4, $819 за 1.5 ГГц.
Константин
АФАНАСЬЕВ,
[email protected]
Горячие темы