Definição de Prescott

Por Carlos E. Morimoto. Há 2005-06-26 [OnlyText].

O Prescott representa a terceira geraÃ§Ã£o do Pentium 4 (a primeira foi o Willamette e a segundo o Northwood), produzido a partir de 2004, utilizando uma tÃ©cnica de fabricaÃ§Ã£o de 0.09 micron. A mudanÃ§a arquitetural mais significativa foi a adiÃ§Ã£o de 11 novos estÃ¡gios ao jÃ¡ longo pipeline do Northwood. Com isso, o Prescott atingiu a impressionante marca de 31 estÃ¡gios de pipeline, um nÃºmero sem precedentes entre os processadores x86.

Em um processador atual, o uso de um pipeline mais longo nÃ£o Ã© exatamente uma boa notÃcia, muito pelo contrÃ¡rio. Como vimos, aumentar o nÃºmero de pipelines do processador permite que cada estÃ¡gio execute um volume menor de processamento. Com isso, o processador passa a ser capaz de operar a freqÃ¼Ãªncias mais altas, mas, em compensaÃ§Ã£o, as instruÃ§Ãµes demoram um nÃºmero maior de ciclos de clock para serem processadas (jÃ¡ que precisam percorrer todo o pipeline), o que aumenta brutalmente o tempo perdido em operaÃ§Ãµes de tomada de decisÃ£o, onde o processador precisa aguardar o resultado de uma operaÃ§Ã£o para poder processar a seguinte.

Se as alteraÃ§Ãµes parassem por aÃ, o Prescott seria capaz de operar a freqÃ¼Ãªncias mais elevadas, mas em troca seria brutalmente mais lento que um Northwood do mesmo clock. Para evitar essa sombria perspectiva, a Intel realizou um conjunto de melhorias na arquitetura, de forma a anular, ou pelo menos reduzir a perda.

A primeira melhoria foi feita no circuito de branch prediction, responsÃ¡vel por "prever" o resultado de operaÃ§Ãµes de tomada de decisÃ£o e assim permitir que o processador adiante o processamento das instruÃ§Ãµes seguintes enquanto a instruÃ§Ã£o inicial Ã© processada. O Prescott Ã© especialmente dependente do desempenho do circuito de branch prediction, pois cada instruÃ§Ã£o precisa percorrer um longo caminho ao longo dos 31 estÃ¡gios do pipeline. Sem ele, o projeto do Prescott seria inviÃ¡vel, pois o processador perderia muito tempo em operaÃ§Ãµes de tomada de decisÃ£o.

Em um processador atual, o circuito de branch prediction Ã© capaz de indicar o caminho correto em mais de 95% das operaÃ§Ãµes. Tal precisÃ£o Ã© possÃvel, porque ele se baseia em um histÃ³rico de operaÃ§Ãµes jÃ¡ realizadas. Sempre que Ã© preciso "adivinhar" o caminho mais provÃ¡vel de uma operaÃ§Ã£o, ele pesquisa pelo resultado de operaÃ§Ãµes semelhantes anteriormente realizadas. A maioria dos programas realiza um grande nÃºmero de operaÃ§Ãµes repetitivas (sobretudo aplicativos pouco otimizados, ou escritos em linguagens de alto nÃvel), o que permite que o circuito de branch prediction execute seu trabalho com grande precisÃ£o.

O grande problema Ã© que, sempre que ele erra, o processador precisa descartar todo o trabalho adiantado e comeÃ§ar de novo a partir do ponto inicial. Neste caso, sÃ£o perdidos nÃ£o apenas os 31 ciclos que a instruÃ§Ã£o inicial demora para percorrer o pipeline, mas tambÃ©m os ciclos necessÃ¡rios para remover os dados anteriores e carregar os registradores com as novas instruÃ§Ãµes a processar.

Quanto mais longo Ã© o pipeline, maior Ã© a penalidade a cada erro, o que coloca o Pescott em uma situaÃ§Ã£o complicada, jÃ¡ que as operaÃ§Ãµes de tomada de decisÃ£o representam atÃ© 14% das operaÃ§Ãµes realizadas por um aplicativo tÃpico.

Para reduzir a perda, o circuito de branch prediction do Prescott foi sensivelmente aprimorado, e passou a ser capaz de trabalhar com um Ãndice de acerto maior que o do Northwood. O scheduler (o circuito que ordena as instruÃ§Ãµes, de forma que as unidades de execuÃ§Ã£o possam processar o nÃºmero mÃ¡ximo de instruÃ§Ãµes a cada ciclo) tambÃ©m foi melhorado, resultando em outro pequeno ganho.

Foram feitas ainda duas pequenas modificaÃ§Ãµes nas unidades de execuÃ§Ã£o, que resultaram em mais um pequeno ganho, muito embora o nÃºmero de unidades nÃ£o tenha sido alterado.

O primeiro e mais significativo, foi a adiÃ§Ã£o de um circuito dedicado de multiplicaÃ§Ã£o de nÃºmeros inteiros. AtÃ© o Northwood, todas as operaÃ§Ãµes de multiplicaÃ§Ã£o eram enviadas Ã FPU (o coprocessador aritmÃ©tico), processadas separadamente e entÃ£o devolvidas. Com o Prescott, as unidades de processamento de nÃºmeros inteiros ganharam a habilidade de processÃ¡-las diretamente, o que representa uma grande economia de tempo.

O Pentium 4 possui trÃªs unidades de execuÃ§Ã£o de nÃºmeros inteiros. Duas delas sÃ£o "double-pumped", ou seja, sÃ£o capazes de processar duas instruÃ§Ãµes simples por ciclo de clock. Um conjunto especÃfico de instruÃ§Ãµes, que incluem operaÃ§Ãµes um pouco mais complexas, sÃ£o enviados para a terceira unidade de execuÃ§Ã£o, que trabalha Ã freqÃ¼Ãªncia normal. No Prescott, uma das duas unidades "rÃ¡pidas" ganhou um novo bloco, capaz de processar operaÃ§Ãµes shift/rotate (usadas em vÃ¡rias situaÃ§Ãµes), que antes precisavam ser processadas na unidade mais lenta. Com isso, a terceira unidade foi desafogada, resultando em mais um pequeno ganho.

O Prescott ganhou tambÃ©m um novo bloco de instruÃ§Ãµes, o conjunto SSE3. Ele Ã© composto por 13 novas instruÃ§Ãµes, que complementam os dois conjuntos anteriores, dando sua cota de contribuiÃ§Ã£o em aplicativos otimizados.

Finalmente, temos as mudanÃ§as no cache. O bloco de dados do cache L1 foi aumentado de 8 para 16 KB e o bloco de instruÃ§Ãµes (o trace-cache) recebeu pequenas melhorias, embora a capacidade tenha permanecido a mesma. O cache L2 dobrou de tamanho, saltando de 512 KB para 1 MB, mas o aumento teve como efeito colateral o aumento dos tempos de latÃªncia, que aumentaram em aproximadamente 40%. Em outras palavras, o Prescott tem um cache L2 maior, porÃ©m mais lento, o que anula grande parte do benefÃcio.

Veja também