ТТХ попробую собирать в этом топике
Выделения - мои.
Каждый вычислительный элемент содержит 64-битный RISC процессор с архитектурой Power, контроллер DMA и до 8 процессоров управления потоками,
все эти элементы взаимодействуют через одну локальную шину. Каждый из обрабатывающих элементов соединен с соседними высокоскоростными магистралями (параллельные комплекты последовательных шин ввода/вывода разработки Rambus) работает с тактовой частотой 6,4 ГГц на линк.
Процессоры потоков являются SIMD-модулями,
функционирующими после запуска автономно.
Они содержат 128 Кб SRAM, расположенной между процессором и локальной шиной, банк из
ста двадцати восьми 128-бит регистров и банк из 4 модулей работы с плавающей точкой и 4 модулей целочисленных вычислений.
в каждом SPE (наряду со "счетверённым" блоком SP, дающим 8 операций на такт), наличествует также и "сдвоенный" блок DP, работающий в темпе 1/7 и, таким образом, дающий 2*2/7=0.57 операции на такт - то есть работающий в 14 раз медленнее, чем SP. На весь Cell (для частоты 4.0 GHz) получаем 8*8*4.0 = 256 GFLOPS single и 8*0.57*4.0 = 18.3 GFLOPS double. Приплюсуем к этому 8 GFLOPS double в PPE - и в результате имеем 26.3 GFLOPS, т.е. желаемые 10% от сингла.
Для варианта 3.2 GHz / 7 SPE результаты будут такие: 7*8*3.2 = 179.2 GFLOPS single и 7*0.57*3.2 = 12.8 плюс 6.4 = 19.2 GFLOPS double.
// процессоры cell [17] - Конференция iXBT.com