Nikita> В TSUBAME 1.2, о котором Вы ведёте речь, были GT200. У них уже есть двойная точность. Хоть и дохленькая, но ~90 GFLOPS тем не менее.
И? Двойная точность "есть" везде - хоть эмуляцией.
Татарин>> С чего бы вдруг они "образовались", да ещё и "копеечные",Nikita> С того, что видеокарта выдающая полтерафлопа одинарной точности стоила всего лишь несколько сотен долларов. С CPU того периода сами сравните ?
Ну, спецвычислители вообще не вчера придумали.
Бум GPU-вычислений начался с того, что это стало доступным рядовым пользователям, буквально на коленках. И оказалось, что под такую точность есть куча задач (да хоть тот же рендер). Задача рендерить картинки с тех пор никуда не делась. Двойная точность там по-прежнему никому не нужна (и не будет нужна в обозримом будущем).
Поэтому и на новейших Тесла рендеры считают в одинарной. Это вдвое (вдвое!) быстрее!
Nikita> У видеокарт, с которых начинались вычисления на GPU, двойной точности не было. А вот суперудешевление вычислений - было. Когда к GPU добавили двойную, оно распространилось и на неё. Во-первых, когда к GPU добавили двойную они уже по факту перестали быть _G_PU (СUDA+OpenCL намекают на то прозрачно).
Во-вторых, даже более того - двойная точность во многом потому и появилась: из-за потребности увеличить возможности _U_PU.
Nikita> Ещё смешней. Считают так, как есть возможность.
Ну да. А в эпоху массовых 8 разрядов матмодели считали в восьми битах с фиксированой точкой, очевидно?
Или, всё же, программно добивались точности, которая нужна для расчётов в данном месте?
Не, короче, давайте, Вы сделаете какую-нить расчётную задачу, потом поговорим...
Татарин>> Я, собссно, против слова "полноценный".Nikita> Полноценный, значит годится для записи в TOP500.
Ах, ну в
э-этом смысле...
А пример "неполноценных" двойной точности GFLOPs тогда?
Nikita> Третий круг. "И то, и то, в зависимости" это как ? У "Эльбруса-4С" MUL может на ходу становиться ADD и наоборот ? Или всё-таки у него просто все блоки удвоены, и половина тупо всегда простаивает ?
Не то чтоб удвоены. Их аж 23 штуки. И это хорошо. Загрузка юнитов - не самоцель, целевые показатели - это размер кристалла, выщмощь и потребление.
Татарин>> Понимаете, почему эти интеловкие цифры пиков более "бумажные"? или нет?Nikita> Вы опять всё перепутали. Это у "Эльбруса-4С" "бумажные" пики. А у Intel'ов все давно измерено и задокументировано.
Вот именно, задокументировано. И никаких пиковых значений нигде (даже в синтетике) не наблюдается.
Против фактов переть бессмысленно, Вам остаётся демагогия, не так ли?
Татарин>> Или 130Вт TDP на 45нм лучше, чем 60Вт на (библиотечных) 65нм? Nikita> Если нам нужна производительность - конечно лучше.
Не-не. Вы там ниже соловьём про потребляемую мощность заливались...
Татарин>> Что "есть у нас"? L5520 - 45нм, как и вышепомянутый Ксеон.Nikita> Да. Про что и речь. Более тонкий техпроцесс, более высокая производительность.
?! Вы совсем теряете нить
своего бредасвоих рассуждений.
Я: "Эльбрус" на худшем техпроцессе демонстрирует лучшее потребление на ФЛОП, чем Ксеон на 45нм
Вы: А вот есть ещё вот такой Ксеон!
Я: Он тоже 45нм.
Вы: 45нм - лучший техпроцесс, чем 65нм.
Выпутывайтесь.
Nikita> Опять передёргиваете. Во-первых, ~85%. Во-вторых, вовсе не идеальной. В-третьих, далеко не синтетике. "Синтетичность" тут в основном в том, что это стандартный тест. И заточки, разумеется, возможны.
Разумеется, идеальной. Вы можете назвать вычислительную задачу более удобную для интеловской архитектуры?
Разумеется, синтетике. Потому что реальная задача будет включать помимо перемножения матриц ещё какие-то действия с ними. И там производительность упадёт (потянув за собой среднюю).
Nikita>>> Угу-угу. На процессоре с аппаратной поддержкой двоичной трансляции x86 Татарин>> ?Татарин>> Какая связь?Nikita> Прямая.Татарин>> Гоняться-то будет родной код.Nikita> Да. Родной код Windows
? Кем?
Вояками на многократно помянутом Вами борту самолёта?
Доказательства?
Татарин>> А с чего бы?Nikita> Ну Вы просто так промолчали. Согласились бы явно, что влияние изменяемого разделяемого состояния на эффективность использования FPU-блоков процессора при математических расчётах может быть очень существенным.
А я и согласен.
Явно согласен, если хотите.
Собссно, я согласен даже с тем, что Кама - приток Волги. Хотя этот факт ранее в этом топике замалчивался.
Nikita> *Кстати, а что там с количеством транзисторов ? А то Вы и на эту тему замолчали...
Кэш на "Эльбрусе" - библиотечный. НЯЗ, 8 транзисторов на ячейку (хотя мне не очень ясно, почему требуется именно 8).
Против обычных 6 (или 4-х, я не помню года, с которого Интел начал ставить прогрессивный SRAM в процессоры; скорее всего в 2009-м были классические 6) у Ксеона из-за возможности Интела рулить
своим техпроцессом.
Вычтите кэш, оставьте ядро.
"Эльбрус" - отличная архитектура (Вы ещё помните, с чего мы начали?).