[image]

Как будут развиваться дальше процессоры?

 
1 2 3 4 5
+
-
edit
 

Balancer

администратор
★★★★★
Татарин, 13.01.2004 21:35:33:
Запускается квака - перешивает под себя ПЛИС.
 

Как быть с многозадачностью? Квака захочет себя прошить. Но музыку будет играть через ОС. А ОС захочет прошить ПЛИС, чтобы декодировать MP3. И модем захочет сигнальные преобразования под себя гнать. Делать эксклюзивное владение - тогда кем? Типа, какой-то процесс работает - кваку уже не запустишь. Проходили, было. Немногопоточный звук и т.п. Не надо. Универсальный проц с MMX/SSE/3DNow лучше
   
EE Татарин #13.01.2004 20:54
+
-
edit
 

Татарин

координатор
★★★★★
Alesandro, 13.01.2004 20:42:21:
1. Интересный подход... Только принять стандарт на интерфейс...
Правда, ещё проблема: всё же ПЛИСины отличаются, у меня одна и та же прошивка на разных микросхемах(одинаковых по номенклатуре, производители разные) с разными таймингами работают...

2. Да уж, каждый делает под себя и для себя. В общем, это неплохо, потому как чётко понимая задачу, сделаешь так как надо. А стандарт - это всегда какие-то рамки.
 

1. Именно. Вот стандарта на интерфейс и не хватает.
А отличия... обычные процы тоже отличаются и таймингами, и даже системой команд.
Стандарт на отличия - и всего делов.

2. Ну да. Но без стандарта нет массовости, а без массовости - хорошего соотношения цена/качество. Я бы в охотку разменял возможность выбирать ПЛИС на возможность использовать за ту же цену ПЛИС в десятки раз более мощную.
   
EE Татарин #13.01.2004 20:55
+
-
edit
 

Татарин

координатор
★★★★★
Alesandro, 13.01.2004 20:46:14:
Татарин, 13.01.2004 20:40:17 :
Максимальные сейчас - порядка 600-700МГц, это хай-енд, навроде последних-распоследних пентиумов, цена соответствует - под сотни баксов.
 


Более -менее приличная ПЛИС стоит около тысячи долларов. Это средняя. Частоты 600-700 - да не верю! Что это за частота? Работы ВСЕГО устройства? Или просто обратная величина задержки регистр-регистр?
 

Какое там "всего устройства", что Вы?
Устройство еще прошить надо бы...

Впрочем, я поотстал. Может быть, сейчас все гораздо круче.
   
RU Alesandro #13.01.2004 21:00
+
-
edit
 

Alesandro
Серокой

координатор
★★★★
Устройство прошивается по JTAG обычно - что тоже небыстро.

Да нет - всего устройства - это чего-то, собранного на ПЛИС. То есть какова частота сигнала CLK, подаваемого на ПЛИС.
У меня в микросхеме - полуторатысячной Альтере, что означает полтора миллиарда условных вентилей, наиболее высокая частота 80 МГц. Это частота DDR-Памяти, 64 разряда. При увеличении частоты всё начинают "плыть" и сбоят отдельные биты на шине.
Альтера хвалилась DDR-контроллером на 200МГц, но там был только контроллер, плюс они руками расставляли вентили... Меня же такое просто по времязатратам не устроит.
   
EE Татарин #13.01.2004 21:03
+
-
edit
 

Татарин

координатор
★★★★★
Balancer, 13.01.2004 20:50:32:
Сотни мегагерц. Под специализированный, непрограммируемый (аппаратно) девайс.
 

Да. А на ПЛИС были бы десятки, за универсальность надо платить. Просто другим способом, не традиционным.

Но можно сказать, что схема на ПЛИС отстает от "честной" серийной микросхемы примерно на поколение (если поколения ПЛИС и этой "серийки" одинаковы). Угонится ли сегодняшний 0.13мкм ЦПУ за 0.25мкм видеопроцом позапрошлого года?
Вот вряд ли, ИМХО.
   
+
-
edit
 

Balancer

администратор
★★★★★
Татарин, 13.01.2004 22:03:58:
Balancer, 13.01.2004 20:50:32 :
Сотни мегагерц. Под специализированный, непрограммируемый (аппаратно) девайс.
 

Да. А на ПЛИС были бы десятки, за универсальность надо платить. Просто другим способом, не традиционным.
 

Примитивная прикидка. 1024x76830fps для true-color - это 14нс на пиксель, это 70МГц на пиксель при одном такте на него. ИМХО, в лоб ни одна ПЛИС не потянет
   
RU Alesandro #13.01.2004 21:12
+
-
edit
 

Alesandro
Серокой

координатор
★★★★
Balancer, ну вот не надо тут примитивизма. Естественно, что ПЛИС за такт отрабатывает не одну точку. Ширина памяти ускорителей - 128 разрядов - это же не просто так...
   
+
-
edit
 

Balancer

администратор
★★★★★
Alesandro, 13.01.2004 22:12:53:
Ширина памяти ускорителей - 128 разрядов - это же не просто так...
 

Хорошо. В шину можно положить 5 24-битных пикселей или 4 32-хбитных. Это только по данным. Но нам ещё и геометрия нужна будет. Тоже минимум 32-х битные числа, да ещё двойную точность надо заложить на умножения...

Ну, ладно, получим мы на 200МГц ПЛИС 5..15 тактов на пиксель. Думаешь этого хватит для нормального обсчёта?

Кстати, ещё такой заход. Специализированные, неперепрограммируемые видеочипы сегодня требуют уже весьма интенсивного охлаждения. У ПЛИС в тех же условиях КПД будет ниже. Или потребуется совсем дикое охлаждение, или придётся идти на упрощения, или - ПЛИС не справляется с работой
   
RU Alesandro #13.01.2004 21:57
+
-
edit
 

Alesandro
Серокой

координатор
★★★★
Да ясно, что не будет большой производительности у ПЛИС, которая заведомо менее быстродейственна, чем заказная микросхема.
Но 10-15 тактов хватит точно. ПЛИС тем и хороша, что она "однотактовая". Просто куча времени будет уходить на операции с памятью. Пресловутое CAS Latency и еще активация столбцов и банков...
   
EE Татарин #13.01.2004 22:11
+
-
edit
 

Татарин

координатор
★★★★★
Alesandro, 13.01.2004 21:00:58:
Альтера хвалилась DDR-контроллером на 200МГц, но там был только контроллер, плюс они руками расставляли вентили... Меня же такое просто по времязатратам не устроит.
 

Аналогично программированию на ассемблере и оптимизации под SIMD.
Не обязательно всем упираться и повентильно ручками собирать себе микруху. Задач много, но их конечное количество, есть какие-то типичнные. Вполне можно использовать блоки разработанные другими... ручками. Точно на тех же основах, на которых сейчас используют чужие библиотеки кода - с SSE, например.

JTAG, конечно, потребовалось бы заменить на что-то побыстрее.
   
EE Татарин #13.01.2004 22:14
+
-
edit
 

Татарин

координатор
★★★★★
Balancer, 13.01.2004 20:52:50:
Как быть с многозадачностью? Квака захочет себя прошить. Но музыку будет играть через ОС. А ОС захочет прошить ПЛИС, чтобы декодировать MP3. И модем захочет сигнальные преобразования под себя гнать. Делать эксклюзивное владение - тогда кем? Типа, какой-то процесс работает - кваку уже не запустишь. Проходили, было. Немногопоточный звук и т.п. Не надо. Универсальный проц с MMX/SSE/3DNow лучше
 

Точно так же, как и с памятью. Квака хочет 200 метров, система хочет 160, десять метров жрет мэйлер и забытые експлореры под 50 занимают... всего в системе, скажем, 256, и чего?

Да ничего, работает. При этом винт в мильён раз медленнее ДОЗУ.
   
EE Татарин #13.01.2004 22:24
+
-
edit
 

Татарин

координатор
★★★★★
Balancer, 13.01.2004 21:39:59 :
1. Хорошо. В шину можно положить 5 24-битных пикселей или 4 32-хбитных. Это только по данным. Но нам ещё и геометрия нужна будет. Тоже минимум 32-х битные числа, да ещё двойную точность надо заложить на умножения...

2. Ну, ладно, получим мы на 200МГц ПЛИС 5..15 тактов на пиксель. Думаешь этого хватит для нормального обсчёта?

Кстати, ещё такой заход. Специализированные, неперепрограммируемые видеочипы сегодня требуют уже весьма интенсивного охлаждения. У ПЛИС в тех же условиях КПД будет ниже. Или потребуется совсем дикое охлаждение, или придётся идти на упрощения, или - ПЛИС не справляется с работой :)
 


1. Хорошо. А кэш-память?

2. Вопрос-то не в том, круче ли ПЛИС, чем обычная специализированная микросхема. Ясно, что нет. Вопрос в том, круче ли ПЛИС, чем проц на задачах, на которые не сделаешь отдельную специальную микросхему.

Дело в том, что видеоускоритель - тоже микросхема в известной мере универсальная. Так можно поставить вопрос ребром: если ПЛИС подзаточить конкретно под движок кваки, а движок кваки под ПЛИС, не будет ли это окупать потерю прямой производительности?
Ответ совсем неочевиден. Например, во многих случаях процедурного мультитекстурирования выигрыш будет впечатлять. Те же шейдеры - опять же, попытка сделать систему гибкой за счет потери производительности... опять линейность, сила в частоте - и прочее. На ПЛИС эти вещи шились бы аппаратно.
   
RU Alesandro #13.01.2004 22:24
+
-
edit
 

Alesandro
Серокой

координатор
★★★★
Татарин, 13.01.2004 22:11:28 :
Вполне можно использовать блоки разработанные другими... ручками. Точно на тех же основах, на которых сейчас используют чужие библиотеки кода -  с SSE, например.
 


Проблема в том, что это не поможет, в отличие от написанного на ассемблере кода.
Вот есть у вас этот сверхбыстрый DDR SDRAM-контроллер. Вы его так и ставите на ПЛИС - как он есть, большим, жёстко заданным куском. И все другие связи приходится уже вести с учётом расположения этих кусков, причём часто в обход прямого пути. В результеате зачем нам быстрый контроллер памяти, если он роняет всё остальное быстродействие?
Это я о причинах суммарного невысокго быстродействия ПЛИС - в смысле, реальных рабочих частот в отличие от рекламных завяленных.
   
EE Татарин #14.01.2004 09:49
+
-
edit
 

Татарин

координатор
★★★★★
Alesandro, 13.01.2004 22:24:56:
Проблема в том, что это не поможет, в отличие от написанного на ассемблере кода.
Вот есть у вас этот сверхбыстрый DDR SDRAM-контроллер. Вы его так и ставите на ПЛИС - как он есть, большим, жёстко заданным куском. И все другие связи приходится уже вести с учётом расположения этих кусков, причём часто в обход прямого пути. В результеате зачем нам быстрый контроллер памяти, если он роняет всё остальное быстродействие?
Это я о причинах суммарного невысокго быстродействия ПЛИС - в смысле, реальных рабочих частот в отличие от рекламных завяленных.
 

Да, это засада. Но можно, наверное, пользовать в своей разработке куски помельче.

Или куски целиком. Смысл все равно есть, даже есть часть функционала (БПФ, тригонометрия) стандартна, сочетание их и самописанные куски - уникальны. Овчинка стоит выделки.
   
+
-
edit
 

avmich

координатор

Насчёт транспьютеров - так ведь ПЛИСы и есть та же идея - универсальные логические блоки в больших количествах.

Разве есть какие-то принципиальные проблемы иметь частоты ПЛИСов близкими частотам ASICов?

Если контроллер памяти выкинуть, т.е. делать в одном чипе память и программируемую логику к ней, не поможет? Для расчёта видео каждая же цепочка, как правило, к ограниченному куску памяти обращается. Т.е. локальная память...

Многозадачность. Что мешает кваке использовать часть ПЛИСа, ОС - ещё часть ПЛИСа, и т.д.?
   

hcube

старожил
★★
ПЛИС кончится

Если серьезно - почему именно ПЛИС? Давйте запихнем в кристалл сотню RISC - процессоров. Ну, и памяти до кучи, чтобы у процессоров было регистров - хоть обляпайся. А дальше будем уже разбрасывать вычисления на эти простенькие, но жутко шустрые процессоры? Собственно Пень 4 с гипертредингом - это и есть унего уже считай два процесора в одном кристалле, а если считать суперскалярность - то и все 6 штук.
   
+
-
edit
 

Balancer

администратор
★★★★★
avmich, 14.01.2004 15:26:53:
Насчёт транспьютеров - так ведь ПЛИСы и есть та же идея - универсальные логические блоки в больших количествах.
 

Есть раствор спирта в воде, а есть - раствор воды в спирте

Разве есть какие-то принципиальные проблемы иметь частоты ПЛИСов близкими частотам ASICов?
 


Низкая степень интеграции, высокие межэлементные ёмкости и т.п. Тут уж пусть специалисты рассказывают.

Многозадачность. Что мешает кваке использовать часть ПЛИСа, ОС - ещё часть ПЛИСа, и т.д.?
 


Ресурсоёмкость этого самого ПЛИСа. Т.е. малая ресурсность Да и просто сложно будет очень организовать такую работу. Там же не произвольная схемотехника. Представь, какие будут эффекты от "фрагментации ПЛИСа"
   

au

   
★★☆
Разве есть какие-то принципиальные проблемы иметь частоты ПЛИСов близкими частотам ASICов?
 

Низкая степень интеграции, высокие межэлементные ёмкости и т.п. Тут уж пусть специалисты рассказывают.
 


Примерно в 10 раз меньше плотность по сравнению с ASIC. Сигналы ходят не только по проводам, а и по транзисторам, коммутирующим их.

Но нужно понять, что сила FPGA — не в скорости, а в параллелизме! Пеньтиумы не от хорошей жизни загнали в гигагерцы. Но им больше развиваться некуда. Уже приводился пример с графическим ускорителем — это по сути аналог функционального применения FPGA в компе. С его использованием проблемы нет вроде? Никто из программистов не должен конфигурировать чип — это тупик, люди это не могут даже понять в массе своей.

Программируемый чип мог бы сделать то же для архитектуры компа, что ускорители сделали для графики. Во-1, комп бы стал дешевле — не нужно запихивать в чипсет все на свете порты, вместо этого можно либо сконфигурировать отдельно каждую модель, либо оставить это "продвинутым" пользователям. Если вышел новый стандарт порта, комп можно проапгрейдить прямо на месте. Можно придать чипу функцию обработки любых сигналов (привет сентрино!), с любым стандартом на выбор. Можно сконфигурировать для выполнения сложных функций вроде сжатия/распаковки видео в любом формате аппаратно, или звука в версии под конкретную аудиосистему. Это скорее всего должен быть не чистый FPGA, а платформа, где часть ресурсов будет чисто FPGA, часть — hardwired арифметика (массивы), и т.д. Процессор при этом никуда не денется, но нет нужды ему работать на гигагерцах.

Можно и графику на процессоре считать — интел всегда мечтает об этом, т.к. графика меняет поколение за полгода. Но это выливается в неоптимальные конструкции, т.е. люди платят слишком много, а получают за них слишком мало.

Конфигурация чипа на уровне битов и гейтов — это наверняка не лучшее решение для писюка. Гораздо лучше конфигурация на уровне функций, больших ячеек с качественно разработанной структурой, которые можно произвольно соединять шинами (тоже качественно разработанными). Тогда получится легкособираемое "лего", а с ним и дети справляются.

Так что в примере с квакой, если всю графику делает GPU, то чипу можно отдать расчёт физики.
   

hcube

старожил
★★
. Гораздо лучше конфигурация на уровне функций, больших ячеек с качественно разработанной структурой, которые можно произвольно соединять шинами (тоже качественно разработанными).

А вот не получится Понадобится сверхбольшая альтера, и ВСЕ РАВНО она будет программироваться поячеечно. Плюс менеджмент конфликтов. Если уж так хочется сверхпроизводительности - продолжить тему гипертрединга - просто сделать процессор очень маленьким и очень простым, со встроенной памятью мегабайт в 10, а на мамке сделать не одно гнездо, а 16 - 64 штуки Нужно почту читать - воткнул 1 процессор. Нужно рендерить - 64 . А прибыль получать не на процессорах, а на мамках - дешевые microATX на 1-4 процессора - подешевле продавать, а дорогие ATX на 64 процессора - подороже. Ну, и операционку мультипроцессорную подо все это...
   
+
-
edit
 

Balancer

администратор
★★★★★
hcube, 14.01.2004 21:57:12:
Если уж так хочется сверхпроизводительности - продолжить тему гипертрединга - просто сделать процессор очень маленьким и очень простым, со встроенной памятью мегабайт в 10, а на мамке сделать не одно гнездо, а 16 - 64 штуки
 

То, что я и предлагал страницу или сколько там назад Главное, что технологии такие уже в железе вовсю реализованы. И процессоры есть (в DIMM-формфакторе) и мамки под них. Дело за малым - вложить бабки в рекламу и ОС
   
RU Alesandro #14.01.2004 23:33
+
-
edit
 

Alesandro
Серокой

координатор
★★★★
Есть ещё одна проблема. ПЛИС при массовом производстве на десятичный порядок дороже ASICа. При схожной технологии (0,13) и том же размере чипа (примерно 15х15 мм) ПЛИС ещё к тому же проигрывает в частоте. Опять же на десятичный порядок. Проигрывает из-за своей универсальности - что увеличивает паразитные ёмкости - когда шина на мультиплексоры нагружена, напрмер.
Я говорю о мощных ПЛИС - до полутора миллиона гейтов и 512 кбит памяти на борту.
Так что лучше куча маленьких RISCов, потому как не подешевеют ПЛИС по сравнению с заказными микросехемами, ну никак.

ЗЫ. Может возникнуть вопрос, а зачем нафиг тогда ПЛИС нужна. А она всё равно полезна. В малых сериях, в отладке перед изготовлением заказного чипа, в реконфигурируемых системах...
   
+
-
edit
 
Balancer, 14.01.2004 21:24:54:
hcube, 14.01.2004 21:57:12 :
Если уж так хочется сверхпроизводительности - продолжить тему гипертрединга - просто сделать процессор очень маленьким и очень простым, со встроенной памятью мегабайт в 10, а на мамке сделать не одно гнездо, а 16 -  64 штуки ;-)
 


То, что я и предлагал страницу или сколько там назад Главное, что технологии такие уже в железе вовсю реализованы. И процессоры есть (в DIMM-формфакторе) и мамки под них. Дело за малым - вложить бабки в рекламу и ОС
 

Никак вас не пойму :blink: :rolleyes: Почему это процессоры должны быть простыми? На подходе 0,65 нм процесс -это миллиард транзисторов на кристале 100мм.кв. А процессор типа Пень - это от силы миллион транзисторов -все остальное кэши.
Трабл тут в другом - мало задач позволяющих каКчественное распараллеливание. Т.к. процесс одновременного вычисления ad suti процесс ПРЕДСКАЗАНИЯ результата Тупичокс..
Есть идея(нахожуся? :rolleyes: ) получше. Процессор - набор исполнительных элементов, типа сдвигатели, сумматоры, умножители, делители(а почему нет? у нас же МИЛЛИАРД транзисторов!) и т.д.+матрица-коммутатор. Каждая команда - набор микрокоманд+последовательность соединения исполнительных элементов, причем 2D - параллельно(одновременное исполнение) и последовательно(организация конвееров типа умножил\сложил). Т.о. каждая программа - некий входной язык высокого уровня, каждая команда которого - вышеописанный...мммм... динамический процессорный элемент. Так сказать -хард-форт
Навеянно VHDL и Форт-ом ---

Ник
   

hcube

старожил
★★
Вот. Берем 486DX4, делаем выполнение всех команд за 1 такт, и на оставшееся в конструктиве место пихаем памяти сколько влезет. Ну и частоту - гигагерц 10. А, да, и внешняя шина - синхронная последовательная. Штуки 3-4. К чипсету подключен десяток-другой гигабайт оперативки и пара винчестеров по терабайту . То есть считай у нас есть N более-менее независимых вычислителей. Правда работа с основной памятью - это будет ой . Практически, это получается транспьютер. Но значительно более шустрый - раз, и способный работать достаточно эффективно даже в одиночку - это два.

Что же до распаралеливания - а собственно кто мешает? 90% современных задач, от БПФ до проигрывания видео, элементарно распаралеливаются. Была бы память для хранения результатов распаралеливания...
   
+
-
edit
 

Balancer

администратор
★★★★★
Wyvern, 15.01.2004 00:43:10:
Никак вас не пойму :blink: :rolleyes: Почему это процессоры должны быть простыми?
 

Потому что их будет много (5..10 штук - влёгкую) и поэтому очень желательно обойтись без их активного охлаждения

>Трабл тут в другом - мало задач позволяющих каКчественное распараллеливание.

Расчёт Квейка это позволяет сделать легко Кодирование/декодирование MP3 - тоже

>Т.о. каждая программа - некий входной язык высокого уровня, каждая команда которого - вышеописанный...мммм... динамический процессорный элемент.

Чем это о VLIW отличается? Анти-RISC, так сказать

>Так сказать -хард-форт
>Навеянно VHDL и Форт-ом ---

Кстати, Форт как раз вовсю на ПЛИС'ах и делают. Например, у Ильи Тарасова, вон, в реальных железках
   
+
-
edit
 

Balancer

администратор
★★★★★
hcube, 15.01.2004 06:09:00 :
Вот. Берем 486DX4, делаем выполнение всех команд за 1 такт
 


Дык, основные команды 486 итак за такт делает, а сложные - не реализуешь в базовом конструктиве. Не проще ли от них отказаться и получить классический RISC типа того же ARM (сейчас опять его нелюбители на меня наедут )

Зачем велосипед изобретать, когда давно уже полно массовых RISC-процессоров. И 400МГц у XScale - это ширпотреб давно При копеечном на своременном уровне энергопотреблении (1000мАч с ЖКД с подсветкой у рекордсменов на 15 с лишним часов хватает)
   
1 2 3 4 5

в начало страницы | новое
 
Поиск
Настройки
Твиттер сайта
Статистика
Рейтинг@Mail.ru