Produkt z serii Geforce 9800 GT. Określanie serii produktów kart graficznych Nvidia

technologia (nm)90 80 65/55 tranzystory (M)681 289 210 754 505 314 procesory uniwersalne128 32 16 128 64 32 bloki tekstur32 16 8 64 32 16 mieszanie bloków24 8 16 8 magistrala pamięci384 (64x6)128 (64x2)256 (64x4)128 (64x2) typy pamięciDDR, GDDR2, GDDR3, GDDR4 magistrala systemowa chipaPCI Express 16xPCI-Express 2.0 16x RAMDAC2x400 MHz interfejsyWyjście telewizyjne
Wejście TV (wymaga chipa przechwytującego)
Podwójne łącze 2 x DVI
Wyjście HDTVWyjście telewizyjne
Wejście TV (wymaga chipa przechwytującego)
Podwójne łącze 2 x DVI
Wyjście HDTV
HDMIWyjście telewizyjne
Wejście TV (wymaga chipa przechwytującego)
Podwójne łącze 2 x DVI
Wyjście HDTV
HDMI
DisplayPort shadery wierzchołków4.0 shadery pikseli4.0 dokładność obliczania pikseliFP32 dokładność obliczeń wierzchołkówFP32 formaty teksturFP32)
FP16
I8
DXTC, S3TC
3Dc formaty renderowaniaFP32
FP16
I8
10
Inny MRTJest Wygładzanie krawędziTAA (przezroczysty wielokąt AA)
CSAA 2x-16x
pokolenie Z2x w trybie bez koloru bufor szablonudwustronny technologia cienisprzętowe mapy cieni
optymalizacja cieni geometrycznych

Specyfikacje kart referencyjnych bazujących na rodzinie G8X

mapażeton
opona
Bloki ALU/TMUczęstotliwość rdzenia (MHz)częstotliwość pamięci (MHz)pojemność pamięci (MB)PSP (GB)Kurs Texela (Mtex)wypełnić
szybkość (Mpix)
GeForce 8500 GTG86
PEG16x
16/8 450 400(800) 256 DDR212.8
(128)
3600
GeForce 8600 GTG84
PEG16x
32/16 540 700(1400) 256 GDDR322.4
(128)
8600 4300
GeForce 8600GTSG84
PEG16x
32/16 675 1000(2000) 256 GDDR332.0
(128)
10800 5400
GeForce 8800GTS 320MBG80
PEG16x
96/24 500 800(1600) 320GDDR364.0
(320)
12000 10000
GeForce 8800GTS 640MBG80
PEG16x
96/24 500 800(1600) 640 GDDR364.0
(320)
12000 10000
GeForce 8800 GTXG80
PEG16x
128/32> 575 900(1800) 768 GDDR386.4
(384)
18400 13800
GeForce 8800 UltraG80
PEG16x
128/32 612 1080(2160) 768 GDDR3104.0
(384)
19600 14700
GeForce 8800GT 256MBG92
PEG16x
112/56 600 700(1400) 256 GDDR344.8
(256)
33600 9600
GeForce 8800GT 512MBG92
PEG16x
112/56 600 900(1800) 512 GDDR357.6
(256)
33600 9600
GeForce 8800GTS 512MBG92
PEG16x
128/64 650 1000(2000) 512 GDDR364.0
(256)
41600 10400
GeForce 8800GSG92
PEG16x
96/48 550 800(1600) 384 GDDR338.4
(192)
26400 6600
GeForce 9400 GTG96
PEG16x
16/8 550 800(1600) 256/512 GDDR225.6
(128)
4400 4400
GeForce 9500 GTG96
PEG16x
32/16 550 800(1600) 256/512 GDDR2/GDDR325.6
(128)
8800 4400
GeForce 9600 GSOG92
PEG16x
96/48 550 800(1600) 384 GDDR338.4
(192)
26400 6600
GeForce 9600 GTG94
PEG16x
64/32 650 900(1800) 512 GDDR357.6
(256)
20800 10400
GeForce 9800GTG92
PEG16x
112/56 600 900(1800) 512 GDDR357.6
(256)
33600 9600
GeForce'a 9800 GTXG92
PEG16x
128/64 675 1100(2200) 512 GDDR370.4
(256)
43200 10800
GeForce 9800 GTX+G92
PEG16x
128/64 738 1100(2200) 512/1024 GDDR370.4
(256)
47200 11800
GeForce 9800 GX22xG92
PEG16x
2x(128/64)600 1000(2000) 2x512 GDDR32x64,0
(2x256)
76800 19200
GeForce GTS 250G92
PEG16x
128/64 738 1100(2200) 512/1024 GDDR370.4
(256)
47200 11800
mapażeton
opona
Bloki ALU/TMUczęstotliwość rdzenia (MHz)częstotliwość pamięci (MHz)pojemność pamięci (MB)PSP (GB)Kurs Texela (Mtex)wypełnić
szybkość (Mpix)

Szczegóły: G80, rodzina GeForce 8800

Dane techniczne G80

  • Oficjalna nazwa układu GeForce 8800
  • Nazwa kodowa G80
  • Technologia 90 nm
  • 681 milionów tranzystorów
  • Ujednolicona architektura z szeregiem współdzielonych procesorów do strumieniowego przetwarzania wierzchołków i pikseli, a także innych możliwych typów danych
  • Sprzętowa obsługa najnowszych innowacji DirectX 10, w tym nowego modelu shaderów - Shader Model 4.0, generowania geometrii i rejestrowania danych pośrednich z shaderów (wyjście strumieniowe)
  • 384-bitowa magistrala pamięci, 6 niezależnych kontrolerów o szerokości 64-bitów, obsługa GDDR4
  • Częstotliwość rdzenia 575 GHz (GeForce 8800 GTX)
  • 128 skalarnych zmiennoprzecinkowych jednostek ALU (formaty całkowite i zmiennoprzecinkowe, obsługa IEEE 754 z 32-bitową precyzją FP, MAD+MUL bez utraty zegara)
  • Jednostki ALU działają z ponad dwukrotnie większą częstotliwością (1,35 GHz dla 8800 GTX)
  • 32 jednostki tekstur, obsługa komponentów FP16 i FP32 w teksturach
  • 64 dwuliniowe jednostki filtrujące (tj. możliwe jest dowolne, sprawiedliwe filtrowanie trójliniowe, a także filtrowanie anizotropowe z dwukrotnie większą szybkością)
  • - rozmiar bloku planistycznego - 8x4 (32) pikseli.
  • 6 szerokich bloków ROP (24 piksele) z obsługą trybów antyaliasingu do 16 próbek na piksel, w tym z formatem bufora ramki FP16 lub FP32 (tj. możliwy jest HDR+AA). Każdy blok składa się z szeregu elastycznie konfigurowalnych jednostek ALU i jest odpowiedzialny za generowanie i porównywanie Z, MSAA i mieszanie. Szczytowa wydajność całego podsystemu to aż 96 próbek MSAA (+96 Z) na cykl zegara, w trybie bez koloru (tylko Z) - 192 próbki na cykl.
  • Wszystkie interfejsy znajdują się na zewnętrznym dodatkowym chipie NVIO (2 RAMDAC, 2 Dual DVI, HDMI, HDTV)
  • Bardzo dobra skalowalność architektury, można blokować lub usuwać pamięci i kontrolery ROP pojedynczo (w sumie 6), jednostki cieniujące (łącznie 8 jednostek TMU+ALU)

Specyfikacje karty referencyjnej GeForce 8800 GTX

  • Częstotliwość rdzenia 575 MHz
  • Uniwersalna częstotliwość procesora 1350 MHz
  • Liczba bloków tekstur - 32, bloków mieszania - 24
  • Pojemność pamięci 768 megabajtów
  • Przepustowość pamięci 86,4 gigabajtów na sekundę.
  • Teoretyczna maksymalna szybkość wypełniania wynosi 13,8 gigapiksela na sekundę.
  • Teoretyczna prędkość próbkowania tekstury wynosi 18,4 gigatekseli na sekundę.
  • Złącze SLI
  • Magistrala PCI-Express 16x
  • Sugerowana cena detaliczna 599 dolarów

Specyfikacje karty referencyjnej GeForce 8800 GTS

  • Częstotliwość rdzenia 500 MHz
  • Uniwersalna częstotliwość procesora 1200 MHz
  • Liczba procesorów uniwersalnych 96
  • Liczba bloków tekstur - 24, bloków mieszania - 20
  • Typ pamięci GDDR3, 1,1 ns (standardowa częstotliwość 2*900 MHz)
  • Pojemność pamięci 640 megabajtów
  • Teoretyczna maksymalna szybkość wypełniania wynosi 10,0 gigapikseli na sekundę.
  • Teoretyczna prędkość próbkowania tekstury wynosi 12,0 gigatekseli na sekundę.
  • Dwa złącza DVI-I (Dual Link, obsługuje rozdzielczości wyjściowe do 2560x1600)
  • Złącze SLI
  • Magistrala PCI-Express 16x
  • Wyjście TV, wyjście HDTV, obsługa HDCP
  • Sugerowana cena detaliczna 449 dolarów

Architektura

Długo czekaliśmy na przejście na zunifikowaną architekturę graficzną. Teraz możemy stwierdzić fakt - wraz z pojawieniem się GeForce 8800 nastąpiło to przejście, a szczyt krytyczny został już przekroczony. Następnie nastąpi stopniowe schodzenie podobnych architektur do segmentu średniej i budżetowej oraz ich dalszy rozwój, aż w dłuższej perspektywie do połączenia z architekturami procesorów wielordzeniowych. Zapoznajmy się więc z pierwszą zunifikowaną architekturą firmy NVIDIA:

Mamy przed sobą cały schemat chipa. Układ składa się z 8 uniwersalnych jednostek obliczeniowych (procesorów shaderowych) i choć NVIDIA mówi o 128 procesorach twierdząc, że każda ALU to jedna, to jest to nieco błędne stwierdzenie – jednostką wykonującą polecenia jest taka jednostka procesorowa, w której znajdują się 4 TMU i 16 ALU zgrupowane. W sumie mamy zatem 128 jednostek ALU i 32 TMU, ale szczegółowość wykonania wynosi 8 bloków, z których każdy w pewnym momencie może wykonać swoje własne zadanie, na przykład wykonać część wierzchołka, piksela lub modułu cieniującego geometrię na blok 32 pikseli (lub blok odpowiedniej liczby wierzchołków i innych prymitywów). Wszystkie gałęzie, przejścia, warunki itp. są stosowane w całości do jednego bloku, dlatego najlogiczniej jest nazwać go procesorem cieniującym, choć bardzo szerokim.

Każdy taki procesor jest wyposażony we własną pamięć podręczną pierwszego poziomu, która przechowuje teraz nie tylko tekstury, ale także inne dane, których może zażądać procesor modułu cieniującego. Ważne jest, aby zrozumieć, że główny strumień danych, na przykład piksele lub wierzchołki, które są przetwarzane, poruszając się po okręgu pod kontrolą szarego kardynała (blok zaznaczony na schemacie procesora wątku) nie jest buforowany, ale przepływa , co jest głównym pięknem współczesnych architektur graficznych - brak całkowicie losowego dostępu na poziomie przetworzonych prymitywów.

Oprócz jednostki sterującej i 8 procesorów cieniujących, istnieje 6 jednostek ROP, które wykonują detekcję widoczności, zapisują do bufora ramki i MSAA (niebieskie, obok bloków pamięci podręcznej L2) zgrupowane z kontrolerami pamięci, kolejkami zapisu i drugą- pamięć podręczna poziomu.

Tym samym otrzymaliśmy bardzo szeroką (8 bloków przetwarzających fragmenty po 32 piksele każdy) architekturę zdolną do płynnego skalowania w obu kierunkach. Dodawanie lub usuwanie kontrolerów pamięci i procesorów cieniujących odpowiednio skaluje przepustowość całego systemu bez utraty równowagi i tworzenia wąskich gardeł. To logiczne i piękne rozwiązanie, które realizuje główną zaletę zunifikowanej architektury - automatyczne balansowanie i wysoką efektywność wykorzystania dostępnych zasobów.

Oprócz bloków shaderów i ROP istnieje zestaw bloków kontrolnych i administracyjnych:

  • Bloki uruchamiające do wykonania dane o określonych formatach (Vertex, Geometry i Pixel Thread Issue) są swego rodzaju gatekeeperami, które przygotowują dane dla kruszarki liczb w procesorach shaderowych zgodnie z formatem danych, bieżącym shaderem i jego stanem, warunkami rozgałęzienia, itp.
  • Setup/Raster/ZCull - blok zamieniający wierzchołki na piksele - tutaj przeprowadzana jest instalacja, rasteryzacja trójkąta na bloki po 32 piksele, blok wstępny HSR.
  • Asembler wejściowy to blok, który wybiera geometryczne i inne dane początkowe z pamięci systemowej lub pamięci lokalnej, zbierając początkowe struktury danych ze strumieni, które trafią z zewnątrz na wejście naszej „karuzeli”. I na koniec, po wielu okrążeniach pod kontrolą wierzchołka, geometrii, shadera pikseli i ustawień mieszania, otrzymamy gotowe (i w razie potrzeby wygładzone) piksele z bloków ROP.

Przy okazji mała dygresja: jasne jest, że w przyszłości bloki te nabiorą bardziej ogólnego charakteru i nie będą tak powiązane z konkretnymi typami shaderów. Te. po prostu zamieni się w uniwersalne bloki, które uruchamiają dane do obliczeń i konwersji formatów - na przykład z jednego modułu cieniującego na drugi, z wierzchołka na piksel itp. Nie spowoduje to żadnych zasadniczych zmian w architekturze, schemat będzie wyglądał i działał prawie tak samo, z wyjątkiem mniejszej liczby specjalnych „szarych” bloków. Już teraz wszystkie trzy bloki problemów z wątkiem to najprawdopodobniej (naprawdę) jeden blok ze wspólną funkcjonalnością i dodatkami kontekstowymi:

Procesor Shader i jego TMU/ALU

Zatem w każdej z 8 jednostek cieniujących znajduje się 16 skalarnych jednostek ALU. Co ponownie daje nam potencjalną możliwość zwiększenia wydajności ładowania aż do 100%, niezależnie od kodu modułu cieniującego. Jednostki ALU działają z dwukrotnie większą częstotliwością, a zatem dorównują lub przekraczają (w zależności od operacji modułu cieniującego) 8 czterokierunkowych wektorowych jednostek ALU starego typu (G70) przy tej samej podstawowej częstotliwości rdzenia. NVIDIA udostępnia następujące obliczenia wydajności szczytowej:

Dotyczy to jednak opcji najbardziej niekorzystnej dla innych, gdy mają miejsce dwa mnożenia. W życiu warto tę przewagę podzielić mniej więcej półtora raza. Ale w każdym razie te skalarne jednostki ALU, ze względu na wyższą częstotliwość taktowania i ich liczbę, przewyższą wszystkie wcześniej istniejące chipy. Z możliwym wyjątkiem konfiguracji SLI G71, w przypadku shaderów, które nie są najkorzystniejsze dla nowej architektury.

Co ciekawe, precyzja wszystkich jednostek ALU wynosi FP32 i biorąc pod uwagę nową architekturę, nie przewidujemy żadnych korzyści dla shaderów FP16 o zmniejszonej precyzji. Kolejnym interesującym punktem jest obsługa obliczeń w formacie całkowitym. Ten element jest wymagany do wdrożenia SM4. Przy wdrażaniu arytmetyki przestrzegany jest standard IEEE 754, dzięki czemu nadaje się on do poważnych obliczeń niezwiązanych z grami - naukowych, statystycznych, ekonomicznych itp.

Teraz o interakcji jednostek tekstur i jednostek ALU w ramach jednej jednostki cieniującej:

Operacja próbkowania i filtrowania tekstur nie wymaga zasobów ALU i może być teraz wykonywana całkowicie równolegle z obliczeniami matematycznymi. Generowanie współrzędnych tekstury (na schemacie - A) nadal zajmuje część czasu ALU. Jest to logiczne, jeśli chcemy w 100% wykorzystać tranzystory chipa, ponieważ generowanie współrzędnych tekstury wymaga standardowych operacji pływających i nierozsądne byłoby posiadanie dla niego oddzielnych jednostek ALU.

Same moduły tekstur mają następującą konfigurację:

Dostępne są 4 moduły do ​​adresowania tekstur TA (ustalanie dokładnego adresu do próbkowania po współrzędnych) i dwa razy więcej modułów do dwuliniowego filtrowania TF. Dlaczego? Pozwala to, przy umiarkowanym zużyciu tranzystora, zapewnić swobodne, uczciwe filtrowanie trójliniowe lub zmniejszyć o połowę spadek prędkości podczas filtrowania anizotropowego. Szybkość w zwykłych rozdzielczościach, przy regularnym filtrowaniu i bez AA już dawno nie miała sensu – a poprzednia generacja akceleratorów radzi sobie w takich warunkach świetnie. Nowy chip obsługuje zarówno formaty tekstur FP16/FP32, jak i korekcję gamma SRGB na wejściu (TMU) i wyjściu (ROP).

Oto specyfikacja modelu shaderów nowych procesorów spełniających wymagania SM4:

Następują istotne zmiany ilościowe i jakościowe – coraz mniej ograniczeń dla shaderów, coraz więcej wspólnego z CPU. Na razie bez specjalnego losowego dostępu (taka operacja pojawiła się w SM4 - na schemacie pozycja Load Op, ale jej skuteczność w celach ogólnych jest nadal wątpliwa, szczególnie w pierwszych wdrożeniach), ale nie ma wątpliwości, że ten aspekt będzie wkrótce zostanie opracowany, ponieważ przez te 5 lat rozwijano obsługę formatów FP – od pierwszych próbek w NV30 do całościowego, kompleksowego rurociągu FP32 we wszystkich trybach obecnie w G80.

Jak pamiętamy oprócz 8 jednostek cieniujących istnieje 6 jednostek ROP:

Diagram przedstawia dwie oddzielne ścieżki dla Z i C, ale w rzeczywistości jest to tylko jeden zestaw jednostek ALU, które dzielą się na dwie grupy podczas przetwarzania kolorowych pikseli lub działają jako jedna grupa podczas przetwarzania w trybie Z-Only, podwajając w ten sposób przepustowość. W dzisiejszych czasach nie ma sensu liczyć pojedynczych pikseli - jest ich już wystarczająco dużo, ważniejsze jest obliczenie, ile próbek MSAA można przetworzyć w jednym cyklu zegara. Odpowiednio, przy MSAA 16x, chip może wytworzyć 6 pełnych pikseli na cykl zegara, przy 8x - 12 itd. Co ciekawe, skalowalność pracy z buforem ramki jest znakomita – jak pamiętamy, każda jednostka ROP współpracuje z własnym kontrolerem pamięci i nie koliduje z sąsiednimi.

I wreszcie, dostępna jest pełna obsługa formatów buforów ramek FP32 i FP16 wraz z antyaliasingiem, teraz nie ma ograniczeń dla wyobraźni programistów, a HDR w całym potoku nie wymaga zmiany ogólnej sekwencji konstrukcji klatek, nawet w trybie AA .

CSAA

Pojawiła się także nowa metoda wygładzania - CSAA. Szczegółowe badanie tego będzie wkrótce na stronie, ale na razie zauważamy, że metoda ta jest pod wieloma względami podobna do podejścia ATI i również zajmuje się wzorami pseudostochastycznymi i rozprzestrzenianiem się próbek do sąsiednich stref geometrycznych (piksel jest rozmazane, piksele nie mają ostrej granicy, ale wydają się przesuwać jeden w drugi z punktem AA, obejmującym pewien obszar). Co więcej, kolory próbek i głębokość są przechowywane oddzielnie od informacji o ich lokalizacji, dzięki czemu na piksel może przypadać 16 próbek, ale np. tylko 8 obliczonych wartości głębi - co dodatkowo oszczędza przepustowość i cykle zegara.

Wiadomo, że klasyczne MSAA w trybach większych niż 4x staje się bardzo wymagające pod względem pamięci, natomiast jakość rośnie coraz mniej. Nowa metoda koryguje ten problem, dzięki czemu antyaliasing 16x jest zauważalnie lepszy niż 16x MSAA, przy kosztach obliczeniowych porównywalnych z 4x MSAA.

NVIO

Kolejną innowacją w G80 są interfejsy umieszczone na zewnątrz głównego chipa akceleratora. Odpowiada za nie teraz osobny chip o nazwie NVIO:

Ten chip integruje:

  • RAMDAC 2*400 MHz
  • 2 * Dual Link DVI (lub LVDS)
  • Wyjście HDTV

Podsystem wyjściowy wygląda następująco:

Dokładność wynosi zawsze 10 bitów na komponent. Oczywiście w segmencie średniej półki, a zwłaszcza w rozwiązaniach budżetowych, może nie pozostać osobny, zewnętrzny chip, ale w przypadku drogich kart takie rozwiązanie ma więcej zalet niż wad. Interfejsy zajmują znaczną powierzchnię chipa, są w dużym stopniu zależne od zakłóceń i wymagają specjalnego zasilania. Eliminując wszystkie te problemy za pomocą zewnętrznego chipa, można zyskać na jakości sygnału wyjściowego i elastyczności konfiguracji, a także nie komplikować projektu już złożonego chipa, biorąc pod uwagę optymalne tryby dla wbudowanych w chip RAMDAC.

Szczegóły: rodziny G84/G86, GeForce 8600 i 8500

Dane techniczne G84

  • Oficjalna nazwa układu to GeForce 8600
  • Nazwa kodowa G84
  • Technologia 80 nm
  • 289 milionów tranzystorów
  • Taktowanie rdzenia do 675 MHz (GeForce 8600 GTS)
  • Jednostki ALU działają z ponad dwukrotnie większą częstotliwością (1,45 GHz dla GeForce 8600 GTS)
  • 16 jednostek tekstur, obsługa komponentów FP16 i FP32 w teksturach
  • 16 dwuliniowych bloków filtrujących (w porównaniu do G80 nie ma swobodnego filtrowania trójliniowego i filtrowania anizotropowego, które byłoby bardziej wydajne pod względem szybkości)
  • Możliwość dynamicznych rozgałęzień w shaderach pikseli i wierzchołków
  • Rejestruj wyniki z maksymalnie 8 buforów ramek jednocześnie (MRT)

Specyfikacje karty referencyjnej GeForce 8600 GTS

  • Częstotliwość rdzenia 675 MHz
  • Uniwersalna częstotliwość procesora 1450 MHz
  • Typ pamięci GDDR3
  • Pojemność pamięci 256 megabajtów
  • Przepustowość pamięci 32,0 gigabajtów na sekundę.
  • Teoretyczna maksymalna szybkość wypełniania wynosi 5,4 gigapiksela na sekundę.
  • Teoretyczna prędkość próbkowania tekstury wynosi 10,8 gigateksela na sekundę.
  • Pobór mocy do 71 W
  • Złącze SLI
  • Magistrala PCI-Express 16x
  • Wyjście TV, wyjście HDTV, obsługa HDCP
  • Sugerowana cena 199-229 dolarów

Specyfikacje karty referencyjnej GeForce 8600 GT

  • Częstotliwość rdzenia 540 MHz
  • Uniwersalna częstotliwość procesora 1180 MHz
  • Liczba procesorów uniwersalnych 32
  • Liczba bloków teksturujących 16 (patrz syntetyki), bloki mieszające 8
  • Typ pamięci GDDR3
  • Pojemność pamięci 256 megabajtów
  • Przepustowość pamięci 22,4 gigabajtów na sekundę.
  • Teoretyczna maksymalna szybkość wypełniania wynosi 4,3 gigapiksela na sekundę.
  • Teoretyczna prędkość próbkowania tekstury wynosi 8,6 gigateksela na sekundę.
  • Pobór mocy do 43 W
  • Złącze SLI
  • Magistrala PCI-Express 16x
  • Sugerowana cena 149-159 dolarów

Dane techniczne G86

  • Oficjalna nazwa układu to GeForce 8500
  • Nazwa kodowa G86
  • Technologia 80 nm
  • 210 milionów tranzystorów
  • Ujednolicona architektura z szeregiem współdzielonych procesorów do strumieniowego przetwarzania wierzchołków i pikseli, a także innych typów danych
  • Sprzętowa obsługa DirectX 10, w tym nowy model modułu cieniującego Shader Model 4.0, generowanie geometrii i rejestrowanie danych pośrednich z shaderów (wyjście strumieniowe)
  • 128-bitowa magistrala pamięci, dwa niezależne kontrolery o szerokości 64 bitów
  • Taktowanie rdzenia do 450 MHz (GeForce 8500 GT)
  • Jednostki ALU działają z podwójną częstotliwością (900 MHz dla GeForce 8500 GT)
  • 16 skalarnych zmiennoprzecinkowych jednostek ALU (formaty całkowite i zmiennoprzecinkowe, obsługa IEEE 754 z 32-bitową precyzją FP, MAD+MUL bez utraty zegara)
  • 8 jednostek tekstur, obsługa komponentów FP16 i FP32 w teksturach
  • 8 dwuliniowych bloków filtrujących (w porównaniu do G80 nie ma swobodnego filtrowania trójliniowego i bardziej wydajnego filtrowania anizotropowego)
  • Możliwość dynamicznych rozgałęzień w shaderach pikseli i wierzchołków
  • 2 szerokie bloki ROP (8 pikseli) z obsługą trybów antyaliasingu do 16 próbek na piksel, w tym z formatem bufora ramki FP16 lub FP32. Każdy blok składa się z szeregu elastycznie konfigurowalnych jednostek ALU i jest odpowiedzialny za generowanie i porównywanie Z, MSAA i mieszanie. Szczytowa wydajność całego podsystemu do 32 próbek MSAA (+ 32 Z) na zegar, w trybie tylko Z 64 próbki na zegar
  • Rejestruj wyniki z maksymalnie 8 buforów ramek jednocześnie (MRT)
  • Wszystkie interfejsy (dwa RAMDAC, dwa Dual DVI, HDMI, HDTV) są zintegrowane w chipie (w przeciwieństwie do tych umieszczonych na zewnętrznym dodatkowym chipie NVIO w GeForce 8800)

Specyfikacje karty referencyjnej GeForce 8500 GT

  • Częstotliwość rdzenia 450 MHz
  • Uniwersalna częstotliwość procesora 900 MHz
  • Efektywna częstotliwość pamięci 800 MHz (2*400 MHz)
  • Typ pamięci DDR2
  • Pojemność pamięci 256/512 megabajtów
  • Przepustowość pamięci 12,8 gigabajtów na sekundę.
  • Teoretyczna maksymalna szybkość wypełniania wynosi 3,6 gigapiksela na sekundę.
  • Teoretyczna prędkość próbkowania tekstury wynosi 3,6 gigateksela na sekundę.
  • Pobór mocy do 40 W
  • Dwa złącza DVI-I Dual Link, obsługują rozdzielczości wyjściowe do 2560x1600)
  • Złącze SLI
  • Magistrala PCI-Express 16x
  • Wyjście TV, wyjście HDTV, opcjonalna obsługa HDCP
  • Sugerowana cena 89-129 dolarów

Architektura G84 i G86

Już ze specyfikacji jasno wynika, że ​​G84 to coś pomiędzy jedną czwartą a jedną trzecią flagowca z linii G80. Pod względem liczby procesorów uniwersalnych jest to jedna czwarta, a pod względem liczby jednostek ROP i kontrolerów pamięci jest to jedna trzecia. Trudniej jest z jednostkami tekstur; wydaje się, że nie jest to ćwiartka, ale też nie połowa, porozmawiamy o tym poniżej. G86 z kolei jest w sumie czymś ciekawym – pod względem mocy obliczeniowej to zaledwie 1/8 G80, a pod względem ROP to wciąż ta sama 1/3. Oczywiście NVIDIA nie spieszy się z wypuszczeniem na rynek chipów z niższej półki, które są szybkie obliczeniowo.

Podstawowe pytanie brzmi: czy ten sam kwartał i 1/8 wystarczą, aby konkurować z obecnymi rozwiązaniami i przyszłymi chipami AMD? Czy NVIDIA za bardzo obniżyła liczbę bloków? Co więcej, nie można powiedzieć, że oba chipy są za małe pod względem liczby tranzystorów... G84 ma prawie połowę tranzystorów G80, a G86 prawie jedną trzecią. Wydaje się, że rozwiązaniem jest kompromis; gdyby pozostawiono połowę bloków G80, chip byłby zbyt drogi w produkcji i byłby skutecznym konkurentem własnego GeForce 8800 GTS.

W najbliższej przyszłości najprawdopodobniej w oparciu o technologię 65 nm będzie można produkować bardziej produktywne chipy ze średniej i niższej półki cenowej, ale na razie tak się stało. Przyjrzymy się wydajności nowych układów w testach syntetycznych i grach, ale już teraz możemy powiedzieć, że G84 i G86 ze względu na małą liczbę jednostek ALU mogą nie być zbyt szybkie, a najprawdopodobniej będą w przybliżeniu porównywalne z obecnymi rozwiązaniami podobnych cenach.

Nie będziemy rozwodzić się nad architekturą G84 i G86 zbyt szczegółowo, zmian jest niewiele w porównaniu do G80, wszystko, co powiedziano w recenzji GeForce 8800, skorygowane pod kątem cech ilościowych, pozostaje aktualne. Mimo to opiszemy główne punkty, na które warto zwrócić uwagę i zaprezentujemy kilka slajdów poświęconych specyfikacjom architektonicznym nowych chipów.

G80 składa się z ośmiu uniwersalnych jednostek obliczeniowych (procesorów shaderowych); NVIDIA woli mówić o 128 procesorach. Jednostka wykonująca polecenia to najwyraźniej cała jednostka procesorowa, w której zgrupowane są 4 jednostki TMU i 16 jednostek ALU. Każdy z bloków w jednym momencie może wykonać część modułu cieniującego wierzchołków, pikseli lub geometrii na bloku 32 pikseli, wierzchołków lub innych prymitywów, a także może wykonywać obliczenia fizyczne. Każdy procesor ma własną pamięć podręczną poziomu 1, w której przechowywane są tekstury i inne dane. Oprócz jednostki sterującej i obliczeniowych procesorów cieniujących istnieje sześć jednostek ROP, które wykonują wykrywanie widoczności, zapisują do bufora ramki i MSAA, zgrupowane z kontrolerami pamięci, kolejkami zapisu i pamięcią podręczną drugiego poziomu.

Architektura ta umożliwia skalowanie w obie strony, co zostało zrobione w nowych rozwiązaniach. O tym pięknym rozwiązaniu, które realizuje główną zaletę zunifikowanej architektury – automatyczne balansowanie i wysoką efektywność wykorzystania dostępnych zasobów – wspominaliśmy już w artykule o GeForce 8800. Założono również, że rozwiązanie średniego poziomu będzie składać się z połowy jednostek obliczeniowych, a rozwiązanie będzie oparte na dwóch procesorach shaderowych i jednym ROP, stanie się budżetowe. Niestety, choć GeForce 8800 miał osiem procesorów, co stanowiło 32 TMU i 128 ALU, nowe chipy zmniejszyły ich liczbę bardziej, niż początkowo oczekiwaliśmy. Najwyraźniej obwód G84 wygląda następująco:

Oznacza to, że wszystko pozostało niezmienione, z wyjątkiem liczby bloków i kontrolerów pamięci. Na tym obrazku można zauważyć pewne drobne zmiany w blokach tekstur, ale porozmawiamy o tym później. Ciekawe, gdzie poszło tak wiele tranzystorów, skoro w G84 pozostały tylko 32 procesory? G84 ma prawie połowę tranzystorów w porównaniu do G80, przy znacznie zmniejszonej liczbie kanałów pamięci, ROP i procesorów cieniujących. A G86 ma mnóstwo tranzystorów i tylko 16 procesorów...

Ciekawe jest również, jak dobrze w rzeczywistych zastosowaniach obciążenie zostanie zrównoważone pomiędzy wykonaniem shaderów wierzchołków, pikseli i geometrii, ponieważ liczba uniwersalnych jednostek wykonawczych stała się obecnie znacznie mniejsza. Co więcej, sama ujednolicona architektura stawia nowe wyzwania przed programistami; korzystając z niej, będą musieli zastanowić się, jak efektywnie wykorzystać wspólną moc shaderów wierzchołków, pikseli i geometrii. Podajmy prosty przykład, skupiając się na obliczeniach pikseli. W tym przypadku zwiększenie obciążenia bloków wierzchołków w tradycyjnej architekturze nie doprowadzi do spadku wydajności, ale w architekturze zunifikowanej spowoduje zmianę równowagi i zmniejszenie ilości zasobów do obliczeń pikseli. Na pewno przyjrzymy się kwestii wydajności, a teraz będziemy nadal badać zmiany w architekturze G84 i G86.

Procesor cieniujący i TMU/ALU

Schemat jednostek cieniujących i ocenę ich szczytowej wydajności obliczeniowej G80 podano w odpowiednim artykule, w przypadku G84 i G86 schemat się nie zmienił, a ich wydajność można łatwo przeliczyć. Jednostki ALU w chipach również działają z dwukrotnie większą częstotliwością i są skalarne, co pozwala na wysoką wydajność. Nie ma różnic w funkcjonalności, dokładność wszystkich jednostek ALU wynosi FP32, istnieje obsługa obliczeń w formacie całkowitym, a implementacja jest zgodna ze standardem IEEE 754, który jest ważny dla obliczeń naukowych, statystycznych, ekonomicznych i innych.

Ale moduły tekstur uległy zmianie w porównaniu do tych zastosowanych w G80; NVIDIA zapewnia, że ​​w nowych chipach wprowadzono zmiany architektoniczne, aby zwiększyć wydajność zunifikowanych procesorów. W G80 każdy silnik tekstur mógł obliczyć cztery adresy tekstur i wykonać osiem operacji filtrowania tekstur na cykl zegara. Twierdzi się, że w nowych chipach pierwsza liczba została podwojona i jest w stanie pomieścić dwukrotnie większą liczbę próbek tekstur. Oznacza to, że moduły tekstur G84 i G86 mają następującą konfigurację (dla porównania schemat blokowy G80 pokazano po lewej stronie):

Według Nvidii teraz każdy z bloków ma osiem modułów adresowania tekstur (określających dokładny adres do próbkowania za pomocą współrzędnych) TA i dokładnie taką samą liczbę modułów filtrowania dwuliniowego (TF). G80 posiadał cztery moduły TA i osiem modułów TF, co umożliwiło zapewnienie „swobodnej” filtracji trójliniowej przy zmniejszonym zużyciu tranzystora lub zmniejszenie o połowę spadku prędkości podczas filtrowania anizotropowego, co jest przydatne szczególnie w przypadku akceleratorów najwyższego poziomu, gdzie filtrowanie anizotropowe jest prawie zawsze używane przez użytkowników. Poprawność tych informacji sprawdzimy w części praktycznej, koniecznie spójrz na analizę odpowiednich testów syntetycznych, ponieważ zaprzeczają one tym danym.

Cała pozostała funkcjonalność jednostek tekstur jest taka sama, obsługiwane są formaty tekstur FP16/FP32 i inne.Tylko jeśli w G80 FP16 filtrowanie tekstur również działało na pełnych obrotach ze względu na podwojoną liczbę jednostek filtrujących, nie ma to już miejsca w połowie - i rozwiązania niskopoziomowe (znowu pod warunkiem, że powyższe zmiany rzeczywiście istnieją).

Bloki ROP, zapisuje bufor ramki, wygładzanie

Bloki ROP, których było sześć w G80, a dwa w nowych chipach, nie uległy zmianie:

Każdy blok przetwarza cztery piksele (16 subpikseli), co daje w sumie 8 pikseli na zegar dla koloru i Z. W trybie tylko Z przetwarzanych jest dwa razy więcej próbek na zegar. Przy MSAA 16x chip może wytworzyć dwa piksele na cykl zegara, przy 4x × 8 itd. Podobnie jak G80, dostępna jest pełna obsługa formatów buforów ramek FP32 i FP16 wraz z antyaliasingiem.

Nowa metoda antyaliasingu znana z GeForce 8800 to Coverage Sampled Antialiasing (CSAA), która została szczegółowo opisana w odpowiednim materiale:

W skrócie istota tej metody polega na tym, że przykładowe kolory i głębia są przechowywane oddzielnie od informacji o ich lokalizacji; jeden piksel może mieć 16 próbek i tylko 8 obliczonych wartości głębi, co oszczędza przepustowość i cykle zegara. CSAA pozwala uniknąć przesyłania i przechowywania pojedynczego koloru lub wartości Z na subpiksel, doprecyzowując średnią wartość piksela ekranu za pomocą bardziej szczegółowych informacji o tym, jak ten piksel zachodzi na krawędzie trójkątów. Dzięki temu nowa metoda pozwala uzyskać tryb antyaliasingu 16x, który jest zauważalnie wyższą jakością niż MSAA 4x, przy porównywalnych kosztach obliczeniowych. W rzadkich przypadkach, gdy CSAA nie działa, efektem jest normalne MSAA w mniejszym stopniu, a nie brak wygładzania.

PureVideo HD

Przejdźmy do najciekawszych zmian. Okazuje się, że G84 i G86 posiadają innowacje, które odróżniają je nawet od G80! Dotyczy to wbudowanego procesora wideo, który w nowych chipach rozszerzył obsługę PureVideo HD. Stwierdza się, że chipy te całkowicie odciążają centralny procesor systemu przy dekodowaniu wszystkich typów popularnych danych wideo, w tym najbardziej „ciężkiego” formatu H.264.

W modelach G84 i G86 zastosowano nowy model programowalnego procesora wideo PureVideo HD, mocniejszy od tego zastosowanego w G80 i wyposażony w tzw. silnik BSP. Nowy procesor obsługuje dekodowanie formatów H.264, VC-1 i MPEG-2 w rozdzielczościach do 1920x1080 i przepływności do 30-40 Mbps, wykonuje całą pracę związaną z dekodowaniem danych CABAC i CAVLC sprzętowo, co pozwala na odtwarzanie wszystkie istniejące dyski HD-DVD i Blu-ray, nawet na jednordzeniowych komputerach PC o średniej mocy.

Procesor wideo w G84/G86 składa się z kilku części: procesora wideo drugiej generacji (VP2), który wykonuje zadania IDCT, kompensacji ruchu i usuwania artefaktów blokujących dla formatów MPEG2, VC-1 i H.264, obsługując dekodowanie sprzętowe drugiego strumienia; procesor strumieniowy (BSP), który wykonuje zadania dekodowania statystycznego CABAC i CAVLC dla formatu H.264, a to jedne z najbardziej czasochłonnych obliczeń; Silnik dekodujący dane chroniony AES128, którego cel jest jasny od nazwy - odszyfrowuje dane wideo wykorzystywane w zabezpieczeniu przed kopiowaniem na płytach Blu-ray i HD-DVD. Tak wyglądają różnice w stopniu obsługi sprzętowej dekodowania wideo na różnych układach wideo:

Zadania wykonywane przez chip wideo są podświetlone na niebiesko, a zadania wykonywane przez centralny procesor na zielono. Jak widać, jeśli poprzednia generacja pomagała procesorowi tylko w niektórych zadaniach, to nowy procesor wideo zastosowany w najnowszych chipach sam poradzi sobie ze wszystkimi zadaniami. Skuteczność rozwiązań sprawdzimy w przyszłych materiałach z badania efektywności sprzętowego dekodowania wideo; NVIDIA podaje w materiałach następujące dane: przy zastosowaniu nowoczesnego dwurdzeniowego procesora i programowego dekodowania danych, odtwarzaniu Blu-ray i HD -Płyty DVD zużywają do 90-100% czasu procesora, przy dekodowaniu sprzętowym na chipie wideo poprzedniej generacji w tym samym systemie do 60-70%, a przy nowym silniku opracowanym dla G84 i G86 tylko 20% . To oczywiście nie wygląda jak deklarowane pełne dekodowanie sprzętowe, ale nadal jest bardzo, bardzo skuteczne.

W momencie ogłoszenia nowe funkcje, które pojawiły się w PureVideo HD, działają tylko w 32-bitowej wersji systemu Windows Vista, a obsługa PureVideo HD w Windows XP pojawi się dopiero latem. Jeśli chodzi o jakość odtwarzania wideo, postprocessingu, usuwania przeplotu itp., NVIDIA poprawiła swoją wydajność nawet w GeForce 8800 i nowe chipy nie różnią się pod tym względem.

CUDA, obliczenia inne niż gry i fizyka

W artykule na temat GeForce 8800 wspomniano, że zwiększona wydajność szczytowa arytmetyki pływającej w nowych akceleratorach oraz elastyczność zunifikowanej architektury shaderów stały się wystarczające do obliczeń fizyki w aplikacjach do gier i nawet poważniejszych zadań: modelowania matematycznego i fizycznego, ekonomicznego i statystycznego modele i obliczenia, rozpoznawanie obrazów, przetwarzanie obrazów, grafika naukowa i wiele więcej. W tym celu wydano specjalne API zorientowane obliczeniowo, które ułatwia adaptację i rozwój programów przenoszących obliczenia do GPU CUDA (Compute Unified Device Architecture).

Więcej informacji na temat CUDA znajduje się w artykule o G80, my skupimy się na kolejnym modnym ostatnio trendzie - wsparciu obliczeń fizycznych na GPU. NVIDIA nazywa swoją podobną technologię Quantum Effects. Deklaruje się, że wszystkie układy wideo nowej generacji, w tym rozważane obecnie G84 i G86, dobrze nadają się do tego rodzaju obliczeń, umożliwiając przeniesienie części obciążenia z procesora na procesor graficzny. Konkretne przykłady obejmują symulacje dymu, ognia, eksplozji, dynamiki włosów i odzieży, futra i płynów oraz wiele innych. Ale na razie chcę napisać więcej o czymś innym. Fakt, że na razie pokazywane są nam jedynie obrazy z aplikacji testowych z dużą liczbą obiektów fizycznych obliczonych przez chipy wideo, a o grach z takim wsparciem nie ma jeszcze nawet mowy.

Obsługa interfejsów zewnętrznych

Jak pamiętamy, GeForce 8800 nieco zaskoczył kolejną niespodziewaną innowacją – dodatkowym chipem obsługującym zewnętrzne interfejsy poza głównym. W przypadku topowych kart graficznych zadania te realizuje oddzielny układ o nazwie NVIO, w którym integruje się: dwa RAMDAC-y 400 MHz, dwa Dual Link DVI (lub LVDS), wyjście HDTV. Już wtedy zakładaliśmy, że osobny, zewnętrzny chip raczej nie przetrwa w środkowym i dolnym segmencie i rzeczywiście tak się stało. W modelach G84 i G86 obsługa wszystkich tych interfejsów jest wbudowana w sam chip.

GeForce 8600 GTS posiada dwa wyjścia Dual Link DVI-I z obsługą HDCP; jest to pierwsza karta graficzna na rynku o podobnych możliwościach (łącznie HDCP i Dual Link). Jeśli chodzi o HDMI, obsługa tego złącza jest w pełni zaimplementowana sprzętowo i może być zaimplementowana przez producentów na specjalnie zaprojektowanych kartach. Jednak obsługa HDCP i HDMI w GeForce 8600 GT i 8500 GT jest opcjonalna, ale mogą zostać zaimplementowane przez poszczególnych producentów w ich produktach.

Szczegóły: G92, rodzina GeForce 8800

Dane techniczne G92

  • Chip o nazwie kodowej G92
  • Technologia 65 nm
  • 754 miliony tranzystorów (więcej niż G80)
  • Ujednolicona architektura z szeregiem współdzielonych procesorów do strumieniowego przetwarzania wierzchołków i pikseli, a także innych typów danych
  • Częstotliwość rdzenia 600 MHz (GeForce 8800 GT)
  • Jednostki ALU działają z ponad dwukrotnie większą częstotliwością (1,5 GHz dla GeForce 8800 GT)
  • 112 (dotyczy GeForce 8800 GT, ale w sumie prawdopodobnie 128) skalarnych zmiennoprzecinkowych jednostek ALU (formaty całkowite i zmiennoprzecinkowe, obsługa FP z precyzją 32-bitową w standardzie IEEE 754, MAD+MUL bez utraty zegara)
  • 56 (64) jednostek adresowania tekstur z obsługą komponentów FP16 i FP32 w teksturach (patrz wyjaśnienie poniżej)
  • 56 (64) dwuliniowych jednostek filtrujących (takich jak G84 i G86, brak swobodnego filtrowania trójliniowego i bardziej wydajne filtrowanie anizotropowe)
  • Możliwość dynamicznych rozgałęzień w shaderach pikseli i wierzchołków
  • Rejestruj wyniki z maksymalnie 8 buforów ramek jednocześnie (MRT)
  • Wszystkie interfejsy (dwa RAMDAC, dwa Dual DVI, HDMI, HDTV) są zintegrowane w chipie (w przeciwieństwie do tych umieszczonych na zewnętrznym dodatkowym chipie NVIO w GeForce 8800)

Specyfikacje karty referencyjnej GeForce 8800 GT 512MB

  • Częstotliwość rdzenia 600 MHz
  • Efektywna częstotliwość pamięci 1,8 GHz (2*900 MHz)
  • Typ pamięci GDDR3
  • Pojemność pamięci 512 megabajtów
  • Pobór mocy do 110 W
  • Dwa złącza DVI-I Dual Link obsługują rozdzielczości wyjściowe do 2560x1600
  • Złącze SLI
  • Magistrala PCI Express 2.0
  • Wyjście TV, wyjście HDTV, obsługa HDCP
  • Sugerowana cena detaliczna 249 dolarów

Specyfikacje karty referencyjnej GeForce 8800 GT 256MB

  • Częstotliwość rdzenia 600 MHz
  • Uniwersalna częstotliwość procesora 1500 MHz
  • Liczba procesorów uniwersalnych 112
  • Liczba bloków tekstury 56, bloków mieszania 16
  • Efektywna częstotliwość pamięci 1,4 GHz (2*700 MHz)
  • Typ pamięci GDDR3
  • Pojemność pamięci 256 megabajtów
  • Przepustowość pamięci wynosi 44,8 gigabajtów na sekundę.
  • Teoretyczna maksymalna szybkość wypełniania wynosi 9,6 gigapiksela na sekundę.
  • Teoretyczna prędkość próbkowania tekstury do 33,6 gigatekseli na sekundę.
  • Pobór mocy do 110 W
  • Dwa złącza DVI-I Dual Link obsługują rozdzielczości wyjściowe do 2560x1600
  • Złącze SLI
  • Magistrala PCI Express 2.0
  • Wyjście TV, wyjście HDTV, obsługa HDCP
  • Sugerowana cena detaliczna 199 dolarów

Specyfikacje karty referencyjnej GeForce 8800 GTS 512MB

  • Częstotliwość rdzenia 650 MHz
  • Liczba procesorów uniwersalnych 128
  • Efektywna częstotliwość pamięci 2,0 GHz (2*1000 MHz)
  • Typ pamięci GDDR3
  • Pojemność pamięci 512 megabajtów
  • Przepustowość pamięci 64,0 gigabajtów na sekundę.
  • Teoretyczna prędkość próbkowania tekstury do 41,6 gigatekseli na sekundę.
  • Dwa złącza DVI-I Dual Link obsługują rozdzielczości wyjściowe do 2560x1600
  • Złącze SLI
  • Magistrala PCI Express 2.0
  • Wyjście TV, wyjście HDTV, obsługa HDCP
  • Sugerowana cena 349-399 dolarów

Architektura chipa G92

Architektonicznie G92 nie różni się zbytnio od G80. Z tego co wiemy możemy powiedzieć, że G92 to okręt flagowy linii (G80), przeniesiony do nowego procesu technologicznego, z niewielkimi zmianami. NVIDIA wskazuje w swoich materiałach, że chip ma 7 dużych jednostek cieniujących i odpowiednio 56 jednostek tekstur, a także cztery szerokie ROP, liczba tranzystorów w chipie budzi podejrzenia, że ​​nic one nie mówią. Zapowiadane początkowo rozwiązania nie obejmują wszystkich bloków, które fizycznie istnieją w chipie; ich liczba w G92 jest większa niż ta aktywna w GeForce 8800 GT. Chociaż zwiększoną złożoność chipa tłumaczy się włączeniem wcześniej oddzielnego chipa NVIO, a także procesora wideo nowej generacji. Ponadto na liczbę tranzystorów wpływ miały także bardziej złożone jednostki TMU. Prawdopodobne jest również, że powiększono pamięci podręczne, aby zwiększyć efektywność wykorzystania 256-bitowej magistrali pamięci.

Tym razem, chcąc konkurować z odpowiadającymi im chipami AMD, NVIDIA zdecydowała się pozostawić w chipie ze średniej półki dość dużą liczbę bloków. Potwierdziło się nasze założenie z recenzji G84 i G86, że w oparciu o technologię 65 nm wypuszczone zostaną znacznie mocniejsze chipy ze średniej półki cenowej. W chipie G92 wprowadzono kilka zmian architektonicznych i nie będziemy się nad tym szczegółowo rozwodzić. Wszystko, co zostało powiedziane powyżej na temat rozwiązań z serii GeForce 8, pozostaje w mocy; powtórzymy tylko niektóre z głównych punktów poświęconych specyfikacji architektonicznej nowego chipa.

Dla nowego rozwiązania NVIDIA udostępnia w swoich dokumentach następujący diagram:

Czyli ze wszystkich zmian tylko zmniejszona liczba bloków i pewne zmiany w TMU, które opisano poniżej. Jak wskazano powyżej, istnieją wątpliwości, czy tak jest fizycznie, ale podajemy opis na podstawie tego, co pisze NVIDIA. G92 składa się z siedmiu uniwersalnych jednostek obliczeniowych (procesorów shaderowych), NVIDIA tradycyjnie mówi o 112 procesorach (przynajmniej w pierwszych rozwiązaniach GeForce 8800 GT). Każdy z bloków, w którym zgrupowanych jest 8 TMU i 16 ALU, może wykonać część modułu cieniującego wierzchołków, pikseli lub geometrii na bloku 32 pikseli, wierzchołków lub innych prymitywów, a także może wykonywać inne (nie graficzne) obliczenia. Każdy procesor ma własną pamięć podręczną poziomu 1, w której przechowywane są tekstury i inne dane. Oprócz jednostki sterującej i procesorów cieniujących, istnieją cztery jednostki ROP, które wykonują wykrywanie widoczności, zapisują do bufora ramki i MSAA, zgrupowane z kontrolerami pamięci, kolejkami zapisu i pamięcią podręczną drugiego poziomu.

Procesory ogólnego przeznaczenia i TMU

Schemat jednostek cieniujących i ocenę ich szczytowej wydajności obliczeniowej G80 podano w odpowiednim artykule, w przypadku G92 nie uległo to zmianie; ich wydajność można łatwo przeliczyć na podstawie zmian częstotliwości zegara. Jednostki ALU w chipach pracują z ponad dwukrotnie większą częstotliwością, są skalarne, co pozwala na wysoką wydajność. Nadal nie wiadomo, jakie są różnice funkcjonalne, czy w tym chipie dostępna jest dokładność obliczeń FP64, czy nie. Zdecydowanie istnieje wsparcie dla obliczeń w formacie całkowitym, a realizacja wszystkich obliczeń jest zgodna ze standardem IEEE 754, który jest ważny w obliczeniach naukowych, statystycznych, ekonomicznych i innych.

Jednostki tekstur w G92 nie są takie same jak te w G80, są zgodne z rozwiązaniem TMU w G84 i G86, w których wprowadzono zmiany architektoniczne w celu zwiększenia wydajności. Przypomnijmy, że w G80 każda jednostka teksturująca mogła obliczyć cztery adresy tekstur i wykonać osiem operacji filtrowania tekstur na zegar, a w G84/G86 TMU są w stanie przetworzyć dwukrotnie więcej próbek tekstur. Oznacza to, że każdy z bloków ma osiem modułów adresowania tekstur (określających dokładny adres do próbkowania za pomocą współrzędnych) TA i dokładnie taką samą liczbę modułów filtrowania dwuliniowego (TF):

Nie myśl, że 56 bloków GeForce 8800 GT w rzeczywistych zastosowaniach będzie silniejszych niż 32 bloki GeForce 8800 GTX. Po włączeniu filtrowania trójliniowego i/lub anizotropowego, to drugie będzie szybsze, ponieważ może wykonać nieco więcej pracy przy filtrowaniu próbek tekstur. Informacje te sprawdzimy w części praktycznej, analizując wyniki odpowiednich testów syntetycznych. Cała pozostała funkcjonalność bloków tekstur nie uległa zmianie; obsługiwane są formaty tekstur FP16, FP32 i inne.

Bloki ROP, zapisuje bufor ramki, wygładzanie

Same bloki ROP również się nie zmieniły, zmieniła się natomiast ich liczba. G80 miał sześć ROP, a w nowym rozwiązaniu jest ich cztery, aby obniżyć koszty produkcji chipów i płytek PCB do kart graficznych. Cięcie to może również mieć na celu uniknięcie tworzenia zbyt dużej konkurencji z istniejącymi rozwiązaniami najwyższej klasy.

Każdy blok przetwarza cztery piksele lub 16 subpikseli, co daje w sumie 16 pikseli na takt dla koloru i Z. Tryb Z-only przetwarza dwa razy więcej próbek na takt. Przy MSAA 16x chip może wytworzyć dwa piksele na cykl zegara, przy 4x × 8 itd. Podobnie jak w G80, formaty buforów ramek FP32 i FP16 są w pełni obsługiwane wraz z antyaliasingiem.

Obsługiwana jest nowa metoda antyaliasingu Coverage Sampled Antialiasing (CSAA), znana z poprzednich układów z tej serii. Kolejną innowacją jest aktualizacja w karcie GeForce 8800 GT algorytmu antyaliasingu przezroczystości. Użytkownikowi zaoferowano dwie opcje: multisampling (TRMS) i supersampling (TRSS), pierwsza charakteryzowała się bardzo dobrą wydajnością, ale nie działała skutecznie we wszystkich grach, a druga była wysokiej jakości, ale powolna. W karcie GeForce 8800 GT wprowadzono nową metodę multisamplingu półprzezroczystych powierzchni, co poprawia jej jakość i wydajność. Algorytm ten daje prawie taką samą poprawę jakości jak supersampling, ale ma wysoką wydajność - tylko o kilka procent gorszą dla trybu bez włączonego antyaliasingu powierzchni półprzezroczystych.

PureVideo HD

Jedną z oczekiwanych zmian w G92 był wbudowany procesor wideo drugiej generacji, znany z G84 i G86, który otrzymał rozszerzoną obsługę PureVideo HD. Wiadomo już, że ta wersja procesora wideo niemal całkowicie odciąża procesor przy dekodowaniu wszelkiego rodzaju danych wideo, w tym „ciężkich” formatów H.264 i VC-1.

Podobnie jak G84/G86, G92 wykorzystuje nowy model programowalnego procesora wideo PureVideo HD, który zawiera tak zwany silnik BSP. Nowy procesor obsługuje dekodowanie formatów H.264, VC-1 i MPEG-2 w rozdzielczościach do 1920x1080 i przepływnościach do 30-40 Mbps, wykonując sprzętowo pracę dekodowania danych CABAC i CAVLC, co pozwala na odtwarzanie wszystkich istniejących Dyski HD-DVD i Blu-ray nawet na jednordzeniowych komputerach PC średniej mocy. Dekodowanie VC-1 nie jest tak wydajne jak H.264, ale nadal jest obsługiwane przez nowy procesor.

Więcej o procesorze wideo drugiej generacji przeczytacie w części poświęconej chipom G84 i G86. Wydajność nowoczesnych rozwiązań wideo została częściowo sprawdzona w najnowszym materiale z badania efektywności sprzętowego dekodowania wideo.

PCI Express 2.0

Wśród prawdziwych innowacji w G92 jest obsługa magistrali PCI Express 2.0. Druga wersja PCI Express podwaja standardową przepustowość, z 2,5 Gb/s do 5 Gb/s, dzięki czemu złącze x16 może przesyłać dane z prędkością do 8 GB/s w każdym kierunku, w przeciwieństwie do 4 GB/s dla wersji 1.x. Bardzo ważne jest, aby PCI Express 2.0 było kompatybilne z PCI Express 1.1, a stare karty graficzne będą działać na nowych płytach głównych, a nowe karty graficzne obsługujące drugą wersję będą nadal działać na płytach bez jej wsparcia. Pod warunkiem oczywiście wystarczającego zasilania zewnętrznego i bez zwiększania przepustowości interfejsu.

Aby zapewnić kompatybilność wsteczną z istniejącymi rozwiązaniami PCI Express 1.0 i 1.1, specyfikacja 2.0 obsługuje szybkości transferu zarówno 2,5 Gb/s, jak i 5 Gb/s. Wsteczna kompatybilność PCI Express 2.0 umożliwia używanie starszych rozwiązań 2,5 Gb/s w gniazdach 5,0 Gb/s, które będą działać z niższymi prędkościami, a urządzenie zaprojektowane zgodnie ze specyfikacjami wersji 2.0 może obsługiwać zarówno prędkości 2,5 Gb/s, jak i 5 Gb/s. Teoretycznie kompatybilność jest dobra, ale w praktyce mogą pojawić się problemy w przypadku niektórych kombinacji płyt głównych i kart rozszerzeń.

Obsługa interfejsów zewnętrznych

Jak można było się spodziewać, dodatkowy układ NVIO dostępny na płytach GeForce 8800, obsługujący zewnętrzne interfejsy zlokalizowane poza głównym (dwa RAMDAC 400 MHz, dwa Dual Link DVI (lub LVDS), HDTV-Out), w tym przypadku znalazł się w zestawie sam chip, obsługa wszystkich tych interfejsów jest wbudowana w sam G92.

Karty graficzne GeForce 8800 GT mają zwykle dwa wyjścia Dual Link DVI-I z obsługą HDCP. Jeśli chodzi o HDMI, obsługa tego złącza jest w pełni zaimplementowana; producenci mogą ją wdrożyć na specjalnie zaprojektowanych kartach, które mogą zostać wypuszczone nieco później. Chociaż obecność złącza HDMI na karcie graficznej jest całkowicie opcjonalna, można je z powodzeniem zastąpić przejściówką z DVI na HDMI, która jest dołączona do większości nowoczesnych kart graficznych.

W przeciwieństwie do kart graficznych AMD z serii RADEON HD 2000, GeForce 8800 GT nie zawiera wbudowanego układu audio wymaganego do obsługi transmisji dźwięku DVI przy użyciu adaptera HDMI. Ta możliwość przesyłania sygnałów wideo i audio przez jedno złącze jest pożądana przede wszystkim w przypadku kart ze średniej i niższej półki, które są instalowane w małych obudowach typu media center, a GeForce 8800 GT raczej nie nadaje się do tej roli.

Szczegóły: G94, rodzina GeForce 9600

Dane techniczne G94

  • Chip o nazwie kodowej G94
  • Technologia 65 nm
  • 505 milionów tranzystorów
  • Ujednolicona architektura z szeregiem współdzielonych procesorów do strumieniowego przetwarzania wierzchołków i pikseli, a także innych typów danych
  • Sprzętowa obsługa DirectX 10, w tym model modułu cieniującego Shader Model 4.0, generowanie geometrii i rejestrowanie danych pośrednich z modułów cieniujących (wyjście strumieniowe)
  • 256-bitowa magistrala pamięci, cztery niezależne kontrolery o szerokości 64 bitów
  • Częstotliwość rdzenia 650 MHz (GeForce 9600 GT)
  • Jednostki ALU działają z ponad dwukrotnie większą częstotliwością (1,625 GHz dla GeForce 9600 GT)
  • 64 skalarne zmiennoprzecinkowe jednostki ALU (formaty całkowite i zmiennoprzecinkowe, obsługa IEEE 754 z 32-bitową precyzją FP, MAD+MUL bez utraty zegara)
  • 32 jednostki adresowania tekstur z obsługą komponentów FP16 i FP32 w teksturach
  • 32 dwuliniowe jednostki filtrujące (podobnie jak w G84 i G92, daje to zwiększoną liczbę próbek dwuliniowych, ale bez swobodnej filtracji trójliniowej i skutecznego filtrowania anizotropowego)
  • Możliwość dynamicznych rozgałęzień w shaderach pikseli i wierzchołków
  • 4 szerokie bloki ROP (16 pikseli) z obsługą trybów antyaliasingu do 16 próbek na piksel, w tym z formatem bufora ramki FP16 lub FP32. Każdy blok składa się z szeregu elastycznie konfigurowalnych jednostek ALU i jest odpowiedzialny za generowanie i porównywanie Z, MSAA i mieszanie. Szczytowa wydajność całego podsystemu do 64 próbek MSAA (+ 64 Z) na zegar, w trybie tylko Z 128 próbek na zegar
  • Rejestruj wyniki z maksymalnie 8 buforów ramek jednocześnie (MRT)

Specyfikacje karty referencyjnej GeForce 9600 GT

  • Częstotliwość rdzenia 650 MHz
  • Uniwersalna częstotliwość procesora 1625 MHz
  • Liczba procesorów uniwersalnych 64
  • Liczba bloków tekstury 32, bloków mieszania 16
  • Efektywna częstotliwość pamięci 1,8 GHz (2*900 MHz)
  • Typ pamięci GDDR3
  • Pojemność pamięci 512 megabajtów
  • Przepustowość pamięci 57,6 gigabajtów na sekundę.
  • Teoretyczna maksymalna szybkość wypełniania wynosi 10,4 gigapiksela na sekundę.
  • Teoretyczna prędkość próbkowania tekstury do 20,8 gigateksela na sekundę.
  • Dwa złącza DVI-I Dual Link obsługują rozdzielczości wyjściowe do 2560x1600
  • Złącze SLI
  • Magistrala PCI Express 2.0
  • Pobór mocy do 95 W
  • Sugerowana cena 169-189 dolarów

Architektura G94

Z architektonicznego punktu widzenia G94 różni się od G92 jedynie cechami ilościowymi, ma mniejszą liczbę jednostek wykonawczych: ALU i TMU. I nie ma wielu różnic w stosunku do G8x. Jak pisano we wcześniejszych materiałach, linia chipów G9x jest nieco zmodyfikowaną linią G8x, przeniesioną do nowej technologii procesowej z niewielkimi zmianami architektonicznymi. Nowy chip ze średniej półki ma 4 duże jednostki cieniujące (w sumie 64 jednostki ALU) i 32 jednostki teksturujące, a także cztery szerokie ROP.

Zatem zmian architektonicznych w chipie jest niewiele, prawie wszystkie zostały opisane powyżej, a wszystko, co powiedziano wcześniej o poprzednich rozwiązaniach, pozostaje aktualne. A tutaj prezentujemy tylko główny schemat układu G94:

Jednostki tekstur w G94 są dokładnie takie same jak w G84/G86 i G92, mogą wybierać dwa razy więcej dwuliniowo filtrowanych próbek z tekstur w porównaniu do G80. Jednak 32 jednostki teksturowe GeForce 9600 GT w rzeczywistych zastosowaniach nie będą działać szybciej niż 32 jednostki GeForce 8800 GTX tylko ze względu na wyższą częstotliwość roboczą GPU. Można to zaobserwować tylko wtedy, gdy wyłączone jest filtrowanie trójliniowe i anizotropowe, co jest niezwykle rzadkie, tylko w tych algorytmach, które wykorzystują niefiltrowane próbki, na przykład w mapowaniu paralaksy.

Kolejną zaletą szczególnie G9x i GeForce 9600 GT jest to, że NVIDIA bierze pod uwagę pewną nową technologię kompresji zaimplementowaną w jednostkach ROP, która według ich szacunków działa o 15% wydajniej niż ta stosowana w poprzednich chipach. Najwyraźniej są to dokładnie te same modyfikacje architektoniczne w G9x, mające zapewnić większą wydajność 256-bitowej magistrali pamięci w porównaniu do 320/384-bitowej, o której pisaliśmy wcześniej. Naturalnie w rzeczywistych zastosowaniach nie będzie tak dużej różnicy, nawet według samej NVIDII wzrost z innowacji w ROP wynosi najczęściej tylko około 5%.

Pomimo wszystkich zmian w architekturze G9x, które dodają złożoności chipowi, o czym porozmawiamy poniżej, liczba tranzystorów w chipie jest dość duża. Prawdopodobnie tę złożoność procesora graficznego można wytłumaczyć włączeniem wcześniej oddzielnego układu NVIO, procesora wideo nowej generacji, komplikacją bloków TMU i ROP, a także innymi ukrytymi modyfikacjami: zmianami rozmiarów pamięci podręcznej itp.

PureVideo HD

G94 ma ten sam procesor wideo drugiej generacji, znany z G84/G86 i G92, który oferuje ulepszoną obsługę PureVideo HD. Prawie całkowicie odciąża procesor podczas dekodowania najpopularniejszych typów danych wideo, w tym H.264, VC-1 i MPEG-2, przy rozdzielczościach do 1920x1080 i przepływnościach do 30-40 Mb/s, wykonując dekodowanie całkowicie sprzętowo. I choć dekodowanie VC-1 firmy NVIDIA nie jest tak wydajne jak H.264, to niewielka część procesu wykorzystuje moc centralnego procesora, ale mimo to pozwala na odtwarzanie wszystkich istniejących płyt HD DVD i Blu-Ray nawet na przeciętnych komputerach . Więcej o procesorze wideo drugiej generacji przeczytacie w naszych recenzjach modeli G84/G86 i G92, do których linki znajdują się na początku artykułu.

Cóż, odnotujemy ulepszenia oprogramowania PureVideo HD, które zbiegły się z premierą GeForce 9600 GT. Najnowsze innowacje w PureVideo HD obejmują dekodowanie dwustrumieniowe, dynamiczne zmiany kontrastu i nasycenia kolorów. Zmiany te nie dotyczą wyłącznie GeForce 9600 GT i w nowych wersjach sterowników, począwszy od ForceWare 174, wprowadzane są dla wszystkich układów obsługujących pełną akcelerację sprzętową przy użyciu PureVideo HD. Oprócz karty graficznej, którą dzisiaj rozważamy, na tej liście znajdują się: GeForce 8600 GT/GTS, GeForce 8800 GT i GeForce 8800 GTS 512.

Dynamiczne zwiększanie kontrastu jest dość powszechne w elektronice użytkowej, telewizorach i odtwarzaczach wideo i może poprawić obrazy przy nieoptymalnej ekspozycji (kombinacja czasu otwarcia migawki i przysłony). W tym celu po zdekodowaniu każdej klatki analizowany jest jej histogram, a jeśli klatka ma słaby kontrast, histogram jest przeliczany i nakładany na obraz. Oto przykład (po lewej obraz początkowy, po prawej przetworzony):

To samo dotyczy dynamicznego zwiększania nasycenia kolorów wprowadzonego w PureVideo HD. Urządzenia gospodarstwa domowego również od bardzo dawna korzystają z niektórych algorytmów poprawiających obraz, w przeciwieństwie do monitorów komputerowych, które odtwarzają wszystko tak, jak jest, co w wielu przypadkach może sprawić, że obraz będzie zbyt matowy i pozbawiony życia. Automatyczny balans składników kolorystycznych w danych wideo, obliczany także co każdą nową klatkę, poprawia percepcję obrazu przez człowieka poprzez nieznaczną korektę nasycenia jego kolorów:

Dekodowanie dwustrumieniowe pozwala przyspieszyć dekodowanie i przetwarzanie końcowe dwóch różnych strumieni wideo jednocześnie. Może to być przydatne w trybach wyjściowych, takich jak obraz w obrazie, które są używane na niektórych płytach Blu-Ray i HD DVD (na przykład drugi obraz może przedstawiać reżysera filmu komentującego sceny pokazane na okno główne ), edycje filmów WAR i Resident Evil: Extinction są wyposażone w takie możliwości.

Kolejną przydatną innowacją w najnowszej wersji PureVideo HD jest możliwość jednoczesnego uruchomienia powłoki Aero w systemie operacyjnym Windows Vista podczas odtwarzania wideo z akceleracją sprzętową w trybie okienkowym, co wcześniej nie było możliwe. Nie mogę powiedzieć, że bardzo martwi to użytkowników, ale jest to niezła okazja.

Obsługa interfejsów zewnętrznych

Obsługa zewnętrznych interfejsów w GeForce 9600 GT jest podobna do GeForce 8800 GT, być może z wyjątkiem zintegrowanej obsługi DisplayPort. W samym chipie znalazł się także dodatkowy chip NVIO dostępny na płytach GeForce 8800, który obsługuje zewnętrzne interfejsy poza głównym w G94.

Referencyjne karty graficzne GeForce 9600 GT posiadają dwa wyjścia Dual Link DVI z obsługą HDCP. Obsługa HDMI i DisplayPort jest zaimplementowana sprzętowo w chipie, a porty te mogą zostać zaimplementowane przez partnerów NVIDIA na specjalnie zaprojektowanych kartach. Co więcej, jak zapewnia NVIDIA, w przeciwieństwie do G92, obsługa DisplayPort jest teraz wbudowana w chip i zewnętrzne nadajniki nie są wymagane. Ogólnie rzecz biorąc, złącza HDMI i DisplayPort na karcie graficznej są opcjonalne i można je zastąpić prostymi adapterami z DVI na HDMI lub DisplayPort, które czasami są dołączane do nowoczesnych kart graficznych.

Szczegóły: Rodziny G96, GeForce 9400 i 9500

Dane techniczne G96

  • Chip o nazwie kodowej G96
  • Technologia 65 nm
  • 314 milionów tranzystorów
  • Ujednolicona architektura z szeregiem współdzielonych procesorów do strumieniowego przetwarzania wierzchołków i pikseli, a także innych typów danych
  • Sprzętowa obsługa DirectX 10, w tym model modułu cieniującego Shader Model 4.0, generowanie geometrii i rejestrowanie danych pośrednich z modułów cieniujących (wyjście strumieniowe)
  • 128-bitowa magistrala pamięci, dwa niezależne kontrolery o szerokości 64 bitów
  • Częstotliwość rdzenia 550 MHz
  • Jednostki ALU działają z ponad dwukrotnie większą częstotliwością (1,4 GHz)
  • 32 skalarne zmiennoprzecinkowe jednostki ALU (formaty całkowite i zmiennoprzecinkowe, obsługa IEEE 754 z 32-bitową precyzją FP, MAD+MUL bez utraty zegara)
  • 16 jednostek adresowania tekstur z obsługą komponentów FP16 i FP32 w teksturach
  • 16 dwuliniowych jednostek filtrujących (podobnie jak w przypadku G92, daje to zwiększoną liczbę próbek dwuliniowych, ale bez swobodnej filtracji trójliniowej i skutecznego filtrowania anizotropowego)
  • Możliwość dynamicznych rozgałęzień w shaderach pikseli i wierzchołków
  • 2 szerokie bloki ROP (8 pikseli) z obsługą trybów antyaliasingu do 16 próbek na piksel, w tym z formatem bufora ramki FP16 lub FP32. Każdy blok składa się z szeregu elastycznie konfigurowalnych jednostek ALU i jest odpowiedzialny za generowanie i porównywanie Z, MSAA i mieszanie. Szczytowa wydajność całego podsystemu do 32 próbek MSAA (+ 32 Z) na zegar, w trybie tylko Z 64 próbki na zegar
  • Rejestruj wyniki z maksymalnie 8 buforów ramek jednocześnie (MRT)
  • Wszystkie interfejsy (dwa RAMDAC, dwa Dual DVI, HDMI, DisplayPort) są zintegrowane w chipie

Specyfikacje karty referencyjnej GeForce 9500 GT

  • Częstotliwość rdzenia 550 MHz
  • Liczba procesorów uniwersalnych 32
  • Liczba bloków tekstury 16, bloków mieszania 8
  • Efektywna częstotliwość pamięci 1,6 GHz (2*800 MHz)
  • Typ pamięci GDDR2/GDDR3
  • Pojemność pamięci 256/512/1024 megabajtów
  • Teoretyczna prędkość próbkowania tekstury do 8,8 gigatekseli na sekundę.
  • Dwa złącza DVI-I Dual Link obsługują rozdzielczości wyjściowe do 2560x1600
  • Złącze SLI
  • Magistrala PCI Express 2.0
  • Obsługa wyjścia TV, wyjścia HDTV, HDMI i DisplayPort z HDCP

Specyfikacje karty referencyjnej GeForce 9400 GT

  • Częstotliwość rdzenia 550 MHz
  • Uniwersalna częstotliwość procesora 1400 MHz
  • Liczba procesorów uniwersalnych 16
  • Liczba bloków tekstury 8, bloków mieszania 8
  • Efektywna częstotliwość pamięci 1,6 GHz (2*800 MHz)
  • Typ pamięci GDDR2
  • Pojemność pamięci 256/512 megabajtów
  • Przepustowość pamięci 25,6 gigabajtów na sekundę.
  • Teoretyczna maksymalna szybkość wypełniania wynosi 4,4 gigapiksela na sekundę.
  • Teoretyczna prędkość próbkowania tekstury do 4,4 gigateksela na sekundę.
  • Dwa złącza DVI-I Dual Link obsługują rozdzielczości wyjściowe do 2560x1600
  • Złącze SLI
  • Magistrala PCI Express 2.0
  • Obsługa wyjścia TV, wyjścia HDTV, HDMI i DisplayPort z HDCP

Architektura G96

Architektonicznie G96 to dokładnie połowa chipa G94, który z kolei różni się od G92 jedynie cechami ilościowymi. G96 ma połowę wszystkich jednostek wykonawczych: ALU, TMU i ROP. Nowy układ wideo przeznaczony jest do rozwiązań z najniższej półki cenowej i posiada dwie duże jednostki cieniujące (w sumie 32 ALU) i 16 jednostek teksturujących, a także osiem ROP. Ma również zmniejszoną szynę pamięci, z 256-bitową do 128-bitową, w porównaniu do G94 i G92. Wszystkie możliwości sprzętowe pozostają niezmienione, jedyne różnice dotyczą wydajności.

Szczegóły: G92b, rodzina GeForce GTS 200

Specyfikacje referencyjnej karty graficznej GeForce GTS 250

  • Częstotliwość rdzenia 738 MHz
  • Uniwersalna częstotliwość procesora 1836 MHz
  • Liczba procesorów uniwersalnych 128
  • Liczba bloków tekstury 64, bloków mieszania 16
  • Efektywna częstotliwość pamięci 2200 (2*1100) MHz
  • Typ pamięci GDDR3
  • Pojemność pamięci 512/1024/2048 megabajtów
  • Przepustowość pamięci 70,4 GB/s
  • Teoretyczna maksymalna szybkość wypełniania wynosi 11,8 gigapiksela na sekundę.
  • Teoretyczna prędkość próbkowania tekstury do 47,2 gigatekseli na sekundę.
  • Dwa złącza DVI-I Dual Link obsługują rozdzielczości wyjściowe do 2560x1600
  • Podwójne złącze SLI
  • Magistrala PCI Express 2.0
  • Wyjście TV, wyjście HDTV, HDCP, HDMI, obsługa DisplayPort
  • Pobór mocy do 150 W (jedno złącze 6-pinowe)
  • Wersja z dwoma gniazdami
  • Sugerowana cena detaliczna 129 USD / 149 USD / 169 USD

Ogólnie rzecz biorąc, ta „nowa” karta graficzna oparta na chipie 55 nm G92 nie różni się od GeForce 9800 GTX+. Wypuszczenie nowego modelu można częściowo uzasadnić instalacją nie 512 megabajtów pamięci wideo, jak w 9800 GTX+, ale gigabajta, co znacznie wpływa na wydajność w ciężkich trybach przy maksymalnych ustawieniach jakości, wysokich rozdzielczościach z pełnoekranowym zabezpieczeniem przed aliasing włączony. Istnieją również opcje dwugigabajtowe, ale jest to bardziej zaleta marketingowa niż rzeczywista.

W takich warunkach starsze wersje GeForce GTS 250 powinny być naprawdę zauważalnie szybsze od GeForce 9800 GTX+ ze względu na zwiększoną pojemność pamięci. A niektóre z najnowocześniejszych gier nie skorzystają nawet na najwyższych rozdzielczościach. Wszystko byłoby dobrze, ale niektórzy producenci kart wypuścili GeForce 9800 GTX+ z gigabajtem pamięci jeszcze wcześniej…

Produkcja układów wideo G92b w standardach technologii 55 nm oraz zauważalne uproszczenie konstrukcji PCB pozwoliło firmie NVIDIA stworzyć rozwiązanie podobne pod względem charakterystyki do GeForce 9800 GTX, ale z niższą ceną oraz zmniejszonym poborem mocy i odprowadzaniem ciepła. A teraz, aby zapewnić zasilanie GeForce GTS 250, na płycie instalowane jest tylko jedno 6-pinowe złącze zasilania PCI-E. To wszystkie główne różnice w stosunku do 9800 GTX+.

Karta graficzna 9800 GT firmy NVIDIA jest logiczną kontynuacją karty 8800GT. Obydwa produkty technologiczne charakteryzują się niemal identycznymi parametrami. Główną różnicą między 9800GT a poprzednim modelem było wsparcie dla technologii HybridPower. Nie ma innych ulepszeń. Procesor graficzny karty jest oznaczony jako G92-270. Podobny miał model 8800. Mikrochip, jak poprzednio, ma wersję A2. Charakterystyka częstotliwości zegara karty graficznej 9800 GT pozostała na tym samym poziomie: 601/1512 MHz.

Dane techniczne 9800 GT

Technicznie rzecz biorąc, płyta 9800 GT nie przeszła żadnych większych zmian od modelu 8800.

Parametry karty graficznej:

  • Karta graficzna: G92.
  • Pamięć wideo: 512 MB.
  • Magistrala pamięci: 256 bitów.
  • Częstotliwość procesora graficznego: 601/1512 MHz.
  • Bloki tekstur: 56.
  • Bloki ROP: 16.
  • Efektywna częstotliwość, z jaką pracuje pamięć karty graficznej: 1800 MHz.
  • Procesory uniwersalne (rdzenie): 112.
  • Obsługiwane unikalne technologie: Hybrid Power.
  • Magistrala systemowa i inne interfejsy komunikacyjne: PCI-E 2.0x16/2xDVI/S-Video. HDMI jest obsługiwane za pomocą adaptera.

Jakie zadania może rozwiązać karta graficzna 9800 GT?

Prezentowana karta graficzna dobrze radzi sobie z grami poprzedniej generacji. Jeśli użytkownik nie goni za nowinkami, to 9800 GT niewątpliwie będzie mu odpowiadać. Charakterystyka karty pozwala na bezproblemowe uruchomienie takich gier jak Wiedźmin 2, S.T.A.L.K.E.R, Crysis 2, Dead Space 3 i innych. Notabene Fallout New Vegas również działa na tej płycie bez problemów. Nie będzie już jednak możliwe uruchomienie czwartej wersji legendarnego projektu.

Karta graficzna nie będzie także obsługiwać nowoczesnych strzelanek i symulatorów samochodowych wydanych po 2013 roku. Są wyjątki, ale bardzo rzadko. Użytkownik czuje się całkiem komfortowo pracując z grafiką i informacjami wideo, oglądając filmy w wysokiej rozdzielczości. Jeśli dana osoba nie jest profesjonalnym fotografem ani projektantem 3D, który potrzebuje maksymalnej prędkości, karta graficzna 9800 GT będzie dla niego odpowiednia.

Plusy i minusy karty graficznej

Omawiana tablica posiada szereg zalet, które sprawiają, że jej zastosowanie jest nadal aktualne. Choć to rozwiązanie ma też wady.

Jakie zalety ma 9800 GT? Charakterystyka modelu wskazuje, że jest ich wiele.

  • Karta graficzna obsługuje tryb SLI. Możesz kupić 4 deski na raz i połączyć je w grupę, osiągając w ten sposób znaczny wzrost wydajności.
  • Płyta zapewnia wsparcie dla technologii PhysX. Służy do odtwarzania dodatkowych efektów specjalnych w grach. Warto zauważyć, że znacznie zmniejsza to ogólną wydajność karty graficznej. Aby zniwelować ten efekt, producent zaleca zastosowanie dodatkowego, dedykowanego akceleratora PhysX, który uzupełni płytę główną.
  • Za pomocą specjalnych narzędzi możesz poprawić standardową wydajność Nvidii 9800 GT, podnosząc ją o 5-15%. Konkretny wskaźnik zależy od pragnień użytkownika i możliwości układu chłodzenia karty. Podczas podkręcania należy uważnie monitorować temperaturę pracy urządzenia, aby zapobiec nadmiernemu przegrzaniu, a w rezultacie awarii.

Wady:

  • jest przestarzałym rozwiązaniem;
  • ma ograniczoną wydajność w obliczeniach ogólnego przeznaczenia;
  • na płynne odtwarzanie płyt Blu-Ray i filmów w jakości HD zamieszczanych w Internecie istotny wpływ będzie miała moc centralnego procesora (oprócz procesora karty graficznej);
  • niska wydajność 9800 GT, specyfikacja płyty nie pozwala na uruchomienie gry wydane po 2013 roku;
  • stosunkowo wysokie zużycie energii;
  • Niewystarczająca wydajność karty graficznej podczas pracy z dodatkowymi efektami PhysX.

Przed wypuszczeniem karty graficznej 9800 GT wielu analityków i dziennikarzy uważało, że wiadomość o pojawieniu się tej karty graficznej jest fikcyjna. Po oficjalnym wydaniu informacje stały się jaśniejsze. Wielu z góry dało laury prymat tej karcie graficznej jako okrętowi flagowemu, ale inżynierowie NVIDIA ponownie nadali nowy numer starym rozwiązaniom architektonicznym.

GeForce 9800GT. Charakterystyka karty graficznej

Akcelerator graficzny jest niemal kompletną kopią swojego poprzednika – a niektóre testy pokazują, że poprzednia generacja pozostaje bardziej wydajna. Nowy produkt wyposażony jest w ten sam procesor – G92, nawet proces techniczny się nie zmienił. Pozostało 65 nm, chociaż wielu uważało, że 9800 GT będzie wykorzystywać 55 nm. Częstotliwości GPU nie uległy zmianie.

Na oficjalnej stronie internetowej prezentującej kartę GeForce 9800 GT charakterystyka przedstawia się następująco:

  • Karta graficzna: G92. 112 uniwersalnych procesorów, 64 jednostki teksturujące.
  • Pamięć wideo: GDDR3, jej pojemność wynosi 512 MB.
  • Szerokość magistrali pamięci: 256 bitów.
  • Częstotliwość procesora graficznego: 600 MHz.
  • Częstotliwość modułu cieniującego: 1500 MHz.
  • Częstotliwość pamięci: 1800 (900) MHz.
  • Porty: 2xDVI-I, wyjście TV.

Jedyne, co odróżnia omawianą kartę graficzną od 8800 GT, to obsługa technologii HybridPower. Umożliwia przełączanie pomiędzy zintegrowaną grafiką a dyskretną kartą w trybie automatycznym, co umożliwia zmniejszenie zużycia energii i

Tej aktualizacji nie można uznać za ważną dla GeForce 9800 GT, nie zmienia ona charakterystyki, a poza tym HybridPower nie może działać, jeśli nie zostanie spełniony jeden warunek. Płyta główna również musi obsługiwać tę technologię i jednocześnie posiadać zintegrowany rdzeń graficzny.

Sprzęt

Karta graficzna jest dostarczana w dość dużym pudełku, które jest ozdobione przewagą niebieskich kolorów.

W jego wnętrzu znajdziesz:

  • Sama karta graficzna.
  • Ustaw tulipan S-Video.
  • Dodatkowy kabel zasilający.
  • Dysk laserowy ze sterownikami i programami.
  • Niektóre wersje obejmują grę Civilization IV.
  • Podręcznik użytkownika.

Teksty wydrukowane na opakowaniach mają głównie charakter reklamowy. Jednak wśród pochwał na temat technologii zastosowanych w produkcie GeForce 9800 GT, parametry techniczne bezpośrednio wskazują, że akcelerator graficzny bazuje na 8800 GT. Taka szczerość jest godna pozazdroszczenia.

Obecność dużej liczby adapterów i przewodów zasilających wskazuje, że NVIDIA dba o swoich klientów. Jeśli potrzebujesz podłączyć niestandardowy sprzęt lub wiele monitorów, nie będziesz musiał kupować dodatkowych komponentów, wystarczy je wyjąć z pudełka.

Projekt

Można zauważyć, że porównując GeForce 8800 GT i GeForce 9800 GT, ich cechy są zbieżne znacznie bardziej niż ich konstrukcja. Oczywiście, ogólnie rzecz biorąc, jedna deska jest podobna do drugiej, ale nie można powiedzieć, że są identyczne.

Obie karty graficzne mają takie same wymiary, lokalizację złącza zasilania, styki SLI zakryte gumową zatyczką, a także położenie procesora graficznego i układu scalonego pamięci. Chipy produkowane są przez firmę SAMSUNG, a czas próbkowania wynosi 1 ns.

Zupełnie inna jest lokalizacja pozostałych łańcuchów. Co więcej, inżynierowie nie oszczędzali pieniędzy i zastosowali urządzenia najwyższej jakości. Na karcie graficznej widać solidne kondensatory. Żywotność takich produktów jest znacznie dłuższa niż tradycyjnych produktów elektrolitycznych. Cewki dławiące z rdzeniami ferrytowymi charakteryzują się także dłuższym czasem pracy niż cewki standardowe.

Nawet jeśli specjaliści dali z siebie wszystko przy instalacji półprzewodników, liczba portów do podłączenia urządzeń wyjściowych wyraźnie nie sięga czołowych przedstawicieli. Dostępne są dwa złącza DVI-I i jedno wyjście TV-Out. Ale tę wadę rekompensują wszystkie niezbędne adaptery.

System chłodzenia

Po bliższym przyjrzeniu się 9800 GT jego osiągi nie wydają się imponujące. Jednakże w akceleratorze graficznym znajduje się element, który może dać przewagę wielu innym kartom graficznym – jest to grzejnik. Przede wszystkim należy zaznaczyć, że zainstalowany układ chłodzenia został wyprodukowany przez znaną niemiecką firmę Zalman, która jest jednym z liderów rynku.

Jest wykonany tak prosto, jak to możliwe, ale działa bardzo cicho i tak efektywnie, jak to możliwe. Rdzeń, na który nałożona jest pasta termoprzewodząca, dotyka powierzchni procesora graficznego. Przepuszcza się przez nią parę sześciomilimetrowych rurek, których kształt przypomina literę „U”. Wykonane są z miedzi. Na rurach znajdują się cienkie aluminiowe płytki.

Całość konstrukcji logicznie dopełnia wolnoobrotowa śruba o średnicy 8 cm, której prędkość obrotowa dobierana jest automatycznie w zależności od poziomu obciążenia rdzenia graficznego. Jedyną wadą układu chłodzenia jest to, że zasłania drugi slot PCI EXPRESS. Jeśli chcesz zainstalować dwie karty graficzne w komputerze jednocześnie, będziesz musiał pomyśleć o wymianie grzejnika.

Podkręcanie

GT, który ma skromne specyfikacje, można podkręcić za pomocą dołączonego oprogramowania. Aplikacja GamerHUD może zmieniać częstotliwości podczas działania systemu operacyjnego bez zbędnych restartów. Dodatkowo program umożliwia manipulowanie napięciem dostarczanym do procesora graficznego, jednak korzystanie z tej funkcji nie jest zalecane, aby procesor wideo nie uległ awarii.

Po podkręceniu karta graficzna GeForce 9800 GT nadal działa stabilnie, której charakterystyka częstotliwości została zwiększona do 700 MHz dla procesora graficznego, 1700 MHz dla modułu cieniującego i 2000 MHz dla pamięci. Temperatura po podkręceniu nieznacznie wzrasta, za co możemy podziękować układowi chłodzenia.

NVIDIA GeForce 9800 GT

4 (80%) 2 głosy

Karta graficzna NVIDIA GeForce 9800 GT jest oparta na technologii procesowej 65 nm i opiera się na procesorze graficznym G92-270 (G92). Karta obsługuje Directx 10. NVIDIA umieściła 512 megabajtów pamięci GDDR3, która jest połączona za pomocą 256-bitowego interfejsu pamięci.
Procesor graficzny pracuje z częstotliwością 600 MHz, a liczba rdzeni CUDA wynosi 112, a prędkość wynosi 1800 Mb/s i przepustowość 57,6 Gb/s.

Pobór mocy karty graficznej wynosi 105 W, a zalecany zasilacz to 400 W.

NVIDIA GeForce 9800 GT obsługuje Microsoft DirectX 10 i OpenGL 3.3.

Charakterystyka karty graficznej NVIDIA GeForce 9800 GT

Technologie i możliwości:
CUDA:Tak
SLI:Tak
PhysX:Tak
Wizja 3D:Tak
Gry 3D:Tak
DirectX:10
OpenGL:3.3
Opona:PCI-Express 2.0 x16
Obsługa systemu operacyjnego:Microsoft Windows 7-10, Linux, FreeBSDx86

Notatka:: Tabela pokazuje parametry referencyjne karty graficznej; mogą się one różnić w zależności od producenta.

Pobierz sterowniki dla karty graficznej NVIDIA GeForce 9800 GT:

Wybierz system operacyjny:

Dla systemu Windows 10: Pobierz wersję 32-bitową 342.01 WHQL Pobierz wersję 64-bitową 342.01 WHQL
Dla Windowsa 7/8/8.1: Pobierz wersję 32-bitową 342.01 WHQL Pobierz wersję 64-bitową 342.01 WHQL

Informacje o kierowcy:

Wersja sterownika:340.52 WHQL
Opublikowany:29 lipca 2014 r
Język sterownika:Rosyjski
Rozmiar:220 MB
Zestaw narzędzi CUDA:6.5
Informacje o kierowcy:Informacje o wersji (v340.52) (PDF)

Doświadczenie GeForce'a

Pobierz sterownik karty graficznej NVIDIA GeForce 9800 GT z oficjalnej strony internetowej!

Lub użyj programu GeForce Experience - automatycznie wybierze niezbędny sterownik dla Twojej karty graficznej.

Pobieranie sterownika karty graficznej NVIDIA GeForce 9800 GT Wykonane z oficjalnej strony internetowej!

Recenzje wideo karty graficznej NVIDIA GeForce 9800 GT:

Administracja serwisu nie może podzielać opinii autorów recenzji wideo!

Często zadawane pytania i odpowiedzi dotyczące karty graficznej NVIDIA GeForce 9800 GT: Pytanie: Z jakiej serii jest ta karta graficzna?Odpowiedź: Pulpit Pytanie: Który DirectX obsługuje?Odpowiedź: Karta graficzna obsługuje DirectX 10 Pytanie: Jaki jest pobór mocy karty graficznej?Odpowiedź: Maksymalny pobór mocy wynosi 105 W Pytanie: Jaki zasilacz jest potrzebny do karty graficznej?Odpowiedź: Zalecany zasilacz 400 W Pytanie: Czy są dostępne dodatkowe złącza zasilania?Odpowiedź: Dwa 6-pinowe Pytanie: Jaka jest maksymalna dopuszczalna temperatura?Odpowiedź: Nie więcej niż 105 ℃ Pytanie: Gdzie mogę pobrać sterownik?Odpowiedź: