Sug-spor per vert

Sug-spor per vert h1>

Fa via App Store Les dette innlegget i var app!

Hvordan sette opp SGE for CUDA-enheter?

Jeg star overfor problemet med a integrere GPU-servere i et eksisterende SGE-miljo. Ved hjelp av google fant jeg noen eksempler pa Clusters hvor dette er satt opp, men ingen informasjon om hvordan dette var gjort.

Er det noen form for howto eller tutorial pa dette hvor som helst? Det trenger ikke a v re ekstremt verbose, men det bor inneholde nok informasjon for a fa en «cuda ko» oppe.

Takk pa forhand.

Rediger: For a sette opp en lastsensor om hvor mange GPUer i en knute er gratis, har jeg gjort folgende:

sett beregningsmodusen til GPUene til eksklusivt sett GPUene til vedvarende modus legg til folgende skript i klusterkonfigurasjonen som lastsensor (og sett den sa 1 sek.)

Merk: Dette virker apenbart bare for NVIDIA GPUer.

Strategien er faktisk ganske enkel.

Ved a bruke qconf -mc kan du opprette en kompleks ressurs som heter gpu (eller hva du vil nevne). Resursdefinisjonen bor se ut som:

Da bor du redigere exec-vertdefinisjonene dine med qconf -me for a angi antall GPUer pa exec-verter som har dem:

Na som du har konfigurert dine exec-verter, kan du be om gpu-ressurser nar du sender inn jobber. for eksempel: qsub -l gpu = 1 og gridengine vil holde oversikt over hvor mange GPUer som er tilgjengelige.

Hvis du har mer enn en jobb som kjorer per node som bruker en GPU, vil du kanskje plassere GPUene i eksklusiv modus. Du kan gjore dette med verktoyet nvidia-smi.

Open Grid Engine la til GPU lastsensor stotte i 2011.11 utgivelsen uten behov for nvidia-smi. Utgangen av nvidia-smi-programmet kan (og gjor) skifte mellom driverutgivelser, slik at den andre tiln rmingen ikke anbefales.

Hvis du har GE2011.11 kildetreet, se etter: dist / gpu / gpu_sensor.c.

For a kompilere belastningssensoren (ma ha CUDA verktoykasse pa systemet):

% cc gpu_sensor.c-lnvidia-ml.

Og hvis du bare vil se statusen som rapporteres av lastsensoren interaktivt, kompilere med:

For a bruke lastsensoren i en Grid Engine-klynger, trenger du bare a folge installasjonsprosedyren for standardlastfoler:

Nar du har flere GPUer, og du vil at jobbene skal be om en GPU, men Grid Engine scheduler skal handtere og velge en gratis GPU, kan du konfigurere et RSMAP (ressurskart) kompleks (i stedet for et INT). Dette lar deg spesifisere belopet sa vel som navnene pa GPUene pa en bestemt vert i verts konfigurasjonen. Du kan ogsa sette det opp som en HOST forbruksvare, slik at uavhengig av sporene din foresporsel, mengden av GPU-enheter forespurt med -l cuda = 2 er for hver vert 2 (selv om den parallelle jobben har a si 8 spor pa forskjellige verter ).

I utforelsesverts konfigurasjon kan du initialisere ressursene dine med ids / navn (her bare GPU1 og GPU2).

Sa nar du ber om -l gpu = 1, velger Univa Grid Engine scheduler GPU2 hvis GPU1 allerede er brukt av en annen jobb. Du kan se det faktiske valget i qstat -j-utgangen. Jobben far den valgte GPUen ved a lese ut $ SGE_HGR_gpu miljovariabelen, som i dette tilfellet inneholder det valgte id / navnet «GPU2». Dette kan brukes til a fa tilgang til riktig GPU uten a ha kollisjoner.

Hvis du har en multi-socket-vert, kan du til og med feste en GPU direkte til noen CPU-kjerner i n rheten av GPU (n r PCIe-bussen) for a oke kommunikasjonen mellom GPU og CPUer. Dette er mulig ved a feste en topologimask i utforelsesverts konfigurasjonen.

Na nar UGE scheduler velger GPU2, binder den jobben automatisk til alle 4 kjerne (C) pa den andre kontakten (S), slik at jobben ikke far kjores pa den forste kontakten. Dette krever ikke engang-binding qsub param.

Flere konfigurasjonseksempler finner du pa www.gridengine.eu.

Merk at alle disse funksjonene kun er tilgjengelige i Univa Grid Engine (8.1.0 / 8.1.3 og hoyere), og ikke i SGE 6.2u5 og annen Grid Engine versjon (som OGE, Sun of Grid Engine etc.). Du kan prove det ved a laste ned 48-kjerne begrenset gratis versjon fra univa.com.

For SGE 2011.11 som folger med ROCKS 6.1, fant jeg at innstillingen av det komplekse forbruket til:

Dette tillot meg a angi antall GPUer per node, og da jeg sendte inn en jobb, var det ikke nodvendig med antall GPUer som var avhengig av SMP / SLOT-tellingen. Jeg kan da bruke 8 CPUer og 4 GPUer per jobb og ikke forarsake problemer med andre jobber som lekker inn. Jeg matte fortsatt sette forbruksmateriellene for noderne som ovenfor.

Dette er ikke sa fint med en losning som noen av de andre, men jeg fant ut at RSMAP-alternativet ikke var tilgjengelig i SGE 2011.11. Jeg vil til slutt fa denne typen konfigurasjon som jeg da kunne angi hvilke GPUer blir brukt.

Haper dette hjelper noen lagre noen timer med konfigurasjon.


Hi! Want to play in the most lucky casino? We found it for you. Play here now!