Популярные вопросы по тегу CUDA
Версия времени выполнения CUDA и версия драйвера CUDA - в чем разница?
... erGetVersion() (см. подробное описание here). Я как 10 бы ожидал, что первый даст мне "8.0" (для 9 CUDA 8.0), а второй даст мне ту же строку, что 8 и при проверке модуля ядра драйвера графического 7 процессора nVIDIA, например modinfo nvidia | grep "^version:" | sed 's/^version: *//;' , который в моей 6 системе - 367.57. Теперь первый вызов дает мне 5 8000 - хор ...
Как получить версию драйвера nvidia из командной строки?
... я графического процессора я установил. Я 1 нашел How to get the cuda version?, но здесь мне это н ...
Переключить режим вычислений cuda в режим по умолчанию
... 30% 30C P8 N/A / N/A | 10MiB / 4095MiB | N/A E. Thread | +-------------------------------+----------------------+----------------------+ | 1 GeForce GTX 680 Off | 0000:04:00.0 N/A | N/A | | 30% 29C P8 N/A / N/A | 10MiB / 4095MiB | N/A Default | +-------------- ...
Пример cuda atomicAdd не дает правильного вывода
... i = 0; i < 100 ; i++) { a[i] = atomicAdd(&a[i], 1.0f); } } void cuTestAtomicAdd(float *a) { testAdd<<<1, 10>>>(a); } Моя цель - понять принцип 2 работы атомарных операций, чтобы применить 1 их где ...
Как найти версию cuda в ubuntu?
... уверен, что 3 она точна? Есть ли другие команды, которые 2 я также могу использовать для проверки своего 1 результата ...
Максимальное количество блоков на сетку: CUDA
... лице вычислительных возможностей here указано, что 7 в вычислительной возможности CUDA 2.0 может 6 быть 65535 блоков на размер сетки. Означает 5 ли это, что общее количество блоков = 65535 4 * 65535? Или это означает, что вы можете 3 переставить не более 65535 в 1d-сетку из 2 6553 ...
CUDA, как получить сетку, блок, размер потока и параллельное вычисление неквадратной матрицы
... * A, float* B, float* C) { for(int i = 0; i < 128; i++) { for(int j = 0; j < 1024; j++) { C[i * 1024 + j] = A[i * 1024 + j] + B[i * 1024 + j]; } } } Этот 7 код является частью большого цикла и является 6 самой простой частью кода, поэтому я решил 5 попробовать ра ...
Понимание размеров сетки CUDA, размеров блоков и организации потоков (простое объяснение)
... выполнения на 1 гра ...
Топовая утилита для мониторинга активности CUDA на GPU
... гу ли я сделать это каким-то 2 образом, например, командой "top", но которая 1 также контр ...
Ограничение использования регистра в CUDA: __launch_bounds__ vs maxrregcount
... м случае требуется наличие регистров 7 40 для каждого потока, чтобы максимизировать 6 производительность. Таким образом, я могу 5 использовать -maxrregcount 40. Я также могу принудительно 4 использовать регистры 40, используя __launch_bounds__(256, 6), но это 3 вызывает разливы регистров загрузки и сохранени ...
Как загрузить дополнительные библиотеки для GDB?
... ch file or directory Process gdb-inferior killed (отформатирован для удобства чтения) (Я запускаю 2 gdb с помощью M-x gdb) Если это важно, то библиотеки 1 CUDA находятся в .bashrc export PATH="/usr/local/cuda/bin:$PATH" export LD_LIBRARY_PATH="$LD_LIBRA ...
Неверный адрес в CUDA
... (U32*)(sh_MT+2))[((sh_state_pl[(2 + threadIdx.x) % 4] >> 16) & 0xff)] ^\ ((U32*)(sh_MT+1))[((sh_state_pl[(3 + threadIdx.x) % 4] >> 24) & 0xff )]; CT[threadIdx.x] = sh_state_ct[threadIdx.x]; } В 7 этой строке кода ((U32*)(sh_MT+3))...... Отлад ...
Снижение блоков в CUDA
... ata[tid] += sdata[tid + 32]; if (blockSize >= 32) sdata[tid] += sdata[tid + 16]; if (blockSize >= 16) sdata[tid] += sdata[tid + 8]; if (blockSize >= 8) sdata[tid] += sdata[tid + 4]; if (blockSize >= 4) sda ...
Использование Java с графическими процессорами Nvidia (CUDA)
... ю над бизнес-проектом, который выполняется 12 на Java, и он требует огромных вычислительных 11 мощностей для вычисления бизнес-рынков. Простая 10 математика, но с огромным объемом данных. Мы 9 заказали несколько графических процессоров 8 CUDA, чтобы попробовать это, и, поскольку 7 Java не поддерживается CUDA, мне интересно, с 6 чего начать. Стоит ...
Уточнение ведущего измерения в CUBLAS при транспонировании
... зывает, что соответствующий 5 параметр ведущего измерения lda относится к: ведущее 4 измерение двумерного массива, используемого 3 для хранения матрицы A Таким образом, я предп ...
CUDA - Как работать с комплексными числами?
... ции (сложение и умножение) над этими 8 сложными двойными числами в самом ядре? В 7 C++ я могу умножать постоянное число на 6 комплексное двойное число>, если они 5 оба двойные. Однако в CUDA я получаю много 4 ошибок, когда пытаюсь выпол ...
cudaMallocManaged vs cudaMalloc - сценарий ограничения памяти устройства
... спространено 9 в наши дни. Если я имею дело с входными 8 данными большого размера, скажем, 4-5 ГБ, которые 7 считываются из внешнего источника данных. Вынужден 6 ли я прибегать к явному распределению памяти 5 хоста и устройства (поскольку памяти устройства 4 недостаточно для одновременного размещения) или 3 у унифицированной модели памяти CUDA есть 2 способ обойти это (что-то вроде автоматического 1 выделения / освобождения по ...
Закон Густафсона против закона Амдала
... законе Амдала и максимальном ускорении 4 параллельной программы. Но я не мог д ...
Различные версии CUDA, показанные nvcc и NVIDIA-smi
... ---+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| | 0 GeForce GTX 106... Off | 00000000:01:00.0 Off | N/A | | N/A 53C P0 26W / N/A | 379MiB / 6078MiB ...
Ошибка NVIDIA Cuda «все устройства с поддержкой CUDA заняты или недоступны» в OSX
... процедуры, которую 9 я считаю правильной (может быть, не так) kextunload -b com.nvidia.CUDA kextload -b com.nvidia.CUDA Но 8 все равно не работает. Как мне вернуть GPU 7 (или CUDA) в работоспособное состояние? Это 6 результат запроса устройства CUDA Device Query (Runtime API) version (CUDART static ...
Как полностью удалить cuda из ubuntu?
... y tree Reading state information... Done Correcting dependencies... Done The following additional packages will be installed: libcublas-dev The following packages will be upgraded: libcublas-dev 1 upgraded, 0 newly installed, 0 to remove and 145 not upgraded. 69 not fully installed or removed. Need to get 0 B/39.1 MB of archives. After this operation, 3,458 kB dis ...
Вернуть версию Apple Clang для NVCC
... версия ('70300') компилятора хоста 4 ('Apple clang') не поддерживается». Недавно 3 я обновил свою версию XCode до 7.3, а мой 2 Mac - до 10.11.4. Есть ли способ вернуть 1 мою верс ...
Значение threadidx.x (.y, .z), blockidx.x и т. Д. В CUDA
... а конкретный поток, но я передаю 5 код из цикла for в ЦП и хотел бы ссылаться 4 на числа 0 ... N с помощью threadidx.x, но 3 это не так. похоже, не работает. Я объявляю 2 tdx = threadI ...
Что на самом деле делает «режим сохранения», который сокращает время запуска CUDA?
... e Мне было предложено, чтобы 23 использование Persistence Mode значительно смягчило бы это 22 явление. В каком смысле? Я имею в виду, что 21 произойдет или не произойдет, когда включен 20 режим сохранения и существует процесс, использующий 19 CUDA? В документации сказано: Режим сохранения 18 состояния - это термин для настраиваемого 17 пользователем свойства драйвера, которое 16 поддерживает инициализацию целевого графи ...
Ядро CUDA - вложенный цикл for
... = b*b; if( c < 10) newvalues[i] = c; } } Это 3 то, что у меня есть сейчас, но похоже, что 2 это не дает правильных результатов? кто-нибудь 1 знает, что я делаю не так. Ура __global__ void calc(int total, float *values, float *newvalues){ float a,b,c; int idx = blockIdx.x * blockDim.x + threadIdx.x; for (int n = idx; ...
CudaMallocManaged медленнее, чем cudaMalloc?
... о. Использование 7 cudaMalloc, за которым следует cudaMemcpy, выполняется быстрее 6 (~ 0,56) по сравнению с cudaMallocManaged 5 (~ 0,63). Ожидается ли это? Один из website утверждает, что 4 cudaMallocManged предназначен для «более 3 быс ...
Нормальный Cuda против CuBLAS?
... я, как правило, также могут быть 5 легко записаны в обычном коде Cuda, без 4 использования CuBLAS. Так в чем же основное 3 различие между библиотекой CuBLAS и вашей 2 соб ...
src / cpp / cuda.hpp: 14: 10: фатальная ошибка: cuda.h: нет такого файла или каталога
... 05-2018 NVIDIA Corporation Built on Tue_Jun_12_23:07:04_CDT_2018 Cuda compilation tools, release 9.2, V9.2.148 это результат установки 1 rpm, загруженной в https://developer.nvidia.com/cuda-downloads [root@localhost include]# sudo dnf install cuda Last metadata expiration check: 0:05:09 ago on Wed 05 Sep 2018 10:08:35 PM EDT. Package cuda-1:9.2.148.1-2.fc28.x86_64 is already installed, skipping. Dependencies resolved. Nothing to do. C ...
Доступ к функциям OpenCV CUDA из Python (без PyCUDA)
... ля Python и Java. Однако, похоже, у 10 меня нет доступа к этим функциям CUDA, хотя 9 я создаю OpenCV WITH_CUDA=ON. Нужно ли использовать оболочку, такую 8 как PyCUDA, для доступа к функциям графического 7 процессора, таким как порог в cudaarithm? Или 6 эти функции с ускорением CUDA уже используются, если 5 я вызываю cv2.threshold() в моем коде Python (а не в обычной 4 реализации на базе ЦП)? CV_EXPORTS double t ...
Как добавить матрицу с помощью CUDA C
... int i = threadIdx.x; int j = threadIdx.y; C[i][j] = A[i][j] + B[i][j]; } int main(){ int A[N][N] = {{1,2},{3,4}}; int B[N][N] = {{5,6},{7,8}}; int C[N][N] = {{0,0},{0,0}}; int (*pA)[N], (*pB)[N], (*pC)[N]; cudaMalloc((void**)&pA, (N*N)*sizeof(int)); cudaMalloc((void**)&pB, (N*N)*sizeof(int)); cudaMalloc((void**)& ...
cudaMallocHost vs malloc для лучшей производительности не показывает разницы
... s = N/block_size + (N%block_size == 0 ? 0:1); square_array <<< n_blocks, block_size >>> (a_d, N); // Retrieve result from device and store it in host array cudaMemcpy(a_h, a_d, sizeof(float)*N, cudaMemcpyDeviceToHost); // Print results for (int i=0; i<N; i++) printf("%d %f\n", i, a_h[i]); // Cleanup free(a_h); cudaFr ...
Заказ устройств CUDA
... la K40m" ... Device PCI Domain ID / Bus ID / location ID: 0 / 4 / 0 Device 1: "NVS 315" ... Device PCI Domain ID / Bus ID / location ID: 0 / 3 / 0 С другой стороны, nvidia-smi производит 10 другой порядок: 0 NVS 315 1 Tesla K40m ...
Какая версия CUDA подходит для моего драйвера nvidia?
... NVIDIA UNIX x86_64 Kernel Module 304.125 Mon Dec 1 19:58:28 PST 2014 GCC version: gcc version 4.8.2 (Ubuntu 4.8.2-19ubuntu1) Я 4 попытался установить CUDA cuda-linux64-rel-7.0.28-19326674, но когда я тестировал 3 его командой: ./deviceQuery ./deviceQuery Starting... CUDA Device Query (Runtime API) version (CUDART static linking) cudaGetDeviceCount returned 35 -> CUDA driver version is ...
cuda inline и noinline функции устройства
... тор сочтет 4 это целесообразным. Когда уместно не делать 3 этого? Также существуют квалификаторы, такие 2 как __noinline__ и __forceinline__. В каких случаях ...
Какие комбинации версий TensorFlow и CUDA совместимы?
... овместимы со старыми версиями CUDA и 4 cuDNN. Существует ли обзор совместимых версий 3 или ...
Версии Gcc позже 7 не поддерживаются CUDA 10 - ошибка Qt в Arch Linux
... и пытаюсь создать 12 проект на Qt, однако Qt выдает следующую 11 ошибку: /opt/cuda/include/crt/host_config.h:129: error: #error 10 - неподдерживаемая версия GNU! Версии gcc 9 старше 7 не поддерживаются! Я уже пробовал 8 предложения из предыдущего сообщения о переполнении 7 стека, найденного здесь: CUDA incompatible with my gcc version Я не использовал 6 точную команду, так как моя cuda нахо ...
CUDA определяет потоки на блок, блоки на сетку
... 8 искусства и проб? Я обнаружил, что во многих 7 примерах для этих вещей было выбрано произвольное 6 число. Я рассматриваю проблему, при которой 5 я смогу передать матрицы любого размера 4 в метод умножения. Таким образом, каждый 3 элемент C (как в C = A * B) буд ...
Поддерживает ли CUDA рекурсию?
... т ли CUDA рекур ...
Могу ли я запустить CUDA на встроенном графическом процессоре Intel?
... рты. В 10 настройках дисплея я вижу Intel (HD) Graphics как адаптер дисплея. Я 9 планирую изучить программирование на CUDA. Но 8 я не уверен, смогу ли я сделать это на своем 7 ноутбуке, поскольку у него нет графического 6 процессора nvidia с поддержкой cuda. Вообще-то 5 сомневаюсь, есть ли у меня ...
Указатели функций CUDA
... f(float)) { for (int i = 0; i != 10; ++i) { std::cout << p_f(i) << ' '; } std::cout << std::endl; } int main() { tabulate(f1); tabulate(f2); return 0; } вывод: 0 1 4 9 16 25 36 49 4 64 81 0 1 2 3 4 5 6 7 8 9 Я пробовал следующее, но 3 получил только ошибку Ошибка: указатели функций 2 и параметры шаблонов функций не поддерживаются 1 ...
В чем разница между общей и глобальной памятью CUDA?
... , особенно в отношении 7 следующего: Когда мы используем cudaMalloc(), получаем ли мы указатель на общий или глобальный память? Находится ли глобальная память на хосте или устройстве? Есть ли ограничение по размеру до одного? Что быстрее получить? Сохраняет переменная в разделяемой 6 памяти так же, как передача ее адреса через ядро? Т.е. вместо __global__ void kernel() ...
Фортран против С ++, имеет ли Фортран какое-либо преимущество в численном анализе в наши дни?
... C++, сохраняет 23 ли Фортран какое-либо реальное преимущество 22 в мире численных вычислений? Я изучаю прикладную 21 математику, моя работа включает в себя большой 20 объем численного анализа, вычислений, оптимизаций 19 и т. д. со строго определенными требованиями 18 к производительности. Я почти ничего не знаю 17 о Фортране, у меня есть некоторый опыт работы 16 с C / CUDA / matlab (если вы рассматриваете 15 последний как компьюте ...
cudaMallocPitch и cudaMemcpy2D
... // --- cudaMallocPitch size_t pitch; cudaMallocPitch((void**)&d_arr, &pitch, 256, 1024); // --- Copy array to device cudaMemcpy2D(d_arr, pitc ...
Как можно умножить вектор на матрицу с помощью CUDA c ++
... ь результат в новом векторе (1 * M) с 1 помощью CUDA c ++ ...
Почему мой вызов функции sqrt() математической библиотеки CUDA не работает?
... } Я хочу использовать математическую 4 библиотеку cuda, я пытался #include "math.h", но все равно 3 получаю сообщение об ошибке error: calling a __host__ function("__sqrt") from a __global__ function("square") is not allowed Есть идеи, какую 2 ...
Несоответствие версии драйвера / библиотеки NVIDIA NVML
... едующее сообщение: Failed to initialize NVML: Driver/library version mismatch Час 8 назад я получил такое же сообщение и удалил 7 свою библиотеку cuda, и я смог запустить 6 nvidia-smi, получив следующий результат: После этого 5 я загрузил cuda-repo-ubuntu1604-8-0-local-ga2_8.0.61-1_amd64.deb из the official NVIDIA page, а затем просто: sudo dpkg -i cuda-repo-ubuntu1604-8-0-local-ga2_8.0.61-1_amd64.deb ...
nvidia-smi Volatile GPU-Utilization объяснение?
... Off | 0000:03:00.0 Off | 0 | | 30% 41C P0 53W / 225W | 0MiB / 4742MiB | 96% Default | +-------------------------------+----------------------+----------------------+ | 1 Tesla K ...
Версия драйвера CUDA недостаточна для версии среды выполнения CUDA
... сходит с функцией cutilSafeCall. Я использую: 64-разрядная версия Windows 7 Visual Studio 2008 Драйвер разработчика CUDA, инструментарий ...
Как мне установить архитектуру CUDA на compute_50 и sm_50 из cmake (версия 3.10)?
... В моей системе не установлена 11 карта gpu. Созданное решение Visual Studio 10 устанавливает для флагов nvcc значения compute_30 9 и sm_30, но мне нужно установить его на 8 compute_50 и sm_50. Я использую CMake 3.10.1 7 и Visual studio 14 2015 с 64-битной компиляцией. Я 6 хочу з ...
Исходные файлы CUDA получают расширение .cu. Что получают файлы заголовков?
... едоставление файлам исходного кода CUDA 4 расширения .cu, чтобы отличать их от файлов 3 C с расширением .c. Какое соответствующее 2 со ...