mikex86
diff --git a/‎driverapi/internal/cmdqueue.h‎
Lines changed: 1 addition & 7 deletions b/‎driverapi/internal/cmdqueue.h‎
Lines changed: 1 addition & 7 deletions
diff --git a/‎driverapi/internal/librecuda_internal.h‎
Lines changed: 6 additions & 0 deletions b/‎driverapi/internal/librecuda_internal.h‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎driverapi/src/cmdqueue.cpp‎
Lines changed: 22 additions & 9 deletions b/‎driverapi/src/cmdqueue.cpp‎
Lines changed: 22 additions & 9 deletions
diff --git a/‎driverapi/src/librecuda.cpp‎
Lines changed: 9 additions & 4 deletions b/‎driverapi/src/librecuda.cpp‎
Lines changed: 9 additions & 4 deletions
diff --git a/‎tests/CMakeLists.txt‎
Lines changed: 2 additions & 1 deletion b/‎tests/CMakeLists.txt‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎tests/test_async_kernels/CMakeLists.txt‎
Lines changed: 11 additions & 0 deletions b/‎tests/test_async_kernels/CMakeLists.txt‎
Lines changed: 11 additions & 0 deletions
diff --git a/‎tests/test_async_kernels/main.cpp‎
Lines changed: 148 additions & 0 deletions b/‎tests/test_async_kernels/main.cpp‎
Lines changed: 148 additions & 0 deletions
@@ -133,12 +133,6 @@ class NvCommandQueue {
      */
     std::vector<CommandBufSplit> commandBufBacklog{};
 
-    /**
-     * Virtual address of shader local memory used for shaders/kernels.
-     * Only needs one instance > max required local memory of any kernels, as only one kernels can run at a time
-     */
-    void *shaderLocalMemoryVa = nullptr;
-
     /**
      * Current shader local memory per thread. NOT equal to the allocated size of localMemoryVa, but correlates.
      */
@@ -177,7 +171,7 @@ class NvCommandQueue {
 
     ~NvCommandQueue();
 
-    libreCudaStatus_t ensureEnoughLocalMem(NvU32 localMemReq);
+    libreCudaStatus_t ensureEnoughLocalMem(LibreCUFunction function);
 
     libreCudaStatus_t
     launchFunction(LibreCUFunction function,
 
@@ -82,6 +82,12 @@ struct LibreCUFunction_ {
     NvU64 function_size;
     std::vector<KernelConstantInfo> constants;
     std::vector<KernelParamInfo> param_info;
+
+    /**
+     * Virtual address of shader local memory used for shaders/kernels.
+     */
+    NvU64 shader_local_memory_va{};
+
 };
 
 struct LibreCUstream_ {
 
@@ -385,13 +385,14 @@ static inline NvU32 roundUp(NvU32 a, NvU32 b) {
 }
 
 
-libreCudaStatus_t NvCommandQueue::ensureEnoughLocalMem(NvU32 localMemReq) {
+libreCudaStatus_t NvCommandQueue::ensureEnoughLocalMem(LibreCUFunction function) {
+    NvU32 localMemReq = function->local_mem_req;
     if (localMemReq <= currentSlmPerThread) {
         return LIBRECUDA_SUCCESS; // no action required, local memory is enough
     }
 
-    if (shaderLocalMemoryVa != nullptr) {
-        LIBRECUDA_ERR_PROPAGATE(gpuFree(ctx, reinterpret_cast<NvU64>(shaderLocalMemoryVa)));
+    if (function->shader_local_memory_va != 0) {
+        LIBRECUDA_ERR_PROPAGATE(gpuFree(ctx, function->shader_local_memory_va));
     }
 
     currentSlmPerThread = ceilDiv(localMemReq, 32u) * 32; // round up
@@ -407,7 +408,7 @@ libreCudaStatus_t NvCommandQueue::ensureEnoughLocalMem(NvU32 localMemReq) {
                     true,
                     false,
                     0,
-                    reinterpret_cast<NvU64 *>(&shaderLocalMemoryVa)
+                    &function->shader_local_memory_va
             )
     );
 
@@ -417,8 +418,8 @@ libreCudaStatus_t NvCommandQueue::ensureEnoughLocalMem(NvU32 localMemReq) {
                 makeNvMethod(1, NVC6C0_SET_SHADER_LOCAL_MEMORY_A, 2),
                 {
                         // weird half big and little endian along int borders again...
-                        U64_HI_32_BITS(shaderLocalMemoryVa),
-                        U64_LO_32_BITS(shaderLocalMemoryVa)
+                        U64_HI_32_BITS(function->shader_local_memory_va),
+                        U64_LO_32_BITS(function->shader_local_memory_va)
                 },
                 COMPUTE
         ));
@@ -457,7 +458,7 @@ NvCommandQueue::launchFunction(LibreCUFunction function,
     bool local_mem_changed;
     {
         auto pre_ctr = timelineCtr;
-        LIBRECUDA_ERR_PROPAGATE(ensureEnoughLocalMem(function->local_mem_req));
+        LIBRECUDA_ERR_PROPAGATE(ensureEnoughLocalMem(function));
         local_mem_changed = timelineCtr > pre_ctr;
     }
 
@@ -518,7 +519,8 @@ NvCommandQueue::launchFunction(LibreCUFunction function,
 
             size_t j = 0;
             for (size_t i = 0; i < numParams; i++) {
-                switch (function->param_info[i].param_size) {
+                size_t param_size = function->param_info[i].param_size;
+                switch (param_size) {
                     case 8: {
                         auto *param_ptr = reinterpret_cast<NvU64 *>(params[i]);
                         auto param_value = *param_ptr;
@@ -684,7 +686,9 @@ NvCommandQueue::launchFunction(LibreCUFunction function,
         ));
     }
     timelineCtr++;
-    LIBRECUDA_ERR_PROPAGATE(signalNotify(timelineSignal, timelineCtr, COMPUTE));
+    if (!async) {
+        LIBRECUDA_ERR_PROPAGATE(signalNotify(timelineSignal, timelineCtr, COMPUTE));
+    }
     LIBRECUDA_SUCCEED();
 }
 
@@ -734,6 +738,10 @@ libreCudaStatus_t NvCommandQueue::gpuMemcpy(void *dst, void *src, size_t numByte
             DMA
     ));
     timelineCtr++;
+    // TODO: THERE SEEM TO BE SERIOUS PROBLEMS WITH DMA CHRONOLOGY GIVEN THERE IS NO WAY TO WAIT FOR SEMAPHORES...
+    //  NEED MORE TESTING!
+    //  This signalNotify might also not be needed at all, try to design a similar async system as in COMPUTE
+    //  for DMA if possible..., else more CPU involvement is required for chronological DMA operations
     LIBRECUDA_ERR_PROPAGATE(signalNotify(timelineSignal, timelineCtr, DMA));
     LIBRECUDA_SUCCEED();
 }
@@ -784,15 +792,20 @@ libreCudaStatus_t NvCommandQueue::startExecution() {
                     break;
                 }
             }
+            LIBRECUDA_ERR_PROPAGATE(signalNotify(timelineSignal, backlog_entry.timelineCtr, backlog_entry.queueType));
             LIBRECUDA_ERR_PROPAGATE(submitToFifo(backlog_entry.queueType));
             LIBRECUDA_ERR_PROPAGATE(signalWaitCpu(timelineSignal, backlog_entry.timelineCtr));
         }
         commandBufBacklog.clear();
     } else {
         if (!computeCommandBuffer.empty()) {
+            LIBRECUDA_VALIDATE(dmaCommandBuffer.empty(), LIBRECUDA_ERROR_UNKNOWN);
+            LIBRECUDA_ERR_PROPAGATE(signalNotify(timelineSignal, timelineCtr, COMPUTE));
             LIBRECUDA_ERR_PROPAGATE(startExecution(COMPUTE));
         }
         if (!dmaCommandBuffer.empty()) {
+            LIBRECUDA_VALIDATE(computeCommandBuffer.empty(), LIBRECUDA_ERROR_UNKNOWN);
+            LIBRECUDA_ERR_PROPAGATE(signalNotify(timelineSignal, timelineCtr, DMA));
             LIBRECUDA_ERR_PROPAGATE(startExecution(DMA));
         }
     }
 
@@ -1354,11 +1354,16 @@ libreCudaStatus_t libreCuLaunchKernel(LibreCUFunction function,
     LIBRECUDA_SUCCEED();
 }
 
-libreCudaStatus_t libreCuModuleUnload(LibreCUmodule function) {
+libreCudaStatus_t libreCuModuleUnload(LibreCUmodule module) {
     LIBRECUDA_ENSURE_CTX_VALID();
-    LIBRECUDA_VALIDATE(function != nullptr, LIBRECUDA_ERROR_INVALID_VALUE);
-    LIBRECUDA_ERR_PROPAGATE(gpuFree(current_ctx, function->module_va_addr));
-    delete function;
+    LIBRECUDA_VALIDATE(module != nullptr, LIBRECUDA_ERROR_INVALID_VALUE);
+    LIBRECUDA_ERR_PROPAGATE(gpuFree(current_ctx, module->module_va_addr));
+    for (auto &function: module->functions) {
+        if (function.shader_local_memory_va != 0) {
+            LIBRECUDA_ERR_PROPAGATE(gpuFree(current_ctx, function.shader_local_memory_va));
+        }
+    }
+    delete module;
     LIBRECUDA_SUCCEED();
 }
 
 
@@ -1,4 +1,5 @@
 add_subdirectory(write_float)
 add_subdirectory(memcopy)
 add_subdirectory(dynamic_shared_mem)
-add_subdirectory(compute_chronological_consistency)
+add_subdirectory(compute_chronological_consistency)
+add_subdirectory(test_async_kernels)
@@ -0,0 +1,11 @@
+add_executable(
+        test_async_kernels
+        main.cpp
+)
+target_link_libraries(
+        test_async_kernels
+        PRIVATE
+        driverapi
+)
+
+configure_file("${CMAKE_CURRENT_LIST_DIR}/write_float.cubin" ${CMAKE_BINARY_DIR}/tests/write_float COPYONLY)
@@ -0,0 +1,148 @@
+#include <librecuda.h>
+
+#include <iostream>
+#include <vector>
+#include <fstream>
+#include <cstring>
+#include <chrono>
+
+inline void cudaCheck(libreCudaStatus_t error, const char *file, int line) {
+    if (error != LIBRECUDA_SUCCESS) {
+        const char *error_string;
+        libreCuGetErrorString(error, &error_string);
+        printf("[CUDA ERROR] at file %s:%d: %s\n", file, line, error_string);
+        exit(EXIT_FAILURE);
+    }
+};
+#define CUDA_CHECK(err) (cudaCheck(err, __FILE__, __LINE__))
+
+int main() {
+    CUDA_CHECK(libreCuInit(0));
+
+    int device_count{};
+    CUDA_CHECK(libreCuDeviceGetCount(&device_count));
+    std::cout << "Device count: " + std::to_string(device_count) << std::endl;
+
+    LibreCUdevice device{};
+    CUDA_CHECK(libreCuDeviceGet(&device, 0));
+
+    LibreCUcontext ctx{};
+    CUDA_CHECK(libreCuCtxCreate_v2(&ctx, CU_CTX_SCHED_YIELD, device));
+
+    char name_buffer[256] = {};
+    libreCuDeviceGetName(name_buffer, 256, device);
+    std::cout << "Device Name: " + std::string(name_buffer) << std::endl;
+
+    LibreCUmodule module{};
+
+    // read cubin file
+    uint8_t *image;
+    size_t n_bytes;
+    {
+        std::ifstream input("write_float.cubin", std::ios::binary);
+        std::vector<uint8_t> bytes(
+                (std::istreambuf_iterator<char>(input)),
+                (std::istreambuf_iterator<char>()));
+        input.close();
+        image = new uint8_t[bytes.size()];
+        memcpy(image, bytes.data(), bytes.size());
+        n_bytes = bytes.size();
+    }
+    CUDA_CHECK(libreCuModuleLoadData(&module, image, n_bytes));
+
+    // read functions
+    uint32_t num_funcs{};
+    CUDA_CHECK(libreCuModuleGetFunctionCount(&num_funcs, module));
+    std::cout << "Num functions: " << num_funcs << std::endl;
+
+    auto *functions = new LibreCUFunction[num_funcs];
+    CUDA_CHECK(libreCuModuleEnumerateFunctions(functions, num_funcs, module));
+
+    for (size_t i = 0; i < num_funcs; i++) {
+        LibreCUFunction func = functions[i];
+        const char *func_name{};
+        CUDA_CHECK(libreCuFuncGetName(&func_name, func));
+        std::cout << "  function \"" << func_name << "\"" << std::endl;
+    }
+
+    delete[] functions;
+
+    // find function
+    LibreCUFunction func{};
+    CUDA_CHECK(libreCuModuleGetFunction(&func, module, "write_float"));
+
+    // create stream
+    LibreCUstream stream{};
+    CUDA_CHECK(libreCuStreamCreate(&stream, 0));
+
+    void *float_dst_compute_va{};
+    void *float_dst_dma_va{};
+    CUDA_CHECK(libreCuMemAlloc(&float_dst_compute_va, sizeof(float), true));
+    CUDA_CHECK(libreCuMemAlloc(&float_dst_dma_va, sizeof(float), true));
+    *(float *) float_dst_compute_va = 0.0f;
+    *(float *) float_dst_dma_va = 0.0f;
+
+    // first time execution of the kernel
+    auto start = std::chrono::high_resolution_clock::now();
+    {
+        void *params[] = {
+                &float_dst_compute_va, &float_dst_dma_va
+        };
+        CUDA_CHECK(
+                libreCuLaunchKernel(func,
+                                    1, 1, 1,
+                                    1, 1, 1,
+                                    0,
+                                    stream,
+                                    params, sizeof(params) / sizeof(void *),
+                                    nullptr,
+                                    false
+                )
+        );
+    }
+    CUDA_CHECK(libreCuStreamCommence(stream));
+    CUDA_CHECK(libreCuStreamAwait(stream));
+    auto end = std::chrono::high_resolution_clock::now();
+    std::cout << "Single kernel took: " << std::chrono::duration_cast<std::chrono::milliseconds>(end - start).count()
+              << "ms" << std::endl;
+
+    start = std::chrono::high_resolution_clock::now();
+    {
+        void *params[] = {
+                &float_dst_compute_va, &float_dst_dma_va
+        };
+        for (int i = 0; i < 5; i++) {
+            CUDA_CHECK(
+                    libreCuLaunchKernel(func,
+                                        1, 1, 1,
+                                        1, 1, 1,
+                                        0,
+                                        stream,
+                                        params, sizeof(params) / sizeof(void *),
+                                        nullptr,
+                                        true
+                    )
+            );
+        }
+    }
+    CUDA_CHECK(libreCuStreamCommence(stream));
+    CUDA_CHECK(libreCuStreamAwait(stream));
+    end = std::chrono::high_resolution_clock::now();
+    std::cout << "5xParallel kernel took: "
+              << std::chrono::duration_cast<std::chrono::milliseconds>(end - start).count()
+              << "ms" << std::endl;
+
+    // free memory
+    CUDA_CHECK(libreCuMemFree(float_dst_compute_va));
+    CUDA_CHECK(libreCuMemFree(float_dst_dma_va));
+
+    // destroy stream
+    CUDA_CHECK(libreCuStreamDestroy(stream));
+
+    // unload module
+    CUDA_CHECK(libreCuModuleUnload(module));
+
+    // destroy ctx
+    CUDA_CHECK(libreCuCtxDestroy(ctx));
+    return 0;
+}