Sherman-Morrison/independent_test_harness/kernels.h

#pragma once

#include <mkl_lapacke.h>
#include <mkl.h>

//#define USE_OMP
//#define USE_OMP_OFFLOAD_CUDA

#ifdef USE_OMP_OFFLOAD_CUDA
  #include <stdio.h>
  #include <cublas_v2.h>
  #include <cusolverDn.h>
  #include <cusolver_common.h>
  #include <cuda_runtime_api.h>
#endif

lapack_int inverse(double *A, uint64_t Dim, uint64_t Lds);

int min(int a, int b);

uint32_t qmckl_sherman_morrison(
        const uint64_t vLDS, const uint64_t vDim, const uint64_t N_updates,
        const double *__restrict __attribute__((aligned(8))) Updates,
        const uint64_t *__restrict Updates_index, const double breakdown,
        double *__restrict __attribute__((aligned(8))) Slater_inv,
        double *__restrict determinant);

uint32_t qmckl_sherman_morrison_splitting(
        const uint64_t vLDS, const uint64_t vDim, const uint64_t N_updates,
        const double *__restrict __attribute__((aligned(8))) Updates,
        const uint64_t *__restrict Updates_index, const double breakdown,
        double *__restrict __attribute__((aligned(8))) Slater_inv,
        double *__restrict determinant);

uint32_t qmckl_sherman_morrison_smw32s(
        const uint64_t vLDS, const uint64_t vDim, const uint64_t N_updates,
        const double *__restrict __attribute__((aligned(8))) Updates,
        const uint64_t *__restrict Updates_index, const double breakdown,
        double *__restrict __attribute__((aligned(8))) Slater_inv,
        double *__restrict determinant);

uint32_t qmckl_woodbury_3(
        const uint64_t vLDS, const uint64_t vDim,
        const double *__restrict __attribute__((aligned(8)))
        Updates,
        const uint64_t *__restrict Updates_index,
        const double breakdown,
        double *__restrict __attribute__((aligned(8)))
        Slater_inv,
        double *__restrict determinant);

uint32_t qmckl_woodbury_k(
        const uint64_t vLDS,
        const uint64_t vDim,
        const uint64_t N_updates,
        const double *__restrict __attribute__((aligned(8))) Updates,
        const uint64_t *__restrict Updates_index,
        const double breakdown,
        double *__restrict __attribute__((aligned(8))) Slater_inv,
        double *__restrict determinant);

#ifdef USE_OMP
uint32_t qmckl_woodbury_k_omp(
        const uint64_t vLDS,
        const uint64_t vDim,
        const uint64_t N_updates,
        const double *__restrict __attribute__((aligned(8))) Updates,
        const uint64_t *__restrict Updates_index,
        const double breakdown,
        double *__restrict __attribute__((aligned(8))) Slater_inv,
        double *__restrict determinant);
#endif

#ifdef USE_OMP_OFFLOAD_CUDA
uint32_t qmckl_woodbury_k_ompol_cuda_async(
        cublasHandle_t b_handle,
        cusolverDnHandle_t s_handle,
        const uint64_t vLDS,
        const uint64_t vDim,
        const uint64_t N_updates,
        const double *__restrict __attribute__((aligned(8))) Updates,
        const uint64_t *__restrict Updates_index,
        const double breakdown,
        double *__restrict __attribute__((aligned(8))) Slater_inv,
        double *__restrict determinant);

uint32_t qmckl_woodbury_k_ompol_cuda_sync(
        cublasHandle_t b_handle,
        cusolverDnHandle_t s_handle,
        const uint64_t vLDS,
        const uint64_t vDim,
        const uint64_t N_updates,
        const double *__restrict __attribute__((aligned(8))) Updates,
        const uint64_t *__restrict Updates_index,
        const double breakdown,
        double *__restrict __attribute__((aligned(8))) Slater_inv,
        double *__restrict determinant);
#endif

uint32_t qmckl_woodbury_2(
        const uint64_t vLDS,
        const uint64_t vDim,
        const double *__restrict __attribute__((aligned(8)))
        Updates,
        const uint64_t *__restrict Updates_index,
        const double breakdown,
        double *__restrict __attribute__((aligned(8)))
        Slater_inv,
        double *__restrict determinant);

void detupd(
        const uint64_t Dim,
        const uint64_t Lds,
        const double *__restrict __attribute__((aligned(8))) Updates,
        const uint64_t *__restrict Updates_index,
        double *__restrict __attribute__((aligned(8))) Slater_inv,
        double *__restrict determinant);

uint32_t qmckl_sherman_morrison_later(
        const uint64_t vLDS, const uint64_t vDim, const uint64_t N_updates,
        const double *__restrict __attribute__((aligned(8))) Updates,
        const uint64_t *__restrict Updates_index, const double breakdown,
        double *__restrict __attribute__((aligned(8))) Slater_inv,
        double *__restrict determinant);
- Resrtructured tree - Added NVTX annotations to GPU kernel. 2022-10-17 14:56:32 +02:00			`#pragma once`

Added independent test harness, written in C. It has it's own Makefile and datasets. It is completely independent of the main tree. 2022-07-11 14:48:59 +02:00			`#include <mkl_lapacke.h>`
Added first version of K x K Woodbury kernel using only CBLAS and LAPACK calls 2022-07-20 19:09:55 +02:00			`#include <mkl.h>`
Added independent test harness, written in C. It has it's own Makefile and datasets. It is completely independent of the main tree. 2022-07-11 14:48:59 +02:00
- Sync and Async version - OpenMP version - PP defines cleanup 2022-11-08 15:35:25 +01:00			`//#define USE_OMP`
			`//#define USE_OMP_OFFLOAD_CUDA`
Added cuBLAS offloaded kernel for Woodbury KxK 2022-07-21 12:21:51 +02:00
- Sync and Async version - OpenMP version - PP defines cleanup 2022-11-08 15:35:25 +01:00			`#ifdef USE_OMP_OFFLOAD_CUDA`
Improved memory allocation on the GPU. 2022-10-10 11:01:53 +02:00			`#include <stdio.h>`
			`#include <cublas_v2.h>`
			`#include <cusolverDn.h>`
			`#include <cusolver_common.h>`
			`#include <cuda_runtime_api.h>`
Added cuBLAS offloaded kernel for Woodbury KxK 2022-07-21 12:21:51 +02:00			`#endif`

- Got rid of NVC compiler warnings - Included lib paths for MKL/HDF5 and cuBLAS - Cleaned Makefile - Added GPU node session request script 2022-07-22 11:34:29 +02:00			`lapack_int inverse(double *A, uint64_t Dim, uint64_t Lds);`
Added independent test harness, written in C. It has it's own Makefile and datasets. It is completely independent of the main tree. 2022-07-11 14:48:59 +02:00
Added first version of K x K Woodbury kernel using only CBLAS and LAPACK calls 2022-07-20 19:09:55 +02:00			`int min(int a, int b);`

Added independent test harness, written in C. It has it's own Makefile and datasets. It is completely independent of the main tree. 2022-07-11 14:48:59 +02:00			`uint32_t qmckl_sherman_morrison(`
- Sync and Async version - OpenMP version - PP defines cleanup 2022-11-08 15:35:25 +01:00			`const uint64_t vLDS, const uint64_t vDim, const uint64_t N_updates,`
			`const double *__restrict __attribute__((aligned(8))) Updates,`
			`const uint64_t *__restrict Updates_index, const double breakdown,`
			`double *__restrict __attribute__((aligned(8))) Slater_inv,`
			`double *__restrict determinant);`
Added independent test harness, written in C. It has it's own Makefile and datasets. It is completely independent of the main tree. 2022-07-11 14:48:59 +02:00
			`uint32_t qmckl_sherman_morrison_splitting(`
- Sync and Async version - OpenMP version - PP defines cleanup 2022-11-08 15:35:25 +01:00			`const uint64_t vLDS, const uint64_t vDim, const uint64_t N_updates,`
			`const double *__restrict __attribute__((aligned(8))) Updates,`
			`const uint64_t *__restrict Updates_index, const double breakdown,`
			`double *__restrict __attribute__((aligned(8))) Slater_inv,`
			`double *__restrict determinant);`
Added independent test harness, written in C. It has it's own Makefile and datasets. It is completely independent of the main tree. 2022-07-11 14:48:59 +02:00
			`uint32_t qmckl_sherman_morrison_smw32s(`
- Sync and Async version - OpenMP version - PP defines cleanup 2022-11-08 15:35:25 +01:00			`const uint64_t vLDS, const uint64_t vDim, const uint64_t N_updates,`
			`const double *__restrict __attribute__((aligned(8))) Updates,`
			`const uint64_t *__restrict Updates_index, const double breakdown,`
			`double *__restrict __attribute__((aligned(8))) Slater_inv,`
			`double *__restrict determinant);`

			`uint32_t qmckl_woodbury_3(`
			`const uint64_t vLDS, const uint64_t vDim,`
			`const double *__restrict __attribute__((aligned(8)))`
			`Updates,`
			`const uint64_t *__restrict Updates_index,`
			`const double breakdown,`
			`double *__restrict __attribute__((aligned(8)))`
			`Slater_inv,`
			`double *__restrict determinant);`

			`uint32_t qmckl_woodbury_k(`
			`const uint64_t vLDS,`
			`const uint64_t vDim,`
			`const uint64_t N_updates,`
			`const double *__restrict __attribute__((aligned(8))) Updates,`
			`const uint64_t *__restrict Updates_index,`
			`const double breakdown,`
			`double *__restrict __attribute__((aligned(8))) Slater_inv,`
			`double *__restrict determinant);`

			`#ifdef USE_OMP`
			`uint32_t qmckl_woodbury_k_omp(`
			`const uint64_t vLDS,`
			`const uint64_t vDim,`
			`const uint64_t N_updates,`
			`const double *__restrict __attribute__((aligned(8))) Updates,`
			`const uint64_t *__restrict Updates_index,`
			`const double breakdown,`
			`double *__restrict __attribute__((aligned(8))) Slater_inv,`
			`double *__restrict determinant);`
Added cuBLAS offloaded kernel for Woodbury KxK 2022-07-21 12:21:51 +02:00			`#endif`

- Sync and Async version - OpenMP version - PP defines cleanup 2022-11-08 15:35:25 +01:00			`#ifdef USE_OMP_OFFLOAD_CUDA`
			`uint32_t qmckl_woodbury_k_ompol_cuda_async(`
			`cublasHandle_t b_handle,`
			`cusolverDnHandle_t s_handle,`
			`const uint64_t vLDS,`
			`const uint64_t vDim,`
			`const uint64_t N_updates,`
			`const double *__restrict __attribute__((aligned(8))) Updates,`
			`const uint64_t *__restrict Updates_index,`
			`const double breakdown,`
			`double *__restrict __attribute__((aligned(8))) Slater_inv,`
			`double *__restrict determinant);`

			`uint32_t qmckl_woodbury_k_ompol_cuda_sync(`
			`cublasHandle_t b_handle,`
			`cusolverDnHandle_t s_handle,`
			`const uint64_t vLDS,`
			`const uint64_t vDim,`
			`const uint64_t N_updates,`
			`const double *__restrict __attribute__((aligned(8))) Updates,`
			`const uint64_t *__restrict Updates_index,`
			`const double breakdown,`
			`double *__restrict __attribute__((aligned(8))) Slater_inv,`
			`double *__restrict determinant);`
			`#endif`

			`uint32_t qmckl_woodbury_2(`
			`const uint64_t vLDS,`
			`const uint64_t vDim,`
			`const double *__restrict __attribute__((aligned(8)))`
			`Updates,`
			`const uint64_t *__restrict Updates_index,`
			`const double breakdown,`
			`double *__restrict __attribute__((aligned(8)))`
			`Slater_inv,`
			`double *__restrict determinant);`

			`void detupd(`
			`const uint64_t Dim,`
			`const uint64_t Lds,`
			`const double *__restrict __attribute__((aligned(8))) Updates,`
			`const uint64_t *__restrict Updates_index,`
			`double *__restrict __attribute__((aligned(8))) Slater_inv,`
			`double *__restrict determinant);`
Added independent test harness, written in C. It has it's own Makefile and datasets. It is completely independent of the main tree. 2022-07-11 14:48:59 +02:00
			`uint32_t qmckl_sherman_morrison_later(`
- Sync and Async version - OpenMP version - PP defines cleanup 2022-11-08 15:35:25 +01:00			`const uint64_t vLDS, const uint64_t vDim, const uint64_t N_updates,`
			`const double *__restrict __attribute__((aligned(8))) Updates,`
			`const uint64_t *__restrict Updates_index, const double breakdown,`
			`double *__restrict __attribute__((aligned(8))) Slater_inv,`
			`double *__restrict determinant);`