QuantumPackage/plugins/local/tc_int/compute_int_2e_ao_cpu.irp.f


! ---

program compute_int_2e_ao_cpu

  implicit none

  print *, ' j2e_type = ', j2e_type
  print *, ' j1e_type = ', j1e_type
  print *, ' env_type = ', env_type

  my_grid_becke  = .True.
  PROVIDE tc_grid1_a tc_grid1_r
  my_n_pt_r_grid = tc_grid1_r
  my_n_pt_a_grid = tc_grid1_a
  touch my_grid_becke my_n_pt_r_grid my_n_pt_a_grid

  my_extra_grid_becke  = .True.
  PROVIDE tc_grid2_a tc_grid2_r
  my_n_pt_r_extra_grid = tc_grid2_r
  my_n_pt_a_extra_grid = tc_grid2_a
  touch my_extra_grid_becke my_n_pt_r_extra_grid my_n_pt_a_extra_grid

  call write_int(6, my_n_pt_r_grid, 'radial  external grid over')
  call write_int(6, my_n_pt_a_grid, 'angular external grid over')

  call write_int(6, my_n_pt_r_extra_grid, 'radial  internal grid over')
  call write_int(6, my_n_pt_a_extra_grid, 'angular internal grid over')

  call main()

end

! ---

subroutine main()

  use cutc_module

  implicit none

  integer                       :: m
  integer                       :: i, j, k, l
  integer                       :: ipoint, jpoint

  double precision              :: weight1, ao_i_r, ao_k_r

  double precision              :: time0, time1
  double precision              :: wall_time0, wall_time1
  double precision              :: wall_ttime0, wall_ttime1
  double precision              :: tt1, tt2

  double precision, allocatable :: rn(:,:), aos_data1(:,:,:), aos_data2(:,:,:)
  double precision, allocatable :: grad1_u12(:,:,:), int_fct_long_range(:,:,:), c_mat(:,:,:)
  double precision, allocatable :: int2_grad1_u12_ao(:,:,:,:)
  double precision, allocatable :: int_2e_ao(:,:,:,:)


  call wall_time(time0)
  print*, ' start compute_int_2e_ao_cpu'


  ! ---

  allocate(rn(3,nucl_num))
  allocate(aos_data1(n_points_final_grid,ao_num,4))
  allocate(aos_data2(n_points_extra_final_grid,ao_num,4))

  do k = 1, nucl_num
    rn(1,k) = nucl_coord(k,1)
    rn(2,k) = nucl_coord(k,2)
    rn(3,k) = nucl_coord(k,3)
  enddo

  do k = 1, ao_num
    do ipoint = 1, n_points_final_grid
      aos_data1(ipoint,k,1) = aos_in_r_array(k,ipoint)
      aos_data1(ipoint,k,2) = aos_grad_in_r_array(k,ipoint,1)
      aos_data1(ipoint,k,3) = aos_grad_in_r_array(k,ipoint,2)
      aos_data1(ipoint,k,4) = aos_grad_in_r_array(k,ipoint,3)
    enddo
  enddo

  do k = 1, ao_num
    do ipoint = 1, n_points_extra_final_grid
      aos_data2(ipoint,k,1) = aos_in_r_array_extra(k,ipoint)
      aos_data2(ipoint,k,2) = aos_grad_in_r_array_extra(k,ipoint,1)
      aos_data2(ipoint,k,3) = aos_grad_in_r_array_extra(k,ipoint,2)
      aos_data2(ipoint,k,4) = aos_grad_in_r_array_extra(k,ipoint,3)
    enddo
  enddo


  allocate(int_fct_long_range(n_points_extra_final_grid,ao_num,ao_num))
  allocate(grad1_u12(n_points_extra_final_grid,n_points_final_grid,4))
  allocate(c_mat(n_points_final_grid,ao_num,ao_num))
  allocate(int2_grad1_u12_ao(ao_num,ao_num,n_points_final_grid,4))
  allocate(int_2e_ao(ao_num,ao_num,ao_num,ao_num))

  call wall_time(wall_time0)

  call wall_time(wall_ttime0)
  !$OMP PARALLEL               &
  !$OMP DEFAULT (NONE)         &
  !$OMP PRIVATE (j, i, jpoint) &
  !$OMP SHARED (int_fct_long_range, ao_num, n_points_extra_final_grid, final_weight_at_r_vector_extra, aos_in_r_array_extra_transp)
  !$OMP DO SCHEDULE (static)
  do j = 1, ao_num
    do i = 1, ao_num
      do jpoint = 1, n_points_extra_final_grid
        int_fct_long_range(jpoint,i,j) = final_weight_at_r_vector_extra(jpoint) * aos_in_r_array_extra_transp(jpoint,i) * aos_in_r_array_extra_transp(jpoint,j)
      enddo
    enddo
  enddo
  !$OMP END DO
  !$OMP END PARALLEL
  call wall_time(wall_ttime1)
  write(*,"(A,2X,F15.7)") ' wall time for int_long_range (sec) = ', (wall_ttime1 - wall_ttime0)


  call wall_time(wall_ttime0)
  !$OMP PARALLEL         &
  !$OMP DEFAULT (NONE)   &
  !$OMP PRIVATE (ipoint) &
  !$OMP SHARED (n_points_final_grid, n_points_extra_final_grid, grad1_u12)
  !$OMP DO
  do ipoint = 1, n_points_final_grid
    call get_grad1_u12_for_tc(ipoint, n_points_extra_final_grid, grad1_u12(1,ipoint,1) &
                                                               , grad1_u12(1,ipoint,2) &
                                                               , grad1_u12(1,ipoint,3) &
                                                               , grad1_u12(1,ipoint,4) )
  enddo
  !$OMP END DO
  !$OMP END PARALLEL
  call wall_time(wall_ttime1)
  write(*,"(A,2X,F15.7)") ' wall time for tc_int_bh (sec) = ', (wall_ttime1 - wall_ttime0)


  call wall_time(wall_ttime0)
  do m = 1, 4
    call dgemm("T", "N", ao_num*ao_num, n_points_final_grid, n_points_extra_final_grid, 1.d0                      &
              , int_fct_long_range(1,1,1), n_points_extra_final_grid, grad1_u12(1,1,m), n_points_extra_final_grid &
              , 0.d0, int2_grad1_u12_ao(1,1,1,m), ao_num*ao_num)
  enddo
  call wall_time(wall_ttime1)
  write(*,"(A,2X,F15.7)") ' wall time for DGEMM of integ over r2 (sec) = ', (wall_ttime1 - wall_ttime0)


  call wall_time(wall_ttime0)
  !$OMP PARALLEL               &
  !$OMP DEFAULT (NONE)         &
  !$OMP PRIVATE (i, k, ipoint) &
  !$OMP SHARED (aos_in_r_array_transp, c_mat, ao_num, n_points_final_grid, final_weight_at_r_vector)
  !$OMP DO SCHEDULE (static)
  do i = 1, ao_num
    do k = 1, ao_num
      do ipoint = 1, n_points_final_grid
        c_mat(ipoint,k,i) = final_weight_at_r_vector(ipoint) * aos_in_r_array_transp(ipoint,i) * aos_in_r_array_transp(ipoint,k)
      enddo
    enddo
  enddo
  !$OMP END DO
  !$OMP END PARALLEL
  call wall_time(wall_ttime1)
  write(*,"(A,2X,F15.7)") ' wall time of Hermitian part (sec) = ', (wall_ttime1 - wall_ttime0)


  call wall_time(wall_ttime0)
  call dgemm( "N", "N", ao_num*ao_num, ao_num*ao_num, n_points_final_grid, 1.d0            &
            , int2_grad1_u12_ao(1,1,1,4), ao_num*ao_num, c_mat(1,1,1), n_points_final_grid &
            , 0.d0, int_2e_ao(1,1,1,1), ao_num*ao_num)
  call wall_time(wall_ttime1)
  write(*,"(A,2X,F15.7)") ' wall time for DGEMM of Hermitian part (sec) = ', (wall_ttime1 - wall_ttime0)


  tt1 = 0.d0
  tt2 = 0.d0
  do m = 1, 3

    call wall_time(wall_ttime0)
    !$OMP PARALLEL                                                              &
    !$OMP DEFAULT (NONE)                                                        &
    !$OMP PRIVATE (i, k, ipoint, weight1, ao_i_r, ao_k_r)                       &
    !$OMP SHARED (aos_in_r_array_transp, aos_grad_in_r_array_transp_bis, c_mat, &
    !$OMP         ao_num, n_points_final_grid, final_weight_at_r_vector, m)
    !$OMP DO SCHEDULE (static)
    do i = 1, ao_num
      do k = 1, ao_num
        do ipoint = 1, n_points_final_grid

          weight1 = final_weight_at_r_vector(ipoint)
          ao_i_r  = aos_in_r_array_transp(ipoint,i)
          ao_k_r  = aos_in_r_array_transp(ipoint,k)

          c_mat(ipoint,k,i) = weight1 * (ao_k_r * aos_grad_in_r_array_transp_bis(ipoint,i,m) - ao_i_r * aos_grad_in_r_array_transp_bis(ipoint,k,m))
        enddo
      enddo
    enddo
    !$OMP END DO
    !$OMP END PARALLEL
    call wall_time(wall_ttime1)
    tt1 += wall_ttime1 - wall_ttime0

    call wall_time(wall_ttime0)
    call dgemm( "N", "N", ao_num*ao_num, ao_num*ao_num, n_points_final_grid, -0.5d0          &
              , int2_grad1_u12_ao(1,1,1,m), ao_num*ao_num, c_mat(1,1,1), n_points_final_grid &
              , 1.d0, int_2e_ao(1,1,1,1), ao_num*ao_num)
    call wall_time(wall_ttime1)
    tt2 += wall_ttime1 - wall_ttime0
  enddo
  write(*,"(A,2X,F15.7)") ' wall time of non-Hermitian part (sec) = ', tt1
  write(*,"(A,2X,F15.7)") ' wall time for DGEMM of non Hermitian part (sec) = ', tt2


  call wall_time(wall_ttime0)
  call sum_A_At(int_2e_ao(1,1,1,1), ao_num*ao_num)
  call wall_time(wall_ttime1)
  write(*,"(A,2X,F15.7)") ' wall time of A + A.T (sec) = ', wall_ttime1 - wall_ttime0


  call wall_time(wall_time1)
  write(*,"(A,2X,F15.7)") ' wall time on cpu (sec) = ', (wall_time1 - wall_time0)


  deallocate(int_fct_long_range, grad1_u12, c_mat)
  deallocate(int_2e_ao, int2_grad1_u12_ao)
  deallocate(rn, aos_data1, aos_data2)

  call wall_time(time1)
  write(*,"(A,2X,F15.7)") ' wall time for compute_int_2e_ao_cpu (sec) = ', (time1 - time0)

  return
end
cleaning in cpu vs gpu comparison 2024-08-13 12:19:30 +02:00
			`! ---`

			`program compute_int_2e_ao_cpu`

			`implicit none`

			`print *, ' j2e_type = ', j2e_type`
			`print *, ' j1e_type = ', j1e_type`
			`print *, ' env_type = ', env_type`

			`my_grid_becke = .True.`
			`PROVIDE tc_grid1_a tc_grid1_r`
			`my_n_pt_r_grid = tc_grid1_r`
			`my_n_pt_a_grid = tc_grid1_a`
			`touch my_grid_becke my_n_pt_r_grid my_n_pt_a_grid`

			`my_extra_grid_becke = .True.`
			`PROVIDE tc_grid2_a tc_grid2_r`
			`my_n_pt_r_extra_grid = tc_grid2_r`
			`my_n_pt_a_extra_grid = tc_grid2_a`
			`touch my_extra_grid_becke my_n_pt_r_extra_grid my_n_pt_a_extra_grid`

			`call write_int(6, my_n_pt_r_grid, 'radial external grid over')`
			`call write_int(6, my_n_pt_a_grid, 'angular external grid over')`

			`call write_int(6, my_n_pt_r_extra_grid, 'radial internal grid over')`
			`call write_int(6, my_n_pt_a_extra_grid, 'angular internal grid over')`

			`call main()`

			`end`

			`! ---`

			`subroutine main()`

			`use cutc_module`

			`implicit none`

			`integer :: m`
			`integer :: i, j, k, l`
			`integer :: ipoint, jpoint`

			`double precision :: weight1, ao_i_r, ao_k_r`

			`double precision :: time0, time1`
			`double precision :: wall_time0, wall_time1`
			`double precision :: wall_ttime0, wall_ttime1`
			`double precision :: tt1, tt2`

			`double precision, allocatable :: rn(:,:), aos_data1(:,:,:), aos_data2(:,:,:)`
			`double precision, allocatable :: grad1_u12(:,:,:), int_fct_long_range(:,:,:), c_mat(:,:,:)`
			`double precision, allocatable :: int2_grad1_u12_ao(:,:,:,:)`
			`double precision, allocatable :: int_2e_ao(:,:,:,:)`


			`call wall_time(time0)`
			`print*, ' start compute_int_2e_ao_cpu'`


			`! ---`

			`allocate(rn(3,nucl_num))`
			`allocate(aos_data1(n_points_final_grid,ao_num,4))`
			`allocate(aos_data2(n_points_extra_final_grid,ao_num,4))`

			`do k = 1, nucl_num`
			`rn(1,k) = nucl_coord(k,1)`
			`rn(2,k) = nucl_coord(k,2)`
			`rn(3,k) = nucl_coord(k,3)`
			`enddo`

			`do k = 1, ao_num`
			`do ipoint = 1, n_points_final_grid`
			`aos_data1(ipoint,k,1) = aos_in_r_array(k,ipoint)`
			`aos_data1(ipoint,k,2) = aos_grad_in_r_array(k,ipoint,1)`
			`aos_data1(ipoint,k,3) = aos_grad_in_r_array(k,ipoint,2)`
			`aos_data1(ipoint,k,4) = aos_grad_in_r_array(k,ipoint,3)`
			`enddo`
			`enddo`

			`do k = 1, ao_num`
			`do ipoint = 1, n_points_extra_final_grid`
			`aos_data2(ipoint,k,1) = aos_in_r_array_extra(k,ipoint)`
			`aos_data2(ipoint,k,2) = aos_grad_in_r_array_extra(k,ipoint,1)`
			`aos_data2(ipoint,k,3) = aos_grad_in_r_array_extra(k,ipoint,2)`
			`aos_data2(ipoint,k,4) = aos_grad_in_r_array_extra(k,ipoint,3)`
			`enddo`
			`enddo`


			`allocate(int_fct_long_range(n_points_extra_final_grid,ao_num,ao_num))`
			`allocate(grad1_u12(n_points_extra_final_grid,n_points_final_grid,4))`
			`allocate(c_mat(n_points_final_grid,ao_num,ao_num))`
			`allocate(int2_grad1_u12_ao(ao_num,ao_num,n_points_final_grid,4))`
			`allocate(int_2e_ao(ao_num,ao_num,ao_num,ao_num))`

			`call wall_time(wall_time0)`

			`call wall_time(wall_ttime0)`
			`!$OMP PARALLEL &`
			`!$OMP DEFAULT (NONE) &`
			`!$OMP PRIVATE (j, i, jpoint) &`
			`!$OMP SHARED (int_fct_long_range, ao_num, n_points_extra_final_grid, final_weight_at_r_vector_extra, aos_in_r_array_extra_transp)`
			`!$OMP DO SCHEDULE (static)`
			`do j = 1, ao_num`
			`do i = 1, ao_num`
			`do jpoint = 1, n_points_extra_final_grid`
			`int_fct_long_range(jpoint,i,j) = final_weight_at_r_vector_extra(jpoint) * aos_in_r_array_extra_transp(jpoint,i) * aos_in_r_array_extra_transp(jpoint,j)`
			`enddo`
			`enddo`
			`enddo`
			`!$OMP END DO`
			`!$OMP END PARALLEL`
			`call wall_time(wall_ttime1)`
			`write(*,"(A,2X,F15.7)") ' wall time for int_long_range (sec) = ', (wall_ttime1 - wall_ttime0)`


			`call wall_time(wall_ttime0)`
			`!$OMP PARALLEL &`
			`!$OMP DEFAULT (NONE) &`
			`!$OMP PRIVATE (ipoint) &`
			`!$OMP SHARED (n_points_final_grid, n_points_extra_final_grid, grad1_u12)`
			`!$OMP DO`
			`do ipoint = 1, n_points_final_grid`
			`call get_grad1_u12_for_tc(ipoint, n_points_extra_final_grid, grad1_u12(1,ipoint,1) &`
			`, grad1_u12(1,ipoint,2) &`
			`, grad1_u12(1,ipoint,3) &`
			`, grad1_u12(1,ipoint,4) )`
			`enddo`
			`!$OMP END DO`
			`!$OMP END PARALLEL`
			`call wall_time(wall_ttime1)`
			`write(*,"(A,2X,F15.7)") ' wall time for tc_int_bh (sec) = ', (wall_ttime1 - wall_ttime0)`


			`call wall_time(wall_ttime0)`
			`do m = 1, 4`
			`call dgemm("T", "N", ao_num*ao_num, n_points_final_grid, n_points_extra_final_grid, 1.d0 &`
			`, int_fct_long_range(1,1,1), n_points_extra_final_grid, grad1_u12(1,1,m), n_points_extra_final_grid &`
			`, 0.d0, int2_grad1_u12_ao(1,1,1,m), ao_num*ao_num)`
			`enddo`
			`call wall_time(wall_ttime1)`
			`write(*,"(A,2X,F15.7)") ' wall time for DGEMM of integ over r2 (sec) = ', (wall_ttime1 - wall_ttime0)`


			`call wall_time(wall_ttime0)`
			`!$OMP PARALLEL &`
			`!$OMP DEFAULT (NONE) &`
			`!$OMP PRIVATE (i, k, ipoint) &`
			`!$OMP SHARED (aos_in_r_array_transp, c_mat, ao_num, n_points_final_grid, final_weight_at_r_vector)`
			`!$OMP DO SCHEDULE (static)`
			`do i = 1, ao_num`
			`do k = 1, ao_num`
			`do ipoint = 1, n_points_final_grid`
			`c_mat(ipoint,k,i) = final_weight_at_r_vector(ipoint) * aos_in_r_array_transp(ipoint,i) * aos_in_r_array_transp(ipoint,k)`
			`enddo`
			`enddo`
			`enddo`
			`!$OMP END DO`
			`!$OMP END PARALLEL`
			`call wall_time(wall_ttime1)`
			`write(*,"(A,2X,F15.7)") ' wall time of Hermitian part (sec) = ', (wall_ttime1 - wall_ttime0)`


			`call wall_time(wall_ttime0)`
			`call dgemm( "N", "N", ao_numao_num, ao_numao_num, n_points_final_grid, 1.d0 &`
			`, int2_grad1_u12_ao(1,1,1,4), ao_num*ao_num, c_mat(1,1,1), n_points_final_grid &`
			`, 0.d0, int_2e_ao(1,1,1,1), ao_num*ao_num)`
			`call wall_time(wall_ttime1)`
			`write(*,"(A,2X,F15.7)") ' wall time for DGEMM of Hermitian part (sec) = ', (wall_ttime1 - wall_ttime0)`


			`tt1 = 0.d0`
			`tt2 = 0.d0`
			`do m = 1, 3`

			`call wall_time(wall_ttime0)`
			`!$OMP PARALLEL &`
			`!$OMP DEFAULT (NONE) &`
			`!$OMP PRIVATE (i, k, ipoint, weight1, ao_i_r, ao_k_r) &`
			`!$OMP SHARED (aos_in_r_array_transp, aos_grad_in_r_array_transp_bis, c_mat, &`
			`!$OMP ao_num, n_points_final_grid, final_weight_at_r_vector, m)`
			`!$OMP DO SCHEDULE (static)`
			`do i = 1, ao_num`
			`do k = 1, ao_num`
			`do ipoint = 1, n_points_final_grid`

			`weight1 = final_weight_at_r_vector(ipoint)`
			`ao_i_r = aos_in_r_array_transp(ipoint,i)`
			`ao_k_r = aos_in_r_array_transp(ipoint,k)`

			`c_mat(ipoint,k,i) = weight1 * (ao_k_r * aos_grad_in_r_array_transp_bis(ipoint,i,m) - ao_i_r * aos_grad_in_r_array_transp_bis(ipoint,k,m))`
			`enddo`
			`enddo`
			`enddo`
			`!$OMP END DO`
			`!$OMP END PARALLEL`
			`call wall_time(wall_ttime1)`
			`tt1 += wall_ttime1 - wall_ttime0`

			`call wall_time(wall_ttime0)`
			`call dgemm( "N", "N", ao_numao_num, ao_numao_num, n_points_final_grid, -0.5d0 &`
			`, int2_grad1_u12_ao(1,1,1,m), ao_num*ao_num, c_mat(1,1,1), n_points_final_grid &`
			`, 1.d0, int_2e_ao(1,1,1,1), ao_num*ao_num)`
			`call wall_time(wall_ttime1)`
			`tt2 += wall_ttime1 - wall_ttime0`
			`enddo`
			`write(*,"(A,2X,F15.7)") ' wall time of non-Hermitian part (sec) = ', tt1`
			`write(*,"(A,2X,F15.7)") ' wall time for DGEMM of non Hermitian part (sec) = ', tt2`


			`call wall_time(wall_ttime0)`
			`call sum_A_At(int_2e_ao(1,1,1,1), ao_num*ao_num)`
			`call wall_time(wall_ttime1)`
			`write(*,"(A,2X,F15.7)") ' wall time of A + A.T (sec) = ', wall_ttime1 - wall_ttime0`


			`call wall_time(wall_time1)`
			`write(*,"(A,2X,F15.7)") ' wall time on cpu (sec) = ', (wall_time1 - wall_time0)`


			`deallocate(int_fct_long_range, grad1_u12, c_mat)`
			`deallocate(int_2e_ao, int2_grad1_u12_ao)`
			`deallocate(rn, aos_data1, aos_data2)`

			`call wall_time(time1)`
			`write(*,"(A,2X,F15.7)") ' wall time for compute_int_2e_ao_cpu (sec) = ', (time1 - time0)`

			`return`
			`end`