fix(cuda): fix asynchronous behaviour for pbs and wop pbs

2026-02-09 20:25:34 -05:00 · 2023-01-23 15:55:57 +01:00
parent 2fcc5b2d0f
commit bd9cbbc7af
20 changed files with 81 additions and 259 deletions
--- a/include/bootstrap.h
+++ b/include/bootstrap.h
@@ -5,7 +5,8 @@

 extern "C" {

-void cuda_initialize_twiddles(uint32_t polynomial_size, uint32_t gpu_index);
+void cuda_initialize_twiddles(uint32_t polynomial_size, void *v_stream,
+                              uint32_t gpu_index);

 void cuda_convert_lwe_bootstrap_key_32(void *dest, void *src, void *v_stream,
                                       uint32_t gpu_index,
--- a/include/device.h
+++ b/include/device.h
@@ -33,4 +33,6 @@ int cuda_drop(void *ptr, uint32_t gpu_index);
 int cuda_drop_async(void *ptr, cudaStream_t *stream, uint32_t gpu_index);

 int cuda_get_max_shared_memory(uint32_t gpu_index);
+
+int cuda_synchronize_stream(void *v_stream);
 }
--- a/include/keyswitch.h
+++ b/include/keyswitch.h
@@ -15,23 +15,19 @@ void cuda_keyswitch_lwe_ciphertext_vector_64(
    void *ksk, uint32_t lwe_dimension_in, uint32_t lwe_dimension_out,
    uint32_t base_log, uint32_t level_count, uint32_t num_samples);

-void cuda_fp_keyswitch_lwe_to_glwe_32(void *v_stream, void *glwe_array_out,
-                                      void *lwe_array_in, void *fp_ksk_array,
-                                      uint32_t input_lwe_dimension,
-                                      uint32_t output_glwe_dimension,
-                                      uint32_t output_polynomial_size,
-                                      uint32_t base_log, uint32_t level_count,
-                                      uint32_t number_of_input_lwe,
-                                      uint32_t number_of_keys);
+void cuda_fp_keyswitch_lwe_to_glwe_32(
+    void *v_stream, uint32_t gpu_index, void *glwe_array_out,
+    void *lwe_array_in, void *fp_ksk_array, uint32_t input_lwe_dimension,
+    uint32_t output_glwe_dimension, uint32_t output_polynomial_size,
+    uint32_t base_log, uint32_t level_count, uint32_t number_of_input_lwe,
+    uint32_t number_of_keys);

-void cuda_fp_keyswitch_lwe_to_glwe_64(void *v_stream, void *glwe_array_out,
-                                      void *lwe_array_in, void *fp_ksk_array,
-                                      uint32_t input_lwe_dimension,
-                                      uint32_t output_glwe_dimension,
-                                      uint32_t output_polynomial_size,
-                                      uint32_t base_log, uint32_t level_count,
-                                      uint32_t number_of_input_lwe,
-                                      uint32_t number_of_keys);
+void cuda_fp_keyswitch_lwe_to_glwe_64(
+    void *v_stream, uint32_t gpu_index, void *glwe_array_out,
+    void *lwe_array_in, void *fp_ksk_array, uint32_t input_lwe_dimension,
+    uint32_t output_glwe_dimension, uint32_t output_polynomial_size,
+    uint32_t base_log, uint32_t level_count, uint32_t number_of_input_lwe,
+    uint32_t number_of_keys);
 }

 #endif // CNCRT_KS_H_