diff --git a/examples/mlperf/model_eval.py b/examples/mlperf/model_eval.py
index 43b48b015a..899484b4c5 100644
--- a/examples/mlperf/model_eval.py
+++ b/examples/mlperf/model_eval.py
@@ -113,7 +113,7 @@ def eval_retinanet():
     if dat.shape[0] == bs:
       outs = mdlrun(dat).numpy()
     else:
-      mdlrun.jit_cache = None
+      mdlrun._jit_cache = []
       outs =  mdl(input_fixup(dat)).numpy()
     et = time.perf_counter()
     predictions = mdl.postprocess_detections(outs, input_size=dat.shape[1:3], orig_image_sizes=[t["image_size"] for t in targets])
diff --git a/tinygrad/tensor.py b/tinygrad/tensor.py
index c56bb5bddf..771a6cd5f3 100644
--- a/tinygrad/tensor.py
+++ b/tinygrad/tensor.py
@@ -3090,7 +3090,7 @@ class Tensor:
     ```
     """
     if not Tensor.training or p == 0: return self
-    return self * (Tensor.rand_like(self, requires_grad=False, dtype=dtypes.default_float) >= p) * (1/(1.0 - p))
+    return (Tensor.rand_like(self, requires_grad=False, dtype=dtypes.default_float) >= p).where(self, 0) * (1/(1.0 - p))
 
   def one_hot(self, num_classes:int=-1) -> Tensor:
     """