scikit-learn · glemaitre · Oct 17, 2023 · Oct 13, 2023 · Oct 13, 2023 · Oct 13, 2023
diff --git a/doc/whats_new/v1.4.rst b/doc/whats_new/v1.4.rst
@@ -424,6 +424,9 @@ Changelog
   :pr:`13649` by :user:`Samuel Ronsin <samronsin>`, initiated by
   :user:`Patrick O'Reilly <pat-oreilly>`.
 
+- |Fix| Make decision tree pickles deterministic. :pr:`27580` by :user:`Loïc
- |Fix| Make decision tree pickles deterministic. :pr:`27580` by :user:`Loïc
+- |Fix| Make decision tree pickle files deterministic. :pr:`27580` by :user:`Loïc
- |Fix| Make decision tree pickles deterministic. :pr:`27580` by :user:`Loïc
+- |Fix| Make decision tree pickle files deterministic. :pr:`27580` by :user:`Loïc
+  Estève <lesteve>`.
+
 :mod:`sklearn.utils`
 ....................
 

diff --git a/sklearn/tree/_tree.pyx b/sklearn/tree/_tree.pyx
@@ -908,11 +908,13 @@ cdef class Tree:
         safe_realloc(&self.nodes, capacity)
         safe_realloc(&self.value, capacity * self.value_stride)
 
-        # value memory is initialised to 0 to enable classifier argmax
         if capacity > self.capacity:
+            # value memory is initialised to 0 to enable classifier argmax
             memset(<void*>(self.value + self.capacity * self.value_stride), 0,
                    (capacity - self.capacity) * self.value_stride *
                    sizeof(float64_t))
+            # node memory is initialised to 0 to ensure deterministic pickle (padding in Node struct)
+            # memset(<void*>(self.nodes + self.capacity), 0, (capacity - self.capacity) * sizeof(Node))
 
         # if capacity smaller than node_count, adjust the counter
         if capacity < self.node_count:

diff --git a/sklearn/tree/tests/test_tree.py b/sklearn/tree/tests/test_tree.py
@@ -2601,3 +2601,16 @@ def test_sample_weight_non_uniform(make_data, Tree):
     tree_samples_removed.fit(X[1::2, :], y[1::2])
 
     assert_allclose(tree_samples_removed.predict(X), tree_with_sw.predict(X))
+
+
+def test_deterministic_pickle():
+    tree1 = DecisionTreeClassifier(random_state=0).fit(iris.data, iris.target)
+    tree1.fit(X, y)
+
+    tree2 = DecisionTreeClassifier(random_state=0).fit(X, y)
+    tree2.fit(X, y)
+
+    pickle1 = pickle.dumps(tree1)
+    pickle2 = pickle.dumps(tree2)
+
+    assert pickle1 == pickle2