3 周之前 · 201a1fd4b8
--- a/dulwich/partial_clone.py
+++ b/dulwich/partial_clone.py
@@ -40,6 +40,7 @@ __all__ = [
 
				     "SparseOidFilter",
			
 
				     "TreeDepthFilter",
			
 
				     "filter_pack_objects",
			
 
				+    "filter_pack_objects_with_paths",
			
 
				     "parse_filter_spec",
			
 
				 ]
			
 
				 
			
@@ -47,6 +48,8 @@ from abc import ABC, abstractmethod
 
				 from typing import TYPE_CHECKING
			
 
				 
			
 
				 if TYPE_CHECKING:
			
 
				+    from collections.abc import Callable
			
 
				+
			
 
				     from .object_store import BaseObjectStore
			
 
				     from .objects import ObjectID
			
 
				 
			
@@ -464,3 +467,147 @@ def filter_pack_objects(
 
				             filtered_ids.append(oid)
			
 
				 
			
 
				     return filtered_ids
			
 
				+
			
 
				+
			
 
				+def filter_pack_objects_with_paths(
			
 
				+    object_store: "BaseObjectStore",
			
 
				+    wants: list["ObjectID"],
			
 
				+    filter_spec: FilterSpec,
			
 
				+    *,
			
 
				+    progress: "Callable[[bytes], None] | None" = None,
			
 
				+) -> list["ObjectID"]:
			
 
				+    """Filter objects for a pack with full path and depth tracking.
			
 
				+
			
 
				+    This function performs a complete tree traversal starting from the wanted
			
 
				+    commits, tracking paths and depths to enable proper filtering for sparse:oid
			
 
				+    and tree:<depth> filters.
			
 
				+
			
 
				+    Args:
			
 
				+        object_store: Object store to retrieve objects from
			
 
				+        wants: List of commit/tree/blob IDs that are wanted
			
 
				+        filter_spec: Filter specification to apply
			
 
				+        progress: Optional progress callback
			
 
				+
			
 
				+    Returns:
			
 
				+        Filtered list of object IDs that should be included in the pack
			
 
				+    """
			
 
				+    import stat
			
 
				+
			
 
				+    from .objects import S_ISGITLINK, Blob, Commit, Tag, Tree
			
 
				+
			
 
				+    included_objects: set[ObjectID] = set()
			
 
				+    # Track (oid, path, depth) tuples to process
			
 
				+    to_process: list[tuple[ObjectID, str, int]] = []
			
 
				+
			
 
				+    # Start with the wanted commits
			
 
				+    for want in wants:
			
 
				+        try:
			
 
				+            obj = object_store[want]
			
 
				+        except KeyError:
			
 
				+            continue
			
 
				+
			
 
				+        if isinstance(obj, Commit):
			
 
				+            # Always include commits
			
 
				+            included_objects.add(want)
			
 
				+            # Add the root tree to process with depth 0
			
 
				+            to_process.append((obj.tree, "", 0))
			
 
				+        elif isinstance(obj, Tree):
			
 
				+            # Direct tree wants start at depth 0
			
 
				+            to_process.append((want, "", 0))
			
 
				+        elif isinstance(obj, Tag):
			
 
				+            # Always include tags
			
 
				+            included_objects.add(want)
			
 
				+            # Process the tagged object
			
 
				+            tagged_oid = obj.object[1]
			
 
				+            to_process.append((tagged_oid, "", 0))
			
 
				+        elif isinstance(obj, Blob):
			
 
				+            # Direct blob wants - check size filter
			
 
				+            blob_size = len(obj.data)
			
 
				+            if filter_spec.should_include_blob(blob_size):
			
 
				+                included_objects.add(want)
			
 
				+
			
 
				+    # Process trees and their contents
			
 
				+    processed_trees: set[ObjectID] = set()
			
 
				+
			
 
				+    while to_process:
			
 
				+        oid, current_path, depth = to_process.pop()
			
 
				+
			
 
				+        # Skip if already processed
			
 
				+        if oid in processed_trees:
			
 
				+            continue
			
 
				+
			
 
				+        try:
			
 
				+            obj = object_store[oid]
			
 
				+        except KeyError:
			
 
				+            continue
			
 
				+
			
 
				+        if isinstance(obj, Tree):
			
 
				+            # Check if this tree should be included based on depth
			
 
				+            if not filter_spec.should_include_tree(depth):
			
 
				+                continue
			
 
				+
			
 
				+            # Include this tree
			
 
				+            included_objects.add(oid)
			
 
				+            processed_trees.add(oid)
			
 
				+
			
 
				+            # Process tree entries
			
 
				+            for name, mode, entry_oid in obj.iteritems():
			
 
				+                assert name is not None
			
 
				+                assert mode is not None
			
 
				+                assert entry_oid is not None
			
 
				+
			
 
				+                # Skip gitlinks
			
 
				+                if S_ISGITLINK(mode):
			
 
				+                    continue
			
 
				+
			
 
				+                # Build full path
			
 
				+                if current_path:
			
 
				+                    full_path = f"{current_path}/{name.decode('utf-8')}"
			
 
				+                else:
			
 
				+                    full_path = name.decode("utf-8")
			
 
				+
			
 
				+                if stat.S_ISDIR(mode):
			
 
				+                    # It's a subdirectory - add to process list with increased depth
			
 
				+                    to_process.append((entry_oid, full_path, depth + 1))
			
 
				+                elif stat.S_ISREG(mode):
			
 
				+                    # It's a blob - check filters
			
 
				+                    try:
			
 
				+                        blob = object_store[entry_oid]
			
 
				+                    except KeyError:
			
 
				+                        continue
			
 
				+
			
 
				+                    if not isinstance(blob, Blob):
			
 
				+                        continue
			
 
				+
			
 
				+                    # Check filters
			
 
				+                    blob_size = len(blob.data)
			
 
				+
			
 
				+                    # For non-path-based filters (size, blob:none), check directly
			
 
				+                    if not filter_spec.should_include_blob(blob_size):
			
 
				+                        continue
			
 
				+
			
 
				+                    # Check path filter for sparse:oid
			
 
				+                    path_allowed = True
			
 
				+                    if isinstance(filter_spec, SparseOidFilter):
			
 
				+                        path_allowed = filter_spec.should_include_path(full_path)
			
 
				+                    elif isinstance(filter_spec, CombineFilter):
			
 
				+                        # Check path filters in combination
			
 
				+                        for f in filter_spec.filters:
			
 
				+                            if isinstance(f, SparseOidFilter):
			
 
				+                                if not f.should_include_path(full_path):
			
 
				+                                    path_allowed = False
			
 
				+                                    break
			
 
				+
			
 
				+                    if not path_allowed:
			
 
				+                        continue
			
 
				+
			
 
				+                    # Include this blob
			
 
				+                    included_objects.add(entry_oid)
			
 
				+
			
 
				+        elif isinstance(obj, Blob):
			
 
				+            # Standalone blob (shouldn't normally happen in tree traversal)
			
 
				+            blob_size = len(obj.data)
			
 
				+            if filter_spec.should_include_blob(blob_size):
			
 
				+                included_objects.add(oid)
			
 
				+
			
 
				+    return list(included_objects)
			
--- a/tests/test_partial_clone.py
+++ b/tests/test_partial_clone.py
@@ -707,3 +707,290 @@ class PartialCloneIntegrationTests(TestCase):
 
				         self.assertNotIn(blob2.id, filtered)
			
 
				         # Only tree and commit
			
 
				         self.assertEqual(2, len(filtered))
			
 
				+
			
 
				+
			
 
				+class FilterPackObjectsWithPathsTests(TestCase):
			
 
				+    """Test filter_pack_objects_with_paths function."""
			
 
				+
			
 
				+    def setUp(self):
			
 
				+        super().setUp()
			
 
				+        self.object_store = MemoryObjectStore()
			
 
				+
			
 
				+    def test_tree_depth_filtering(self):
			
 
				+        """Test filtering by tree depth."""
			
 
				+        from dulwich.objects import Blob, Tree
			
 
				+        from dulwich.partial_clone import (
			
 
				+            TreeDepthFilter,
			
 
				+            filter_pack_objects_with_paths,
			
 
				+        )
			
 
				+        from dulwich.tests.utils import make_commit
			
 
				+
			
 
				+        # Create a nested tree structure:
			
 
				+        # root/
			
 
				+        #   file1.txt (blob1)
			
 
				+        #   dir1/
			
 
				+        #     file2.txt (blob2)
			
 
				+        #     dir2/
			
 
				+        #       file3.txt (blob3)
			
 
				+
			
 
				+        blob1 = Blob.from_string(b"file1 content")
			
 
				+        blob2 = Blob.from_string(b"file2 content")
			
 
				+        blob3 = Blob.from_string(b"file3 content")
			
 
				+
			
 
				+        # deepest tree (dir2)
			
 
				+        tree_dir2 = Tree()
			
 
				+        tree_dir2.add(b"file3.txt", 0o100644, blob3.id)
			
 
				+
			
 
				+        # middle tree (dir1)
			
 
				+        tree_dir1 = Tree()
			
 
				+        tree_dir1.add(b"file2.txt", 0o100644, blob2.id)
			
 
				+        tree_dir1.add(b"dir2", 0o040000, tree_dir2.id)
			
 
				+
			
 
				+        # root tree
			
 
				+        tree_root = Tree()
			
 
				+        tree_root.add(b"file1.txt", 0o100644, blob1.id)
			
 
				+        tree_root.add(b"dir1", 0o040000, tree_dir1.id)
			
 
				+
			
 
				+        # Add all objects to store
			
 
				+        for obj in [blob1, blob2, blob3, tree_dir2, tree_dir1, tree_root]:
			
 
				+            self.object_store.add_object(obj)
			
 
				+
			
 
				+        commit = make_commit(tree=tree_root.id)
			
 
				+        self.object_store.add_object(commit)
			
 
				+
			
 
				+        # Filter with depth=1 (root + 1 level deep)
			
 
				+        filter_spec = TreeDepthFilter(1)
			
 
				+        filtered = filter_pack_objects_with_paths(
			
 
				+            self.object_store, [commit.id], filter_spec
			
 
				+        )
			
 
				+
			
 
				+        # Should include: commit, tree_root (depth 0), tree_dir1 (depth 1),
			
 
				+        # blob1 (in root), blob2 (in dir1)
			
 
				+        # Should exclude: tree_dir2 (depth 2), blob3 (in dir2)
			
 
				+        self.assertIn(commit.id, filtered)
			
 
				+        self.assertIn(tree_root.id, filtered)
			
 
				+        self.assertIn(tree_dir1.id, filtered)
			
 
				+        self.assertIn(blob1.id, filtered)
			
 
				+        self.assertIn(blob2.id, filtered)
			
 
				+        self.assertNotIn(tree_dir2.id, filtered)
			
 
				+        self.assertNotIn(blob3.id, filtered)
			
 
				+
			
 
				+    def test_sparse_oid_path_filtering(self):
			
 
				+        """Test filtering by sparse checkout patterns."""
			
 
				+        from dulwich.objects import Blob, Tree
			
 
				+        from dulwich.partial_clone import (
			
 
				+            SparseOidFilter,
			
 
				+            filter_pack_objects_with_paths,
			
 
				+        )
			
 
				+        from dulwich.tests.utils import make_commit
			
 
				+
			
 
				+        # Create sparse patterns blob that includes only *.txt files
			
 
				+        patterns = b"*.txt\n"
			
 
				+        patterns_blob = Blob.from_string(patterns)
			
 
				+        self.object_store.add_object(patterns_blob)
			
 
				+
			
 
				+        # Create a tree with mixed file types:
			
 
				+        # root/
			
 
				+        #   readme.txt (should be included)
			
 
				+        #   script.py (should be excluded)
			
 
				+        #   docs/
			
 
				+        #     guide.txt (should be included)
			
 
				+        #     image.png (should be excluded)
			
 
				+
			
 
				+        blob_readme = Blob.from_string(b"readme content")
			
 
				+        blob_script = Blob.from_string(b"script content")
			
 
				+        blob_guide = Blob.from_string(b"guide content")
			
 
				+        blob_image = Blob.from_string(b"image content")
			
 
				+
			
 
				+        tree_docs = Tree()
			
 
				+        tree_docs.add(b"guide.txt", 0o100644, blob_guide.id)
			
 
				+        tree_docs.add(b"image.png", 0o100644, blob_image.id)
			
 
				+
			
 
				+        tree_root = Tree()
			
 
				+        tree_root.add(b"readme.txt", 0o100644, blob_readme.id)
			
 
				+        tree_root.add(b"script.py", 0o100644, blob_script.id)
			
 
				+        tree_root.add(b"docs", 0o040000, tree_docs.id)
			
 
				+
			
 
				+        # Add all objects
			
 
				+        for obj in [
			
 
				+            blob_readme,
			
 
				+            blob_script,
			
 
				+            blob_guide,
			
 
				+            blob_image,
			
 
				+            tree_docs,
			
 
				+            tree_root,
			
 
				+        ]:
			
 
				+            self.object_store.add_object(obj)
			
 
				+
			
 
				+        commit = make_commit(tree=tree_root.id)
			
 
				+        self.object_store.add_object(commit)
			
 
				+
			
 
				+        # Create sparse filter
			
 
				+        filter_spec = SparseOidFilter(patterns_blob.id, object_store=self.object_store)
			
 
				+        filtered = filter_pack_objects_with_paths(
			
 
				+            self.object_store, [commit.id], filter_spec
			
 
				+        )
			
 
				+
			
 
				+        # Should include: commit, trees, and .txt blobs
			
 
				+        self.assertIn(commit.id, filtered)
			
 
				+        self.assertIn(tree_root.id, filtered)
			
 
				+        self.assertIn(tree_docs.id, filtered)
			
 
				+        self.assertIn(blob_readme.id, filtered)
			
 
				+        self.assertIn(blob_guide.id, filtered)
			
 
				+
			
 
				+        # Should exclude: non-.txt blobs
			
 
				+        self.assertNotIn(blob_script.id, filtered)
			
 
				+        self.assertNotIn(blob_image.id, filtered)
			
 
				+
			
 
				+    def test_blob_size_filtering_with_paths(self):
			
 
				+        """Test that blob size filtering still works with path tracking."""
			
 
				+        from dulwich.objects import Blob, Tree
			
 
				+        from dulwich.partial_clone import (
			
 
				+            BlobLimitFilter,
			
 
				+            filter_pack_objects_with_paths,
			
 
				+        )
			
 
				+        from dulwich.tests.utils import make_commit
			
 
				+
			
 
				+        # Create blobs of different sizes
			
 
				+        blob_small = Blob.from_string(b"small")  # 5 bytes
			
 
				+        blob_large = Blob.from_string(b"x" * 1000)  # 1000 bytes
			
 
				+
			
 
				+        tree = Tree()
			
 
				+        tree.add(b"small.txt", 0o100644, blob_small.id)
			
 
				+        tree.add(b"large.txt", 0o100644, blob_large.id)
			
 
				+
			
 
				+        for obj in [blob_small, blob_large, tree]:
			
 
				+            self.object_store.add_object(obj)
			
 
				+
			
 
				+        commit = make_commit(tree=tree.id)
			
 
				+        self.object_store.add_object(commit)
			
 
				+
			
 
				+        # Filter with 100 byte limit
			
 
				+        filter_spec = BlobLimitFilter(100)
			
 
				+        filtered = filter_pack_objects_with_paths(
			
 
				+            self.object_store, [commit.id], filter_spec
			
 
				+        )
			
 
				+
			
 
				+        # Should include small blob but not large
			
 
				+        self.assertIn(commit.id, filtered)
			
 
				+        self.assertIn(tree.id, filtered)
			
 
				+        self.assertIn(blob_small.id, filtered)
			
 
				+        self.assertNotIn(blob_large.id, filtered)
			
 
				+
			
 
				+    def test_combined_sparse_and_size_filter(self):
			
 
				+        """Test combining sparse patterns with blob size limits."""
			
 
				+        from dulwich.objects import Blob, Tree
			
 
				+        from dulwich.partial_clone import (
			
 
				+            BlobLimitFilter,
			
 
				+            CombineFilter,
			
 
				+            SparseOidFilter,
			
 
				+            filter_pack_objects_with_paths,
			
 
				+        )
			
 
				+        from dulwich.tests.utils import make_commit
			
 
				+
			
 
				+        # Create sparse patterns: only *.txt files
			
 
				+        patterns = b"*.txt\n"
			
 
				+        patterns_blob = Blob.from_string(patterns)
			
 
				+        self.object_store.add_object(patterns_blob)
			
 
				+
			
 
				+        # Create files:
			
 
				+        # - small.txt (5 bytes, .txt) -> should be included
			
 
				+        # - large.txt (1000 bytes, .txt) -> excluded by size
			
 
				+        # - small.py (5 bytes, .py) -> excluded by pattern
			
 
				+        # - large.py (1000 bytes, .py) -> excluded by both
			
 
				+
			
 
				+        blob_small_txt = Blob.from_string(b"small txt")
			
 
				+        blob_large_txt = Blob.from_string(b"x" * 1000)
			
 
				+        blob_small_py = Blob.from_string(b"small py")
			
 
				+        blob_large_py = Blob.from_string(b"y" * 1000)
			
 
				+
			
 
				+        tree = Tree()
			
 
				+        tree.add(b"small.txt", 0o100644, blob_small_txt.id)
			
 
				+        tree.add(b"large.txt", 0o100644, blob_large_txt.id)
			
 
				+        tree.add(b"small.py", 0o100644, blob_small_py.id)
			
 
				+        tree.add(b"large.py", 0o100644, blob_large_py.id)
			
 
				+
			
 
				+        for obj in [blob_small_txt, blob_large_txt, blob_small_py, blob_large_py, tree]:
			
 
				+            self.object_store.add_object(obj)
			
 
				+
			
 
				+        commit = make_commit(tree=tree.id)
			
 
				+        self.object_store.add_object(commit)
			
 
				+
			
 
				+        # Combine: sparse filter + 100 byte limit
			
 
				+        filter_spec = CombineFilter(
			
 
				+            [
			
 
				+                SparseOidFilter(patterns_blob.id, object_store=self.object_store),
			
 
				+                BlobLimitFilter(100),
			
 
				+            ]
			
 
				+        )
			
 
				+
			
 
				+        filtered = filter_pack_objects_with_paths(
			
 
				+            self.object_store, [commit.id], filter_spec
			
 
				+        )
			
 
				+
			
 
				+        # Only small.txt should be included (matches pattern AND size limit)
			
 
				+        self.assertIn(commit.id, filtered)
			
 
				+        self.assertIn(tree.id, filtered)
			
 
				+        self.assertIn(blob_small_txt.id, filtered)
			
 
				+        self.assertNotIn(blob_large_txt.id, filtered)  # Too large
			
 
				+        self.assertNotIn(blob_small_py.id, filtered)  # Wrong pattern
			
 
				+        self.assertNotIn(blob_large_py.id, filtered)  # Both wrong
			
 
				+
			
 
				+    def test_blob_none_filter_with_paths(self):
			
 
				+        """Test that blob:none excludes all blobs with path tracking."""
			
 
				+        from dulwich.objects import Blob, Tree
			
 
				+        from dulwich.partial_clone import BlobNoneFilter, filter_pack_objects_with_paths
			
 
				+        from dulwich.tests.utils import make_commit
			
 
				+
			
 
				+        blob1 = Blob.from_string(b"content1")
			
 
				+        blob2 = Blob.from_string(b"content2")
			
 
				+
			
 
				+        tree = Tree()
			
 
				+        tree.add(b"file1.txt", 0o100644, blob1.id)
			
 
				+        tree.add(b"file2.txt", 0o100644, blob2.id)
			
 
				+
			
 
				+        for obj in [blob1, blob2, tree]:
			
 
				+            self.object_store.add_object(obj)
			
 
				+
			
 
				+        commit = make_commit(tree=tree.id)
			
 
				+        self.object_store.add_object(commit)
			
 
				+
			
 
				+        filter_spec = BlobNoneFilter()
			
 
				+        filtered = filter_pack_objects_with_paths(
			
 
				+            self.object_store, [commit.id], filter_spec
			
 
				+        )
			
 
				+
			
 
				+        # Should include commit and tree but no blobs
			
 
				+        self.assertIn(commit.id, filtered)
			
 
				+        self.assertIn(tree.id, filtered)
			
 
				+        self.assertNotIn(blob1.id, filtered)
			
 
				+        self.assertNotIn(blob2.id, filtered)
			
 
				+
			
 
				+    def test_direct_tree_want(self):
			
 
				+        """Test filtering when a tree (not commit) is wanted."""
			
 
				+        from dulwich.objects import Blob, Tree
			
 
				+        from dulwich.partial_clone import (
			
 
				+            BlobLimitFilter,
			
 
				+            filter_pack_objects_with_paths,
			
 
				+        )
			
 
				+
			
 
				+        blob_small = Blob.from_string(b"small")
			
 
				+        blob_large = Blob.from_string(b"x" * 1000)
			
 
				+
			
 
				+        tree = Tree()
			
 
				+        tree.add(b"small.txt", 0o100644, blob_small.id)
			
 
				+        tree.add(b"large.txt", 0o100644, blob_large.id)
			
 
				+
			
 
				+        for obj in [blob_small, blob_large, tree]:
			
 
				+            self.object_store.add_object(obj)
			
 
				+
			
 
				+        # Want the tree directly (not via commit)
			
 
				+        filter_spec = BlobLimitFilter(100)
			
 
				+        filtered = filter_pack_objects_with_paths(
			
 
				+            self.object_store, [tree.id], filter_spec
			
 
				+        )
			
 
				+
			
 
				+        # Should include tree and small blob
			
 
				+        self.assertIn(tree.id, filtered)
			
 
				+        self.assertIn(blob_small.id, filtered)
			
 
				+        self.assertNotIn(blob_large.id, filtered)