[Membership] Monitor all stale silos #9304

ReubenBond · 2025-01-29T18:16:18Z

When scaling a large cluster down rapidly and ungracefully (eg, a full cluster restart + scaling operation), the situation can arise where active silos take a long time to evict the ungracefully removed silos (still incorrectly silos marked Active).

This PR changes how silos select which other silos they monitor so that all silos monitor all 'stale' silos. This allows a small number of silos to monitor and therefore quickly evict a large number of inactive silos.

Microsoft Reviewers: Open in CodeFlow

ReubenBond mentioned this pull request Jan 29, 2025

[Cluster Membership] Improve disaster recovery #9296

Closed

[Membership] Monitor all stale silos

Loading
Loading status checks…

7c854c0

ReubenBond force-pushed the fix/disaster-recovery/monitor-all-stale-silos branch from 9dd85cb to 7c854c0 Compare February 5, 2025 19:32

ReubenBond enabled auto-merge (squash) February 5, 2025 19:32

ReubenBond disabled auto-merge February 5, 2025 19:33

ReubenBond enabled auto-merge (squash) February 5, 2025 19:33

ReubenBond merged commit a8c3704 into dotnet:main Feb 5, 2025
16 checks passed

ReubenBond deleted the fix/disaster-recovery/monitor-all-stale-silos branch February 5, 2025 19:37

github-actions bot locked and limited conversation to collaborators Mar 8, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Membership] Monitor all stale silos #9304

[Membership] Monitor all stale silos #9304

ReubenBond commented Jan 29, 2025 •

edited by dotnet-policy-service bot

Loading

[Membership] Monitor all stale silos #9304

[Membership] Monitor all stale silos #9304

Conversation

ReubenBond commented Jan 29, 2025 • edited by dotnet-policy-service bot Loading

Microsoft Reviewers: Open in CodeFlow

ReubenBond commented Jan 29, 2025 •

edited by dotnet-policy-service bot

Loading