NodeLocal DNSCache в итоге и спас. Воткнули localdns на 169.254.20.10, p99 латенси DNS упало с 5000мс до 3мс. Спасибо, это реально решение, а не костыль.
Каждый раз одна и та же история. Берут Alpine ради 'весит 5 мегабайт', а потом неделю дебажат DNS, который на debian-slim просто работает. Сэкономили 40 мегабайт образа, потратили 40 человекочасов.
Истина где-то посередине. musl усиливает любую кривизну сети. На идеальном кластере разницы нет. На реальном — Alpine первым ловит грабли. Я для прода беру debian-slim, для CI-утилит Alpine, и всем хорошо.
Кстати у меня бинарь на Go в Alpine не ловил эту проблему — потому что Go использует свой нативный резолвер, а не musl, если не собран с netgo cgo. Так что зависит ещё и от языка/рантайма.