OCPBUGS-45924: add a monitor test to detect concurrent installer pod or static pod #29462

tkashem · 2025-01-22T00:59:32Z

The monitor test works as follows:

a) parse the kubelet log for SyncLoop lines (both PLEG and probe lines)
b) generate events/interval for each of these lines from a
c) add a monitor test that inspects the events from b and construct/compute new intervals:
- etcd installer pod duration (derived from PLEG container start, and exit )
- static pod (etcd for now) unready interval (derived from SyncLoop probe events)

This is an example, blue is installer pod duration, the red is etcd static pod unready window:

from: https://prow.ci.openshift.org/view/gs/test-platform-results/pr-logs/pull/29462/pull-ci-openshift-origin-master-e2e-gcp-ovn-upgrade/1882095583997464576

The monitor test also flakes if:

it finds two concurrent installer pods running on separate nodes
it finds two concurrent unready window for the etcd static pod on separate nodes, which could potentially lead to etcd quorum loss

tkashem · 2025-01-22T14:03:27Z

/retest

tkashem · 2025-01-23T02:03:19Z

/payload 4.19 nightly informing

openshift-ci · 2025-01-23T02:03:24Z

@tkashem: trigger 67 job(s) of type informing for the nightly release of OCP 4.19

periodic-ci-openshift-release-master-nightly-4.19-e2e-agent-compact-fips
periodic-ci-openshift-release-master-nightly-4.19-e2e-agent-ha-dualstack-conformance
periodic-ci-openshift-release-master-nightly-4.19-e2e-agent-single-node-ipv6
periodic-ci-openshift-release-master-nightly-4.19-console-aws
periodic-ci-openshift-cluster-control-plane-machine-set-operator-release-4.19-periodics-e2e-aws
periodic-ci-openshift-release-master-nightly-4.19-e2e-aws-csi
periodic-ci-openshift-release-master-ci-4.19-e2e-aws-ovn
periodic-ci-openshift-release-master-nightly-4.19-e2e-aws-ovn-cgroupsv2
periodic-ci-openshift-release-master-nightly-4.19-e2e-aws-ovn-fips
periodic-ci-openshift-release-master-nightly-4.19-e2e-aws-ovn-single-node
periodic-ci-openshift-release-master-nightly-4.19-e2e-aws-ovn-single-node-csi
periodic-ci-openshift-release-master-nightly-4.19-e2e-aws-ovn-single-node-serial
periodic-ci-openshift-release-master-nightly-4.19-e2e-aws-ovn-single-node-techpreview
periodic-ci-openshift-release-master-nightly-4.19-e2e-aws-ovn-single-node-techpreview-serial
periodic-ci-openshift-release-master-nightly-4.19-upgrade-from-stable-4.18-e2e-aws-upgrade-ovn-single-node
periodic-ci-openshift-release-master-ci-4.19-e2e-aws-ovn-upgrade-out-of-change
periodic-ci-openshift-release-master-nightly-4.19-e2e-aws-ovn-upi
periodic-ci-openshift-cluster-control-plane-machine-set-operator-release-4.19-periodics-e2e-azure
periodic-ci-openshift-release-master-nightly-4.19-e2e-azure-csi
periodic-ci-openshift-release-master-ci-4.19-e2e-azure-ovn
periodic-ci-openshift-release-master-ci-4.19-e2e-azure-ovn-serial
periodic-ci-openshift-release-master-ci-4.19-e2e-azure-ovn-techpreview
periodic-ci-openshift-release-master-ci-4.19-e2e-azure-ovn-techpreview-serial
periodic-ci-openshift-release-master-ci-4.19-e2e-azure-ovn-upgrade-out-of-change
periodic-ci-openshift-release-master-nightly-4.19-e2e-aws-driver-toolkit
periodic-ci-openshift-cluster-control-plane-machine-set-operator-release-4.19-periodics-e2e-gcp
periodic-ci-openshift-release-master-ci-4.19-e2e-gcp-ovn
periodic-ci-openshift-release-master-nightly-4.19-e2e-gcp-ovn-csi
periodic-ci-openshift-release-master-nightly-4.19-e2e-gcp-ovn-rt
periodic-ci-openshift-release-master-nightly-4.19-e2e-gcp-ovn-serial
periodic-ci-openshift-release-master-ci-4.19-e2e-gcp-ovn-techpreview
periodic-ci-openshift-release-master-ci-4.19-e2e-gcp-ovn-techpreview-serial
periodic-ci-openshift-release-master-ci-4.19-upgrade-from-stable-4.18-e2e-gcp-ovn-upgrade
periodic-ci-openshift-release-master-ci-4.19-e2e-gcp-ovn-upgrade
periodic-ci-openshift-release-master-nightly-4.19-e2e-metal-ipi-ovn-bm-upgrade
periodic-ci-openshift-release-master-nightly-4.19-e2e-metal-ipi-ovn-dualstack
periodic-ci-openshift-release-master-nightly-4.19-e2e-metal-ipi-ovn-dualstack-techpreview
periodic-ci-openshift-release-master-nightly-4.19-e2e-metal-ipi-ovn-ipv6-techpreview
periodic-ci-openshift-release-master-nightly-4.19-e2e-metal-ipi-ovn-serial-ipv4
periodic-ci-openshift-release-master-nightly-4.19-e2e-metal-ipi-ovn-serial-virtualmedia
periodic-ci-openshift-release-master-nightly-4.19-e2e-metal-ipi-ovn-techpreview
periodic-ci-openshift-release-master-nightly-4.19-upgrade-from-stable-4.18-e2e-metal-ipi-ovn-upgrade
periodic-ci-openshift-release-master-nightly-4.19-e2e-metal-ipi-serial-ovn-ipv6
periodic-ci-openshift-release-master-nightly-4.19-e2e-metal-ipi-serial-ovn-dualstack
periodic-ci-openshift-release-master-nightly-4.19-e2e-metal-ipi-upgrade-ovn-ipv6
periodic-ci-openshift-release-master-nightly-4.19-upgrade-from-stable-4.18-e2e-metal-ipi-upgrade-ovn-ipv6
periodic-ci-openshift-release-master-nightly-4.19-e2e-metal-ovn-assisted
periodic-ci-openshift-release-master-nightly-4.19-metal-ovn-single-node-recert-cluster-rename
periodic-ci-openshift-osde2e-main-nightly-4.19-osd-aws
periodic-ci-openshift-release-master-nightly-4.19-e2e-osd-ccs-gcp
periodic-ci-openshift-osde2e-main-nightly-4.19-osd-gcp
periodic-ci-openshift-release-master-nightly-4.19-e2e-aws-ovn-proxy
periodic-ci-openshift-release-master-nightly-4.19-e2e-metal-ovn-single-node-live-iso
periodic-ci-openshift-osde2e-main-nightly-4.19-rosa-classic-sts
periodic-ci-openshift-release-master-nightly-4.19-e2e-rosa-sts-hypershift-ovn
periodic-ci-openshift-release-master-nightly-4.19-e2e-telco5g
periodic-ci-openshift-release-master-ci-4.19-upgrade-from-stable-4.18-e2e-aws-ovn-upgrade
periodic-ci-openshift-release-master-nightly-4.19-e2e-vsphere-ovn
periodic-ci-openshift-release-master-nightly-4.19-e2e-vsphere-ovn-csi
periodic-ci-openshift-release-master-nightly-4.19-e2e-vsphere-ovn-serial
periodic-ci-openshift-release-master-nightly-4.19-e2e-vsphere-ovn-techpreview
periodic-ci-openshift-release-master-nightly-4.19-e2e-vsphere-ovn-techpreview-serial
periodic-ci-openshift-release-master-ci-4.19-e2e-vsphere-ovn-upgrade
periodic-ci-openshift-release-master-ci-4.19-upgrade-from-stable-4.18-e2e-vsphere-ovn-upgrade
periodic-ci-openshift-release-master-nightly-4.19-e2e-vsphere-ovn-upi
periodic-ci-openshift-release-master-nightly-4.19-e2e-vsphere-ovn-upi-serial
periodic-ci-openshift-release-master-nightly-4.19-e2e-vsphere-static-ovn

See details on https://pr-payload-tests.ci.openshift.org/runs/ci/381fdcf0-d92e-11ef-8b09-a0c863e1b4f6-0

dgoodwin · 2025-01-23T18:29:53Z

pkg/monitortests/kubeapiserver/staticpodinstall/monitortest.go

+
+func (mt *monitorTest) EvaluateTestsFromConstructedIntervals(ctx context.Context, finalIntervals monitorapi.Intervals) ([]*junitapi.JUnitTestCase, error) {
+	junitTest := &junitTest{
+		name:     "[sig-apimachinery] installer Pods should not run concurrently on two or more node",


little cleaner to lower case pods, and pluralize node.

dgoodwin · 2025-01-23T18:32:24Z

pkg/monitortests/kubeapiserver/staticpodinstall/monitortest.go

+	}
+	for _, interval := range concurrent {
+		failed.FailureOutput.Output = fmt.Sprintf("%s\n%s", failed.FailureOutput.Output, interval.String())
+	}


Link to help find flakes, though it will need adjusting if you change the test name: https://sippy.dptools.openshift.org/sippy-ng/tests/Presubmits/analysis?test=%5Bsig-apimachinery%5D%20installer%20Pods%20should%20not%20run%20concurrently%20on%20two%20or%20more%20node&filters=%7B%22items%22%3A%5B%7B%22columnField%22%3A%22name%22%2C%22operatorValue%22%3A%22equals%22%2C%22value%22%3A%22%5Bsig-apimachinery%5D%20installer%20Pods%20should%20not%20run%20concurrently%20on%20two%20or%20more%20node%22%7D%2C%7B%22columnField%22%3A%22variants%22%2C%22not%22%3Atrue%2C%22operatorValue%22%3A%22contains%22%2C%22value%22%3A%22never-stable%22%7D%2C%7B%22columnField%22%3A%22variants%22%2C%22not%22%3Atrue%2C%22operatorValue%22%3A%22contains%22%2C%22value%22%3A%22aggregated%22%7D%5D%2C%22linkOperator%22%3A%22and%22%7D

Very high flake rate it looks like.

Thanks for the sippy URL, almost all of these flakes are from earlier runs with the buggy version of this PR, the newer runs from today do not have these flakes.

Ah that makes sense, I followed the link to the last failure.

dgoodwin · 2025-01-23T18:34:40Z

e2echart/e2e-chart-template.html

@@ -487,6 +495,9 @@ <h5 class="modal-title">Resource</h5>
        timelineGroups.push({group: "api-unreachable", data: []})
        createTimelineData(isAPIUnreachableFromClientValue, timelineGroups[timelineGroups.length - 1].data, eventIntervals, isAPIUnreachableFromClientActivity, regex)

+        timelineGroups.push({group: "staticpod-install", data: []})
+        createTimelineData(isStaticPodInstallMonitorValue, timelineGroups[timelineGroups.length - 1].data, eventIntervals, isStaticPodInstallMonitorActivity, regex)
+


Are the solid blue bars that look to be overlapping with a darker shade of blue what you would expect here: https://prow.ci.openshift.org/view/gs/test-platform-results/pr-logs/pull/29462/pull-ci-openshift-origin-master-e2e-gcp-ovn-rt-upgrade/1881869312688394240

Almost looks like locators are overlapping, but also is it supposed to show overlap for all that time?

no, this is from a run with an earlier version of this PR, I have fixed the issue, any run from today should not have the large blue bar.

tkashem · 2025-01-23T23:56:39Z

/payload 4.19 nightly informing

openshift-ci · 2025-01-23T23:56:44Z

@tkashem: trigger 67 job(s) of type informing for the nightly release of OCP 4.19

periodic-ci-openshift-release-master-nightly-4.19-e2e-agent-compact-fips
periodic-ci-openshift-release-master-nightly-4.19-e2e-agent-ha-dualstack-conformance
periodic-ci-openshift-release-master-nightly-4.19-e2e-agent-single-node-ipv6
periodic-ci-openshift-release-master-nightly-4.19-console-aws
periodic-ci-openshift-cluster-control-plane-machine-set-operator-release-4.19-periodics-e2e-aws
periodic-ci-openshift-release-master-nightly-4.19-e2e-aws-csi
periodic-ci-openshift-release-master-ci-4.19-e2e-aws-ovn
periodic-ci-openshift-release-master-nightly-4.19-e2e-aws-ovn-cgroupsv2
periodic-ci-openshift-release-master-nightly-4.19-e2e-aws-ovn-fips
periodic-ci-openshift-release-master-nightly-4.19-e2e-aws-ovn-single-node
periodic-ci-openshift-release-master-nightly-4.19-e2e-aws-ovn-single-node-csi
periodic-ci-openshift-release-master-nightly-4.19-e2e-aws-ovn-single-node-serial
periodic-ci-openshift-release-master-nightly-4.19-e2e-aws-ovn-single-node-techpreview
periodic-ci-openshift-release-master-nightly-4.19-e2e-aws-ovn-single-node-techpreview-serial
periodic-ci-openshift-release-master-nightly-4.19-upgrade-from-stable-4.18-e2e-aws-upgrade-ovn-single-node
periodic-ci-openshift-release-master-ci-4.19-e2e-aws-ovn-upgrade-out-of-change
periodic-ci-openshift-release-master-nightly-4.19-e2e-aws-ovn-upi
periodic-ci-openshift-cluster-control-plane-machine-set-operator-release-4.19-periodics-e2e-azure
periodic-ci-openshift-release-master-nightly-4.19-e2e-azure-csi
periodic-ci-openshift-release-master-ci-4.19-e2e-azure-ovn
periodic-ci-openshift-release-master-ci-4.19-e2e-azure-ovn-serial
periodic-ci-openshift-release-master-ci-4.19-e2e-azure-ovn-techpreview
periodic-ci-openshift-release-master-ci-4.19-e2e-azure-ovn-techpreview-serial
periodic-ci-openshift-release-master-ci-4.19-e2e-azure-ovn-upgrade-out-of-change
periodic-ci-openshift-release-master-nightly-4.19-e2e-aws-driver-toolkit
periodic-ci-openshift-cluster-control-plane-machine-set-operator-release-4.19-periodics-e2e-gcp
periodic-ci-openshift-release-master-ci-4.19-e2e-gcp-ovn
periodic-ci-openshift-release-master-nightly-4.19-e2e-gcp-ovn-csi
periodic-ci-openshift-release-master-nightly-4.19-e2e-gcp-ovn-rt
periodic-ci-openshift-release-master-nightly-4.19-e2e-gcp-ovn-serial
periodic-ci-openshift-release-master-ci-4.19-e2e-gcp-ovn-techpreview
periodic-ci-openshift-release-master-ci-4.19-e2e-gcp-ovn-techpreview-serial
periodic-ci-openshift-release-master-ci-4.19-upgrade-from-stable-4.18-e2e-gcp-ovn-upgrade
periodic-ci-openshift-release-master-ci-4.19-e2e-gcp-ovn-upgrade
periodic-ci-openshift-release-master-nightly-4.19-e2e-metal-ipi-ovn-bm-upgrade
periodic-ci-openshift-release-master-nightly-4.19-e2e-metal-ipi-ovn-dualstack
periodic-ci-openshift-release-master-nightly-4.19-e2e-metal-ipi-ovn-dualstack-techpreview
periodic-ci-openshift-release-master-nightly-4.19-e2e-metal-ipi-ovn-ipv6-techpreview
periodic-ci-openshift-release-master-nightly-4.19-e2e-metal-ipi-ovn-serial-ipv4
periodic-ci-openshift-release-master-nightly-4.19-e2e-metal-ipi-ovn-serial-virtualmedia
periodic-ci-openshift-release-master-nightly-4.19-e2e-metal-ipi-ovn-techpreview
periodic-ci-openshift-release-master-nightly-4.19-upgrade-from-stable-4.18-e2e-metal-ipi-ovn-upgrade
periodic-ci-openshift-release-master-nightly-4.19-e2e-metal-ipi-serial-ovn-ipv6
periodic-ci-openshift-release-master-nightly-4.19-e2e-metal-ipi-serial-ovn-dualstack
periodic-ci-openshift-release-master-nightly-4.19-e2e-metal-ipi-upgrade-ovn-ipv6
periodic-ci-openshift-release-master-nightly-4.19-upgrade-from-stable-4.18-e2e-metal-ipi-upgrade-ovn-ipv6
periodic-ci-openshift-release-master-nightly-4.19-e2e-metal-ovn-assisted
periodic-ci-openshift-release-master-nightly-4.19-metal-ovn-single-node-recert-cluster-rename
periodic-ci-openshift-osde2e-main-nightly-4.19-osd-aws
periodic-ci-openshift-release-master-nightly-4.19-e2e-osd-ccs-gcp
periodic-ci-openshift-osde2e-main-nightly-4.19-osd-gcp
periodic-ci-openshift-release-master-nightly-4.19-e2e-aws-ovn-proxy
periodic-ci-openshift-release-master-nightly-4.19-e2e-metal-ovn-single-node-live-iso
periodic-ci-openshift-osde2e-main-nightly-4.19-rosa-classic-sts
periodic-ci-openshift-release-master-nightly-4.19-e2e-rosa-sts-hypershift-ovn
periodic-ci-openshift-release-master-nightly-4.19-e2e-telco5g
periodic-ci-openshift-release-master-ci-4.19-upgrade-from-stable-4.18-e2e-aws-ovn-upgrade
periodic-ci-openshift-release-master-nightly-4.19-e2e-vsphere-ovn
periodic-ci-openshift-release-master-nightly-4.19-e2e-vsphere-ovn-csi
periodic-ci-openshift-release-master-nightly-4.19-e2e-vsphere-ovn-serial
periodic-ci-openshift-release-master-nightly-4.19-e2e-vsphere-ovn-techpreview
periodic-ci-openshift-release-master-nightly-4.19-e2e-vsphere-ovn-techpreview-serial
periodic-ci-openshift-release-master-ci-4.19-e2e-vsphere-ovn-upgrade
periodic-ci-openshift-release-master-ci-4.19-upgrade-from-stable-4.18-e2e-vsphere-ovn-upgrade
periodic-ci-openshift-release-master-nightly-4.19-e2e-vsphere-ovn-upi
periodic-ci-openshift-release-master-nightly-4.19-e2e-vsphere-ovn-upi-serial
periodic-ci-openshift-release-master-nightly-4.19-e2e-vsphere-static-ovn

See details on https://pr-payload-tests.ci.openshift.org/runs/ci/b0796a60-d9e5-11ef-9bce-7b4be61e19fb-0

ingvagabund · 2025-01-24T12:03:41Z

pkg/monitortests/kubeapiserver/staticpodinstall/kubeletlogparser/parser.go

+	accummulated := monitorapi.Intervals{}
+	for _, parser := range p {
+		intervals, handled := parser.Parse(node, line)
+		accummulated = append(accummulated, intervals...)


What if (in the future) either of Parse implementations accidentally returns non-nil intervals and handled=false? Will accummulated be still a valid list of intervals?

we can tweak it in the future, forcefully run all parsers, we also want to streamline all the existing parsers -

origin/pkg/monitortests/node/kubeletlogcollector/node.go

Lines 96 to 106 in 5b828df

ret = append(ret, readinessFailure(nodeName, currLine)...)

ret = append(ret, readinessError(nodeName, currLine)...)

ret = append(ret, statusHttpClientConnectionLostError(nodeName, currLine)...)

ret = append(ret, reflectorHttpClientConnectionLostError(nodeName, currLine)...)

ret = append(ret, kubeletNodeHttpClientConnectionLostError(nodeName, currLine)...)

ret = append(ret, startupProbeError(nodeName, currLine)...)

ret = append(ret, errParsingSignature(nodeName, currLine)...)

ret = append(ret, failedToDeleteCGroupsPath(nodeLocator, currLine)...)

ret = append(ret, anonymousCertConnectionError(nodeLocator, currLine)...)

ret = append(ret, leaseUpdateError(nodeLocator, currLine)...)

ret = append(ret, leaseFailBackOff(nodeLocator, currLine)...)

I had to move the two parsers in this PR n their own packages so I could write some tests. to your question, right now, if that happens the existing tests will fail, so we have some protection :)

dgoodwin · 2025-01-24T12:10:42Z

/approve

Feel free to get someone on your team to lgtm, the core things we look for are all good in here.

ingvagabund · 2025-01-24T13:59:30Z

This was a good learning opportunity. This is a great and very helpful start. Let's have this sit around for a while to observe a new signal in the CI jobs. Thank you Abu.

/lgtm

openshift-ci · 2025-01-24T14:01:08Z

[APPROVALNOTIFIER] This PR is APPROVED

This pull-request has been approved by: dgoodwin, ingvagabund, tkashem

The full list of commands accepted by this bot can be found here.

The pull request process is described here

Needs approval from an approver in each of these files:

~~OWNERS~~ [dgoodwin]

Approvers can indicate their approval by writing /approve in a comment
Approvers can cancel approval by writing /approve cancel in a comment

ingvagabund · 2025-01-24T14:01:39Z

CI improvements, the new test will only flake in the worst case.
/label acknowledge-critical-fixes-only

ingvagabund · 2025-01-24T14:04:19Z

/retitle no-jira: add a monitor test to detect concurrent installer pod or static pod

openshift-ci-robot · 2025-01-24T14:04:29Z

@tkashem: This pull request explicitly references no jira issue.

In response to this:

The monitor test works as follows:

a) parse the kubelet log for SyncLoop lines (both PLEG and probe lines)

b) generate events/interval for each of these lines from a

c) add a monitor test that inspects the events from b and construct/compute new intervals:

etcd installer pod duration (derived from PLEG container start, and exit )

static pod (etcd for now) unready interval (derived from SyncLoop probe events)

This is an example, blue is installer pod duration, the red is etcd static pod unready window:

from: https://prow.ci.openshift.org/view/gs/test-platform-results/pr-logs/pull/29462/pull-ci-openshift-origin-master-e2e-gcp-ovn-upgrade/1882095583997464576

The monitor test also flakes if:

it finds two concurrent installer pods running on separate nodes

it finds two concurrent unready window for the etcd static pod on separate nodes, which could potentially lead to etcd quorum loss

Instructions for interacting with me using PR comments are available here. If you have questions or suggestions related to my behavior, please file an issue against the openshift-eng/jira-lifecycle-plugin repository.

benluddy · 2025-01-24T14:07:50Z

pkg/monitortests/kubeapiserver/staticpodinstall/monitortest.go

+	// the following constraints define pass/fail for this test:
+	// a) if we don't find any constructed/computed interval, then
+	// this test is a noop, so we mark the test as skipped
+	// b) we find constructed/computed intervals, but no occurrences of
+	// concurrent situation, this test is a pass
+	// c) otherwise, there is at least one incident of a
+	// concurrent situation, this test is a flake/fail


How hard would it be to make the test fail when a logging change causes either parser to observe nothing? If we don't see a single PLEG or probe log for any container (not limited to installer pods), would that be a reliable signal that the logs we're looking for have changed somehow?

we want to streamline this for other parsers as well, we will do a follow up PR for this.

(I know this is common to all the "log grepping" tests. I'd be happy to see an issue that describes the problem instead of delaying this test, which is useful immediately.)

https://issues.redhat.com/browse/OCPBUGS-49301

ingvagabund · 2025-01-24T14:08:45Z

/hold
In case others wanna review too.

benluddy · 2025-01-24T14:37:20Z

/hold cancel

benluddy · 2025-01-24T14:41:56Z

/cherry-pick release-4.18

openshift-cherrypick-robot · 2025-01-24T14:41:58Z

@benluddy: once the present PR merges, I will cherry-pick it on top of release-4.18 in a new PR and assign it to you.

In response to this:

/cherry-pick release-4.18

Instructions for interacting with me using PR comments are available here. If you have questions or suggestions related to my behavior, please file an issue against the kubernetes-sigs/prow repository.

tkashem · 2025-01-24T14:52:57Z

/retest-required

tkashem · 2025-01-24T18:09:27Z

/retest-required

benluddy · 2025-01-24T18:40:22Z

/shrug

benluddy · 2025-01-24T18:41:36Z

/test e2e-gcp-ovn-rt-upgrade
/test e2e-metal-ipi-ovn
/test e2e-openstack-ovn
/test e2e-aws-ovn-kube-apiserver-rollout

tkashem · 2025-01-24T18:53:09Z

/test

openshift-ci · 2025-01-24T18:53:12Z

@tkashem: The /test command needs one or more targets.
The following commands are available to trigger required jobs:

/test e2e-aws-jenkins

/test e2e-aws-ovn-edge-zones

/test e2e-aws-ovn-fips

/test e2e-aws-ovn-image-registry

/test e2e-aws-ovn-microshift

/test e2e-aws-ovn-microshift-serial

/test e2e-aws-ovn-serial

/test e2e-gcp-ovn

/test e2e-gcp-ovn-builds

/test e2e-gcp-ovn-image-ecosystem

/test e2e-gcp-ovn-upgrade

/test e2e-metal-ipi-ovn-ipv6

/test images

/test lint

/test unit

/test verify

/test verify-deps

The following commands are available to trigger optional jobs:

/test 4.12-upgrade-from-stable-4.11-e2e-aws-ovn-upgrade-rollback

/test e2e-agnostic-ovn-cmd

/test e2e-aws

/test e2e-aws-csi

/test e2e-aws-disruptive

/test e2e-aws-etcd-certrotation

/test e2e-aws-etcd-recovery

/test e2e-aws-ovn

/test e2e-aws-ovn-cgroupsv2

/test e2e-aws-ovn-etcd-scaling

/test e2e-aws-ovn-ipsec-serial

/test e2e-aws-ovn-kube-apiserver-rollout

/test e2e-aws-ovn-kubevirt

/test e2e-aws-ovn-single-node

/test e2e-aws-ovn-single-node-serial

/test e2e-aws-ovn-single-node-techpreview

/test e2e-aws-ovn-single-node-techpreview-serial

/test e2e-aws-ovn-single-node-upgrade

/test e2e-aws-ovn-upgrade

/test e2e-aws-ovn-upgrade-rollback

/test e2e-aws-ovn-upi

/test e2e-aws-ovn-virt-techpreview

/test e2e-aws-proxy

/test e2e-azure

/test e2e-azure-ovn-etcd-scaling

/test e2e-azure-ovn-upgrade

/test e2e-baremetalds-kubevirt

/test e2e-external-aws

/test e2e-external-aws-ccm

/test e2e-external-vsphere-ccm

/test e2e-gcp-csi

/test e2e-gcp-disruptive

/test e2e-gcp-fips-serial

/test e2e-gcp-ovn-etcd-scaling

/test e2e-gcp-ovn-rt-upgrade

/test e2e-gcp-ovn-techpreview

/test e2e-gcp-ovn-techpreview-serial

/test e2e-hypershift-conformance

/test e2e-metal-ipi-ovn

/test e2e-metal-ipi-ovn-dualstack

/test e2e-metal-ipi-ovn-dualstack-local-gateway

/test e2e-metal-ipi-ovn-kube-apiserver-rollout

/test e2e-metal-ipi-serial

/test e2e-metal-ipi-serial-ovn-ipv6

/test e2e-metal-ipi-virtualmedia

/test e2e-metal-ovn-single-node-live-iso

/test e2e-metal-ovn-single-node-with-worker-live-iso

/test e2e-openstack-ovn

/test e2e-openstack-serial

/test e2e-vsphere

/test e2e-vsphere-ovn-dualstack-primaryv6

/test e2e-vsphere-ovn-etcd-scaling

/test okd-e2e-gcp

/test okd-scos-e2e-aws-ovn

/test okd-scos-images

Use /test all to run the following jobs that were automatically triggered:

pull-ci-openshift-origin-master-e2e-agnostic-ovn-cmd

pull-ci-openshift-origin-master-e2e-aws-csi

pull-ci-openshift-origin-master-e2e-aws-ovn-cgroupsv2

pull-ci-openshift-origin-master-e2e-aws-ovn-edge-zones

pull-ci-openshift-origin-master-e2e-aws-ovn-fips

pull-ci-openshift-origin-master-e2e-aws-ovn-kube-apiserver-rollout

pull-ci-openshift-origin-master-e2e-aws-ovn-microshift

pull-ci-openshift-origin-master-e2e-aws-ovn-microshift-serial

pull-ci-openshift-origin-master-e2e-aws-ovn-serial

pull-ci-openshift-origin-master-e2e-aws-ovn-single-node

pull-ci-openshift-origin-master-e2e-aws-ovn-single-node-serial

pull-ci-openshift-origin-master-e2e-aws-ovn-single-node-upgrade

pull-ci-openshift-origin-master-e2e-aws-ovn-upgrade

pull-ci-openshift-origin-master-e2e-gcp-csi

pull-ci-openshift-origin-master-e2e-gcp-ovn

pull-ci-openshift-origin-master-e2e-gcp-ovn-rt-upgrade

pull-ci-openshift-origin-master-e2e-gcp-ovn-upgrade

pull-ci-openshift-origin-master-e2e-hypershift-conformance

pull-ci-openshift-origin-master-e2e-metal-ipi-ovn

pull-ci-openshift-origin-master-e2e-metal-ipi-ovn-ipv6

pull-ci-openshift-origin-master-e2e-metal-ipi-ovn-kube-apiserver-rollout

pull-ci-openshift-origin-master-e2e-openstack-ovn

pull-ci-openshift-origin-master-images

pull-ci-openshift-origin-master-lint

pull-ci-openshift-origin-master-okd-scos-e2e-aws-ovn

pull-ci-openshift-origin-master-unit

pull-ci-openshift-origin-master-verify

pull-ci-openshift-origin-master-verify-deps

In response to this:

/test

Instructions for interacting with me using PR comments are available here. If you have questions or suggestions related to my behavior, please file an issue against the kubernetes-sigs/prow repository.

tkashem · 2025-01-24T18:54:19Z

/retest

tkashem · 2025-01-24T19:26:27Z

/retest-required

tkashem · 2025-01-24T19:30:11Z

/test all

tkashem · 2025-01-25T00:05:55Z

/retest-required

openshift-trt · 2025-01-25T05:05:48Z

Job Failure Risk Analysis for sha: 3eece60

Job Name	Failure Risk
pull-ci-openshift-origin-master-e2e-aws-ovn-kube-apiserver-rollout	Low [Conformance][Suite:openshift/kube-apiserver/rollout][Jira:"kube-apiserver"][sig-kube-apiserver] kube-apiserver should roll out new revisions without disruption [apigroup:config.openshift.io][apigroup:operator.openshift.io] This test has passed 14.29% of 7 runs on release 4.19 [Architecture:amd64 FeatureSet:default Installer:ipi Network:ovn NetworkStack:ipv4 Platform:aws SecurityMode:default Topology:ha Upgrade:none] in the last week.

openshift-ci · 2025-01-25T16:01:01Z

@tkashem: The following tests failed, say /retest to rerun all failed tests or /retest-required to rerun all mandatory failed tests:

Test name	Commit	Details	Required	Rerun command
ci/prow/e2e-gcp-ovn-rt-upgrade	`3eece60`	link	false	`/test e2e-gcp-ovn-rt-upgrade`
ci/prow/e2e-aws-ovn-single-node-upgrade	`3eece60`	link	false	`/test e2e-aws-ovn-single-node-upgrade`
ci/prow/e2e-metal-ipi-ovn	`3eece60`	link	false	`/test e2e-metal-ipi-ovn`
ci/prow/e2e-aws-ovn-kube-apiserver-rollout	`3eece60`	link	false	`/test e2e-aws-ovn-kube-apiserver-rollout`
ci/prow/okd-scos-e2e-aws-ovn	`3eece60`	link	false	`/test okd-scos-e2e-aws-ovn`

Full PR test history. Your PR dashboard.

Instructions for interacting with me using PR comments are available here. If you have questions or suggestions related to my behavior, please file an issue against the kubernetes-sigs/prow repository. I understand the commands that are listed here.

openshift-cherrypick-robot · 2025-01-25T16:06:11Z

@benluddy: new pull request created: #29480

In response to this:

/cherry-pick release-4.18

Instructions for interacting with me using PR comments are available here. If you have questions or suggestions related to my behavior, please file an issue against the kubernetes-sigs/prow repository.

openshift-bot · 2025-01-25T18:59:43Z

[ART PR BUILD NOTIFIER]

Distgit: openshift-enterprise-tests
This PR has been included in build openshift-enterprise-tests-container-v4.19.0-202501251809.p0.g2909253.assembly.stream.el9.
All builds following this will include this PR.

openshift-ci-robot · 2025-01-27T13:47:35Z

@tkashem: Jira Issue OCPBUGS-45924 is in an unrecognized state (ON_QA) and will not be moved to the MODIFIED state.

In response to this:

The monitor test works as follows:

a) parse the kubelet log for SyncLoop lines (both PLEG and probe lines)

b) generate events/interval for each of these lines from a

c) add a monitor test that inspects the events from b and construct/compute new intervals:

etcd installer pod duration (derived from PLEG container start, and exit )

static pod (etcd for now) unready interval (derived from SyncLoop probe events)

This is an example, blue is installer pod duration, the red is etcd static pod unready window:

from: https://prow.ci.openshift.org/view/gs/test-platform-results/pr-logs/pull/29462/pull-ci-openshift-origin-master-e2e-gcp-ovn-upgrade/1882095583997464576

The monitor test also flakes if:

it finds two concurrent installer pods running on separate nodes

it finds two concurrent unready window for the etcd static pod on separate nodes, which could potentially lead to etcd quorum loss

Instructions for interacting with me using PR comments are available here. If you have questions or suggestions related to my behavior, please file an issue against the openshift-eng/jira-lifecycle-plugin repository.

tkashem · 2025-01-27T22:11:08Z

/cherry-pick release-4.17

openshift-cherrypick-robot · 2025-01-27T22:11:49Z

@tkashem: #29462 failed to apply on top of branch "release-4.17":

Applying: monitor static pod install by parsing kubelet logs
Using index info to reconstruct a base tree...
M	pkg/monitor/monitorapi/construction.go
M	pkg/monitor/monitorapi/types.go
M	pkg/monitortests/node/kubeletlogcollector/node.go
Falling back to patching base and 3-way merge...
Auto-merging pkg/monitortests/node/kubeletlogcollector/node.go
CONFLICT (content): Merge conflict in pkg/monitortests/node/kubeletlogcollector/node.go
Auto-merging pkg/monitor/monitorapi/types.go
CONFLICT (content): Merge conflict in pkg/monitor/monitorapi/types.go
Auto-merging pkg/monitor/monitorapi/construction.go
error: Failed to merge in the changes.
hint: Use 'git am --show-current-patch=diff' to see the failed patch
hint: When you have resolved this problem, run "git am --continue".
hint: If you prefer to skip this patch, run "git am --skip" instead.
hint: To restore the original branch and stop patching, run "git am --abort".
hint: Disable this message with "git config advice.mergeConflict false"
Patch failed at 0001 monitor static pod install by parsing kubelet logs

In response to this:

/cherry-pick release-4.17

Instructions for interacting with me using PR comments are available here. If you have questions or suggestions related to my behavior, please file an issue against the kubernetes-sigs/prow repository.

openshift-ci bot added the do-not-merge/work-in-progress Indicates that a PR should not merge because it is a work in progress. label Jan 22, 2025

openshift-ci bot requested review from deads2k and p0lyn0mial January 22, 2025 01:00

monitor static pod install by parsing kubelet logs

0581b76

tkashem force-pushed the mt-static-pod branch 2 times, most recently from b041550 to 2ea9f20 Compare January 22, 2025 15:57

tkashem changed the title ~~[WIP] monitor test to detect concurrent installer pod or static pod~~ add a monitor test to detect concurrent installer pod or static pod Jan 22, 2025

openshift-ci bot removed the do-not-merge/work-in-progress Indicates that a PR should not merge because it is a work in progress. label Jan 22, 2025

dgoodwin reviewed Jan 23, 2025

View reviewed changes

add a monitor test to analyze kubelet SyncLoop events

3eece60

tkashem force-pushed the mt-static-pod branch from 2ea9f20 to 3eece60 Compare January 23, 2025 20:59

ingvagabund reviewed Jan 24, 2025

View reviewed changes

openshift-ci bot added the approved Indicates a PR has been approved by an approver from all required OWNERS files. label Jan 24, 2025

openshift-ci bot assigned ingvagabund Jan 24, 2025

openshift-ci bot added the lgtm Indicates that a PR is ready to be merged. label Jan 24, 2025

openshift-ci bot added the acknowledge-critical-fixes-only Indicates if the issuer of the label is OK with the policy. label Jan 24, 2025

openshift-ci bot changed the title ~~add a monitor test to detect concurrent installer pod or static pod~~ no-jira: add a monitor test to detect concurrent installer pod or static pod Jan 24, 2025

openshift-ci-robot added the jira/valid-reference Indicates that this PR references a valid Jira ticket of any type. label Jan 24, 2025

benluddy reviewed Jan 24, 2025

View reviewed changes

openshift-ci bot added the do-not-merge/hold Indicates that a PR should not merge because someone has issued a /hold command. label Jan 24, 2025

openshift-ci bot removed the do-not-merge/hold Indicates that a PR should not merge because someone has issued a /hold command. label Jan 24, 2025

openshift-ci bot added the ¯\_(ツ)_/¯ ¯\\\_(ツ)_/¯ label Jan 24, 2025

openshift-merge-bot bot merged commit 2909253 into openshift:master Jan 25, 2025
24 of 29 checks passed

openshift-cherrypick-robot mentioned this pull request Jan 25, 2025

[release-4.18] OCPBUGS-48524: add a monitor test to detect concurrent installer pod or static pod #29480

Merged

tkashem changed the title ~~no-jira: add a monitor test to detect concurrent installer pod or static pod~~ OCPBUGS-45924: add a monitor test to detect concurrent installer pod or static pod Jan 27, 2025

tkashem mentioned this pull request Jan 27, 2025

OCPBUGS-49411: Add a monitor test to detect concurrent installer pod or static pod #29487

Merged

	ret = append(ret, readinessFailure(nodeName, currLine)...)
	ret = append(ret, readinessError(nodeName, currLine)...)
	ret = append(ret, statusHttpClientConnectionLostError(nodeName, currLine)...)
	ret = append(ret, reflectorHttpClientConnectionLostError(nodeName, currLine)...)
	ret = append(ret, kubeletNodeHttpClientConnectionLostError(nodeName, currLine)...)
	ret = append(ret, startupProbeError(nodeName, currLine)...)
	ret = append(ret, errParsingSignature(nodeName, currLine)...)
	ret = append(ret, failedToDeleteCGroupsPath(nodeLocator, currLine)...)
	ret = append(ret, anonymousCertConnectionError(nodeLocator, currLine)...)
	ret = append(ret, leaseUpdateError(nodeLocator, currLine)...)
	ret = append(ret, leaseFailBackOff(nodeLocator, currLine)...)

OCPBUGS-45924: add a monitor test to detect concurrent installer pod or static pod #29462

OCPBUGS-45924: add a monitor test to detect concurrent installer pod or static pod #29462

Conversation

tkashem commented Jan 22, 2025 • edited Loading

tkashem commented Jan 22, 2025

tkashem commented Jan 23, 2025

openshift-ci bot commented Jan 23, 2025

Choose a reason for hiding this comment

Choose a reason for hiding this comment

tkashem Jan 23, 2025 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

tkashem commented Jan 23, 2025

openshift-ci bot commented Jan 23, 2025

ingvagabund Jan 24, 2025 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

dgoodwin commented Jan 24, 2025

ingvagabund commented Jan 24, 2025

openshift-ci bot commented Jan 24, 2025

ingvagabund commented Jan 24, 2025 • edited Loading

ingvagabund commented Jan 24, 2025

openshift-ci-robot commented Jan 24, 2025

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

ingvagabund commented Jan 24, 2025

benluddy commented Jan 24, 2025

benluddy commented Jan 24, 2025

openshift-cherrypick-robot commented Jan 24, 2025

tkashem commented Jan 24, 2025

tkashem commented Jan 24, 2025

benluddy commented Jan 24, 2025

benluddy commented Jan 24, 2025

tkashem commented Jan 24, 2025

openshift-ci bot commented Jan 24, 2025

tkashem commented Jan 24, 2025

tkashem commented Jan 24, 2025

tkashem commented Jan 24, 2025

tkashem commented Jan 25, 2025

openshift-trt bot commented Jan 25, 2025

openshift-ci bot commented Jan 25, 2025

openshift-cherrypick-robot commented Jan 25, 2025

openshift-bot commented Jan 25, 2025

openshift-ci-robot commented Jan 27, 2025

tkashem commented Jan 27, 2025

openshift-cherrypick-robot commented Jan 27, 2025

tkashem commented Jan 22, 2025 •

edited

Loading

tkashem Jan 23, 2025 •

edited

Loading

ingvagabund Jan 24, 2025 •

edited

Loading

ingvagabund commented Jan 24, 2025 •

edited

Loading