跳到主要内容

配置上游健康检查

健康检查是一种根据上游服务的响应能力来确定其健康状况的机制。启用健康检查后,APISIX 将仅将请求转发到被视为健康的上游服务,而不会将请求转发到被视为不健康的服务。

健康检查通常有两种方法:

  • 主动健康检查:APISIX 主动并定期向上游服务发送请求,并根据这些请求的响应确定其健康状况。
  • 被动健康检查:APISIX 根据上游服务对客户端请求的响应来确定其健康状况,而无需主动探测。

本指南将向你展示如何为你的上游服务配置主动和被动健康检查。

备注

如果你将 APISIX Ingress Controller RC5 与独立模式下的 APISIX 一起使用,目前存在一个问题,即 Control API 不返回健康检查数据。当 APISIX 在带有 etcd 的传统模式下运行时,不会发生此问题。

前置条件

  • 安装 Docker
  • 安装 cURL 以向服务发送请求进行验证。
  • 按照 快速入门教程 在 Docker 或 Kubernetes 中启动一个新的 APISIX 实例。

启动示例上游服务

在与 APISIX 相同的 Docker 网络中启动两个 NGINX 实例作为示例上游服务:

DOCKER_NETWORK=apisix-quickstart-net
docker run -d -p 8080:80 --network=${DOCKER_NETWORK} --name nginx1 nginx
docker run -d -p 8081:80 --network=${DOCKER_NETWORK} --name nginx2 nginx

验证两个 NGINX 实例都在运行:

for port in 8080 8081; do
curl -s "http://127.0.0.1:$port" | grep -q "Welcome to nginx" &&
echo "NGINX welcome page available on port $port."
done

你应该看到以下响应:

NGINX welcome page available on port 8080.
NGINX welcome page available on port 8081.

配置主动健康检查

主动检查通过定期向服务发送请求或探测并查看它们的响应情况来确定上游服务的健康状况。

在本节中,你将通过两个带有验证步骤的示例来了解:

  • 主动检查如何检测上游状态的变化
  • 当所有上游状态都不健康时,APISIX 如何将客户端请求转发到上游服务

示例:上游服务状态更改

以下示例演示了 APISIX 主动健康检查如何响应健康上游服务变为:部分不可用、全部不可用以及全部恢复的情况。

创建一个指向这两个服务的路由,并配置每 2 秒运行一次的主动健康检查:

curl "http://127.0.0.1:9180/apisix/admin/routes" -X PUT -d '
{
"id": "example-hc-route",
"uri":"/",
"upstream": {
"type":"roundrobin",
"nodes": {
"nginx1:80": 1,
"nginx2:80": 1
},
"checks": {
"active": {
// Annotate 1
"type": "http",
// Annotate 2
"http_path": "/",
"healthy": {
// Annotate 3
"interval": 2,
// Annotate 4
"successes": 1
},
"unhealthy": {
// Annotate 5
"interval": 1,
// Annotate 6
"timeouts": 3
}
}
}
}
}'

type:主动健康检查的类型。

http_path:要主动探测的 HTTP 请求路径。

healthy.interval:定期检查健康节点的时间间隔(以秒为单位)。

healthy.successes:判定上游节点为健康的成功计数阈值。

unhealthy.interval:定期检查不健康节点的时间间隔(以秒为单位)。

unhealthy.timeouts:判定上游节点为不健康的超时计数阈值。

验证

你将验证上述配置,以了解 APISIX 上游健康检查在不同场景下的响应:

如果你使用 快速入门 在 Docker 中启动 APISIX,Control API 端口 9090 已经映射 (-p 9090:9090)。

验证两个上游服务都健康

向路由发送请求以开始健康检查:

curl "http://127.0.0.1:9080/"

要查看上游健康状态,请向 Control API 中的健康检查端点发送请求:

curl "http://127.0.0.1:9090/v1/healthcheck"

你应该看到类似以下的响应:

[
{
"name": "/apisix/routes/example-hc-route",
"type": "http",
"nodes": [
{
"port": 80,
"counter": {
"http_failure": 0,
"tcp_failure": 0,
"timeout_failure": 0,
"success": 0
},
"ip": "172.24.0.5",
"status": "healthy"
},
{
"port": 80,
"counter": {
"http_failure": 0,
"tcp_failure": 0,
"timeout_failure": 0,
"success": 0
},
"ip": "172.24.0.4",
"status": "healthy"
}
]
}
]

验证当一个上游服务不可用时

使一个上游服务暂时不可用,以验证 APISIX 是否报告其中一个上游服务不健康:

docker container stop nginx1

等待几秒钟,然后向健康检查端点发送请求:

curl "http://127.0.0.1:9090/v1/healthcheck"

你应该看到类似以下的响应,显示其中一个上游节点有 3 次超时失败并被标记为不健康:

[
{
"name": "/apisix/routes/example-hc-route",
"type": "http",
"nodes": [
{
"port": 80,
"counter": {
"http_failure": 0,
"tcp_failure": 0,
"timeout_failure": 0,
"success": 0
},
"ip": "172.24.0.5",
"status": "healthy"
},
{
"port": 80,
"counter": {
"http_failure": 0,
"tcp_failure": 0,
"timeout_failure": 3,
"success": 0
},
"ip": "172.24.0.4",
"status": "unhealthy"
}
]
}
]

向路由发送请求,查看 APISIX 是否将请求转发到另一个健康节点:

curl -i "http://127.0.0.1:9080/"

你应该收到 HTTP/1.1 200 OK 响应。

验证两个上游服务都不可用

使另一个上游服务暂时不可用,以验证 APISIX 是否报告两个上游服务都不健康:

docker container stop nginx2

等待几秒钟,然后向健康检查端点发送请求:

curl "http://127.0.0.1:9090/v1/healthcheck"

你应该看到类似以下的响应,显示两个上游节点都有 3 次超时失败并被标记为不健康:

[
{
"name": "/apisix/routes/example-hc-route",
"type": "http",
"nodes": [
{
"port": 80,
"counter": {
"http_failure": 0,
"tcp_failure": 0,
"timeout_failure": 3,
"success": 0
},
"ip": "172.24.0.5",
"status": "unhealthy"
},
{
"port": 80,
"counter": {
"http_failure": 0,
"tcp_failure": 0,
"timeout_failure": 3,
"success": 0
},
"ip": "172.24.0.4",
"status": "unhealthy"
}
]
}
]

向路由发送请求:

curl -i "http://127.0.0.1:9080/"

你应该收到 HTTP/1.1 502 Bad Gateway 响应。

验证两个上游服务都已恢复

使两个服务再次可用,以验证 APISIX 是否报告两个上游服务都健康:

docker container start nginx1 nginx2

等待几秒钟,然后向健康检查端点发送请求:

curl "http://127.0.0.1:9090/v1/healthcheck"

你应该看到显示两个上游节点都健康的响应,类似于 开始时两个服务都健康的情况

示例:当状态不健康时转发请求

以下示例演示了即使所有上游健康状态都不健康,APISIX 仍会将客户端请求转发到上游服务。

创建一个指向这两个服务的路由,并配置每 2 秒运行一次的主动健康检查:

curl "http://127.0.0.1:9180/apisix/admin/routes" -X PUT -d '
{
"id": "example-hc-route",
"uri":"/",
"upstream": {
"type":"roundrobin",
"nodes": {
"nginx1:80": 1,
"nginx2:80": 1
},
"checks": {
"active": {
// Annotate 1
"type": "http",
// Annotate 2
"http_path": "/404",
"healthy": {
"interval": 2,
"successes": 1
},
"unhealthy": {
"interval": 1,
// Annotate 3
"http_failures": 2
}
}
}
}
}'

type:主动健康检查的类型。

http_path:要主动探测的 HTTP 请求路径。为方便演示,这里设置为 /404,这是一个上游服务中不存在的路径。因此,主动健康检查应始终认为这两个服务不健康。

unhealthy.http_failures:判定上游节点为不健康的 HTTP 失败计数阈值。

验证

如果你使用 快速入门 在 Docker 中启动 APISIX,Control API 端口 9090 已经映射 (-p 9090:9090)。

向路由发送请求以开始健康检查:

curl -i "http://127.0.0.1:9080/"

你应该收到 HTTP/1.1 200 OK 响应。

向健康检查端点发送请求:

curl "http://127.0.0.1:9090/v1/healthcheck"

你应该看到类似以下的响应:

[
{
"name": "/apisix/routes/example-hc-route",
"nodes": [
{
"counter": {
"timeout_failure": 0,
"http_failure": 2,
"success": 0,
"tcp_failure": 0
},
"port": 80,
"ip": "172.25.0.5",
"status": "unhealthy"
},
{
"counter": {
"timeout_failure": 0,
"http_failure": 2,
"success": 0,
"tcp_failure": 0
},
"port": 80,
"ip": "172.25.0.4",
"status": "unhealthy"
}
],
"type": "http"
}
]

向路由发送请求以查看 APISIX 是否仍转发请求:

curl -i "http://127.0.0.1:9080/"

你应该收到 HTTP/1.1 200 OK 响应。这验证了即使两个服务都被标记为不健康,APISIX 仍会将客户端请求转发到上游服务。

配置被动健康检查

APISIX 要求将主动健康检查与被动健康检查一起使用。当上游服务变得不健康时,主动健康检查会定期检查上游服务是否已恢复。

备注

目前已知存在一个问题,即通过 Control API 显示的健康检查数据无法准确反映实际健康状态,因此你的测试结果可能与所示示例不同。此问题正在积极解决中。但是,被动健康检查机制本身运行正常,并继续按预期路由请求。

示例:上游服务状态更改

创建指向这两个服务的路由,并配置主动和被动健康检查:

curl "http://127.0.0.1:9180/apisix/admin/routes" -X PUT -d '
{
"id": "example-hc-route",
// Annotate 1
"uri": "/404",
"upstream": {
"type": "roundrobin",
"nodes": {
"nginx1:80": 1,
"nginx2:80": 1
},
"checks": {
"active": {
"type": "http",
"http_path": "/",
"healthy": {
// Annotate 2
"interval": 99999,
"successes": 1
},
"unhealthy": {
// Annotate 3
"interval": 30
}
},
"passive": {
"healthy": {
// Annotate 4
"http_statuses": [200,201,202,300,301,302],
"successes": 1
},
"unhealthy": {
// Annotate 5
"http_statuses": [429,404,500,501,502,503,504,505],
// Annotate 6
"http_failures": 3
}
}
}
}
}'

uri:路由匹配的 URI 路径。为方便演示,这里设置为 /404,这是一个上游服务中不存在的路径。因此,当发出请求时,两个上游服务都应响应 404 状态代码。

active.healthy.interval:定期检查健康节点的时间间隔(以秒为单位)。

active.unhealthy.interval:定期检查不健康节点的时间间隔(以秒为单位)。

passive.healthy.http_statuses:被视为健康的响应 HTTP 状态代码。

passive.unhealthy.http_statuses:被视为不健康的响应 HTTP 状态代码。不健康的响应会计入 http_failures

passive.unhealthy.http_failures:判定上游节点为不健康的 HTTP 失败计数阈值。

验证

如果你使用 快速入门 在 Docker 中启动 APISIX,Control API 端口 9090 已经映射 (-p 9090:9090)。

向路由发送请求以开始健康检查:

curl -i "http://127.0.0.1:9080/404"

你应该看到 HTTP/1.1 404 Not Found 响应。

向健康检查端点发送请求:

curl "http://127.0.0.1:9090/v1/healthcheck"

你应该看到类似以下的响应:

[
{
"name": "/apisix/routes/example-hc-route",
"nodes": [
{
"counter": {
"timeout_failure": 0,
// Annotate 1
"http_failure": 1,
"success": 0,
"tcp_failure": 0
},
"port": 80,
"ip": "172.25.0.5",
// Annotate 2
"status": "mostly_healthy"
},
{
"counter": {
"timeout_failure": 0,
"http_failure": 0,
"success": 0,
"tcp_failure": 0
},
"port": 80,
"ip": "172.25.0.4",
"status": "healthy"
}
],
"type": "http"
}
]

http_failure 的计数为 1,这是由于前一个请求的 404 响应。

mostly_healthy 状态表示当前节点状态健康,但 APISIX 开始在健康检查期间收到不健康的指示。

生成连续请求以调用 404 响应:

resp=$(seq 10 | xargs -I{} curl "http://127.0.0.1:9080/404" -o /dev/null -s -w "%{http_code}\n") && \
count=$(echo "$resp" | grep "404" | wc -l) && \
echo "Invoked $count responses with 404 status code."

向健康检查端点发送请求:

curl "http://127.0.0.1:9090/v1/healthcheck"

你应该看到类似以下的响应:

[
{
"name": "/apisix/routes/example-hc-route",
"nodes": [
{
"counter": {
"timeout_failure": 0,
"http_failure": 3,
"success": 0,
"tcp_failure": 0
},
"port": 80,
"ip": "172.25.0.4",
"status": "unhealthy"
},
{
"counter": {
"timeout_failure": 0,
"http_failure": 4,
"success": 0,
"tcp_failure": 0
},
"port": 80,
"ip": "172.25.0.5",
"status": "unhealthy"
}
],
"type": "http"
}
]

等待至少 30 秒,以便主动检查探测 / 处的上游服务并将其标记为健康。然后,向健康检查端点发送请求:

curl "http://127.0.0.1:9090/v1/healthcheck"

你应该看到类似以下的响应:

[
{
"name": "/apisix/routes/example-hc-route",
"nodes": [
{
"counter": {
"timeout_failure": 0,
"http_failure": 0,
"success": 1,
"tcp_failure": 0
},
"port": 80,
"ip": "172.25.0.4",
"status": "healthy"
},
{
"counter": {
"timeout_failure": 0,
"http_failure": 0,
"success": 1,
"tcp_failure": 0
},
"port": 80,
"ip": "172.25.0.5",
"status": "healthy"
}
],
"type": "http"
}
]

禁用所有健康检查

你可以全局禁用所有上游健康检查。这在紧急维护等场景中很有用,因为健康检查可能会干扰路由或回退行为。

要禁用所有健康检查,请按如下方式更新你的 配置文件

conf/config.yaml
apisix:
disable_upstream_healthcheck: true

重新加载 APISIX 以使配置更改生效:

docker exec apisix-quickstart apisix reload

下一步

你现在已经了解了如何为 APISIX 中的上游服务配置主动和被动健康检查。要了解有关上游健康检查可用配置选项的更多信息,请参阅 Admin API,Upstream

APISIX 还提供了一个 api-breaker 插件,它根据上游服务的健康状况实现断路器功能,有助于提高应用程序的弹性。有关更多详细信息,请参阅 api-breaker 插件文档(即将推出)。