2020-06-19 09:36:56    41    0    0
在过去几年中,Kubernetes 已经成为事实的容器云标准。我们运行了大量容器在 Kubernetes 上。然而随着容器数量的增加,一些问题也逐渐暴露出来。 我们开始注意到 Kubelet 在特定场景下会占用 CPU 比较高,导致浪费额外的计算资源,甚至影响业务。 ## 运行环境 - 操作系统: Centos 7.6 - 内核:4.9.18 - Kubernetes 版本:1.15.2
2020-02-05 02:28:49    86    0    0
## 基础知识 - core dump 在绝大多数GNU/Linux系统中,当应用程序发生没有捕获的异常信号ARORT/SEGV时,系统会终止当前进程,并生成core dump文件,它一般在程序执行的主目录下,通常命名为core或者core.PID。通常情况下core dump包含了程序运行时的内存,寄存器状态,堆栈指针,内存管理信息等。在实际的开发场景中,这些信息能够对开发人员调试定位问题提供
2019-11-01 06:17:00    104    0    0
## 术语 ```bash cip:Client IP,客户端地址 vip:Virtual IP,LVS实例IP rip:Real IP,后端RS地址 RS: Real Server 后端真正提供服务的机器 LB: Load Balance 负载均衡器 LVS: Linux Virtual Server sip: source ip dip: destination ``` ## LVS的几
2019-09-24 06:36:18    1148    0    0
## 现象 Kubernetes集群版本1.15.2,使用了kube-proxy,使用的 iptables 模式。 在kubernetes的一个node节点上直接访问kubernetes中的service不通,注意是访问服务不通,不是ping不通。 以apiserver对应的kubernetes service为例: ```bash $ kubectl get service -o wide
2019-08-26 07:59:34    428    0    0
![](/api/file/getImage?fileId=5d6355cdaddba405d900022b)
2019-08-16 08:55:29    286    0    0
## 测试命令 `yum install -y qperf`,这个工具能同时测试带宽和延时,很容易使用。 需要在其中一端开启服务端监听 ## 压测场景 宿主机 -> Flannel Pod (vxlan) 宿主机 -> Flannel Pod (host-gw) 宿主机 -> 宿主机服务 ## 压测步骤 1.在 Kubernetes 中创建 Deployment 启动 nginx 服务,通过
2019-08-15 02:57:16    168    0    0
##CRI - Container Runtime Interface(容器运行时接口) CRI中定义了容器和镜像的服务的接口,因为容器运行时与镜像的生命周期是彼此隔离的,因此需要定义两个服务,该接口使用Protocol Buffer,基于gRPC。 Container Runtime实现了CRI gRPC Server,包括RuntimeService和ImageService。该gRPC
2019-04-24 02:47:56    211    0    0

原创 阿里云云栖社区 2019-02-19 13:17:00

问题背景

全球主要的容器集群服务厂商的Kubernetes服务都提供了Nvidia GPU容器调度能力,但是通常都是将一个GPU卡分配给一个容器。这可以实现比较好的隔离性,确保使用GPU的应用不会被其他应用影响;对于深度学习模型训练的场景非常适合,但是如果对于模型开发和模型预测的场景就会比较浪费。 大家的诉求是能够让更

2019-04-15 02:35:26    261    0    0
1. Node节点网络故障,导致这个节点的Pod健康检查正常,但通过边缘节点无法访问到这个节点上的Pod。 可能原因: systemd重启策略目前配置的是on-failure,如果flannel正常退出则不会重启flannel,需配置为always。 2. 部署上线过程中流量负载均衡异常,会出现丢失请求的情况: 由于Pod和endpoints同时删除,导致流量仍然可以打到terminating
2019-04-04 08:02:46    2035    0    0
## 安装准备 ### 前提机器上面有支持CUDA的Nvidia GPU,查看支持CUDA的GPU列表: [https://developer.nvidia.com/cuda-gpus](https://developer.nvidia.com/cuda-gpus) ```bash lspci | grep -i nvidia ``` 我这边服务器使用的是 `Tesla K80` ```ba
1/4