2019-04-24 10:47:56    12    0    0
原创  阿里云云栖社区 2019-02-19 13:17:00 问题背景 全球主要的容器集群服务厂商的Kubernetes服务都提供了Nvidia GPU容器调度能力,但是通常都是将一个GPU卡分配给一个容器。这可以实现比较好的隔离性,确保使用GPU的应用不会被其他应用影响;对于深度学习模型训练的场景非常适合,但是如果对于模型开发和模型预测的场景就会比较浪费。 大
2019-04-15 10:35:26    18    0    0
1. Node节点网络故障,导致这个节点的Pod健康检查正常,但通过边缘节点无法访问到这个节点上的Pod。 可能原因: systemd重启策略目前配置的是on-failure,如果flannel正常退出则不会重启flannel,需配置为always。 2. 部署上线过程中流量负载均衡异常,会出现丢失请求的情况: 由于Pod和endpoints同时删除,导致流量仍然可以打到terminating的
2019-04-04 16:02:46    122    0    0
## 安装准备 ### 前提机器上面有支持CUDA的Nvidia GPU,查看支持CUDA的GPU列表: [https://developer.nvidia.com/cuda-gpus](https://developer.nvidia.com/cuda-gpus) ```bash lspci | grep -i nvidia ``` 我这边服务器使用的是 `Tesla K80` ```ba
2019-03-01 15:49:18    318    0    0
不负众望,1.5.0版本正式发布 https://github.com/Qihoo360/wayne/releases 此次更新基本涵盖了Kubernetes常用资源管理(可以彻底抛弃官方dashbord啦),并且还增加了service和ingress自动注入注解,更好的支持了公有云。 ## 更新详情: ## [v1.5.0](https://github.com/Qihoo360/wayn
2019-02-12 11:30:47    402    0    0
公司 :奇虎360 地点 :中国北京 行业 :计算机软件 挑战 中国软件巨头奇虎360科技的搜索部门,so.com是中国第二大搜索引擎,市场份额超过35%。该公司一直在使用传统的手动操作来部署环境,随着项目数量的不断增加,管理层希望提高服务器资源的利用率。“我们希望解决为大量项目构建运营环境的效率问题。”搜索云平台项目发起人之一郭少巍说。 解决