ceph故障 osd slow ops, oldest one blocked for {num}
错误类似:26 slow ops, oldest one blocked for 48 sec, daemons [osd.15,osd.17,osd.18,osd.5,osd.6,osd.7] have slow ops.
如果只是集群中极少部分的OSD出现该问题,可以通过:
systemctl status ceph-osd@{num}
查看OSD日志找到问题并处理,常见的有磁盘故障等,根据错误网络搜索很多解决方案。
如果是集群中所有osd,或者过半数的osd出现这个问题呢?检查了磁盘、网络、mon都正常。其实还有一种可能,想一下是否近期升级过ceph,有升级不完整osd版本问题造成。