运维故障排查:linux服务器故障排查思路

what -现象是什么

when -什么时候

why -为什么会发生

where -哪个地方发生的

how much -耗费了多少资源

how to do -怎么解决

一、系统排查流程

服务不可用:web服务,ftp服务,http服务,stmp,snmp,ssh,syslog

性能下降:

报错信息:log   /var/log

资源监控:查看cpu,内存,磁盘,网络使用情况,使用htop,nmon,glances

cpu过热,加大风扇转速

液冷服务器,风冷服务器(里面有风扇)

网络监控,netstat   iftop

隔离定位:排除

复现测试

# 系统状态概览

dmesg | tail        #内核日志

journalctl -xe       #系统日志(sysemd系统)

# 资源快速检查

top     htop    nmon      #动态资源建监控

ss -tulnp      netstat -tulp   #网络连接

1.2磁盘相关故障

磁盘:机械盘 ,ssd,nvme(pcie通道,远高于机械盘),sata接口,sas接口

# 1.检查磁盘空间

dh -h   #查看各分区使用率

 df -i   #查看inode使用情况

 lsblk

# 2.查找大文件

du -sh /*  #查找大文件

find / -type f -size +100M -exec ls -lh {} + | sort -rh

文件系统格式 xfs  ext3  ext4

# 3.检查挂载选项

mount | grep /dev/sda1

cat /etc/fstab   #自动挂盘的位置,必须要写的(不要轻易改)

空间不足

清理空间,或者扩容,lv相关命令

磁盘扩容命令:lvextend   #不重启直接扩容

文件系统损坏 

umount—-fsck—–mount

1.3内存相关故障

交换分区 swap,

排查思路:

#  1.检查内存

free -h     #查看物理内存和交换空间

vmstat 3 3  #监控虚拟内存统计,2秒刷新

iostat 3 3    #磁盘读写统计

# 2. 查看内存占用进程

ps aux –sort=-%mem | head  #列出前十进程使用内存

ps aux –sort=-%cpu | head  #列出cpu前十进程使用内存

# 3.检查内核参数

sysctl -a

内存不足的情况下,需要增加内存,对称加(偶数),品牌和型号尽量和原有内存一样,

内存调优:在bios里面,针对numa架构

1.4网络相关故障

网络工具

yum install -y net-tools traceroute telnet nmap mtr

#系统日志检查

tail -f /var/log/meessages | grep -i network

journalctl -u NetwprkManager -f

进阶工具

wireshark数据包分析,tcpdump命令行抓包,iftop实时流量监控,nethogs按1进程显示网络使用情况,ethtool以太网卡管理和配置工具

第一步:ping检查

诊断要点:

丢包率超过5%需要关注延迟超过100ms应该存在网络拥塞无法ping通网关说明本地网络配置有问题

第二步:路由路径分析(traceroute)

traceroute www.163.com

#如果traceroute不可用,使用mtr

mtr –report –report-cycles 10 www.163.com

第三步:端口连通性测试

#检查特定端口

telnet target-host 80

nc -zv target-host 443

#批量端口扫描

nmap -p 80,443,22,3306 target-host

第四步:DNS解析验证

# 查看DNS配置

cat /etc/resolv.conf

# 手动DNS查询

nslookup www.baidu.com

dig www.baidi.com

网络接口状态检查

ip addr show

ip link show

ip -c a  #有色标注

防火墙规则排查

#  iptables规则检查

iptables -L -n -v

#  查看连接跟踪

cat /proc/net/nf conntrack    # 防火墙日志

路由表分析

ip route show

ping—–traceroute——–端口测试———DNS验证——–深入分析

1.stress压力测试工具

1. cpu压力:stress –cpu 4

2. 内存压力:stress  –vm 4  –vm-bytes  1G

3.磁盘压力:stress –io 4 –io-size 1G

组合: stress –cpu 4  –io 4 –vm 2 –vm-bytes 128M –timeout 120s

2.ab   测试web服务器访问性能

3.iperf 网络性能测试工具,衡量TCP和UDP的网络带宽

iperf -c hostip -t xx -P xx

© 版权声明
THE END
如果内容对您有所帮助,就支持一下吧!
点赞0 分享
风中找感觉的头像 - 鹿快
评论 抢沙发

请登录后发表评论

    暂无评论内容