今日の午後、ESXi上の仮想マシン(Ubuntu)が正常に動作しなくなったので見てみたところ、ファイルへの書込に大して”Read-only filesystem”というエラーが返ってくるようになっていた。(うちでは仮想ハードディスクをファイルサーバーに保存し、NFSでマウントしている。また、ファイルサーバーとESXiはハブを経由するネットワークとは別に直接LANケーブルでつなぎ、NFSはそちらを用いていた。)
特に、Ubuntuは影響を受けていたが、Windowsはなぜかサスペンドされていた。
いまいちよくわからないのだけど、取り敢えずこういうことがあったというメモとしてここに書いておく。何か思いついたら追記するので、何か気がついた点があったらコメント欄に記入していただけると幸い。
対処
NFS接続自体は自動的に復活していたため、Read-onlyだと認識してしまった仮想マシンを再起動したら直った。
原因
ESXiのログを調べたところ、以下の様なログが残っていた。このことから、NFSのマウントに使っていたネットワークに何らかのエラーが発生し、そのためにNFSのマウントが維持できなくなったものと考えられる。
ファイルサーバー側
Jul 19 12:38:53 ml115 kernel: [3750691.624148] e1000e: eth1 NIC Link is Down Jul 19 12:38:57 ml115 kernel: [3750694.940982] e1000e: eth1 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx/Tx Jul 19 15:24:38 ml115 kernel: [3760636.036149] e1000e: eth1 NIC Link is Down Jul 19 15:25:02 ml115 kernel: [3760660.053011] e1000e: eth1 NIC Link is Up 100 Mbps Full Duplex, Flow Control: Rx/Tx Jul 19 15:25:02 ml115 kernel: [3760660.053024] e1000e 0000:04:00.0: eth1: 10/100 speed: disabling TSO Jul 19 15:25:32 ml115 kernel: [3760690.260149] e1000e: eth1 NIC Link is Down Jul 19 15:25:59 ml115 kernel: [3760716.940979] e1000e: eth1 NIC Link is Up 100 Mbps Full Duplex, Flow Control: Rx/Tx Jul 19 15:25:59 ml115 kernel: [3760716.940991] e1000e 0000:04:00.0: eth1: 10/100 speed: disabling TSO Jul 19 16:11:54 ml115 kernel: [3763471.900149] e1000e: eth1 NIC Link is Down Jul 19 16:12:13 ml115 kernel: [3763491.208983] e1000e: eth1 NIC Link is Up 100 Mbps Full Duplex, Flow Control: Rx/Tx Jul 19 16:12:13 ml115 kernel: [3763491.208994] e1000e 0000:04:00.0: eth1: 10/100 speed: disabling TSO
ESXi側
こんなのが一杯
対策
対策といっても原因がいまいちよくわからないのだけれども、LANケーブルはゆるみのないようにさす、といった点が不完全だったのが原因かもしれない。