起きたこと
- やっぱりなんか寒い
- 気圧がとても悪くて頭が痛かった
マイニング
何かをミスったのか、マイナーが16プロセスぐらい起動していて、しかも何か事故ったのか
うち2プロセスがメモリを2GBずつ消費していた。ただでさえメモリがカツカツなサーバーで
そんな事故が起きたもんだからそれはもう… 何が起きたのかわからないがVMのディスクI/Oがすべて
停止したらしく、
- TrueNASがデバイス停止と判断→NFS閉塞→k8sノードのI/Oが全滅
- k8sノードのVMのローカルディスクへのI/Oが停止(これはなんでか謎なんだけれども)
という感じでとりあえずVMが全滅。サーバー再起動すら失敗するレベルだった。
仕方ないのでリセットするとサーバーは起動したが、
- k8s向けのZFSプールでデータが壊れているというエラー
- k8sワーカー 4番がOS起動しない(offline fsckしろと言われてinitramfsに落とされるが、入力を受け付けない)
ワーカー4番はまぁとりあえず置いておくとして(データはもってないから作り直せばいい)
ZFSプールが壊れているのは困る。具体的な破損箇所はPostgreSQLのDBのデータファイルとかばっかりで結構ヤバい。
(その割にはDBは起動してきているのが不思議だった)
なんやかんやしようと思ったあと、ふとscrubかけたらどうなるんだろうと思ってやってみるとなんと…
エラーがきれいさっぱり消えました。ZFSすごい。
TODO
- ワイドパンツ欲しい
- 職務経歴書アップデート
- Slack古いファイル削除ツールのアップデート(deprecated API変更)