龍神様のいたずら

ASUS Ascent GX10

ここ1ヶ月ほどAsus Ascent GX10の技術メモを書いてなかった訳ですが。
例によって龍神様が宿ってるおじさんは身の回りの電化製品が壊れます。

ほんとそんな迷信的な物を信じてる訳では無いのですが、まぁー買うものの初期不良率が高すぎる。
なんでこんなに次から次へと交換になるんだろう。

2023年は電子レンジが1ヶ月で崩御&交換。2024年はRTX 4090の初期不良で交換。2025年はXperiaが購入翌日にリコール。
そんでもって年末に買ったGX10の初期不良。

いやもうね、精神的に疲れる。60万のPCが故障したなんて信じたくない。
いやいや何かの勘違いとかだろとか疑っていくら調べてもハードウェアエラーでしかない時の絶望感。

次から次へと良いLLMが無いかとテイスティングしてたら突然Terminalが切断されましてね。
なんか、ネットワークの問題で切断されたんかなとか思って再接続するんだけど数十分後に再度切断。
また接続するんだけど、数十分で切断。これを繰り返してるうちに段々切断される時間が短くなってきて、なんか動きが変だとログ調べ始めた訳。

以下調査用のコマンドメモ

# 1. OOM Killer(メモリ不足でプロセス強制終了)の確認
dmesg | grep -i "oom\|out of memory\|killed process"

# 2. カーネルパニックの確認
journalctl -b -1 | grep -i "panic\|oops\|bug"

# 3. 直前の再起動理由
last reboot | head -10

# 4. GPU温度(現在)
nvidia-smi

ログから見えてきた問題。

[Firmware Bug]: No valid trip points!

これはサーマル(温度)管理のファームウェアバグを示している。温度センサーの閾値が設定されていないため、誤った温度読み取りで緊急シャットダウンが発生している可能性がある。

追加調査。

# sudoでdmesgを確認
sudo dmesg | grep -i "oom\|out of memory\|killed\|thermal\|shutdown\|reboot"

# ウォッチドッグタイマーの確認
journalctl -b -1 | grep -i "watchdog"

# 電源関連のログ
journalctl -b -1 | grep -i "power\|acpi.*off\|suspend"

🚨 原因1: PCIeスロットの電力不足

mlx5_core 0000:01:00.0: Detected insufficient power on the PCIe slot (27W).
mlx5_core 0000:01:00.1: Detected insufficient power on the PCIe slot (27W).
mlx5_core 0002:01:00.0: Detected insufficient power on the PCIe slot (27W).
mlx5_core 0002:01:00.1: Detected insufficient power on the PCIe slot (27W).

mlx5はMellanoxネットワークカード(おそらくGX10内蔵)。PCIeスロットへの電力供給が不足している警告が出ている。

🚨 原因2: サーマル管理の欠陥

ACPI: thermal: [Firmware Bug]: No valid trip points!

7つの温度ゾーン全てで「trip points(温度閾値)が未設定」。これにより温度管理が正常に機能していない可能性。

最も可能性の高いシナリオ

1.Qwen3-Next-80B(65GB VRAM使用)を実行
2.GPU + システム全体の電力消費が急増
3.電力不足でシステムが不安定に
4.保護機構(または不安定)により再起動

追加確認事項

# 電源アダプタの確認(何W?)
cat /sys/class/power_supply/*/uevent 2>/dev/null || echo "N/A"

# 現在のシステム稼働時間(再起動なしで継続しているか)
uptime

この辺から高負荷以外の作業をしてても頻繁にリブートするようになる。

追加確認事項

# 直前のブートで何が起きたか
journalctl -b -1 --no-pager | tail -100

# 再起動直前のログ(時刻を確認して)
journalctl -b -1 --since "12:40" --until "12:43"

# ハードウェアエラーの確認
sudo mcelog --client 2>/dev/null || echo "mcelog not available"

# GPUエラー
nvidia-smi -q | grep -i "error\|fault"

ここから関連しそうなライブラリなどをuninstallしながら問題点をさぐるのだが、pip install中にも突然再起動が走る。
もう完全に問題が解らなくなってきて、最新化したカーネルに問題があるのかもしれないと、カーネルのダウングレードも試みる。

それでもダメ。んでGPUの問題かCPUの問題なのかを切り分けるためCUDAのCPU版で推論実行。

ここでも再起動。つまりGPUでもない。

これは深刻だ。CPU版でも落ちたということは:


可能性

原因確率
ハードウェア障害(メモリ、電源)
カーネル6.11も問題あり
ストレージの問題
llama-cpp-python自体の問題

次の確認ポイント

# メモリエラーの確認
sudo dmesg | grep -i "error\|fail\|memory"

# ストレージの健全性
df -h
sudo dmesg | grep -i "nvme\|sda\|disk"

# 新しいクラッシュログ
ls -la /var/crash/

# 直前のログ
journalctl -b -1 --no-pager | tail -50

ハードウェア障害の可能性が高まってきた。

前述のコマンドログで重要な発見があった。


🚨 ハードウェアエラー検出

[    1.412235] BERT: [Hardware Error]: Skipped 1 error records

BERT (Boot Error Record Table) がハードウェアエラーを記録している。これはファームウェアレベルで検出されたエラーだ。


🚨 nvidia-ffa-ecの失敗

nvidia-ffa-ec arm-ffa-8: probe with driver nvidia-ffa-ec failed with error -22
nvidia-ffa-ec arm-ffa-10: probe with driver nvidia-ffa-ec failed with error -22
nvidia-ffa-ec arm-ffa-12: probe with driver nvidia-ffa-ec failed with error -22
nvidia-ffa-ec arm-ffa-16: probe with driver nvidia-ffa-ec failed with error -22

NVIDIA FFAドライバが初期化に失敗している。これはGB10の低レベルのコンポーネントとの通信問題を示している。


ログの特徴

クラッシュ直前のログがない – 突然の電源断またはハードウェアリセットを示唆している。


結論

ハードウェアレベルの問題が発生している可能性が高い


ほぼハードウェア問題で確定

1. ドスパラに連絡

WEBから修理依頼を出す。翌日スマホに電話があり、状況を話すと在庫がすでに無いので交換は出来ず、返金しますとのこと。
在庫が無いのは事前にWEBで確認済だが、他の店を一通り検索したけど安い所で70万。更にぼったくり店では80万とすでに高騰してた。
返金されても60万じゃすでに買えない。マジで簡便してくれと泣いてたんだが、どうしようもないとのこと。
それじゃ結構と断りASUSに直接修理依頼を出すことに。

2. ASUSサポートに連絡

有料ダイアルだったがもう一刻でも早くなんとかしたくて身銭を切った。
500円ほどかかったけど、台湾の片言サポート女子に伝えてサポートセンター送りということに。
ASUSのサポートはすごく丁寧。日本レベルの丁寧な対応。愛ラブ台湾。シェーシェー。

だが時は12月27日。年末で改修にも時間がかかるとのこと。最短で1月7日にクロネコにより回収。
俺のGX10ちゃんは病院送りに。

そこから毎日修理ステータスを確認してたのだが、19日にサポートセンター確認中からユーザ問合せ中に切り替わった。
なんだよユーザ問合せ中って。意味わからんと思いつつ、その2日後メールが届いた。

事象が確認できました。つきましては交換対応としたいところですが、在庫が無いので返金しますとのこと。
ちょっ待てよ!!!!と青ざめたのですが、なんとなくドスパラみたら同じ値段で在庫復活してるやん!!!!

もうね、変な汗を掻きながらマッハで再発注。実際この時点では120万の買掛金発生ですよ。
んで、ASUSにもマッハで返金手続きを行い数日後に返金処理の手続きが完了。

なんとも言えんこの感じ..ちゃんと丸く収まるのかドキドキドキンちゃんですよ。未だ宙ぶらりんの買い掛け120万発生中ですからね。
丸く収まればカード会社のポイント1%ゲットなのでプラス6000円という錬金術ですがな!がははは!
いや、作業が出来ない時間には見合わないんですけどね。

そんな訳で2代目GX10ちゃんが届きLLM開発の再開となったわけです。
マジで何なんすか。

ダウナー状態なまま2代目GX10の到着から2日程ブンまわして動作確認してますが、今のところ快調です。
大丈夫だよな今度こそ。そんな訳で昨年末から今日までの回想録。

コメント

タイトルとURLをコピーしました