== 2024/8/6 16:00~ DGS meeting == * 宮川、山本、押野、池田、中垣、川本 ---- === 0. 停電について === * 大きなトラブルはなかった。坑内はほぼノータッチだった。 * 坑内にあるk1scriptに少し郊外の依存性があったので、計算機ごと止めた。 * 研究棟のGPSもUPSに繋いであったので、坑内へうまく信号を送り続けていた。 * 研究棟のトラブルもほとんどなかった。空調の電源が切れていないのに直前に気づいた。コモンビューが電源復帰ですぐに立ち上がるので、次回気をつけたほうがいい。あと、いくつかのサーバー計算機(NFSとかGW)が復帰後自動で立ち上がってしまっていた。BIOSの設定を見直すか、電源ケーブルを抜くか。 * 回路室のネットワークスイッチにUPSを入れたい。(押野) * 地物のPCをサーバー室の棚の方にに移動したい。(山本) -> 新谷、高森、早河に相談。 * 停電まとめ * https://www.dropbox.com/work/Dropbox%20KAGRA/Subsystems/DGS/PowerOutage * https://klog.icrr.u-tokyo.ac.jp/osl/?r=30585 === 1. ADC/DAC === * 18AI64SSC or 18AI64SSC750K:シングル64チャンネル(差動32チャンネル)で最大750kHz (LIGO内でLow-noise ADCと呼ばれているようです) * 18AI32SSC1M:シングル32チャンネルで最大1MHz (LIGO内でHigh-speed ADCと呼ばれているようです) を1枚づつ買うか。 * 20bitのDACは5枚買ってある。 * LIGOで28bitのDACを試している。1枚入れてみる。 * テストベンチのPCの台数が最初は8台程度。坑内に入っているPCのADCの枚数をできれば再現したい。買える枚数に制限があるので、例えばADCとDAC2枚づつか? * 故障の可能性があるものを試してみるか、PMC時代のも発掘するか?-> (8/6) 故障したものはADCが1、DACが5あったが、やはりどれも全然動かなかった。-> 一度LHSに相談してみる。金額次第では修理。 * ADCのrevisionはLIGOと付いているものだったら大丈夫。実際にはFirmを書き換えてもらった。 * (8/6) 見積もり依頼中。 === 2. 計算機室の空調 ==== * No.2の空調の冷却能力が落ちているのでは? * 点検はする。早河さんに頼む。 * 少し古い機種で、混合ガスが古いので、交換した方がいいかも。 * (8/6) 吹き出し温度が常温だったが、8/2に冷媒を入れてもらったら元に戻った。ただし、ガス漏れがある可能性がある。前回は2年前なので、2年でまたなる可能性がある。空調機の交換も考えた方がいいかも。 === 3. IO chassis === * (6/4) 2台のIO chassisを一つの電源に繋いで、1台落とすと、もう一台のリアルタイムモデルが落ちる。 * 30Aを2台使い、1本のケーブルの空いているマイナス側に繋ぐ。 * グリッチなのか突入電流なのか切り分ける。 === 4. Dolphin === * (2/6) DolphinのGEN3がLIGOでまだ使っていないので、もしかしたら使えない可能性がある。その場合GEN2を用意する必要があるが、そもそもまだ買えるかどうかもわからない。-> (4/2) GEN2が在庫なしということがわかった。 * DGS upgradeが2025年1月以降。O5は2027年頭の予定、30ヶ月やる予定なので、2030年とか。 * FrameCPPのバージョンが今のDAQだと対応できないかもしれない。もしDolphinもRFMも対応しないなら、自分たちで対応するように書き換えるか。 * (3/5) LIGOではPX(GEN3)と次世代のMX(GEN4)をテストしているが問題がでる。 * 我々はPXを持っている。別日程で、今後どうするか少し打ち合わせ。 * DolphinドライバーがLIGOとDolphin社の間でしか使わない契約になっている。LIGOのほうでKAGRAが使えないか問い合わせてくれている。 * (6/4) https://gwdoc.icrr.u-tokyo.ac.jp/cgi-bin/private/DocDB/ShowDocument?docid=15586 * ハードを変えるのが得そう。ソフトは3.5.1までなので、そこまで変える価値があるか? * ハードを変えておくと、GEN3が使えるようになった時にすぐにVer.5台に変更できる。 * まずはPCとIO chassisをセンターの2階から入れ替え。 * RFMは新しいPCではプロファイルの高さの関係で使えない。 * (7/2) メーカーのドライバーがそのまま使えるか、LIGOに聞いている。 * LIGOは自分たちでローカルなレポジトリを持っている。我々もKAGRAローカルなレポジトリを持つことも考えるべきでは?-> LIGOのある時点でのスナップショットを取っておくというような意味。KAGRAで使えた時のものをまとめるという感じか。少し長期で考える。 * (8/6) LIGOはO5でMX(GEN4)を実現しそう。我々が持っているものはPXなので、もしかしたら飛ばされてしまうかも。KAGRAがMXを使えるのはO5後か、それまではバージョン3台を使わなければならない。 === 5. MTP光ファイバーケーブル === * Endの1-2階間をどうするか?logn Dolphinを1、2階共に設置するか、計算機を(2階に)集めてIOシャーシを1台1階におく。1ー2階のネットワークも増やす。 * IRIG-Bシャーシが2台浮くことになる。 * 別計算機を立ち上げて、新IO chassisとDonphiin GEN3のテストをするといい。 * O4bが始まる前に見込みをつけておいた方がいい。 * V4が数台。Xeon Gold 27台ある。Dolphin(制御をDAQ)とIRIG-B、DGSを全てハーフハイトで。 * DC0で16個のend point(スレッドに相当)が立ちあがる。30台のRTPCからデータを受け取る。コアが12個なので、入れ替えながら受け取る。NIC1台で32個のエンドポイントを扱えるのでNICを増やすか、コア数を増やすかするといい。エンドポイントを1ー2年前に8個から16個に増やした。 * 古いIO chassisはGEN1で動いているので、biosのGEN3モードで動くかどうかのテストをする必要がある。 * センター1階は予算があれば進める。最終的にはBSあたりとIOOあたりの2か所で、段階的にやってもいい。 * エンドはMTPは無しでも良く、1-2階間のマルチモードの8芯以上の追加がX,Y共に必要。 * センター2FのPCとIO chassisを置き換えることを考える。既存のものと一緒において、すぐに戻せるような体制でテスト。IRIG-BとFanoutを余らせるのがここでの最終目的。 * (6/4) Xendの工事完了。 * Y-endはシングルの24本を敷設したはずなので、それを使うか?マルチモードで使えるか、確認。   * (6/4) Yendを100mで今年度中に工事? === 6. テストベンチ === * テストベンチもう1系統制作中(押野) * PX Dolphinのテスト -> 4kmはLIGOでもまだできてない。できているのはIX Dolphin。 * Debian11 * Center 1F <--> 2F 光ファイバーテスト * 1FにRTPC 2FにIOシャーシ or 1FにIOシャーシ 2FにRTPC * テストベンチのIRIGボードが2枚抜き取られている * X500にある? * (9/5) 台湾グループがLineノイズ解析のための2Uのサーバーをテストサーバ(結局コントロールルーム横のサーバー室)にとりあえず1台入れたがっている。Real timeとLow latencyでやることになるので、サイトにインストールすることが必要。LVKの翌週を考えている。窓口は山本君->PEMに引き継ぎが。 * (11/7) LIGOのrunで使われていたRCGを使うのがいいのでは?例えば5.1.2。 * (12/5) 三代君が以前バラしたIRIG-Bの基板が回路室から回収された。 * (2/6) k1bootで現在のoptが動かなくて、元に戻しても動かなくなってしまった。-> 最初からつくりなおす。 * (3/5) puppetを壊してしまったので、いくつか修理した。 * (3/5) ADCのrev.Cでうまくタイミングが取得できることを(1/13枚で)確認した。JGWDocの情報を更新する予定。 * (3/5) PX Dolohinのテストを中心にしばらく続ける。LIGOで動かせるようになるのをまって、KAGRAではインストール手法を確立しておく。 * (3/5) 天文台でsqueezer用のものを作ろうと考えている。テストベンチ規模になるなら、使っていないV2を送るかもしれない。押野君が出張するかも。 * (4/2) 同期が取れないのでDolphinが動かないのでは?なのでRTPCにIRIG-Bカードが必要なのでは?今のシステムだとTDSが必須なので、それでもIRIG-Bだけで動くようにコードを書き換える必要がありそう。 * (4/2) 新しいTiming slaveは既存とコンパチみたいだが、今Danielがやっているものとはまた別のよう。 * (4/2) bootサーバーを作り直した。RTモデルは動いたが、DCがレシーバーは動いているが、センダーがまだうまくいっていない。 * (6/4) puppetの手順書を書いている。 * (7/2) O5向けに3.1.1のままで新PCで動かせるか検証。-> まだキーボードやNICボードが認識されないなど、うまくいかない。-> 新IOシャーシとV4で動くか見てみるが、ADNACOMとRFMとDolphinを入れようとすると5スロットしかないので入らない。ADNACOM4枚をまとめるカードが使えるかもしれません。 * (8/6) テストベンチの200V電源を100Vに交換することをSK側に聞いてみる。100Vが実現できたら、余っている100V電源などをそのまま使える。(押野) === 7. IPC glitch === * (4/2) DCのNIC(Myriyet)の2枚挿テストを今週再度やってみる。 * (6/4) かなり減った。5/17に作業して、その後3週間くらいで3回出ただけ。NICのカード1枚のキャパシティーが超えていたと考えられる。 * NIC1枚で16プロセル走らせることが可能。実際には二十数モデル走らせていたので、1モデル1プロセスになった。カードを増やしただけでなく、DCの2枚のカードごとのデータ量のバランスをとったことも効果があった。 * MXのビルドオプションが2枚用になっているので、もしかしたら3枚オプションとかが可能かもしれない。 * (7/2) ここ1週間くらいは出ていない。ASCが2kHzから256Hzにしたことも効いているのかもしれない。 * (8/6) ゼロにはなっていないが、多くて1日1回か、テストポイントを使うと増えたりする。静かな時は2日に1回とか。やはりネットワークが効きそう。 === 8. 1ヶ月の進捗状況 === * 時刻情報をすぐに比較できるようにしようと考えている。FPGAでSKのTDCというのを作るか? * LIGOのComparatorは? * (12/5) IMC susなどIO chassisの電源をACからDCに変えた。残りはIOO0,1 ALS。SR2がBSから数珠繋ぎになっているのは、配線依頼済み。エンドはまだいくつか、特に1階が手付かず。 * その際、電圧降下で立ち上がりにくいことがあった。ラック側の電圧が落ちないように、根元で少し上げておくのがいい。 * (12/5) k1bootが一旦落ちた。再起動で一お動き出した。システム領域にはディスクエラーはなかったが、データ領域にエラーが3つあった。でもそのエラーが落ちた理由とも思えない。 * (12/5) minute trendが3月にいっぱいになるので、2月くらいに交換するといい。もう1系統バックアップを組んでおいた方がいいかも。-> 押野 -> k1nds0は完了して再起動した。knds1は今週再起動予定。 * (2/6 ) WS周りのアップグレードの準備を始めている。大体は動くが、diagguiやfotonなどバージョンによって動かないものがある。Debian10のサポートが夏に終わるので、O4bが問題になるかも。古いバージョンを使うことはできるので、もしかしたら観測優先で使い続けるかも。自由に外部に出れるのが問題か?ホワイトリスト方式にして、proxyサーバを立てたりするのま? * (3/5) Nonsensという、リアルタイムでノイズのサブトラクションをするのがある。サイトで、リアルタイムモデル上で動く。ASC->LSCや電源ライン系のサブトラクトに使われている。ただし、それとは別にオフラインでサブトラクトしている。 * (4/2) PCがちょくちょくダウンしている。2、3月で4台。古いRTSで数100日でダウンするバグがあるのかも。 * (8/6) k1ascのモデルを2つに分割した。今のところ問題はなさそう。(池田) === 9. GPS関連 === * KAGRAのGPSに4月に大きなジャンプが起きた。 * SKに6月にCommon Viewの作業中に大きなジャンプが起きた。少なくとも4月には何もなかった。 * 9/13 天文学会で特別セッションで発表する。 * (5/9)衛星の数が正午に減るようなことはなさそう。 * まとめのグラフができた。 * https://gwdet.icrr.u-tokyo.ac.jp/~controls/summary/day/20240205/detchar/gps/ * (3/5) 川本君がやったことをまとめて話してくれるかも。時刻がズレる秒単位の比較のズレの「頻度」が変わると、ジャンプが起きるようだ。Timing masterを増やすか、Common Viewをもう一台増やして比較してみたい。 * (4/2) common viewを修理で送りかえした。予備を買う?メンテナンスの更新。 * (6/4) 4/2に送り返して、戻ってきたあとGPSアンテナのコネクタが壊れたの、霜出さんに修理してもらった。その後は安定して動いている。 * (6/4) 3/19で時刻差が0秒から20n秒付近に変わった。(川本) * (8/6) 川本君が学会で発表する。 === 10. メンテンナス === * 古いUPSバッテリーを一斉交換する。-> 山本 -> 9/6:すでに切れているものは交換した。O4までに、後2台残っている。 * (8/6) 8月2日センターの2階でEPICSが見えなくなったことがある。ネットワークの安定性が少し心配。(池田、山本) === 11. 玉木君のKEKでの実験 === * HPCD x4、AA/AI x1、WFx3 はある。サテライトボックスを確認。 * STDAで構築、ADC1枚、DAC1枚。 * (8/6) スタンドアロンでIOシャーシなしでやる予定。アダプターカードが壊れていて足りないかもしれない。DACが足りないかもしれない。 === 12. IP 枯渇問題 === * 押野君がWS networkを立てる案を作ってくれた。 * 10.60.10.XXのサブネットを変える。 * Oは多分無理。1週間くらいのメンテナンスデーが欲しい。 * 10/4 EPICS信号をTCP/IPのネットワークから分ける。(池田) * awgはnds経由で指令しているのか? * O4以前は諦める。 === 13. Interlock === * (12/5) 11月に両エンドのリモート操作(MEDM経由)が可能になった。その後、自己判断するようなもの(ハードワイヤ)を組み込む。 * (2/6) 1月後半に上久保田さんがきて、GVに入れる打ち合わせをした。 * (3/5) 3/13-15に上久保田さんが来る。GVの1セット目の完成を目指す。 -> (4/2) 設計と打ち合わせをして、現在実装している最中。 * (7/2) 6/21 ITMYのゲートバルブに開閉のスイッチが入ってテストした。うまくいったが、リモートでの操作ができなくなってしまった。8月にはITMXを設置する予定。 * (8/6) 8/28-30で上窪田さんが来る。ITMXにITMYと同じリモート制御をインストール。 === 長期的でやるタスク === * 大きいモニターもいずれ交換。O4a後くらいか? * 坑内のIOO付近のWi-Fiを安定化させる。-> クリーンブース内を有線化 * テストベンチ。 * Dolphinが主流に。DAQもDolphin。 * SINETのアップグレード * 坑内ネットワークのアップグレード * 新IO chassisをどう稼動させていくか? * 今回買った計算機で稼動 * RGCのアップグレード * DCの冗長化 * 20bit DAC * 18bit ADC * タイミング関連が変わる。 * 計算機のreplace * 回路の交換 * 柏と神岡の10G化 * 柏が止まる時の逃げ道、冗長性など * 予算 === To do === === ケーブル === * 計算機室の出口のケーブル整理。 === その他 === * D-SUB37pinケーブルを作る。-> 必要なケーブルの種類とラフな本数を見積もる。 * OMCに15mのD-SUB 9pinケーブルを使うが、もしかしたら在庫がないかも。(押野)-> かなり予備を見て揃えたので、多分大丈夫なはず。15mピッタリはないかも。(宮川) === 今後の予定 === * 次回: 8月27日(火) 16:00~ * 次々回: 10月1日(火) 16:00~