background
- we will install the latest summary page in the Kamioka detchar cluster.
configuration of the cluster is summarized wiki
- 作業終了後に英語にする予定ですが、厳しいかも
- クラスターにloginはできた
- HTcondorはインストールされている
CondorVersion: 10.0.1 2023-01-05
- apacheが必要だがまだ入っていない
- controlsとopsがあるが、ユーザーはcontrolsのみ使うので関係ない
- パッケージのインストールなどはopsで行う
- mambaをインストールする、condaへのシンボリックリンクは一度消す
- 今のconda環境は /users/DET/conda/miniconda3 へのシンボリックリンクなので消す
miniconda3 -> /users/DET/conda/miniconda3
mambaのインストール方法は https://computing.docs.ligo.org/conda/usage/
- Download the installer on the command line:
1 curl -L -O https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-$(uname)-$(uname -m).sh
- install
1 bash Miniforge3-$(uname)-$(uname -m).sh
- 仮想環境のレシピを持ってくる
- テストサーバーの ~/etc/ligo-summary-pages がgit repo
- 一度ローカルに落としてきてk1detms0に転送した
- install virtual environment by using the recipe
- この後色々とやってわかったが、ms0とcl[012]はホームディレクトリが共有されていないので、cl[012]にも同じようにログインしてインストールしないといけない
- ここは要検討
- opsアカウントで、必要なパッケージを使えるようにする
- emacs
- htop
- tmux
- apache
- httpd
- eog
- apacheのサービス開始
- systemctl start httpd
- SE Linuxが切れていることを確認
- getenforce
- conda関連の設定ファイルを編集する
- functionsファイルを新しい環境用に変更
- ~/etc/ligo-summary-pages/scripts/functions
- miniforgeをmambaforgeに変更するなど
テストサーバーでの作業メモ https://klog.icrr.u-tokyo.ac.jp/osl/?r=31462
- apacheの設定を押野さんが行った
1 # firewall-cmd --add-service=http
2 success
3 # firewall-cmd --runtime-to-permanent
4 success
5
6 ユーザーホーム領域を有効化する
7
8 vim /etc/httpd/conf.d/userdir.conf
9 # 17行目 : コメント化
10 #UserDir disabled
11 # 24行目 : コメント解除
12 UserDir public_html
13
14 再起動
15 # systemctl restart httpd
16
17 public_html権限変更
18 # chmod 711 /home/controls
19 # chmod 755 /home/controls/public_html
- 計算機の時刻がおかしい
- 時刻の設定(chrony)を押野さんが行った
- どうやってsummary pageはデータを読み込んでいるか?
- サマリーページのiniファイルにk1nds0とか書いてあるので、k1nds0経由でデータを読み込んでいる
- コミッショニングでnds serverを使いたいので、k1nds0を使うのは避ける
- 代わりにLIGO_DATAFIND_SERVER を設定すると、GWDataFind server 経由でデータを読める
- chronyをインストールして、設定する
HTCondor
- 簡単なジョブ投入テストはOK
- 複数cpuを使うジョブを投げるとidelから進まない
- ms0とcl012の /etc/condor/config.d/01-submit.config を適切に書き換えればOK、system-Bの設定が参考になる
- これはSlotという概念、ダイナミックにcpuの個数を調節しながら走る設定にできた
- gwsummのジョブは universe = localでは走ることを確認した
- localで走るというのはログインサーバーであるms0で走るということなので、計算機ノードのcpuが使われていない
- universe = vanillaにすると、ジョブが走らない
1 timeout: failed to run command ‘git’: No such file or directory
2 Error: Can't find address for schedd k1detcl2.kagra.icrr.u-tokyo.ac.jp
3
4 Extra Info: You probably saw this error because the condor_schedd is not
5 running on the machine you are trying to query. If the condor_schedd is not
6 running, the Condor system will not be able to find an address and port to
7 connect to and satisfy this request. Please make sure the Condor daemons are
8 running and try again.
9
10 Extra Info: If the condor_schedd is running on the machine you are trying to
11 query and you still see the error, the most likely cause is that you have
12 setup a personal Condor, you have not defined SCHEDD_NAME in your
13 condor_config file, and something is wrong with your SCHEDD_ADDRESS_FILE
14 setting. You must define either or both of those settings in your config
15 file, or you must use the -name option to condor_q. Please see the Condor
16 manual for details on SCHEDD_NAME and SCHEDD_ADDRESS_FILE.
17 Failed to parse cluster ID for SummaryPage manager
18 Renaming rescue DAGs newer than number 0
19
20 ERROR: Can't find address of local schedd
21 ERROR: condor_submit failed; aborting.
- 最初のgitの行は関係ない
- このエラーメッセージの意味は、一度投げたcondorジョブが計算ノードcl0とかで走っており、そこからさらにDAGをsubmitしようとすると、submitする先が見つからないということだと思う
- 可能性のある解決方法は、cl012の /etc/condor/config.d/01-submit.config の3行目の use role:get_htcondor_submit を適切にいじれればうまくいくかもしれない・・・、まだ試していない