= background = * we will install the latest summary page in the Kamioka detchar cluster. * configuration of the cluster is summarized [[https://gwwiki.icrr.u-tokyo.ac.jp/JGWwiki/KAGRA/Subgroups/DET/computors|wiki]] * 作業終了後に英語にする予定ですが、厳しいかも * クラスターにloginはできた * HTcondorはインストールされている * CondorVersion: 10.0.1 2023-01-05 * apacheが必要だがまだ入っていない * controlsとopsがあるが、ユーザーはcontrolsのみ使うので関係ない * パッケージのインストールなどはopsで行う * mambaをインストールする、condaへのシンボリックリンクは一度消す * 今のconda環境は /users/DET/conda/miniconda3 へのシンボリックリンクなので消す * miniconda3 -> /users/DET/conda/miniconda3  * mambaのインストール方法は https://computing.docs.ligo.org/conda/usage/ * Download the installer on the command line: {{{#!highlight curl -L -O https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-$(uname)-$(uname -m).sh }}} * install {{{#!highlight bash Miniforge3-$(uname)-$(uname -m).sh }}} * 仮想環境のレシピを持ってくる * テストサーバーの ~/etc/ligo-summary-pages がgit repo * 大本は https://git.ligo.org/detchar/ligo-summary-pages/ * 一度ローカルに落としてきてk1detms0に転送した * install virtual environment by using the recipe {{{#!highlight cd etc/ligo-summary-pages/conda mamba env create --file environment.yaml }}} * この後色々とやってわかったが、ms0とcl[012]はホームディレクトリが共有されていないので、cl[012]にも同じようにログインしてインストールしないといけない * ここは要検討 * opsアカウントで、必要なパッケージを使えるようにする * emacs * htop * tmux * apache * httpd * eog * apacheのサービス開始 * systemctl start httpd * SE Linuxが切れていることを確認 * getenforce * conda関連の設定ファイルを編集する * functionsファイルを新しい環境用に変更 * ~/etc/ligo-summary-pages/scripts/functions * miniforgeをmambaforgeに変更するなど {{{#!highlight conda_activate() { local name=$1 [ -z $repodir ] && local name="ligo-summary-3.10" if [[ $(hostname) = "k1"* ]]; then source /home/controls/miniforge3/etc/profile.d/conda.sh else source /cvmfs/software.igwn.org/conda/etc/profile.d/conda.sh fi conda activate ${name} } }}} * テストサーバーでの作業メモ https://klog.icrr.u-tokyo.ac.jp/osl/?r=31462 * apacheの設定を押野さんが行った {{{#!highlight # firewall-cmd --add-service=http success # firewall-cmd --runtime-to-permanent success ユーザーホーム領域を有効化する vim /etc/httpd/conf.d/userdir.conf # 17行目 : コメント化 #UserDir disabled # 24行目 : コメント解除 UserDir public_html 再起動 # systemctl restart httpd public_html権限変更 # chmod 711 /home/controls # chmod 755 /home/controls/public_html }}} * 計算機の時刻がおかしい * 時刻の設定(chrony)を押野さんが行った {{{#!highlight # dnf install chrony vim /etc/chrony.conf # 3行目 : 時刻同期する NTP サーバーを変更 # systemctl enable --now chronyd }}} * どうやってsummary pageはデータを読み込んでいるか? * サマリーページのiniファイルにk1nds0とか書いてあるので、k1nds0経由でデータを読み込んでいる * コミッショニングでnds serverを使いたいので、k1nds0を使うのは避ける * 代わりにLIGO_DATAFIND_SERVER を設定すると、GWDataFind server 経由でデータを読める * chronyをインストールして、設定する = HTCondor = * 簡単なジョブ投入テストはOK * 複数cpuを使うジョブを投げるとidelから進まない * ms0とcl012の /etc/condor/config.d/01-submit.config を適切に書き換えればOK、system-Bの設定が参考になる * これはSlotという概念、ダイナミックにcpuの個数を調節しながら走る設定にできた * gwsummのジョブは universe = localでは走ることを確認した * localで走るというのはログインサーバーであるms0で走るということなので、計算機ノードのcpuが使われていない * universe = vanillaにすると、ジョブが走らない {{{#!highlight timeout: failed to run command ‘git’: No such file or directory Error: Can't find address for schedd k1detcl2.kagra.icrr.u-tokyo.ac.jp Extra Info: You probably saw this error because the condor_schedd is not running on the machine you are trying to query. If the condor_schedd is not running, the Condor system will not be able to find an address and port to connect to and satisfy this request. Please make sure the Condor daemons are running and try again. Extra Info: If the condor_schedd is running on the machine you are trying to query and you still see the error, the most likely cause is that you have setup a personal Condor, you have not defined SCHEDD_NAME in your condor_config file, and something is wrong with your SCHEDD_ADDRESS_FILE setting. You must define either or both of those settings in your config file, or you must use the -name option to condor_q. Please see the Condor manual for details on SCHEDD_NAME and SCHEDD_ADDRESS_FILE. Failed to parse cluster ID for SummaryPage manager Renaming rescue DAGs newer than number 0 ERROR: Can't find address of local schedd ERROR: condor_submit failed; aborting. }}} * 最初のgitの行は関係ない * このエラーメッセージの意味は、一度投げたcondorジョブが計算ノードcl0とかで走っており、そこからさらにDAGをsubmitしようとすると、submitする先が見つからないということだと思う * 可能性のある解決方法は、cl012の /etc/condor/config.d/01-submit.config の3行目の use role:get_htcondor_submit を適切にいじれればうまくいくかもしれない・・・、まだ試していない