Differences between revisions 34 and 35
Revision 34 as of 2024-11-10 01:17:04
Size: 6343
Comment:
Revision 35 as of 2025-01-30 11:49:11
Size: 6364
Comment:
Deletions are marked like this. Additions are marked like this.
Line 153: Line 153:
 * 最初のgitの行は関係ない  * 最初のgitの行は今回の問題とは関係ない

background

  • we will install the latest summary page in the Kamioka detchar cluster.
    • configuration of the cluster is summarized wiki

  • 作業終了後に英語にする予定ですが、厳しいかも
  • クラスターにloginはできた
  • HTcondorはインストールされている
  • apacheが必要だがまだ入っていない
  • controlsとopsがあるが、ユーザーはcontrolsのみ使うので関係ない
    • パッケージのインストールなどはopsで行う
  • mambaをインストールする、condaへのシンボリックリンクは一度消す
    • 今のconda環境は /users/DET/conda/miniconda3 へのシンボリックリンクなので消す
    • miniconda3 -> /users/DET/conda/miniconda3

  • mambaのインストール方法は https://computing.docs.ligo.org/conda/usage/

  • Download the installer on the command line:

   1 curl -L -O https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-$(uname)-$(uname -m).sh
  • install

   1 bash Miniforge3-$(uname)-$(uname -m).sh
  • 仮想環境のレシピを持ってくる
  • install virtual environment by using the recipe

   1 cd etc/ligo-summary-pages/conda
   2 mamba env create --file environment.yaml
  • この後色々とやってわかったが、ms0とcl[012]はホームディレクトリが共有されていないので、cl[012]にも同じようにログインしてインストールしないといけない
    • ここは要検討
  • opsアカウントで、必要なパッケージを使えるようにする
    • emacs
    • htop
    • tmux
    • apache
    • httpd
    • eog
  • apacheのサービス開始
    • systemctl start httpd
  • SE Linuxが切れていることを確認
    • getenforce
  • conda関連の設定ファイルを編集する
    • functionsファイルを新しい環境用に変更
    • ~/etc/ligo-summary-pages/scripts/functions
      • miniforgeをmambaforgeに変更するなど

   1 conda_activate() {
   2     local name=$1
   3     [ -z $repodir ] && local name="ligo-summary-3.10"
   4     if [[ $(hostname) = "k1"* ]]; then
   5         source /home/controls/miniforge3/etc/profile.d/conda.sh
   6     else
   7         source /cvmfs/software.igwn.org/conda/etc/profile.d/conda.sh
   8     fi
   9     conda activate ${name}
  10 }

   1 # firewall-cmd --add-service=http
   2 success
   3 # firewall-cmd --runtime-to-permanent
   4 success
   5 
   6 ユーザーホーム領域を有効化する
   7 
   8 vim /etc/httpd/conf.d/userdir.conf
   9 # 17行目 : コメント化
  10 #UserDir disabled
  11 # 24行目 : コメント解除
  12 UserDir public_html
  13 
  14 再起動
  15 # systemctl restart httpd
  16 
  17 public_html権限変更
  18 # chmod 711 /home/controls
  19 # chmod 755 /home/controls/public_html
  • 計算機の時刻がおかしい
    • 時刻の設定(chrony)を押野さんが行った

   1 # dnf install chrony
   2 vim /etc/chrony.conf
   3 # 3行目 : 時刻同期する NTP サーバーを変更
   4 
   5 # systemctl enable --now chronyd
  • どうやってsummary pageはデータを読み込んでいるか?
    • サマリーページのiniファイルにk1nds0とか書いてあるので、k1nds0経由でデータを読み込んでいる
    • コミッショニングでnds serverを使いたいので、k1nds0を使うのは避ける
    • 代わりにLIGO_DATAFIND_SERVER を設定すると、GWDataFind server 経由でデータを読める
    • chronyをインストールして、設定する

HTCondor

  • 簡単なジョブ投入テストはOK
  • 複数cpuを使うジョブを投げるとidelから進まない
    • ms0とcl012の /etc/condor/config.d/01-submit.config を適切に書き換えればOK、system-Bの設定が参考になる
    • これはSlotという概念、ダイナミックにcpuの個数を調節しながら走る設定にできた
  • gwsummのジョブは universe = localでは走ることを確認した
    • localで走るというのはログインサーバーであるms0で走るということなので、計算機ノードのcpuが使われていない
  • universe = vanillaにすると、ジョブが走らない

   1 timeout: failed to run command ‘git’: No such file or directory
   2 Error: Can't find address for schedd k1detcl2.kagra.icrr.u-tokyo.ac.jp
   3 
   4 Extra Info: You probably saw this error because the condor_schedd is not
   5 running on the machine you are trying to query. If the condor_schedd is not
   6 running, the Condor system will not be able to find an address and port to
   7 connect to and satisfy this request. Please make sure the Condor daemons are
   8 running and try again.
   9 
  10 Extra Info: If the condor_schedd is running on the machine you are trying to
  11 query and you still see the error, the most likely cause is that you have
  12 setup a personal Condor, you have not defined SCHEDD_NAME in your
  13 condor_config file, and something is wrong with your SCHEDD_ADDRESS_FILE
  14 setting. You must define either or both of those settings in your config
  15 file, or you must use the -name option to condor_q. Please see the Condor
  16 manual for details on SCHEDD_NAME and SCHEDD_ADDRESS_FILE.
  17 Failed to parse cluster ID for SummaryPage manager
  18 Renaming rescue DAGs newer than number 0
  19 
  20 ERROR: Can't find address of local schedd
  21 ERROR: condor_submit failed; aborting.
  • 最初のgitの行は今回の問題とは関係ない
  • このエラーメッセージの意味は、一度投げたcondorジョブが計算ノードcl0とかで走っており、そこからさらにDAGをsubmitしようとすると、submitする先が見つからないということだと思う
  • 可能性のある解決方法は、cl012の /etc/condor/config.d/01-submit.config の3行目の use role:get_htcondor_submit を適切にいじれればうまくいくかもしれない・・・、まだ試していない

KAGRA/Subgroups/PEM/SummaryPage/memo_20241106 (last edited 2025-01-30 11:49:11 by HirotakaYuzurihara)