Differences between revisions 30 and 32 (spanning 2 versions)
Revision 30 as of 2024-11-10 01:09:16
Size: 3790
Comment:
Revision 32 as of 2024-11-10 01:15:58
Size: 6176
Comment:
Deletions are marked like this. Additions are marked like this.
Line 100: Line 100:
 * 時刻の設定(chrony)を押野さんが行った  * 計算機の時刻がおかしい
 
* 時刻の設定(chrony)を押野さんが行った
Line 111: Line 112:
= todo =
Line 113: Line 113:
 * k1detms0のenvをどうやって設定すればいいか? NDSSERVERとか
 * 計算機の時刻がおかしい
  * サマリーページのiniファイルにk1nds0とか書いてあるので、k1nds0経由でデータを読み込んでいる
  * コミッショニングでnds serverを使いたいので、k1nds0を使うのは避ける
  * 代わりにLIGO_DATAFIND_SERVER を設定すると、GWDataFind server 経由でデータを読める
Line 116: Line 117:
 * condorでジョブが走るかテストをする
 *


= HTCiondor =
 * 簡単なテストはOK
 * 複数cpuを使うジョブを投げるとidelから進まない
  * ms0とcl012の /etc/condor/config.d/01-submit.config を適切に書き換えればOK
 * gwsummのジョブは universe = localでは走ることを確認した
  * localで走るというのはログインサーバーであるms0で走るということなので、計算機ノードのcpuが使われていない
 * universe = vanillaにすると、ジョブが走らない


{{{#!highlight
timeout: failed to run command ‘git’: No such file or directory
Error: Can't find address for schedd k1detcl2.kagra.icrr.u-tokyo.ac.jp

Extra Info: You probably saw this error because the condor_schedd is not
running on the machine you are trying to query. If the condor_schedd is not
running, the Condor system will not be able to find an address and port to
connect to and satisfy this request. Please make sure the Condor daemons are
running and try again.

Extra Info: If the condor_schedd is running on the machine you are trying to
query and you still see the error, the most likely cause is that you have
setup a personal Condor, you have not defined SCHEDD_NAME in your
condor_config file, and something is wrong with your SCHEDD_ADDRESS_FILE
setting. You must define either or both of those settings in your config
file, or you must use the -name option to condor_q. Please see the Condor
manual for details on SCHEDD_NAME and SCHEDD_ADDRESS_FILE.
Failed to parse cluster ID for SummaryPage manager
Renaming rescue DAGs newer than number 0

ERROR: Can't find address of local schedd
ERROR: condor_submit failed; aborting.
}}}

 * 最初のgitの行は関係ない
 * このエラーメッセージの意味は、一度投げたcondorジョブが計算ノードcl0とかで走っており、そこからさらにDAGをsubmitしようとすると、submitする先が見つからないということだと思う
 * 可能性のある解決方法は、cl012の /etc/condor/config.d/01-submit.config の3行目の use role:get_htcondor_submit を適切にいじれればうまくいくかもしれない・・・、まだ試していない

background

  • we will install the latest summary page in the Kamioka detchar cluster.
    • configuration of the cluster is summarized wiki

  • 作業終了後に英語にする予定ですが、厳しいかも
  • クラスターにloginはできた
  • HTcondorはインストールされている
  • apacheが必要だがまだ入っていない
  • controlsとopsがあるが、ユーザーはcontrolsのみ使うので関係ない
    • パッケージのインストールなどはopsで行う
  • mambaをインストールする、condaへのシンボリックリンクは一度消す
    • 今のconda環境は /users/DET/conda/miniconda3 へのシンボリックリンクなので消す
    • miniconda3 -> /users/DET/conda/miniconda3

  • mambaのインストール方法は https://computing.docs.ligo.org/conda/usage/

  • Download the installer on the command line:

   1 curl -L -O https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-$(uname)-$(uname -m).sh
  • install

   1 bash Miniforge3-$(uname)-$(uname -m).sh
  • 仮想環境のレシピを持ってくる
  • install virtual environment by using the recipe

   1 cd etc/ligo-summary-pages/conda
   2 mamba env create --file environment.yaml
  • この後色々とやってわかったが、ms0とcl[012]はホームディレクトリが共有されていないので、cl[012]にも同じようにログインしてインストールしないといけない
    • ここは要検討
  • opsアカウントで、必要なパッケージを使えるようにする
    • emacs
    • htop
    • tmux
    • apache
    • httpd
    • eog
  • apacheのサービス開始
    • systemctl start httpd
  • SE Linuxが切れていることを確認
    • getenforce
  • conda関連の設定ファイルを編集する
    • functionsファイルを新しい環境用に変更
    • ~/etc/ligo-summary-pages/scripts/functions
      • miniforgeをmambaforgeに変更するなど

   1 conda_activate() {
   2     local name=$1
   3     [ -z $repodir ] && local name="ligo-summary-3.10"
   4     if [[ $(hostname) = "k1"* ]]; then
   5         source /home/controls/miniforge3/etc/profile.d/conda.sh
   6     else
   7         source /cvmfs/software.igwn.org/conda/etc/profile.d/conda.sh
   8     fi
   9     conda activate ${name}
  10 }

   1 # firewall-cmd --add-service=http
   2 success
   3 # firewall-cmd --runtime-to-permanent
   4 success
   5 
   6 ユーザーホーム領域を有効化する
   7 
   8 vim /etc/httpd/conf.d/userdir.conf
   9 # 17行目 : コメント化
  10 #UserDir disabled
  11 # 24行目 : コメント解除
  12 UserDir public_html
  13 
  14 再起動
  15 # systemctl restart httpd
  16 
  17 public_html権限変更
  18 # chmod 711 /home/controls
  19 # chmod 755 /home/controls/public_html
  • 計算機の時刻がおかしい
    • 時刻の設定(chrony)を押野さんが行った

   1 # dnf install chrony
   2 vim /etc/chrony.conf
   3 # 3行目 : 時刻同期する NTP サーバーを変更
   4 
   5 # systemctl enable --now chronyd
  • どうやってsummary pageはデータを読み込んでいるか?
    • サマリーページのiniファイルにk1nds0とか書いてあるので、k1nds0経由でデータを読み込んでいる
    • コミッショニングでnds serverを使いたいので、k1nds0を使うのは避ける
    • 代わりにLIGO_DATAFIND_SERVER を設定すると、GWDataFind server 経由でデータを読める
    • chronyをインストールして、設定する

HTCiondor

  • 簡単なテストはOK
  • 複数cpuを使うジョブを投げるとidelから進まない
    • ms0とcl012の /etc/condor/config.d/01-submit.config を適切に書き換えればOK
  • gwsummのジョブは universe = localでは走ることを確認した
    • localで走るというのはログインサーバーであるms0で走るということなので、計算機ノードのcpuが使われていない
  • universe = vanillaにすると、ジョブが走らない

   1 timeout: failed to run command ‘git’: No such file or directory
   2 Error: Can't find address for schedd k1detcl2.kagra.icrr.u-tokyo.ac.jp
   3 
   4 Extra Info: You probably saw this error because the condor_schedd is not
   5 running on the machine you are trying to query. If the condor_schedd is not
   6 running, the Condor system will not be able to find an address and port to
   7 connect to and satisfy this request. Please make sure the Condor daemons are
   8 running and try again.
   9 
  10 Extra Info: If the condor_schedd is running on the machine you are trying to
  11 query and you still see the error, the most likely cause is that you have
  12 setup a personal Condor, you have not defined SCHEDD_NAME in your
  13 condor_config file, and something is wrong with your SCHEDD_ADDRESS_FILE
  14 setting. You must define either or both of those settings in your config
  15 file, or you must use the -name option to condor_q. Please see the Condor
  16 manual for details on SCHEDD_NAME and SCHEDD_ADDRESS_FILE.
  17 Failed to parse cluster ID for SummaryPage manager
  18 Renaming rescue DAGs newer than number 0
  19 
  20 ERROR: Can't find address of local schedd
  21 ERROR: condor_submit failed; aborting.
  • 最初のgitの行は関係ない
  • このエラーメッセージの意味は、一度投げたcondorジョブが計算ノードcl0とかで走っており、そこからさらにDAGをsubmitしようとすると、submitする先が見つからないということだと思う
  • 可能性のある解決方法は、cl012の /etc/condor/config.d/01-submit.config の3行目の use role:get_htcondor_submit を適切にいじれればうまくいくかもしれない・・・、まだ試していない

KAGRA/Subgroups/PEM/SummaryPage/memo_20241106 (last edited 2025-01-30 11:49:11 by HirotakaYuzurihara)