Differences between revisions 22 and 35 (spanning 13 versions)
Revision 22 as of 2024-11-07 11:50:49
Size: 2537
Comment:
Revision 35 as of 2025-01-30 11:49:11
Size: 6364
Comment:
Deletions are marked like this. Additions are marked like this.
Line 3: Line 3:
 * we will install the latest summary page in Kamioka detchar cluster.  * we will install the latest summary page in the Kamioka detchar cluster.
Line 6: Line 6:
 * 作業終了後に英語にして記録を残します
 * 作業終了後に英語にする予定ですが、厳いかも
Line 11: Line 10:
  * ちょっと古い?
* apacheが必要だがまだ入っていない、htopとかtmuxも欲しい
 * apacheが必要だがまだ入っていない
Line 15: Line 12:
 * mambaをインストールする、condaは全部アンインストールする   * パッケージのインストールなどはopsで行う
 * mambaをインストールする、condaへのシンボリックリンクは一度消す
Line 18: Line 16:
  * https://computing.docs.ligo.org/conda/usage/

 * mambaのインストール方法は https://computing.docs.ligo.org/conda/usage/
Line 31: Line 27:
 * インストールはOK
Line 36: Line 30:
  * at local computer, git clone git@git.ligo.org:detchar/ligo-summary-pages.git and scp to k1detms0:etc/   * 一度ローカルに落としてきてk1detms0に転送した
Line 45: Line 39:
 * この後色々とやってわかったが、ms0とcl[012]はホームディレクトリが共有されていないので、cl[012]にも同じようにログインしてインストールしないといけない
  * ここは要検討
Line 52: Line 48:
  * eog
Line 54: Line 51:
  * systemctl enable --now httpd
  * systemctl start httpd
 * SE Linuxが切れていることを確認
  * getenforce
Line 60: Line 58:
   * miniforgeをmambaforgeに変更するなど
Line 74: Line 73:
 * テストサーバーでの作業メモ https://klog.icrr.u-tokyo.ac.jp/osl/?r=31462
 * apacheの設定を押野さんが行った
Line 75: Line 76:
 * 環境を用意する
 * テストサーバーでの作業メモ https://klog.icrr.u-tokyo.ac.jp/osl/?r=31462
 * repositoryの差分を取る?
 * functionsの中にmamba用のsourceを追加する

{{{#!highlight
# firewall-cmd --add-service=http
success
# firewall-cmd --runtime-to-permanent
success

ユーザーホーム領域を有効化する

vim /etc/httpd/conf.d/userdir.conf
# 17行目 : コメント化
#UserDir disabled
# 24行目 : コメント解除
UserDir public_html

再起動
# systemctl restart httpd

public_html権限変更
# chmod 711 /home/controls
# chmod 755 /home/controls/public_html
}}}


 * 計算機の時刻がおかしい
  * 時刻の設定(chrony)を押野さんが行った

{{{#!highlight
# dnf install chrony
vim /etc/chrony.conf
# 3行目 : 時刻同期する NTP サーバーを変更

# systemctl enable --now chronyd
}}}


 * どうやってsummary pageはデータを読み込んでいるか?
  * サマリーページのiniファイルにk1nds0とか書いてあるので、k1nds0経由でデータを読み込んでいる
  * コミッショニングでnds serverを使いたいので、k1nds0を使うのは避ける
  * 代わりにLIGO_DATAFIND_SERVER を設定すると、GWDataFind server 経由でデータを読める
  * chronyをインストールして、設定する


= HTCondor =
 * 簡単なジョブ投入テストはOK
 * 複数cpuを使うジョブを投げるとidelから進まない
  * ms0とcl012の /etc/condor/config.d/01-submit.config を適切に書き換えればOK、system-Bの設定が参考になる
  * これはSlotという概念、ダイナミックにcpuの個数を調節しながら走る設定にできた
 * gwsummのジョブは universe = localでは走ることを確認した
  * localで走るというのはログインサーバーであるms0で走るということなので、計算機ノードのcpuが使われていない
 * universe = vanillaにすると、ジョブが走らない


{{{#!highlight
timeout: failed to run command ‘git’: No such file or directory
Error: Can't find address for schedd k1detcl2.kagra.icrr.u-tokyo.ac.jp

Extra Info: You probably saw this error because the condor_schedd is not
running on the machine you are trying to query. If the condor_schedd is not
running, the Condor system will not be able to find an address and port to
connect to and satisfy this request. Please make sure the Condor daemons are
running and try again.

Extra Info: If the condor_schedd is running on the machine you are trying to
query and you still see the error, the most likely cause is that you have
setup a personal Condor, you have not defined SCHEDD_NAME in your
condor_config file, and something is wrong with your SCHEDD_ADDRESS_FILE
setting. You must define either or both of those settings in your config
file, or you must use the -name option to condor_q. Please see the Condor
manual for details on SCHEDD_NAME and SCHEDD_ADDRESS_FILE.
Failed to parse cluster ID for SummaryPage manager
Renaming rescue DAGs newer than number 0

ERROR: Can't find address of local schedd
ERROR: condor_submit failed; aborting.
}}}

 * 最初のgitの行は今回の問題とは関係ない
 * このエラーメッセージの意味は、一度投げたcondorジョブが計算ノードcl0とかで走っており、そこからさらにDAGをsubmitしようとすると、submitする先が見つからないということだと思う
 * 可能性のある解決方法は、cl012の /etc/condor/config.d/01-submit.config の3行目の use role:get_htcondor_submit を適切にいじれればうまくいくかもしれない・・・、まだ試していない

background

  • we will install the latest summary page in the Kamioka detchar cluster.
    • configuration of the cluster is summarized wiki

  • 作業終了後に英語にする予定ですが、厳しいかも
  • クラスターにloginはできた
  • HTcondorはインストールされている
  • apacheが必要だがまだ入っていない
  • controlsとopsがあるが、ユーザーはcontrolsのみ使うので関係ない
    • パッケージのインストールなどはopsで行う
  • mambaをインストールする、condaへのシンボリックリンクは一度消す
    • 今のconda環境は /users/DET/conda/miniconda3 へのシンボリックリンクなので消す
    • miniconda3 -> /users/DET/conda/miniconda3

  • mambaのインストール方法は https://computing.docs.ligo.org/conda/usage/

  • Download the installer on the command line:

   1 curl -L -O https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-$(uname)-$(uname -m).sh
  • install

   1 bash Miniforge3-$(uname)-$(uname -m).sh
  • 仮想環境のレシピを持ってくる
  • install virtual environment by using the recipe

   1 cd etc/ligo-summary-pages/conda
   2 mamba env create --file environment.yaml
  • この後色々とやってわかったが、ms0とcl[012]はホームディレクトリが共有されていないので、cl[012]にも同じようにログインしてインストールしないといけない
    • ここは要検討
  • opsアカウントで、必要なパッケージを使えるようにする
    • emacs
    • htop
    • tmux
    • apache
    • httpd
    • eog
  • apacheのサービス開始
    • systemctl start httpd
  • SE Linuxが切れていることを確認
    • getenforce
  • conda関連の設定ファイルを編集する
    • functionsファイルを新しい環境用に変更
    • ~/etc/ligo-summary-pages/scripts/functions
      • miniforgeをmambaforgeに変更するなど

   1 conda_activate() {
   2     local name=$1
   3     [ -z $repodir ] && local name="ligo-summary-3.10"
   4     if [[ $(hostname) = "k1"* ]]; then
   5         source /home/controls/miniforge3/etc/profile.d/conda.sh
   6     else
   7         source /cvmfs/software.igwn.org/conda/etc/profile.d/conda.sh
   8     fi
   9     conda activate ${name}
  10 }

   1 # firewall-cmd --add-service=http
   2 success
   3 # firewall-cmd --runtime-to-permanent
   4 success
   5 
   6 ユーザーホーム領域を有効化する
   7 
   8 vim /etc/httpd/conf.d/userdir.conf
   9 # 17行目 : コメント化
  10 #UserDir disabled
  11 # 24行目 : コメント解除
  12 UserDir public_html
  13 
  14 再起動
  15 # systemctl restart httpd
  16 
  17 public_html権限変更
  18 # chmod 711 /home/controls
  19 # chmod 755 /home/controls/public_html
  • 計算機の時刻がおかしい
    • 時刻の設定(chrony)を押野さんが行った

   1 # dnf install chrony
   2 vim /etc/chrony.conf
   3 # 3行目 : 時刻同期する NTP サーバーを変更
   4 
   5 # systemctl enable --now chronyd
  • どうやってsummary pageはデータを読み込んでいるか?
    • サマリーページのiniファイルにk1nds0とか書いてあるので、k1nds0経由でデータを読み込んでいる
    • コミッショニングでnds serverを使いたいので、k1nds0を使うのは避ける
    • 代わりにLIGO_DATAFIND_SERVER を設定すると、GWDataFind server 経由でデータを読める
    • chronyをインストールして、設定する

HTCondor

  • 簡単なジョブ投入テストはOK
  • 複数cpuを使うジョブを投げるとidelから進まない
    • ms0とcl012の /etc/condor/config.d/01-submit.config を適切に書き換えればOK、system-Bの設定が参考になる
    • これはSlotという概念、ダイナミックにcpuの個数を調節しながら走る設定にできた
  • gwsummのジョブは universe = localでは走ることを確認した
    • localで走るというのはログインサーバーであるms0で走るということなので、計算機ノードのcpuが使われていない
  • universe = vanillaにすると、ジョブが走らない

   1 timeout: failed to run command ‘git’: No such file or directory
   2 Error: Can't find address for schedd k1detcl2.kagra.icrr.u-tokyo.ac.jp
   3 
   4 Extra Info: You probably saw this error because the condor_schedd is not
   5 running on the machine you are trying to query. If the condor_schedd is not
   6 running, the Condor system will not be able to find an address and port to
   7 connect to and satisfy this request. Please make sure the Condor daemons are
   8 running and try again.
   9 
  10 Extra Info: If the condor_schedd is running on the machine you are trying to
  11 query and you still see the error, the most likely cause is that you have
  12 setup a personal Condor, you have not defined SCHEDD_NAME in your
  13 condor_config file, and something is wrong with your SCHEDD_ADDRESS_FILE
  14 setting. You must define either or both of those settings in your config
  15 file, or you must use the -name option to condor_q. Please see the Condor
  16 manual for details on SCHEDD_NAME and SCHEDD_ADDRESS_FILE.
  17 Failed to parse cluster ID for SummaryPage manager
  18 Renaming rescue DAGs newer than number 0
  19 
  20 ERROR: Can't find address of local schedd
  21 ERROR: condor_submit failed; aborting.
  • 最初のgitの行は今回の問題とは関係ない
  • このエラーメッセージの意味は、一度投げたcondorジョブが計算ノードcl0とかで走っており、そこからさらにDAGをsubmitしようとすると、submitする先が見つからないということだと思う
  • 可能性のある解決方法は、cl012の /etc/condor/config.d/01-submit.config の3行目の use role:get_htcondor_submit を適切にいじれればうまくいくかもしれない・・・、まだ試していない

KAGRA/Subgroups/PEM/SummaryPage/memo_20241106 (last edited 2025-01-30 11:49:11 by HirotakaYuzurihara)