Guide de démarrage¶

1. Bonnes pratiques d’utilisation des ressources de calcul¶

Votre utilisation doit être conforme aux règles et politiques de l’Université Laval, notamment celles concernant l’utilisation des ressources informatiques, la confidentialité des données et la propriété intellectuelle.

Accès aux ressources¶

Les accès vous seront retirés à la fin du cours

Les ressources doivent être utilisées exclusivement afin de réaliser les travaux du cours qui nécessitent des ressources de calcul.
Toute utilisatrice ou utilisateur est responsable des activités effectuées à l’aide de son compte, y compris l'utilisation abusive, non autorisée ou contraire aux règles et politiques en vigueur. Uniquement les étudiantes et les étudiants inscrits au cours sont autorisés à utiliser et interagir avec les ressources de calcul.
L’équipe d'administrateurs de la plateforme se réserve le droit de retirer vos accès à tout moment en cas d’utilisation non responsable.

Stockage et sauvegarde de données¶

La plateforme de calcul ne dispose pas de service de récupération ni de copies de sécurité (backup).

Ne pas stocker de données importantes.
Effectuer fréquemment des sauvegardes de vos données (ex.: jeux de données, scripts, notebooks, etc.) sur vos propres outils de sauvegardes.

Utilisation responsable des ressources¶

Planifiez à l’avance et étalez vos entraînements sur la durée de la session de cours, afin de diminuer le risque de files d’attente, de délais et de concurrence entre les utilisateurs. Nous ne pourrons être tenu responsable des impacts sur vos travaux et sur votre réussite du cours.
Limitez l’utilisation des ressources à la durée dont vous avez réellement besoin. Il est préférable de lancer plusieurs tâches de courtes durées, plutôt qu’une seule de très longue durée.
Pour assurer une utilisation efficace des ressources de calcul, veuillez limiter votre consommation de mémoire GPU (VRAM) à 8 Go par session ou par tâche. Cela permettra d’optimiser le partage des ressources entre les utilisateurs. Dans la plupart des cas, réduire la taille du batch est une méthode efficace pour diminuer la consommation de VRAM.
Fermez vos sessions Jupyter lorsque vous ne les utilisez plus. Nous nous réservons le droit de fermer toutes sessions inactives depuis plus de deux heures.

2. Ressources d’aide et support¶

Si vous avez des questions ou des problèmes qui sont liés au contenu du cours, ou aux consignes des travaux à compléter, écrivez à la personne qui enseigne le cours.

Si vos questions ou problèmes sont de nature technique et concernent l’utilisation des ressources de calcul, vous pouvez écrire à sse.aide@ulaval.ca. Un(e) agent(e) de la billetterie prendra en charge votre requête.

Alternativement, nous vous invitons aussi à essayer les solutions suivantes qui pourraient permettre de vous débloquer plus rapidement:

Prendre le temps de bien lire le message d’erreur. Des informations pertinentes, peut-être même les solutions, peuvent s’y retrouver.
Relire le présent guide de démarrage, incluant la section 6 « Foire aux questions » afin de voir si la réponse à votre question ou votre problème s’y trouve.
Consulter la documentation en ligne de l’Alliance de recherche numérique du Canada. Le fonctionnement de ces ressources de calcul et les différents outils disponibles sont similaires (ex.: JupyterLab et Slurm), vous y trouverez donc beaucoup d’informations applicables.
Effectuer une recherche sur un moteur de recherche avec le problème que vous rencontrez (ex.: code ou message d’erreur) ou avec votre questionnement précis. Les outils disponibles sur la plateforme de calcul sont très connus et beaucoup de ressources et communautés d’entraide en ligne existent (ex. : Discourse Jupyter )

Pour tout commentaire et suggestion, écrivez-nous à sse.aide@ulaval.ca.

3. Connexion à la plateforme¶

L’utilisation des ressources de calcul requiert un compte. Puisque vous avez un accès à la plateforme dans le contexte d’un cours, des comptes vous ont automatiquement été créés. Pour vous connecter, visitez https://jupyter.ice.ulaval.ca et connectez-vous à l’aide de votre IDUL, votre mot de passe ULaval et l'authentification multifactorielle, (voir image 1).

Connexion

Image 1. Connexion à la plateforme

Il existe différentes façons d’utiliser la plateforme de calcul.

Utilisation d’une session Jupyter (section 4)
Utilisation de Slurm (mode «batch») (section 5).

Nœud frontal

Un nœud frontal (aussi appelé nœud de connexion / login node) dans un cluster est le point d’entrée où les utilisateurs se connectent, soumettent leurs tâches (jobs) et gèrent leurs données avant que les nœuds de calcul effectuent le traitement réel. C’est un peu comme un guichet d’accueil qui organise et dirige votre travail au bon endroit.

Étape 1. Connexion au VPN de l’Université Laval¶

VPN

Étape requise lorsque vous êtes connecté(e) à un réseau internet hors du campus ULaval, pour l'accès par SSH. Jupyter est accessible sans VPN.

Si vous n’êtes pas connecté(e) au réseau du campus ULaval (eduroam) et que vous êtes physiquement hors du campus, vous devez d’abord vous assurer d’être connecté(e) sur le VPN de l’Université Laval (vpncampus.ulaval.ca).

Pour vous connecter au VPN, il vous faudra installer Cisco AnyConnect Secure Mobility Client sur votre appareil. Pour installer le logiciel AnyConnect, consultez le guide correspondant à votre type d'appareil :

Guide AnyConnect pour Windows (PDF)

Guide AnyConnect pour macOS (PDF)

Capsule d’aide à l’utilisation de AnyConnect pour Windows

Une fois installé, lancez le logiciel Cisco AnyConnect Secure Mobility Client et entrez vpncampus.ulaval.ca, puis cliquez sur « Connexion ». Entrez ensuite votre adresse ayant le format IDUL@ulaval.ca et votre mot de passe habituel, puis confirmez au besoin votre authentification multifactorielle.

Étape 2. Connexion SSH aux serveurs¶

Voir l'étape précédente car le VPN est requis pour la connexion par SSH.

Divers clients SSH sont disponibles pour les différents systèmes d’exploitation. En voici des suggestions qui sont disponibles sur différents systèmes d'exploitation :

Windows: https://docs.alliancecan.ca/wiki/SSH/fr
Mac: https://support.apple.com/en-ca/guide/terminal/welcome/mac
Linux : OpenSSH fournit un client SSH

Client SSH

Un client SSH est un programme qui permet d’établir une connexion sécurisée avec des ordinateurs ou des serveurs distants en utilisant le protocole SSH (Secure Shell).

Pour la connexion SSH:

URL : login.ice.ulaval.ca

Nom d’utilisateur : votre IDUL (en minuscules)

Mot de passe : même mot de passe/NIP que pour les autres applications de l’Université Laval

Dans votre terminal, la commande ressemblera à (n’oubliez pas de changer «idul» par votre IDUL dans la commande):

ssh idul@login.ice.ulaval.ca

Si c’est votre première connexion, le message suivant pourrait s’affichera:

ssh idul@login.ice.ulaval.ca

The authenticity of host 'login.ice.ulaval.ca (132.203.223.10)' can't be established.

ED25519 key fingerprint is SHA256:UDED7Y6748tClCNOBId014dGUn0Jt1QEXt0swKD6lp0.

Are you sure you want to continue connecting (yes/no/[fingerprint])?

Écrivez yes, puis appuyez sur « enter ». Vous obtiendrez ensuite le message suivant lors de votre première connexion :

Warning: Permanently added 'login.ice.ulaval.ca,132.203.223.10' (ED25519) to the list of known hosts.

Pour terminer, votre mot de passe vous sera demandé:

$ ssh <idul>@login.ice.ulaval.ca
|
| Tout usage non autorisé ou illicite des ressources informatiques
| ou de télécommunications de l'Université Laval est défendu.
| Chaque usager de ces ressources doit se conformer aux règlements et aux politiques
| de l'Université ainsi qu'à la Loi, notamment en ce qui a trait à l'obligation de
| respecter les droits d'auteur, les droits des autres utilisateurs sur les réseaux
| et l'intégrité des systèmes.
|
| Il est strictement interdit d'accéder ou de tenter d'accéder à une ressource
| pour laquelle vous ne possédez aucun droit d'accès.
| --
| Unauthorized or illicit use of any computing or telecommunication resources is prohibited.
| Each user of these resources must comply to Laval University internal directives
| and policies and to, among other, the respect of copyrights, the respect of the rights of
| other user on networks and the respect of the integrity of computer based information resources.
|
| It is strictly prohibited to access or to try to access a resource without being authorized.
|
| https://www.ulaval.ca/fileadmin/Secretaire_general/Politiques/Politique_securite_de_l_information_19_mars_2013.pdf
| https://www.ulaval.ca/fileadmin/Secretaire_general/Reglements/reglement_utilisation_actifs_informationnels.pdf
|
<idul>@login.ice.ulaval.ca's password:

Ne soyez pas surpris, aucun caractère n’apparaîtra lorsque vous taperez votre mot de passe. Écrivez simplement votre mot de passe puis appuyez sur « enter » lorsque vous avez terminé.

Une fois votre mot de passe saisi, vous serez connecté(e) à un des nœuds frontaux:

<idul>@login.ice.ulaval.ca's password:
################################################################################

                                   Bienvenue

                  Infrastructure de calcul pour l'enseignement

################################################################################

Last login: Thu Dec 12 08:29:07 2024 from 132.203.87.144

Lmod is automatically replacing "intel/2020.1.217" with "gcc/9.3.0".

[<idul>@ulaval.ca@ul-ice-pr-ssh01 ~]$

Ici, l'exemple montre «ul-ice-pr-ssh01», mais «ul-ice-pr-ssh02» est tout aussi valide; la redirection sur les serveurs se fait de façon aléatoire. Par défaut, vous vous retrouvez dans votre dossier «HOME». Pour voir le contenu de ce dossier, vous pouvez taper la commande:

ls

Étape 3. Chargement du module personnalisé pour le cours¶

Un module a été créé spécifiquement pour les besoins du cours. Une fois connecté à la plateforme par la ligne de commande, le module peut être chargé à l'aide de la commande suivante:

module load enseignement/<sigle-de-votre-cours>

Sur Jupyter, le même module peut aussi être chargé, en allant dans l'onglet "Softwares" du menu de gauche :

Liste des modules Jupyter

Image 2. Liste des modules Jupyter

Vous aurez possiblement à faire une recherche pour trouver le module associé à votre cours. Par la suite, vous pourrez faire le chargement / «load» :

Jupyter module enseignement

Image 3. Module 'enseignement' disponible dans JupyterLab

Notez que le module doit être chargé avant la création/ouverture d'un notebook.

Votre environnement est désormais prêt. Vous pouvez commencer à utiliser les ressources de calcul GPU soit avec Jupyter (section 4), soit avec Slurm en mode «batch» (section 5).

Étape 4. Stockage et transfert de données vers la plateforme¶

Veuillez noter que pour le cours, vous avez chacun(e) accès à un espace de stockage de 50 Go. Ce stockage est accessible tant par l’entremise d’une session Jupyter (section 4) que par une connexion SSH au nœud frontal.

Lorsque vous arriverez dans votre espace de stockage, vous trouverez plusieurs emplacements/dossiers, mais les principaux à connaître sont:

HOME : Votre espace personnel, uniquement accessible par vous. Par défaut, vous êtes dans ce dossier lorsque vous ouvrez une session Jupyter ou que vous vous connectez en SSH au nœud frontal.

PROJECT : Votre espace partagé, lequel est accessible par les membres de votre équipe et par votre professeur(e). Il est important de déposer vos fichiers dans le sous-dossier associé à votre équipe, qui porte le numéro de votre équipe.

Il existe aussi un dossier "/public", qui est disponible en lecture par tous, pour le partage d'éléments communs.

Copies de sécurité

Nous vous rappelons que le stockage ne dispose pas de service de récupération ni de copies de sécurité (backup) et qu’il est de votre responsabilité de faire des sauvegardes de vos données (ex.: jeux de données, scripts, notebooks, etc.) sur vos propres outils de sauvegardes.

Transfert de données à partir de votre poste local¶

Selon la vitesse de votre connexion internet, le téléversement de fichiers volumineux (ex.: jeux de données de plusieurs Go) à partir de votre poste local peut être long. Dans la mesure du possible, nous vous recommandons d’effectuer ces transferts de données à partir du campus de l’Université Laval et avec une connexion filaire plutôt que sans-fil, afin d’obtenir les meilleures vitesses et performances possibles.

Vous pouvez téléverser des fichiers à partir de votre poste local vers votre espace de stockage par l’entremise d’une session Jupyter. Pour ce faire, naviguez à l’endroit où vous souhaitez téléverser le fichier, puis cliquez sur l’icône «Upload» dans le menu de gauche (voir image 4). Vous pouvez également faire un glisser et déposer (drag & drop) de votre poste vers le menu de gauche dans Jupyter.

Jupyter téléversement

Image 4. Téléversement d'un fichier vers votre stockage

Vous pouvez également télécharger sur votre poste local les données de votre stockage par l’entremise d’une session Jupyter. Pour ce faire, faites clic droit et « Télécharger » sur le fichier de votre choix dans le menu de navigation de gauche (voir image 5), ou bien, faites un glisser et déposer (drag & drop).

Jupyter téléchargement

Image 5. Téléchargement d'un fichier vers votre stockage local

Utilisation de données déjà présentes dans l’espace de stockage partagé (/public) de votre cours¶

Lorsque possible, il est préférable d’utiliser les jeux de données déjà présents sur la plateforme. Si votre professeur en a fait la demande, certains jeux de données spécifiques à votre cours ont déjà été déposés dans le dossier partagé /public/enseignement/<sigle-de-votre-cours>/datasets/. Vous pouvez charger les jeux de données directement de cet emplacement.

Téléchargement de données disponibles publiquement sur internet directement sur la plateforme¶

Si les jeux de données que vous souhaitez utiliser sont disponibles publiquement sur internet, il est préférable de les télécharger directement par l’entremise de la plateforme, plutôt que de les télécharger localement sur votre poste, puis de les téléverser sur le stockage. Pour télécharger un jeu de données disponible sur internet directement sur la plateforme, vous pouvez utiliser la commande wget, qui est déjà installée sur la plateforme:

cd chemin/vers/dossier/cible
wget <url-ensemble-de-données>

Une fois le téléchargement terminé, votre ensemble de données est disponible dans le dossier que vous avez sélectionné avec la première commande.

Étape 5. Utilisation de modèles et d'ensemble de données de Hugging Face¶

La plateforme Web Hugging Face est accessible à partir de la plateforme pour le téléchargement de modèles ou d'ensemble de données.

Les étapes nécessaires pour l'installation du client en ligne de commandes sont les suivantes:

module load StdEnv/2023
module load python/3.12.4
python -m venv venv
source venv/bin/activate
pip install --upgrade pip
pip install "huggingface_hub[cli]"

Dans l'interface Web de Hugging Face, vous devrez vous créer un jeton (token) d'accès, avec minimalement un accès 'read'. Par la suite, pour vous authentifier à partir de la plateforme:

huggingface-cli login

Vous devrez répondre à certaines questions pour compléter l'authentification.

Finalement, voici deux exemples d'utilisation, pour un ensemble de données (MNIST) et un modèle pré-entrainé (vit-base-mnist) :

huggingface-cli download ylecun/mnist --repo-type dataset --local-dir ylecun-mnist
huggingface-cli download farleyknight-org-username/vit-base-mnist --local-dir sample-mnist-model

Étape 6. Création et utilisation d'un kernel Jupyter personnalisé¶

Si le module enseignement/<sigle> préparé pour votre cours ne convient pas à votre utilisation, il est possible de créer un kernel Jupyter personnalisé. À noter que la création d'un kernel n'est possible qu'à partir d'un accès SSH ou par un terminal dans Jupyter.

La première étape consiste à créer un environnement virtuel Python:

module load python/3.13.2
python -m venv venv
source venv/bin/activate
pip install --upgrade pip ipykernel
pip install torch torchvision
python -m ipykernel install --name kernel-custom --user

Dans l'exemple, torch et torchvision sont installés, mais vous pouvez ajouter tous les packages dont vous avez besoin avec la commande pip install <...>. Aussi, l'exemple crée le kernel avec le nom kernel-custom; vous pouvez donner le nom que vous souhaitez au lieu de ce nom.

Après ces étapes effectuées, le kernel est disponible dans JupyterLab, dans l'onglet en haut à droite.

4. Utilisation du calcul GPU ou CPU avec Jupyter¶

Étape 1. Lancement d’une session JupyterLab¶

Pour utiliser le calcul GPU ou CPU avec Jupyter, la première étape est de lancer une session JupyterLab en saisissant directement l'adresse https://jupyter.ice.ulaval.ca/ dans votre navigateur.

JupyterHub permet de lancer votre session JupyterLab sur un serveur de calculs. Vous pouvez y réserver les ressources désirées, ainsi que sélectionner la version de Python à utiliser. Par défaut, la version la plus récente est sélectionnée.

Lorsque vous lancez la session Jupyter, vous pouvez choisir plusieurs paramètres dans la fenêtre intitulée « Server options » (voir image 6) :

Nombre de cœurs: Nous vous recommandons de commencer avec 4 cœurs, et d’augmenter au besoin.
Mémoire (MB): Nous vous recommandons de commencer avec 8 à 16 Go (8192 à 16 384 MB), et d’augmenter au besoin.
Configuration GPU: Sélectionnez l’option « 1 x INTERACTIVE_GPU » afin de lancer une session avec un GPU si requis. Vous pouvez aussi lancer une session sans GPU en sélectionnant « NONE ».
Compte: Par défaut, le compte devrait débuter par «ens». Si ce n’est pas le cas, choisissez l’option débutant par «ens» et qui correspond au numéro de votre équipe dans le menu déroulant.
Temps en heures: Sélectionnez la durée de session Jupyter désirée. La durée permise va de 1 à 24 heures par incrément de 1 heure.
Interface utilisateur: Sélectionnez la version de Python (la plus récente) ou un module fait par l'équipe d'administrateurs (voir Étape 4, section 3)

Juphub srv options

Image 6. Page d'options du serveur Jupyter

Une fois toutes ces options configurées, cliquez sur le bouton «Démarrer» pour lancer votre session Jupyter. Il est normal qu’il y ait un temps de chargement pouvant atteindre 2 ou 3 minutes; en arrière-plan, une requête d’allocation à l’ordonnanceur Slurm est effectuée (voir image 7).

Image 7. Page de chargement d'une session Jupyter

JupyterLab est l'interface utilisateur générale recommandée. Vos fichiers et répertoires distants peuvent être gérés directement à partir de Jupyter et vous pouvez lancer des applications comme un terminal, des notebooks, RStudio et plusieurs autres. Une fois le notebook lancé, vous pouvez changer le noyau en utilisant «Kernel» puis «Change Kernel».

Juphub session

Image 8. “Hub“ de la session Jupyter

Étape 2. Création d’un «notebook» (si requis)¶

Les notebooks Jupyter sont fréquemment utilisés pour effectuer de l'analyse interactive en Python. Ce sont des cahiers électroniques qui, dans un même document, peuvent rassembler du texte, des images, des formules mathématiques et du code informatique exécutable.

Si vous souhaitez créer un nouveau notebook, il suffit de cliquer sur la pastille avec la version de Python désirée; la création est effectuée dans le dossier courant.

Les notebooks sont composés de cellules qui contiennent généralement du code ou du contenu formaté au format Markdown, qui est un langage de balisage léger.

Il est également possible de lancer une console Python interactive en cliquant sur la pastille, sous «Console» dans le menu du Launcher dans votre session JupyterLab.

Ressources supplémentaires pour Jupyter¶

Dans le cas où vous auriez besoin de consulter rapidement de l'aide sur une librairie, le menu d'aide (Help) dans Jupyter vous permet de consulter la documentation concernant les principales librairies disponibles.

Pour plus d’informations, ces références pourront également vous être utiles :

5. Utilisation du calcul GPU ou CPU avec Slurm (mode «batch»)¶

Dans le cas de tâches de calcul intensives, une fois que vos scripts d’entraînement sont prêts, il est généralement préférable de les exécuter en mode «batch» dans Slurm. La partition par défaut (“batch_gpu”) de Slurm est limitée à une durée de 48 heures.

Si votre projet ne nécessite pas de GPU, vous pouvez utiliser "batch_cpu".

Étape 1. Préparer votre script de soumission¶

Pour lancer des tâches avec Slurm, il vous faut utiliser des scripts de soumission pour adéquatement paramétrer les tâches.

Dans votre script de soumission, vous devez vous limiter à 1 GPU, sinon votre tâche ne démarrera pas. Vous devez aussi absolument utiliser des «shards». Le nombre de «shard» correspond à la capacité de GPU demandée. La valeur possible varie de 1 à 4 shards. Toutefois, nous vous demandons de limiter le nombre de shards demandés à vos besoins réels afin de permettre une utilisation équitable des ressources de calcul avec les autres utilisateurs. Nous vous proposons de commencer par deux shards, puis d’augmenter progressivement au besoin.

Un exemple de script de soumission Slurm ressemblerait à ceci (script.sh) :

#!/bin/bash

#SBATCH --time=0-01:00:00
#SBATCH --cpus-per-task=2
#SBATCH --mem=4G
#SBATCH --partition=batch_gpu
#SBATCH --gres=shard:2

module load enseignement/<sigle-de-votre-cours>

# Activer l'environnement virtuel, si nécessaire
source venv/bin/activate

# Insérer vos traitements ici...
python script.py

Étape 2. Soumettre votre script à Slurm¶

Une fois votre script de soumission prêt, vous pourrez soumettre votre tâche sur un nœud de connexion avec la commande «sbatch»:

sbatch script.sh

Tous les paramètres possibles d’un script Slurm sont disponibles ici: https://slurm.schedmd.com/sbatch.html.

Vous pouvez afficher vos tâches actives avec la commande:

sq

Ressources supplémentaires pour Slurm¶

Pour plus d’informations, ces références pourront également vous être utiles :

6. Foire aux questions¶

Je rencontre un bogue lors de l’utilisation de Jupyter ou Slurm. Que dois-je faire ?¶

Référez-vous à la section 2 du présent guide.

Je n’arrive pas à me connecter en ssh à la plateforme, j’obtiens un message d’erreur. Pourquoi ?¶

Si vous obtenez le message d’erreur suivant :

ssh: connect to host login.ice.ulaval.ca port 22: Connection timed out

C’est probablement parce que vous êtes connecté(e) à un réseau internet hors du campus, mais que vous ne vous êtes pas connecté(e) au VPN ULaval. Assurez-vous de vous connecter au VPN avant d’essayer de vous connecter en SSH à la plateforme.

Voir «Étape 1. Connexion au VPN de l'Université Laval» dans la section 3 de ce guide.

Mon script fonctionne lorsque je le lance dans Jupyter, mais pas dans Slurm. Pourquoi ?¶

Dans ce cas de figure, la principale cause du problème est généralement la présence de librairies dans Jupyter uniquement. Il faut donc vous assurer de créer un environnement virtuel sur la plateforme de calcul (voir «Étape 2. Connexion SSH aux serveurs» dans la section 3 de ce guide) et de l’activer (‘source venv/bin/activate’ dans l’exemple de «Création d’un environnement virtuel»).

Je rencontre des difficultés pour installer un module ou une librairie en créant mon environnement virtuel. Que dois-je faire ?¶

Référez-vous à la section 3 du présent guide ("Étape 3. Chargement du module personnalisé pour le cours"). Si vos problèmes persistent, référez-vous à la section 2 du présent guide. Au besoin, vous pouvez écrire à sse.aide@ulaval.ca.

L’espace de stockage de 50 Go est insuffisant pour mes besoins. Que dois-je faire ?¶

Si l’espace de stockage de 50 Go qui vous a été octroyé par défaut est insuffisant pour vos besoins, il est possible de l’augmenter. Écrivez-nous à sse.aide@ulaval.ca pour en faire la demande.

Comment puis-je fermer ma session Jupyter si je ne l’utilise plus ?¶

Pour fermer votre session Jupyter, vous pouvez cliquer sur «Fichier» (File) en haut à gauche, puis sur «Panneau de contrôle du Hub» (Hub Control Panel). Cliquez ensuite sur le bouton «Arrêter mon serveur» (Stop My Server). Votre session Jupyter est maintenant fermée.

Jup hub control

Image 9. Panneau de contrôle du Hub

Jup loading

Image 10. Arrêt d'un serveur

Comment puis-je annuler une tâche avec Slurm si j’ai fait une erreur ?¶

Entrez d’abord la commande «sq» pour trouver le numéro ("JobID") de votre tâche. Vous pourrez identifier vos tâches parmi la liste des résultats, en regardant les colonnes «User», «Account» et «Name».

Une fois que vous avez identifié le «Jobid», vous pouvez saisir la commande «scancel» suivie du numéro (JobID) correspondant à votre tâche afin d’annuler la tâche souhaitée.

J’ai une erreur «Timeout» lorsque je lance une session Jupyter. Que dois-je faire ?¶

Si vous obtenez l’erreur «Timeout», cela indique un manque de ressources de calcul sur la plateforme. Veuillez réessayer plus tard. Si l’erreur persiste, veuillez contacter sse.aide@ulaval.ca.

Jup timeout

Image 11. Erreur "Timeout"

Puis-je dépasser la durée de ma session interactive Jupyter ?¶

Non, vous ne pouvez pas dépasser la durée d’une session Jupyter. La durée de session choisie lors de la configuration initiale ne peut pas être modifiée en cours de travail. À la fin de la session, l’état d’avancement de vos travaux sera conservé et vous pourrez en relancer une nouvelle. Si vous lancez un entraînement dont la durée dépasse la durée restante pour votre session Jupyter, celui-ci sera interrompu lorsque la session Jupyter expirera. Vous devrez le recommencer dans une nouvelle session.

Je ne trouve plus ma session Jupyter. Où est-elle ?¶

Si vous ne parvenez plus à accéder à votre session Jupyter, cela indique que votre session a probablement expiré. Veuillez en lancer une nouvelle.

Comment puis-je sauvegarder mes travaux / fichiers / etc. ?¶

Vos travaux sur Jupyter sont continuellement enregistrés en temps réel. Les sections de type «output» sont sauvegardées elles aussi. Vous pouvez également sauvegarder manuellement en cliquant sur «Fichier» (File) puis sur «Sauvegarder Notebook» (Save Notebook) dans votre session Jupyter.

Qu’arrive-t-il si je dépasse le ratio CPU (coeurs)/mémoire (RAM)/GPU disponible pour ma session ?¶

Dans le cas d’un dépassement pour le CPU ou le GPU, ceci ne devrait pas avoir d’implication si les ressources sont disponibles. Dans le cas de la mémoire (RAM), votre session/tâche sera interrompu.

Comment puis-je vérifier l’utilisation des ressources pendant que je réalise mes tâches de calcul ou mes entraînements ?¶

Plusieurs commandes Linux vous permettent de vérifier l’utilisation des ressources lors de vos entraînements.

nvidia-smi: Cette commande permet de voir les GPU actifs et les processus attachés. Vous devez être connecté au nœud de calcul où votre tâche s’exécute.
top ou htop: Ces deux commandes permettent de voir les processus actifs sur un serveur. Notes: ces commandes affichent tous les processus qui s’exécutent sur un serveur, pas seulement les vôtres. Ici aussi, vous devez être connecté au nœud de calcul où votre tâche s’exécute.
sq: Cette commande affiche vos tâches sur l’ordonnanceur Slurm.
squeue: Cette commande affiche toutes les tâches sur l’ordonnanceur Slurm.

Pour plus de commandes disponibles avec Slurm, consultez cette page.

Pour la surveillance d’une tâche en cours, consultez cette page.

J’aimerais utiliser les ressources de calcul GPU ou CPU de la plateforme et les divers outils et ressources de la plateforme au-delà de ce cours. Est-ce possible ?¶

Vous êtes invités à nous contacter en écrivant à sse.aide@ulaval.ca afin d’exprimer votre intérêt. Bien que nous ne puissions garantir un accès immédiat, votre contribution nous aidera à évaluer la demande.