+

+1

Un vote en faveur de quelque chose.

A

abandonware

Un logiciel qui n’est plus maintenu.

affordance

La caractéristique d’un objet qui suggère à son utilisateur son mode d’usage ou autre pratique.

agrégation

Synthétise plusieurs valeurs en une seule, example, en sommant plusieurs nombres ou en concaténant un ensemble de caractères.

algorithme

Un algorithme est un ensemble d’étapes ou de règles à suivre pour réaliser une certaine tâche. En informatique, un algorithme est un ensemble d’instructions présentes dans un programme qui permet de résoudre un problème informatique.

aliasing

Le fait d’avoir deux ou plusieurs références au même objet, comme par exemple une structure de données en mémoire ou un fichier sur disque.

ancre

C’est un symbole utilisé dans les expressions régulières (#regular_expression) afin de déterminer une position sans pour autant identifier des charactères. ^ détermine le début d’une ligne, tandis que $ détermine sa fin. \b identifie un espace entre un mot et un non-mot.

anti join

Une jointure qui conserve les lignes de la table A dont les clés ne correspondent pas aux clés de la table B.

append mode

Le fait d’ajouter des données à la fin d’un fichier existant au lieu d’écraser le contenu précédent de ce fichier. L’écrasement est la valeur par défaut, donc la plupart des langages de programmation exigent que les programmes soient explicites sur le fait de vouloir ajouter des données à la place.

argument

Un argument est une expression donnée passée à une fonction. Ce terme ne doit pas être confondu avec paramètre, et n’en est pas un synonyme. Alors qu’un paramètre est une variable, un argument est une valeur associée à cette variable.

arguments en nombre variable

La possibilité d’intégrer n’importe quel nombre d’arguments dans une fonction. R utilise ... afin de capturer les arguments “additionnels”. Python utilise *args et **kwargs pour capturer respectivement les paramètres “additionnels” nommés et non nommés.

ASCII

Une norme informatique de codage qui représente les caractères couramment utilisés dans les langues d’Europe occidentale à 7 ou 8 bits, aujourd’hui largement remplacé par Unicode.

asynchrone

Qui ne se produit pas en même temps. En programmation, une opération asynchrone est une opération qui s’exécute indépendamment d’une autre, ou qui commence à un moment et se termine à un autre.

attribut

Un couple nom-valeur associé à un objet et utilisé pour stocker des métadonnées concernant ce dernier, par exemple les dimensions d’un tableau.

auto-complétion

Une fonctionnalité permettant à l’utilisateur de finir rapidement un mot ou du code à travers l’utilisation de la touche TAB qui affiche le mot ou le code susceptible d’être choisi par l’utilisateur.

autocorrélation

Le degré de similarité entre les observations d’une même série mais séparées par un intervalle de temps (appelé « décalage »). L’analyse d’autocorrélation peut être utilisée pour mieux comprendre les ensembles de données de séries chronologiques en détectant des modèles répétitifs qui peuvent être partiellement masqués par un bruit aléatoire.

B

backpropagation

C’est un algorithme qui ajuste de manière itérative les pondérations utilisées dans un réseau de neurones. La rétropropagation est souvent utilisée pour implémenter la descente de gradient.

base de données NoSQL

Une base de données qui ne suit pas le modèle relationnel, ainsi nommée car n’utilisant en principe pas le langage de requête SQL.

base de données relationnelle

Une base de données dont le contenu est organisé sous forme de tables, chacune avec un ensemble déterminé de champs (représentés sous forme de colonnes) et un nombre variable d’entrées (représentées sous forme de lignes).

base R

Les fonctions de base composant le langage R. Les packages de base peuvent être trouvés dans src/library et ne sont pas mis à jour en dehors de R; leurs numéros de version suivent la numérotation des versions R. Les packages de base sont installés et chargés avec R, tandis que les packages prioritaires sont installés avec base R mais doivent être chargés avant utilisation.

bias

Une statistique est biaisée si elle est systématiquement ou régulièrement différente du paramètre qu’elle est censée estimer.

bibliothèque

Un paquet logiciel réutilisable, parfois aussi appelé module.

big data

Toutes les données qui, jusqu’à récemment, étaient trop volumineuses pour que la plupart des gens puissent les utiliser sur un seul ordinateur.

binaire

Un système qui peut avoir l’un des deux états possibles. En informatique souvent représenté comme étant à l’état 0 ou 1. Représenté en logique booléenne comme faux (0) ou vrai (1). Les ordinateurs sont construits sur des systèmes qui stockent les 0 et les 1 sous forme de bits.

bit

Une unité d’information ne pouvant prendre que deux valeurs, souvent désignées par les alternatives oui/non ou vrai/faux. En informatique cela représente un état de 0 ou 1.

C

causalité

Une relation entre des événements distincts, où il est affirmé qu’un événement est responsable de produire ou d’affecter un changement dans l’autre.

champ

Composant d’une entrée contenant une seule valeur. Chaque entrée dans une tibble ou table de base de données contient les mêmes champs.

chemin d'accès absolu

Un chemin d’accès absolu indique la même position dans le système de fichier quel que soit l’emplacement où il est evalué. Un chemin d’accès absolu est l’équivalent de la latitude et longitude en géographie.

chemin d'accès relatif

Un chemin d’accès dont la destination est définie relativement à un autre emplacement, par exemple le répertoire de travail actuel. Utiliser un chemin relatif équivaut à se déplacer à l’aide d’instructions telles que “tout droit” ou “tourner à gauche”.

coefficient de corrélation

Une mesure de la corrélation entre deux variables. Si le coefficient de corrélation entre X et Y vaut 1.0, alors connaître X permet de connaître parfaitement Y. Si le coefficient de corrélation vaut 0.0, alors connaître X ne nous dit rien sur Y. Enfin, si le coefficient de corrélation vaut -1.0, alors X permet de prédire Y, mais un changement en X cause un changement opposé sur Y.

commentaire

Texte écrit dans un script, qui n’est pas évalué lors de l’exécution du code. Il est utilisé pour décrire ce qui se passe lorsque le code est évalué. Les commentaires sont en général des notes brèves, qui commencent après un # (dans plusieurs langages de programmation)

constante

Une valeur qui ne peut pas être modifiée après avoir été définie, par opposition à une variable.

corrélation

Mesure à quel point deux variables sont en accord l’une avec l’autre. La corrélation est habituellement mesurée en calculant un coefficient de corrélation et n’implique pas nécessairement un lien de causalité.

covariance

Mesure à quel point deux variables sont en accord l’une avec l’autre. Le coefficient de corrélation est une mesure normalisée de la covariance.

D

développement agile

Une méthodologie de développement logiciel qui privilégie de nombreuses petites étapes et une rétroaction continue plutôt que la planification initiale et la programmation à long terme. La programmation exploratoire est souvent associée à l’approche agile.

E

entrée

Un groupe de valeurs liées qui sont enregistrées ensemble. Une entrée peut être représentée comme un tuple ou une ligne dans une table; dans ce dernier cas, chaque entrée dans la table comporte les mêmes champs.

environnement

Une structure qui stocke un ensemble de noms de variables et les valeurs qui leur sont associées.

environnement global

L’environnement qui contient des définitions de premier niveau dans un langage de programmation, par exemple celles écrites directement dans l’interpréteur.

erreur absolue

La valeur absolue de la différence entre la valeur observée et la valeur correcte. L’erreur absolue est généralement moins pertinente que l’erreur relative.

erreur relative

La valeur absolue de la différence entre la valeur observée et la valeur correcte, divisée par la valeur correcte. Par exemple, si la valeur observée est 9 et la valeur correcte est 10, l’erreur relative est 0.1. L’erreur relative est généralement plus utile que l’erreur absolue.

F

Feuilles de Style en Cascade

Une manière de contrôler l’apparence du rendu HTML. Le CSS est généralement utilisé dans le but de spécifier les polices, les couleurs ainsi que la structure d’une page web.

filtrer

Le fait de sélectionner un ensemble d’observations (par exemple certaines lignes d’une table) en se basant sur leurs valeurs.

fonction anonyme

Une fonction qui ne s’est pas vue assignée de nom. Les fonctions anonymes sont en général courtes et définies là où elles sont utilisées, exemple: callbacks. En Python, elles sont appelées fonctions lambda et sont créées en utilisant le mot-clé lambda.

fonction d'agrégation

Une fonction qui permet de synthétiser plusieurs valeurs en une seule, comme par exemple ‘sum’ ou ‘max’.

fonction générique

Une collection de fonctions ayant un objectif similaire, chacune opérant sur une classe de données différente.

G

Git

Un outil de gestion des versions qui permet d’enregistrer et de piloter les modifications effectuées au niveau d’un projet.

Git branch

Une photographie d’une version d’un dépôt Git. Plusieurs branches peuvent capturer plusieurs versions au niveau d’un même dépôt.

Git clone

Permet de copier (et généralement de télécharger) un dépôt Git distant sur l’ordinateur local.

Git pull

Télécharge et synchronise les modifications entre le dépôt distant et le dépôt local.

Git push

Charge et synchronise des modifications entre le dépôt local et le dépôt distant.

GitHub

Une platefome dans le Cloud, construite autour de Git qui permet de sauvegarder en ligne les versions d’un projet et de collaborer avec d’autres utilisateurs Git.

I

installation globale

Le fait d’installer un package dans un emplacement où il peut être accessible par tous les utilisateurs ainsi que tous les projets.

installation locale

Mettre un paquet à l’intérieur d’un projet particulier, de façon à ce qu’il ne soit accessible que depuis ce projet.

Interface de Programmation d'application

Un ensemble de fonctions et de procédures fournies par une bibliothèque de logiciels ou un service web par lequel une autre application peut communiquer. Une API n’est ni le code, ni la base de données ni le serveur, mais le point d’accès.

J

JavaScript Object Notation

Un façon de représenter des données textuelles ou numériques en combinant des ensembles de paires nom/valeurs et des listes de valeurs. L’acronyme signifie “JavaScript Object Notation”, car il s’agit d’un format dérivé de la notation des objets du langage JavaScript. Contrairement à d’autres standards plus structurés comme XML, JSON ne permet pas de définir un schéma de données, ni ne supporte l’ajout de commentaires.

L

langage de balisage

Un ensemble de règles pour annoter un texte afin d’en définir la structure ou d’en modifier l’affichage. Des balises déterminent comment le texte qu’elles délimitent doit être interprété ou affiché. Le Markdown et HTML sont des exemples de langages de balisage utilisés pour des pages web.

LaTeX

Un système de composition de documents qui utilise un langage de balisage pour définir la structure et mise en page d’un document, composer des formules mathématiques et gérer citations et références. Le format LaTeX est très utilisé dans les domaines scientifiques et techniques pour la production d’articles et de mémoires.

M

Markdown

Un langage de balisage à la syntaxe simple visant à remplacer HTML. Markdown est souvent utilisé dans les fichiers LISEZ MOI (README), et forme la base du R markdown.

méthode abstraite

En programmation orientée objet, une méthode définie mais non implémentée. Les programmeurs définissent une méthode abstraite dans une classe parente pour spécifier les opérations que les classes enfants doivent fournir.

module

Un paquet logiciel réutilisable, parfois aussi appelé bibliothèque.

moyenne arithmétique

Calculé à partir d’un ensemble de n nombres en additionnant ces nombres et en divisant le résultat par n.

N

NA

Une valeur spéciale utilisée pour représenter des données qui ne sont pas disponibles.

null

Une valeur spéciale utilisée pour représenter l’absence de valeur. Null n’est pas équivalent à NA, ni à un vecteur vide.

numéro de ligne absolu

L’index séquentiel d’une ligne dans une table, quelles que soient les sections de la table affichées.

O

observation

Une valeur ou une propriété associée à un membre spécifique d’une population.

octet

Un octet est une information numerique composée de huit chiffres binaires, appelés bits.

P

paquet (logiciel)

Un ensemble de code, données et documentation qui peut être distribué et réutilisé. Est aussi appelé bibliothèque ou module dans certains langages.

paramètre

Une variable spécifiée dans la définition d’une fonction, dont la valeur est passée à la fonction lorsque celle-ci est appelée. À ne pas confondre avec le terme argument. Un paramètre est une variable, un argument est une valeur assignée à cette variable.

Précision

L’exactitude et la précision sont deux façons de mesurer les résultats. L’exactitude mesure à quel point les résultats sont proches de la valeur vraie ou connue. La précision, quant à elle, mesure la proximité des résultats les uns par rapport aux autres.

programmation lettrée

Une approche de la programmation qui mélange langage naturel (prose) et code.

Python

Un langage de programmation open-source interprété populaire qui utilise l’indentation pour définir les structures de contrôle.

R

R (langage de programmation)

Un langage de programmation et logiciel libre principalement utilisé en statistique et en science des données.

R Markdown

Un dialecte de Markdown qui permet à ses auteurs de mélanger langage naturel et code (habituellement écrit en langage R) dans un même document.

récursion

Faire appel à une fonction au sein de cette même fonction, ou définir un terme en utilisant une version simplifiée du même terme.

règle de 68-95-99.7

Exprime le fait que 68% des valeurs sont localisées à l’intérieur d’un (1) écart-type de la moyenne, 95% à l’intérieur de deux (2) écarts-types, et 99,7% à l’intérieur de trois (3) écarts-types. Inversement et dans la plupart des cas, environ 0.3% des valeurs se situent à plus de 3 écarts-types au-dessus ou au-dessous de la moyenne.

répertoire de travail

L’emplacement du système de fichiers dans lequel le programme en cours est en train d’opérer. Chaque opération effectuée par le programme se fait relativement à cet emplacement.

résultat réel (du test)

La valeur générée par l’exécution du code lors d’un test. Si elle correspond au résultat attendu, le test réussit ; s’ils sont différents, le test échoue.

rétrocompatible

Se dit d’un système, matériel ou logiciel, qui est capable d’être utilisé de la même manière que ses versions précédentes sans difficulté. Par exemple, une fonction écrite en Python 3 qui peut être utilisée avec Python 2 est rétrocompatible.

S

schéma

Spécification du format d’un ensemble de données qui inclut le nom, format et contenu de chaque table.

SQL

Langage employé pour composer des requêtes dans une base de données relationnelle. Le terme est l’acronyme de “Structured Query Language” (langage de requête structuré).

synchrone

Qui se produit en même temps. En programmation, des opérations synchrones sont des opérations qui doivent s’exécuter simultanémment ou se terminer en même temps.

système de gestion des versions

Un système qui permet de gérer les modifications effectuées sur un programme durant son développement.

T

table

Une série d’entrées dans une base de données relationnelle ou d’observations dans une trame de données. Une table est généralement représentée sous la forme de lignes (où chacune représente une entrée ou observation) et colonnes (où chacune représente un champ ou une variable).

tibble

Une alternative moderne du “data frame” en R permettant de matérialiser des données tabulaires en colonnes et en lignes. Le “tibble” a été défini et est utilisé dans le tidyverse.

Tidymodels

Une collection de packages R pour la modélisation et l’analyse statistique, élaborés en prenant en considération une philosophie partagée

Tidyverse

Une collection de packages R permettant le traitement des données tabulaires d’une manière cohérente.

trame de données

Une structure bi-dimensionnelle pour enregistrer des données tabulaires. Les lignes représentent les entrées et les colonnes représentent les variables.

tuple

Un type de donnée correspondant à une collection d’objets en nombre fixé, par exemple les trois composantes de la spécification rouge-vert-bleu d’une couleur. En “Python”, les tuples sont immuables (leurs valeurs sont fixées à l’initialisation et ne peuvent plus être modifiées par la suite). Les tuples contenant n objets sont aussi appelés n-uplets.

U

Unicode

Une norme qui définit des codes numériques pour plusieurs milliers de caractères et de symboles. Unicode ne définit pas comment ces nombres sont stockés ; cela est fait par des normes comme UTF-8.

V

variable (programme)

Un nom associé à des données au niveau d’un programme. La valeur d’une variable peut être modifiée après l’avoir définie.

variable globale

Une variable définie en dehors de l’espace de noms d’une quelconque fonction, qui est par conséquent visible pour toutes les fonctions.

variable locale

Une variable définie à l’intérieur d’une fonction, qui n’est visible qu’au sein de cette fonction.

vecteur vide

Un vecteur qui ne contient aucun élément. Les vecteurs vides possèdent un type, par exemple entier ou caractère, et sont différents de null.

X

XML

Un format de représentation de données qui définit des balises similaires à celles utilisées en HTML. XML était populaire au début des années 2000 mais sa complexité a conduit de nombreux dévelopeurs à utiliser JSON à la place.

Y

YAML

Acronyme récursif de “YAML Ain’t Markup Language” (“YAML n’est pas un langage de balisage”), YAML est un format de représentation de données hiérarchiques qui utilise des indentations au lieu de signes typographiques, comme les parenthèses et virgules en JSON. YAML est souvent utilisé dans les fichiers de configuration et pour définir les paramètres de documents Markdown.