A

abandonware

Software que não é mais mantido.

agregação

Combinar vários valores em um, por exemplo, somando um conjunto numérico ou concatenando um conjunto de caracteres.

agrupamento

O processo de dividir os dados em grupos quando os grupos em si não são conhecidos antecipadamente.

algoritmo

Um algoritmo é um conjunto de etapas, instruções ou regras a serem seguidas para realizar uma tarefa específica. Na ciência da computação, um algoritmo é um conjunto de instruções em um programa de computador que resolve um problema computacional.

Â

âncora

Em uma expressão regular, é um símbolo que fixa uma posição sem caracteres correspondentes. ^ identifica o começo de uma linha, enquanto $ indica o fim de uma linha e \b identifica uma quebra entre caracteres que formam e que não formam uma palavra.

A

argumento

O termo não deve ser confundido com, e não é sinônimo de, parâmetro. Um argumento é uma das possíveis expressões que são passadas para uma função. É o valor real que é transmitido. Parâmetros e argumentos são conceitos distintos, mas relacionados. Parâmetros são variáveis e argumentos são os valores atribuídos a essas variáveis.

auto-completar

Uma funcionalidade que permite a pessoa usuária terminar uma palavra ou código rapidamente ao pressinar a tecla TAB para listar possíveis palavras ou códigos que podem ser escolhidos.

B

biblioteca

Um pacote de programas reutilizáveis, também frequentemente referido como um módulo.

binário

Um sistema que pode ter dois estados possíveis. Em computação, frequentemente sendo no estado 0 ou 1. Representado na lógica Booleana como falso (0) ou verdadeiro (1). Computadores são construídos sobre sistemas que armazenam 0s e 1s como bits.

bit

Uma unidade de informação representando alternativas, sim/não, verdadeiro/falso. Em computação, um estado de 0 ou 1.

bloco de comentário

Um comentário que abrange múltiplas linhas. Blocos de comentários podem ser indicados com símbolos especiais, como /* e */ em C e linguagens herdeiras dessa sintaxe, ou cada linha pode ser prefixada com uma indicação como #.

Booleano

Relacionado a uma variável ou tipo de dado que pode ter um valor lógico de verdadeiro ou falso. Nomeado em referêcia à George Boole, um matemático do século XIX. Sistemas binários, como todos os computadores, são construídos com base em sistemas de avaliação entre estados de verdadeiro e falso, 0 ou 1.

C

caminho absoluto

Um caminho que leva ao mesmo local no sistema de arquivos independente do contexto em que é avaliado. Um caminho absoluto pode ser comparado com a latitude e longitude em geografia.

caminho relativo

Um caminho cujo destino é interpretado de maneira relativa a outro local, como o diretório de trabalho. Um caminho relativo é o equivalente a indicar um destino com termos como “siga em frente” e “vire a esquerda”.

CC-0

Uma licença Creative Commons que não impõe qualquer tipo de restrição, consequentemente colocando o trabalho em domínio público.

CC-BY

Uma licença Creative Commons com Atribuição, que requer que seja dado crédito às pessoas autoras do trabalho, mas que não impõe outras restrições.

centróide

O centro ou âncora de um grupo criado por um algoritmo de agrupamento.

ciência de dados

A combinação de estatística, programação e trabalho duro usados para extrair conhecimento a partir de dados.

cientista de dados

Alguém que usa habilidades de programação para resolver problemas estatísticos.

classe base

Em programação orientada a objetos, a classe a partir da qual outra classe (chamada classe derivada) é produzida.

classe derivada

Em programação orientada a objetos, a classe derivada de uma outra classe (chamada de classe base).

coeficiente de correlação

Uma medida do quão bem duas variáveis estão correlacionadas. Se o coeficiente de correlação entre X e Y for 1.0, conhecer X permite uma previsão perfeita de Y. Se o coeficiente de correlação for 0.0, conhecer X não diz nada a respeito de Y, e se for -1.0, então X prevê Y, mas mudanças no valor de X gera uma mudança oposta em Y.

comentário

Texto escrito em um script que não é tratado como código a ser executado, e sim como texto que descreve o que o código está fazendo. Normalmente é formado por notas curtas, frequentemente começando com um # (em várias linguagens de programação).

comentário de linha

Um comentário em um programa que abrange parte de uma única linha, em contraste a um bloco de comentário que pode abranger mútiplas linhas.

compatibilidade reversa

Software que pode ser usado da mesma maneira que versão anteriores de si mesmo sem problemas. Também é chamado de retrocompatibilidade.

correlação

O quão bem duas variáveis concordam uma com a outra. A correlação é normalmente medida pelo cálculo de um coeficiente de correlação, e não significa que precise existir causalidade.

covariância

O quão bem duas variáveis concordam uma com a outra. O coeficiente de correlação é uma medida normalizada da covariância.

curinga

Um curinga, ou caracter curinga, é um caracter que corresponde a qualquer texto, como o * em *.csv (que corresponde a qualquer arquivo cujo nome termina em *.csv).

D

decrementar

Uma operação unária que diminui o valor de uma variável, geralmente em um.

depurar

Em um ambiente de computador, ‘debug’ refere-se ao processo de encontrar e resolver erros (também conhecidos como ‘bugs’) em programas ou sistemas de computador.

desenvolvimento ágil

Um método de desenvolvimento de software que enfatiza vários passos pequenos e feedback contínuo ao invés de planejamento de longo prazo. Programação exploratória costuma ser ágil.

desvio padrão

O quanto os valores de um conjunto de dados diferem da média. É calculado como a raiz quadrada da variância.

diretório de trabalho

O local, pasta ou diretório, em que o programa está operando. Qualquer ação do programa acontece relativa a esse diretório.

distribuição binomial

Uma distribuição de probabilidade que emerge quando há um número fixo de tentativas, cada uma das quais podendo produzir um de dois resultados e quando a probabilidade destes resultados não muda. Na medida em que o número de tentativas aumenta, a distribuição binomial se aproxima da distribuição normal.

distribuição normal padrão

Uma distribuição normal com uma média 0 e um desvio padrão de 1. Valores de distribuições normais com outros parâmetros podem ser facilmente redimensionados para obter-se uma distribuição normal padrão.

E

erro absoluto

O valor absoluto da diferença entre um valor observado e o valor correto. O erro absoluto é normalmente menos útil do que o erro relativo.

erro relativo

O valor absoluto da diferença entre um valor observado e o valor correto, dividido pelo vaor correto. Por exemplo, se o valor observado é 9 e o correto é 10, o erro relativo é 0.1. Erro relativo é normalmente mais útil do que o erro absoluto.

espaço em branco

O espaço, nova linha, quebra de linha, ou tabulação horizontal ou vertical que ocupe um espaço mas não crie uma marca visível. O nome vem de sua aparência em um papel impresso da era das das máquinas de escrever.

expressão binária

Uma expressão com dois argumentos ou parâmetros, como 1 + 2, por exemplo.

F

falso negativo

Dados ou resultados que são realmente verdadeiro, mas são incorretamente previstos como falso.

falso positivo

Dados ou resultados que são realmente falso, mas são incorretamente previstos como verdadeiro pelo algoritmo

função de agregação

Uma função que combina muitos valores em um só, como sum ou max.

função genérica

Um conjunto de funções com propósito similar, cada uma operando em uma classe diferente de dados.

G

Git

Uma ferramenta de controle de versão para registrar e gerenciar mudanças em um projeto.

Git branch

Uma fotografia de uma versão de um repositório Git. Múltiplos branches podem capturar múltiplas versões de um mesmo repositório.

GitHub

Uma plataforma baseada em nuvem construída em torno do Git que permite salvar versões do seu projeto online e colaborar com outras pessoas usuárias do Git.

H

hipótese nula

A afirmação de que quaisquer padrões observados nos dados foram gerados inteiramente ao acaso. Outras afirmações (por exemplo, “X causa Y”) devem ser mais prováveis de acontecer do que a hipótese nula para que possam ser sustentadas.

I

incrementar

Uma operação unária que aumenta o valor de uma variável, geralmente em um.

interface gráfica de usuário

Uma interface de usuário cujo uso depende de janelas, menus, ponteiros e outros elementos gráficos, em oposição a uma interface de linha de comando ou interface comandada por voz.

L

Licença Creative Commons

Um conjunto de licenças que podem ser aplicadas à trabalhos publicados. Cada licença é formada pela concatenação de um ou mais dos termos a seguir: -BY (Atribuição): pessoas usuárias devem citar a fonte original; -SA (CompartilhaIgual): pessoas usuárias devem compartilhar o seu próprio trabalho utilizando uma licença similar; -NC (NãoComercial): o trabalho não pode ser usado para fins comerciais sem a permissão das pessoas criadoras; -ND (SemDerivações): nenhum trabalho derivado (como traduções, por exemplo) pode ser criado sem a permissão das pessoas criadoras. Assim, CC-BY-NC quer dizer “pessoas usuárias devem atribuir autoria e não podem o conteúdo de forma comercial sem permissão”. O termo CC-0 (zero, não a letra ‘O’) é às vezes usado com o sentido de “sem restrições”, isto é, que o trabalho é de domínio público.

M

média

O valor médio de um conjunto de dados, mais apropriadamente conhecido como média aritmética para que seja distinguido da média geométrica e da harmônica.

média aritmética

Veja média.

método abstrato

In programação orientada a objetos, um método que é definido mas não implementado. Pessoas programadoras definem um método abstrato em uma classe base para especificar operações que as classes derivadas devem prover.

N

número de linha absoluto

O índice sequencial de uma linha em uma tabela, independente de qual seção da tabela está sendo exibida.

número de linha relativo

O índice de uma linha em uma parte da tabela em exibição, que pode ou não ser igual ao número de linha absoluto na tabela.

numpy

É um pacote Python de código aberto que permite trabalhar com arrays, vetores e matrizes de dimensão N, em um método comparável e com uma sintaxe semelhante ao software Matlab. Você pode encontrar funções e operações sofisticadas, focadas em arrays multidimensionais, álgebra linear, transformada de Fourrier e geração de valores aleatórios.

P

pandas

É um pacote Python de código aberto que oferece estruturas de dados rápidas, flexíveis e expressivas para tornar o trabalho com dados estruturados e séries temporais fácil e intuitivo. É usado como uma ferramenta poderosa para análise e manipulação de dados.

parâmetro

Uma variável especificada na definição de uma função, cujo valor é passado para a função quando ela é invocada. O parâmetro é a variável, enquanto seu valor dentro da função é um argumento. Parâmetro e argumento são termos relacionados, mas diferentes.

pesquisa reprodutível

A prática de escrever e documentar resultados de pesquisa de forma que outras pessoas pesquisadoras possam executar novamente o código de análise com os mesmos dados para obter os mesmos resultados.

programação orientada a objetos

Um paradigma de programação no qual dados (atributos) e funções (métodos) são encapsulados em objetos que interagem entre si por meio de interfaces bem definidas.

Python

Uma popular linguagem de programação interpretada, de código aberto, que depende de indentação para definir a estrutura de controle.

R

R (linguagem de programação)

Uma linguagem de programação de código aberto usada principalmente para ciência de dados.

R base

As funções básicas que compõe a linguagem R. Os pacotes de base podem ser encontrados em src/library e não são atualizados fora do R; eles seguem a numeração de versão do próprio R. Pacotes de base são instalados e carregados junto do R, enquanto pacotes prioritários são instalados com o R base mas precisam ser carregados antes do uso.

regra 68-95-99,7

Expressa o fato de que 68% dos valores estão dentro de um desvio padrão da média, 95% estão dentro de dois e 99,7% estão dentro de três. Inversamente, aproximadamente 0,3% dos valores estão mais do que três desvios padrões acima ou abaixo da média na maioria dos casos.

repositório

Um local onde um sistema de controle de versão armazena os arquivos que compõem um projeto e os metadados que descrevem sua história.

S

sistema de controle de versão

Um sistema para gerenciar as mudanças feitas em um software durante o seu desenvolvimento.

Stack Overflow

Um site de perguntas e respostas popular entre pessoas programadoras.

T

Tidyverse

Uma coleção de pacotes de R para trabalhar de forma consistente com dados tabulares.

V

valor por defeito

Valor associado ao parâmetro de uma função quando o operador não especifica um valor. Valores por defeito fazem parte da definição de uma função.

variável dependente

Uma variável cujo valor dependa do valor de outra variável, que é chamada de variável independente.

viés

Uma estatística é enviesada se estiver sistemática ou consistentemente diferente do parâmetro que deveria estimar.

X

XML

Um conjunto de regras para se definir etiquetas similares a HTML e usá-las para formatar documentos (normalmente, dados). XML foi popular no início dos anos 2000, mas sua complexidade fez com que muitas pessoas programadoras adotassem JSON em seu lugar.

Y

YAML

Acrônimo recursivo de “YAML Ain’t Markup Language” (YAML não é uma linguagem de marcação), é uma maneira de representar dados aninhados usando recuos (também chamados de indentações) no lugar de parênteses e vírgulas usados em JSON. YAML é frequentemente usado em arquivos de configuração e na definição de parâmetros para vários estilos de documentos em Markdown.