A
abandonware
-
Software que não é mais mantido.
agregação
-
Combinar vários valores em um, por exemplo, somando um conjunto numérico ou concatenando um conjunto de caracteres.
agrupamento
-
O processo de dividir os dados em grupos quando os grupos em si não são conhecidos antecipadamente.
algoritmo
-
Um algoritmo é um conjunto de etapas, instruções ou regras a serem seguidas para realizar uma tarefa específica. Na ciência da computação, um algoritmo é um conjunto de instruções em um programa de computador que resolve um problema computacional.
Â
âncora
-
Em uma expressão regular, é um símbolo que fixa uma posição sem caracteres correspondentes.
^
identifica o começo de uma linha, enquanto $
indica o fim de uma linha e \b
identifica uma quebra entre caracteres que formam e que não formam uma palavra.
A
argumento
-
O termo não deve ser confundido com, e não é sinônimo de, parâmetro. Um argumento é uma das possíveis expressões que são passadas para uma função. É o valor real que é transmitido. Parâmetros e argumentos são conceitos distintos, mas relacionados. Parâmetros são variáveis e argumentos são os valores atribuídos a essas variáveis.
auto-completar
-
Uma funcionalidade que permite a pessoa usuária terminar uma palavra ou código rapidamente ao pressinar a tecla TAB para listar possíveis palavras ou códigos que podem ser escolhidos.
B
biblioteca
-
Um pacote de programas reutilizáveis, também frequentemente referido como um módulo.
binário
-
Um sistema que pode ter dois estados possíveis. Em computação, frequentemente sendo no estado 0 ou 1. Representado na lógica Booleana como falso (0) ou verdadeiro (1). Computadores são construídos sobre sistemas que armazenam 0s e 1s como bits.
bit
-
Uma unidade de informação representando alternativas, sim/não, verdadeiro/falso. Em computação, um estado de 0 ou 1.
-
Um comentário que abrange múltiplas linhas. Blocos de comentários podem ser indicados com símbolos especiais, como
/*
e */
em C e linguagens herdeiras dessa sintaxe, ou cada linha pode ser prefixada com uma indicação como #
.
Booleano
-
Relacionado a uma variável ou tipo de dado que pode ter um valor lógico de verdadeiro ou falso. Nomeado em referêcia à George Boole, um matemático do século XIX. Sistemas binários, como todos os computadores, são construídos com base em sistemas de avaliação entre estados de verdadeiro e falso, 0 ou 1.
C
caminho absoluto
-
Um caminho que leva ao mesmo local no sistema de arquivos independente do contexto em que é avaliado. Um caminho absoluto pode ser comparado com a latitude e longitude em geografia.
caminho relativo
-
Um caminho cujo destino é interpretado de maneira relativa a outro local, como o diretório de trabalho. Um caminho relativo é o equivalente a indicar um destino com termos como “siga em frente” e “vire a esquerda”.
CC-0
-
Uma licença Creative Commons que não impõe qualquer tipo de restrição, consequentemente colocando o trabalho em domínio público.
CC-BY
-
Uma licença Creative Commons com Atribuição, que requer que seja dado crédito às pessoas autoras do trabalho, mas que não impõe outras restrições.
centróide
-
O centro ou âncora de um grupo criado por um algoritmo de agrupamento.
ciência de dados
-
A combinação de estatística, programação e trabalho duro usados para extrair conhecimento a partir de dados.
cientista de dados
-
Alguém que usa habilidades de programação para resolver problemas estatísticos.
classe base
-
Em programação orientada a objetos, a classe a partir da qual outra classe (chamada classe derivada) é produzida.
classe derivada
-
Em programação orientada a objetos, a classe derivada de uma outra classe (chamada de classe base).
coeficiente de correlação
-
Uma medida do quão bem duas variáveis estão correlacionadas. Se o coeficiente de correlação entre X e Y for 1.0, conhecer X permite uma previsão perfeita de Y. Se o coeficiente de correlação for 0.0, conhecer X não diz nada a respeito de Y, e se for -1.0, então X prevê Y, mas mudanças no valor de X gera uma mudança oposta em Y.
-
Texto escrito em um script que não é tratado como código a ser executado, e sim como texto que descreve o que o código está fazendo. Normalmente é formado por notas curtas, frequentemente começando com um
#
(em várias linguagens de programação).
-
Um comentário em um programa que abrange parte de uma única linha, em contraste a um bloco de comentário que pode abranger mútiplas linhas.
compatibilidade reversa
-
Software que pode ser usado da mesma maneira que versão anteriores de si mesmo sem problemas. Também é chamado de retrocompatibilidade.
correlação
-
O quão bem duas variáveis concordam uma com a outra. A correlação é normalmente medida pelo cálculo de um coeficiente de correlação, e não significa que precise existir causalidade.
covariância
-
O quão bem duas variáveis concordam uma com a outra. O coeficiente de correlação é uma medida normalizada da covariância.
curinga
-
Um curinga, ou caracter curinga, é um caracter que corresponde a qualquer texto, como o
*
em *.csv
(que corresponde a qualquer arquivo cujo nome termina em *.csv
).
D
decrementar
-
Uma operação unária que diminui o valor de uma variável, geralmente em um.
depurar
-
Em um ambiente de computador, ‘debug’ refere-se ao processo de encontrar e resolver erros (também conhecidos como ‘bugs’) em programas ou sistemas de computador.
desenvolvimento ágil
-
Um método de desenvolvimento de software que enfatiza vários passos pequenos e feedback contínuo ao invés de planejamento de longo prazo. Programação exploratória costuma ser ágil.
desvio padrão
-
O quanto os valores de um conjunto de dados diferem da média. É calculado como a raiz quadrada da variância.
diretório de trabalho
-
O local, pasta ou diretório, em que o programa está operando. Qualquer ação do programa acontece relativa a esse diretório.
distribuição binomial
-
Uma distribuição de probabilidade que emerge quando há um número fixo de tentativas, cada uma das quais podendo produzir um de dois resultados e quando a probabilidade destes resultados não muda. Na medida em que o número de tentativas aumenta, a distribuição binomial se aproxima da distribuição normal.
distribuição normal padrão
-
Uma distribuição normal com uma média 0 e um desvio padrão de 1. Valores de distribuições normais com outros parâmetros podem ser facilmente redimensionados para obter-se uma distribuição normal padrão.
E
erro absoluto
-
O valor absoluto da diferença entre um valor observado e o valor correto. O erro absoluto é normalmente menos útil do que o erro relativo.
erro relativo
-
O valor absoluto da diferença entre um valor observado e o valor correto, dividido pelo vaor correto. Por exemplo, se o valor observado é 9 e o correto é 10, o erro relativo é 0.1. Erro relativo é normalmente mais útil do que o erro absoluto.
espaço em branco
-
O espaço, nova linha, quebra de linha, ou tabulação horizontal ou vertical que ocupe um espaço mas não crie uma marca visível. O nome vem de sua aparência em um papel impresso da era das das máquinas de escrever.
expressão binária
-
Uma expressão com dois argumentos ou parâmetros, como
1 + 2
, por exemplo.
F
falso negativo
-
Dados ou resultados que são realmente verdadeiro, mas são incorretamente previstos como falso.
falso positivo
-
Dados ou resultados que são realmente falso, mas são incorretamente previstos como verdadeiro pelo algoritmo
função de agregação
-
Uma função que combina muitos valores em um só, como
sum
ou max
.
função genérica
-
Um conjunto de funções com propósito similar, cada uma operando em uma classe diferente de dados.
G
Git
-
Uma ferramenta de controle de versão para registrar e gerenciar mudanças em um projeto.
Git branch
-
Uma fotografia de uma versão de um repositório Git. Múltiplos branches podem capturar múltiplas versões de um mesmo repositório.
GitHub
-
Uma plataforma baseada em nuvem construída em torno do Git que permite salvar versões do seu projeto online e colaborar com outras pessoas usuárias do Git.
H
hipótese nula
-
A afirmação de que quaisquer padrões observados nos dados foram gerados inteiramente ao acaso. Outras afirmações (por exemplo, “X causa Y”) devem ser mais prováveis de acontecer do que a hipótese nula para que possam ser sustentadas.
I
incrementar
-
Uma operação unária que aumenta o valor de uma variável, geralmente em um.
interface gráfica de usuário
-
Uma interface de usuário cujo uso depende de janelas, menus, ponteiros e outros elementos gráficos, em oposição a uma interface de linha de comando ou interface comandada por voz.
L
Licença Creative Commons
-
Um conjunto de licenças que podem ser aplicadas à trabalhos publicados. Cada licença é formada pela concatenação de um ou mais dos termos a seguir:
-BY
(Atribuição): pessoas usuárias devem citar a fonte original; -SA
(CompartilhaIgual): pessoas usuárias devem compartilhar o seu próprio trabalho utilizando uma licença similar; -NC
(NãoComercial): o trabalho não pode ser usado para fins comerciais sem a permissão das pessoas criadoras; -ND
(SemDerivações): nenhum trabalho derivado (como traduções, por exemplo) pode ser criado sem a permissão das pessoas criadoras. Assim, CC-BY-NC
quer dizer “pessoas usuárias devem atribuir autoria e não podem o conteúdo de forma comercial sem permissão”. O termo CC-0
(zero, não a letra ‘O’) é às vezes usado com o sentido de “sem restrições”, isto é, que o trabalho é de domínio público.
M
média
-
O valor médio de um conjunto de dados, mais apropriadamente conhecido como média aritmética para que seja distinguido da média geométrica e da harmônica.
média aritmética
-
Veja média.
método abstrato
-
In programação orientada a objetos, um método que é definido mas não implementado. Pessoas programadoras definem um método abstrato em uma classe base para especificar operações que as classes derivadas devem prover.
N
número de linha absoluto
-
O índice sequencial de uma linha em uma tabela, independente de qual seção da tabela está sendo exibida.
número de linha relativo
-
O índice de uma linha em uma parte da tabela em exibição, que pode ou não ser igual ao número de linha absoluto na tabela.
numpy
-
É um pacote Python de código aberto que permite trabalhar com arrays, vetores e matrizes de dimensão N, em um método comparável e com uma sintaxe semelhante ao software Matlab. Você pode encontrar funções e operações sofisticadas, focadas em arrays multidimensionais, álgebra linear, transformada de Fourrier e geração de valores aleatórios.
P
pandas
-
É um pacote Python de código aberto que oferece estruturas de dados rápidas, flexíveis e expressivas para tornar o trabalho com dados estruturados e séries temporais fácil e intuitivo. É usado como uma ferramenta poderosa para análise e manipulação de dados.
parâmetro
-
Uma variável especificada na definição de uma função, cujo valor é passado para a função quando ela é invocada. O parâmetro é a variável, enquanto seu valor dentro da função é um argumento. Parâmetro e argumento são termos relacionados, mas diferentes.
pesquisa reprodutível
-
A prática de escrever e documentar resultados de pesquisa de forma que outras pessoas pesquisadoras possam executar novamente o código de análise com os mesmos dados para obter os mesmos resultados.
programação orientada a objetos
-
Um paradigma de programação no qual dados (atributos) e funções (métodos) são encapsulados em objetos que interagem entre si por meio de interfaces bem definidas.
Python
-
Uma popular linguagem de programação interpretada, de código aberto, que depende de indentação para definir a estrutura de controle.
R
R (linguagem de programação)
-
Uma linguagem de programação de código aberto usada principalmente para ciência de dados.
R base
-
As funções básicas que compõe a linguagem R. Os pacotes de base podem ser encontrados em
src/library
e não são atualizados fora do R; eles seguem a numeração de versão do próprio R. Pacotes de base são instalados e carregados junto do R, enquanto pacotes prioritários são instalados com o R base mas precisam ser carregados antes do uso.
regra 68-95-99,7
-
Expressa o fato de que 68% dos valores estão dentro de um desvio padrão da média, 95% estão dentro de dois e 99,7% estão dentro de três. Inversamente, aproximadamente 0,3% dos valores estão mais do que três desvios padrões acima ou abaixo da média na maioria dos casos.
repositório
-
Um local onde um sistema de controle de versão armazena os arquivos que compõem um projeto e os metadados que descrevem sua história.
S
sistema de controle de versão
-
Um sistema para gerenciar as mudanças feitas em um software durante o seu desenvolvimento.
Stack Overflow
-
Um site de perguntas e respostas popular entre pessoas programadoras.
T
Tidyverse
-
Uma coleção de pacotes de R para trabalhar de forma consistente com dados tabulares.
V
valor por defeito
-
Valor associado ao parâmetro de uma função quando o operador não especifica um valor. Valores por defeito fazem parte da definição de uma função.
variável dependente
-
Uma variável cujo valor dependa do valor de outra variável, que é chamada de variável independente.
viés
-
Uma estatística é enviesada se estiver sistemática ou consistentemente diferente do parâmetro que deveria estimar.
X
XML
-
Um conjunto de regras para se definir etiquetas similares a HTML e usá-las para formatar documentos (normalmente, dados). XML foi popular no início dos anos 2000, mas sua complexidade fez com que muitas pessoas programadoras adotassem JSON em seu lugar.
Y
YAML
-
Acrônimo recursivo de “YAML Ain’t Markup Language” (YAML não é uma linguagem de marcação), é uma maneira de representar dados aninhados usando recuos (também chamados de indentações) no lugar de parênteses e vírgulas usados em JSON. YAML é frequentemente usado em arquivos de configuração e na definição de parâmetros para vários estilos de documentos em Markdown.