Home / Technology / Como os profissionais de marketing podem começar a selecionar os dados certos para modelos de aprendizado de máquina

Como os profissionais de marketing podem começar a selecionar os dados certos para modelos de aprendizado de máquina

Homem em frente a uma máquina de venda automática com várias opções de lanches e bebidas

FOTO: Victoriano Izquierdo

Você se lembra de ter ficado nervoso antes de um teste escolar? Para os profissionais de marketing de hoje, um questionário sobre o que mantém um modelo de aprendizado de máquina em equilíbrio seria igualmente assustador.

Se você é um profissional de marketing com a tarefa de estabelecer um modelo de dados e sente que precisa se concentrar em seu questionário para trabalhar com aprendizado de máquina, entender como o overfitting e o underfitting funcionam na modelagem de dados é um ótimo lugar para começar. Quando os profissionais de marketing aprendem mais sobre como as questões de aprendizado de máquina afetam suas decisões de fluxo de trabalho, isso os ajuda a trabalhar melhor com equipes técnicas ao selecionar dados para modelos de aprendizado de máquina.

Princípios básicos do aprendizado de máquina: onde o viés e a variação se encaixam no ajuste excessivo-insuficiente

Overfitting é uma condição que trata o ruído nos dados de treinamento como um indicador confiável, em vez de uma anomalia. Em vez de descartar os dados como ruído, considere os dados incomuns no conjunto de dados fornecido. Quando os dados de treinamento são influenciados por ruído, o modelo cria previsões ruins a partir de qualquer novo conjunto de dados que não tenha o mesmo ruído ou ruído semelhante, ou seja, os dados de produção.

Underfit é uma condição contrária que causa diferentes problemas de desempenho em modelos de aprendizado de máquina. Underfit implica que o modelo ou algoritmo não captura todos os dados bem o suficiente para entender as relações estatísticas entre os dados.

overfit overfit

Tanto o sobreajuste quanto o desajustado são expressos como métricas de erro estatístico chamadas viés e variância. Viés é o grau de erro de aprendizado que um modelo comete ao simplificar suas inferências a partir de um determinado conjunto de dados de treinamento. As simplificações facilitam a previsão dos parâmetros necessários para estabelecer o modelo.

A variância, por outro lado, é o grau de sensibilidade do modelo, mostrando o quanto uma estimativa da função objetivo mudará. O objetivo é expressar quão variada será a saída de um modelo quando fornecido com diferentes dados de treinamento.

Juntos, o viés e a variância descrevem o sobreajuste e o desajuste em um modelo. O superajuste ocorre se o modelo ou algoritmo mostra baixa variação, mas alta variação, e o desajuste ocorre se o modelo ou algoritmo mostra baixa variação, mas alta variação.

Artigo relacionado: Como os pipelines podem ajudar os profissionais de marketing a entender melhor o aprendizado de máquina

Os profissionais de marketing podem aprimorar seus conhecimentos para melhorar as decisões de ML

Compreender o equilíbrio entre tendência e variação é um problema constante no aprendizado de máquina e é a chave para os profissionais de marketing trabalharem bem com os analistas de dados. Um modelo ideal captura com precisão o viés e a variação em seus dados de treinamento, mas generaliza bem os dados invisíveis. Em outras palavras, o erro de aprendizagem (viés) é mínimo e a sensibilidade (variância) do modelo é mínima. Infelizmente, balancear o viés e a variância com valores mínimos muitas vezes é impossível de fazer simultaneamente.

Modelos com alta variação significam que o modelo faz um bom trabalho encapsulando o conjunto de dados de treinamento, mas é superequipado com dados de treinamento barulhentos ou não representativos. Por outro lado, modelos altamente enviesados ​​tendem a produzir modelos excessivamente simplistas, negligenciando parâmetros de dados importantes.

Você provavelmente tem uma ideia de como a tomada de decisões é complicada para gerentes e analistas em torno de dados e modelos de dados. Os profissionais de marketing podem desempenhar um papel aqui. Os profissionais de marketing têm percepções críticas sobre como as principais suposições de dados podem influenciar o equilíbrio desses modelos, ajudando a revelar quaisquer vieses ou preocupações sobre a variação ao definir as variáveis ​​de dados iniciais e as fontes de dados. Por exemplo, em minha postagem sobre redução de dimensão, expliquei por que selecionar muitas variáveis ​​torna um modelo impossível de treinar. Também mencionei em minha postagem sobre pipelines de aprendizado de máquina o número de opções disponíveis para ajudar os profissionais de marketing a organizar tarefas relacionadas a dados com as equipes, sem exigir uma compreensão de todos os detalhes da programação do modelo. Quando os profissionais de marketing consideram o viés geral e as qualidades da variação, isso os ajudará a tomar decisões e recomendações sobre o modelo de dados para usar os recursos de dados corretos.

Como qualquer bom professor provavelmente lhe ensinou, planejar seus recursos é a maneira como você se destacará no exame.

Pierre DeBois é o fundador da Zimana, uma consultoria de análise digital para pequenas empresas. Analisa os dados do painel de mídia social e soluções de análise da web e, em seguida, fornece recomendações e ações de desenvolvimento da web que melhoram a estratégia de marketing e a lucratividade do negócio.

About admin

Check Also

O Galaxy Tab A de 8 polegadas custa US $ 99 no Prime Day e é ótimo para fazer streaming do Xbox Game Pass

Uma coisa que me incomoda nos jogos em nuvem do Xbox Game Pass nos telefones …

Leave a Reply

Your email address will not be published. Required fields are marked *