O que é DataOps? Análise colaborativa e multifuncional

DataOps (operações de dados) é uma metodologia ágil e orientada a processos para desenvolver e fornecer análises. Ela reúne equipes de DevOps com engenheiros e cientistas de dados para fornecer as ferramentas, processos e estruturas organizacionais para dar suporte à empresa focada em dados. A empresa de pesquisa Gartner descreve ainda a metodologia como focada em “melhorar a comunicação, integração e automação de fluxos de dados entre gerentes de dados e consumidores de dados em uma organização”.

Metas de DataOps

De acordo com a Dataversity, o objetivo do DataOps é simplificar o design, desenvolvimento e manutenção de aplicativos baseados em dados e análise de dados. Procura melhorar a forma como os dados são geridos e os produtos são criados, e coordenar essas melhorias com os objetivos do negócio. De acordo com o Gartner, o DataOps também visa “entregar valor mais rapidamente, criando entrega previsível e gerenciamento de mudanças de dados, modelos de dados e artefatos relacionados”.

DataOps x DevOps

DevOps é uma metodologia de desenvolvimento de software que traz entrega contínua ao ciclo de vida de desenvolvimento de sistemas, combinando equipes de desenvolvimento e equipes de operações em uma única unidade responsável por um produto ou serviço. A DataOps se baseia nesse conceito adicionando especialistas em dados — analistas de dados, desenvolvedores de dados, engenheiros de dados e/ou cientistas de dados — para se concentrar no desenvolvimento colaborativo de fluxos de dados e no uso contínuo de dados em toda a organização.

A DataKitchen, especializada em software de observabilidade e automação de DataOps, afirma que DataOps não é simplesmente “DevOps para dados”. Enquanto ambas as práticas visam acelerar o desenvolvimento de software (software que aproveita a análise, no caso da DataOps), a DataOps precisa gerenciar simultaneamente as operações de dados.

Princípios de DataOps

Assim como a DevOps, a DataOps segue as dicas da metodologia ágil. A abordagem valoriza a entrega contínua de insights analíticos com o objetivo principal de satisfazer o cliente.

De acordo com a DataOps Manifesto, as equipes de DataOps valorizam as análises que funcionam, medindo o desempenho das análises de dados pelos insights que fornecem. As equipes de DataOps também adotam a mudança e buscam entender constantemente as necessidades dos clientes em constante evolução. Eles se auto-organizam em torno de metas e buscam reduzir o “heroísmo” em favor de equipes e processos sustentáveis e escaláveis.

As equipes de DataOps também buscam orquestrar dados, ferramentas, códigos e ambientes do começo ao fim, com o objetivo de fornecer resultados reproduzíveis. Essas equipes tendem a ver os pipelines analíticos como análogos às linhas de manufatura enxuta e refletem regularmente sobre o feedback fornecido pelos clientes, membros da equipe e estatísticas operacionais.

Onde a DataOps se encaixa

Atualmente, as empresas estão cada vez mais injetando machine learning em uma vasta gama de produtos e serviços, e a DataOps é uma abordagem voltada para o suporte às necessidades de ponta a ponta do machine learning.

“Por exemplo, esse estilo torna mais viável para os cientistas de dados ter o suporte da engenharia de software para fornecer o que é necessário quando os modelos são entregues às operações durante a implantação”, escrevem Ted Dunning e Ellen Friedman em seu livro Machine Learning Logistics.

“A abordagem DataOps não se limita ao machine learning”, acrescentam. “Esse estilo de organização é útil para qualquer trabalho orientado a dados, facilitando o aproveitamento dos benefícios oferecidos pela construção de uma malha de dados global”.

Eles também observam que a DataOps se adapta bem às arquiteturas de microsserviços.

DataOps na prática

Para aproveitar ao máximo a DataOps, as empresas devem desenvolver suas estratégias de gerenciamento de dados para lidar com dados em escala e em resposta a eventos do mundo real conforme eles acontecem, de acordo com Dunning e Friedman.

Como a DataOps se baseia na DevOps, equipes multifuncionais que abrangem “grupos de habilidades”, como operações, engenharia de software, arquitetura e planejamento, gerenciamento de produtos, análise de dados, desenvolvimento de dados e engenharia de dados são essenciais, e as equipes de DataOps devem ser gerenciadas em maneiras que garantam maior colaboração e comunicação entre desenvolvedores, profissionais de operações e especialistas em dados.

Os cientistas de dados também podem ser incluídos como membros-chave das equipes DataOps, de acordo com Dunning. “Acho que a coisa mais importante a fazer aqui é não ficar com a organização mais tradicional da Ivory Tower, onde os cientistas de dados vivem separados das equipes de desenvolvimento”, diz ele. “O passo mais importante que você pode dar é realmente incorporar cientistas de dados em uma equipe de DevOps. Quando vivem na mesma sala, comem as mesmas refeições, ouvem as mesmas queixas, naturalmente ganham alinhamento”.

Mas Dunning também observa que os cientistas de dados podem não precisar estar permanentemente integrados a uma equipe de DataOps.

“Normalmente, há um cientista de dados incorporado à equipe por um tempo”, diz Dunning. “Suas capacidades e sensibilidades começam a passar. Alguém da equipe assume o papel de engenheiro de dados e uma espécie de cientista de dados de baixo orçamento. O cientista de dados real incorporado à equipe segue em frente. É uma situação fluida”.

Como construir uma equipe de DataOps

A maioria das empresas baseadas em DevOps já possui o núcleo de uma equipe DataOps em mãos. Depois de identificar os projetos que precisam de desenvolvimento intensivo de dados, eles precisam apenas adicionar alguém com treinamento em dados à equipe. Muitas vezes, essa pessoa é um engenheiro de dados em vez de um cientista de dados. A DataKitchen sugere que as organizações procurem engenheiros de DataOps especializados na criação e implementação de processos que permitam o trabalho em equipe nas organizações movidas a dados. Esses indivíduos projetam as orquestrações que permitem que o trabalho flua do desenvolvimento para a produção e garantem que hardware, software, dados e outros recursos estejam disponíveis sob demanda.

Muitas equipes são formadas por indivíduos com conjuntos de habilidades sobrepostas, ou os indivíduos podem assumir várias funções em uma equipe de DataOps, dependendo do conhecimento.

De acordo com Michele Goetz, Vice-Presidente e Principal Analista da Forrester, algumas das principais áreas de especialização das equipes de DataOps incluem:

Bancos de dados
Integração
Dados para processar a orquestração
Implantação da política de dados
Integração de dados e modelos
Controles de segurança e privacidade de dados

Independentemente da composição, as equipes de DataOps devem compartilhar um objetivo comum: as necessidades baseadas em dados dos serviços aos quais oferecem suporte.

Papéis de DataOps

De acordo com Goetz, os membros da equipe DataOps incluem:

  • Especialistas em dados, que oferecem suporte ao cenário de dados e às melhores práticas de desenvolvimento;
  • Engenheiros de dados, que fornecem suporte ad hoc e de sistema para BI, análises e aplicativos de negócios;
  • Engenheiros de dados principais, que são desenvolvedores que trabalham em produtos e entregáveis voltados para o cliente.

Salários de DataOps

Aqui estão alguns dos cargos mais populares relacionados a DataOps e o salário médio para cada cargo nos Estados Unidos, de acordo com dados da PayScale:

Gerente de análise: US$ 72.000 a US$ 134.000
Cientista de dados associado: US$ 61.000 a US$ 101.000
Analista de dados: US$ 46.000 a US$ 89.000
Arquiteto de dados: US$ 81.000 a US$ 162.000
Engenheiro de dados: US$ 67.000 a US$ 134.000
Cientista de dados: US$ 70 mil a US$ 137 mil
Diretor de análise: US$ 85.000 a US$ 177.000

Ferramentas DataOps

A seguir estão algumas das ferramentas DataOps mais populares:

  • Census: Uma plataforma de análise operacional especializada em ETL reverso, o processo de sincronização de dados de uma fonte confiável (como um data warehouse) para sistemas de linha de frente como CRM, plataformas de publicidade etc.;
  • Databricks Lakehouse Platform: Uma plataforma de gerenciamento de dados que unifica o armazenamento de dados e os casos de uso de IA;
  • Datafold: Uma plataforma de qualidade de dados para detectar e corrigir problemas de qualidade de dados;
  • DataKitchen: Uma plataforma de observabilidade e automação de dados que orquestra pipelines de dados multi-ambientes e multiferramentas de ponta a ponta;
  • Dbt: Uma ferramenta de transformação de dados para criar pipelines de dados;
  • Tengu: Uma plataforma de orquestração DataOps para gerenciamento de dados e pipeline.