Talend 6.0 (e comentários)

A nova versão 6.0 do Talend já está disponível há quase um mês e após ter realizado alguns testes, segue uma pequena lista das mudanças de maior destaque e algumas considerações:

  • Interface com o usuário redesenhada
  • Pesquisa de componentes baseada em descrição e não apenas no nome (ou seja, o usuário não precisa mais saber exatamente o nome do componente que procura, e sim sua característica)
  • Nova funcionalidade para monitoramento uso de memória e CPU dentro do Studio (auxilia a analisar a performance de execução)
  • Componentes para acesso e manipulação no Google Drive, dentre outros diversos componentes focados na nuvem
  • Suporte a Java 8 (Studio)
  • Suporte a driver ODBC removido. Agora a conexão com bases Access é realizada via JDBC. Conexões genéricas ou com SQL Server ainda podem ser realizadas, porém só funcionará com o Java 7

Ponto de Atenção

Devido ao bug TDI-33503 (https://jira.talendforge.org/browse/TDI-33503), não recomendo que seja feita migração em ambientes de produção sem que antes seja solicitado patch para este bug através do canal de suporte.

Conclusão

A nova versão trouxe diversas melhorias principalmente quanto à interface da ferramenta e diversidade de componentes. No que diz respeito à usabilidade, não dá pra deixar de mencionar que o que já era fantástico, ficou muito melhor. O desenvolvimento com o Talend vem se tornando cada vez mais ágil e o que ficou difícil foi para a concorrência em atingir tal estado da arte.

Todavia, assim como em toda nova versão, convém realizar extensivos testes em seu ambiente antes de implantar ou migrar para a mesma. A versão 5.6.1 continua sendo uma ótima opção, tendo em vista que a versão 6.0.1 está prevista para meados deste mês de Setembro.

Referências

Página de Download e Notas de Release
http://www.talend.com/download/talend-open-studio#t4

Notas de release e discussões no fórum oficial
https://www.talendforge.org/forum/viewtopic.php?id=44935

Anúncios

Talend na Linux Magazine

Em 2009 saiu um artigo na edição de nº50 da Linux Magazine sob o título “O Talento do Talend”, escrito por Miguel Koren O’Brien de Lacy, que trabalha com software livre desde 2007. Na época ele citou o Talend da seguinte maneira:

“Conectado a diversas fontes de dados, ele só não faz chover – ainda.”

Isso em 2009, e hoje? O artigo na íntegra pode ser conferido aqui.

 

Um abraço a todos.

Sobre MDM, Data Warehouse e Inovação

O Gartner recentemente desenvolveu uma série de estudos que confirmam a nossa percepção de mercado. O primeiro estudo é dedicado ao Master Data Management (MDM) e declara que “MDM é importante em uma economia sólida, e mais importante para o crescimento”. John Radcliffe, Vice Presidente de Pesquisa do Gartner comentou no EFY Times que “Hoje a maioria das organizações manuseiam conjuntos múltiplos de negócios e aplicações de dados através de sistemas corporativos, regionais e locais. Ao mesmo tempo os clientes demandam mais rapidamente resultados cada vez mais complexos das organizações, levando para uma inconsistência que dificulta as capacidades destas organizações em mensurar e mover-se dentro do mercado. Através do MDM, CIOs podem criar uma visão unificada dos dados existentes, levando a uma maior agilidade da empresa, integração simplificada e por fim, maior rentabilidade”.

De acordo com o Gartner, em 2010, o mercado de MDM foi avaliado em $1,5 bilhões de dólares, indicando um crescimento de 14% em relação a 2009. Os analistas prevêm que esse crescimento continuará aumentando (18% CAGR), alcançando $2,9 bilhões em 2014, “mesmo através da pior recessão global”. A companhia adiciona que “por volta de 2015, 10% das implementações de MDM serão entregues como serviço (SaaS – Software as a Service) na nubem pública” e recomendam isso especialmente para as empresas que não possuem estas habilidades. O Gartner confirma o que nós temos sempre mantido: MDM é essencial para qualquer projeto de Gerenciamento de Dados.

O segundo estudo identifica “Nove tendências chave de Data Warehousing para os CIOs em 2011 e 2012“. De acordo com o Gartner, “O Data Warehouse continuará sendo um componente chave na infra-estrutura de TI (…) e como a demanda por business intelligence (BI) e a grande categoria de business analytics tendem a crescer, otimização, designs fexíveis e estratégias alternativas irão se tornar mais importantes.” Se o data warehouse é ainda um componente estratégico da infra estrutura de TI, então ele é a carga do maior repositório de dados da empresa! E carregar o data warehouse significa otimização de dados e integração entre aplicações. Aqui, eu vejo boas perspectivas para o Talend: com a aquisição do Sopera, nós somos agora capazes de trabalhar com sinergias de dados e integração de aplicações que irão auxiliar empresas a otimizar a circulação de dados em seus sistemas de informação e, consequentemente, prosperar.

Irei finalizar este artigo mencionando outro bom artigo relacionado, “5 caminhos para uma nova integração de dados” (em inglês), publicado por Seth Grimes na Information Week. Este artigo começa com uma declaração que muitos analistas já sabem: “Integração de Dados fará história em 2011”. O autor explica que além das tecnologias de ETL e ELT, o mercado irá oferecer inovações que irão auxiliar a atender melhor as necessidades dos clientes, enquanto aumentará as facilidades para o usuário: mashups, integrações semânticas e perfis de dados.

Este artigo é uma tradução deste post no blog oficial da Talend, escrito pelo Yves Bertrand em 22/02/2011.

Requisitos para execução do Talend

Antes de prosseguirmos para a prática, este artigo apresentará os requisitos para utilização do Talend Open Studio e os produtos da edição Talend Integration Suite.

Requisitos de memória primária (RAM):

Produto Cliente/Servidor Qtd. Recomendada
Talend Integration Suite Administration Center Servidor 1GB
Commandline Servidor 1GB
JobServer Servidor 4GB+
Talend Integration Suite Studio Cliente 1GB no mínimo, 4GB recomendados
Talend Open Studio, Open Profiler ou MDM Cliente 512MB**

Requisitos de memória secundária (discos rígidos):

Produto Cliente/Servidor Qtd. Recomendada
Talend Integration Suite Administration Center Servidor ~50MB (cache)
Commandline Servidor 1GB+
JobServer Servidor 3MB mais o tamanho do projeto = 100MB+
Talend Integration Suite Studio Cliente 1GB+
Talend Open Studio, Open Profiler ou MDM Cliente ~400MB**

Compatibilidade com sistemas operacionais:

Sistema Operacional Talend Integration Suite Administration Center / CommandLine Talend Integration Suite Studio JobServer
IBM AIX (32bits / 64 bits) Sim Sim Sim
SUN SOLARIS 64bits Sim Sim Sim
WINDOWS XP Sim Sim Sim
WINDOWS VISTA (32bits/64 bits) Sim Sim Sim
WINDOWS 7 (32bits / 64 bits) Sim Sim Sim
WINDOWS 2003 SERVER (32bits/64bits) Sim Sim Sim
GNU/LINUX Sim Sim Sim

Sun Microsystems (JDK or JRE) JVM 1.5+ (versão 1.6+ recomendada) http://java.sun.com/javase/downloads/index.jsp as suites TIS Studio (Talend Integration Suite Studio), TOS (Talend Open Studio) e TOP (Talend Open Profiler) necessitam apenas da JRE (Java Runtime Enviroment), enquanto o MDM (Master Data Management) necessita da JDK (Java Development Kit).

Particularmente recomendo a execução das versões studio em um ambiente com no mínimo 1 GB de memória RAM, Linux ou Windows, e devido a falta de informações a respeito do processamento mínimo, sugiro Intel dual core ou compatível, para que possa experimentar os recursos multithread.

** -> Há divergência/carência de informações a respeito.

Fontes: Talend Integration Suite Installation Guide
Talend Forum – Generic Information regarding Talend

For your appreciation, the Talend

Olá pessoas. Neste post vamos apresentar à vocês a ferramenta Talend. Para que possam fazer avaliação do quanto essa ferramenta é prática e eficaz.

Hoje, todos procuram soluções inteligentes para o mundo dos negócios. Transformar Gigas, Terabytes de dados em informação legível, como gráficos, tabelas, é algo não apenas necessário, mas essencial para a tomada de decisão que hoje, acompanhando a velocidade da informação, deve ser feita em tempo real, tudo é pra agora, ou melhor pra ontem.  É onde entra a inteligência nos negócios, Busineess Intelligence (BI). As ferramentas de integração de dados, são conhecidas também como ETL (Extract, Tranform, Load), onde a função destas nada mais é do que preparar todos esses dados e organizá-los de forma a serem guardados em tabelas, fazendo com que consultas posteriores sejam mais simples e eficazes, é onde um emaranhado de dados começa a fazer sentido. Nesse ponto que se encaixa o trabalho do Talend Open Studio, a ferramenta livre e de código aberto da empresa francesa Talend. Com um poderoso sistema ETL, esta se comporta como a mais abrangente em código aberto do mercado. O Talend também trabalha com o processo denominado ELT (Extract, Load, Tranform), onde este sobressai em desempenho, quanto a carga em banco de grande volume de dados por aproveitar a eficiência das funções nativas do banco de dados em uso. O Talend mostra que a solução livre pode ser um ótimo negócio, chegando a concorrer com grandes como IBM, SAS e SAP.

Outro ponto positivo é quanto a documentação. No próprio site da Talend podemos encontrar toda a documentação para qualquer versão da ferramenta que queremos, seja ela em uma versão paga ou não. Podemos encontrar desde detalhes sobre a arquitetura do sistema até os componentes, explicados um a um, quanto a função e uso.

Desenvolvido em Java, O Talend possui entre outras, gerenciador gráficos para processos ETL, gerenciador de metadados, interface WebService para processos ETL. Aqui daremos uma visão sobre ETL, e a ferramenta gratuita TOS – Talend Open Studio, usada para tal fim. Desde instalação, passando por uma configuração inicial, e uma breve visão de interface.

Em outros posts trataremos especificamente cada uma dos tópicos tratados superficialmente aqui a fim de apresentar a ferramenta de maneira completa para que possamos passar para níveis mais avançados de tutoriais, onde ficará mais divertido! Mas agora vamos a parte chata menos legal necessária.

Talend é uma ferramenta que trabalha com a geração de código, sendo Java ou Perl. O mecanismo de geração de código permite a integração do código gerado pelo Talend dentro de outras soluções, além de ter maior portabilidade. E esta é o grande diferencial do Talend. Aqui trataremos apenas para o caso de Java, o que não torna inútil para quem segue com Perl, pois nos tutoriais trataremos do desenvolvimento que pode ser seguido em qualquer um dos casos.

Instalação

A instalação do Talend é muito simples. Na verdade, trata-se de uma extração para diretório de caminho curto, como “c:\Talend”, e ‘voila!’. Está feito. Agora podemos passar para a primeira execução.

Execução

Na execução, não somente na primeira, mas em todas, é apresentada um janela para

a configuração, seleção, importação, de projetos. Em dois campos, sendo o primeiro quanto a conexão, como local ou remoto, e um segundo campo projeto, onde temos opção de importar, criar ou remover um projeto. Por enquanto ficaremos com os projetos de demonstração em Java. Clique em ‘…’ e crie uma nova conexão. Selecione ‘Local’ em repositório. Dê um nome à sua conexão, sugiro “Local”. Escolha um diretório destino para a Workspace dos seus projetos.

Uma observação a ser feita, o Open Studio não possibilita a criação de uma conexão remota, ou seja, para o TOS o desenvolvimento sempre ocorrerá localmente.

No campo “Projeto” selecione ‘Import demo project’ clique em ‘Go!’, então selecione a linguagem. Espere a importação. Então refresh na lista de projetos,  selecione ‘TALENDDEMOSJAVA – java’ e ‘Open’. Pronto, aqui temos uma boa quantidade de Jobs, metadados, entre outros, sendo o suficiente para uma boa diversão.

Interface

Como aspirante à Java Monkey, sou bastante suspeito em falar, mas me lembro bem do primeiro dia em que usei o Talend e de como me senti em casa. Esta é muito pareceido idêntica à do Eclipse, sim, o poderoso assistente para projetos em plataforma. Na verdade o Talend, como outros tantos aplicativos e programas, roda dentro do ambiente Eclipse.

interface Talend Open Studio

Por default, o Talend dispõe suas abas da forma que irei apresentar logo em seguinte. Mas nada impede o usuário de ocultar, exibir outras opções, bem como mudar tamanhos, e até mesmo os locais das mesmas.

À esquerda, encontramos nossas conexões, metadados, templates, funções, além dos desenvolvimentos já desenvolvidos, bem como suas versões. Enfim, os dados a serem integrados e/ou transformados em nosso projeto, bem como funções que possamos vir a utilizar neste.

À direita, está o ouro. Digo isso pela gama de componentes que encontramos. É possível se chegar a solução do nosso problema de várias maneira diferentes usando vários componentes diferentes tamanha é quantidade de componentes disponíveis por default. E claro, se chegar a solução não é o único objetivo. Mas fazer isso com o menor número de recursos possíveis, como tempo, e recursos da própria máquina. Aqui, sempre priorizaremos mostrar a melhor solução, por excelência.

Abaixo, encontramos a aba de configuração, execução, teste, debug, o Talend Exchange, que possibilita a inclusão automática de novos componentes ampliando ainda mais nossos horizontes. Onde também configuramos as opções de cada componente adicionado ao Job.

E no meio disso tudo no campo para criação. O espaço onde desenvolvemos as soluções, onde os componentes são adicionados linkados para gerar o Job. Tudo no “arraste”, botão direito,  muito intuitivo.

O Talend apresenta solução flexível para atender aos processos de ETL de forma segura e confiável. A documentação pelo desenvolvedor se mostra bastante simples e de fácil acesso e fácil extração, podendo exportá-la como HTML, por exemplo. Estando ciente que a documentação se encontra completa apenas em inglês ou francês, é possível estudar sozinho para conhecer melhor esta ferramenta e perceber que pode ser usada para várias soluções que está procurando.

 

 

Comparativo das edições Talend

Comparativo das edições do software de ETL e Integração de dados Talend, contemplando as edições TOS (Talend Open Studio) e as versões da edição TIS (Talend Integration Suite) Team, Professional, RTx, Enterprise e MPx:

Característica TOS TIS
Team Pro RTx Ent MPx
Business Modeler Sim Sim Sim Sim Sim Sim
Job Designer Sim Sim Sim Sim Sim Sim
Metadata manager Sim Sim Sim Sim Sim Sim
400+ components available Sim Sim Sim Sim Sim Sim
Basic wizards (databases, files) Sim Sim Sim Sim Sim Sim
Change management with Job comparison Não Sim Sim Sim Sim Sim
Import Talend Exchange components Sim Sim Sim Sim Sim Sim
Impact analysis Não Sim Sim Sim Sim Sim
Data lineage Não Sim Sim Sim Sim Sim
Change Data Capture (Publish & Subscribe) Não Sim Sim Sim Sim Sim
Business rules driven integration (JBoss BRMS) Não Não Sim Sim Sim Sim
Advanced wizards (SAP, WSDL) Não Sim Sim Sim Sim Sim
Data preview Não Sim Sim Sim Sim Sim
Joblets Não Sim Sim Sim Sim Sim
Auto documentation Sim Sim Sim Sim Sim Sim
Metadata import Não Sim Sim Sim Sim Sim
Referenced projects Não Sim Sim Sim Sim Sim
Shared repository with check in/out Não Sim Sim Sim Sim Sim
Access right management Não Sim Sim Sim Sim Sim
User management with LDAP directory Não Sim Sim Sim Sim Sim
Store metadata & projects in SVN Não Sim Sim Sim Sim Sim
Store metadata & projects in existing SVN Não Não Não Não Sim Sim
Project audit Não Não Sim Sim Sim Sim
Expose Job as a web service Sim Sim Sim Sim Sim Sim
Command line options Não Sim Sim Sim Sim Sim
Time-based scheduling Não Sim Sim Sim Sim Sim
Event-based scheduling Não Não Sim Sim Sim Sim
Distant run Não Não Sim Sim Sim Sim
Grid management (load balancing & failover) Não Não Não Não Sim Sim
High availability Não Não Não Não Sim Sim
Native Hadoop support Não Não Não Não Não Sim
Highly scalable FileScale technology Não Não Não Não Não Sim
Massively Parallel architecture Não Não Não Não Não Sim
SOA manager Não Não Não Sim Sim Sim
Data services & data integration services Não Não Não Sim Sim Sim
Activity Monitoring Console Não Sim Sim Sim Sim Sim
Activity Monitoring Dashboard Não Não Sim Sim Sim Sim
Error recovery management Não Não Sim Sim Sim Sim
Real-time execution reporting and statistics Não Não Sim Sim Sim Sim
Community-based: forums, Bugtracker… Sim Sim Sim Sim Sim Sim
Access to Talend technical support Sim Sim Sim Sim Sim Sim
Documentation Sim Sim Sim Sim Sim Sim
Premium service levels Não Sim Sim Sim Sim Sim
Open Source GPL license Sim Não Não Não Não Não
Access to source code Sim Sim Sim Sim Sim Sim
Subscription license Não Sim Sim Sim Sim Sim
Indemnification Não Sim Sim Sim Sim Sim

Business Modeler: O Business Modeler é uma ferramenta não técnica (como o Microsoft Visio). Ele auxilia a estruturação de toda a documentação relevante e elementos técnicos que suportarão o processo de integração de dados em um diagrama de negócios amigável permitindo que times diferentes (Usuários, Desenvolvimento, Testes, Produção…) trabalhem em um modelo comum, usando uma ferramenta comum. Por exemplo, usuários do negócio usam modelos de negócio para expressar suas necessidades. Os times de TI podem então compreender melhor essas necessidades e traduzirem em processos técnicos (Jobs). Depois de cada estágio de implementação técnica (job) completo, o modelo de negócio pode ser facilmente atualizado, exibindo o progresso do desenvolvimento para cada participante do projeto.Administradores de bancos de dados podem usar modelos de negócio para compartilhar os metadados das conexões com os bancos de dados e arquitetos do sistema podem ter uma imagem dos requisitos em termos de integração de dados.

Job Designer: O Job Designer fornece tanto uma visão gráfica como funcional do processo de integração usando uma paleta gráfica de componentes e conectores. Processos de integração são construídos pelo simples “arrastar e soltar” de componentes e conectores no espaço gráfico, desenhando conexões e configurando suas propriedades.O Job Designer fornece acesso, através de uma grande biblioteca de componentes, a todos os tipos de origens e destinos necessários à integração de dados, migração de dados ou processos de sincronização. Componentes e conectores cobrem todos os tipos de tarefas e operações sobre os dados em si, sobre o gerenciamento de dados bem como sobre o fluxo de dados. Conexões auxiliam o acesso a todas as fontes de dados e sistemas de destino para integração de dados, migração de dados e sincronização de dados. Parâmetros são configurados em uma “visão” exibida para cada componente selecionado no job ou podem ser herdadas do “Metadata manager” (Repositório). Para manter a legibilidade dos Jobs, há a possibilidade de criação de subjobs, organizando os mesmos em jobs que gerenciarão a sequência de sua execução. Componentes do tipo “orchestration” bem como vários tipos de relacionamentos entre componentes (como onSubJobError ou onSubjobOk) auxiliam a criação de sequências para execução do processo. Uma visão em console permite monitorar a execução dos jobs, verificando sua performance diretamente do Studio.

Metadata manager: O Metadata Manager (Gerenciador de metadados) permite armazenar e gerenciar os metadados das conexões no repositório. O Repositório centraliza todas as informações do projeto e garante consistência em todos os processos de integração.Meta Informações relacionadas aos sistemas de origem e destino dos processos de integração são facilmente carregadas no Metadata Manager através de um sistema avançado composto por vários assistentes. O Metadata Manager é baseado em um modelo relacional aberto, onde as dependências de trabalho podem ser facilmente identificadas, facilitando a manutenção dos jobs. Dados contextuais, tais como detalhes de conexões com bancos de dados ou caminhos de arquivo também podem ser centralizados no Metadata Manager, facilitando sua utilização e atualização. A estrutura de dados de qualquer fonte ou sistema de destino também pode ser facilmente recuperada e intepretada em forma de esquema, que é reutilizado para todos os tipos de operaão de dados em todos os seus processos de integração. Peças complementares de códigos, rotinas ou métodos também podem ser unificados no repositório, facilitando o reuso e refatoração das peças do processo.

400+ components available: Todas as versões do Talend possuem mais de 400 componentes disponíveis para a criação de processos de integração de dados e ETL, tais como componentes para conexão a fontes de dados e diversos outros envolvidos no processamento dos jobs. Além dos diversos disponibilizados nativamente pela ferramenta, há também a possibilidade de download de vários outros criados pela comunidade de usuários, através do Talend Exchange. Alguns componentes não estão disponíveis para as versões gratuitas do Talend, como por exemplo os componentes de CDC (Change Data Capture) e acesso a sistemas SAP.

Basic wizards (databases, files): Diversos assistentes posibilitam criar e gerenciar conexões a arquivos, bancos de dados e outros sistemas.

Change management with Job comparison: O Job Compare ajuda a identificar diferenças entre dois jobs ou mesmo duas versões de um mesmo job.Esta funcionalidade é totalmente integrada no Talend Integration Suite Studio. O resultado da comparação dos jobs é um relatório visual e interativo em html ou xml onde as diferenças são destacadas.

Import Talend Exchange components: Através do Talend Exchange é possível ter acesso a dezenas de outros componentes que não são disponibilizados junto da suite por padrão, além de jobs desenvolvidos por usuários da comunidade. Dentre estes, alguns exemplos são componentes para geração de documentos PDF, entrada de dados a partir de tabelas HTML e validação de endereços através do Google Maps, ou jobs para geração de dimensões de tempo. Estes componentes e jobs podem ser obtidos tanto a partir da “visão” Talend Exchange, nativa da ferramenta, quanto a partir do site http://www.talendforge.org/exchange, para serem adicionados ao diretório de componentes da ferramenta manualmente.

Impact analysis: A Análise de Impacto auxilia a compreensão de quais seriam as consequências de uma mudança. Esta característica é disponível no Metadata Manager (ou Gerenciador de Metadados). É possível realizar uma análise de impacto em qualquer coluna de qualquer metadado (banco de dados, etc.). O resultado de uma análise de impacto é exibido em um relatório gráfico e interativo onde é possível rastrear a coluna e visualizar todas as operações aplicadas a ela, da origem ao destino, através do Job. É possível exportar este relatório para um arquivo HTML.

Data lineage: O Data Lineage funciona como uma linha do tempo, permitindo visualizar onde uma alteração ocorreu. Esta característica é disponível pelo Metadata Manager (ou Gerenciador de Metadados) e pode ser executada em qualquer coluna de qualquer metadado (banco de dados, arquivo, etc.). O resultado da linha de tempo dos dados é exibido em em relatório que traça as mudanças do alvo.

Change Data Capture (Publish & Subscribe): A habilidade de capturar apenas os dados atualizados em tempo real é conhecida como Change Data Capture (CDC). Capturar apenas alterações reduz o tráfego de dados entre sistemas e ajuda a reduzir o tempo do ETL. A arquitetura CDC do Talend é baseada em um modelo editor/assinante (publisher/subscriber). O editor captura as alterações de dados e as disponibiliza para os assinantes (Jobs Talend). Os assinantes utilizam os dados alterados obtidos dos publishers. Esta característica detectas registros alterados em tempo real, permitindo que os dados alterados sejam enviados imediatamente para os jobs assinantes consequentemente reduzindo o tempo necessário para a carga e atualização de dados durante o ETL ou integração de dados. O CDC do Talend apresenda dois modos mais utilizados: Trigger (gatilho) e logs de repetição (redo). Os modos disponíveis dependem do dipo de banco de dados.

Business rules driven integration (JBoss BRMS): Regras de negócio são geralmente definidas pelos usuários do negócio através de documentos de especificação que são então interpretados pelo corpo técnico. O Talend Integration Suite possui embutido um motor que auxilia usuários a configurar suas próprias regras de negócio. Os usuários podem então definir critérios de segmentação de mercado (ex.: por idade, região) e estabelecer suas regras de negócio através de uma planilha Excel ou através da interface Drools Guvnor diretamente no Talend Administration Center. A interface Drools Guvnor permite que os experts do negócio usem um editor gráfico para criar e editar regras rápida e diretamente, controlar acessos a regras e outras características, gerenciar versões de regras e modificações através do tempo. Regras podem ser testadas e chamadas a partir dos jobs desenvolvidos.

Advanced wizards (SAP, WSDL): As edições do TIS – Talend Integration Suite – contam com assistentes avançados que permitem o gerenciamento de conexões a web services (WSDL) e outros sistemas como SAP e HL7.

Data preview: Durante o desenvolvimento de Jobs, pode ser necessário visualizar o conteúdo das diversas origens ou sistemas destino (arquivos, bancos de dados, etc.). O Data Viewer auxilia na visualização dos dados destes sistemas independente da aplicação usualmente necessária para abrí-los: Editores de texto, ferramentas para execução de consultas SQL, MS Excel, Navegadores, etc. Não há necessidade de possuir várias ferramentas e nenhuma necessidade de acessar os sistemas onde os dados se encontram, o Data Viewer utiliza os caminhos de origem/destino configurados para seguir para os dados verdadeiros. O Data Viewer economiza uma quantidade significativa de tempo já que é diretamente acessível pelo Studio, através de um simples clique-direito em qualquer componente. É uma maneira conveniente de visualizar os dados contidos nos sisteemas de origem/destino independente do formato (txt, csv, xls, etc.) durante o desenvolvimento de um processo de integração.

Joblets: Joblets auxiliam na fatoração de uma parte de um Job (ou subjob) em um componente Joblet, bastando selecionar os componentes formando a parte do Job que se deseja reutilizar e clicar em “Refactor to Joblet”. Automaticamente o desenho do job é simplificado, visto que os componentes selecionados são reduzidos em um único componente. Este componente Joblet pode ser compartilhado através do diretório de Joblets na paleta de componentes e é então facilmente reutilizável em qualquer Job. Joblets simplificam drasticamente a manutenção de jobs complexos e redundantes.

Auto documentation: Esta característica auxilia na geração automaticamente uma abrangente e extensa documentação para todos os jobs. Esta documentação técnica está sempre atualizada e versionada junto dos jobs: tão logo um job é salvo, a documentação será atualizada e salva no repositório portanto estará disponível para todos os usuários. Esta documentação pode ser extendida através de componentes. Todos os componentes possuem um painel de Documentação em suas configurações, onde é possível adicionar comentários customizados. Estes comentários serão levados em conta e destacados na documentação gerada. Além do mais, é possível customizar a aparência gráfica da documentação adicionando o logomarca e nome da empresa, ou alterando cores usando um arquivo CSS customizado.

Metadata import: O Talend Integration Suite Studio permite a migração de metadados de qualquer aplicação para os metadados do Studio. Dentro do nó Metadados (ou Metadata) na visualização em árvore do Repositório, é possível importar metadados de arquivos CSV de uma aplicação externa. Esta opção é disponível apenas para conexões com bancos de dados e arquivos delimitados.

Referenced projects: Os projetos referência ajudam a evitar duplicação (copiar-colar) de itens (Jobs, Rotinas, Documentação, Metadados) entre projetos. Projetos “escravo” são ligados a um (ou mais) projetos “mestre” por referência e portanto herdam itens dos projetos pai. Os recursos vindos do projeto mestre aparecem no projeto escravo no modo apenas leitura: estão disponíveis para reuso e execução mas não podem ser modificados. Graças à forte ligação que é estabelecida entre projetos escravos e mestres, assim que atualizações forem feitas nos projetos mestre, o projeto escravo será atualizado.

Shared repository with check in/out: O Repositório Compartilhado é desenhado para consolidar todas as informações do projeto e metadados da empresa em um repositório compartilhado por todos os envolvidos no processo de integração. No Studio usuários tem acesso garantido para projetos de acordo com seus papéis e permissões definidos no Talend Administration Center. O Repositório Compartilhado permite trabalho em equipe e colaboração entre todos os envolvidos em um projeto de integração. Ele auxilia a armazenar e compartilhar todos os itens do Talend: Modelos de negócio, Jobs (processos), Joblets, Rotinas, Metadados (tais como conexões a sistemas de origem e destino). Por trás do Repositório Compartilhado está um gerenciador de versões Subversion que permite o armazenamento e gerenciamento de versões de todos os items. Um sistema de travas auomático garante que um job que está sendo desenvolvido esteja efetivamente travado e nenhum outro usuário possa alterar o mesmo job ao mesmo tempo. A partir da versão 4.0, o Talend aderiu completamente ao poder do versionador Subversion, permitindo lidar com diferentes “branches”, check in/check out, commit manual ou automático, comentários, etc.

Access right management: Através do Talend Administration Center é possível gerenciar as permissões dos usuários. Na página de autorizações será possível permitir que um usuário acesse um ou mais processos e especificar seu nível de acesso como apenas leitura ou leitura e escrita.

User management with LDAP directory: O Talend Administration Center possibilita o gerenciamento de usuários e permissões através do protocolo LDAP. O LDAP, Lightweight Directory Access Protocol, é um protocolo para atualizar e pesquisar diretórios rodando sobre TCP/IP. O LDAP é uma definição de protocolo para acesso a bancos de dados especializados chamados diretórios. É similar ao SQL no sentido que é uma linguagem para interagir com bancos de dados sem especificar um banco de dados particular. De fato, o banco de dados de suporte ao LDAP é quase sempre um sistema RDBMS geral, como o LDBM ou o Oracle. Nas diversas tecnologias que empresas de médio e grande porte utilizam hoje em dia, uma área para autenticação é exigida por praticamente todos os sistemas, o que pode muitas vezes ocasionar uma variada quantidade de cadastro de usuários replicados entre os sistemas. Como solução, um servidor de diretórios como o Open LDAP ou MS Active Directory recebe autenticação dos muitos sistemas; o protocolo LDAP serve justamente para outras aplicações quaisquer da empresa se conectarem e consultarem um servidor de diretórios.

Store metadata & projects in SVN: As edições do Talend Integration Suite permitem o armazenamento de metadados e projetos como um todo em um servidor SVN Subversion.

Store metadata & projects in existing SVN: As edições do Talend Integration Suite permitem o armazenamento de metadados e projetos como um todo em um servidor SVN Subversion. Porém, há uma diferença contratual, que restringe a utilização de um servidor SVN existente nas edições Team, Professional e RTx. Desta forma, caso deseje utilizar um SVN próprio, o cliente deverá optar pelas edições Enterprise ou MPx.

Project audit: O Talend Project Audit transforma os fluxos de dados de um projeto em informações valiosas para o negócio. Seu objetivo é disponibilizar sólidas avaliações quantitativas e qualitativas para suporte a decisões orientadas ao processo. A auditoria de projetos é o processo de coletar e avaliar informações sobre operações em jobs desenvolvidos no Studio. A avaliação das informações obtidas determina se os processos técnicos e fluxos de dados utilizados no projeto auditado estão operando eficientemente para alcançar os objetivos do projeto. Os resultados da auditoria são apresentados em relatórios imprimíveis gerados para disponibilizar vários dados relacionando áreas diferentes do projeto auditado.

Expose Job as a web service: Todas as edições Talend podem exportar seus Jobs como Web services. O usuário pode então expô-los em um servidor de aplicação como Apache Tomcat ou JBoss. As edições Talend que possuem SOA Manager possibilitam a exposição de processos (Jobs) como serviços (Web services), permitindo sua implantação em quaisquer aplicações e sistemas heterogêneos utilizando vínculos SOAP (Simple Object Access Protocol).

Command line options: O command line é um aplicativo que está instalado no mesmo computador que o WebApplication para gerar código Java a partir de arquivos XML armazenados no banco de dados do repositório. Esta aplicação permite que usuário acesse os mesmos comandos do TIS Client usando uma interface de comando. Através deste podemos: exportar e importar metadados, executar jobs gravados no repositório do banco de dados, criar projetos, mudar status ou versões dos jobs, etc. O command line pode ser iniciado como: – Server: o aplicativo espera por comandos para executar em um computador remoto. – Shell: o usuário executa a sequência de comandos. – Standalone application: o aplicativo executa um comando. Isso é interessante, por exemplo para gravar em um arquivo uma lista de comandos e lançá-lo neste modo.

Time-based scheduling: Faz o agendamento da execução do Job que pode ser definido com valores absolutos como data e hora, ou tempo relativo, como intervalos de tempo. Usando parâmentros como: (nome do projeto, nome do job, versão do job, servidor…). E essa execução pode ser gerenciada pelo Job Conductor, presente no Talend Administration Center.

Event-based scheduling: Funciona como uma extensão do Time-based scheduling. Onde este funciona através de trigger(s), como um evento, seja monitorando um diretório para o aparecimento de um arquivo, ou mesmo sua modificação, ou uma base de dados, usando a condição “wait for”.

Distant run: Disponibiliza a execução remota de Jobs em qualquer computador, o que torna útil para testar os Jobs desenvolvidos em diferentes meios, como sistemas, bancos, etc… Através do alvo (Target) se faz possível a seleção dinâmica para a execução.

Grid management (load balancing & failover): O módulo Grid Conductor (acessível através do Job Conductor) otimiza a escalabilidade e disponibilidade dos processos de integração garantindo um uso otimizado do grid de execução. O Grid Conductor baseia-se na definição de servidores virtuais, os quais agrupam recursos disponíveis, independente do tipo de sistema (CPU, Sistema Operacional). Tarefas são atribuídas a servidores virtuais do Grid Conductor ao invés de a um único servidor de execução. Através do constante monitoramento dos recursos disponíveis nos servidores de execução, o Grid Conductor garante que todos os jobs executem sem problemas no tempo do disparo (triggering time) utilizando todos os recursos disponíveis, removendo os gargalos criados pela abordagem de um único servidor tradicional. Isto alivia qualquer prooblema relacionado a prioridades quando um grande número de jobs são executados concorrentemente, ou quando servidores não dedicados são utilizados. O Grid Conductor também disponibiliza controle de falhas (fail-over) quando um recurso se torna indisponível.

High availability: Através desta característica se torna possível o deploy de múltiplos Job Conductors e a execução de Job Servers. Isso garante duas fontes de execução, estando uma em standby (failover), previnindo contra o fim da execução. Ou seja, na falha do primeiro, o segundo será iniciado.

Native Hadoop support: Apache Hadoop é um framework Java livre que suporta uma grande massa da dados. Este também usa a arquitetura MapReduce o que permite o trabalho com milhares de nós e grande volume de dados. (ver FileScale)

Highly scalable FileScale technology: FileScale ordena e transforma dados usando inovadores algoritmos matemáticos de alta-performance para o processamento de dados. Este quebra qualquer processo em um número maior de pequenos processos, melhorando a performance. Basicamente, funciona através dedois passos, Map e Reduce. Onde no Map “quebra” o problema inicial em sub-problemas mais simples, o que é feito recursivamente até atingir um baixo-nível de algoritimos para a solução dos pequenos problemas nas folhas da árvore que será formada neste primeiro passo. Assim no segundo, esses nós são utlizados contendo as soluções para os problemas menores, permitindo o processamento em paralelo no nível em que o número de processadores e outros recursos permitirem.

Massively Parallel architecture: É o trabalho com uma quantidade massiva de dados, algo como Petabytes de informação. E para lidar com isso a arquitetura paralela foi idealizada. Talend Integration Suite MPx com seus componentes de FileScale e Hadoop é o mais preparado para a tal tarefa. (ler Native Haddop e Highly FileScale). Visitar (bom exemplo de teste de execução): http://blogs.sun.com/aja/entry/talend_s_new_data_processing

SOA manager: SOA Manager oferece graficamente via Web browser a possibilidade de exposição de jobs como serviços (Web Services), possibilitando o deploy automático para diversas applicações e sistemas diferentes usando SOAP – Simple Object Access Protocol.

Data services & data integration services: A prática de integração de dados abrange uma ampla gama de ofertas de serviços, incluindo ETL, a integração operacional, gerenciamento de dados mestres (MDM), migração de dados, gerenciamento de metadados, otimização de performance e limpeza de dados. Com um conjunto de serviços deste abrangente, assim com Talend é possível criar a integração de dados para atender as necessidades.

Activity Monitoring Console: O AMC – Activity Monitoring Console é uma ferramenta de supervisão em uma interface gráfica conveniente. Ele disponibiliza funcionalidades que podem ser utilizadas para consolidar informações coletadas dos logs, compreender as interações entre Jobs, prever erros que poderiam ser inexperados e suportar decisões de gerenciamento dos sistemas. O AMC monitora eventos dos jobs (sucessos, falhas, avisos, etc.), tempos de execução e volumes de dados através de um único console em um único lugar. Esta ferramenta está disponível como stand-alone ou pode ser totalmente integrada ao Studio.

Activity Monitoring Dashboard: O Dashboard é uma versão Web do Activity Monitoring Console, AMC, que pode ser acessada facilmente através de um navegador Web. O Dashboard disponibiliza diagramas de performance e indicadores de status, possibilitando que qualquer envolvido no projeto visualize tanto o status atual quanto o histórico de qualquer processo de integração.

Error recovery management: Em caso de falha na execução de um job, o processo pode ser reiniciado a partir de um dos checkpoints. Recovery checkpoints podem ser especificados nos intervalos de fluxos de dados (conexões entre componentes). Isso economiza tempo, pelo fato da futura execução do job poder ser iniciada a partir do ponto onde houve o erro. Assim o processo pode ser reiniciado a partir do último checkpoint antes de ocorrer a falha.

Real-time execution reporting and statistics: As empresas de hoje convivem em um mundo onde os dados de poucas horas atrás já está obsoleto e usar solução de baixa latência não é interessante. Para atender a esse ponto fundamental a Talend dispõe de uma arquitetura orientada a Serviços, SOA, LDAP, CDC …

Community-based: forums, Bugtracker…: No TalendForge é possível encontrar uma grande lista de componentes existentes, bem como novos componentes criados por usuários. Um fórum, wiki, tutoriais, blogs, bugtracker, onde é possível reportar erros e falhas para correções em versões futuras. E também um repositório contendo o código fonte da ferramenta, totalmente aberto.

Access to Talend technical support: O acesso ao suporte técnico da Talend se faz presente em todas as edições do TIS, desde que a licença esteja vigorando. Mas já na versão aberta, o suporte é opcional. E este pode ser obtido em três níveis, sendo estes Silver, GOld e Platinum. Indicado nos casos: Silver: Obter suporte técnico da Talend para projetos importantes. Gold: Para projetos mais pesados e com tempo crítico, o suporte técnico tem uma resposta mais rápida e sem limites de incidentes. Platinum: Suporte técnico avançado, dedicado para clientes de contrato Talend Quality Insurance.

Documentation: Há uma extensa gama de documentação disponível para o usuário, através dos manuais da ferramenta, wiki, tutoriais, webinars, white papers, etc.

Premium service levels: Existe um programa Talend que pode ajudár a tirar proveito das melhorias Open Source e integração de dados do valor acrescentado de soluções de Talend. Ser parceiro, é fazer parte de um ecossistema de software fornecendo consultoria de alta qualidade, serviço e suporte aos seus clientes ao redor do mundo. Juntos, Talend e seus parceiros podem atender as necessidades dos clientes atuais e futuros com a mesma plataforma open source de integração de dados. Esta revolução abre novos horizontes e “democratiza” a interoperabilidade das aplicações dos seus clientes. Há uma série de benefícios para parceiros da Talend, como descontos em treinamentos, participação em eventos, entre outros.

Open Source GPL license: Talend segue modelo de software livre, inovador, em uma ferramenta poderosa com flexibilidade para atender o que as organizações precisam. Publicando seu códigos sob GNU Public License ou the Apache License o Talend oferece aos desenvolvedores a possibilidade de melhoria na ferramenta de acordo com suas necessidades.

Access to source code: A Talend disponibiliza no seu site da Talend Forge os códigos fonte para a melhoria por parte dos participantes e contribuintes para a melhoria da ferramenta.

Subscription license: Os softwares da Talend aderem ao modelo de licença de subscrição, ou seja, a licença estará em vigor enquanto existir um contrato para o suporte. Logo, valores e opções de licença dependerão da edição a ser contratada e do tipo de suporte desejado.

Indemnification: A indenização no caso de dano causado ao projeto por mau funcionamento da ferramenta se faz presente em todas as versões pagas- TIS.