Computação de Alta Performance: 2014

quinta-feira, 23 de outubro de 2014

1.INTRODUÇÃO

A maioria dos problemas da dinâmica de fluidos são descritos pelas equações de Euler e de Navier-Stokes (Chung, 2010), (Randles et al., 2013). Através do estudo das propriedades dos líquidos e gases é possível determinar diferentes tipos de fenômenos físicos, tais como: simulação de furacões, previsão de tempo, aerodinâmica,aeroacústica e gerenciamento térmico (Batchelor, 2000), (Schepke et al., 2009).

A evolução dos sistemas computacionais tornou possível resolver estes problemas de forma eficiente através de novas técnicas de simulação. Com isso, alguns métodos e algoritmos foram desenvolvidos para simulações numéricas. Normalmente, o domínio de um problema da dinâmica de fluidos é discretizado, gerando um conjunto de equações lineares que é resolvido através de métodos numéricos (Sims et al., 2000). Métodos alternativos, como o Método de Lattice Boltzmann (MLB) foram desenvolvidos para melhorar e simplificar estas etapas.

Do ponto de vista computacional, as operações do MLB são essencialmente locais, e o paralelismo do algoritmotorna-se uma alternativa para reduzir o tempo de execução e com isso permitir a simulação de problemas maiores em tempo aceitável. Devido a isso, o MLB constitui a possibilidade de avaliar o Intel Xeon Phi para indicar se o coprocessador é uma boa abordagem para aplicações da dinâmica de fluidos.

O Intel Xeon Phi é um dos mais novosmany-core. O coprocessador possui até 61 cores e 244 threads para acelerar códigos altamente paralelos. Esta arquitetura permite o uso de linguagens de programação tradicionais e ferramentas de desenvolvimento padrão. Neste trabalho, investigamos como o coprocessador Intel Xeon Phi poderia impactar no tempo de execução de modelos de fluxo de fluido, considerando duas interfaces de programação paralela.

O restante deste artigo está organizado da seguinte forma. A Seção 2 dá uma visão geral do coprocessador Intel Xeon Phi. A Seção 3 apresenta os trabalhos relacionados com o MLB e avaliações anteriores de diversas arquiteturas paralelas. A Seção 4 apresenta detalhes da nossa versão paralela do MLB. Os resultados experimentais são mostrados na Seção 5. Finalmente, a Seção 6 apresenta a conclusão deste trabalho e os trabalhos futuros previstos.

2.INTEL XEON PHI

O coprocessador é acoplado ao sistema hospedeiro por meio de uma PCI Express que executa internamente uma distribuição Linux leve (Jeffers e Reinders, 2013).

Interfaces de programação paralela como Intel Cilk Plus e OpenMP (OpenMP) permitem que o desenvolvedor execute a parte intensiva da computação do código na arquitetura desejada. Aplicações programadas em paralelo com tais interfaces podem ser compiladas no sistema local utilizando aflag -mmic que permite que o compilador gere um arquivo executável para arquitetura MIC.

3.TRABALHOS RELACIONADOS

Diversos experimentos têm sido feitos sobre a avaliação comparativa do coprocessador Intel Xeon Phi. A maioria desses trabalhos relatam resultados em aplicações numéricas (Winter et al., 2014), (Vaidyanathan et al., 2014).

No entanto, há poucos trabalhos sobre o MLB para o coprocessador Intel Xeon Phi. Crimi et al. (2013) descreve resultados de experimentos iniciais no protótipo MIC Knights Corner (KNC).

4.IMPLEMENTAÇÃO PARALELA

Neste trabalho, o Método de Lattice Boltzmann foi implementado em linguagem de programação C.

A estrutura s_properties contém as propriedades físicas, tais como: densidade, aceleração, escala do tempo de relaxação e o diâmetro real simulado usado para o cálculo do número de Reynolds.

A estrutura s_lattice armazena informações a respeito da malha. Nela está definido um vetor descrevendo a posição das barreiras e bordas do fluxo e um vetor onde são armazenadas as informações das propriedades físicas atribuídas a cada um dos pontos da malha.

O laço principal do algoritmo é composto por operações de redistribuição, propagação, condição de contorno e relaxação. Nas subseções seguintes são apresentados detalhes das implementações paralelas do Método de Lattice Boltzmann, destacando cada interface de programação utilizada.

4.1 Intel Cilk Plus

O código apresentado na Fig. 1 descreve a paralelização do método usando a interface de programação paralela Intel Cilk Plus.

O laço cilk_for é um substituto para o laço for que permite que iterações sejam executadas em paralelo. Em tempo de execução, o laço cilk_for é convertido em uma função chamada recursivamente utilizando o paradigma dividir para conquistar.

4.2 OpenMP

Nesta versão, as iterações do laço são divididas pelo número de fluxos de execução. As variáveis privadas e compartilhadas são definidas por um construtor padrão. Há barreiras implícitas no fim das construções

#pragma omp parallel for.

O código na Fig. 2 descreve a paralelização do método com essa interface de programação paralela.

A Fig. 3 mostra os resultados de tempo de execução no Intel Xeon Phi, destacando- se cada interface de programação utilizada e quatro variações de tamanho da malha. Os resultados computacionais foram obtidos a partir da média de 20 execuções, onde o desvio padrão foi menor que 1s.

Em relação às interfaces de programação paralela, OpenMP apresenta um speedup maior, sendo até 33,97% melhor que Cilk, isso se deve às otimizações de cada interface para operações matemáticas e de acesso à memória.

De modo geral as funções são divididas em dois grupos. As demath-bound são funções que possuem uso intensivo de operações matemáticas e as de memory- bound funções que possuem dependência de dados e grande numero de acessos à memória.

Intel Cilk Plus apresentou melhor desempenho em funções memory-bound,como as de propagação e condições de contorno, e OpenMP em funções math- bound, as quais nesta aplicação representam a maior parte do tempo de execução.

Avaliou-se o speedup, tempo paralelo dividido pelo tempo sequencial. A Tabela 1 apresenta o speedup de cada interface variando o tamanho da malha. O speedup é em relação à versão sequencial utilizando um core do Intel Xeon E5 (última linha da tabela).

6.CONCLUSÃO E TRABALHOS FUTUROS

Neste trabalho, avaliamos o desempenho das versões paralelas do Método de Lattice Boltzmann executando no coprocessador Xeon Phi. Nossos experimentos mostram que a interface OpenMP otimiza ganhos em funções math-bound e a Cilk mem-bound.

Trabalhos futuros incluem avaliações experimentais do nosso MLB paralelo utilizando a nova interface OpenMP 4. Além disso, a versão tridimensional do MLB será implementada.

BATCHELOR, G. K. An Introduction to Fluid Dynamics. In: Cambridge university press, 2000.

SCHEPKE, C.; MAILLARD, N.; NAVAUX, P. O. A. Parallel Lattice Boltzmann Method with Blocked Partitioning. International Journal of Parallel Programming, 2009.

SIMS, J. S.; HAGEDORN, J. G; KETCHAM, P. M.; SATTERFIELD, S. G. Accelerating Scientific Discovery Through Computation and Visualization. Journal of

Research of the National Institute of Standards and Technology, 2000.

JEFFERS, J.; REINDERS, J. Intel Xeon Phi Coprocessor High Performance Programming. In: Morgan Kaufmann,2013.

WINTER, F. T.; CLARK, A.; EDWARDS, R. G.; JOO, B. A Framework for Lattice QCD Calculations on GPUs. International

Parallel and Distributed Processing Symposium, 2014.

VAIDYANATHAN, K; PAMNANY, K.; KALAMKAR, D. D.; HEINECKE, A.; SMELYANSKIY, M.; PARK, J.; KIM, A. S. G.; KAUL, B.; JOO, B.; DUBEY, P. Improving Communication Performance and Scalability of Native Applications on Intel Xeon Phi Coprocessor Clusters.

International Parallel and Distributed Processing Symposium, 2014.

CRIMI, G.; MANTOVANI, F.; PIVANTI, M.; SCHIFANO, S.; TRIPICCIONE, R. Early Experience on Porting and Running a Lattice Boltzmann Code on the Xeon-phi Co-Processor.Procedia Computer Science,

2013

Agradecimentos

Este trabalho foi financiado pelo PROBIC - FAPERGS / UNIPAMPA. Gostaríamos de agradecer ao Intel Manycore Testing Lab que nos permitiu utilizar os seus sistemas de computação.

REFERÊNCIAS

CHUNG, T. J. Computational fluid dynamics. In: Cambridge university press.

2010.

RANDLES, A. P.; KALE, V.; HAMMOND, J.; GROPP, W.; KAXIRAS, E. Performance Analysis of the Lattice Boltzmann Model beyond Navier-Stokes. Parallel and Distributed Processing, 2013.

sexta-feira, 17 de outubro de 2014

Promoção Scherm Cluster com Iphone 6

Informe Scherm Brasil

Promoção Iphone 6

Na Aquisição de um cluster Scherm de no mínimo 4 nodes de cálculo e 1 head node receba junto um Iphone 6 16 GB com capa personalizada de seu cluster.

Incluso monitoramento remoto do cluster pelo iphone (possível conforme regras de segurança da instituição)

Promoção até Novembro de 2014

Dton Cube da Scherm proporciona alto desempenho e silêncio total para pesquisadores e profissionais de design

Se você entrasse num centro de pesquisa há 10 ou 15 anos, encontraria supercomputadores gigantescos e bastante barulhentos. Para um usuário normal, um PC nada silencioso já é incômodo. Agora imagine o quanto isso atrapalha um cientista.
Ainda bem que as máquinas evoluíram desde então. Mas os nossos parceiros da Scherm Brasil resolveram dar um passo adiante nessa evolução e anunciaram seu Dton Cube. Ele não apenas oferece alto desempenho para pesquisas científicas e ambientes profissionais, como também tem uma ambiciosa proposta: praticamente não fazer barulho.
dtoncub

Para alcançar esse baixíssimo nível de ruído numa máquina tão poderosa, eles implementaram uma solução de refrigeração a água. Isso sem deixar de lado suas configurações de supercomputador, que incluem a nova linha de processadores Intel E5-2600 V3 e até 1 TB de memória Ram ECC DDR3 com velocidades de até 1.866 Mhz.
Claro que o supercomputador não teria o mesmo desempenho sem uma placa de vídeo, e há uma boa gama de escolhas nessa área. É possível incluir até 3 GPUs das linhas NVIDIA Quadro ou NVIDIA Tesla.
Elas são projetadas especialmente para proporcionarem a melhor performance, permitindo que cientistas consigam processar dados com a agilidade que precisam, e que designers e artistas possam realizar seus projetos tal qual os idealizaram.
Exemplo disso é o professor Carlos Eduardo Pena Jr., do Centro Universitário do Espírito Santo (UNESC). No pouco tempo desde que adquiriu o Dton Cube, ele já verificou uma melhor de 14 vezes no desempenho, o que garante um grande ganho na agilidade das simulações.
Em seu trabalho no Núcleo de Inovação Tecnológica e no Instituto de Pesquisa e Inovação Biotecnológia, o supercomputador já foi utilizado para auxiliar em pesquisas para desenvolvimento de novos remédios, para produção de biocombustíveis e no desenvolvimento de nanoestruturas.
Fundada em 2002 , a Scherm Brasil é uma empresa líder em customização de servidores e soluções de armazenamento no Brasil . Com sede em Rio Claro, São Paulo, a Scherm também tem escritório em São Paulo Capital e Miami EUA. A experiência Scherm leva soluções cuidadosamente personalizadas para empresas que necessitem alto desempenho fornecendo equipamentos inovadores e escaláveis com foco em computação científica, nuvem , virtualização e big data.

terça-feira, 4 de fevereiro de 2014

Scherm no Sbac Pad 2013

One Year, 7,000 Xeon Phi Cards: The TACC Experience

Nicole Hemsoth

The Intel Xeon Phi, which was just branded and officially launched back in November 2012, is already behind some leading research at one of the U.S.’s premier scientific computing centers. According to leaders at the Texas Advanced Computing Center (TACC), the coprocessor has made significant bounds into a wider array of applications over the last year.
The Stampede supercomputer at the Texas Advanced Computing Center (TACC) was the first large-scale system to deploy the Phi at massive scale. We spoke with Dan Stanzione, acting director at TACC (replacing Jay Boisseau, who retired from the center in January) about the Dell-integrated system, which has around 100,000 processors and 2.2 petaflops of performance within the base Xeon system alone. In addition to this, Stampede has a number of specialized subsystems, including a large shared memory system, GPUs to support on-system visualization as well as GPU computing. The approximately 7,000 Xeon Phi cards added another 7.5 petaflops of performance, bringing the system to #7 on the most recent Top 500 list at around 10 petaflops.
The use cases for Xeon Phi at TACC have been most notable in a few key areas, including molecular dynamics for flu vaccine research, quantum chromodynamics and increasingly, weather forecasting, Stanzione says. However, their deployment of the cards was rather different than usual to begin with. Since they received Stampede nodes well in advance of the Phi cards, the team had to later install each card by hand—one for each of the nodes (although some are equipped with two). Aside from going through close to 150,000 screws, this meant that users were forced to skip the staging process that happens with new architectures.
For many users, instead of taking time on workstations and on small experimental clusters to kick the Phi tires, they jumped in at full scale. The benefit of this, however, was that Stanzione and his team were able to see the entire lifecycle of the Phi implementation. It started with very small experimental runs, but over time they’ve seen it catch on with a number of user groups, with some moving quickly into production and scaling up the size of their runs to tens of thousands of cores. Stanzione says they’ve seen Phi usage grow from 1 or 2 percent of the cycles each month to 10-20 percent.
“The Phi is one of several solutions (GPUs, FPGAs, APUs and others) focused on changing the power and performance curves that are the current trends in supercomputing. Transistors and operations are getting more efficient in every generation, but our demand for computation is growing faster than our power efficiency–so we still end up with substantially bigger systems that take more power,” said Stanzione. He made this point in the context of the Ranger system that Stampede stepped in for, noting that Stampede’s base system is about four times the compute power that Ranger was, but it’s also about twice the physical power and footprint of Ranger. “That’s not a curve we can stay on forever. The Xeon Phi is Intel’s approach to really changing these power and performance curves by giving us simpler cores with a simpler architecture but a lot more of them in the same size package.”
Stanzione continued, “Although we have the same power per transistor, we have a lot less power per floating point operation…the ARM, GPU and other folks are taking different approaches to that problem but we went with Phi. We went through all of them and looked carefully because although in any of these architectures you have much more parallelism on the chip you’re going to have to expose a lot more of the parallelism in your application, but the Phi was most familiar to the largest swath of our users—it’s the familiar x86 programming model; OpenMP for threading, MPI for task-based parallelism.”
“Whether you’re looking at GPUs or Xeon Phi that are both in the accelerator world now on a separate card and offloaded to the CPU, I think they both foreshadow what is coming in the future—the not so distant future—in the mainline processors. The work that we’re putting in now to optimize codes for these architectures is certainly going to pay off down the line as these become part of the mainline processors. So it’s not so much ‘should I adopt them;’ it’s whether you want to get a jump for the future.”

Elemental Video Processing Selected by Channel One for Sochi 2014 Winter Games

ussia’s largest broadcaster engages proven platform to deliver multiscreen coverage
Portland, Ore – January 23, 2014 – Elemental Technologies, the leading supplier of video solutions for multiscreen content delivery, today announced that Elemental® Live systems will be used by Channel One in Russia to stream the Sochi 2014 Olympics. In a system delivered by Open Technologies, one of the country’s leading IT suppliers, Elemental systems will process nine channels of Channel One Olympics programming for delivery of high-quality video over IP networks to multiple devices.
Channel One is Russia’s largest broadcaster and the primary content distributor for the host country of the Games. Broadcasting across Russia and the Commonwealth of Independent States (CIS), Channel One offers programming free of charge to an estimated 250 million viewers around the clock, 365 days a year.
A long-time leader in Russian TV, Channel One offers news, documentary and entertainment programming in standard-definition (SD) and high-definition (HD) to its viewers. During the Games, solutions from Elemental will stream Channel One live and time-shifted TV content in 12 Adobe HDS H.264 profiles to set-top box, PC, iPhone, Android, tablet and smart TV devices.
Last year, Channel One used Elemental Live during the “Direct Line with President Putin” broadcast over the Internet. Elemental systems performed live video processing during the several-hour long interactive program featuring Vladimir Putin answering questions from Russian citizens.
“Channel One is a premier broadcaster and acknowledged technology leader,” said John Nemeth, VP sales EMEA for Elemental. “We are honored to support its work in providing rich multiscreen experiences during the premier event in winter sports and for its ongoing programming requirements.”
Elemental product demonstrations will feature Elemental Live and Elemental® Server at the CTSB 2014 show 28-30 January at the Moscow Crocus Expo (Hall 4, Stand 550A). These products will be used commercially during the 2014 Games by rights holders in dozens of countries across four continents. To schedule a meeting with an Elemental representative at CTSB, please click here.
About Elemental
Elemental Technologies is the leading supplier of video solutions for multiscreen content delivery. Founded in 2006 and headquartered in Portland, Oregon, the company pioneered the use of graphics processors to power adaptive video streaming over IP networks. Providing unmatched solutions for more than 300 leading media franchises worldwide, Elemental helps pay TV operators, content programmers, film studios and sports broadcasters bring video to any screen, anytime – all at once. The company has offices in the United States, the United Kingdom, Hong Kong, Singapore, Japan, China, Russia, India and Brazil. To learn more, please visit www.elementaltechnologies.com and follow @elementaltech on Twitter.

Press Contact

Laura Barber

Elemental Technologies

laurab@elementaltechnologies.com

(503) 703-3638