python 3 + apache hadoop
TRANSCRIPT
![Page 1: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/1.jpg)
Python 3 + Apache HadoopEduardo Mendes (z4r4tu5tr4)
![Page 2: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/2.jpg)
z4r4tu5tr4@Babbage: whoami
● Eduardo Mendes● Fatec Americana● github.com/z4r4tu5tr4● [email protected]
![Page 3: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/3.jpg)
Estrutura
● Problemas○ Metereologia○ Linguística de Corpus
● Soluções○ Celery + NFS○ Python + Mongo○ Disco○ Hadoop
![Page 4: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/4.jpg)
ProblemasMetereologia e Linguística de Corpus
![Page 5: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/5.jpg)
Metereologia● Cruzamento de duas bases de dados● Atualizadas de 15 em 15 minutos● Durante 100 anos● Tabelas xls● Mudança de padrão com o passar dos anos
![Page 6: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/6.jpg)
Linguística de Corpus [0]Linguística de corpus ocupa-se ela da coleta e da exploração de corpora, ou
conjutos de dados linguísticos textuais coletados criteriosamente, com o
propósito de servirem para a pesquisa de uma língua ou variedade linguística.
Como tal, dedica-se à exploração da linguagem por meio de evidências
empíricas, extraídas de computadores
(Sardinha, 2014)
![Page 7: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/7.jpg)
Linguística de Corpus [1]● O que esperar?
○ Não é PLN○ Não é mineração de dados○ Não é aprendizado de máquina
![Page 8: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/8.jpg)
Linguística de Corpus [2]Operações básicas esperadas LC (Mike Scott):
● Contagem de palavras (WordList)
● Concordância (Concord)
● Comparação (KeyWords)
● Etiquetagem (Tagging)
![Page 9: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/9.jpg)
“Soluções”Parciais
![Page 10: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/10.jpg)
Celery + NFS● Complexibilidade de código● Problemas com logs● NFS não particiona arquivos
○ Problemas de leitura e armazenamento
![Page 11: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/11.jpg)
Python + Mongo● Uma solução excelente com metereologia e
péssima com Linguística.
![Page 12: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/12.jpg)
SoluçõesO que deu certo
![Page 13: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/13.jpg)
Sistema de arquivos distribuído
● Google File System○ Particiona arquivos em partes de 64mb○ Três cópias de cada replicação○ Arquitetura ‘Master - slave’
![Page 14: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/14.jpg)
Sistema de arquivos distribuído
![Page 15: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/15.jpg)
MapReduce
![Page 16: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/16.jpg)
Disco● Framework para processamento distribuído● Feito em Python● Projeto ‘Jovem’● “Não tem a melhor documentação do
mundo”
![Page 17: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/17.jpg)
Apache Hadoop [0]● Framework livre● Escrito em Java● Adaptação do Google File System (GFS)● Adaptação do algorítimo de MapReduce● “Pode ser programado em qualquer
linguagem” - Streaming
![Page 18: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/18.jpg)
Apache Hadoop [1]● Tolerância a falhas● Interface amigável● Boa documentação● YARN
![Page 19: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/19.jpg)
Apache Hadoop [2]
![Page 20: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/20.jpg)
MapReduceLib [1]
![Page 21: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/21.jpg)
Hadoop Streaming [0]● Boa interface para se trabalhar com
qualquer linguagem quando usamos shell script
● Código ‘simples’
![Page 22: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/22.jpg)
![Page 23: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/23.jpg)
![Page 24: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/24.jpg)
Python + Hadoop [0]● Pydoop (CRS4)● Hadoopy ● MrJob (Yelp)● Dumbo (LastFm)
Nenhuma funciona com Python 3+
![Page 25: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/25.jpg)
Python + Hadoop [1]
![Page 26: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/26.jpg)
MapReduceLib [0]● Uma maneira de não mexer mais com Shell e
Java● Uma abstração simples com um único import● Funcionar bem com o modo interativo● Acessar o sistema de arquivos distribuído● Executar funções administrativas● Fosse compatível com Spark
![Page 27: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/27.jpg)
![Page 28: Python 3 + apache hadoop](https://reader033.vdocuments.net/reader033/viewer/2022052302/58a6391a1a28ab68118b5837/html5/thumbnails/28.jpg)