기본 콘텐츠로 건너뛰기

[GCP] Argo로 Workflow 만들기

[GCP] Argo로 Workflow 만들기

사실 Production 레벨로 가지 않으면, ML개발에 Workflow를 사용할 일은 많지 않다. 대부분 샘플데이터로 전처리 한후 그 데이터를 공유해서 각자 모델을 개발하게 되는데, Production Level에서는 계속 새로운 데이터가 발생하기 때문에 데이터 수집부터 배포까지 하나의 파이프라인으로 관리해야할 필요성이 생긴다.

Argo는 컨테이너 기반으르 파이프라인을 구성해주는 도구로 Kubeflow에서도 Workflow Orchestration은 Argo를 사용한다.

Kubeflow Pipeline Overview

Argo 설치

curl -sSL -o /usr/local/bin/argo https://github.com/argoproj/argo/releases/download/v2.2.1/argo-linux-amd64 chmod +x /usr/local/bin/argo

Argo를 위와 같이 다운로드 받고, Controller와 UI를 kubectl을 통해 설치한다. GCP에서 kubectl의 설치는 아래를 따르면 된다.

터미널에서 Kubectl 사용하기

kubectl create ns argo kubectl apply -n argo -f https://raw.githubusercontent.com/argoproj/argo/v2.2.1/manifests/install.yaml

Argo를 통해 간단한 'Hello World'예제를 실행해보자. 사용법은 아래와 같이 간단하다. submit은 지정된 yaml 파일을 workflow 만드는데 사용한다는 것이고 watch 파라미터는 외부의 yaml을 가져올 때 사용한다.

argo submit --watch https://raw.githubusercontent.com/argoproj/argo/master/examples/hello-world.yaml

'argo list' 명령으로 실행되고 있는 argo workflow들을 볼 수 있고, 컨테이너 기반으로 수행되는 것이므로 'kubectl get pod'으로 생성된 pod을 확인할 수 있다.

ryu.gcloud2@flask-test:~$ kubectl get pod NAME READY STATUS RESTARTS AGE hello-world-ng6kn 0/2 Completed 0 23h

Argo는 UI를 통해서 파이프라인 생성의 결과를 좀 더 직관적으로 제공해준다. UI 실행을 위해서는 클러스터를 외부에서 접근할 수 있게 포트포워딩을 해 주어야 한다.

kubectl -n argo port-forward deployment/argo-ui 8001:8001

그런데, 위의 명령은 local computer에서 8001포트로 포워딩 받아 사용하는 경우여서, GCP를 통해 외부 접근을 열고 PC에서 접근하도록 하기 위해 argo-ui를 LoadBalancer 타입으로 업데이트하여 external IP를 가져올 수 있도록 해 주어야 한다. (이걸 안해줘서 엄청 헤맸다. ㅠ)

kubectl patch svc argo-ui -n argo -p '{"spec": {"type": "LoadBalancer"}}' ryu.gcloud2@flask-test:~$ kubectl get svc argo-ui -n argo NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE argo-ui LoadBalancer 10.0.10.134 34.68.164.43 80:31707/TCP 24h

브라우저에서 EXTERNAL-IP 주소를 쳐 넣으면 아래와 같은 UI가 나타난다.

Argo UI

이제 Workflow 확인이 용이해졌으니, 복잡한(하지만, 간단히 순차적으로 출력하는) DAG(Directed Acyclic Graph) 형태의 Workflow를 만들어보고 확인해 본다.

apiVersion: argoproj.io/v1alpha1 kind: Workflow metadata: generateName: dag-diamond- spec: entrypoint: diamond templates: - name: echo inputs: parameters: - name: message container: image: alpine:3.7 command: [echo, "{{inputs.parameters.message}}"] - name: diamond dag: tasks: - name: A template: echo arguments: parameters: [{name: message, value: A}] - name: B dependencies: [A] template: echo arguments: parameters: [{name: message, value: B}] - name: C dependencies: [A] template: echo arguments: parameters: [{name: message, value: C}] - name: D dependencies: [B, C] template: echo arguments: parameters: [{name: message, value: D}]

Argo UI에 생성된 workflow를 클릭하면 아래의 그림과 같이 순차적으로 workflow가 실행되었고, 각각의 결과는 LOGS버튼을 통해 확인할 수 있다.

DAG 실행 확인

from http://magoker.tistory.com/24 by ccl(A) rewrite - 2020-03-11 03:54:15

댓글

이 블로그의 인기 게시물

[GCP] Flask로 TF 2.0 MNIST 모델 서빙하기

[GCP] Flask로 TF 2.0 MNIST 모델 서빙하기 Google Cloud Platform 우선 TensorFlow 2.0을 설치하자. 머신에 직접 설치하거나 도커를 다운받아 사용, 혹은 구글 colab을 활용( https://www.tensorflow.org/install)하면 되는데, TensorFlow에서 권장하는대로 머신에 VirtualEnv를 활용해서 설치하자 ( https://www.tensorflow.org/install/pip). 설치하는 김에 Flask도 같이 설치해보자. Compute Machine 하나를 생성(크게 부담 없는 예제라 g1 instance)하고, SSH를 연결하여 실행하면 된다. $ sudo apt update $ sudo apt install python3-dev python3-pip $ sudo pip3 install -U virtualenv # 굳이 system-wide로 flask를 설치할 필요는 없지만 그렇게 했다. $ sudo pip3 install flask $ sudo pip3 install flask-restful # virtualenv 환경에서 tensorflow 2.0 설치 $ virtualenv --system-site-packages -p python3 ./venv $ source ./venv/bin/activate # sh, bash, ksh, or zsh (venv) $ pip install --upgrade pip (venv) $ pip install --upgrade tensorflow 모든 환경이 마련되었으니, 우선 MNIST 모델을 TF 2.0으로 Training하여 모델을 Save 해 두자(tf_mnist_train.py). 대략 99% 이상 정확도가 나온다! import tensorflow as tf import numpy as np # 학습 데이터 load ((train_data, train_label), (eval_data, eval_label)) = tf....

스프링 프레임워크(Spring Framework)란?

스프링 프레임워크(Spring Framework)란? "코드로 배우느 스프링 웹 프로젝트"책을 개인 공부 후 자료를 남기기 위한 목적이기에 내용 상에 오류가 있을 수 있습니다. '스프링 프레임워크'가 무엇인지 말 할 수 있고, 해당 프레임워크의 특징 및 장단점을 설명할 수 잇는 것을 목표로합니다. 1. 프레임워크란? 2. 스프링 프레임워크 "뼈대나 근간을 이루는 코드들의 묶음" Spring(Java의 웹 프레임워크), Django(Python의 웹 프레임워크), Flask(Python의 마이크로 웹 프레임워크), Ruby on rails(Ruby의 웹 프레임워크), .NET Framework, Node.js(Express.js 프레임워크) 등등. 프레임워 워크 종류 : 3. 개발 시간을 단축할 수 있다. 2. 일정한 품질이 보장된 결과물을 얻을 수 있다. 1. 실력이 부족한 개발자라 허다러도 반쯤 완성한 상태에서 필요한 부분을 조립하는 형태의 개발이 가능하다. 프레임워크를 사용하면 크게 다음 3가지의 장점 이 있습니다. 프레임워크 이용 한다는 의미 : 프로그램의 기본 흐름이나 구조를 정하고, 모든 팀원이 이 구조에 자신의 코드를 추가하는 방식으로 개발 한다. => 이러한 상황을 극복하기 위한 코드의 결과물이 '프레임워크' 입니다. 개발자는 각 개개인의 능력차이가 크고, 따라서 개발자 구성에 따라서 프로젝트의 결과 차이가 큽니다. 2. 스프링 프레임워크(Spring Framework) 자바 플랫폼을 위한 오픈 소스 애플리케이션 스프링의 다른 프레임워크와 가장 큰 차이점은 다른 프레임워크들의 포용 입니다. 이는 다시말해 기본 뼈대를 흔들지 않고, 여러 종류의 프레임워크를 혼용해서 사용할 수 있다는 점입니다. 대한민국 공공기관의 웹 서비스 개발 시 사용을 권장하고 있는 전자정부 표준프레임워크 이다. 여러 프레임워크들 중 자바(JAV...

Dummy to resolve the flask problems

Dummy to resolve the flask problems This post is about flask problems that I struggled with. Hope you this is useful things when you taste it. Issue : How to deploy a flask application on Apache2 Resolve : As you know, flask is a micro framework. It can be handled on Apache2 using WSGI module. See the reference. Reference: https://www.digitalocean.com/community/tutorials/how-to-deploy-a-flask-application-on-an-ubuntu-vps Issue : Flask caused ERR_CONNECTION_ABORTED on POST Resolve : There are lots issues for this problem in principle. It caused when browser keep sending some buffer but server doesn't want to receive. My case is like this (submit.html) (submit.py) @bp.route('/submit', methods=["GET", "POST"]) def submit(): return render_template("submit.html") This kinda skel code to explain this. In flask case, this can be caused when it runs as develop server such as run...