기본 콘텐츠로 건너뛰기

딥러닝 모델 서빙과 병렬처리

딥러닝 모델 서빙과 병렬처리

저도 회사에서 딥러닝 모델 서빙을 하고 있는데, 서빙을 하다보니까 제일 처음에 부딪히는 문제가 병렬처리였습니다.

그래서 이번 포스팅에서는 딥러닝 모델을 서빙할 때 어떻게 병렬처리를 해줘야 할 지 이야기를 해보려고 합니다.

먼저 저희는 쓰레드와 프로세스라는 개념을 살짝 정리하고 가야해요.

먼저 프로세스는 컴퓨터에서 연속적으로 실행되고 있는 컴퓨터 프로그램 이라고 정의되고 쓰레드는 프로세스 내에서 실행되는 흐름의 단위 로 정의가 됩니다.

그래서 쓰레드는 프로세스에 포함이 되게 되죠.

리눅스에서 top 명령어를 실행하면, 현재 실행 중인 프로세스의 리스트를 볼 수 있어요. 만약 해당 프로세스가 여러개의 쓰레드를 사용하고 있으면, cpu가 100%을 초과하는 걸 보실 수 있을 거에요.

그래서 병렬처리는 여러 쓰레드를 활용하는 방법이 있고, 여러 개의 프로세스를 활용하는 방법이 있으며 각각 멀티 쓰레드, 멀티 프로세싱이라고 부릅니다.

멀티 프로세싱은 여러 개의 프로세스가 별도로 실행되고 각 프로세스가 별개의 메모리를 차지하고 있으며, 멀티 쓰레드는 하나의 프로세스 내에서 메모리를 공유해서 사용합니다.

개발환경마다 차이가 있으므로, python에서 tensorflow나 pytorch를 사용하는 경우에 한해서만 다루도록 하겠습니다.

python의 경우에는 GIL (Global Interpreter Lock)이라는게 존재합니다.

GIL은 파이썬에서 멀티 쓰레드를 사용할 경우에 단 하나의 쓰레드만 python object에 접근할 수 있도록 제한하는 mutex입니다.

쉽게 말하면 파이썬 쓰레드는 한번에 하나 밖에 동작을 못 합니다.

그럼에도 멀티 쓰레드를 쓰는 이유는! 각 쓰레드가 동작을 하되, IO block과 같은 대기하는 시간이 생길 때 다른 쓰레드가 동작을 함으로써 병렬처리가 가능합니다.

그럼 여기서 tensorflow나 pytorch를 사용할 때는?! 멀티 쓰레드로 동작시켜서 동시에 inference를 수행하면 여러 쓰레드가 동시에 동작을 합니다! 그건 tensorflow나 pytorch 코어 내부에서는 python이 아닌 다른 언어가 동작하고 있어서 GIL의 영향을 받지 않고, inference를 수행하는 동안 멀티 쓰레드가 동작합니다.

그래서 flask를 활용하여 서빙할 때, 실행 시에 threaded=True를 사용하면, 요청이 동시에 들어와도 수행이 가능합니다.

하지만 pytorch의 경우에는 현재 멀티 쓰레드를 사용하면 내부적으로 변수가 꼬이는 현상이 발생하므로 사용하시면 안됩니다.

그에 반해 tensorflow의 경우에는 inference를 하는 부분이 멀티 쓰레딩으로 처리를 할 수 있습니다.

tensorflow와 flask를 활용하여 딥러닝 모델을 서빙하는 경우에는 threaded = True 옵션을 설정하면 멀티 쓰레딩으로 처

리를 할 수 있습니다.

다시 한번 정리하면, tensorflow는 멀티 쓰레드로 처리를 할 수 있고 pytorch는 멀티 쓰레드로 처리를 할 수 없습니다.

그러면 pytorch의 경우에는 어떻게 해야될까요?

멀티 프로세싱을 활용하시면 됩니다. 멀티 프로세싱은 여러 개의 프로세스를 실행시키는 방식으로, 각 프로세스가 별도로 동작하므로 pytorch에서 아무 문제가 없이 사용할 수 있습니다.

사실, tensorflow의 경우에도 멀티 쓰레드로 처리하는 것 보다, 멀티 프로세싱으로 처리하는 것이 더 빠릅니다. 멀티 쓰레드는 하나의 프로세스 내에서 컨텍스트 스위칭이 필요하기 때문이죠.

멀티 프로세스를 사용한다고 하면 인퍼런스를 하는 서버를 여러 개 띄워두고, 요청이 들어올 때는 잘 중재하여 각 인퍼런스 서버에 나눠서 일을 시키도록 하는 모습이 될 수 있습니다.

간단하게 멀티 프로세스로 딥러닝 모델을 서빙해보는 방법을 한번 해보도록 할게요.

장고(django)를 활용한 웹 서버를 배포할 때 많이 사용되는 방법으로, gunicorn을 활용하면 됩니다.

gunicorn은 WSGI HTTP 서버로, 설정이 매우 쉽고 성능이 뛰어나서 많이 활용됩니다.

그러면, 이전 포스팅에서 소개했던 소스코드를 활용해서 테스트를 해보도록 하겠습니다.

먼저 소스코드를 다운받아볼게요.

>> git clone https://github.com/hsh2438/mnist_serving_tf2.0_flask.git

소스코드를 받아서 디렉토리 안에 들어간 뒤에 requirements.txt 파일을 활용하여 필요한 라이브러리를 설치해줍니다.

>> pip3 install -r requirments.txt

그 다음엔, 서빙을 하기 위한 모델을 학습해줍니다.

>> python3 train.py

저번에는 flask 서버를 실행하기 위해서 python3 flask_server.py와 같이 실행을 했었는데 소스코드는 고치지 않고, gunicorn으로 실행하시면 됩니다.

gunicorn 설치는 아래와 같은 명령어로 쉽게 설치할 수 있습니다.

>> pip3 install gunicorn

이제 아래의 명령어로 gunicorn을 활용하여 flask 서버를 실행해보겠습니다.

>> gunicorn flask_server:app --bind=0.0.0.0:2431 -w 4

gunicorn을 활용하고, --bind 옵션은 ip와 port를 세팅하는 부분입니다.

-w는 worker로 프로세스의 갯수입니다. 저는 4로 적었기 때문에 4개의 프로세스에서 나눠서 병렬로 처리할 수 있게 됩니다.

아래와 같이 --daemon 옵션을 추가하면 백그라운드에서 실행시킬 수 있습니다.

>> gunicorn flask_server:application --bind=0.0.0.0:2431 --daemon -w 4

오늘은 딥러닝 모델을 서빙할 때 병렬처리를 어떻게 해야하는지 알아보았습니다.

python에서는 멀티 쓰레딩과 멀티 프로세싱으로 병렬처리를 할 수 있지만 pytorch의 경우엔 멀티 쓰레딩이 활용이 불가능하며, tensorflow에선 멀티 쓰레딩을 활용을 할 수는 있지만 그래도 멀티 프로세싱이 더 좋습니다.

그래서 gunicorn을 활용하여 제일 간단하게 멀티 프로세싱을 활용하여 딥러닝 모델을 서빙을 해보았습니다.

그런데 요즘에 나오는 최신 모델들은 매우 크고 연산이 많이 필요하여 GPU를 활용해서 서빙을 해야하는 경우가 많습니다.

다음 포스팅에는 GPU를 활용한 서빙에 대해서 다뤄보도록 하겠습니다.

from http://seokhyun2.tistory.com/44 by ccl(A) rewrite - 2020-03-15 20:20:12

댓글

이 블로그의 인기 게시물

Coupang CS Systems 채용 정보: 쿠팡 운용 관리 시스템을 구축 하고...

Coupang CS Systems 채용 정보: 쿠팡 운용 관리 시스템을 구축 하고... Global Operation Technology는 상품을 고객에게 지연 없이 전달 될 수 있도록 하는 조직입니다. 1997년, 초창기 아마존에 입사한다고 상상해보세요. 그 당시 누구도 e-commerce 산업이, 아마존이라는 회사가 지금처럼 성장하리라고는 생각하지 못했을 것입니다. 하지만, 그 당시 아마존을 선택한 사람들은 e-commerce 산업을 개척했고, 아마존을 세계적인 회사로 성장시켰습니다. 2016년 '아시아의 아마존'으로 성장하고 있는 쿠팡, 당신에게 매력적인 선택이 아닐까요? Global Operation Technology: eCommerce에서 주문을 한 뒤 벌어지는 상황에 대해서 호기심을 가져보신 적이 있나요? Global Operation Technology는 상품을 고객에게 지연 없이 전달 될 수 있도록 하는 조직입니다. 매일 최첨단 소프트웨어 기술을 이용해 고객의 주문을 받고 상품을 어느 창고에서 출고 시킬지, 포장을 하나의 박스 또는 여러 개로 나눌 것인지, 어떤 배송 루트를 선택하고 어떻게 고객에게 배송 상태를 보여줄지 결정하는 시스템과 서비스를 개발 합니다. What Global Operations Technology does: CS and C-Returns System 적극적 고객서비스를 바탕으로 고객의 목소리를 통해 끊임없이 고객 에게 서비스를 제공하고 Andon 메커니즘을 통해 고객의 목소리를 회사 전체와 공유합니다. 그리고 고객 문제 해결과 구매 이후 벌어질 수 있는 고객 문제를 사전에 예방하기 위한 시스템 개발을 통해 미래의 상황을 예측 합니다. Tranportation System TSP (Traveling Salesman Problem) 와 같은 CS 최적화 관리 문제를 다룹니다.배송 물품의 실시간 추적, 3P 하드웨어와 소프트웨어를 통합, 각 배송 루트에 할당되는 물량 예측하고 T

[Python] Flask 웹 프레임워크 시작하기

[Python] Flask 웹 프레임워크 시작하기 플라스크 프레임워크 플라스크란 무엇일까?( What is Flask? ) 파이썬으로 웹을 만드는 것이 요즘 꽤나 보편화 되어있습니다. 플라스크라는 것은 파이썬 웹 어플리케이션을 만드는 프레임 워크 입니다. 플라스크를 시작해보자(Let's start the Flask) 먼저 플라스크를 시작하기에 앞서 플라스크를 설치를 해야하는데, 파이썬이 설치된 상태라면, pip를 통해서 설치가 가능하다. 커맨드 창에서 아래와 같은 명령어를 입력해 본다. c:\> pip install flask 위의 커맨드 명령을 실행함으로써 flask가 설치되게 된다. 그럼 간단하게 웹서버가 돌아가는지 확인해보자. < app.py > from flask import Flask app = Flask(__name__) @app.route('/') def index(): return "Hi" if __name__ == '__main__': app.run() 위와 같이 예제를 작성 후 실행을 하게 되면, 기본 포트인 5000번 포트로 웹 서버가 열리게 된다. 세부적으로 설명해보자면 [선언] from flask import Flask #flask라는 패키지에서 Flask 모듈을 import해준다. app = Flask(__name__) #flask를 사용하기 위해서 선언해야하는 변수 [Route 설정] @app.route('/') #기본인 POST 메소드로 '/'를 호출했을 때 아래의 함수가 동작된다. def index(): return "Hi" #Hi를 return하면서 '/'페이지에 접속시 Hi라는 문구가 보기게 된다. [실행부 running] if __name__ == '__main__': app.run() 이렇게 세부적으로 나타낼 수 있

외래어 정리

외래어 정리 [A] acacia 아카시아 academic 아카데믹 academy 아카데미 acanthus 아칸서스 accelerator 액셀러레이터 accent 악센트 acceptor 억셉터 access 액세스 accessory 액세서리 accordion 아코디언 ace 에이스 acetate 아세테이트 acetaldehyde 아세트알데히드 acetic acid 아세트(산) acetone 아세톤 acetyl 아세틸 acetylene 아세틸렌 Achilles tendon 아킬레스(건) acre 에이커 acrylic acid 아크릴(산) action 액션 active 액티브 acyl 아실 AD 에이디 adagio 아다지오 adapter 어댑터 ad + balloon 애드벌룬 address 어드레스 adenine 아데닌 adrenaline 아드레날린 advantage 어드밴티지 aerobic dance 에어로빅 댄스 aerofoil 에어로포일 aerosol 에어로졸 afghan 아프간 [편물] after + service 애프터서비스 agape 아가페 Ainu 아이누 air conditioner 에어컨(디셔너) airspray 에어스프레이 album 앨범 albumin 알부민 alcohol 알코올 aldehyde 알데히드 ALGOL 알골 algorism 알고리즘 alibi 알리바이 alkali 알칼리 alkaloid 알칼로이드 Allah 알라 allegory 알레고리 allegretto 알레그레토 allegro 알레그로 alleluia 알렐루야 Allergie 알레르기 alligator 앨리게이터 all-in-one 올인원 almond 아몬드 aloha 'oe 알로하 오에 Alpenhorn 알펜호른 alpha 알파 alphabet 알파벳