기본 콘텐츠로 건너뛰기

딥러닝 모델 서빙과 병렬처리

딥러닝 모델 서빙과 병렬처리

저도 회사에서 딥러닝 모델 서빙을 하고 있는데, 서빙을 하다보니까 제일 처음에 부딪히는 문제가 병렬처리였습니다.

그래서 이번 포스팅에서는 딥러닝 모델을 서빙할 때 어떻게 병렬처리를 해줘야 할 지 이야기를 해보려고 합니다.

먼저 저희는 쓰레드와 프로세스라는 개념을 살짝 정리하고 가야해요.

먼저 프로세스는 컴퓨터에서 연속적으로 실행되고 있는 컴퓨터 프로그램 이라고 정의되고 쓰레드는 프로세스 내에서 실행되는 흐름의 단위 로 정의가 됩니다.

그래서 쓰레드는 프로세스에 포함이 되게 되죠.

리눅스에서 top 명령어를 실행하면, 현재 실행 중인 프로세스의 리스트를 볼 수 있어요. 만약 해당 프로세스가 여러개의 쓰레드를 사용하고 있으면, cpu가 100%을 초과하는 걸 보실 수 있을 거에요.

그래서 병렬처리는 여러 쓰레드를 활용하는 방법이 있고, 여러 개의 프로세스를 활용하는 방법이 있으며 각각 멀티 쓰레드, 멀티 프로세싱이라고 부릅니다.

멀티 프로세싱은 여러 개의 프로세스가 별도로 실행되고 각 프로세스가 별개의 메모리를 차지하고 있으며, 멀티 쓰레드는 하나의 프로세스 내에서 메모리를 공유해서 사용합니다.

개발환경마다 차이가 있으므로, python에서 tensorflow나 pytorch를 사용하는 경우에 한해서만 다루도록 하겠습니다.

python의 경우에는 GIL (Global Interpreter Lock)이라는게 존재합니다.

GIL은 파이썬에서 멀티 쓰레드를 사용할 경우에 단 하나의 쓰레드만 python object에 접근할 수 있도록 제한하는 mutex입니다.

쉽게 말하면 파이썬 쓰레드는 한번에 하나 밖에 동작을 못 합니다.

그럼에도 멀티 쓰레드를 쓰는 이유는! 각 쓰레드가 동작을 하되, IO block과 같은 대기하는 시간이 생길 때 다른 쓰레드가 동작을 함으로써 병렬처리가 가능합니다.

그럼 여기서 tensorflow나 pytorch를 사용할 때는?! 멀티 쓰레드로 동작시켜서 동시에 inference를 수행하면 여러 쓰레드가 동시에 동작을 합니다! 그건 tensorflow나 pytorch 코어 내부에서는 python이 아닌 다른 언어가 동작하고 있어서 GIL의 영향을 받지 않고, inference를 수행하는 동안 멀티 쓰레드가 동작합니다.

그래서 flask를 활용하여 서빙할 때, 실행 시에 threaded=True를 사용하면, 요청이 동시에 들어와도 수행이 가능합니다.

하지만 pytorch의 경우에는 현재 멀티 쓰레드를 사용하면 내부적으로 변수가 꼬이는 현상이 발생하므로 사용하시면 안됩니다.

그에 반해 tensorflow의 경우에는 inference를 하는 부분이 멀티 쓰레딩으로 처리를 할 수 있습니다.

tensorflow와 flask를 활용하여 딥러닝 모델을 서빙하는 경우에는 threaded = True 옵션을 설정하면 멀티 쓰레딩으로 처

리를 할 수 있습니다.

다시 한번 정리하면, tensorflow는 멀티 쓰레드로 처리를 할 수 있고 pytorch는 멀티 쓰레드로 처리를 할 수 없습니다.

그러면 pytorch의 경우에는 어떻게 해야될까요?

멀티 프로세싱을 활용하시면 됩니다. 멀티 프로세싱은 여러 개의 프로세스를 실행시키는 방식으로, 각 프로세스가 별도로 동작하므로 pytorch에서 아무 문제가 없이 사용할 수 있습니다.

사실, tensorflow의 경우에도 멀티 쓰레드로 처리하는 것 보다, 멀티 프로세싱으로 처리하는 것이 더 빠릅니다. 멀티 쓰레드는 하나의 프로세스 내에서 컨텍스트 스위칭이 필요하기 때문이죠.

멀티 프로세스를 사용한다고 하면 인퍼런스를 하는 서버를 여러 개 띄워두고, 요청이 들어올 때는 잘 중재하여 각 인퍼런스 서버에 나눠서 일을 시키도록 하는 모습이 될 수 있습니다.

간단하게 멀티 프로세스로 딥러닝 모델을 서빙해보는 방법을 한번 해보도록 할게요.

장고(django)를 활용한 웹 서버를 배포할 때 많이 사용되는 방법으로, gunicorn을 활용하면 됩니다.

gunicorn은 WSGI HTTP 서버로, 설정이 매우 쉽고 성능이 뛰어나서 많이 활용됩니다.

그러면, 이전 포스팅에서 소개했던 소스코드를 활용해서 테스트를 해보도록 하겠습니다.

먼저 소스코드를 다운받아볼게요.

>> git clone https://github.com/hsh2438/mnist_serving_tf2.0_flask.git

소스코드를 받아서 디렉토리 안에 들어간 뒤에 requirements.txt 파일을 활용하여 필요한 라이브러리를 설치해줍니다.

>> pip3 install -r requirments.txt

그 다음엔, 서빙을 하기 위한 모델을 학습해줍니다.

>> python3 train.py

저번에는 flask 서버를 실행하기 위해서 python3 flask_server.py와 같이 실행을 했었는데 소스코드는 고치지 않고, gunicorn으로 실행하시면 됩니다.

gunicorn 설치는 아래와 같은 명령어로 쉽게 설치할 수 있습니다.

>> pip3 install gunicorn

이제 아래의 명령어로 gunicorn을 활용하여 flask 서버를 실행해보겠습니다.

>> gunicorn flask_server:app --bind=0.0.0.0:2431 -w 4

gunicorn을 활용하고, --bind 옵션은 ip와 port를 세팅하는 부분입니다.

-w는 worker로 프로세스의 갯수입니다. 저는 4로 적었기 때문에 4개의 프로세스에서 나눠서 병렬로 처리할 수 있게 됩니다.

아래와 같이 --daemon 옵션을 추가하면 백그라운드에서 실행시킬 수 있습니다.

>> gunicorn flask_server:application --bind=0.0.0.0:2431 --daemon -w 4

오늘은 딥러닝 모델을 서빙할 때 병렬처리를 어떻게 해야하는지 알아보았습니다.

python에서는 멀티 쓰레딩과 멀티 프로세싱으로 병렬처리를 할 수 있지만 pytorch의 경우엔 멀티 쓰레딩이 활용이 불가능하며, tensorflow에선 멀티 쓰레딩을 활용을 할 수는 있지만 그래도 멀티 프로세싱이 더 좋습니다.

그래서 gunicorn을 활용하여 제일 간단하게 멀티 프로세싱을 활용하여 딥러닝 모델을 서빙을 해보았습니다.

그런데 요즘에 나오는 최신 모델들은 매우 크고 연산이 많이 필요하여 GPU를 활용해서 서빙을 해야하는 경우가 많습니다.

다음 포스팅에는 GPU를 활용한 서빙에 대해서 다뤄보도록 하겠습니다.

from http://seokhyun2.tistory.com/44 by ccl(A) rewrite - 2020-03-15 20:20:12

댓글

이 블로그의 인기 게시물

Flask 18. jQuery와 ajax

Flask 18. jQuery와 ajax 현재 우리는 api를 만들고 있다. api를 사용하기 위해서는 ajax를 사용해야한다. 그리고 ajax를 편하게 쓸 수 있도록 도와주는 것이 jquery라이브러리이다. ajax는 비동기로 서버에 요청할 수 있다. 브라우저에 XMLHttpRequest객체가 있어서 이것을 사용해서 서버에 데이터를 요청할 수 있다. 기존에는 웹에 접근할 때 주소에다가 서버의 주소를 씀으로써 데이터(페이지)를 요청할 수 있고, form을 만드는 방법이 있다. 이러한 방법들은 페이지 이동이 일어나서 서버에서 무조건 응답으로 웹페이지를 만들어서 응답해야하는 단점이 있었다 그러나 api를 사용하면 리소스 중심으로 데이터의 이동만 일어난다. 클라이언트는 데이터만 받기 때문에 데이터로 웹을 만들어야한다. 화면은 이미 만들어져있는 상태에서 비동기로 화면을 전환하지 않고, 서버에 데이터 요청을 한 후 그 데이터를 기반으로 웹에 그 데이터를 반영하는 것이다. 이것들은 백그라운드에서 일어난다. 이것을 위해서는 자바스크립트를 이용해야하고 jquery를 이용할 것이다. jquery는 여러 셀렉터를 사용할 수 있어서 편하다. 자바스크립트 작업을 좀더 생산성 좋게 작업할 수 있도록 해준다. 가장 큰 특징은 ajax요청을 아주 쉽게 할 수 있다. 정리 비동기 요청을 위해서 ajax를 사용할 것이고, 그러나 순수자바스크립트는 어렵기 때문에 jquery를 사용할 것이다. 공유하기 글 요소 저작자표시 from http://ohdowon064.tistory.com/134 by ccl(A) rewrite - 2020-03-24 10:54:10

Coupang CS Systems 채용 정보: Front-end 개발자를 찾습니다!

Coupang CS Systems 채용 정보: Front-end 개발자를 찾습니다! PC/Mobile Web Front-end 개발 1997년, 초창기 아마존에 입사한다고 상상해보세요. 그 당시 누구도 e-commerce 산업이, 아마존이라는 회사가 지금처럼 성장하리라고는 생각하지 못했을 것입니다. 하지만, 그 당시 아마존을 선택한 사람들은 e-commerce 산업을 개척했고, 아마존을 세계적인 회사로 성장시켰습니다. 2016년 '아시아의 아마존'으로 성장하고 있는 쿠팡, 당신에게 매력적인 선택이 아닐까요? 1997년, 초창기 아마존에 입사한다고 상상해보세요. 그 당시 누구도 e-commerce 산업이, 아마존이라는 회사가 지금처럼 성장하리라고는 생각하지 못했을 것입니다. 하지만, 그 당시 아마존을 선택한 사람들은 e-commerce 산업을 개척했고, 아마존을 세계적인 회사로 성장시켰습니다. 2016년 '아시아의 아마존'으로 성장하고 있는 쿠팡, 당신에게 매력적인 선택이 아닐까요? Global Operation Technology: eCommerce에서 주문을 한 뒤 벌어지는 상황에 대해서 호기심을 가져보신 적이 있나요? Global Operation Technology는 상품을 고객에게 지연 없이 전달 될 수 있도록 하는 조직입니다. 매일 최첨단 소프트웨어 기술을 이용해 고객의 주문을 받고 상품을 어느 창고에서 출고 시킬지, 포장을 하나의 박스 또는 여러 개로 나눌 것인지, 어떤 배송 루트를 선택하고 어떻게 고객에게 배송 상태를 보여줄지 결정하는 시스템과 서비스를 개발 합니다. What Global Operations Technology does: CS and C-Returns System 적극적 고객서비스를 바탕으로 고객의 목소리를 통해 끊임없이 고객 에게 서비스를 제공하고 Andon 메커니즘을 통해 고객의 목소리를 회사 전체와 공유합니다. 그리고 고객 문제 해결과 구매 이후 벌어질 수 있는 고객 ...