BentoML-Extension (bentomlx)#
BentoML-Extensions A.K.A (bentomlx) provide Two additional Components,
Intel Optimized interService(or Runner)
FeatureStore.
pip install bentoml bentomlx
Featured use cases#
BentoML-Extensionsโs Goal#
todo: KR -> ENG
์ต๊ทผ LLM์ ๋ฐ์ ์ด ๊ฐ์ํ๋จ์ ๋ฐ๋ผ ๋ชจ๋ธ ์๋นํ๋ ์์ํฌ์์๋ ๋๊ท๋ชจ ์ฐ์ฐ๋์ ์ํด Nvidia GPU ๊ธฐ๋ฐ ๊ธฐ๋ฅ๋ค์ ์ง์ํ๊ณ ๊ฐ์ ํด๋๊ฐ๊ณ ์๋ค. BentoML ๋ํ ์ต๊ทผ ํธ๋๋์ ๋ง๊ฒ nvidia GPU resourceํธํ,vLLM๊ณผ ๊ฐ์ ๊ณ ์ฑ๋ฅ inference ํ๋ ์์ํฌ ์ฐ๋๊ณผ ๊ฐ์ด GPU ๋ชจ๋ธ์๋น ๊ด๋ จ ๊ธฐ๋ฅ์ ์ธ ๊ฐ์ ์ ํ์ ์ฐ๊ณ ์๋ค. ์ต๊ทผ ์ฃผ๋ชฉ๋ฐ๊ณ ์๋ ๋ชจ๋ธ๋ค, ์ฆ Diffusion ๋๋ LLM๊ณ์ด ๋ชจ๋ธ๋ค์ ์ฐ์ฐ๋์ ๊ฐ๋นํ๊ธฐ ์ํด์๋ GPU ํนํ cuda์ ๊ดํ ์ง์์ ์ฐ์ ์์๊ฐ ๋์์ผ๋งํ๋ค.
์ด๋ก ์ธํด ๋๋ถ๋ถ์ inference engine or serving ์คํ์์ค๋ค์ CPU ๊ด๋ จ ๊ธฐ๋ฅ๋ค์ ๋ํ ์ง์์ด ๋น์ฝํ ์ ๋ฐ์ ์๋ค. ๊ทธ๋ฌ๋ CPU inference ์ฐ์ฐ๋ ์ต์ ํ์ ๋ํ ์ง์์ด ๋ถ์กฑํ๋ค๋ ์๋ฏธ๋ ์ต์ฐ์ ์์๊ฐ ์๋๋ฟ์ด์ง ์ตํ์์ฐ์ ์์๋ผ๋ ์๋ฏธ๋ ์๋๋ค. is not high priority, it does not mean lowest priority. BentoML์ ๋งค์ฐ ๋ฐ์ด๋ ๋ชจ๋ธ์๋น ํ๋ ์์ํฌ๋ค. ๊ธฐ์กด MLํ๋ ์์ํฌ๋ค์ ํตํฉํ๋ฉด์ ์ด๋ฅผ ์ฝ๊ฒ ๋น๋ ๋ฐฐํฌํ ์ ์๋๋ก ๊ธฐ๋ฅ๋ค์ ์ ๊ณตํ๋ค. BentoML ๋ํ
The BentoML documentation provides detailed guidance on the project with hands-on tutorials and examples. If you are a first-time user of BentoML, we recommend that you read the following documents in order: