新聞中心
在ModelScope中,可以使用VLLM來(lái)加速推理。

VLLM(Very Large Language Models)是一個(gè)快速且易于使用的庫(kù),它支持大模型的推理和服務(wù),以下是VLLM加速推理的一些關(guān)鍵點(diǎn):
VLLM加速推理的優(yōu)點(diǎn)
功能齊全:VLLM包含了許多最新的技術(shù)方法,如prefixcache、Ring Attention等,這些技術(shù)可以提高推理的效率和速度。
社區(qū)支持度高:有大量的開(kāi)發(fā)者參與討論,提供良好的“售后服務(wù)”,有助于解決使用過(guò)程中遇到的問(wèn)題。
支持框架廣泛:VLLM支持主流的HuggingFace模型,這意味著用戶可以方便地使用多種模型進(jìn)行推理。
VLLM的安裝與使用
安裝簡(jiǎn)便:可以通過(guò)pip進(jìn)行安裝,支持多種操作系統(tǒng)和Python版本。
優(yōu)化性能:VLLM使用了CUDA/HIP圖快速執(zhí)行模型,以及量化技術(shù)和KV緩存等方法來(lái)提高服務(wù)吞吐量。
無(wú)縫集成:VLLM與流行的HuggingFace模型無(wú)縫集成,支持多種解碼算法和分布式推理的張量并行性支持。
實(shí)操注意事項(xiàng)
環(huán)境變量設(shè)置:默認(rèn)情況下,VLLM會(huì)從HuggingFace下載模型,如果希望使用ModelScope中的模型,需要設(shè)置相應(yīng)的環(huán)境變量。
顯存要求:使用VLLM可以減小加載的大模型權(quán)重占用的空間,從而節(jié)省顯存,這對(duì)于顯存較小的顯卡尤其重要。
VLLM可以作為ModelScope中工具調(diào)用的一個(gè)選項(xiàng),以加速推理過(guò)程,用戶可以根據(jù)自己的需求和硬件條件選擇合適的模型和優(yōu)化技術(shù),以提高推理效率。
網(wǎng)頁(yè)名稱:ModelScope中,工具調(diào)用可以使用VLLM加速推理嗎?
文章地址:http://m.fisionsoft.com.cn/article/djpiood.html


咨詢
建站咨詢
