導(dǎo)語:英偉達(dá)本月推出的RAPIDS開源GPU加速平臺(tái)為數(shù)據(jù)科學(xué)家提供標(biāo)準(zhǔn)化的流水線式工具,數(shù)據(jù)處理速度較僅用CPU提升50倍。
智東西10月23日消息,今天,英偉達(dá)在北京召開RAPIDS平臺(tái)的媒體溝通會(huì),英偉達(dá)亞太區(qū)解決方案架構(gòu)主管趙立威詳解了RAPIDS開源GPU加速平臺(tái)。
該平臺(tái)發(fā)布于2018年10月10日的GTC Europe大會(huì)上,是一款針對(duì)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的GPU加速平臺(tái),為數(shù)據(jù)科學(xué)家提供標(biāo)準(zhǔn)化的流水線式工具,數(shù)據(jù)處理速度較僅用CPU提升50倍。
目前該平臺(tái)已經(jīng)與SAP、IBM、Oracle等公司建立合作關(guān)系。
一、針對(duì)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)
這款RAPIDS開源GPU加速平臺(tái)有三個(gè)特征:
1.它是一個(gè)開源平臺(tái);
2.它是一個(gè)軟件平臺(tái);
3.這個(gè)產(chǎn)品,或者叫技術(shù),面向數(shù)據(jù)科學(xué)以及機(jī)器學(xué)習(xí)的市場。
英偉達(dá)創(chuàng)始人黃仁勛在GTC Europe大會(huì)上著重強(qiáng)調(diào)了數(shù)據(jù)科學(xué)這一市場。據(jù)分析師估計(jì),面向數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的服務(wù)器市場每年價(jià)值約為200億美元,加上科學(xué)分析和深度學(xué)習(xí)市場,高性能計(jì)算市場總價(jià)值大約為360億美元,且該市場還在持續(xù)快速發(fā)展。
“數(shù)據(jù)分析和機(jī)器學(xué)習(xí)是高性能計(jì)算市場中最大的細(xì)分市場,不過目前尚未實(shí)現(xiàn)加速,”黃仁勛在GTC Europe上發(fā)布RAPIDS時(shí)說。
黃仁勛還在GTC Europe上提及“數(shù)據(jù)驅(qū)動(dòng)”的概念。互聯(lián)網(wǎng)、零售等行業(yè)都是典型的數(shù)據(jù)驅(qū)動(dòng)型行業(yè),比如沃爾瑪生鮮產(chǎn)品的物流和倉儲(chǔ)需要基于大量數(shù)據(jù)去測算。
RAPIDS開源GPU加速平臺(tái)能對(duì)這一過程進(jìn)行加速,通過數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)合并、數(shù)據(jù)降維三個(gè)步驟加速處理數(shù)據(jù)。
二、RAPIDS比僅有CPU的系統(tǒng)快50倍
RAPIDS開源GPU加速平臺(tái)構(gòu)建于Apache Arrow、pandas和scikit-learn等流行的開源項(xiàng)目之上,為最流行的Python數(shù)據(jù)科學(xué)工具鏈帶來了GPU提速。
傳統(tǒng)的數(shù)據(jù)科學(xué)運(yùn)算都是基于大數(shù)據(jù)框架Hadoop SPARK來做的,跑在分布式的CPU上。隨著摩爾定律的終結(jié),CPU的算力提升會(huì)越來越慢。市場上也有幾家GPU Data base加速非常快,但他們沒有把數(shù)據(jù)的準(zhǔn)備、操作、ETL的過程和Machine Learning等做成標(biāo)準(zhǔn)化的Pipeline(流水線)。英偉達(dá)的RAPIDS平臺(tái)實(shí)際上把數(shù)據(jù)操作、Machine Learning的一些庫整合成了一個(gè)Pipeline,所以整個(gè)流程會(huì)加快。
趙立威玩笑道,過去當(dāng)數(shù)據(jù)科學(xué)家是一件非常悠閑幸福的事,有大量的時(shí)間喝咖啡,因?yàn)閿?shù)據(jù)處理的過程中涉及到大量等待時(shí)間。用了RAPIDS之后,等待(圖中綠)時(shí)間變短,需要數(shù)據(jù)科學(xué)家創(chuàng)造性參與的部分(紅色)相應(yīng)變多了。
訓(xùn)練結(jié)果表明,與僅有CPU的系統(tǒng)相比,RAPIDS速度快50倍,這可將數(shù)據(jù)科學(xué)家的數(shù)據(jù)處理時(shí)間從數(shù)天減為數(shù)小時(shí)或從數(shù)小時(shí)減為數(shù)秒。
三、與開源社區(qū)、以及各行業(yè)開展緊密合作
為了將更多的機(jī)器學(xué)習(xí)庫和功能引入RAPIDS,英偉達(dá)廣泛地與開源生態(tài)系統(tǒng)貢獻(xiàn)者展開合作,其中包括Anaconda、BlazingDB、Databricks、Quansight、scikit-learn、Ursa Labs負(fù)責(zé)人兼Apache Arrow締造者Wes McKinney以及迅速增長的Python數(shù)據(jù)科學(xué)庫pandas等。
為了推動(dòng)RAPIDS的廣泛應(yīng)用,英偉達(dá)正努力將RAPIDS與分析及數(shù)據(jù)科學(xué)方面領(lǐng)先的開源框架Apache Spark進(jìn)行整合。
沃爾瑪、惠普等企業(yè)已經(jīng)率先應(yīng)用了RAPIDS開源GPU加速平臺(tái),IBM等企業(yè)也表示期望利用RAPIDS來為客戶提供全新的機(jī)器學(xué)習(xí)工具。
關(guān)鍵詞: