上周,眾多芯片領(lǐng)域的重要人物齊聚舊金山,為了參加全球最重要的芯片領(lǐng)域會(huì)議ISSCC2023。今年是第七十屆ISSCC會(huì)議,其主題是“半導(dǎo)體電路設(shè)計(jì)創(chuàng)新70年”(Buildingon70yearsofinnovationinsolid-statecircuitdesign)。過(guò)去的70年是半導(dǎo)體芯片行業(yè)突飛猛進(jìn)的70年,而到了今天,芯片領(lǐng)域下一個(gè)創(chuàng)新的機(jī)會(huì)在哪里呢?在今年ISSCC的主旨演講(Plenary)以及會(huì)議發(fā)表的論文中,我們認(rèn)為核心關(guān)鍵詞就是“系統(tǒng)級(jí)創(chuàng)新”(systeminovation)。
在AMD的CEOLisaSu帶來(lái)的主旨演講“Innovationforthenextdecadeofcomputeefficiency“(下一個(gè)十年計(jì)算效率的創(chuàng)新)中,Su提到了AI應(yīng)用的突飛猛進(jìn),以及它給芯片帶來(lái)的需求。隨著以ChatGPT為代表的大語(yǔ)言模型(LLM)逐漸流行,AI模型的參數(shù)量指數(shù)級(jí)上升,而相應(yīng)地對(duì)于計(jì)算芯片和內(nèi)存的需求也在快速提升,但是目前芯片的效率并不足以滿足模型的需求。根據(jù)目前計(jì)算效率每?jī)赡晏嵘?.2倍的規(guī)律,預(yù)計(jì)到2035年,一個(gè)超級(jí)計(jì)算機(jī)需要的功率可達(dá)500mW,相當(dāng)于半個(gè)核電站能產(chǎn)生的功率。顯然,為了滿足這樣的計(jì)算需求,計(jì)算效率的提升需要遠(yuǎn)遠(yuǎn)超過(guò)每?jī)赡?.2倍,而為了實(shí)現(xiàn)這樣的效率提升,系統(tǒng)級(jí)創(chuàng)新是最關(guān)鍵的思路之一。
在另一個(gè)由歐洲最著名三個(gè)的半導(dǎo)體研究機(jī)構(gòu)IMEC/CEALeti/Fraunhofer帶來(lái)的主旨演講中,系統(tǒng)級(jí)創(chuàng)新也是一個(gè)核心關(guān)鍵詞。該演講中提到,隨著半導(dǎo)體工藝逐漸接近物理極限,新的應(yīng)用對(duì)于芯片的需求也必須要從系統(tǒng)級(jí)考慮才能滿足,并且提到了下一代智能汽車和AI作為兩個(gè)尤其需要芯片從系統(tǒng)級(jí)創(chuàng)新才能支持其新需求的核心應(yīng)用。
什么是系統(tǒng)級(jí)創(chuàng)新?
我們看到,系統(tǒng)級(jí)創(chuàng)新在本屆ISSCC最重要的主旨演講中被反復(fù)提起,那么什么是系統(tǒng)級(jí)創(chuàng)新呢?目前的共識(shí)是,系統(tǒng)級(jí)創(chuàng)新就是從整體設(shè)計(jì)的上下游多個(gè)環(huán)節(jié)協(xié)同設(shè)計(jì)來(lái)完成性能的提升。在系統(tǒng)級(jí)中,上游技術(shù)包括應(yīng)用軟件,算法,系統(tǒng)架構(gòu),元器件需求等,而這些上游的需求最后會(huì)反映到芯片的需求中,包括芯片的設(shè)計(jì),半導(dǎo)體器件的設(shè)計(jì),以及半導(dǎo)體工藝的設(shè)計(jì)等。
在過(guò)去的設(shè)計(jì)中,性能提升往往只是體現(xiàn)在一個(gè)維度中,例如電路設(shè)計(jì)的成功標(biāo)準(zhǔn)是數(shù)字電路時(shí)鐘頻率能不能跑得夠快,模擬電路能不能帶寬做到更大等等。而在系統(tǒng)級(jí)創(chuàng)新中,性能提升不僅僅是由該技術(shù)層面的設(shè)計(jì)改善實(shí)現(xiàn),更重要是由上游應(yīng)用、算法和系統(tǒng)革新并且由電路、器件和工藝層面的設(shè)計(jì)滿足這些需求,來(lái)完成整體性能的提升。
LisaSu在演講中給出了一個(gè)系統(tǒng)級(jí)創(chuàng)新的一個(gè)經(jīng)典案例,就是在人工智能模型算法層面通過(guò)優(yōu)化從而可以使用一些創(chuàng)新的數(shù)制(例如16位浮點(diǎn)數(shù)BF16或8位浮點(diǎn)數(shù)FP8),同時(shí)在電路層面通過(guò)對(duì)這些算法層面優(yōu)化給予支持,最終實(shí)現(xiàn)計(jì)算層面數(shù)量級(jí)的效率提升。相比傳統(tǒng)的32位浮點(diǎn)數(shù)(FP32),新的BF16可以提升10倍以上的計(jì)算效率,而FP8則可以將計(jì)算效率提升30倍之多。這也是系統(tǒng)級(jí)創(chuàng)新的威力:根據(jù)傳統(tǒng)思路,如果電路設(shè)計(jì)僅僅停留在電路的維度,只是考慮如何進(jìn)一步優(yōu)化FP32計(jì)算單元的效率,無(wú)論如何也難以實(shí)現(xiàn)數(shù)量級(jí)的效率提升。這也是為什么在新應(yīng)用對(duì)于芯片性能提出非常激進(jìn)的性能需求的時(shí)候,芯片行業(yè)需要從系統(tǒng)級(jí)的思維來(lái)滿足這樣的需求的原因。
作為系統(tǒng)級(jí)創(chuàng)新支柱的半導(dǎo)體技術(shù)
如前所述,半導(dǎo)體芯片的設(shè)計(jì)需要考慮系統(tǒng)級(jí)創(chuàng)新,才能滿足新的應(yīng)用對(duì)于芯片性能提升的需求。從另一層面,在這樣的系統(tǒng)級(jí)創(chuàng)新中,有一些重要的半導(dǎo)體技術(shù)將會(huì)成為核心的支撐,因此在系統(tǒng)級(jí)創(chuàng)新成為核心技術(shù)演進(jìn)動(dòng)力的今天,這些半導(dǎo)體技術(shù)將會(huì)變得格外重要。
我們認(rèn)為,系統(tǒng)級(jí)創(chuàng)新意味著整體芯片系統(tǒng)會(huì)變得更加復(fù)雜:這里的復(fù)雜意味著系統(tǒng)中會(huì)有更多的芯片(這也包括了把一塊大芯片拆分成多個(gè)小的芯片粒),因此這就需要能以一種靈活的方式支持這樣的多芯片系統(tǒng),同時(shí)能提供性能和效率的顯著提升。一旦半導(dǎo)體技術(shù)能提供這樣的平臺(tái)來(lái)支持這樣的復(fù)雜系統(tǒng),那么系統(tǒng)級(jí)設(shè)計(jì)就有了更大的設(shè)計(jì)空間,從而為系統(tǒng)級(jí)創(chuàng)新提供強(qiáng)有力的支持。
對(duì)于這樣的復(fù)雜芯片系統(tǒng)提供高效支持的半導(dǎo)體技術(shù)首先是高級(jí)封裝技術(shù)。使用高級(jí)封裝技術(shù),可以把復(fù)雜芯片系統(tǒng)以高效的形式集成在一個(gè)封裝內(nèi),并且提供非常高的通信帶寬,因此可以為系統(tǒng)級(jí)芯片創(chuàng)新提供支持。例如,高級(jí)封裝可以把傳統(tǒng)的片上緩存(cache)和處理器芯片以芯片粒的形式集成在一起,這樣就大大減少了半導(dǎo)體工藝對(duì)于cache容量的限制,從而為系統(tǒng)設(shè)計(jì)提供了更大的設(shè)計(jì)空間,而這樣的設(shè)計(jì)(3DV-Cache)已經(jīng)被證明可以顯著改善處理器的性能并且AMD已經(jīng)在產(chǎn)品中使用。在未來(lái),我們可望會(huì)看到更多的設(shè)計(jì)。