周五,周昀和匯金的人正式簽訂了預(yù)研項目合同,只要預(yù)研項目能夠達(dá)到預(yù)期標(biāo)準(zhǔn),那接下來就是真正的大項目。
雙方通過一周的時間,溝通了需求還有匯金需要提供的資源。
匯金的需求很簡單,之前就已經(jīng)談的差不多了,現(xiàn)在只是更加明確一點,
他們需要的是一個能夠預(yù)測某只單一股票的模型,消耗資源要盡可能少,準(zhǔn)確率要盡可能高,這也是后續(xù)他們?yōu)橹荜捞峁┒嗌僦С值闹匾罁?jù)。
至于資源方面,財大氣粗的匯金提供了64張H100的顯卡集群,還有相互配套的處理器和內(nèi)存,其價值已經(jīng)超過了千萬。
因為說是預(yù)研項目,但其實除了在數(shù)據(jù)量和模型架構(gòu)上有所閹割之外,現(xiàn)在要做的版本和最終版本在最核心的東西上是差不多的。
畢竟只要能精準(zhǔn)預(yù)測一支股票,就能精準(zhǔn)預(yù)測無數(shù)支,兩者之間無非就是數(shù)據(jù)量上的差別。
匯金顯然知道其中的難度,所以才會這么大方。
在周昀的預(yù)估中,這些資源應(yīng)該是綽綽有余的,因為他研究的模型在算力的消耗上本就比市面上的同類型模型要低。
匯金還支付了周昀一個月兩萬的勞務(wù)費,按照合同,他需要在一年之內(nèi)完成預(yù)研項目,如果失敗了,他就要加入?yún)R金。
按理來說,這種大項目,這樣的驗收時間并不算富裕,不過周昀有信心一年之內(nèi)搞定。
實驗室里,周昀并沒有第一時間就開始設(shè)計方案,反倒是開始看起了論文。
因為不管是前世還是現(xiàn)在,他接觸的都是“小模型”,這里的小模型指的是LSTM、CNN、FCN這種結(jié)構(gòu)單一,參數(shù)量不大的輕量級神經(jīng)網(wǎng)絡(luò)。
而他現(xiàn)在要做的項目則需要用到真正意義上的多模態(tài)大模型,這種大模型現(xiàn)在普遍都是基于Transformer架構(gòu),
雖然Transformer非常厲害,但是也有一個缺點,因為他的主要核心Attention也就是注意力機(jī)制,
這種算法的時間復(fù)雜度復(fù)雜度是O(n^2),所以需要的計算量非常大,這也是為什么現(xiàn)在市面上的大模型訓(xùn)練需要的顯卡都是幾千幾萬張。
大模型和小模型之間除了算力消耗和成本上有著巨大差異,在整體架構(gòu)上也有著明顯的差異。
一個小模型可能只需要幾百行代碼就能完整的寫出來,然后開始運行。
而一個真正意義上的大模型想要正常運行,除了其核心代碼之外還需要各種的配套功能的代碼,這些加起來幾萬行都算是少的了。
他在這方面的,不管是經(jīng)驗還是知識都很欠缺,所以第一步就是——看文獻(xiàn),至少要熟知多模態(tài)大模型領(lǐng)域所有的先進(jìn)技術(shù)之后,他才會開始計劃怎么將現(xiàn)有參數(shù)量不大的模型進(jìn)行升級。
其實這一步應(yīng)該是在談項目之前就做的,只不過周昀那個模型的性能實在太優(yōu)秀了,
再加上他在和匯金的人談判的時候表現(xiàn)得太過淡定,這讓別人以為他在這方面有了一定的積累,這才直接敲定了項目。
不過這都無傷大雅,憑他現(xiàn)在的英語水平和理解能力一天刷個十幾篇論文不是問題,最多一個月,他就能把大模型領(lǐng)域的技術(shù)摸得差不多。
時間來到了七月底,距離周昀和匯金的談判已經(jīng)過去了兩周時間。
周一,周昀照常來到實驗室。
正當(dāng)他打開電腦準(zhǔn)備刷一刷今日份的論文時,沈瑞抱著個筆記本電腦走到他身邊。
“周昀師弟,有件事我想找你幫個忙。”他有些不好意思地笑了笑。
“你說。”
“是這樣,我之前不是把論文初稿給鄧?yán)蠋熆戳藛幔扛牧藥状嗡疾粷M意,說是創(chuàng)新點沒有,模型性能沒有提升,工作做的再多也沒用,
但是他給的幾個建議我都試了,沒什么進(jìn)展,上周組會我匯報的時候不還是被罵了一頓嗎?”
一說起這個他就頭大,也不知道自己當(dāng)初為什么來讀這個研究生,和周昀相比,他感覺自己笨的就像是個草履蟲。
“行,我先看看論文?”
反正看一篇論文他也花不了多長時間,都是同門,而且平時師兄對他也都不錯,經(jīng)常請他喝咖啡奶茶,還時不時請他出去吃飯。
“太謝謝你了,真是不好意思,我也知道你最近很忙,我這也是實在沒辦法了,要是再這樣下去,我感覺肯定是要延畢了。”沈瑞一邊感謝一邊打開電腦。
周昀接過電腦,快速的滾動鼠標(biāo),沈瑞的研究方向是網(wǎng)絡(luò)流量的概念漂移,
所謂概念漂移簡單來說就是,一年前微信的流量在網(wǎng)絡(luò)中的樣子是A形態(tài),但是過了一年之后因為相關(guān)協(xié)議,軟件升級,他在網(wǎng)絡(luò)中的樣子變成了B形態(tài),
這種變化導(dǎo)致了現(xiàn)有的網(wǎng)絡(luò)流量檢測模型無法做出準(zhǔn)確的判斷,這個變化的過程就能大概理解成概念漂移。
這個方向他也挺熟悉,因為他前世給老師做橫向的時候也有過涉獵,所以引言和相關(guān)技術(shù)部分他掃一眼就知道是怎么回事。
因為現(xiàn)在的論文都有了成熟的套路,前兩部分都寫的沒什么太大問題。
不過當(dāng)他看到方法部分的時候,知道了問題所在。
說實話沈瑞的方法發(fā)個CCFC或者SCI二區(qū)的期刊都是夠了,但是鄧?yán)蠋煹囊蟊容^高,被噴也是無可厚非的事情。
看著論文,周昀不由得搖頭笑了笑。
這模樣看的沈瑞心臟不爭氣地一跳:“周昀,我這論文問題很大嗎?”
對于周昀,他現(xiàn)在是完全信任的,其地位在他心里和鄧永華沒什么區(qū)別,要是連他都搖頭的話,豈不是說明自己這論文完全沒救了?
“沒事,問題不大.....”周昀翻閱著論文解釋了一句。
他笑是因為他在沈瑞身上看到了曾經(jīng)的自己,也是一樣,沒什么天賦,**文只能靠著對別人的模型修修改改,加點模塊。
沒辦法,天才終究是少數(shù),大多數(shù)的研究生甚至博士生所謂的科研,也不過就是做著“學(xué)術(shù)裁縫”的事情罷了。
“如果只是想發(fā)文章的話,你只需要增加一個模塊就好,現(xiàn)在你的模型對概念漂移的檢測準(zhǔn)確率不高是因為它無法準(zhǔn)確識別其中的魯棒性特征,你只需要......”
周昀還貼心的幫忙找到了相應(yīng)的論文和github代碼鏈接,只要沈瑞照著別人的代碼把相應(yīng)的模塊縫到自己的模型上,那不管是創(chuàng)新點還是性能提升就都有東西能寫了。