在2018年CCF-GAIR大會上,商湯科技聯(lián)合創(chuàng)始人林達華教授針對計算機視覺領域的發(fā)展趨勢,提出了從粗放式研究向精細化探索轉型的深刻思考。他指出,隨著人工智能技術的快速演進,單純依賴數(shù)據(jù)規(guī)模和算力堆疊的粗放式研究模式已逐漸顯現(xiàn)瓶頸,未來必須聚焦于更具深度與效率的創(chuàng)新路徑。以下是林達華分享的三點核心思考:
第一,從“數(shù)據(jù)驅動”到“知識與數(shù)據(jù)融合”。傳統(tǒng)計算機視覺研究高度依賴大規(guī)模標注數(shù)據(jù),但現(xiàn)實中許多場景難以獲取充足樣本。林達華強調(diào),需將人類先驗知識、物理規(guī)律與數(shù)據(jù)驅動方法相結合,通過小樣本學習、遷移學習等技術,構建更魯棒且可解釋的模型。例如,在醫(yī)療影像分析中,融入醫(yī)學知識可顯著提升模型在罕見病診斷中的準確性。
第二,突破“黑箱”局限,發(fā)展可解釋的視覺系統(tǒng)。當前深度學習模型常被視為“黑箱”,其決策過程缺乏透明性,限制了在自動駕駛、金融安全等高可靠性領域的應用。林達華認為,研究應側重于模型的可解釋性設計,如通過注意力機制、因果推理等方法,使系統(tǒng)不僅能輸出結果,還能提供決策依據(jù),增強人機協(xié)作的信任度。
第三,從“通用模型”到“場景自適應”的精細化優(yōu)化。通用視覺模型雖覆蓋面廣,但在具體場景中常面臨效率與精度失衡的問題。林達華提出,需針對不同應用場景(如工業(yè)質檢、智慧城市)的特點,開發(fā)輕量化、自適應算法,通過動態(tài)網(wǎng)絡結構、元學習等技術,實現(xiàn)模型在資源受限環(huán)境下的高效部署。例如,商湯科技在安防領域通過定制化模型,將識別速度提升數(shù)倍的同時降低了能耗。
林達華道,計算機視覺的下一階段競爭將集中于“精細化創(chuàng)新”,即通過跨學科融合、可解釋性探索與場景深度適配,推動技術從實驗室走向產(chǎn)業(yè)核心環(huán)節(jié)。這一轉型不僅需要算法突破,更依賴于產(chǎn)學研協(xié)同構建開放生態(tài),以解決實際社會需求為最終目標。商湯科技作為行業(yè)引領者,正持續(xù)投入基礎研究,助力中國人工智能在全球視野下實現(xiàn)從“跟跑”到“領跑”的跨越。