以下文章來源于同路人TJ ,作者Trusted AI TJ
同濟大學交通運輸工程學院黃世澤老師團隊交流共享平臺
3月23-24日,“2024全球開發(fā)者先鋒大會”(GDC)在上海徐匯盛大開幕。大會由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦。以“模速空間——開發(fā)者的模力之源”為主題,促進全球范圍內(nèi)最尖端技術、最熱門議題和最先鋒人才的深入交流與對話,以上海模速空間創(chuàng)新生態(tài)社區(qū)為抓手,不斷優(yōu)化生態(tài)環(huán)境,引導全球頂尖人才向上海匯聚,助推上海成為高科技產(chǎn)業(yè)高地[1]。作為國內(nèi)人工智能發(fā)展高地,上海將支持通用大模型和垂直大模型的研發(fā),推動大模型在金融、教育、醫(yī)療等典型領域的垂直應用。
主會場攝影圖像
陳杰副市長致辭
大會期間,同濟大學交通運輸工程學院黃世澤副教授(中凱科技股份首席技術官)受邀參加全球開發(fā)者先鋒大會數(shù)字城軌論壇“軌交大模型與可靠性工程”。
主題報告
參與討論
論壇合照
黃世澤副教授(中凱科技股份首席技術官)在會議上發(fā)表演講“視覺大模型及其在軌道交通弓網(wǎng)視頻處理中的應用”,介紹了團隊長期從事的軌道交通智能運維相關研究,以及將視覺大模型應用在軌道交通智能運維的相關工作,包括將Segment Anything Model(SAM)[2]應用于弓網(wǎng)支撐裝置的分割,將Recognize Anything Model(RAM)[3]應用于列車運行環(huán)境的感知,以及對視覺大模型本質安全的探究。充分利用視覺大模型的優(yōu)勢,從已有的視頻資源中挖掘大量有效信息并進行整合,在不需額外標注的情況下提取場景的語義信息,以輔助軌道交通智能運維工作。
Part.1/ 成功將SAM應用于弓網(wǎng)支撐裝置分割
1. 成功將SAM應用于弓網(wǎng)支撐裝置分割
根據(jù)《高速鐵路接觸網(wǎng)運行檢修規(guī)則》,接觸網(wǎng)零部件故障可能不會直接引起接觸網(wǎng)跳閘等,但卻導致接觸網(wǎng)系統(tǒng)整體可靠性下降,增加事故隱患,這些零部件及設備的技術狀態(tài)直接關乎高速鐵路接觸網(wǎng)的運行安全。弓網(wǎng)支撐裝置分割效果會直接影響基于計算機視覺的零部件狀態(tài)監(jiān)測的檢測效果,從復雜多變的背景中準確提取弓網(wǎng)支撐裝置是后續(xù)零部件狀態(tài)監(jiān)測的重要基礎。
弓網(wǎng)支撐裝置分割任務存在像素級數(shù)據(jù)標注工作量大、背景復雜多變、天氣情況多樣、弓網(wǎng)幾何結構多樣的問題,針對存在的難點,團隊提出基于SAM實現(xiàn)對車載視頻的全景分割方法,實驗表明基于SAM模型的半監(jiān)督弓網(wǎng)支撐裝置分割方法效果較好,分割示例如下:
圖:基于SAM的弓網(wǎng)支撐裝置分割效果
Part.2/ 探索RAM對列車運行環(huán)境的感知效果
列車運行環(huán)境感知依賴于傳感器收集數(shù)據(jù)信息并分析,以實現(xiàn)狀態(tài)監(jiān)測和故障診斷,但存在大量“同質化”傳感器,同時,受制于成本、空間的限制,難以布設新傳感器。海量弓網(wǎng)視頻的信息有待發(fā)掘,基于弓網(wǎng)視頻實現(xiàn)列車運行環(huán)境感知可以充分利用現(xiàn)有資源,在不耗費額外資源的前提下實現(xiàn)對于環(huán)境的感知。傳統(tǒng)深度學習方法采用人工構建的分類樣本集作為訓練數(shù)據(jù),耗時耗力,并且難以窮盡所有分類與識別環(huán)境細節(jié)。
基礎模型RAM擁有“識別一切”能力,無需人工標注,可以高精度識別任何常見類別。基于RAM的識別結果,通過分析標簽時序圖特征整體可以感知列車全過程運行環(huán)境,感知結果與列車實際運行環(huán)境吻合度較高,示例如下:
圖:列車運行環(huán)境感知示例
未來,團隊將繼續(xù)探究視覺大模型在環(huán)境感知方面的應用,研究大模型在不同的視覺語義理解場景中的應用,并為軌道交通領域的多模態(tài)融合感知提供研究基礎。
Part.3/ 探究視覺大模型的本質安全威脅
團隊聚焦列車行駛環(huán)境感知場景下的對抗樣本攻防問題,圍繞列車(有軌電車)行駛環(huán)境感知對抗樣本攻防目標,障礙物檢測、軌行區(qū)識別以及交警指揮行為姿態(tài)估計場景,解決對抗樣本攻擊下列車行駛環(huán)境可信感知科學問題。針對SAM模型,團隊提出具有提示間遷移性的對抗攻擊方法,攻擊效果如下:
研究表明,SAM等視覺大模型與其他深度學習方法一樣,存在對抗樣本風險,對此,團隊也將聚焦大模型安全性,考慮對抗樣本對于大模型的風險,同步實現(xiàn)對抗樣本防御,為平穩(wěn)度過技術迭代升級時期提供支撐。
Part.4/ 展望
新一代模型最強的能力是生成,例如,Sora可以生成具有多個角色、包含特定運動的復雜場景。這對于稀缺樣本生成擴充、提供感知算法測試場景、自動構建數(shù)字孿生場景均提供了潛在有力的工具。
圖:生成模型的用途場景展望
會議結束后,中車、卡斯柯等企業(yè)圍繞上述研究的落地展開了進一步交流。未來,探究大模型在軌道交通領域智能運維的應用與發(fā)展,將是團隊繼續(xù)追尋的目標,期待各位專家的指導。
中凱科技致力于智能監(jiān)控管理平臺的研發(fā),實現(xiàn)企業(yè)管理的數(shù)字化,用數(shù)據(jù)為企業(yè)賦能,全面提升企業(yè)管理水平。
同濟大學和浙江中凱20余年持續(xù)合作,未來將探索視覺大模型引入到中凱的監(jiān)控管理平臺。