北理工團隊在遙感多模態大語言模型研究方面取得重要進展

2024年06月28日 11:56:51 人氣: 18246 來源: 北京理工大學

　　【儀表網研發快訊】2024年5月，北京理工大學前沿交叉學院數據流體課題組近日在遙感多模態大語言模型研究中取得重要進展，相關成果以“EarthGPT: A Universal Multi-modal Large Language Model for Multi-sensor Image Comprehension in Remote Sensing Domain”為題發表在國際頂級期刊《IEEE Transactions on Geoscience and Remote Sensing (TGRS)》上發表。北京理工大學為唯一通訊單位，北京理工大學前沿交叉學院博士張偉和雷達技術研究院博士蔡妙鑫為共同第一作者，毛雪瑞教授為通訊作者。

　　目前遙感領域視覺模型大多都遵循“一任務一架構”的范式，使得這些專才模型無法在同一架構下統一處理多模態圖像和多任務推理。最近，通用多模態大語言模型(Multi-modal Large Language Models，簡稱MLLMs)在自然圖像領域取得了顯著成功。然而MLLMs在遙感領域的發展仍處于起步階段。為填補這一空白，毛雪瑞教授團隊提出了EarthGPT遙感通才模型，將多傳感器圖像理解和多種遙感視覺任務都無縫集成在同一個框架中。EarthGPT可在自然語言指令下，實現光學、合成孔徑雷達(SAR)圖像和紅外圖像的理解，完成遙感場景分類、圖像描述、視覺問答、目標描述、視覺定位和目標檢測等多種任務(圖1)。

　　圖1 EarthGPT可通過自然語言交互的方式，完成多傳感器遙感圖像解譯和多視覺推理任務

　　遙感通才模型EarthGPT包括三項關鍵技術：(1)視覺增強感知機制，通過混合專家編碼器提煉視覺粗粒度語義信息和細粒度感知信息。(2)跨模態交互理解方法，基于大規模自然圖像數據集做預訓練，賦予大語言模型基本的圖像理解能力和多輪對話能力。(3)統一指令微調方法，在本文構建的遙感多模態指令數據集MMRS-1M(含100萬圖像-文本對)上做微調，實現遙感場景下的綜合圖像解譯能力(圖2)。

圖2 EarthGPT模型架構圖

　　EarthGPT具備“多才多藝”的遙感視覺解譯能力和多傳感器圖像理解能力，且表現出了卓越的開放域推理能力。該研究貢獻了一個通用的多模態多任務推理框架和目前最大的MMRS-1M遙感多模態指令數據集，展示出了極大的工業界實際應用的潛力。

　　此項工作以北京理工大學為唯一通訊單位，得到了國家自然科學基金的支持。

關鍵詞：遙感,大語言模型

上一篇：精密測量院在手性量子熱力學研究方面取得新進展 下一篇：蘇奧傳感擬1.11億元收購博耐爾24%股權取得控股權

全年征稿/資訊合作 聯系郵箱：ybzhan@vip.qq.com

版權與免責聲明: 1、凡本網注明"來源：儀表網"的所有作品，版權均屬于儀表網，未經本網授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的，應在授權范圍內使用，并注明"來源：儀表網"。違反上述聲明者，本網將追究其相關法律責任。; 2、本網轉載并注明自其它來源的作品，目的在于傳遞更多信息，并不代表本網贊同其觀點或證實其內容的真實性，不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網站或個人從本網轉載時，必須保留本網注明的作品來源，并自負版權等法律責任。; 3、如涉及作品內容、版權等問題，請在作品發表之日起一周內與本網聯系，否則視為放棄相關權利。; 4、合作、投稿、轉載授權等相關事宜，請聯系本網。

企業推薦