商湯科技今日宣布通用視覺平臺OpenGVLab正式開源,開放內容包括超高效預訓練模型,和千萬級精標注、十萬級標簽量的公開數(shù)據(jù)集,將為全球開發(fā)者提升各類下游視覺任務模型訓練提供重要支持。
目前,人工智能已經能夠識別萬物,但很多AI模型只能完成單一的任務,比如識別單一的物體,或者識別風格較為統(tǒng)一的照片,如果換一種類型或者風格,就愛莫能助。為了能夠識別不同類型的圖片,這就需要有獨特的模型訓練及標簽體系,也要求模型具有一定的通用性,這樣才能對不同類型的圖片做出準確的描述。
據(jù)介紹,基于此前商湯科技聯(lián)合上海人工智能實驗室、香港中文大學、上海交通大學等共同發(fā)布的通用視覺技術體系“書生”(INTERN),使用此模型,研究人員可以大幅降低下游數(shù)據(jù)采集成本,用極低的數(shù)據(jù)量,即可快速滿足多場景、多任務的AI模型訓練。
目前OpenGVLab開源平臺已正式上線,供各界研究人員訪問和使用,后續(xù)項目還將開通在線推理功能,供所有對人工智能視覺技術感興趣的社會人士自由體驗。此外,OpenGVLab還同步開放業(yè)內首個針對通用視覺模型的評測基準,便于開發(fā)者對不同通用視覺模型的性能進行橫向評估和持續(xù)調優(yōu)。