7月9日,華為開發(fā)者大會2023(CLOUD)在東莞松山湖精彩閉幕。高新興科技集團(tuán)參股公司高新興機(jī)器人受邀參加,并發(fā)表了主題演講。
高新興機(jī)器人與華為云、上海交通大學(xué)、重慶大學(xué)等高校和大型研發(fā)機(jī)構(gòu)在行業(yè)大模型進(jìn)行合作,高新興機(jī)器人提供行業(yè)數(shù)據(jù)、語料庫以及機(jī)器人底層軟件和具身智能模型落地支持,共同面向巡邏機(jī)器人智能化開展具身智能大模型研發(fā)。
圖/高新興機(jī)器人首席技術(shù)官劉彪發(fā)表主題演講
在華為開發(fā)者大會的“具身智能,讓機(jī)器人‘知行合一’”分論壇上,高新興機(jī)器人首席技術(shù)官劉彪以《大模型助力巡邏機(jī)器人進(jìn)入3.0時代》為題進(jìn)行了技術(shù)分享。
他提到,人工智能從第一代符號主義到第二代感知智能,以及第三代認(rèn)知智能,與機(jī)器人的發(fā)展歷程交相呼應(yīng)、協(xié)同發(fā)展。以深度學(xué)習(xí)為主的第二代感知智能極大地促進(jìn)了圖像識別、語義理解、大數(shù)據(jù)分析等領(lǐng)域的技術(shù)進(jìn)步。第二代機(jī)器人解決了環(huán)境感知與導(dǎo)航定位技術(shù)、基于激光SLAM與深度學(xué)習(xí)結(jié)合的語義地圖技術(shù)、基于語音的人機(jī)交互技術(shù)、基于深度學(xué)習(xí)的視頻結(jié)構(gòu)化及圖像檢測與識別技術(shù)、基于大數(shù)據(jù)分析的傳感器數(shù)據(jù)分析與行業(yè)數(shù)據(jù)分析和處理技術(shù)。
圖/高新興機(jī)器人系列產(chǎn)品
高新興機(jī)器人結(jié)合第二代人工智能技術(shù)和機(jī)器人技術(shù),構(gòu)建了全棧機(jī)器人技術(shù)研發(fā)體系,搭建了云邊端一體化機(jī)器人操作系統(tǒng)、FMAX四個機(jī)器人硬件平臺、基于國產(chǎn)芯片SOC攻克了智能跨域融合控制器,在移動能力上解決了線控底盤、電機(jī)及控制器、智能跨域融合控制器技術(shù);在感知能力上解決了以激光SLAM為主的組合導(dǎo)航技術(shù)、三維重建技術(shù)、基于高清、紅外、紫光視覺、聲音為主的多傳感器環(huán)境感知與邊緣計(jì)算技術(shù);在決策能力上解決了規(guī)劃決策、人機(jī)協(xié)同、多機(jī)協(xié)同及調(diào)度、云邊端一體化技術(shù);在交互能力上解決了特定場景NLP、移動AI檢測和識別技術(shù);在應(yīng)用能力上打造了安保服務(wù)平臺、警用無人系統(tǒng)平臺、工業(yè)巡檢平臺及遠(yuǎn)程運(yùn)維和服務(wù)平臺。
圖/高新興機(jī)器人首席技術(shù)官劉彪?yún)⑴c高峰對話
以大模型和多模態(tài)為主的第三代人工智能在基礎(chǔ)模型作為感知模塊的工作中,更多是基于視覺模型與具身智能的結(jié)合;而在基礎(chǔ)模型作為規(guī)劃模塊的工作中,以ChatGPT為代表的生成式語言模型被用于對復(fù)雜指令進(jìn)行拆解和規(guī)劃;在動作執(zhí)行模塊,基礎(chǔ)模型往往需要結(jié)合指令和對環(huán)境的觀測結(jié)果等多模態(tài)數(shù)據(jù),來實(shí)現(xiàn)精細(xì)動作的執(zhí)行。
具身智能機(jī)器人首先要能夠聽懂人類語言,然后分解任務(wù),規(guī)劃子任務(wù),在移動中識別物體,與環(huán)境交互,最終完成相應(yīng)任務(wù)。GPT等大模型的出現(xiàn)提供了新思路——已有不少研究者嘗試將多模態(tài)的大語言模型與機(jī)器人結(jié)合起來,通過將圖像、文字、具身數(shù)據(jù)聯(lián)合訓(xùn)練,并引入多模態(tài)輸入,增強(qiáng)模型對現(xiàn)實(shí)中對象的理解,幫助機(jī)器人處理具身推理任務(wù)。
圖/讓機(jī)器人與人類更有效和自然地交流
盤古大模型3.0是華為云推出的面向行業(yè)的大模型系列。它采用了"5+N+X"的三層架構(gòu)。其中,"5"代表L0層的五個基礎(chǔ)大模型,包括自然語言、視覺、多模態(tài)、預(yù)測和科學(xué)計(jì)算大模型,這些大模型可以滿足行業(yè)場景中的多種技能需求。
盤古3.0提供了多種參數(shù)規(guī)模的大模型,如100億參數(shù)、380億參數(shù)、710億參數(shù)和1000億參數(shù)的系列化基礎(chǔ)大模型,以滿足不同場景和需求的客戶。同時它還提供了一些新的能力集,如知識問答、文案生成、代碼生成等能力,以及圖像生成、圖像理解等多模態(tài)大模型的能力。無論參數(shù)規(guī)模大小,盤古提供了一致的能力集。在"5+N+X"這個架構(gòu)中的"N"代表L1層的N個行業(yè)大模型,華為云可以提供使用行業(yè)公開數(shù)據(jù)訓(xùn)練的通用大模型,也可以根據(jù)行業(yè)客戶的自有數(shù)據(jù)為其訓(xùn)練專有大模型??蛻艨梢韵袢A為生成盤古大模型一樣,生成自己的行業(yè)大模型——"X"則代表L2層,為客戶提供更多細(xì)化場景的模型,如政務(wù)熱線、網(wǎng)點(diǎn)助手、先導(dǎo)藥物篩選、傳送帶異物檢測、臺風(fēng)路徑預(yù)測等具體行業(yè)應(yīng)用或特定業(yè)務(wù)場景的模型服務(wù),為客戶提供"開箱即用"的模型。
通過這三層大模型,華為云構(gòu)建了自己的大模型底座。在最底層,華為搭建了以鯤鵬和昇騰為基礎(chǔ)的AI算力云平臺,以及包括CANN、MindSpore和ModelArts在內(nèi)的AI技術(shù)底層,為大模型的開發(fā)和運(yùn)行提供支持。華為還與各個行業(yè)的伙伴合作,將各行各業(yè)的知識與大模型進(jìn)行匹配和融合,通過"5+N+X"的三層架構(gòu),提供豐富的基礎(chǔ)大模型、行業(yè)大模型和細(xì)化場景的模型,為客戶在各個行業(yè)中的人工智能應(yīng)用提供強(qiáng)大的支持。
高新興機(jī)器人基于鳳凰平臺、梧桐平臺和尚云平臺構(gòu)成的云邊端一體化機(jī)器人2.0系統(tǒng)為基礎(chǔ),對系統(tǒng)架構(gòu)和技術(shù)架構(gòu)進(jìn)行全面升級,打造全新的基于具身智能大模型框架的云邊端一體化3.0系統(tǒng)“千巡問義”,采用分布實(shí)施分布上線的策略:首先巡邏機(jī)器人基于巡邏業(yè)務(wù)和行業(yè)數(shù)據(jù)庫,使用現(xiàn)有GPT等多模態(tài)大語言模型讓機(jī)器人聽得懂人的語言指令,實(shí)現(xiàn)和人類進(jìn)行“類人”交互模式轉(zhuǎn)變,解決基于AIGC的人機(jī)交互問題,打造人機(jī)生成式大模型交互“千巡問警”;其次解決機(jī)器人的認(rèn)知決策能力:深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)等都是機(jī)器人重要的學(xué)習(xí)手段;最后解決機(jī)器人的執(zhí)行能力,讓機(jī)器人處理現(xiàn)實(shí)中的復(fù)雜任務(wù)。