幫GPT4最強AI裝「眼睛」變真·機器人保姆?!

「最強AI」GPT-4推出後,全球網民把它玩出火。有人用它建網站,有人靠它作弊,還有人讓它設計理財方案。以上這些都發生在電腦上,意味著GPT-4的真身只存在於賽博空間裡。但外國一名男子麥凱·瑞克利(Mckay Wrigley)不走尋常路。他想給GPT-4一雙「眼睛」,讓它自己看到現實空間裡的一切,成為他的家庭生活助手。

eHZhr3Yp_GjAz.jpg

也就是說,把GPT-4從賽博空間帶到現實空間。從結果看,他做得很成功……瑞克利是一個自學成才的程序員,碼齡不過四年。雖然經驗尚淺,但靠著熱情和好奇心,他在不久前做出「GPT之眼」。這個名字聽上去高端大氣,但用他的話說,「不過是一堆東西拼湊在一起,根本不複雜」(當然也可能是謙虛)。

JeFpcmju_mIMT.jpg

想要讓GPT-4看到家裡的一切,需要經歷兩個步驟,一個是拍攝,一個是視覺分析。首先,瑞克利用蘋果手機拍攝影片,影片直播到電腦上。接著,他使用電腦上的視覺模型YOLOv8來檢測目標。為了確保准確性,他需要先將房間內所有物品的圖像輸入進去,形成自己的數據集。

u7ESrPeY_L6I2.jpg

這是任務的核心,還好繁重的工作都由YOLOv8完成。瑞克利說他只看了20分鐘的YouTube教程影片,就搞定一切。為了讓「家庭助手」的工作風格更自然,瑞克利選擇用語音和它對話。他使用OpenAI公司的語音自動識別系統Whisper,將它安裝到電腦上。Whisper對英語識別的準確性和人類差不多,檢測到話語後,它會轉成文字輸入給GPT-4。與此同時,影片上的物體由YOLOv8識別,輸入給GPT-4。

ST44dmDv_pV7M.jpg

GPT-4寫出來的文字,會由AI語音生成器自動讀出來。就這樣,GPT-4的耳朵、眼睛和嘴巴都有了。「一切都唾手可得,簡直非常簡單。」瑞克利興奮地寫道,「這就是世界未來的樣子!」光看文字,可能感覺不到科幻之處,但看影片就有點毛骨悚然了……

dM3WvrRp_g75s.jpg

「請記住,眼前這個AI沒有任何先驗知識,它只能通過鏡頭拍到的物品來獲得信息。」瑞克利在影片開頭說,「大家可以看到,螢幕上有很多框,這就是它在識別物品。」

「除此外,它還可以在網上搜索關於物品的信息。」

瑞克利按下運行按鈕,GPT-4用專業的女聲說:「我有什麼能幫您的嗎?」

vBJfm4EN_vRNO.jpg

瑞克利問:「生酮飲食是什麼東西?」

GPT-4說:「讓我找找……生酮飲食是一種低碳水化合物、高脂肪的飲食。它可以降低血糖和胰島素,在遠離碳水食用脂肪的過程中,改變身體的新陳代謝。」

瑞克利問:「好的。我想知道,如果我給你看一些食物,你能告訴我哪些屬於生酮食物嗎?」

GPT-4說:「當然。給我看看你的食物,我能告訴你哪些是生酮食物。」

瑞克利打開冰箱,用很快的速度拍攝酪梨、牛排、果汁、柳橙、檸檬、醬料等食物。在他拍的時候,這些物品都被框起來。

MZN9JOgT_YM7X.jpg

他拍得相當草率,每個食物在鏡頭上停留的時間可能不到一秒。

Ig256KtX_YhwW.jpg

之後,他關上冰箱,對觀眾們解釋:「當我離開冰箱的時候,它就明白我不想繼續展示了。冰箱門一關,它開始處理信息,整個識別過程很快。」過了幾秒鐘,GPT-4說:「看起來,你家裡有牛排、菠菜、黃油、酪梨和檸檬。這些都是很棒的生酮食物。」瑞克利舉大拇指說:「幹得好,這就是我想讓你做的。接下來我要你去網上搜食譜,看看我能用這些食物做什麼晚餐。」

F2cFSXFg_ItI6.jpg

GPT-4回答:「讓我看看……我搜到一個叫'15分鐘檸檬大蒜奶油牛排配菠菜'的食譜。它用到了你有的食材。」它給出網頁的鏈接,瑞克利向它表示感謝。雙方客套一下,然後GPT-4關閉了。點進GPT-4給的食譜網頁,瑞克利發現不是很完美,因為裡面也用到他沒有的食材。

CTEbfB2q_IpQb.jpg

「不過我覺得挺不錯的了。你們看,它還不是一個完整的產品,只是一個演示。現在的效果已經很令人印象深刻。」瑞克利說,他非常期待蘋果公司將在今年夏天推出的AR眼鏡。搭配上GPT-4還未正式推出的圖像輸入功能,效果會非常爆炸。想一想,戴著眼鏡隨處看,就能讓GPT-4對你的生活瞭如指掌……這不就是機器人管家走進現實嗎?

hDu3fkVV_FNwu.jpg

瑞克利用到的技術不算複雜,但讓GPT-4直接和現實交互,有點未來世界的樣子。推特評論區裡,很多人已經等不及要試了,瑞克利鼓勵大家「它做起來比看起來容易100倍」。上個月,瑞克利做過「GPT之眼」簡易版,效果也很不錯。他拿著可樂,問GPT-4這是什麼,它很快回答「這是一罐可樂」。

McumMpVh_hsf3.jpg

接著,他問裡面有多少卡路里。雖然光線模糊,距離也不算近,GPT-4看出來(準確地說是視覺模型看出來)這是健怡可樂,回答「它不含有任何卡路里」。GPT-4還搜索出這款可樂的成分,給出網站鏈接。

d5sFnI7u_5COc.jpg

瑞克利又拿出自己的牙刷,問它這是什麼,同時要求它找到在亞馬遜上的購買鏈接。

KBbrAQky_YHNn.jpg

GPT-4回答「這根牙刷售價6.66美元,有14712人留下評分,星級評分為4.7」。接著,它給出購買鏈接。瑞克利點進去後發現犯了點小錯,GPT-4給的不是原價,而是折後價,大概是因為它登錄了自己的亞馬遜賬號。

N7FWDhwB_3zAV.jpg

在最後的測試,瑞克利拿出一張電影海報,問GPT-4這個男人是誰,給出關於他的信息。

VjWE5ZPg_jLya.jpg

GPT-4很快找到他是約翰·維克,《捍衛任務》裡的角色。「約翰·維克是基努·李維在一部新黑色動作驚悚片中扮演的角色。約翰是一名傳奇殺手。在一群人闖入他的家,偷走他的車,殺掉他已故妻子送的小狗後,他尋求復仇,重新回到犯罪的地下世界。這使他和曾經所屬的國際殺手組織產生的衝突。」維基百科的鏈接也貼心附上了。

QwMq9TeT_fxES.jpg

現在,瑞克利在興奮地期待AR眼鏡,把它和GPT-4結合後,整個人就像生活在科幻小說裡。

u4YFqAT8_rWYM.jpg

而這僅僅只是開始。也許機器人管家會普及化,也許人們會找出更神奇的功能,做出更不可思議的產品,算是AI降生後給人的小小期盼吧!

暫無任何回文,期待你打破沉寂

你需要登入後才可以回覆 登入 | 註冊會員

本版積分規則

patritech

LV:2 村民

追蹤
  • 578

    主題

  • 578

    回文

  • 5

    粉絲