新聞中心
[[423778]]

10年積累的網(wǎng)站建設(shè)、網(wǎng)站制作經(jīng)驗(yàn),可以快速應(yīng)對客戶對網(wǎng)站的新想法和需求。提供各種問題對應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識你,你也不認(rèn)識我。但先網(wǎng)站設(shè)計(jì)后付款的網(wǎng)站建設(shè)流程,更有平谷免費(fèi)網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。
在 CV 領(lǐng)域,人體姿態(tài)估計(jì)(human pose estimation)利用目標(biāo)檢測模型和姿態(tài)估計(jì)模型來識別出人體各個關(guān)節(jié)的位置和網(wǎng)格,并已在動作識別、動畫、游戲、運(yùn)動捕捉系統(tǒng)中有著廣泛的應(yīng)用。
但遺憾的是,人體姿態(tài)估計(jì)常常見諸于學(xué)術(shù)研究中,普通讀者很難親身體驗(yàn)它的神奇成像效果。
近日,機(jī)器之心在 GitHub 上發(fā)現(xiàn)了一個有趣的項(xiàng)目「air-drawing」,作者創(chuàng)建了一個利用深度學(xué)習(xí)的工具,使你在配有攝像頭的電腦端可以獲得自己的手勢姿態(tài)估計(jì)成像圖。
項(xiàng)目地址:https://github.com/loicmagne/air-drawing
此外,作者使用的深度學(xué)習(xí)模型還可以預(yù)測「向上」或「向下」的手勢動作。動態(tài)效果展示圖如下:
小編也嘗試在自己的電腦上捕捉到了手勢姿態(tài)估計(jì)網(wǎng)格圖:
然后試著寫了兩個字「中國」,不知各位讀者認(rèn)得出來嗎?!
試玩地址:https://loicmagne.github.io/air-drawing/
作者表示,試玩過程中不會收集用戶信息。作者還優(yōu)化了代碼,使得該工具可以在大多數(shù)電腦上運(yùn)行。電腦上的網(wǎng)絡(luò)攝像頭質(zhì)量會對成像效果產(chǎn)生影響,調(diào)高屏幕亮度有助于更快地觸發(fā)攝像頭,并提升快門速度和幀率。如果手部一部分在框架之外,則手部檢測無法正常工作。在繪圖寫字時,保持手指向上,手指向下時會影響指尖的檢測。
技術(shù)細(xì)節(jié)
這個可以隔空作畫的工具使用深度學(xué)習(xí)來完成,實(shí)現(xiàn) pipeline 包含兩個步驟:手勢檢測以及預(yù)測所要畫的圖,這兩個過程都是通過深度學(xué)習(xí)來完成的。其中,手勢檢測使用了手部追蹤解決方案 MediaPipe toolbox。
MediaPipe toolbox 項(xiàng)目地址:
https://google.github.io/mediapipe/solutions/hands.html
繪圖預(yù)測部分只用到了手指位置相關(guān)技術(shù)。輸入是一個 2D 點(diǎn)序列(實(shí)際上,該項(xiàng)目使用的是手指的速度和加速度,而不是位置,來保持預(yù)測的平移不變),輸出是二元分類「向上(pencil up)」或「向下(pencil down)」。
此外,項(xiàng)目作者還使用了簡單的雙向 LSTM 架構(gòu),并且做了一個小數(shù)據(jù)集(大約 50 個樣本),數(shù)據(jù)標(biāo)注使用「python-stuff/data-wrangling/」工具。一開始,項(xiàng)目作者想做一個實(shí)時的「向上 / 向下」預(yù)測,即在用戶繪畫的同時做出預(yù)測。然而,由于任務(wù)太難,導(dǎo)致結(jié)果很差,因此采用雙向 LSTM。
關(guān)于深度學(xué)習(xí) pipeline 細(xì)節(jié),你可以在 jupyter-notebook 中的 python-stuff/deep-learning / 了解更多信息。
該應(yīng)用程序可以在用戶端使用,作者將 PyTorch 模型轉(zhuǎn)換為. onnx,然后使用 ONNX Runtime,它非常方便,可以兼容很多層。
總體來說,這個 pipeline 還需要進(jìn)一步完善,一些改進(jìn)的想法包括:
- 使用更大的數(shù)據(jù)集和更多的用戶數(shù)據(jù);
- 對手指信號進(jìn)行處理和平滑,減少對相機(jī)質(zhì)量的依賴,提高模型的泛化能力。
作者答疑
可以隔空繪畫的這個項(xiàng)目引來了眾多網(wǎng)友的討論,有人不禁感慨,「這太酷了!讓我想起迪士尼的廣告,他們會用發(fā)光的魔杖畫出米老鼠的頭?!?/p>
在網(wǎng)友表達(dá)驚喜的同時,也有人提出了自己的疑惑。項(xiàng)目作者在 reddit 上對部分網(wǎng)友的的疑問進(jìn)行解答,我們列舉其中一部分。
有網(wǎng)友表示,這是一個不錯的項(xiàng)目,并有疑問——RNN 是從頭開始訓(xùn)練的,還是在預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行微調(diào)的?
作者表示:「模型是從頭開始訓(xùn)練的,但使用預(yù)訓(xùn)練模型可能是一個不錯的建議?!?/p>
還有網(wǎng)友提問:「預(yù)測是實(shí)時的嗎?那樣的話,這將是一個真正的魔法?!?/p>
作者表示,預(yù)測是實(shí)時的。但遺憾的是,實(shí)時性能不是很好,所以必須使用雙向 LSTM。
還有網(wǎng)友建議「使用 transformer 可以獲得更好的性能」。
對于這個建議,作者表示自己曾嘗試過自注意力層,但是結(jié)果并不理想。如果有一個更大數(shù)據(jù)集的話,采用 transformer 效果會更好。
網(wǎng)頁標(biāo)題:來玩!電腦端的手勢姿態(tài)估計(jì),隔空寫字、繪圖,有攝像頭就行
本文來源:http://m.fisionsoft.com.cn/article/dpoipio.html


咨詢
建站咨詢
