行業新聞
我們通常會認為監控攝像頭是數字化的眼睛,監視著我們,或者是為我們進行監視,具體是哪種情況取決于你的立場。但實際上,它們更像是舷窗:只有當有人通過它們看時才有用。有時候這意味著會有人監看監控視頻,通常是同時監看多個視頻窗口。然而,大多數監控攝像頭都是被動的。它們在那里作為一種威懾,或者在出現問題時提供證據。
但是,這種情況正在發生變化視頻監控,而且變化的速度非常快。人工智能給了監控攝像頭提供了能夠匹配它們眼睛的大腦,讓它們能夠分析實時視頻,而且不需要人類的干預。對于公共安全來說,這可能是一個好消息,幫助警察和應急救助人員能夠更容易地發現犯罪和事故,并且有一系列的科學和工業上的應用。但是這也對隱私的未來引發了嚴重的問題,并給社會正義帶來了全新的風險。
如果政府可以使用閉路電視視頻監控跟蹤大量的人,會發生什么情況?如果警察只要將你的臉部照片上傳到數據庫,就可以對你進行全城數字化跟蹤,又會怎么樣?或者你所在當地的商場的攝像頭上運行的算法存在偏見,僅僅因為不喜歡某群青少年的樣子,就發出警報召喚警察,又會怎么樣?
雖然這些情景的出現尚需時日,但是我們已經看到將監控和人工智能結合的初步成果了。IC Realtime公司就是一個例子。該公司去年12月份推出的旗艦產品被谷歌用于閉路電視視頻監控。這是一個應用程序及網絡平臺,名為Ella,它使用人工智能對視頻流中的內容進行分析,并使之可供即時搜索。Ella可以識別成千上萬的自然語言查詢,讓用戶能夠搜索鏡頭中的內容,找到包含了特定動物、穿著特定顏色衣物的人,甚至是包含了某款特定汽車品牌或型號的剪輯圖像。
在一次網絡演示中,IC Realtime公司的首席執行官Matt Sailor向《The Verge》展示了Ella的一個版本,該版本連接了監控一個工業園區的大約40臺監控攝像頭。他輸入了各種搜索內容--"一個穿紅衣服的男人"、"UPS貨車"、"警車"--所有這些都在幾秒鐘內提取出了相關的鏡頭。然后,他縮小和時間范圍和地點范圍,并指出用戶可以如何用拇指向上和向下滑動改善結果--就像Netflix一樣。
人工智能監控從可搜索視頻開始
Sailor表示:"假如有搶劫,你并不真的知道發生了什么"。他表示,"但之后有一輛吉普牧馬人(Jeep Wrangler)向東飛馳而去。所以我們來搜索'吉普
牧馬人(Jeep Wrangler)',然后就找到了。"在屏幕上,開始出現視頻剪輯,顯示不同的吉普牧馬人(Jeep Wrangler)從鏡頭前滑過。這將是人工智能和閉路電視視頻監控相結合的第一大優勢,Sailor解釋說:讓你很容易找到你要找的東西。他表示:"如果沒有這種技術,你所能知道的不會比你的攝像頭更多,而且你必須從數個小時、數個小時又數個小時的視頻中篩選內容。"
Ella運行在谷歌云(Google Cloud)上,可以從幾乎任何閉路電視視頻監控系統中搜索鏡頭。Sailor表示:"它在從單攝像頭系統--例如保姆攝像頭或者狗攝像頭--一直到擁有成千上萬攝像頭的企業級系統中,都能工作得很好。"用戶每月支付使用費用,起價為每個月7美元左右,總價會根據攝像頭的數量增長。
IC Realtime公司希望能夠針對各種規模的企業,但該公司也認為其技術也能夠吸引個人消費者。這些客戶已經通過"智能"家庭安防攝像頭市場的急速發展得到了很好的服務,這些攝像頭是由亞馬遜、羅技、Netgear以及谷歌旗下的Nest之類的公司制造的。但是Sailor表示說這種技術和IC Realtime公司的技術相比就太簡陋了。這些攝像頭連接到家庭Wi-Fi上,并通過應用程序提供實時視頻流,當它們發現有東西在移動的時候,會自動地將視頻記錄下來。但是,Sailor表示,它們無法區分闖入者和鳥類之間的差異,導致出現了很多誤報。他表示:"它們是非常基礎的技術,已經存在了很多年了。"他表示:"這里沒有人工智能,也沒有深度學習。"
這種情況不會持續很久了。雖然IC Realtime公司提供的基于云的分析功能可以升級現有的、傻瓜式的攝像頭,其他一些公司則直接在他們的硬件中加入了人工智能。Boulder AI就是一家這樣的創業企業,該公司用自己的獨立人工智能攝像頭推銷"視覺即服務"。將人工智能集成到設備中的一大優勢是它們不需要互聯網連接就能工作。Boulder公司廣泛地面向各行各業進行銷售,為每家客戶量身打造機器視覺系統。
該公司的創始人Darren Odom對《The Verge》表示:"應用程序真的是非常全面。"他表示:"我們的平臺銷售給了銀行、能源公司。我們甚至有一個應用程序可以觀察比薩餅,確定它們的大小和形狀是否正確。"
"我們現在能夠100%地識別愛達荷州的鱒魚。"
Odom舉了一個在愛達荷州建造水壩的客戶的例子。為了符合環保法規,他們正在監測能夠越過這個基礎設施頂部的魚類的數量。Odom表示:"他們以前安排了一個人坐在窗口看著魚梯,數著有多少鱒魚游過。"(顧名思義,魚梯指的就是一條階梯式的水槽,魚類可以通過這條水道奮力上游。)"然后他們轉移到了視頻技術,有人(遠程)進行監控。"最后,他們聯系了Boulder公司,該公司為他們搭建了一個定制化的閉路電視監控系統以確定通過魚梯上游的魚的類別。Odom自豪地表示:"我們真的使用計算機視覺進行了魚類物種識別。" Odom表示:"我們現在能夠100%地識別愛達荷州的鱒魚。" 如果說IC Realtime代表了這個市場的通用一端,那么Boulder公司就是展示了精品承包商的能力。不過,在這兩種情況之下,這些公司目前所能夠提供的還僅僅是冰山一角。就像機器學習在物體識別的能力方面取得迅速的進步一樣,它分析場景、活動和動作的能力也有望迅速提高。一切都已經就位,包括基礎研究、計算能力和訓練數據集--這是創建有能力的人工智能的關鍵組成部分。視頻分析的兩個最大的數據集來自YouTube和Facebook,這兩家公司都曾經表示希望人工智能能夠幫助他們節制平臺上的內容(不過兩家公司也都承認還沒有做好準備)。例如,YouTube的數據集包含超過45萬小時帶標簽的視頻,希望能夠刺激"視頻理解的創新和進步"。參與構建此類數據集的組織的廣度讓人對該領域的重要性有了一些了解。谷歌、麻省理工學院(MIT)、IBM和DeepMind都參與進來,開啟了自己的類似項目。
IC Realtime公司已經在開發面部識別等高級工具了。之后,它希望能夠分析屏幕上正在發生的事情。Sailor表示,他已經和教育行業潛在的客戶進行過交談,對方希望當學生在學校遇到麻煩的時候,監控能夠識別出來。他表示:"例如,他們對打架的迅速通知感興趣。"系統需要做的一切就是注意聚集在一起的學生,然后提醒某個人,這樣他就可以檢查視頻內容,看看發生了什么事情或者親自去調查。
Boulder公司也正在探索這種高級分析。該公司正在開發的一個原型系統的目標是分析在銀行里的人的行為。Odom表示:"我們專門尋找壞人,并且探查一個正常人的行為和越界的人的行為之間的區別。" 要想做到這一點,他們正在使用舊的安全攝像頭拍攝的視頻來訓練他們的系統,以發現異常行為。但是這種視頻有很多的質量都非常低,所以他們也會找一些演員來拍攝自己的訓練視頻片段。Odom沒有詳細說明細節,但表示該系統將尋找特定的面部表情和行為。他表示:"我們的演員們會做一些類似蹲伏、推搡以及回頭一撇之類的動作。"
對于監控和人工智能方面的專家來說,這些功能的引入充滿了技術和道德方面的潛在困難。而且,和人工智能經常遇到的情況一樣,這兩個類別的困難是彼此交織在一起的。機器不能像人類一樣理解這個世界,這是一個技術問題,但是當我們假設它們能夠做到這一點,并且讓它們為我們做決定時,這就變成了一個道德問題。
卡內基.梅隆大學的教授Alex Hauptmann專門從事這種計算機分析,他表示,盡管人工智能近年來已經在這一領域取得了巨大的進步,但是在讓計算機理解視頻方面仍然存在著非常根本性的問題。其中最大的一個就是攝像頭的問題,這個問題我們已經不再會經常想到了:分辨率。
最大的障礙非常常見:低分辨率的視頻
舉個例子來說,一個神經網絡經過訓練,可以分析視頻中的人類行為。這些工作是通過將人體細分為多個部分--手臂、腿、肩膀、頭部等--然后觀察這些小的部分在視頻中從一幀到另一幀的變化來進行的。這樣,人工智能可以告訴你是否有人在跑步,或者是在梳頭發。Hauptmann對《The Verge》表示:"但是這取決于你所擁有的視頻的分辨率。" Hauptmann表示:"如果我用一個攝像頭對準停車場的盡頭,如果我能分辨出是否有人打開了車門,就算是非常幸運的了。如果你就站在(攝像頭)前面彈吉他,它就可以跟蹤你每一根手指的動作。"
對于閉路電視監控系統來說,這是一個大問題,攝像頭往往會有顆粒感,而角度也常常很怪異。Hauptmann舉了一個便利店攝像頭的例子,攝像頭的目的是監控收銀機,但是它也監視著面向街道的窗子。如果外面發生了搶劫,攝像頭的鏡頭有一部分被擋住了,那么人工智能可能就會卡住。他表示:"但是我們作為人類,可以想象正在發生的事情,并且把它們拼湊在一起。可是電腦就做不到這一點。"
同樣,雖然人工智能很好地識別視頻中的相關事件(例如,某人正在刷牙、看手機或者踢足球),但仍不能提取重要的因果關系。以分析人類行為的神經網絡為例。它可能會看到鏡頭并說"這個人正在跑步",但它不能告訴你他們之所以在跑步,是因為他們快要趕不上公共汽車了,還是因為他們偷了某人的手機。
這些關于準確度的問題應該讓我們認真思考一些人工智能創業企業的宣言。我們現在還遠未接近這樣一個點:電腦通過觀看視頻能夠獲得和人類一樣的見解。(研究人員可能會告訴你,要做到這一點可是太困難了,因為它基本上是"解決"智力問題的同義詞。)但是事情的發展速度非常快。
Hauptmann表示使用車牌跟蹤功能跟蹤車輛是"一個已經得到解決的實際問題",在受控設置中的面部識別也是一樣的。(使用低質量的閉路電視監控視頻進行面部識別就完全是另一回事了。)對汽車和衣物等物品的識別也非常可靠,在多臺攝像機之間自動跟蹤一個人也是可以實現,但前提是條件是正確的。Hauptmann表示:"在一個非擁擠的場景中跟蹤一個人的效果可能非常好,但是在擁擠的場景中,還是算了吧。"他表示,如果這個人穿著的是不起眼的服裝,要做到這一點就特別難。
一些人工智能監控任務已經解決了;另外一些還需要繼續努力
但是,即使是這些非常基本的工具也可以產生非常強大的效果。比如在莫斯科,一個類似的基礎設施正在組裝,將面部識別軟件插入到一個集中式系統中,該系統擁有超過10萬臺高分辨率攝像頭,覆蓋了這個城市90%以上的公寓入口。
在這種情況下,可能會有一個良性循環,隨著軟件越來越好,系統會收集更多的數據,從而幫助軟件變得更好。Hauptmann表示:"我認為這一切都會有所改善。"他表示:"這種情況正在出現。"
如果這些系統已經在工作了,那么我們就已經有了像算法偏差這樣的問題。這可不是一個假設的挑戰。研究表明,機器學習系統吸收了為它們編寫程序的社會的種族歧視和性別歧視--從總是會將女性放置在廚房的圖像識別軟件到總是說黑人更容易再次犯罪的刑事司法系統,比比皆是。如果我們使用舊的視頻剪輯來訓練人工智能監控系統,例如采集自閉路電視視頻監控或者警察佩戴的攝像頭的視頻,那么存在于社會中的偏見就很可能會延續下去。
Meredith Whittaker是紐約大學(NYU)關注道德的"AI Now"研究所的聯席主任,她表示,這個過程已經在執法過程出現了,并將擴展到私有部門。Whittaker舉出了Axon(以前被稱為Taser)的例子,該公司收購了幾家人工智能公司,以幫助其將視頻分析功能集成到產品中。Whittaker表示:"他們得到的數據來自警察佩戴的攝像頭,這些數據告訴了我們很多關于單個警務人員會關注誰的情況,但是并沒有給我們一個完整的描述。 "她表示:"這是一個真正的危險,我們正在將帶有偏見的犯罪和罪犯的圖片普遍化。"
ACLU高級政策分析師Jay Stanley表示,即使我們能夠解決這些自動化系統中的偏見,也不能使它們變得良性。他說,將閉路電視視頻監控攝像頭從被動的觀察者轉變為主動的觀察者可能會對公民社會產生巨大的不利影響。
"我們希望人們不僅僅擁有自由,還要感受到自由。"
Stanley表示:"我們希望人們不僅僅擁有自由,還要感受到自由。這意味著他們不必擔心未知的、看不見的觀眾會如何解釋或曲解他們的每一個動作和話語。" Stanley表示:"要擔心的是人們會不斷地自我監控,擔心他們所做的一切都會被曲解,并給他們的生活帶來負面的后果。"
Stanley還表示,不準確的人工智能監控發出的錯誤警報也可能導致執法部門和公眾之間更加危險的對抗。比如說,想想看Daniel Shaver的槍擊事件吧,在看到Shaver拿著槍后,一名警察被叫到德克薩斯州的一個旅館房間里。警長Charles Langley在Shaver按照他的要求趴在地面上時,開槍射殺了他。而Shaver被發現持有的槍是一支粒丸槍,這是他用來從事他的害蟲控制工作的。
如果一個人可以犯這樣的錯誤,電腦還有什么機會?而且,即使是監控系統變得部分自動化,這樣的錯誤會變得更加常見還是更少?Stanley表示:"如果技術出現在那里,就會有一些警察不得不照看那里。"
當人工智能監控變得普及的時候,誰來管理這些算法呢?
Whittaker表示,我們在這個領域看到的只是人工智能大趨勢的一部分,在這個趨勢中,我們使用這些相對粗糙的工具,嘗試著根據人們的形象對他們進行分類。她列舉了去年發表的一項有爭議的研究作為一個類似的例子,該研究聲稱能夠通過面部識別來確定性取向。人工智能給出的結果的準確性值得懷疑,但批評人士指出,它是否有效并不重要;重要的是人們是否相信它有用,并且是否會仍然使用數據做判斷。
Whittaker表示:"令我感到不安的是,許多這樣的系統正在被注入我們的核心基礎設施之中,而且沒有讓我們可以提出關于有效性問題的民主程序,也沒有通知大家將要部署這些系統。"Whittaker表示:"這不過是正在出現的又一個新的例子:算法系統根據模式識別提供分類并確定個體類型,可是這些識別模式是從數據中提取的,而這些數據里包含了文化和歷史的偏見。"
當我們向IC Realtime公司詢問人工智能監控可能如何被濫用的問題時,他們給出了一個在科技行業常見的答案:這些技術是價值中立的,只是如何使用它們以及由誰來使用它們才決定了它們是好是壞。Sailor表示:"任何新技術都面臨著有可能落入不法之徒的手中的危險。"Sailor表示:"任何技術都是如此……而我認為在這個問題上,利遠大于弊。"