前言導讀
“ChatGPT會不會搶走我的飯碗?”時下最熱門的話題,無疑是這個AI聊天機器人。人工智能上一次這么火,或許還是谷歌Alpha Go打敗柯潔的時候。
有業內人士認為,ChatGPT這一現象級的產品將開啟人工智能產業的2.0時代,引領新的產業趨勢。雖然目前市場反應火熱,但從產業角度來看,ChatGPT的商業化路徑和安全防護還處于探索初期。
先別擔心“AI與人是敵是友”的哲學命題,ChatGPT到底能火多久,或許它自己也沒有答案。
01
巨頭入場,個人“淘金”
幾乎同一時刻,谷歌和百度宣布同一件事:要做自己的ChatGPT。
日前,谷歌CEO桑達爾·皮查伊宣布,公司正在推出一項名為Bard的對話式AI服務,以測試用戶的反饋,隨后將在未來幾周內公開發布。百度也宣布推出國產版“ChatGPT”文心一言,一位接近百度相關人士向懂經哥透露,文心一言落地之后,首站將直接接入百度搜索,“一些相關功能已陸續在百度搜索內上線或內測,包括多答案回復、智能生成等。”
ChatGPT主創團隊OpenAI背后的微軟更是乘勝追擊,將GPT—3.5升級版整合進必應搜索、Edge瀏覽器和Office辦公套件中,宣稱比ChatGPT的功能更強大。
除了搜索巨頭之外,國內不少互聯網企業也開始涉足以ChatGPT為代表的AIGC(人工智能自動生成內容)技術的垂直領域產品。
據悉,阿里巴巴達摩院正在研發類ChatGPT的對話機器人,目前處于內測階段,可能將AI大模型技術與釘釘深度結合。360公司在答投資者問時表示,類似的AIGC技術目前作為內部生產力工具使用,計劃盡快推出相關demo版產品。網易有道AI技術團隊已聚焦AIGC在教育場景的落地研發,正在AI口語老師、中文作文批改等細分學習場景中嘗試探索。
懂經哥發現,已有“高階玩家”將原生ChatGPT“嫁接”到國內互聯網平臺。一名釘釘資深用戶在公司的運維群創建故障報警應用時,嘗試在“自定義機器人”插件中接入ChatGPT,完成配置后即可自動寫開年規劃、英文郵件和爬蟲代碼等。
ChatGPT尚未面向中國市場開放,但國內已聚集了一批個人“淘金者”,在公眾號、小程序上搭建ChatGPT的鏡像產品,國內用戶在小程序上提問,鏡像連接ChatGPT服務器,再將答案轉述給用戶。懂經哥親測后發現,該類產品通常可免費試用10次對話,隨后需要充值或開通會員方能繼續,收費標準從10元至300元不等。有媒體推測,有人兩個月以此牟利達數萬元。
在國研新經濟研究院創始院長朱克力看來,ChatGPT在國內的突然爆火,主要是技術突破和資本參與的雙重結果,“算法、算力和數據是AIGC的‘三駕馬車’,隨著國內三方面的技術沉淀,AIGC已經實現了不少落地應用,因此ChatGPT自上線以來在技術圈層保持活躍的討論度,春節后資本市場關注到這一現象后,才實現了面向大眾的‘破圈’。”
02
一場“燒錢”的試驗
多家科技巨頭紛紛入局,打造自己的“ChatGPT”,這意味著產業發展的趨勢正在快速調整。復旦大學管理學院信息管理與商業智能系系主任、教授張誠表示,ChatGPT背后技術并沒有壟斷性,各家都可以做。從技術創新角度來看,OpenAI推出的ChatGPT屬于集成或漸進性創新,在模型、數據和算力上實現了進步,但仍非原始創新。
實際上,人工智能發展多年,聊天機器人早已滲透在我們的日常生活中,蘋果的Siri、微軟的小冰、百度的小度等等都屬于聊天機器人范疇。包括去年曾爆火網絡的AI繪畫、AI換臉,和ChatGPT也屬于同一類型應用。
相似產品不少,ChatGPT的優勢在哪?歸結下來就是“擬人化”和“反應快”兩點。業內人士介紹,這對應了ChatGPT兩方面的特殊性。
第一,ChatGPT使用了更為通用的NLP(自然語言處理)模型,訓練過的話題包羅萬象,涵蓋人類社會信息的各方各面,而以往智能化應答程度能達到如此高水平的應用大多只聚焦在有限垂直領域;第二,ChatGPT依靠巨大的算力,實現了全內容和實時性的平衡。一般來說,以往大部分聊天機器人使用的是輕量化的語言模型,這樣可以保證反應的即時性,完成快速的“你問我答”,但內容的質量也相應有所下降,而ChatGPT的推理時間可能延長至幾十秒甚至幾分鐘,大型語言模型讓輸出內容的質量得到了極大的提升。
這兩點都對聊天機器人的算法模型和訓練數據樣本提出了極高的要求。ChatGPT使用的GPT—3.5語言預測模型是此前模型GPT—3的迭代版本。根據公開信息,GPT—3模型包含的參數量達1750億,訓練所用的數據量達45TB。
45TB數據量是什么概念?一位從業者向懂經哥解釋,1MB相當于一本紅樓夢的數據量,1TB為100多萬本紅樓夢的數據量,所以ChatGPT相當于至少看過了4500萬本紅樓夢的內容。
正是因為有強大的數據和算力支持,ChatGPT才具備了“以假亂真”的對話能力,實現了超越以往的信息總結能力。再加上其互動感十足的交互設計,引起了用戶極大的興趣,最終引爆了消費市場。
大數據、大算力并不是一條好走的路,OpenAI至今仍處在劇烈燒錢的狀態。ChatGPT每回復一次大概要消耗1美分, 2022年OpenAI的整年虧損已經高達5.45億美元。國內文本智能處理企業達觀數據CEO陳運文表示,看到ChatGPT的橫空出世,他與身邊的從業者都十分驚訝,因為OpenAI的技術方向此前并不被業界看好。成本高昂,產出的文本質量也不一定很高,導致包括谷歌在內的大部分公司都沒有將這一技術方向作為首選。
“但從目前的結果來看,ChatGPT讓大家看到,大規模語言模型確實可以勝任復雜的人類工作,接下來的兩三年內,沿著ChatGPT這條技術方向會有越來越多的產品出現。”陳運文說,這款產品可能讓AI產業發展大大提速,NLP技術原本需要十幾年才能實現的目標已變得近在咫尺。
03
商業盈利仍待驗證
AIGC作為一種賦能千行百業的技術,一旦突破必將改變現有的商業生態。上海人工智能研究院總工程師王資凱向懂經哥舉例,國外語法糾正知名應用Grammarly在輔助寫作領域一家獨大,估值最高曾達到130億美元,但由于ChatGPT的出現,許多初創公司都可以利用其提供的基礎設施搭建自己的輔助寫作平臺,Grammarly技術的獨特性和產品的壟斷性立刻被打破。
包括前文所提到的,將ChatGPT嵌入到搜索引擎當中,也將改變搜索引擎的服務模式。王資凱預計,有了大語言模型支持后,搜索網頁的內容呈現方式將不同,用戶會更直接地接收到信息,用戶使用習慣和搜索引擎的盈利模式都可能發生變化。
ChatGPT已經開始落地化嘗試,但總體來看,其商業化進程還處于初期階段。陳運文認為,由于業界對ChatGPT的看好,此技術方向目前處于“不差錢”的階段,大家都希望先把產品做出來占領市場,但可持續的盈利模式仍在探索當中,即使是開發者OpenAI也不例外。
具體來看,根據應用場景的不同,ChatGPT的落地難度也不盡相同。張誠認為,如果將ChatGPT應用到信息總結、文法糾正、創意寫作方面,落地速度將非常快,OpenAI提供的基礎設施可以直接使用。但如果應用在對正確率要求較高的場景,比如醫療問診、商業咨詢等方面,還需要進一步改善算法在內容正確與表達流暢間的平衡。
“ChatGPT商業運用的主要挑戰還是其內容的真實有效性。”張誠說,即使一項AIGC技術的正確率能達到95%,但對于某些嚴肅應用場景,1%的差錯可能都會導致巨大的決策失誤,企業可能需要花費比使用AIGC技術更高的成本去做校對。在這些場景中,目前能使用的AIGC技術仍是“命題發揮”,即在有限的、經過驗證的知識文本中自動生成內容。
雖然國內多家機構宣稱推出類ChatGPT產品,但國產版“平替”與ChatGPT的差距依然肉眼可見。
以360公司為例,由于訓練數據源及應用方向的原因,在中文環境下的實際效果強于GPT—2,與當前流行的ChatGPT—3有著代際差距。與國外同行相比,國內在中文語料數據資源端有豐富的多模態大數據積累,但在預訓練大模型和多模態數據清洗融合技術領域存在較大差距。不少互聯網企業或許與360公司有著類似的選擇——用充足的資金儲備用于購買大規模算力,深入自行研發的同時尋找強有力的合作伙伴,以此來降低技術壁壘。
“雖然我國在AI領域已有所成就,但主要集中在應用端,技術端仍由美國互聯網巨頭引領,目前仍有兩三年的差距。”朱克力表示,AIGC屬于“養成類”產品,除了技術外,“喂養”的內容也非常關鍵,我國應用市場廣大、數據內容豐富,可趁此機會“彎道超車”趕超,“在法律合規的前提下,如何把握好開放、發展與安全的平衡,釋放國內的數據內容的潛在價值,值得各方聯合探索。”
04
既是野獸,也是獵手
“如同其他人工智能模型一樣,ChatGPT是把雙刃劍,既可以是提升效率的工具,甚至編寫代碼。同時也可能被繞過安全機制,用于實施有害的活動。”奇安信虎符智庫研究員李建平告訴懂經哥,對網絡安全行業來說,以ChatGPT為代表的人工智能工具,既可以用來編寫網絡釣魚、生成惡意軟件、開展網絡攻擊,也能成為網絡防御者的有力工具。
奇安信人工智能研究院負責人介紹,美國在暗網中發現了1500多條惡意軟件和驗證代碼中有ChatGPT的身影,甚至還利用惡意代碼對ChatGPT進行“培訓”,以生成可逃避病毒檢測的惡意代碼不同變體,研究人員已經確定ChatGPT可以有效生成信息竊取器、遠程訪問木馬和加密貨幣竊取器等。
此外,ChatGPT還降低了網絡犯罪的門檻,即便是沒有技術的“小白”,也能成為攻擊者。境外已有網絡釣魚即服務(即服務是一種軟件許可模式)和勒索軟件即服務開始向攻擊者提供收費工具包,使其可以輕松實施攻擊,特別是ChatGPT面向公眾免費開放,網絡攻擊的成本進一步降低。
目前,國內已經有多家人工智能研究院成立了ChatGPT項目專班,開展該技術在網絡安全領域的場景研究和應用,未來將廣泛應用于安全產品開發、威脅檢測、漏洞挖掘、安全運營及自動化、攻防對抗、反病毒、威脅情報分析和運營、涉網犯罪分析等領域。
“我們看到ChatGPT相繼被Stack Overflow編程問答社區、行業協會和高校‘封殺’,部分原因就是它仍然會生成一些虛假錯誤內容,并且難以辨別。”李建平說。遺憾的是,迄今為止ChatGPT自動生成的內容依然真假難辨,OpenAI已經發布相關AI內容檢測器,但是識別置信度正確率僅為26%,甚至還會將人類創作文本誤識別為AI創作,“其象征意義比實際意義更大。”
網絡上有句戲言:“只有魔法才能打敗魔法”,同理,只有AI才能打敗AI,規避ChatGPT安全隱患的最好辦法,或許正是它自己。
“ChatGPT可以在網絡釣魚檢測、漏洞發現和事件分析與響應三方面提高安全防護力。”李建平表示,ChatGPT能幫助組織識別和標記釣魚郵件,在接收郵件前進行標記,從而降低網絡釣魚成功的機會,同時訓練網絡釣魚檢測系統,增強識別相關的模式和語言,以便提高網絡釣魚檢測系統的效率。另外,隨著ChatGPT人工智能模型的演進,有可能實現漏洞檢測和修復的自動化。更有甚者,ChatGPT還可以在檢測和響應網絡攻擊,更快地從數據中創建有關安全事件的報告,輔助IT團隊做出安全決策。
“來自人工智能的威脅并不是新問題,只是ChatGPT展示了一些看起來很可怕的應用。”奇安信人工智能研究院負責人表示,關鍵要及時意識到ChatGPT的潛在風險并及時采取適當的措施來應對。展望未來,ChatGPT也可能是一個信號,表明距離網絡防御決策的更高自動化不再遙遠。
敬請關注電子技術應用2023年2月22日==>>商業航天研討會<<