目前的問題隨時間推移,是可以改善的。
![]()
文 / 書航 2023.3.29
前幾天,金山辦公稱在海外的 WPS 版本將會使用 GPT-4 的技術。作為國內對標微軟 Office 的最主要產品,人們都預測它可能會(至少在國內)和百度的文心一言合作。
就此,他們對雷峰網說「正在和百度緊密溝通中,當然也會考慮和一些創業公司合作」。也就是說,WPS 已經確定在海外使用 GPT-4,而在國內這事還沒有定。
不過,在 27 日的百度智能云活動上,文心一言在演示中已經可以植入 WPS,而且還可以嵌入另一款流行的在線文檔——石墨里面。這次活動推出的文心大模型 API「文心千帆」(本文接下來會簡稱為「文心 API」)還演示了在金融、營銷、旅游等其它細分領域的一些能力。
不談目前還沒有確定消息的官方植入,我們可以試著模擬一下讓文心一言來做一些辦公軟件內會用到的 AI 輔助操作。
官方介紹,文心一言有「文學創作、商業文案創作、數理邏輯推算、中文理解、多模態生成」五大能力,而這些能力都可以有機結合到 Office 類辦公軟件最常見的三個場景中:文檔、表格、幻燈片。
至少對 ChatGPT 而言,我們現在可以用嚴謹的自然語言,直接讓它假裝自己是一個盡職的 Office 插件,這就可以非常直觀地看到 GPT 植入 Office 的效果。
文心能把這件事能做到什么程度呢?讓我們結合「文心千帆」發布會上舉的例子,用手頭的測試版文心一言來試試吧。
(本文內的截圖都用 AI 工具去除了水印。)
文心 Word
發布會上舉出的一個案例是生成關于「長安逸達」車型的幻燈片。我們會在稍后講到該案例。
![]()
這個演示說明文心 API 可以聯網讀取內容,不過我手頭的文心一言不能聯網。
下圖我提供的網址是「長安逸達」車型的官網,我希望它寫一篇關于該車型的介紹文案。但它給我返回的是來源不明的「長安歐尚A5」的介紹。
![]()
我想知道它是從哪里獲取這些介紹信息的,它最后進入了編造模式。最后一張圖說明,它肯定沒有去看那個網址。
![]()
![]()
但是,即使它真的不知道,它試圖給出的網址也都是官方的,或者相對正規的大型網站。我此前測試發現它不會貿然提供不知名的網站鏈接,包括在問到醫療相關的問題時,也會老實提供它認為最權威的信息。
此后我詢問它的知識庫更新到什么時候,它則拒絕回答。從實際情況看,它自己也不知道它到底學了些什么。
![]()
![]()
目前,我使用 GPT 類工具的方法主要有兩種:
對于能聯網的工具比如必應,我會打開頁面或輸入網址,讓它讀取這一資料之后再回答;
對于不能聯網的工具比如 ChatGPT,我會逐字錄入內容,讓它整理,整理一段也就學習了一段。都錄入完畢,再回答。
所以之后的測試中,我都是先錄入材料,以盡量避免它提供給我不準確的內容。
接下來的兩個任務也是文字編輯的常用場景。不涉及聯網內容時,文心一言完成得非常不錯。
一是生成一份合同模板。
![]()
![]()
在文心一言里我生成了兩次,結果大同小異。
![]()
![]()
![]()
二是生成活動邀請函。
![]()
![]()
我用了稍微不一樣的 prompt,文心一言的完成度還要比演示稍微高一點。
![]()
值得注意的是,在結合上下文之后,它可以代入角色來生成適合角色的內容。下面這個問題,我本來沒預期它會繼續以上一篇「百度智能云」的身份說話。
![]()
上面生成的內容,我都節選不同段落的文字扔進搜索,做了簡單的查重,結果是它們并不是直接摘抄自網絡上的文本,至少變換了一種方式來說。
文心 Excel
數據和表格對數字的準確性有非常高的要求。為確保它不用什么奇怪的數據源,我需要預先給它一些資料。
文心一言的輸入框有 1024 字符的限制,所以我提供的材料也必須很短。我找到的最簡單、最基本的一段材料就是百度的財報。
在現場演示中,文心 API 首先給指定材料做了摘要。注意看營收數據有個錯,把 331 億元寫成了 1331 億元。
![]()
![]()
不過接下來讓它寫投資建議書時,它好像又把錯誤的數字改過來了。
![]()
![]()
![]()
![]()
在這一部分,我給出的任務是將百度財報的關鍵數據提取出來,并導出一份 Excel 表格。需要注意的是,這個任務是 ChatGPT(3.5,下同)可以輕松勝任的。
首先,我沒有提供材料,直接詢問百度 2022 年財報的主要信息,它可能學習了一些,但具體數字不完全準確。
![]()
然后,我把一篇文章貼給它,讓它基于文本總結重要信息。它基本上把帶數字的部分都總結出來了。
![]()
![]()
但當我讓它基于上述信息再次抽象為表格時,它出錯了。
![]()
此后我換了一種方式提問,得到的結果更有趣了:
![]()
![]()
在另一次測試中,它開始遺漏一些內容。無論我如何變換 prompt 都無法得到令人滿意的結果。
我:請根據下列材料,將百度2022年第四季度及全年財報的主要信息列出為一個表格。你可以自己決定表格中應該包含哪些內容。(重貼一遍上文) 文心一言:
![]()
我:你可能混淆了2022年第四季度的數據,以及2022年全年的數據。請重新生成一次,并將第四季度數據和全年數據分開列表。 文心一言:(重新生成了一次跟上面一模一樣的表格)
我回到上一次提問,讓它把結果生成 Excel 可以讀取的 CSV 文件。它照做了,但沒有寫在代碼框里,而是直接在瀏覽器里渲染出來了。當然,我也無法復制粘貼并保存這個文件。
![]()
同樣的任務在 ChatGPT 里結果是這樣的,也是我預想的輸出結果。
![]()
![]()
![]()
在這一部分,文心一言的缺陷非常明顯,以目前測試的版本看,不能投入實際使用。或許針對行業訓練的特定版本可能會突出改善這方面的表現。
文心 PPT
前一陣子,國內有個開發商做了個 PowerPoint 插件「ChatPPT」,原型的目的是根據輸入框的一句指令從頭生成一整個演示文檔。它是可以跑起來的,但具體執行和微調方面似乎不太聰明。等到微軟官宣了 Microsoft 365 Copilot,至少在演示中,效果是直接碾壓的。根據必應 GPT 演示和實際的對比看,微軟自家的自動做 PPT 效果應該也跟演示的區別不大,這波屬于「官方逼死同人」。
這是前文提到的由 prompt 及外部網頁信息相結合而生成 PPT 的一個演示。可以看到這時文心 API 可以做到自動優化排版,且尋找的模板和配圖都有較強的相關性。
![]()
![]()
因為聊天界面只能輸入和輸出文字,我測試這一環節采用了一個有趣的方法,讓 AI 模仿人手告訴我需要進行的每一步操作。先來看看 ChatGPT 的示范:
![]()
![]()
由于指令過于籠統,GPT 也犯了一些錯誤,但我相信用更細致的 prompt 可以指導它逐張輸出幻燈片。在實際應用時,只需要將它的每一個動作如「插入一張幻燈片」「設置版式」等轉變為真實的操作,就可以了。
后來我換用 GPT-4,它這回完全理解了我的意圖:
![]()
![]()
現在輪到文心一言了。
![]()
![]()
![]()
![]()
文心一言沒有真實理解我需要它做什么,但它基于通用的「生成PPT大綱」的任務,將我提供的文字材料轉換為了PPT大綱。這其實也可以驅動WPS或PowerPoint去做幻燈片,但很顯然需要更多步驟來進一步轉換。
實際上,這一功能需要做的遠比現在我測試的東西要多。我現在能想出來的就有:
為每一頁幻燈片合理分配適當的文本、圖片及表格的數量,以免頁面上內容太多或太少
為幻燈片選擇合適的主題、版式和動畫
尋找,或者生成切題的配圖
為演講者添加每張幻燈片的備注,以及計算預估的演講用時
而這些都在微軟 Copilot 的演示中預告了,并且實現起來恐怕也沒那么難。
還有兩個任務
最后,我給文心一言測試了演示中提到的另外兩個任務。
一是為產品介紹生成一段直播間文案。在現場和在文心一言里,它的表現分別如下:
![]()
![]()
![]()
![]()
我額外加了一個指令:
![]()
你覺得怎么樣?
演示過程此后調用虛擬人,把生成的文案慷慨激昂地念了出來。
![]()
二是讓它制定一段行程規劃,這里可以嵌入旅游產品的購買鏈接。
![]()
![]()
這段內容經過查重,并不來源于目前網絡上已有的內容。不過有趣的是,當你跟我一樣一字不差地輸入同一個問題時,你會看到文心一言給出的回答和我圖片里的一模一樣。而且它就像我之前提到的一樣,并不是消耗 token 那種一個字一個字蹦出來的,而是思考了一會兒,就快速貼過來的一樣。
![]()
其實這也并非個例,在之前它「你畫我猜」模式期間,它對很多成語生成的圖片可能是完全重復的。它在作圖后舉的例子是「幫我畫一枝晶瑩剔透的牡丹花」,多試幾次會發現它畫出的花也可能是重復的。
我對此的理解是:在回答一些問題時,它確實是采取老實生成的做法。但是,當同一個問題已經有確定答案,并且沒有受到挑戰、不需要修改的時候,它就會直接調用以往已經生成過的答案。
這種方法當然沒問題,對于現在有限的算力而言也是比較好的選擇。我觀察到,微軟自從撥出大量 Azure 算力支援 OpenAI 以來,其必應搜索和 Edge 瀏覽器的翻譯功能似乎有一次「降級」,準確率比此前降低了一些,維持在勉強能看的程度。地主家也沒有余糧,「拆東墻補西墻」是算力緊張時的正常操作。
目前在「文心一言」的官網上,也給出了算力緊張,生成可能較慢的提示;而且,如果網頁閑置時間超過2分鐘,就會凍結頁面,需要刷新一次才能繼續使用。這一切都顯示了大模型的使用需要算力作為代價,有時需要一些取巧的做法讓系統能正常運行。
接下來,系統替換了行程規劃中的一處景點,不過這次替換沒有附加旅游產品。
![]()
![]()
在文心一言中,生成的結果稍微簡略一些。
![]()
結論
在文心 API 發布會上展出的這些案例,可以非常有效地測試文心一言是否可以在多項日常任務中用于生產環境。
ChatGPT(3.5)可以非常高質量和穩定地完成幾乎所有任務。而文心一言的測試結果如下:
憑簡略的 prompt 生成文檔或文檔模板(優秀)
持續根據給定的身份、語氣或風格生成內容(優秀)
總結給定段落的含義(一般)
聯網查找和使用信息(未開放)
整理、理解和應用財報等內容中的數字(差)
上述測試應該可以證明文心是一個真的大語言模型,而不是改頭換面的常規搜索。目前的問題看起來源于語料和訓練量不夠,隨時間推移,是可以改善的。根據發布會上的演示效果,經過行業合作伙伴的專項訓練之后,文心 API 在更多特定場景中或許會有更好的表現。
不過,作為文心一言的用戶,我熱切期待著這些專有場景的訓練結果可以盡早同步到文心一言當中。以及,百度這些年來在不同的地方,用不同的方法實現了各不相同的 AI 輔助,比如這個最早 2020 年就有的「AI 搜索智能精選」:
![]()
這里的現有內容,以及使用文心生成的結果,如果哪個質量更好,就可以替代另外一個。
就像必應 GPT 那樣,在合適的場合,它會在回答中給出常規搜索提供的小插件:
![]()
如果你提問的是一個數學題,它直接蹦一個計算器出來的體驗肯定更好(當然目前市面上還沒有產品是這樣實現的)。
如果文心日后涌現的能力更強,它可以也應該反哺搜索等更多場景,由此將百度散落各處的 AI 能力匯總起來,才能發揮出最大的效應。
題圖:文心一言創作。
prompt:請畫一張電腦辦公的圖片,寫實3D風格,超高精度,8K,細節表現,高畫質
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.