- 你知道這些 ai 的特性嗎?
- 你知道有哪些主流的 ai 聊天機器人嗎?
- 你知道該怎麼與這些 ai 互動嗎?
- 你知道用手機也可以操作嗎?
- 你知道他們也可以幫你做圖片辨識嗎?
第十五章 ai 相關介紹
從 open ai 公司在 2022 年底正式發布 chat gpt 開始,全世界都在熱烈討論所有與人工智慧(在本章後續簡稱為 ai)相關的事物。其重要性被拿來與電燈泡、原子彈以及其他能夠大幅改善或惡化我們生活的科技相提並論。ai 透過大型語言模型來產生結果。我不打算用自己的話來概述,以下是使用 google 的 ai 平台(最初稱為 bard,在 2024 年初改名為 gemini)所產生的回應,只做了些微編輯。
ai (artificial intelligence) 是一個廣泛的科技領域,致力於開發能夠模仿人類智能的系統。這包含了機器學習、自然語言處理、電腦視覺等多個分支。
llm (large language model) 是 ai 的一個特定分支,專注於處理和生成人類語言。這些模型透過大量的文字資料進行訓練,能夠:
- 理解並回應問題
- 產生連貫的文字內容
- 進行文字翻譯
- 協助程式編寫
- 摘要長篇文章
一些知名的 llm 包括:
- gpt (由 openai 開發)
- palm (由 google 開發)
- claude (由 anthropic 開發)
- llama (由 meta 開發)
llm 的運作原理是基於「transformer」架構,這使得它們能夠處理長序列的文字,並理解文字間的關聯性。這些模型透過預訓練和微調來提升效能。
雖然 llm 展現出令人印象深刻的能力,但也有一些限制:
- 可能產生虛假或不準確的資訊
- 訓練資料可能存在偏見
- 需要大量運算資源
- 對於最新資訊的了解有限
隨著技術的進步,ai 和 llm 持續發展,並在各個領域帶來創新的應用可能。
artificial intelligence (ai) 是電腦科學中一個範圍廣泛的分支,主要在於建立能夠執行通常需要人類智慧的任務的智慧型機器。ai 研究在開發有效的技術方面非常成功,可以解決從遊戲到醫療診斷等各種問題。
大型語言模型 (llms) 是一種經過大量文字資料訓練的 ai。它們可以用來產生文字、翻譯語言、撰寫各種創意內容,並以資訊豐富的方式回答你的問題。
llms 是一個功能強大的工具,可以用於多種用途。例如,它可以用來:
- 產生擬真的文字內容,例如新聞文章、電子郵件和創意寫作。
- 翻譯各種語言,即使是差異很大的語言之間也可以互相翻譯。
- 撰寫各種創意內容,例如詩歌、程式碼、劇本、音樂作品、電子郵件、書信等。
- 以資訊豐富的方式回答你的問題,即使是開放性、具有挑戰性或奇特的問題也能回答。
llm 仍在開發中,但它們已經學會執行許多種類的任務,而且正在不斷改進。
以下是使用 llms 的一些好處:
- 它們可以節省時間和金錢。llm 可以用來自動化許多原本需要人力的工作。這可以讓人們有更多時間專注在更具創意和策略性的工作上。
- 它們可以提高準確度。llm 通常能比人類更準確地執行任務。這是因為它們可以存取和處理大量人類無法處理的資料。
- 它們可以讓事物更無障礙。llm 可以用來讓產品和服務對身心障礙者更無障礙。例如,它們可以用來產生點字文本,或是將手語翻譯成口語。
然而,使用 llms 也有一些潛在的風險:
- 它們可能帶有偏見。llm 是透過人類產生的資料進行訓練,這意味著它們可能會反映出資料建立者的偏見。
- 它們可能被用來產生假新聞或宣傳。llm 可以產生與人類撰寫的文字難以區分的內容,這意味著它們可能被用來製造難以偵測的假新聞或宣傳。
- 它們可能導致工作被取代。隨著 llm 變得更加精進,它們可能會自動化許多目前由人類完成的工作,這可能導致工作被取代和失業問題。
整體而言,llm 是一個強大的工具,有可能徹底改變我們的生活和工作方式。然而,我們必須要注意這些科技可能帶來的風險,並且要負責任地使用它們。
現在世界上有許多與 ai 相關的應用程式。本章將討論 google gemini 和 microsoft co pilot 的 pc 版本、open ai 的 chat gpt 3.5 和 be my eyes 的 iphone 版本,以及作為 2024 年 3 月早期使用者計畫的一部分而發布的 jaws picturesmart 生成式 ai 功能,這項功能僅適用於 jaws 2024 的使用者。
對於以下各項,我會討論:
- 如何建立帳號(如果需要的話),以及如何瀏覽這些應用程式。
- 如何準備提示詞並瀏覽回應內容。
- 如何瀏覽最近的活動或歷史記錄(如果有的話)。
- 使用目前具有此功能的應用程式來取得圖片的詳細描述。
截至 2024 年初撰寫本章時,chat gpt 有兩個版本,了解這些版本對於下面討論的所有應用程式都很重要,但 google gemini 除外。以下是來自 microsoft co pilot 關於 chat gpt 3.5 和 4.0 差異的編輯回應:「chat gpt-4 比 chatgpt 3.5 更智慧,可以處理更長的提示和對話,且較少出現事實性錯誤。相較於 gpt-3.5,gpt-4 在技術上不允許的提示下回應的機率減少了 82%,且在捏造事實(在 ai 術語中稱為『幻覺』)的機率減少了 60%。如果你想要試用 gpt-4,可以註冊 openai 的付費版本 chatgpt,稱為 chatgpt plus(或 chatgpt+),每月費用為 20 美元。使用 gpt-4 需要有 openai 帳號。」
我必須先提出一個重要的警告:以下所描述的內容可能很快就會過時。ai 的發展速度非常快。一般認為 ai 的能力只會越來越好。到目前為止,在非常短的時間內,這個說法確實是正確的。
15.1 microsoft copilot
microsoft 的 ai 平台最初稱為 bing ai。在 2023 年底改名為 co pilot,並與 microsoft edge 搭配運作。microsoft 是開發 chat gpt 的 open ai 公司的主要投資者。co pilot 使用 chat gpt 4。
為了獲得最佳效果,你應該登入 microsoft 帳戶來使用 co pilot。開啟 microsoft edge 並在以下位置建立 microsoft 帳戶:
使用你的 microsoft 帳戶登入 co pilot,網址:
如果你打算經常在電腦上使用 co pilot,你應該為它建立桌面捷徑。因為你只能從 microsoft edge 網頁瀏覽器存取它,所以你有兩種方式可以建立桌面捷徑。
- 如果 edge 是你的預設瀏覽器,請依照 7.4.3.2 章節中建立網頁捷徑的通用步驟操作。只要 edge 是你的預設瀏覽器,捷徑就會在 edge 中開啟。
- 如果 edge 不是你的預設瀏覽器,請依照 7.4.3.3 章節中使用特定瀏覽器開啟捷徑的步驟操作。因為我時常更換預設瀏覽器,所以我比較喜歡使用後者的方法。
15.1.1 產生聊天
使用 co pilot,你可以建立初始提示並提出後續問題。步驟如下:
- 開啟 co pilot,使用 e 鍵移至「問我任何事」編輯區,然後按 enter。
- 輸入提示文字,例如「請詳細介紹什麼是河馬」。
- 使用 tab 鍵移至提交按鈕並按 enter,或是在輸入提示文字後直接按 enter。
需要幾秒鐘的時間才能產生答案。最近,我沒有收到任何回饋來表示正在處理中,但當螢幕自動重新整理時,我就知道已經完成了。
最快瀏覽到回應的方式,是使用 control + home 回到頁面頂端,然後使用數字列的 2 瀏覽到重複你提示文字的二級標題,你就能在其下方找到回應內容。
使用數字 6 瀏覽到層級 6 的「深入了解」標題,在該標題下你可以找到用來產生回應的來源連結。你可以開啟這些連結來驗證資訊,並且深入了解更多。
接著會出現一系列按鈕,包括:
- 複製:使用這個功能可以將個別的提示和回應文字複製到剪貼簿。你可以將它貼到文字編輯器中,例如 word 或記事本。
- 匯出:這個選項是收合的。使用空白鍵展開後,會顯示產生 pdf、文字或 word 文件的選項。
- 分享:啟用這個選項會開啟一個對話方塊,你可以使用 tab 鍵切換到複製、電子郵件和社群媒體(facebook、x 等)的分享選項。
- co pilot 接著會列出幾個建議的後續問題。
若要在螢幕的任何位置提出後續問題,使用 e 快速回到「問我任何事」編輯區,使用 enter 進入編輯區,然後重複上述步驟。不同於 google 或 bing 等傳統瀏覽器搜尋引擎一次只能查詢一個項目,co pilot 這類 ai 應用程式會記住你查詢的上下文,所以你不需要重複說明任何事情。
舉例來說,我可能會問一些後續問題,像是「牠們是什麼顏色?」或是「牠們是瀕危物種嗎?」不需要提醒 co pilot 討論的主題是河馬。這就是為什麼整個提示和產生回應的過程被稱為聊天。
如果要開始討論新主題,請啟用「問我任何事」編輯區上方的新主題按鈕。這樣做很重要,不要直接瀏覽回「問我任何事」編輯區,因為這可能會讓應用程式混淆你的初始主題和新主題。
15.1.2 描述圖片
使用 co pilot,你也可以取得儲存在電腦中圖片檔案的詳細描述。這也可以透過 google gemini 來完成。這兩種方式都是很好的 ai 工具,可以用來取得儲存在電腦中的圖片描述(本章稍後會介紹如何在 iphone 和 jaws picturesmart 上執行這項功能)。最常見的圖片副檔名是 (.jpg 和 .png)。步驟如下:
- 開啟 bing ai,使用 e 鍵移至「請輸入任何問題」編輯區,然後按 enter。
- 輸入提示文字,例如「請描述附加的圖片。」
- 使用 tab 鍵移至「新增圖片以搜尋」按鈕並按 enter。
- 你可以在此處貼上檔案,或使用 tab 鍵移至上傳按鈕,並在相關的對話方塊中瀏覽相片。當新增完成時,你會聽到「附件新增成功」。
- 使用 tab 鍵移至提交按鈕並按 enter。
如同其他對話一樣,你準備的每個提示都會變成第二層標題,而且你可以繼續追問問題。
15.1.3 最近的活動
你可以瀏覽最近的對話紀錄,其中包含與上述相同的選項(複製、匯出和分享),以及重新命名和從對話紀錄中刪除。尋找最近紀錄最快的方式是使用 e 鍵移至「問我任何問題」編輯區,然後使用上方向鍵。
你會發現最近的對話按時間順序列出。co pilot 已為這些對話指定標題。例如,我關於河馬的對話可能被命名為「河馬的描述」。在每個對話標題之前都有一個載入對話的選項,啟用它就能開啟完整的對話內容。如同上述,每個對話提示都會以二級標題的形式呈現。
15.1.4 iphone 上的 co pilot
在 2023 年 12 月,一款新的 ai copilot app 推出到 iphone。它可以很容易地搭配旁白使用。在這之前,雖然已經有 bing ai app 可以使用,但旁白的瀏覽操作相當笨拙且令人困惑,所以我避免使用它。
當你安裝 co pilot 應用程式時,系統會要求你登入 microsoft 帳戶。聊天記錄會在你的裝置之間同步。
co pilot app 的欄位和選項與電腦版相似。其中一個差異是有一個使用 gpt 4 的按鈕,預設是使用 3.5 版本。系統會通知你產生答案可能需要多花幾秒鐘,但請記住,chat gpt 4 的結果比 3.5 版本產生的結果更詳細且可靠。根據問題的重要性來判斷這個選擇。詢問河馬的描述時,準確性是否重要?可能不會。但如果要求 chat gpt 為你正在設計的網頁撰寫 html 程式碼,你會希望回應盡可能準確。
「問我任何事」欄位位於螢幕底部。把手指放在那裡,你很快就能找到它。用聽寫或輸入你的問題,向右滑動幾次到送出按鈕,然後點兩下來啟用它。另外請注意,在問我任何事欄位之後就是新增圖片搜尋按鈕。和電腦一樣,你可以在這裡貼上圖片檔案來取得描述。
送出查詢後,旁白會說「正在產生結果」。一旦產生完成,旁白會自動以全部朗讀模式為你讀出回應內容。如同在 pc 上一樣,訊息提示會以二級標題的形式出現,因此你可以使用轉輪來快速瀏覽到該處。
如果你想要複製文字並貼到筆記軟體或電子郵件內文,可以使用位於回應下方的複製按鈕,然後在轉輪選單中使用編輯功能來貼上。
在畫面上方可以找到一個更多按鈕。點兩下這個按鈕可以找到新主題、聊天記錄、重新命名、意見回饋和刪除等按鈕。在某些方面,這個應用程式比電腦版更快速且容易瀏覽,但兩者都非常適合導讀軟體使用。
15.2 google gemini
google gemini 是 google 在 2023 年 12 月推出的人工智慧聊天機器人。它可以透過網頁版或手機 app 使用。
目前 google gemini 的網頁版對導讀軟體的支援還不錯,但手機 app 的無障礙支援就比較差。
以下是使用 google gemini 網頁版的一些建議:
- 使用 chrome 瀏覽器會有最好的無障礙支援。
- 在 chrome 瀏覽器中開啟 google gemini 的網址:gemini.google.com。
- 登入 google 帳號後就可以開始使用。
- 在頁面上方的編輯區輸入你想問的問題。
- 使用 enter 鍵送出問題。
- 等待 gemini 回答。回答完成後,導讀軟體會自動朗讀回答內容。
- 如果要繼續對話,可以再次在上方的編輯區輸入問題。
- 如果要開始新的對話,可以使用左側的「新增對話」按鈕。
注意事項:
- gemini 的回答可能會包含程式碼區塊或表格等特殊格式,這些內容的無障礙支援可能不太完整。
- 建議使用較新版本的導讀軟體,以獲得更好的支援。
- 如果遇到無障礙問題,可以嘗試重新整理頁面或重新開啟瀏覽器。
gemini(前身為 bard)是 google 的 ai 引擎。第一次使用時,在你的網址列輸入 gemini.google.com,並使用你的 google 帳號登入。
15.2.1 產生聊天內容
開始聊天:
- 開啟 gemini,使用 e 鍵移至提示文字編輯區,然後按 enter。
- 輸入提示文字,例如「請詳細描述非洲象」,然後按 enter。你會聽到「gemini 正在輸入」,接著是「gemini 已回覆」。
- 按一次 shift + h 移至你的提示訊息,該訊息被標記為二級標題。回應內容會在下方。
- 要提出後續問題,重複上述步驟即可。
在產生回應後,你準備的每個提示都會變成第二層標題,回應文字會出現在標題下方。
在每個二級提示標題下方、回應文字上方有三個按鈕,分別是:
- 編輯:編輯提示以修正錯誤。
- 檢視其他草稿 (已收合):系統會產生數個額外的回應,你可以點選這些回應來閱讀。
- 聆聽:使用 gemini 的合成語音來朗讀回應 (而不是使用你的導讀軟體的語音)。
在回應文字下方會出現額外的按鈕,包括:
- 修改回應:使用空白鍵展開此項目,可選擇產生較長或較短的回應。
- 分享與匯出:使用空白鍵展開此項目,可選擇將文字匯出至 google 文件、gmail 郵件,以及建立連結與他人分享對話內容。
- 顯示更多選項:展開此項目,可選擇複製文字及回報與著作權侵犯相關的法律問題。
15.2.2 描述圖片
和 co pilot 類似,你也可以使用 gemini 來取得電腦中已儲存圖片檔案的詳細描述。操作方式如下:
- 開啟 gemini,使用 e 鍵移至提示文字編輯區,然後按 enter。
- 輸入提示文字,例如「請描述附加的照片。」
- 使用 tab 鍵移至開啟上傳圖片對話方塊按鈕,然後按 enter。
- 瀏覽電腦中的相關檔案,選取後按 control + c 將其複製到剪貼簿。你也可以在這個對話方塊中使用 shift + tab 瀏覽檔案。
- 按 control + v 貼上檔案。
- 使用 tab 鍵移至傳送訊息按鈕並按 enter。
就像其他對話一樣,你可以繼續提出後續問題。
15.2.3 最近的活動
要瀏覽最近的聊天記錄,請啟用 gemini 活動按鈕,這會開啟一個新分頁。今天和之前日期的聊天串會以第二層標題顯示。在這些標題下方會出現按鈕,可用來刪除當天的所有活動或個別的聊天串。啟用後,系統會要求你確認刪除。完成後,使用 control + f4 或 control + w 關閉此分頁,即可返回主要聊天頁面。
使用「活動詳細資料」按鈕(含聊天串標題)來查看完整的聊天內容。開啟後,聊天內容會顯示在第三層標題下方。
15.3 在 iphone 上使用 chat gpt
在 2023 年 11 月,open ai 公司發布了 chat gpt 3.5,從此科技世界就不再一樣。這個版本可供所有使用者免費使用,而 chat gpt 4 則需要支付月費或年費。
chat gpt 在 pc 和 iphone 上都可以使用。這裡我只會介紹 iphone 的免費版本。截至 2024 年初,pc 版本的 chat gpt 3.5 在無障礙方面表現不佳。有許多按鈕沒有標籤,這使得執行某些功能變得困難。我無法找到一個可以穩定產生分享連結的方法。相比之下,iphone 應用程式完全支援無障礙功能,而且使用起來很容易。
你可以在從 iphone app store 下載免費應用程式時建立帳號,或是到以下網站建立:
https://chat.openai.com/gpts/editor
除了標準的聊天文字建立功能外,iphone app 還有一個很棒的語音模式功能可以使用。
要開始聊天,請瀏覽到新訊息文字方塊並口述或輸入你的問題。向右滑動一次到傳送按鈕並啟動它。在產生回應時,你會收到觸覺回饋。旁白接著會以朗讀全部的方式說出回應內容。
要管理對話,請啟用畫面上方的 chat gpt 3.5 快顯按鈕。向右滑動到已收合的管理對話按鈕。點兩下展開它,就能找到以下選項:分享、重新命名、封存和刪除。
使用螢幕左上角的選單按鈕來瀏覽聊天記錄。聊天記錄會依照時間順序排列,並以過去日期作為標題,以及以聊天主題命名的按鈕。你可以啟用任一個按鈕來閱讀和管理這些聊天記錄,如上所述。
語音模式在 2023 年 11 月推出。它讓你能夠使用自然的語音進行對話,而不是透過輸入提示並讓旁白朗讀回應。除此之外,它在產生聊天串時更快速,因為你不需要不斷地尋找新訊息按鈕、口述提示,然後再找尋提交按鈕。整個過程感覺自然且流暢。
語音模式支援多種語言。其中一個令人驚豔的特點是你可以在對話過程中切換語言。只要用法文或西班牙文說出你的提示,回應就會以該語言呈現。
你可以在新訊息文字方塊下方找到切換語音模式的按鈕。當你第一次啟用它時,會開啟一個列出多個合成語音的畫面。在任何一個語音上點兩下可以聽到範例,選擇你想要的語音,然後啟用畫面底部的確認按鈕。你之後可以回到這裡切換不同的語音。
當你啟動切換語音模式按鈕時,系統會提示你開始說話。說完後,點兩下關閉按鈕。這會讓你回到旁白。系統也會告訴你對話持續的分鐘和秒數。要如何離開顯示最後回應的畫面並不直覺,因為沒有關閉或返回按鈕。在回應文字的某處點兩下,你就會回到一個畫面,在畫面下方會顯示完整的對話內容,而其他標準按鈕也會重新出現在畫面上方。
就像其他文字聊天一樣,對話的內容會儲存在你的聊天記錄中。
15.4 在 iphone 上使用 be my eyes
在經過視障使用者的大規模測試後,be my eyes iphone app 的開發團隊在 2023 年秋季推出了一項革命性的圖片描述新功能。這項與 open ai 合作、命名為 be my ai 的功能,使用 chat gpt 來提供詳細的圖片描述,包括你使用該 app 時用 iphone 拍攝的照片,以及儲存在「照片」app 或雲端分享 app(如 dropbox、google drive 或 onedrive)中的圖片。
我不會輕易使用「革命性」這個詞。在此之前,office 程式或 facebook 頁面中的 ai 生成的替代文字,只會產生像是「微笑的女人抱著嬰兒」這樣極為籠統且用處不大的描述。be my ai 生成的描述則遠遠超越這種程度。而且就像上面提到的其他 ai 程式一樣,你可以進一步詢問後續問題。
在這個應用程式中,你可以拍照並取得照片的描述。你也可以取得 iphone 原生相簿應用程式中現有照片的描述,以及儲存在雲端分享應用程式中的圖片檔案的描述。
照片和螢幕截圖可以透過 be my ai 來描述。你也可以複製描述的文字,並將其貼到手機上的文字編輯器應用程式中,例如「備忘錄」或草稿。
從 app store 下載 be my eyes 之後,你需要先建立帳號並登入。你可以使用你的 google 帳號來進行這個步驟。
15.4.1 拍照、產生描述、分享和儲存
be my eyes app 已經推出好幾年了,它主要的用途是讓有視力的志工能夠使用你的相機,協助你完成一些需要視覺輔助的簡單任務。要使用志工協助,你需要將焦點放在螢幕左下角的「取得支援」頁籤。第二個頁籤「be my ai」頁籤,就是我們這次要討論的重點。在這個頁籤上點兩下來開啟這個畫面,
要拍照並取得描述,找到拍照按鈕,將相機對準你想要描述的內容,然後點兩下。你會聽到相機快門的聲音。旁白會說「正在分析,請稍候」,處理時會播放類似鈴聲的音效。完成後,旁白會以全部朗讀的方式讀出描述內容。
現在會出現詢問更多按鈕。你可以在這個按鈕上點兩下,然後在編輯區口述後續問題。
另外,當你將焦點放在回應文字上,並向上或向下滑動時,會出現複製文字和分享的選項。要複製文字,請在這個選項上點兩下,開啟像「備忘錄」或「草稿」這類的文字編輯應用程式,然後使用轉輪瀏覽到編輯選項來貼上描述。
雖然過程有點複雜,但你可以使用分享選項來儲存照片,這在 be my ai 的第一版是做不到的。我是透過寄送電子郵件給自己,然後在電腦上用 google chrome 瀏覽照片。其他方法可能也可以,但至少這個方法對我來說是穩定可行的。步驟如下:
- 將焦點放在相片描述上,向上或向下撥動以分享,然後啟動它。
- 這會開啟一個標題為「分享圖片和描述的連結」的畫面。啟動分享連結按鈕。
- 啟動郵件按鈕。
- 如果你想的話可以在主旨欄位輸入一些文字,但這個步驟不是必要的。
- 將電子郵件寄給你自己並傳送。
- 在你電腦的電子郵件用戶端開啟郵件,並啟動連結,這會在你的預設瀏覽器中開啟網頁。不論預設瀏覽器是什麼,以下步驟都適用。
- 在文字前方有一個標題為「使用者訊息、圖片。在新分頁中開啟圖片」的圖形連結。啟動這個連結。
- 這個新分頁的標題是檔案名稱,由一串數字加上 .jpg 副檔名組成。
- 使用 control + s 開啟標準的「另存新檔」對話方塊,如果你想的話可以將檔案重新命名為更有意義的名稱,然後將檔案儲存到你的電腦。
15.4.2 為 iphone 上已儲存的圖片產生描述
如果你用 iphone 拍照或截圖,你可以在內建的「照片」app 中找到它們,並使用 be my ai 來為它們加上描述。你也可以為儲存在 dropbox、onedrive 和 google drive 等雲端分享 app 中的圖片做同樣的事。
以下是在「相片」應用程式中儲存的圖片的操作步驟:
- 開啟「相片」app。相片、螢幕擷圖和影片會依時間順序列出,最新的項目會在清單的底部。
- 在要描述的相片或螢幕擷圖上點兩下。
- 啟用分享按鈕。
- 向下捲動到「使用 be my eyes 描述」按鈕,並啟用它。
- 旁白會說「請稍候,be my ai 正在撰寫訊息」。大約五到十秒後,會以全部朗讀模式為你讀出描述內容。
在描述下方的訊息欄位中,你可以詢問後續問題。當焦點在描述上時,你也可以向上或向下撥動一次到複製按鈕,然後將這段文字貼到文字編輯器應用程式中。分享選項並不會出現在這裡。但請記住,相片已經儲存在你的裝置上了。
取得儲存在雲端分享應用程式中的圖片檔案描述的步驟,和相片應用程式的步驟略有不同。請依照以下步驟:
- 開啟儲存圖片檔案的雲端分享應用程式 (dropbox、google drive、onedrive 等)。
- 瀏覽到你想要描述的照片。當你找到照片時,旁白會說「可用的動作」。
- 向下滑動幾次找到「傳送檔案副本」,並啟動。
- 向下捲動到「使用 be my eyes 描述」按鈕,並啟動。
- 旁白會說「正在匯出」,接著說「請稍候,be my ai 正在撰寫訊息」。大約五到十秒後,會以全部朗讀模式為你讀出描述內容。
就像相片應用程式一樣,你也可以將訊息描述複製到剪貼簿。
15.5 jaws picturesmart 與生成式 ai
這是一個令人印象深刻的新功能,首次在 jaws 2024 的 2024 年 3 月更新中推出。運用 google gemini 和 chat gpt 的 llm 功能,它讓你能夠快速獲得網站和應用程式中遇到的圖片、電腦中儲存的圖片檔案,以及螢幕截圖和開啟視窗的詳細描述。雖然你可以直接使用 gemini 和 chat gpt 來取得某些描述,但 picturesmart 真正與眾不同的地方在於,每當你遇到想要描述的圖片時,它都能立即為你服務,因此使用起來非常快速且容易。
第一步是在 jaws early adopter program 中啟用這項功能。操作方式如下:
- 如果你已經設定 jaws 從通知區域執行(請參考第 1.2.1.4 章),使用 insert + j 開啟 jaws 功能表。
- 使用 enter 開啟「options」子功能表。
- 使用下方向鍵移至 early adopter program 並使用 enter 開啟對話方塊。
- 使用 tab 移至 picturesmart with generative ai 核取方塊,並使用空白鍵勾選。
- 使用 tab 移至「ok」按鈕並使用 enter。
- 如果系統提示要啟用匿名使用資料的提交,請同意,因為這是 early adopter program 必要的設定。
- 關閉 jaws 應用程式並重新開啟,讓變更生效。
啟用後,使用 g 鍵瀏覽網站上的圖片。為了獲得最佳效果,請使用 alt + 空白鍵,然後按 x 來最大化視窗。接著使用分層按鍵命令 insert + 空白鍵,再按 p c。系統會播放滴答聲,表示正在產生結果。處理完成後,會開啟新視窗並朗讀由 gemini 產生的簡短摘要描述。使用下方向鍵移至「更多結果」連結並按 enter,即可從 chat gpt 獲得更豐富詳細的描述。若要保留文字,使用 control + a 然後 control + c 將所有文字複製到剪貼簿,開啟文字編輯器如 word 或記事本,再使用 control + v 貼上。
如果你想要同時取得 gemini 和 chat gpt 的描述,使用 insert + 空白鍵,然後按 p,再按 shift + c。gemini 和 chat gpt 的結果會分別出現在二級標題下。
你可以取得的其他描述類型包括:
- 電腦中的圖片檔案:瀏覽到檔案,同時使用 insert + 空白鍵,接著使用 p f (代表檔案)。這會產生 gemini 的結果。若要同時取得 gemini 和 chat gpt 的結果,同時使用 insert + 空白鍵,接著使用 p + shift f。
- 螢幕截圖:同時使用 insert + 空白鍵,接著使用 p s 取得 gemini 結果,或同時使用 insert + 空白鍵,接著使用 p + shift s 取得 gemini 和 chat gpt 的結果。所有在螢幕上的內容都會被描述,包括不一定與開啟的應用程式相關的元素。
- 視窗:同時使用 insert + 空白鍵,接著使用 p w 取得 gemini 結果,或同時使用 insert + 空白鍵,接著使用 p + shift w 取得 gemini 和 chat gpt 的結果。描述僅限於與開啟的應用程式相關的資訊。關於如何取得已暫停的 youtube 影片的圖片描述,請參考第 7.10.2 章。
- excel 和 powerpoint 等應用程式中的圖片和圖表。關於 excel 和 powerpoint 的範例,請分別參考第 5.10.7 章和第 6.7 章。
以下是兩個在網路上產生 picturesmart 結果的範例,以及一個儲存在電腦中的圖片檔案範例。每個部分我都會先說明瀏覽圖片的步驟。我也附上未經編輯的結果,讓你了解這個功能的強大之處。
15.5.1 範例 1 - 網站首頁的 carroll center 標誌
記得先將網頁視窗最大化 (alt + 空白鍵 + x)。然後使用 g 瀏覽到圖形影像,並使用 insert + 空白鍵,接著使用 p + c 來產生 google gemini 的 picturesmart 結果。然後在結果檢視器底部啟動更多結果連結,以取得額外的 chat gpt 結果。
以下是 carroll center 標誌的搜尋結果:
這張圖片是 carroll center for the blind 的標誌。標誌是一個藍色圓圈,裡面有一條白色蜿蜒的道路。「pathway to independence」這幾個字環繞在圓圈的上方。「the carroll center」用黑色字體寫在圓圈下方,而「for the blind」則寫在更下面。
這個圖像顯示了一個由文字和圖形元素組成的標誌。文字分三行排列:
- the carroll center(使用大型襯線字體)
- for the blind(使用較小的無襯線大寫字體)
在「the carroll center」文字下方有一條延伸至文字寬度的底線。圖形元素是一個圓圈,文字部分框住了圓圈的左側。圓圈內有一個風格化的圖像,呈現出一條向右上方彎曲的路徑或道路。這條路徑在深藍色背景上呈現白色,深藍色填充了路徑上方圓圈的一半,給人一種在夜空下的山丘或山脈的感覺。白色路徑上方有一個淺藍色的弧形,可能象徵進步或動態。
此外,在圖形圓圈的上緣有一行小字「pathway to independence」,跟隨圓圈邊緣的弧度排列。這個標誌具有簡潔、專業的外觀,傳達出進步和引導的意涵,這與服務視障者需求的組織所要傳達的理念相符。
15.5.2 範例 2 - carroll center 首頁圖片現有替代文字的對比
結果的瀏覽方式和標誌範例相同。首先,這是網頁上一張圖片現有的替代文字:一位視障女孩在新英格蘭地區點字挑戰賽中微笑著舉起她的手杖。
請注意,這個替代文字完全符合 wcag 規範,簡短扼要,最好不超過一個句子。
picturesmart 的結果則更加豐富:
這張圖片顯示一位年輕女孩正在微笑。她的棕色頭髮紮成雙馬尾,戴著眼鏡,穿著一件有黑色斑點的棕色外套和白色襯衫。背景是一面牆,上面有寫著「the center」的標誌。女孩坐在電腦前,可以看到螢幕的底部。工作列上有幾個圖示,包括 microsoft teams、檔案總管、microsoft edge、windows 圖示、myhp、microsoft store、firefox 和 outlook。
這張圖片看起來像是一張經過修改的個人電腦桌面截圖。在圖片的下方部分,可以看到 windows 作業系統常見的工作列。工作列包含了各種常見的圖示,如資料夾、microsoft edge 瀏覽器、檔案總管和其他軟體應用程式。值得注意的是,有一個「myhp」的圖示,表示這可能是在 hp 電腦上。
圖片的上半部分已被一張年輕女孩的照片取代或覆蓋。她看起來很開心,戴著眼鏡,頭髮的一側用蝴蝶結裝飾。她穿著一件有動物紋(可能是豹紋或獵豹紋)的上衣。背景不是很清楚,但你可以看到她坐在一個寫著「the [看不見的文字]」的東西前面。由於這張照片是與工作列圖形結合的方式,女孩實際所在的環境並不清楚。
電腦介面與個人照片的並置,給人一種正在看著經過修改的電腦桌面的感覺,可能是用這位微笑女孩的照片作為個人化背景。
15.5.3 範例 3 - 儲存在電腦上的圖片檔案
要瀏覽像 .jpg 或 .png 這類的圖片檔案,請先在你的電腦上找到該檔案。然後使用 insert + 空白鍵,再按 p f (代表檔案) 來取得 gemini 的結果。或是使用 insert + 空白鍵,再按 p + shift + f 來一次取得 gemini 和 chat gpt 的結果。
這是一張企鵝照片的描述。
海灘上有三隻企鵝。牠們都是黑白相間的,有著黃色的喙。這些企鵝排成一列,面向圖片的左側。中間的企鵝站在其他兩隻的稍前方。左邊的企鵝張開翅膀,而右邊的企鵝則將翅膀貼近身體。圖片的背景是藍色的海洋,白色的浪花拍打在海灘上。
這張圖片呈現三隻帝王企鵝站在看似沙礫質地的表面上,可能是海灘或南極環境。背景是相對晴朗的天空,帶有些許雲層。帝王企鵝們筆直地站立著,牠們標誌性的黑白羽毛清晰可見。其中兩隻企鵝面對面站著,身體略微向前傾,喙部向上並在尖端相觸,這可能是在進行求偶或建立感情的行為,這在這個物種中經常可以觀察到。企鵝的脖子和頭部有明亮的黃色和橘色,與牠們較深色的背部羽毛和白色腹部形成鮮明對比。第三隻企鵝位於其中一隻前方企鵝的後側,面向鏡頭。牠也有類似的色彩模式,頭部有明顯的黃色和橘色標記。整個場景展現了帝王企鵝的群居特性,捕捉到了可能是牠們溝通或社交連結儀式的一部分行為。色彩鮮豔,圖像的對比度和清晰度都很好。