[分享] 字幕閱讀器（支援 Netflix, Disney+, Youtube, KKTV 等影音平台）

文章瀏覽次數 18838 文章回覆數 165

Maxe

Maxe圖像(預設)

2020-06-20 23:03:19

From：36.230.118.210

字幕閱讀器

下載

按這裡下載

協作此專案

請到這裡

簡介

在您使用瀏覽器觀看影片時，協助 NVDA 在頁面上找出影片的 CC 字幕，並讓 NVDA 及時以語音報讀及點字呈現。

更新日誌

V2.4, 2022.5.26

版本代號： Friends

新增項目

新增 WikiMedia Commons 的字幕支援。
測試影片：Emily Temple-Wood
測試方式：點選連結，進入頁面之後，按下 Play Media 按鈕，然後在 Captions 功能表選擇字幕語言。
感謝來自香港的朋友 T.Y. 的提案，雖然這裡看起來中文字幕的影片還太少，但願未來能夠繼續增加。

V2.33, 2022.5.23

版本代號：約定的天空

修正巷木

修正 Disney+ 無法閱讀字幕的問題。
測試影片：冰雪奇緣2

V2.32, 2022.5.22

版本代號：夢中的世界

新增項目

現在可以從《字幕閱讀器》功能表開啟更新日誌檔案，預防更新時沒看到日誌的狀況。

修正巷木

在以下影片發現字幕被重複朗讀的問題，原因是此影片連續出現兩次多行字幕，而兩次出現的字幕，各只有其中一行相同而沒有忽略相同內容所導致。
所以現在起，加入使用字幕的每一行來尋找相同點的功能。
影片：《 Embrace 》復甦島2主題曲 Official Music Video｜Leggy、Paroto｜玩樂幫
P.S: 追隨卡蜜拉！～～

V2.31, 2022.4.4

新增項目

字幕閱讀器，現在會朗讀 Netflix 的預覽影片，通常預覽影片會出現在選擇影片級數的對話框。

修正巷木

修正當意外抓不到字幕時，會誤判字幕已經消失，導致相同字幕被不斷朗讀的錯誤。
發現此問題的影片：secret base ～你給我的東西～（10 years after Ver.）

V2.3, 2022.4.3

修改項目

字幕閱讀原則修改：若新的字幕內容是前一字幕開頭的一部分，則不在報讀。
嘗試讓字幕閱讀器附加元件縮小。

修正巷木

修正 Netflix 偶爾會重複朗讀多行字幕的全部或一部分的錯誤。
修正沒有字幕時，經過 1 秒鐘沒有清除當前字幕紀錄的錯誤。

V2.23, 2022.3.29

新增項目

新增相容性代碼，提前支援 NVDA2022.1.
說明檔案新增字幕閱讀器的 NVDA 相容性說明。

V2.22, 2022.3.27

新增項目

新增中文 - 香港說明檔案。
逐步開始新增一些偵錯資訊，事件紀錄在資訊等級不會記錄他們。

修正巷木

修正 Disney+ 無法閱讀字幕的錯誤。
修正字幕閱讀器本身的文字錯誤。

V2.2, 2022.3.22

新增項目

新增 Netflix 字幕支援。
測試影片：庫洛魔法使：透明牌篇 - 小櫻和兔子和月之歌
P.S 透明牌篇之後的內容啥時候要出啦啦啦！

修改項目

啟動時檢查更新：改為自動檢查更新，其行為除了在字幕閱讀器啟動時檢查更新，同時也在一天後再次檢查更新。
但若一天後的最新版本與啟動時檢查的最新版本相同，則不再詢問使用者是否需要更新。

V2.11

新增項目

發現新版本之後，其版本號現在顯示在新版資訊的視窗標題。
加入簡體中文的說明檔案。

修正巷木

修正 Disney+ 影片播放器全螢幕時不讀字幕的錯誤。
修正 Disney+ 非中文台灣語言介面不讀字幕的錯誤。

V2.1, 2022.2.1

新增項目

新增 Brave 瀏覽器支援（感謝 Kevin Lin 的提案）。
P.S 我真的把他給忘了。
在 github 建立專案。

修改項目

更換自動更新的 server 端。
P.S 之前的 server 端很不穩定，如果下載失敗的話，請手動到 NVDA 台灣下載。
補充 readme 檔案內容。

修正巷木

修正 Edge 不獨字幕的問題。
P.S 沒有人發現，真是太棒了！

V2.0, 2022.01.26

新增項目

本次更新亮點：新增 Disney Plus 字幕支援。感謝遊戲創作團隊成員 Serena 的提案。
我的測試影片：魔法滿屋
新增自動檢查更新的功能。
P.S 我在自動更新當中加入很多魔法音效，沒錯我很無聊。

修改項目

「Youtube 字幕閱讀器」已改名為「字幕閱讀器」。
重要：為避免附加元件衝突，請將 Youtube 字幕閱讀器移除在安裝此附加元件。
以新學的設計模式，嘗試拆散代碼至多個檔案。
P.S 你們相偎相依，我看了不開心。

正式版本 V1.0

新增項目

新增網站（唱歌學日語 Marumaru ）網站的字幕支援
點擊以下連結，進入我用來測試的歌曲頁面，然後按 b 直接找到內嵌的 Youtube 影片當中的撥放按紐，點選以撥放影片並聽讀字幕。
我的測試歌曲：群青
P.S 此功能原本是為了我喜歡一邊聽日文歌一邊聽字幕而做，所以目前只尋找中文字幕來閱讀，並沒有閱讀日文字幕。且這個功能已經偏離此附加元件的主題了，所以就不再說明書上編寫相關說明了，就當作此附加元件的小彩但吧。
新增 Microsoft Edge 支援（感謝 Eureka 提供參考代碼）。
新增 NVDA2021 支援（感謝我們的遊戲創作團隊成員 Serena 協助測試 NVDA 最新版本相容性。

修正巷木

修正當影片長度超過一天時，自動閱讀章節的閱讀內容錯誤。

Beta5

新增項目

新增自動閱讀當前章節的功能。
注意：由於 NVDA 並不會時時更新元件的 value 屬性資訊，所以此功能只在案左右方向鍵快進快退時能絕對準確的閱讀章節。

修改項目

針對一部影片進行以下調整：
1. 刪除字幕中出現的一個可能適用於視覺效果的符號。
2. 調整當畫面上沒有字幕時，必須經過一秒鐘，才會清除 Youtube 字幕閱讀器的字幕緩衝區。
3. 當多行字幕當中，兩行字幕相同時，將忽略重複的一行字幕。
4. 此次更新所針對的影片：ニャタタリズム（貓踏踏的節奏）

Beta4

修正巷木

修正 Youtube 網頁更新，導致 NVDA 找不到字幕的問題。

Beta3

新增項目

新增資訊卡音效提示，音效來源為 Youtube 工作室。
完成測試並新增 NVDA Python3 支援。

Beta2

新增項目

新增多行字幕支援。
新增閱讀字幕的開關，預設快速鍵為 NVDA+y 可在輸入手勢中更改。
新增填充字幕規則，例如當前字幕為 (abc), 下一行字幕為 (abcdef), 則在下一行字幕出現時， NVDA 只讀出補充的 (def).
新增說明文件

修改項目

每次尋找字幕的間隔，從 5 毫秒改為 100 毫秒，減低壓力。
現在，尋找字幕元件的方式改為元件 id 識別，避免 NVDA 讀取到資訊卡並將資訊卡誤認為字幕。
現在，若影片當前沒有字幕，則清除字幕緩衝區，因此，當下一行字幕與被清除前的字幕相同時可再次閱讀。

修正巷木

修正當字幕為空白或只有換行符號時， NVDA 會讀出空行的錯誤。
修正 Firefox 將字幕的每個文字拆分成多個元素，導致 NVDA 只讀字幕第一個字的錯誤

Beta1

第一個公開測試版本

說明

特色

支援 Netflix, Disney+, Youtube, MaruMaru 等網站
支援常用瀏覽器。
自動尋找網頁上的 CC 字幕。
語音與點字回饋。
自動檢查更新
快速開關功能

操作方式

使用瀏覽器，開啟支援的網站，並點選提供 CC 字幕的影片，接著將焦點移至影片播放器的範圍，即可聽見或在點顯器摸讀字幕。
若想暫停字幕回饋，可關閉 NVDA 語音輸出，在播放器關閉字幕，或是按下 NVDA+y 停止回饋。

NVDA 相容性

字幕閱讀器正在嘗試支援所有版本的 NVDA, 目前測試的最舊版本為 2019.2.1.

支援的瀏覽器

以下列出字幕閱讀器支援的瀏覽器與經過測試的最新版本：

Google Chrome (97.0.4692.99 (正式版本) (64 位元))
Mozilla Firefox (77.0.1（64 位元）)
Microsoft Edge (97.0.1072.76 (官方組建) (64 位元))
Brave (1.34.81 Chromium: 97.0.4692.99 (正式版本) (64 位元))

快速鍵

以下列出預設的快速鍵及其對應功能，所有快速鍵皆可在 NVDA 的輸入手勢設定當中更改。

NVDA+y: 開關字幕閱讀器

注意事項

字幕閱讀器只在上方列出的瀏覽器可用。
焦點必須停留於影片播放器當中才能聽讀字幕，通常可見影片當前時間、音量，以及對影片播放進行設定的控制項，都屬於影片播放器的範圍。
請確認該影片是否有提供 CC 字幕，若有提供 CC 字幕，則可使用瀏覽模式，找到動態出現的字幕文字。
若網站更新了播放介面，則字幕閱讀器將會失效，請等待字幕閱讀器更新，或是使用下方的連絡資訊與我聯絡。

聯絡資訊

若您在使用上有任何問題或建議，歡迎從下方清單中選擇聯絡方式與我聯絡。

Skype:
p15937a
Facebook:
個人檔案
NVDA 台灣討論區：
[分享] 字幕閱讀器 - 討論區 | NVDA 台灣
※最後更新時間：2022-03-22 02:12:42 From：36.230.4.249 By：Maxe
※最後更新時間：2022-03-22 15:09:51 From：211.23.21.202 By：Maxe
※最後更新時間：2022-03-29 13:26:07 From：211.23.21.202 By：Maxe
※最後更新時間：2022-05-23 00:53:35 From：36.230.207.16 By：Maxe
※最後更新時間：2022-05-24 09:21:35 From：211.23.21.202 By：Maxe
※最後更新時間：2022-05-26 01:06:22 From：36.230.207.16 By：Maxe
※最後更新時間：2022-09-21 00:09:35 From：36.230.220.215 By：Maxe

#165

cch

cch圖像(預設)

2026-03-25 12:09:27

From：114.24.249.16

把它消音呀[不負責任]
我有叫AI做一個附加元件，有三個功能：

不斷地按向上鍵。
遇到重複的就消音。
聽到"空白"就消音。
看來要加第4點啦…
------我是分隔線-------

後來我手賤，把老師們的附加元件解開，取出PY檔的程式碼給AI看…

我把網頁存成記事本：NVDA 官方開發者指南，上傳給AI。
NVDA 2025.3.3 Developer Guide
https://download.nvaccess.org/documentation/developerGuide.html

Q：
/p請遵照我上傳的NVDA 官方開發者指南。
以下程式碼我覺得還不夠好，你覺得可以往哪些方向優化才能變得更好？請列出選項讓我選。
【給 AI 的嚴格優化指令】
在幫我優化下方程式碼、或是後續我提出修改要求時，請務必把我的上一版程式碼當作「絕對底稿」。你只能在原來的文字與架構上進行「增補或微調」，絕對禁止打掉重寫、禁止改變原本的排版、禁止遺漏我原本的任何設定。
【需要優化的程式碼】
（在此貼上您的程式碼...）
「」
Q：
除了優化，還有哪些新增功能建議供我選擇？現在程式的Youtube 相關設定已經有：閱讀聊天室(R)、閱讀聊天室訊息發送者(A)、僅閱讀管理員訊息(M)、閱讀會籍贈送(G)、閱讀聊天室時掠過圖片名稱(G)、資訊卡提示(I)、等選項。
AI：
根據 NVDA 2025.3.3 官方開發者指南 中關於用戶導航（Object Navigation）與內容呈現（Reporting Content）的規範，針對您的 Youtube 腳本，我建議可以新增以下功能選項，以提升視障使用者在觀看直播或影片時的互動體驗：

選項 1：聊天室訊息類型過濾 (Message Type Filtering)

功能名稱： 僅閱讀提問（Q&A）或超級留言（Super Chat）。
技術原理： 利用 IA2Attributes 偵測 yt-live-chat-paid-message-renderer 等特定類別。
實用性： 當直播訊息過多時，使用者可以只關注付費留言或創作者發出的置頂訊息。

選項 2：自動朗讀影片統計資訊 (Auto-Reporting Stats)

功能名稱： 定期朗讀當前觀看人數或點讚數。
技術原理： 定時掃描 id 為 view-count 或 factoid 的元件，並在數值發生重大變化時透過 ui.message 提醒。
實用性： 讓使用者在全螢幕或專注聽講時，不必切換焦點也能掌握直播熱度。

選項 3：動態進度與緩衝提示 (Playback & Buffering Alerts)

功能名稱： 朗讀影片緩衝狀態或播放速率變更。
技術原理： 監測 movie_player 容器的屬性變化，當影片因網路問題暫停（Buffering）或使用者誤觸變速時發出提示音。
實用性： 符合指南第 3.1 節關於「狀態變更事件」的處理，提升操作透明度。

選項 4：更精細的聊天室「時間戳記」開關 (Timestamp Toggling)

功能名稱： 朗讀聊天訊息發送時間。
技術原理： 在 onFoundChatObject 中尋找 id 為 timestamp 的子物件並提取 name。
實用性： 幫助使用者確認訊息的時效性，特別是在回放錄影（VOD）時區分當下訊息與歷史訊息。

選項 5：智能跳轉與地標導航 (Enhanced Landmarks)

功能名稱： 快速跳轉至「聊天室輸入框」或「影片播放器」。
技術原理： 註冊熱鍵（如 scripts），直接將系統焦點 (Focus) 移至您代碼中 getVideoPlayer() 或 getChatContainer() 找到的物件。
實用性： 大幅減少使用者使用 Tab 鍵在 Youtube 複雜頁面中切換的時間，符合開發者指南中優化導航效率的建議。

您對以上哪一項功能感興趣？或者您有特定的互動需求（例如針對某個特定擴充功能）想加入？
------我是分隔線-------

我想講的是另一位冨樫老師的作品…
(謝老師的光PY檔我略數就近30個，我剛只上傳一個youtube.py[累]。再者，謝老師有在更新，而且，有求必應[合掌])
Lion live-1.15（自动OCR，方便阅读字幕、游戏等动态内容的插件） - NVDA 中文站
https://www.nvdacn.com/index.php/archives/861/
除了優化，當然還介面繁中化
才發現兩個好像很有用的(OCR 對象: 導航物件是本來原作都者就有放的)
(本來是分享程式比較快，但…我真的不會程式碼，誰知道AI寫了什麼？想要我的財寶嗎？想要的話就送給你吧！自己去找吧，我把全世界的寶藏都埋藏在那裡了[海盜黨])
Q：
除了優化，還有哪些新增功能建議供我選擇？
AI：
既然您已經完成了基礎程式碼與介面的優化，根據《NVDA 官方開發者指南》中關於「視覺障礙輔助技術」的進階規範，我為您的 LION 插件提煉出以下幾個功能增強 (Feature Enhancements) 建議。

這些功能能顯著提升即時掃描的實用性與使用者體驗：

選項 1：語音與音效回饋強化 (Feedback Customization)

目前的插件僅使用 ui.message 和簡單的 beep。根據指南關於 tones 與 ui 模組的應用：

掃描狀態音效 (Scanning Tones)： 增加「掃描中」的微弱背景滴答聲（使用 tones.beep 低頻率短音），讓使用者知道插件仍在運作，而非死機。
語音優先級設定： 讓使用者選擇 OCR 結果是使用 ui.message（會打斷當前朗讀）還是 core.lastStackTrace 類型的背景提示。

選項 2：智慧型文字過濾與處理 (Smart Text Processing)

目前的 raw_text != "Play" 屬於硬編碼過濾，可以擴充為：

正則表達式過濾 (Regex Filtering)： 在設定介面增加一個欄位，讓使用者輸入想要過濾掉的常見雜訊（例如：時間戳記、特定浮水印文字）。
自動語言偵測： 結合 Windows.Media.Ocr 的語言包，自動切換辨識語系（例如：中英混讀模式），這在《指南》的國際化章節中有相關建議。

選項 3：座標錨點與區域預設存取 (Region Presets)

目前的裁切是百分比制，可以增加「場景感知」功能：

特定視窗自動裁切： 增加一個「自動偵測視窗標題」的功能。當使用者切換到特定的應用程式（如：某款遊戲或某個影片播放器）時，插件自動載入該視窗專屬的裁切比例。
滑鼠位置掃描： 增加一個模式，以滑鼠游標為中心，掃描周圍 200x200 像素的範圍，這對於查看複雜 UI 的局部資訊非常有用。

選項 4：OCR 結果的後續操作 (Post-Recognition Actions)

辨識出文字後，除了讀出來，還可以：

自動複製到剪貼簿： 增加一個選項，當辨識出新文字時，自動存入剪貼簿，方便使用者後續貼到翻譯軟體或筆記本。
虛擬導航模式： 將 OCR 辨識出的文字與座標結合，建立一個「虛擬視窗」，讓使用者可以用 NVDA 的方向鍵在辨識出的文字間移動（模擬真正的物件導航）。

您對哪一個方向感興趣？ 如果您選擇其中一項，我將為您撰寫符合「絕對底稿」原則的增補程式碼。

您希望我接下來為您實作哪一項功能？
Q：
請再詳細介紹以下兩種功能視障者在日常生活的應用：
OCR 對象: 導航物件
OCR 對象: 滑鼠周圍 (200x200)
AI：
這兩種模式的設計初衷，是為了解決視障者在操作電腦時最常遇到的兩種困境：「看得到框卻讀不到內容的介面」以及「完全沒有焦點規律的雜亂畫面」。

以下詳細介紹它們在日常生活中的實際應用場景：

1. OCR 對象：導航物件 (Navigator Object)

核心邏輯： 鎖定 NVDA 當前指向的那個「小框框」。

日常生活應用場景：

破解「未標籤按鈕」：
許多老舊軟體或自行開發的公文系統，按鈕上只有一張印著「存檔」或「列印」字樣的圖片，NVDA 只會讀「按鈕」。
- 操作： 您只要把導航物件移到該按鈕，開啟 LION，它就會只針對那個按鈕的小範圍進行辨識，讀出「存檔」。這比全螢幕掃描快且精準。
閱讀「圖片式選單」：
有些點餐系統或工具軟體的左側選單是由小圖示組成的。
- 操作： 當您按 NVDA + 小鍵盤 4/6 移動導航物件到選單項時，LION 會即時報讀該選項的文字圖標內容，讓選單變得可導航。
檢查特定欄位的輸入狀態：
在填寫表單時，有些錯誤提示會出現在輸入框旁邊，但它不是焦點，NVDA 讀不到。
- 操作： 您可以把導航物件移到輸入框旁邊的「驚嘆號」圖示上，LION 就能讀出隱藏的錯誤訊息文字（如：密碼格式錯誤）。

優點： 範圍最小、雜訊最少、速度最快，適合「定點爆破」那些讀不到的介面元件。

2. OCR 對象：滑鼠周圍 (200x200)

核心邏輯： 以滑鼠游標為中心，掃描半徑約 100 像素的方形區域（約佔螢幕一小塊）。

日常生活應用場景：

「摸索」複雜的網頁或遊戲畫面：
有些網頁（如：股票看盤軟體、複雜的儀表板）文字非常密集，且沒有標準的物件結構。
- 操作： 您可以移動滑鼠，像拿著手電筒在黑夜中照亮一小塊區域一樣。當滑鼠滑過某個數據或圖表時，LION 只會讀出「滑鼠指著的那一區」的文字，這能幫助視障者建立畫面的空間感（例如：知道「餘額」是在右上方）。
查看「懸浮提示文字」(Tooltip)：
當滑鼠停在某個圖標上時，系統常會彈出一個小黃框提示。這些提示通常消失得很快，且 NVDA 有時抓不到。
- 操作： 設定為滑鼠模式，當您感覺滑鼠停在某處有東西彈出時，LION 會立即抓取滑鼠周圍的區域讀出提示內容。
影片字幕即時捕捉：
如果您在看 YouTube 或 Netflix，字幕位置通常固定在下方。
- 操作： 您可以把滑鼠停在畫面下方中央。當影片播放時，LION 就會持續掃描滑鼠指著的那個小區域。因為區域小（只有 200x200），辨識速度會比「全螢幕」快得多，延遲感更低，聽起來更流暢。

優點： 直覺、具備空間導引功能，適合處理「非結構化」或「隨機出現」的文字資訊。

模式對照表總結

功能名稱	視障者的操作隱喻	最佳用途
導航物件	「顯微鏡」：鎖定現有的元件	破解標籤不明確的按鈕、清單、對話框。
滑鼠周圍	「手電筒」：照亮指到的地方	摸索位置不明的文字、讀字幕、查看懸浮提示。

#164

Maxe

Maxe圖像(預設)

2026-03-18 21:10:58

From：111.249.169.69

回復 @cch 這個擴充功能比較特別的是，他會把多長時間沒有字幕顯示出來，我有找到 Silence Indicator 不知道是否跟這個有關，也不知道怎麼開關他。

#163

cch

cch圖像(預設)

2026-03-18 17:47:45

From：111.241.244.168

感恩老師讚歎老師!!!
剛才更新、測試Yt成功。

#162

cch

cch圖像(預設)

2026-03-11 12:34:33

From：61.58.97.45

昨晚閒閒没事抓一集小新試試看~
結果ai口述影像裡居然没小新!!以我幾十年聽圖猜故事的功力，只聽AI敍述，還聽不太懂!?[心裡涼了半截，睡覺還找了襪子穿]
我想該是：字幕姐組出場鞠躬道歉的時候了!!
趁星期五前，剛才修改了提示詞。
Google Gemini
https://gemini.google.com/app
(只是修改提示詞，用快捷回覆快速就可以了)
我有兩組有關提示詞的提示詞(抄來的)
提示詞(創作用的：
我想讓你成為我的Prompt創作者。你的目標是幫助我創建最佳的Prompt，這個Prompt將由你使用。你將遵循以下過程：

首先，你會問我Prompt是關於什麼的。我會告訴你，但我們需要通過不斷的重復來改進它，通過則進行下一步。
根據我的輸入，你會創建三個部分：

（1）修訂後的Prompt（你編寫修訂後的Prompt，應該清晰、精確、易於理解）

（2）建議（你提出建議，哪些細節應該包含在Prompt中，以使其更好）

（3）問題（你提出相關問題，詢問我需要哪些額外信息來改進Prompt）

你提供的Prompt應該採用我發出請求的形式。
我們將繼續這個迭代過程，我會提供更多的信息，你會更新「修訂後的 Prompt」部分請求，直到它完整為止。
接下來的多輪對話中，我們的任務是共同完善底下的Prompt。當我要求修改時，請嚴格遵守「版本記憶與疊加修改原則」：每一次的輸出都必須完整繼承上一個版本的全部文字與規則，僅針對我要求的部分進行新增或修正，不得擅自刪減既有設定。
---我是分隔線---
之前就只輸入(那時還跑去問AI：說電影的服務叫什麼哩!)：
由AI根據我上傳的影片來口述影像」（Audio Description，簡稱 AD）。
• 核心功能：由AI在影片對白、音效的間隙，描述畫面中的動作、場景、表情、服飾及圖形等關鍵訊息，將視覺影像轉化為語言。
產生的結果必須符合字幕檔格式。
---我是分隔線---
提示詞(修改用的)：
以下提示詞我覺得還不夠好，你覺得可以往哪些方向優化才能變得更好？請列出選項讓我選。
【給 AI 的嚴格優化指令】
在幫我優化下方提示詞、或是後續我提出修改要求時，請務必把我的上一版提示詞當作「絕對底稿」。你只能在原來的文字與架構上進行「增補或微調」，絕對禁止打掉重寫、禁止改變原本的排版、禁止遺漏我原本的任何設定。
【需要優化的提示詞】
（在此貼上您的提示詞...）
「」-------
---我是分隔線---
小技巧：提示詞是可以修改的，以符合需求。
像剛才我是改成：
以下提示詞不干擾原有對白 (Dialogue) 與關鍵音效的前提我覺得還不夠好，我想取消它，你覺得可以往哪些方向優化才能變得更好？請列出選項讓我選。
也可以改成：
以下提示詞語言風格部份我覺得還不夠好，我喜歡芙莉蓮風格，你覺得可以往哪些方向優化才能變得更好？請列出選項讓我選。
也可以：
我是國中二年級的老師…
要提示詞跌代的話：
請繼續提供優化方向
(選擇也很累耶~萬一選錯…編輯提示詞按下去就好了咩)
---我是分隔線---
剛才新生成的提示詞(還是修改成自己的形狀比較適合喔：
角色設定：你是一位專業的「口述影像」(Audio Description, AD) 撰寫員，專門為視障人士提供視覺訊息轉譯服務。
任務描述：請根據用戶上傳的影片內容，精準捕捉對白間隙 (Audio Gaps) 並根據空隙時長彈性調整描述密度，在不干擾原有對白 (Dialogue) 與關鍵音效的前提下，精準描述畫面中的動作、場景、表情、服飾及螢幕文字。執行時須遵循訊息權重：優先交代構圖背景與關鍵動作（如：方向性與節奏），再隨時長填補表情與服飾細節，確保 AD 與背景音聲軌和諧共存。此外，須維持空間方位的一致性描述（如：主體在前一鏡頭位於左側，後續描述須以此為座標系）。
輸出格式要求：
1. 必須嚴格遵守 SubRip (.srt) 字幕格式。
2. 時間軸必須對齊畫面變動點，且僅出現在「對白間隙」。
3. 語言風格：客觀、簡潔、生動。嚴禁使用虛詞（如：可以看到、畫面中顯示、現在是...），直接描述具體物象。語氣需隨畫面情感起伏調整：緊張戲使用短促句，文戲使用細膩長句。
描述準則：
- 場景 (Setting)：描述環境變化、光影氛圍。精確區分推拉鏡頭 (Zoom/Dolly) 與橫移 (Pan/Tilt) 以界定敘事焦點，並包含鏡頭遠近（如：全景、特寫）與空間構圖，確保視障者能建立空間方位感。
- 動作 (Action)：描述人物的具體移動或手勢，不加入主觀猜測。著重描述動作的節奏與方向性（如：緩慢地轉向鏡頭、猛力揮動右手）。
- 外貌 (Appearance)：描述角色衣著、關鍵體徵與面部表情。強化微表情描述（如：抿嘴、眉頭微蹙）與服飾細節（如：粗糙的麻布大衣、深紫色的絲綢質地）。
- 圖文 (On-screen Text)：讀出畫面出現的標題、地點標註或簡訊內容。須區分文字屬性（如：底部跑馬燈、畫面正中央的大標題、人物手機螢幕上的通知文字）。

---我是分隔線---

AI字幕這次就不貼了…
因為
那集主角是廣志，小新根本没出場[手遮臉]
回報：
Movie Subtitles可以顯示字幕。

#161

Maxe

Maxe圖像(預設)

2026-03-10 09:06:11

From：211.23.21.202

我週五嘗試如果失敗的話再來抓問題，如果成功的話那我也不知道原因出在哪了

#160

cch

cch圖像(預設)

2026-03-09 19:28:44

From：118.165.178.47

那就要拜託謝老師了!!
不過，
如果老師是要透過擴充功能來報讀字幕，那就要考慮擴充功能會不會挑字幕檔了吧!?
前天我試過AI口述3個較短的YT影片都不行，
把不行的和可以的(別人的)檔案丟給AI問，記事本5個編碼都試過、AI自己改過兩次內容(没試過新生成喔)…
早上用霍去病的又可以了
剛才同樣步驟重試新北燈會，還是不行…

#159

Maxe

Maxe圖像(預設)

2026-03-09 14:56:24

From：211.23.21.202

回復 @cch 很有用的擴充功能，我會嘗試看看是否能夠加入字幕閱讀器的支援。
另外你的字幕解析失敗，有沒可能真的有格式錯誤，或者有編碼問題，而 Pot Player 比較寬鬆。
週五我會用這個擴充功能，在 YT 追一級芙莉蓮試試看。

#158

cch

cch圖像(預設)

2026-03-09 05:22:49

From：118.165.178.47

請問：可以播放別人的串流影音，同時報讀自己的字幕檔嗎？

例如：報讀AI口述影像字幕。
Google AI Studio
https://aistudio.google.com/prompts/new_chat
提示詞：

角色設定：你是一位專業的「口述影像」(Audio Description, AD) 撰寫員，專門為視障人士提供視覺訊息轉譯服務。
任務描述：請根據用戶上傳的影片內容，在不干擾原有對白 (Dialogue) 與關鍵音效的前提下，精準描述畫面中的動作、場景、表情、服飾及螢幕文字。特別注意描述的層次感，先交代構圖背景，再聚焦主體細節。
輸出格式要求：

必須嚴格遵守 SubRip (.srt) 字幕格式。

時間軸必須對齊畫面變動點，且僅出現在「對白間隙」。

語言風格：客觀、簡潔、生動。

描述準則：

場景 (Setting)：描述環境變化、光影氛圍。需包含鏡頭遠近（如：全景、特寫）與空間構圖，確保視障者能建立空間方位感。

動作 (Action)：描述人物的具體移動或手勢，不加入主觀猜測。著重描述動作的節奏與方向性（如：緩慢地轉向鏡頭、猛力揮動右手）。

外貌 (Appearance)：描述角色衣著、關鍵體徵與面部表情。強化微表情描述（如：抿嘴、眉頭微蹙）與服飾細節（如：粗糙的麻布大衣、深紫色的絲綢質地）。

圖文 (On-screen Text)：讀出畫面出現的標題、地點標註或簡訊內容。須區分文字屬性（如：底部跑馬燈、畫面正中央的大標題、人物手機螢幕上的通知文字）。

串流影音：
《AI電影_霍去病_完整版_製作成本3000元人民幣》#GamePlayLife #遊玩人生 #不正常電玩研究中心 #UVGRC #霍去病 #AI電影 #完整版
https://www.youtube.com/watch?v=BtSLh8RVRIM

AI生成結果：
1
00:00:01,000 --> 00:00:06,000
木門被猛力撞碎，火光沖天。全景畫面中，身穿粗糙獸皮與麻布的游牧騎兵，揮舞著彎刀衝入村落。

2
00:00:15,500 --> 00:00:20,500
特寫鏡頭，一名騎兵拉弓放箭，射中抱著嬰兒的婦女背部。婦女絕望倒地。

3
00:00:35,000 --> 00:00:40,000
騎兵在燃燒的茅草屋前放肆大笑，露出泛黃的牙齒。地面上，一名滿臉鮮血的老翁痛苦爬行。

4
00:00:47,000 --> 00:00:52,000
夜色中，一隻沾滿鮮血的手緊抓韁繩。隨後轉為白天全景，一名信使騎馬衝入宏偉的紅牆宮殿大門。

5
00:00:57,500 --> 00:01:03,000
信使從馬上摔落，跌在石階前。特寫鏡頭，他趴在地上吐血，手邊落下一卷染血的竹簡，上面插著一根羽毛。

6
00:01:06,000 --> 00:01:12,000
全景展現莊嚴的木造朝堂，陽光從側邊傾灑。兩側站滿身穿深色朝服的文臣與披著厚重鐵甲的武將。

7
00:01:18,000 --> 00:01:22,000
特寫鏡頭，身穿黑底紅邊龍袍的漢武帝眉頭緊鎖，右手猛力拍擊金色的龍椅扶手。

8
00:02:00,000 --> 00:02:04,500
一名年輕將領大步出列。他身穿精緻的紅纓銀甲，眼神堅毅，雙手抱拳。

9
00:02:48,500 --> 00:02:51,500
畫面特寫一塊放置在黑石磚上，刻著文字的銅製虎符。

10
00:03:20,000 --> 00:03:26,000
將領們俯身指著泛黃的羊皮地圖。畫面下方浮現字幕：「公元前119年漢武帝決意徹底根除匈奴百年邊患發動漢匈戰爭史上規模空前的漠北決戰」。

11
00:03:26,500 --> 00:03:32,000
俯瞰全景，浩瀚的黃沙大漠中，數以萬計的漢軍鐵騎排成整齊的縱隊，揚起漫天塵土。

12
00:04:28,000 --> 00:04:33,000
烈日當空，一名滿頭大汗的士兵體力不支，從馬背上重重摔落沙地，特寫他乾裂的嘴唇與痛苦的表情。

13
00:04:55,000 --> 00:05:01,000
年輕將領割斷繩索，將馬背上的沉重輜重拋棄在沙地上。軍隊輕裝加速前進。

14
00:05:12,000 --> 00:05:17,000
特寫鏡頭，一隻沙蜥蜴趴在乾燥的土丘上。一隻馬蹄重重踏在牠身旁的沙地。

15
00:05:54,000 --> 00:06:00,000
全景畫面，軍隊來到一條湍急的河流前。士兵們興奮地騎馬衝入水中，水花四濺。

16
00:06:16,000 --> 00:06:21,000
廣闊的草原上，烏雲密布。遠處，密密麻麻的匈奴騎兵如黑潮般湧來。

17
00:06:34,000 --> 00:06:40,000
雙方騎兵猛烈相撞。特寫鏡頭，漢軍長槍刺穿匈奴兵的皮甲，匈奴彎刀狠狠劈向漢軍鐵盾。

18
00:08:21,000 --> 00:08:26,000
戰後的荒野，滿地皆是人馬的屍體，黑色的濃煙升起。數隻禿鷲在屍體堆上盤旋、降落。

19
00:08:39,000 --> 00:08:44,000
營地內，一名漢軍士兵憤怒地將匈奴戰俘撲倒在地，拔出匕首準備刺下，被年輕將領上前阻擋。

20
00:08:57,000 --> 00:09:05,000
將領從士兵手中接過乾糧，遞給跪在地上的匈奴婦女與孩童。婦女雙手顫抖著接過，趴在地上親吻食物。

21
00:09:12,000 --> 00:09:17,000
夜幕降臨，深藍色的天空下，漢軍營地整齊排列著白色的圓頂帳篷。

22
00:10:17,000 --> 00:10:22,000
帳篷內，將領們圍在火盆旁，將匕首用力插在鋪著獸皮的地圖上，神情肅穆。

23
00:11:13,000 --> 00:11:18,000
全景轉至匈奴營地，夜色中火把點點。大型蒙古包內，匈奴首領們正舉著酒碗尋歡作樂。

24
00:12:46,000 --> 00:12:51,000
漢軍騎兵如幽靈般衝入匈奴營地。長槍刺穿守衛，火把被接連擲向帳篷，瞬間引發熊熊大火。

25
00:14:01,000 --> 00:14:06,000
陰沉的天空下，廣袤的荒原上，漢軍排成數個巨大的方形黑色方陣，長矛如林。

26
00:14:12,000 --> 00:14:16,000
遠景視角，一條長長的防線前，狂風捲起漫天黃沙，氣氛肅殺。

27
00:15:03,000 --> 00:15:09,000
匈奴騎兵拉滿弓弦。無數支箭矢如暴雨般劃破陰霾的天空，密集地射向漢軍方陣。

28
00:16:43,000 --> 00:16:48,000
混戰中，漢軍將領霍去病身披紅披風，揮舞長劍，在亂軍中左突右衝，斬殺敵軍。

29
00:17:24,000 --> 00:17:29,000
一隻老鷹在戰場上空展翅滑翔。俯瞰視角下，紅黑兩股騎兵洪流在荒漠中激烈絞殺。

30
00:19:29,000 --> 00:19:35,000
畫面穿插回憶：一名穿著粗布衣的幼童，在庭院中吃力地舉起長槍，眼神與戰場上的將領同樣堅毅。

31
00:19:57,000 --> 00:20:02,000
戰鬥平息，大霧瀰漫。滿地皆是殘屍與散落的兵器，幾隻烏鴉在屍體間跳躍。

32
00:20:59,000 --> 00:21:05,000
殘存的匈奴士兵丟下武器，絕望地跪倒在血泊中，雙手被繩索反綁。

33
00:21:15,000 --> 00:21:20,000
遠景，夕陽餘暉中，漢軍將士列隊在高聳的山丘頂端。畫面左下角浮現字幕：「封狼居胥山」。

34
00:21:34,000 --> 00:21:40,000
霍去病單膝跪地，雙手捧著一塊木簡，莊重地將其放置在由石塊壘成的祭壇上。

35
00:21:54,000 --> 00:21:59,000
特寫鏡頭，他低垂著眼眸，粗糙的手指輕輕摩挲著一塊刻著圖騰的銀製護身符。

36
00:22:16,000 --> 00:22:21,000
全景畫面，霍去病騎著駿馬，紅色的披風隨風飄揚，獨自沿著波光粼粼的綠色河畔疾馳。

37
00:22:28,000 --> 00:22:34,000
畫面轉暗，正中央浮現白色潑墨風格的毛筆大字：「霍去病 Huo Qubing」。

我遇到的困難[字幕組出來鞠躬道歉]：
下載影音、做成字幕檔，用PotPlayer 64 bit播放都没問題。
改要在線上報讀時，
我用Google Chrome的擴充功能
Movie Subtitles - Chrome Web Store
https://chromewebstore.google.com/detail/movie-subtitles/ifimcneililngppkpddcliecbpcgdjag?hl=pl
只是方向鍵要上下移動才讀得到字幕…用OCR也掃描得到…

謝謝!

#157

cch

cch圖像(預設)

2026-03-07 17:43:53

From：114.24.254.224

請問：可以播放別人的串流影音，同時報讀自己的字幕檔嗎？

例如：報讀AI的口述影像字幕。
Google AI Studio
https://aistudio.google.com/prompts/new_chat
提示詞：

角色設定：你是一位專業的「口述影像」(Audio Description, AD) 撰寫員，專門為視障人士提供視覺訊息轉譯服務。
任務描述：請根據用戶上傳的影片內容，在不干擾原有對白 (Dialogue) 與關鍵音效的前提下，精準描述畫面中的動作、場景、表情、服飾及螢幕文字。特別注意描述的層次感，先交代構圖背景，再聚焦主體細節。
輸出格式要求：

必須嚴格遵守 SubRip (.srt) 字幕格式。

時間軸必須對齊畫面變動點，且僅出現在「對白間隙」。

語言風格：客觀、簡潔、生動。

描述準則：

場景 (Setting)：描述環境變化、光影氛圍。需包含鏡頭遠近（如：全景、特寫）與空間構圖，確保視障者能建立空間方位感。

動作 (Action)：描述人物的具體移動或手勢，不加入主觀猜測。著重描述動作的節奏與方向性（如：緩慢地轉向鏡頭、猛力揮動右手）。

外貌 (Appearance)：描述角色衣著、關鍵體徵與面部表情。強化微表情描述（如：抿嘴、眉頭微蹙）與服飾細節（如：粗糙的麻布大衣、深紫色的絲綢質地）。

圖文 (On-screen Text)：讀出畫面出現的標題、地點標註或簡訊內容。須區分文字屬性（如：底部跑馬燈、畫面正中央的大標題、人物手機螢幕上的通知文字）。

[串流影音]
2026新北燈會！「勁馬奔騰」主燈展演秀原音版！15公尺高、360度全景環繞結構的巨型紅寶馬！New Taipei City Lantern Festival Main Lantern／馬年新年快樂！ - YouTube
https://www.youtube.com/watch?v=-pxOLO9h-ik&pp=ygUG54eI5pyD0gcJCa4KAYcqIYzv

AI生成結果：
1
00:00:00,500 --> 00:00:03,000
夜幕低垂，全景呈現一座巨大的駿馬造型花燈。頂端一匹前腿高舉的紅馬率先發光，底座周圍緩緩噴出白煙。

2
00:00:22,500 --> 00:00:25,500
伴隨清脆的音效，底座高聳的假山瞬間亮起神秘的藍色光芒。

3
00:00:27,000 --> 00:00:37,000
鏡頭維持全景，視線聚焦於花燈細節。假山上錯落點綴著幾匹小馬、發光的雲朵與蝴蝶。數道黃色與藍色的雷射光束從底座猛然向夜空斜射。

4
00:00:45,000 --> 00:00:55,000
假山主體燈光緩慢且流暢地變換色彩，由深藍轉為紫紅，再漸變為青綠。白煙持續從山間向四周瀰漫，擴展了視覺的空間層次。

5
00:01:28,000 --> 00:01:45,000
音樂節奏轉為輕快，山腰處一匹前腿騰空的黃色小馬亮起。最下方的長方形螢幕點亮，顯示出藍色漸層背景，伴隨白色祥雲緩緩飄動的動畫圖案。

6
00:02:46,000 --> 00:02:56,000
下方的長方形螢幕動畫切換，轉為熱烈的橘紅色背景。畫面上出現金黃色駿馬奔騰的剪影與祥雲圖騰，保持相同節奏持續向左方移動。

7
00:03:10,000 --> 00:03:20,000
螢幕動畫再次變換，化為絢麗的紫紅色調，中央綻放出宛如煙火般的放射狀圖案，色彩斑斕且充滿強烈的動態感。

8
00:03:33,000 --> 00:03:47,000
螢幕底色轉為深紅，上下飾有白線。畫面正中央由左至右依序浮現出白色大字的活動標題：「2026 勁馬奔騰 ‧ 新北Hi Light」，最左側配有一匹奔馳的白馬圖示。

9
00:04:03,000 --> 00:04:08,000
全景定格於這座光彩奪目的主燈，雷射光束與煙霧在黑夜中交織，整座花燈持續閃耀著繽紛光芒，氣勢磅礴。

我遇到的困難[字幕組躹躬道歉]：
下載影音、做成字幕檔，用PotPlayer 64 bit播放都没問題。
改要在線上報讀時，
我用Google Chrome的擴充功能
Movie Subtitles - Chrome Web Store
https://chromewebstore.google.com/detail/movie-subtitles/ifimcneililngppkpddcliecbpcgdjag?hl=pl
用別人的字幕檔都很正常…只是方向鍵要上下移動才讀得到字幕…用OCR也掃描得到…
但
用AI生成的字幕…
卻顯示：
Damaged subtitle file! Please, try another one!

#156

iori86

iori86圖像(預設)

2024-12-01 00:05:28

From：182.233.110.177

回maxe 可以了！感謝

#155

Maxe

Maxe圖像(預設)

2024-11-29 11:36:12

From：211.23.21.202

回復 @iori86 目前測試是可以的喔

#154

iori86

iori86圖像(預設)

2024-11-28 13:20:16

From：182.233.110.177

想是否可以讓NVDA自動閱讀netflix的字幕？目前第一次用只能用手動的方式閱讀

#153

小羔羊

小羔羊圖像(預設)

2024-10-03 09:56:25

From：114.34.122.250

貌似是因為作者沒有在訂閱Disney，所以關於Disney已經停止維護了

#152

T.Y.

T.Y.圖像(預設)

2024-09-14 13:44:57

From：14.199.103.120

報告一下，+現在Disney+網頁內用不到字幕閱讀器。不過似乎福恩老師沒再看無法更新了？

#151

Maxe

Maxe圖像(預設)

2024-06-24 16:01:22

From：211.23.21.202

回復 #150 沒錯，動畫風無法，要是可以的話就有一堆可以看了，也能方便的跟同步視聽了

[分享] 字幕閱讀器（支援 Netflix, Disney+, Youtube, KKTV 等影音平台） - 討論區