[分享] 字幕閱讀器(支援 Netflix, Disney+, Youtube, KKTV 等影音平台) - 討論區

[分享] 字幕閱讀器(支援 Netflix, Disney+, Youtube, KKTV 等影音平台)

文章瀏覽次數 18838 文章回覆數 165

Maxe

Maxe圖像(預設)

2020-06-20 23:03:19

From:36.230.118.210

字幕閱讀器

下載

按這裡下載

協作此專案

請到這裡


簡介

在您使用瀏覽器觀看影片時,協助 NVDA 在頁面上找出影片的 CC 字幕,並讓 NVDA 及時以語音報讀及點字呈現。


更新日誌

V2.4, 2022.5.26

版本代號: Friends

新增項目
  1. 新增 WikiMedia Commons 的字幕支援。
    測試影片:Emily Temple-Wood
    測試方式:點選連結,進入頁面之後,按下 Play Media 按鈕,然後在 Captions 功能表選擇字幕語言。
    感謝來自香港的朋友 T.Y. 的提案,雖然這裡看起來中文字幕的影片還太少,但願未來能夠繼續增加。

V2.33, 2022.5.23

版本代號:約定的天空

修正巷木
  1. 修正 Disney+ 無法閱讀字幕的問題。
    測試影片:冰雪奇緣2

V2.32, 2022.5.22

版本代號:夢中的世界

新增項目
  1. 現在可以從《字幕閱讀器》功能表開啟更新日誌檔案,預防更新時沒看到日誌的狀況。
修正巷木
  1. 在以下影片發現字幕被重複朗讀的問題,原因是此影片連續出現兩次多行字幕,而兩次出現的字幕,各只有其中一行相同而沒有忽略相同內容所導致。
    所以現在起,加入使用字幕的每一行來尋找相同點的功能。
    影片:《 Embrace 》 復甦島2主題曲 Official Music Video|Leggy、Paroto|玩樂幫
    P.S: 追隨卡蜜拉!~~

V2.31, 2022.4.4
新增項目
  1. 字幕閱讀器,現在會朗讀 Netflix 的預覽影片,通常預覽影片會出現在選擇影片級數的對話框。
修正巷木
  1. 修正當意外抓不到字幕時,會誤判字幕已經消失,導致相同字幕被不斷朗讀的錯誤。
    發現此問題的影片:secret base ~你給我的東西~(10 years after Ver.)

V2.3, 2022.4.3
修改項目
  1. 字幕閱讀原則修改:若新的字幕內容是前一字幕開頭的一部分,則不在報讀。
  2. 嘗試讓字幕閱讀器附加元件縮小。
修正巷木
  1. 修正 Netflix 偶爾會重複朗讀多行字幕的全部或一部分的錯誤。
  2. 修正沒有字幕時,經過 1 秒鐘沒有清除當前字幕紀錄的錯誤。

V2.23, 2022.3.29
新增項目
  1. 新增相容性代碼,提前支援 NVDA2022.1.
  2. 說明檔案新增字幕閱讀器的 NVDA 相容性說明。

V2.22, 2022.3.27
新增項目
  1. 新增中文 - 香港說明檔案。
  2. 逐步開始新增一些偵錯資訊,事件紀錄在資訊等級不會記錄他們。
修正巷木
  1. 修正 Disney+ 無法閱讀字幕的錯誤。
  2. 修正字幕閱讀器本身的文字錯誤。

V2.2, 2022.3.22
新增項目
  1. 新增 Netflix 字幕支援。
    測試影片:庫洛魔法使:透明牌篇 - 小櫻和兔子和月之歌
    P.S 透明牌篇之後的內容啥時候要出啦啦啦!
修改項目
  1. 啟動時檢查更新:改為自動檢查更新,其行為除了在字幕閱讀器啟動時檢查更新,同時也在一天後再次檢查更新。
    但若一天後的最新版本與啟動時檢查的最新版本相同,則不再詢問使用者是否需要更新。

V2.11
新增項目
  1. 發現新版本之後,其版本號現在顯示在新版資訊的視窗標題。
  2. 加入簡體中文的說明檔案。
修正巷木
  1. 修正 Disney+ 影片播放器全螢幕時不讀字幕的錯誤。
  2. 修正 Disney+ 非中文台灣語言介面不讀字幕的錯誤。

V2.1, 2022.2.1
新增項目
  1. 新增 Brave 瀏覽器支援(感謝 Kevin Lin 的提案)。
    P.S 我真的把他給忘了。
  2. 在 github 建立專案
修改項目
  1. 更換自動更新的 server 端。
    P.S 之前的 server 端很不穩定,如果下載失敗的話,請手動到 NVDA 台灣 下載。
  2. 補充 readme 檔案內容。
修正巷木
  1. 修正 Edge 不獨字幕的問題。
    P.S 沒有人發現,真是太棒了!

V2.0, 2022.01.26
新增項目
  1. 本次更新亮點:新增 Disney Plus 字幕支援。感謝遊戲創作團隊成員 Serena 的提案。
    我的測試影片:魔法滿屋
  2. 新增自動檢查更新的功能。
    P.S 我在自動更新當中加入很多魔法音效,沒錯我很無聊。
修改項目
  1. 「Youtube 字幕閱讀器」已改名為「字幕閱讀器」。
    重要:為避免附加元件衝突,請將 Youtube 字幕閱讀器移除在安裝此附加元件。
  2. 以新學的設計模式,嘗試拆散代碼至多個檔案。
    P.S 你們相偎相依,我看了不開心。
正式版本 V1.0
新增項目
  1. 新增網站(唱歌學日語 Marumaru )網站的字幕支援
    點擊以下連結,進入我用來測試的歌曲頁面,然後按 b 直接找到內嵌的 Youtube 影片當中的撥放按紐,點選以撥放影片並聽讀字幕。
    我的測試歌曲:群青
    P.S 此功能原本是為了我喜歡一邊聽日文歌一邊聽字幕而做,所以目前只尋找中文字幕來閱讀,並沒有閱讀日文字幕。且這個功能已經偏離此附加元件的主題了,所以就不再說明書上編寫相關說明了,就當作此附加元件的小彩但吧。
  2. 新增 Microsoft Edge 支援(感謝 Eureka 提供參考代碼)。
  3. 新增 NVDA2021 支援(感謝我們的遊戲創作團隊成員 Serena 協助測試 NVDA 最新版本相容性。
修正巷木
  1. 修正當影片長度超過一天時,自動閱讀章節的閱讀內容錯誤。
Beta5
新增項目
  1. 新增自動閱讀當前章節的功能。
    注意:由於 NVDA 並不會時時更新元件的 value 屬性資訊,所以此功能只在案左右方向鍵快進快退時能絕對準確的閱讀章節。
修改項目
  1. 針對一部影片進行以下調整:
    1. 刪除字幕中出現的一個可能適用於視覺效果的符號。
    2. 調整當畫面上沒有字幕時,必須經過一秒鐘,才會清除 Youtube 字幕閱讀器的字幕緩衝區。
    3. 當多行字幕當中,兩行字幕相同時,將忽略重複的一行字幕。
    4. 此次更新所針對的影片:ニャタタリズム(貓踏踏的節奏)

Beta4
修正巷木
  1. 修正 Youtube 網頁更新,導致 NVDA 找不到字幕的問題。

Beta3
新增項目
  1. 新增資訊卡音效提示,音效來源為 Youtube 工作室。
  2. 完成測試並新增 NVDA Python3 支援。

Beta2
新增項目
  1. 新增多行字幕支援。
  2. 新增閱讀字幕的開關,預設快速鍵為 NVDA+y 可在輸入手勢中更改。
  3. 新增填充字幕規則,例如當前字幕為 (abc), 下一行字幕為 (abcdef), 則在下一行字幕出現時, NVDA 只讀出補充的 (def).
  4. 新增說明文件

修改項目
  1. 每次尋找字幕的間隔,從 5 毫秒改為 100 毫秒,減低壓力。
  2. 現在,尋找字幕元件的方式改為元件 id 識別,避免 NVDA 讀取到資訊卡並將資訊卡誤認為字幕。
  3. 現在,若影片當前沒有字幕,則清除字幕緩衝區,因此,當下一行字幕與被清除前的字幕相同時可再次閱讀。

修正巷木
  1. 修正當字幕為空白或只有換行符號時, NVDA 會讀出空行的錯誤。
  2. 修正 Firefox 將字幕的每個文字拆分成多個元素,導致 NVDA 只讀字幕第一個字的錯誤

Beta1

第一個公開測試版本


說明

特色
  • 支援 Netflix, Disney+, Youtube, MaruMaru 等網站
  • 支援常用瀏覽器。
  • 自動尋找網頁上的 CC 字幕。
  • 語音與點字回饋。
  • 自動檢查更新
  • 快速開關功能

操作方式

使用瀏覽器,開啟支援的網站,並點選提供 CC 字幕的影片,接著將焦點移至影片播放器的範圍,即可聽見或在點顯器摸讀字幕。
若想暫停字幕回饋,可關閉 NVDA 語音輸出,在播放器關閉字幕,或是按下 NVDA+y 停止回饋。


NVDA 相容性

字幕閱讀器正在嘗試支援所有版本的 NVDA, 目前測試的最舊版本為 2019.2.1.


支援的瀏覽器

以下列出字幕閱讀器支援的瀏覽器與經過測試的最新版本:

  • Google Chrome (97.0.4692.99 (正式版本) (64 位元))
  • Mozilla Firefox (77.0.1(64 位元))
  • Microsoft Edge (97.0.1072.76 (官方組建) (64 位元))
  • Brave (1.34.81 Chromium: 97.0.4692.99 (正式版本) (64 位元))

快速鍵

以下列出預設的快速鍵及其對應功能,所有快速鍵皆可在 NVDA 的輸入手勢設定當中更改。

  • NVDA+y: 開關字幕閱讀器

注意事項
  1. 字幕閱讀器只在上方列出的瀏覽器可用。
  2. 焦點必須停留於影片播放器當中才能聽讀字幕,通常可見影片當前時間、音量,以及對影片播放進行設定的控制項,都屬於影片播放器的範圍。
  3. 請確認該影片是否有提供 CC 字幕,若有提供 CC 字幕,則可使用瀏覽模式,找到動態出現的字幕文字。
  4. 若網站更新了播放介面,則字幕閱讀器將會失效,請等待字幕閱讀器更新,或是使用下方的連絡資訊與我聯絡。

聯絡資訊

若您在使用上有任何問題或建議,歡迎從下方清單中選擇聯絡方式與我聯絡。

  • Skype:
    p15937a
  • Facebook:
    個人檔案
  • NVDA 台灣 討論區:
    [分享] 字幕閱讀器 - 討論區  |   NVDA 台灣
    ※最後更新時間:2022-03-22 02:12:42 From:36.230.4.249 By:Maxe
    ※最後更新時間:2022-03-22 15:09:51 From:211.23.21.202 By:Maxe
    ※最後更新時間:2022-03-29 13:26:07 From:211.23.21.202 By:Maxe
    ※最後更新時間:2022-05-23 00:53:35 From:36.230.207.16 By:Maxe
    ※最後更新時間:2022-05-24 09:21:35 From:211.23.21.202 By:Maxe
    ※最後更新時間:2022-05-26 01:06:22 From:36.230.207.16 By:Maxe
    ※最後更新時間:2022-09-21 00:09:35 From:36.230.220.215 By:Maxe

留言

#165

cch

cch圖像(預設)

2026-03-25 12:09:27

From:114.24.249.16

把它消音呀[不負責任]
我有叫AI做一個附加元件,有三個功能:

  1. 不斷地按向上鍵。
  2. 遇到重複的就消音。
  3. 聽到"空白"就消音。
    看來要加第4點啦…
    ------我是分隔線-------

後來我手賤,把老師們的附加元件解開,取出PY檔的程式碼給AI看…

我把網頁存成記事本:NVDA 官方開發者指南,上傳給AI。
NVDA 2025.3.3 Developer Guide
https://download.nvaccess.org/documentation/developerGuide.html

Q:
/p請遵照我上傳的NVDA 官方開發者指南。
以下程式碼我覺得還不夠好,你覺得可以往哪些方向優化才能變得更好?請列出選項讓我選。
【給 AI 的嚴格優化指令】
在幫我優化下方程式碼、或是後續我提出修改要求時,請務必把我的上一版程式碼當作「絕對底稿」。你只能在原來的文字與架構上進行「增補或微調」,絕對禁止打掉重寫、禁止改變原本的排版、禁止遺漏我原本的任何設定。
【需要優化的程式碼】
(在此貼上您的程式碼...)
「」
Q:
除了優化,還有哪些新增功能建議供我選擇?現在程式的Youtube 相關設定已經有:閱讀聊天室(R)、閱讀聊天室訊息發送者(A)、僅閱讀管理員訊息(M)、閱讀會籍贈送(G)、閱讀聊天室時掠過圖片名稱(G)、資訊卡提示(I)、等選項。
AI:
根據 NVDA 2025.3.3 官方開發者指南 中關於用戶導航(Object Navigation)與內容呈現(Reporting Content)的規範,針對您的 Youtube 腳本,我建議可以新增以下功能選項,以提升視障使用者在觀看直播或影片時的互動體驗:

選項 1:聊天室訊息類型過濾 (Message Type Filtering)

  • 功能名稱: 僅閱讀提問(Q&A)或超級留言(Super Chat)。
  • 技術原理: 利用 IA2Attributes 偵測 yt-live-chat-paid-message-renderer 等特定類別。
  • 實用性: 當直播訊息過多時,使用者可以只關注付費留言或創作者發出的置頂訊息。

選項 2:自動朗讀影片統計資訊 (Auto-Reporting Stats)

  • 功能名稱: 定期朗讀當前觀看人數或點讚數。
  • 技術原理: 定時掃描 idview-countfactoid 的元件,並在數值發生重大變化時透過 ui.message 提醒。
  • 實用性: 讓使用者在全螢幕或專注聽講時,不必切換焦點也能掌握直播熱度。

選項 3:動態進度與緩衝提示 (Playback & Buffering Alerts)

  • 功能名稱: 朗讀影片緩衝狀態或播放速率變更。
  • 技術原理: 監測 movie_player 容器的屬性變化,當影片因網路問題暫停(Buffering)或使用者誤觸變速時發出提示音。
  • 實用性: 符合指南第 3.1 節關於「狀態變更事件」的處理,提升操作透明度。

選項 4:更精細的聊天室「時間戳記」開關 (Timestamp Toggling)

  • 功能名稱: 朗讀聊天訊息發送時間。
  • 技術原理:onFoundChatObject 中尋找 idtimestamp 的子物件並提取 name
  • 實用性: 幫助使用者確認訊息的時效性,特別是在回放錄影(VOD)時區分當下訊息與歷史訊息。

選項 5:智能跳轉與地標導航 (Enhanced Landmarks)

  • 功能名稱: 快速跳轉至「聊天室輸入框」或「影片播放器」。
  • 技術原理: 註冊熱鍵(如 scripts),直接將系統焦點 (Focus) 移至您代碼中 getVideoPlayer()getChatContainer() 找到的物件。
  • 實用性: 大幅減少使用者使用 Tab 鍵在 Youtube 複雜頁面中切換的時間,符合開發者指南中優化導航效率的建議。

您對以上哪一項功能感興趣?或者您有特定的互動需求(例如針對某個特定擴充功能)想加入?
------我是分隔線-------

我想講的是另一位冨樫老師的作品…
(謝老師的光PY檔我略數就近30個,我剛只上傳一個youtube.py[累]。再者,謝老師有在更新,而且,有求必應[合掌])
Lion live-1.15(自动OCR,方便阅读字幕、游戏等动态内容的插件) - NVDA 中文站
https://www.nvdacn.com/index.php/archives/861/
除了優化,當然還介面繁中化
才發現兩個好像很有用的(OCR 對象: 導航物件是本來原作都者就有放的)
(本來是分享程式比較快,但…我真的不會程式碼,誰知道AI寫了什麼?想要我的財寶嗎?想要的話就送給你吧!自己去找吧,我把全世界的寶藏都埋藏在那裡了[海盜黨])
Q:
除了優化,還有哪些新增功能建議供我選擇?
AI:
既然您已經完成了基礎程式碼與介面的優化,根據《NVDA 官方開發者指南》中關於「視覺障礙輔助技術」的進階規範,我為您的 LION 插件提煉出以下幾個功能增強 (Feature Enhancements) 建議。

這些功能能顯著提升即時掃描的實用性與使用者體驗:


選項 1:語音與音效回饋強化 (Feedback Customization)

目前的插件僅使用 ui.message 和簡單的 beep。根據指南關於 tonesui 模組的應用:

  • 掃描狀態音效 (Scanning Tones): 增加「掃描中」的微弱背景滴答聲(使用 tones.beep 低頻率短音),讓使用者知道插件仍在運作,而非死機。
  • 語音優先級設定: 讓使用者選擇 OCR 結果是使用 ui.message(會打斷當前朗讀)還是 core.lastStackTrace 類型的背景提示。

選項 2:智慧型文字過濾與處理 (Smart Text Processing)

目前的 raw_text != "Play" 屬於硬編碼過濾,可以擴充為:

  • 正則表達式過濾 (Regex Filtering): 在設定介面增加一個欄位,讓使用者輸入想要過濾掉的常見雜訊(例如:時間戳記、特定浮水印文字)。
  • 自動語言偵測: 結合 Windows.Media.Ocr 的語言包,自動切換辨識語系(例如:中英混讀模式),這在《指南》的國際化章節中有相關建議。

選項 3:座標錨點與區域預設存取 (Region Presets)

目前的裁切是百分比制,可以增加「場景感知」功能:

  • 特定視窗自動裁切: 增加一個「自動偵測視窗標題」的功能。當使用者切換到特定的應用程式(如:某款遊戲或某個影片播放器)時,插件自動載入該視窗專屬的裁切比例。
  • 滑鼠位置掃描: 增加一個模式,以滑鼠游標為中心,掃描周圍 200x200 像素的範圍,這對於查看複雜 UI 的局部資訊非常有用。

選項 4:OCR 結果的後續操作 (Post-Recognition Actions)

辨識出文字後,除了讀出來,還可以:

  • 自動複製到剪貼簿: 增加一個選項,當辨識出新文字時,自動存入剪貼簿,方便使用者後續貼到翻譯軟體或筆記本。
  • 虛擬導航模式: 將 OCR 辨識出的文字與座標結合,建立一個「虛擬視窗」,讓使用者可以用 NVDA 的方向鍵在辨識出的文字間移動(模擬真正的物件導航)。

您對哪一個方向感興趣? 如果您選擇其中一項,我將為您撰寫符合「絕對底稿」原則的增補程式碼。


您希望我接下來為您實作哪一項功能?
Q:
請再詳細介紹以下兩種功能視障者在日常生活的應用:
OCR 對象: 導航物件
OCR 對象: 滑鼠周圍 (200x200)
AI:
這兩種模式的設計初衷,是為了解決視障者在操作電腦時最常遇到的兩種困境:「看得到框卻讀不到內容的介面」以及「完全沒有焦點規律的雜亂畫面」

以下詳細介紹它們在日常生活中的實際應用場景:


1. OCR 對象:導航物件 (Navigator Object)

核心邏輯: 鎖定 NVDA 當前指向的那個「小框框」。

日常生活應用場景:

  • 破解「未標籤按鈕」:
    許多老舊軟體或自行開發的公文系統,按鈕上只有一張印著「存檔」或「列印」字樣的圖片,NVDA 只會讀「按鈕」。
    • 操作: 您只要把導航物件移到該按鈕,開啟 LION,它就會只針對那個按鈕的小範圍進行辨識,讀出「存檔」。這比全螢幕掃描快且精準。
  • 閱讀「圖片式選單」:
    有些點餐系統或工具軟體的左側選單是由小圖示組成的。
    • 操作: 當您按 NVDA + 小鍵盤 4/6 移動導航物件到選單項時,LION 會即時報讀該選項的文字圖標內容,讓選單變得可導航。
  • 檢查特定欄位的輸入狀態:
    在填寫表單時,有些錯誤提示會出現在輸入框旁邊,但它不是焦點,NVDA 讀不到。
    • 操作: 您可以把導航物件移到輸入框旁邊的「驚嘆號」圖示上,LION 就能讀出隱藏的錯誤訊息文字(如:密碼格式錯誤)。

優點: 範圍最小、雜訊最少、速度最快,適合「定點爆破」那些讀不到的介面元件。


2. OCR 對象:滑鼠周圍 (200x200)

核心邏輯: 以滑鼠游標為中心,掃描半徑約 100 像素的方形區域(約佔螢幕一小塊)。

日常生活應用場景:

  • 「摸索」複雜的網頁或遊戲畫面:
    有些網頁(如:股票看盤軟體、複雜的儀表板)文字非常密集,且沒有標準的物件結構。
    • 操作: 您可以移動滑鼠,像拿著手電筒在黑夜中照亮一小塊區域一樣。當滑鼠滑過某個數據或圖表時,LION 只會讀出「滑鼠指著的那一區」的文字,這能幫助視障者建立畫面的空間感(例如:知道「餘額」是在右上方)。
  • 查看「懸浮提示文字」(Tooltip):
    當滑鼠停在某個圖標上時,系統常會彈出一個小黃框提示。這些提示通常消失得很快,且 NVDA 有時抓不到。
    • 操作: 設定為滑鼠模式,當您感覺滑鼠停在某處有東西彈出時,LION 會立即抓取滑鼠周圍的區域讀出提示內容。
  • 影片字幕即時捕捉:
    如果您在看 YouTube 或 Netflix,字幕位置通常固定在下方。
    • 操作: 您可以把滑鼠停在畫面下方中央。當影片播放時,LION 就會持續掃描滑鼠指著的那個小區域。因為區域小(只有 200x200),辨識速度會比「全螢幕」快得多,延遲感更低,聽起來更流暢。

優點: 直覺、具備空間導引功能,適合處理「非結構化」或「隨機出現」的文字資訊。


模式對照表總結

功能名稱 視障者的操作隱喻 最佳用途
導航物件 「顯微鏡」:鎖定現有的元件 破解標籤不明確的按鈕、清單、對話框。
滑鼠周圍 「手電筒」:照亮指到的地方 摸索位置不明的文字、讀字幕、查看懸浮提示。

#164

Maxe

Maxe圖像(預設)

2026-03-18 21:10:58

From:111.249.169.69

回復 @cch 這個擴充功能比較特別的是,他會把多長時間沒有字幕顯示出來,我有找到 Silence Indicator 不知道是否跟這個有關,也不知道怎麼開關他。

#163

cch

cch圖像(預設)

2026-03-18 17:47:45

From:111.241.244.168

感恩老師讚歎老師!!!
剛才更新、測試Yt成功。

#162

cch

cch圖像(預設)

2026-03-11 12:34:33

From:61.58.97.45

昨晚閒閒没事抓一集小新試試看~
結果ai口述影像裡居然没小新!!以我幾十年聽圖猜故事的功力,只聽AI敍述,還聽不太懂!?[心裡涼了半截,睡覺還找了襪子穿]
我想該是:字幕姐組出場鞠躬道歉的時候了!!
趁星期五前,剛才修改了提示詞。
Google Gemini
https://gemini.google.com/app
(只是修改提示詞,用快捷 回覆快速就可以了)
我有兩組有關提示詞的提示詞(抄來的)
提示詞(創作用的:
我想讓你成為我的Prompt創作者。你的目標是幫助我創建最佳的Prompt,這 個Prompt將由你使用。你將遵循以下過程:

  1. 首先,你會問我Prompt是關於什麼的。我會告訴你,但我們需要通過不斷的重 復來改進它,通過則進行下一步。

  2. 根據我的輸入,你會創建三個部分:

(1)修訂後的Prompt(你編寫修訂後的Prompt,應該清晰、精確、易於理解)

(2)建議(你提出建議,哪些細節應該包含在Prompt中,以使其更好)

(3)問題(你提出相關問題,詢問我需要哪些額外信息來改進Prompt)

  1. 你提供的Prompt應該採用我發出請求的形式。

  2. 我們將繼續這個迭代過程,我會提供更多的信息,你會更新「修訂後的 Prompt」部分請求,直到它完整為止。

  3. 接下來的多輪對話中,我們的任務是共同完善底下的Prompt。當我要求修改時,請嚴格遵守「版本記憶與疊加修改原則」:每一次的輸出都必須完整繼承上一個版本的全部文字與規則,僅針對我要求的部分進行新增或修正,不得擅自刪減既有設定。
    ---我是分隔線---
    之前就只輸入(那時還跑去問AI:說電影的服務叫什麼哩!):
    由AI根據我上傳的影片來口述影像」(Audio Description,簡稱 AD)。
    • 核心功能:由AI在影片對白、音效的間隙,描述畫面中的動作、場景、表情、服飾及圖形等關鍵訊息,將視覺影像轉化為語言。
    產生的結果必須符合字幕檔格式。
    ---我是分隔線---
    提示詞(修改用的):
    以下提示詞我覺得還不夠好,你覺得可以往哪些方向優化才能變得更好?請列出選項讓我選。
    【給 AI 的嚴格優化指令】
    在幫我優化下方提示詞、或是後續我提出修改要求時,請務必把我的上一版提示詞當作「絕對底稿」。你只能在原來的文字與架構上進行「增補或微調」,絕對禁止打掉重寫、禁止改變原本的排版、禁止遺漏我原本的任何設定。
    【需要優化的提示詞】
    (在此貼上您的提示詞...)
    「」-------
    ---我是分隔線---
    小技巧:提示詞是可以修改的,以符合需求。
    像剛才我是改成:
    以下提示詞不干擾原有對白 (Dialogue) 與關鍵音效的前提我覺得還不夠好,我想取消它,你覺得可以往哪些方向優化才能變得更好?請列出選項讓我選。
    也可以改成:
    以下提示詞語言風格部份我覺得還不夠好,我喜歡芙莉蓮風格,你覺得可以往哪些方向優化才能變得更好?請列出選項讓我選。
    也可以:
    我是國中二年級的老師…
    要提示詞跌代的話:
    請繼續提供優化方向
    (選擇也很累耶~萬一選錯…編輯提示詞按下去就好了咩)
    ---我是分隔線---
    剛才新生成的提示詞(還是修改成自己的形狀比較適合喔:

    角色設定:你是一位專業的「口述影像」(Audio Description, AD) 撰寫員,專門為視障人士提供視覺訊息轉譯服務。
    任務描述:請根據用戶上傳的影片內容,精準捕捉對白間隙 (Audio Gaps) 並根據空隙時長彈性調整描述密度,在不干擾原有對白 (Dialogue) 與關鍵音效的前提下,精準描述畫面中的動作、場景、表情、服飾及螢幕文字。執行時須遵循訊息權重:優先交代構圖背景與關鍵動作(如:方向性與節奏),再隨時長填補表情與服飾細節,確保 AD 與背景音聲軌和諧共存。此外,須維持空間方位的一致性描述(如:主體在前一鏡頭位於左側,後續描述須以此為座標系)。
    輸出格式要求

    1. 必須嚴格遵守 SubRip (.srt) 字幕格式。
    2. 時間軸必須對齊畫面變動點,且僅出現在「對白間隙」。
    3. 語言風格:客觀、簡潔、生動。嚴禁使用虛詞(如:可以看到、畫面中顯示、現在是...),直接描述具體物象。語氣需隨畫面情感起伏調整:緊張戲使用短促句,文戲使用細膩長句。

    描述準則

    • 場景 (Setting):描述環境變化、光影氛圍。精確區分推拉鏡頭 (Zoom/Dolly) 與橫移 (Pan/Tilt) 以界定敘事焦點,並包含鏡頭遠近(如:全景、特寫)與空間構圖,確保視障者能建立空間方位感。
    • 動作 (Action):描述人物的具體移動或手勢,不加入主觀猜測。著重描述動作的節奏與方向性(如:緩慢地轉向鏡頭、猛力揮動右手)。
    • 外貌 (Appearance):描述角色衣著、關鍵體徵與面部表情。強化微表情描述(如:抿嘴、眉頭微蹙)與服飾細節(如:粗糙的麻布大衣、深紫色的絲綢質地)。
    • 圖文 (On-screen Text):讀出畫面出現的標題、地點標註或簡訊內容。須區分文字屬性(如:底部跑馬燈、畫面正中央的大標題、人物手機螢幕上的通知文字)。

---我是分隔線---

AI字幕這次就不貼了…
因為
那集主角是廣志,小新根本没出場[手遮臉]
回報:
Movie Subtitles可以顯示字幕。

#161

Maxe

Maxe圖像(預設)

2026-03-10 09:06:11

From:211.23.21.202

我週五嘗試如果失敗的話再來抓問題,如果成功的話那我也不知道原因出在哪了

#160

cch

cch圖像(預設)

2026-03-09 19:28:44

From:118.165.178.47

那就要拜託謝老師了!!
不過,
如果老師是要透過擴充功能來報讀字幕,那就要考慮擴充功能會不會挑字幕檔了吧!?
前天我試過AI口述3個較短的YT影片都不行,
把不行的和可以的(別人的)檔案丟給AI問,記事本5個編碼都試過、AI自己改過兩次內容(没試過新生成喔)…
早上用霍去病的又可以了
剛才同樣步驟重試新北燈會,還是不行…

#159

Maxe

Maxe圖像(預設)

2026-03-09 14:56:24

From:211.23.21.202

回復 @cch 很有用的擴充功能,我會嘗試看看是否能夠加入字幕閱讀器的支援。
另外你的字幕解析失敗,有沒可能真的有格式錯誤,或者有編碼問題,而 Pot Player 比較寬鬆。
週五我會用這個擴充功能,在 YT 追一級芙莉蓮試試看。

#158

cch

cch圖像(預設)

2026-03-09 05:22:49

From:118.165.178.47

請問:可以播放別人的串流影音,同時報讀自己的字幕檔嗎?

例如:報讀AI口述影像字幕。
Google AI Studio
https://aistudio.google.com/prompts/new_chat
提示詞:

角色設定:你是一位專業的「口述影像」(Audio Description, AD) 撰寫員,專門為視障人士提供視覺訊息轉譯服務。
任務描述:請根據用戶上傳的影片內容,在不干擾原有對白 (Dialogue) 與關鍵音效的前提下,精準描述畫面中的動作、場景、表情、服飾及螢幕文字。特別注意描述的層次感,先交代構圖背景,再聚焦主體細節。
輸出格式要求

  1. 必須嚴格遵守 SubRip (.srt) 字幕格式。
  2. 時間軸必須對齊畫面變動點,且僅出現在「對白間隙」。
  3. 語言風格:客觀、簡潔、生動。

描述準則

  • 場景 (Setting):描述環境變化、光影氛圍。需包含鏡頭遠近(如:全景、特寫)與空間構圖,確保視障者能建立空間方位感。
  • 動作 (Action):描述人物的具體移動或手勢,不加入主觀猜測。著重描述動作的節奏與方向性(如:緩慢地轉向鏡頭、猛力揮動右手)。
  • 外貌 (Appearance):描述角色衣著、關鍵體徵與面部表情。強化微表情描述(如:抿嘴、眉頭微蹙)與服飾細節(如:粗糙的麻布大衣、深紫色的絲綢質地)。
  • 圖文 (On-screen Text):讀出畫面出現的標題、地點標註或簡訊內容。須區分文字屬性(如:底部跑馬燈、畫面正中央的大標題、人物手機螢幕上的通知文字)。

串流影音:
《AI電影_霍去病_完整版_製作成本3000元人民幣》#GamePlayLife #遊玩人生 #不正常電玩研究中心 #UVGRC #霍去病 #AI電影 #完整版
https://www.youtube.com/watch?v=BtSLh8RVRIM

AI生成結果:
1
00:00:01,000 --> 00:00:06,000
木門被猛力撞碎,火光沖天。全景畫面中,身穿粗糙獸皮與麻布的游牧騎兵,揮舞著彎刀衝入村落。

2
00:00:15,500 --> 00:00:20,500
特寫鏡頭,一名騎兵拉弓放箭,射中抱著嬰兒的婦女背部。婦女絕望倒地。

3
00:00:35,000 --> 00:00:40,000
騎兵在燃燒的茅草屋前放肆大笑,露出泛黃的牙齒。地面上,一名滿臉鮮血的老翁痛苦爬行。

4
00:00:47,000 --> 00:00:52,000
夜色中,一隻沾滿鮮血的手緊抓韁繩。隨後轉為白天全景,一名信使騎馬衝入宏偉的紅牆宮殿大門。

5
00:00:57,500 --> 00:01:03,000
信使從馬上摔落,跌在石階前。特寫鏡頭,他趴在地上吐血,手邊落下一卷染血的竹簡,上面插著一根羽毛。

6
00:01:06,000 --> 00:01:12,000
全景展現莊嚴的木造朝堂,陽光從側邊傾灑。兩側站滿身穿深色朝服的文臣與披著厚重鐵甲的武將。

7
00:01:18,000 --> 00:01:22,000
特寫鏡頭,身穿黑底紅邊龍袍的漢武帝眉頭緊鎖,右手猛力拍擊金色的龍椅扶手。

8
00:02:00,000 --> 00:02:04,500
一名年輕將領大步出列。他身穿精緻的紅纓銀甲,眼神堅毅,雙手抱拳。

9
00:02:48,500 --> 00:02:51,500
畫面特寫一塊放置在黑石磚上,刻著文字的銅製虎符。

10
00:03:20,000 --> 00:03:26,000
將領們俯身指著泛黃的羊皮地圖。畫面下方浮現字幕:「公元前119年 漢武帝決意徹底根除匈奴百年邊患 發動漢匈戰爭史上規模空前的漠北決戰」。

11
00:03:26,500 --> 00:03:32,000
俯瞰全景,浩瀚的黃沙大漠中,數以萬計的漢軍鐵騎排成整齊的縱隊,揚起漫天塵土。

12
00:04:28,000 --> 00:04:33,000
烈日當空,一名滿頭大汗的士兵體力不支,從馬背上重重摔落沙地,特寫他乾裂的嘴唇與痛苦的表情。

13
00:04:55,000 --> 00:05:01,000
年輕將領割斷繩索,將馬背上的沉重輜重拋棄在沙地上。軍隊輕裝加速前進。

14
00:05:12,000 --> 00:05:17,000
特寫鏡頭,一隻沙蜥蜴趴在乾燥的土丘上。一隻馬蹄重重踏在牠身旁的沙地。

15
00:05:54,000 --> 00:06:00,000
全景畫面,軍隊來到一條湍急的河流前。士兵們興奮地騎馬衝入水中,水花四濺。

16
00:06:16,000 --> 00:06:21,000
廣闊的草原上,烏雲密布。遠處,密密麻麻的匈奴騎兵如黑潮般湧來。

17
00:06:34,000 --> 00:06:40,000
雙方騎兵猛烈相撞。特寫鏡頭,漢軍長槍刺穿匈奴兵的皮甲,匈奴彎刀狠狠劈向漢軍鐵盾。

18
00:08:21,000 --> 00:08:26,000
戰後的荒野,滿地皆是人馬的屍體,黑色的濃煙升起。數隻禿鷲在屍體堆上盤旋、降落。

19
00:08:39,000 --> 00:08:44,000
營地內,一名漢軍士兵憤怒地將匈奴戰俘撲倒在地,拔出匕首準備刺下,被年輕將領上前阻擋。

20
00:08:57,000 --> 00:09:05,000
將領從士兵手中接過乾糧,遞給跪在地上的匈奴婦女與孩童。婦女雙手顫抖著接過,趴在地上親吻食物。

21
00:09:12,000 --> 00:09:17,000
夜幕降臨,深藍色的天空下,漢軍營地整齊排列著白色的圓頂帳篷。

22
00:10:17,000 --> 00:10:22,000
帳篷內,將領們圍在火盆旁,將匕首用力插在鋪著獸皮的地圖上,神情肅穆。

23
00:11:13,000 --> 00:11:18,000
全景轉至匈奴營地,夜色中火把點點。大型蒙古包內,匈奴首領們正舉著酒碗尋歡作樂。

24
00:12:46,000 --> 00:12:51,000
漢軍騎兵如幽靈般衝入匈奴營地。長槍刺穿守衛,火把被接連擲向帳篷,瞬間引發熊熊大火。

25
00:14:01,000 --> 00:14:06,000
陰沉的天空下,廣袤的荒原上,漢軍排成數個巨大的方形黑色方陣,長矛如林。

26
00:14:12,000 --> 00:14:16,000
遠景視角,一條長長的防線前,狂風捲起漫天黃沙,氣氛肅殺。

27
00:15:03,000 --> 00:15:09,000
匈奴騎兵拉滿弓弦。無數支箭矢如暴雨般劃破陰霾的天空,密集地射向漢軍方陣。

28
00:16:43,000 --> 00:16:48,000
混戰中,漢軍將領霍去病身披紅披風,揮舞長劍,在亂軍中左突右衝,斬殺敵軍。

29
00:17:24,000 --> 00:17:29,000
一隻老鷹在戰場上空展翅滑翔。俯瞰視角下,紅黑兩股騎兵洪流在荒漠中激烈絞殺。

30
00:19:29,000 --> 00:19:35,000
畫面穿插回憶:一名穿著粗布衣的幼童,在庭院中吃力地舉起長槍,眼神與戰場上的將領同樣堅毅。

31
00:19:57,000 --> 00:20:02,000
戰鬥平息,大霧瀰漫。滿地皆是殘屍與散落的兵器,幾隻烏鴉在屍體間跳躍。

32
00:20:59,000 --> 00:21:05,000
殘存的匈奴士兵丟下武器,絕望地跪倒在血泊中,雙手被繩索反綁。

33
00:21:15,000 --> 00:21:20,000
遠景,夕陽餘暉中,漢軍將士列隊在高聳的山丘頂端。畫面左下角浮現字幕:「封狼居胥山」。

34
00:21:34,000 --> 00:21:40,000
霍去病單膝跪地,雙手捧著一塊木簡,莊重地將其放置在由石塊壘成的祭壇上。

35
00:21:54,000 --> 00:21:59,000
特寫鏡頭,他低垂著眼眸,粗糙的手指輕輕摩挲著一塊刻著圖騰的銀製護身符。

36
00:22:16,000 --> 00:22:21,000
全景畫面,霍去病騎著駿馬,紅色的披風隨風飄揚,獨自沿著波光粼粼的綠色河畔疾馳。

37
00:22:28,000 --> 00:22:34,000
畫面轉暗,正中央浮現白色潑墨風格的毛筆大字:「霍去病 Huo Qubing」。

我遇到的困難[字幕組出來鞠躬道歉]:
下載影音、做成字幕檔,用PotPlayer 64 bit播放都没問題。
改要在線上報讀時,
我用Google Chrome的擴充功能
Movie Subtitles - Chrome Web Store
https://chromewebstore.google.com/detail/movie-subtitles/ifimcneililngppkpddcliecbpcgdjag?hl=pl
只是方向鍵要上下移動才讀得到字幕…用OCR也掃描得到…

謝謝!

#157

cch

cch圖像(預設)

2026-03-07 17:43:53

From:114.24.254.224

請問:可以播放別人的串流影音,同時報讀自己的字幕檔嗎?

例如:報讀AI的口述影像字幕。
Google AI Studio
https://aistudio.google.com/prompts/new_chat
提示詞:

角色設定:你是一位專業的「口述影像」(Audio Description, AD) 撰寫員,專門為視障人士提供視覺訊息轉譯服務。
任務描述:請根據用戶上傳的影片內容,在不干擾原有對白 (Dialogue) 與關鍵音效的前提下,精準描述畫面中的動作、場景、表情、服飾及螢幕文字。特別注意描述的層次感,先交代構圖背景,再聚焦主體細節。
輸出格式要求

  1. 必須嚴格遵守 SubRip (.srt) 字幕格式。
  2. 時間軸必須對齊畫面變動點,且僅出現在「對白間隙」。
  3. 語言風格:客觀、簡潔、生動。

描述準則

  • 場景 (Setting):描述環境變化、光影氛圍。需包含鏡頭遠近(如:全景、特寫)與空間構圖,確保視障者能建立空間方位感。
  • 動作 (Action):描述人物的具體移動或手勢,不加入主觀猜測。著重描述動作的節奏與方向性(如:緩慢地轉向鏡頭、猛力揮動右手)。
  • 外貌 (Appearance):描述角色衣著、關鍵體徵與面部表情。強化微表情描述(如:抿嘴、眉頭微蹙)與服飾細節(如:粗糙的麻布大衣、深紫色的絲綢質地)。
  • 圖文 (On-screen Text):讀出畫面出現的標題、地點標註或簡訊內容。須區分文字屬性(如:底部跑馬燈、畫面正中央的大標題、人物手機螢幕上的通知文字)。

[串流影音]
2026新北燈會!「勁馬奔騰」主燈展演秀原音版!15公尺高、360度全景環繞結構的巨型紅寶馬!New Taipei City Lantern Festival Main Lantern/馬年新年快樂! - YouTube
https://www.youtube.com/watch?v=-pxOLO9h-ik&pp=ygUG54eI5pyD0gcJCa4KAYcqIYzv

AI生成結果:
1
00:00:00,500 --> 00:00:03,000
夜幕低垂,全景呈現一座巨大的駿馬造型花燈。頂端一匹前腿高舉的紅馬率先發光,底座周圍緩緩噴出白煙。

2
00:00:22,500 --> 00:00:25,500
伴隨清脆的音效,底座高聳的假山瞬間亮起神秘的藍色光芒。

3
00:00:27,000 --> 00:00:37,000
鏡頭維持全景,視線聚焦於花燈細節。假山上錯落點綴著幾匹小馬、發光的雲朵與蝴蝶。數道黃色與藍色的雷射光束從底座猛然向夜空斜射。

4
00:00:45,000 --> 00:00:55,000
假山主體燈光緩慢且流暢地變換色彩,由深藍轉為紫紅,再漸變為青綠。白煙持續從山間向四周瀰漫,擴展了視覺的空間層次。

5
00:01:28,000 --> 00:01:45,000
音樂節奏轉為輕快,山腰處一匹前腿騰空的黃色小馬亮起。最下方的長方形螢幕點亮,顯示出藍色漸層背景,伴隨白色祥雲緩緩飄動的動畫圖案。

6
00:02:46,000 --> 00:02:56,000
下方的長方形螢幕動畫切換,轉為熱烈的橘紅色背景。畫面上出現金黃色駿馬奔騰的剪影與祥雲圖騰,保持相同節奏持續向左方移動。

7
00:03:10,000 --> 00:03:20,000
螢幕動畫再次變換,化為絢麗的紫紅色調,中央綻放出宛如煙火般的放射狀圖案,色彩斑斕且充滿強烈的動態感。

8
00:03:33,000 --> 00:03:47,000
螢幕底色轉為深紅,上下飾有白線。畫面正中央由左至右依序浮現出白色大字的活動標題:「2026 勁馬奔騰 ‧ 新北Hi Light」,最左側配有一匹奔馳的白馬圖示。

9
00:04:03,000 --> 00:04:08,000
全景定格於這座光彩奪目的主燈,雷射光束與煙霧在黑夜中交織,整座花燈持續閃耀著繽紛光芒,氣勢磅礴。

我遇到的困難[字幕組躹躬道歉]:
下載影音、做成字幕檔,用PotPlayer 64 bit播放都没問題。
改要在線上報讀時,
我用Google Chrome的擴充功能
Movie Subtitles - Chrome Web Store
https://chromewebstore.google.com/detail/movie-subtitles/ifimcneililngppkpddcliecbpcgdjag?hl=pl
用別人的字幕檔都很正常…只是方向鍵要上下移動才讀得到字幕…用OCR也掃描得到…

用AI生成的字幕…
卻顯示:
Damaged subtitle file! Please, try another one!

#156

iori86

iori86圖像(預設)

2024-12-01 00:05:28

From:182.233.110.177

回maxe 可以了! 感謝

#155

Maxe

Maxe圖像(預設)

2024-11-29 11:36:12

From:211.23.21.202

回復 @iori86 目前測試是可以的喔

#154

iori86

iori86圖像(預設)

2024-11-28 13:20:16

From:182.233.110.177

想是否可以讓NVDA自動閱讀netflix的字幕? 目前第一次用只能用手動的方式閱讀

#153

小羔羊

小羔羊圖像(預設)

2024-10-03 09:56:25

From:114.34.122.250

貌似是因為作者沒有在訂閱Disney,所以關於Disney已經停止維護了

#152

T.Y.

T.Y.圖像(預設)

2024-09-14 13:44:57

From:14.199.103.120

報告一下,+現在Disney+網頁內用不到字幕閱讀器。不過似乎福恩老師沒再看無法更新了?

#151

Maxe

Maxe圖像(預設)

2024-06-24 16:01:22

From:211.23.21.202

回復 #150 沒錯,動畫風無法,要是可以的話就有一堆可以看了,也能方便的跟同步視聽了