對科技工作講LINE社群的觀察

對科技工作講LINE社群的觀察

我應該是在 clubhouse 時期開始收聽科技工作講的,後來隨著這個科技從業者社群的成長和演化,也開始固定聽podcast、偶爾聽每週的youtube 直播 (如果題目有興趣,想現場討論的話)。我也追蹤了臉書粉絲頁,閱讀主理人抹布的觀點和言論、加入了LINE 社群、甚至連 telegram 群組都加入過。

這篇文章是針對 科技工作講 LINE 社群的一些觀察和個人觀點。不一定100% 客觀和全面。

簡單說,我要退群了。

閱讀全文

Colab + WhisperX 將音檔轉成逐字稿 (20250619版)

Colab + WhisperX 將音檔轉成逐字稿 (20250619版)

這兩天有需求,再上 colab 用 WhisperX 把音檔轉成逐字稿。發現之前寫好的code 又跑出錯誤訊息了。

解決問題的路上,發現新版已經跑得起來,不用像之前還要移除 Pytorch、安裝特定相容的版本。但版本依賴的狀況還是蠻混亂的。

新的版本還是帶來新的問題:

  • whisperx.DiarizationPipeline 指令改成 whisperx.diarize.DiarizationPipeline
  • alignment.py 裡有個Index Error,Issue 裡也有人回報,但還在等修復,目前需要自己進去改code。

我整理了一下,再把新的code 放上來,但使用上要小心。再幾個版本後可能又不能用了。

目前日期 (2025/6/19)所安裝的版本為:

whisperx 3.3.4
ctranslate2 4.4.0
pyannote-audio 3.3.2
torch 2.6.0+cu124
torchaudio 2.6.0+cu124
libcudnn8 8.9.7.29-1+cuda12.2
libcudnn8-dev 8.9.7.29-1+cuda12.2

以下是目前的code 跟修改的地方。如果要知道更多 code 的作用,可以回去參考一開始發佈的版本,裡頭有說明。

閱讀全文

我的備份SOP (2025版)

我的備份SOP (2025版)

數位時代下,個人與家庭資料的安全性與完整性日益重要。我在2018年寫過一版當時的備份SOP。7年後,我更新了目前我所使用的,如何在多裝置、大資料量的家庭環境中,建立一套高效且可靠的備份SOP。如果你的環境比較簡單,可以用下面的簡易版本SOP作備份:

  1. 異質備份:以大容量外接硬碟作為資料備份與歸檔的主要媒介。
    • 將所有日常工作文件、重要家庭照片及影像等「熱資料」定期備份至外接硬碟。
    • 對於不再頻繁使用但具長期保存價值的「冷資料」(如已完成專案的原始檔、高解析度照片RAW檔),定期將其歸檔/搬移至大容量外接硬碟,以釋放主力設備空間。
  2. 異地防護:採用 Backblaze 進行雲端遠端備份。
    • 僅依賴本地實體儲存仍不足以抵禦區域性災害(如火災、水患或竊盜)。因此,建議利用如 Backblaze 這類提供個人電腦無限儲存空間的雲端備份服務,作為異地備份解決方案。
    • 策略性運用: 對於儲存於外接硬碟中的歸檔資料,可規劃每半年將該外接硬碟連接至主力電腦數日。此舉將使 Backblaze 偵測到並自動將這些歸檔資料納入遠端備份範圍,以極低的邊際成本實現冷資料的異地防護。

如果你對完整版的備份SOP有興趣,想了解我的心路歷程,或是想知道我怎麼處理較複雜的架構,可以繼續看下去。

閱讀全文

n8n Workflow: 在Karakeep 打星就分享到 Twitter

n8n Workflow: 在Karakeep 打星就分享到 Twitter

上週從Pocket跳船到 Karakeep 之後,由於 IFTTT 不支援 Karakeep,之前 IFTTT 上的「打星就分享到 twitter流程」就沒得用了。

正好也想用 n8n 玩點花樣,於是就到 n8n 上試著寫個 workflow 來做這件事。

個人血淚提醒:
使用 docker compose down 時千萬不要加 “- v” (也就是不要下 docker compose down -v)。
一般來說 -v 會讓人想到 –verbose;但在 docker compose 裡是把已經建好的 volume 移除 (remove),包含之前所有輸入的資料,workflow,以及設定。

我寫到一半要加個功能,想要rebuild container時,粗心大意直接 copy & paste chatGPT 給的指令,然後兩天的心血就…消失了。後面問 chatGPT 他還理直氣壯說我又沒有說要保存 volume 資料… Orz

以下的內容是先請 AI 分析我寫的 workflow,然後我再補充。
這樣產生說明文件的方式真的很快。不過某些我覺得重要的節點(node)還是會被略過。得要手動指定或是手動加入。

workflow 拆成兩個部份:

  • Karakeep_webhook_queue.json:接收 Karakeep 更新書籤時所送出的 webhook,稍後由 Karakeep_share 批次處理。
  • Karakeep_share.json:把已經打星的書籤分享到 Twitter,並把已經分享過的書籤歸到 “shared” 列表中。

我請AI 從功能、架構與流程、重要節點的設定方式等三個面向進行分析。

閱讀全文

從 pocket 跳船到 Karakeep

從 pocket 跳船到 Karakeep

從 gslin 那邊看到 Pocket 要收攤的消息:《 Pocket 總算要關掉了…
Pocket 這種「稍後閱讀 (Read it Later)」的工具,在我 GTD 的流程裡扮演了一個很重要的角色。
需要閱讀的東西,用方便的小工具 (早期是 bookmarklet,現在是 iOS的 share 跟 browser 的 extension) 丟進去 pool 裡,讀完的 archive 起來。 早期還會想要分類下 tag,但後來實在太麻煩,而且全文搜尋太好用,就不下 tag 或分類了。

我記得早期我是用 Instapaper 的,(可能是) 2014年初轉到 Pocket
當 Mozilla 買下 Pocket,我也沒什麼在意。頂多是後來帳號整合在一塊,登入的時候,要想一下用哪個密碼 (其實也不用記,有自動填入)。

之後就一直留在 Pocket 沒移動過。一直到 Mozilla 決定關掉這個服務為止,我才驚醒:哇!工作流程要被影響了!

即使現在有那麼多 AI powered,跟桌面程式深度整合的「資訊整合/閱讀」服務,我還是用著古老的 Pocket 跟 Simplenote。一個負責連結,一個負責文字、其他、和初步整理。深度的整理現在是在 Obsidian 上進行,閱讀後的發佈和分享則是交給 blog / twitter / thread 等。閱讀網路文章時,如果覺得適合分享,又不需要(或不適合)打太多心得,早期我用小海的 twitthat,後來就把 Pocket 打星的文章經過 IFTTT串到 twitter上。這麼做,已經很多年了。

但事情來了,就要面對。
於是這一週就花了兩天處理跳船的事情。
處理的同時,也在擔心 Simplenote 的狀況:跟 Pocket 一樣,被大型服務 (Automattic,就是Wordpress的那家公司)併購後,Simplenote 的開發一直…處於放生的狀態。雖然說服務只要穩定就好,不一定要一直疊加功能上去,但 Simplenote 的狀況比 Pocket 更悲戚一些:沒有穩定的付費模式,本來開放的 API 陸續收回 (雖然某程度上還有辦法用),第三方的工具一直隕落,也一直缺乏和其他服務的串接 (沒有太多自動化的機會),也沒有針對AI 世代有什麼明顯的回應

簡單來說,就是一個放著 run,燒不了太多錢,但也沒有花心力維護的服務。

但他還是我用過最「方便」,最順手,也留在我GTD 工具清單最久的工具之一。

這樣一個服務,要是某天 Automatic 把它關掉,我應該會哀嚎得更大聲。

好了,扯遠了。

回到 Pocket 跳船。

閱讀全文