posts

開放 archiveJ。

開放 archiveJ。 (open beta) 關於資料與照片整理這類長時間工作的對應 在編輯白皮書時,最花時間的工作,就是人工閱讀大量資料,再重新編輯,並透過與高層決策者的對話與整理來確認方向。建立數位典藏也是一樣,最需要留意的是資料整理,以及根據資料生成各種內容。由我們自行開發的 archiveJ,會把幾乎免費的 AI LLM agent 直接接到該資料夾上,執行相關工作。

2026-06-01 TCG
開放 archiveJ。 文件 1

開放 archiveJ。 (open beta)

關於資料與照片整理這類長時間工作的對應

在編輯白皮書時,最花時間的工作,就是人工閱讀大量資料,再重新編輯,並透過與高層決策者的對話與整理來確認方向。建立數位典藏也是一樣,最需要留意的是資料整理,以及根據資料生成各種內容。由我們自行開發的 archiveJ,會把幾乎免費的 AI LLM agent 直接接到該資料夾上,執行相關工作。

用了 LLM,token 成本不是會很高嗎?

是的,如果在不了解程式碼或處理流程的情況下,把大範圍編輯交給它,且沒有做任何最佳化,它就會在不必要的工作和你沒交代的任務上消耗 token。不過,我們管理的數位典藏與白皮書資料都有固定範圍,而這些本來就是人類也能完成的工作。把 worker,也就是 agent,接到過去只有有預算的組織或更大的機構才能處理的領域,就替個人研究者也鋪出了一條可以往前走的路。

1) 整理紀錄的 agent 工作

(口述史)把訪談逐字稿先保留,讓 agent 自行理解脈絡。 (照片)替照片加上說明,並理解其脈絡。 (PDF、Hangul、txt)把文件轉成可讀形式,讓 agent 閱讀先前做過的專案與文件。 (影片)理解影片內容,也包括其中的音訊與文字。 (無音訊影片)如果不做轉錄,就理解影片內容並將其作為 footage 來描述。 (連結、網站)擷取網站畫面,讀出內容並加以說明。

2) 根據紀錄創造新內容的 agent 工作

(一般使用者)提供搜尋與瀏覽,讓人們能透過數位典藏理解組織按年份做了什麼。 (研究者)發行 research guide,讓研究者可以深入閱讀相關資料。 (研究者)交叉比對相關資料,提供可用於論文的基礎材料。 (內容)根據生成的資料發佈部落格內容。 (內容)依照組織希望的方向,結合多種媒體,發佈具主題與意圖的展覽。 (內容)根據已發佈的 keyword,發佈多個 collection。

3) 翻譯工作與多語化

(翻譯)透過這套系統,約 2-3 小時的工作與翻譯,就能快速產出約 1,000 頁的譯文。這不只是單純句子翻譯,也包含該 item 的基本資訊、蒐集到的 keyword、相關語言版本頁面,以及所有生成的內容。 (翻譯與網站)如果典藏了 10,000 個 item,系統就能以各語言提供這 10,000 個 item。 (翻譯)無論是 Google 翻譯還是直接翻譯,我們都能更容易以多種語言發佈相關價值。

4) 進行中的工作與限制

(改善)典藏擁有者與開發團隊一起討論並整理指示、任務與資料脈絡,再由 AI agent 參考這些內容。 (限制)AI agents 無法把所有事情都完美完成。需要持續投入時間與努力,讓人類提供正確的指南與任務,協助它們表現更好。 (擴充)當系統持續擴大時,研究者與客戶會想建立更多 archive。但內容與指引的精煉,也會需要更多時間。

2026 年 6 月 13 日 TCG

關鍵字
查看多語言翻譯