Ra mắt archiveJ. (open beta)

Những công việc dài hơi liên quan đến sắp xếp tư liệu và ảnh

Khi biên tập white paper, phần tốn thời gian nhất là đọc thủ công vô số tư liệu, biên tập lại lần nữa, rồi cùng người ra quyết định cấp cao trao đổi để định hướng. Làm kho lưu trữ số cũng vậy: phần dễ khiến mình phải chú ý nhất là sắp xếp tư liệu và tạo ra nhiều loại nội dung từ chính những tư liệu đó. archiveJ do chúng tôi xây dựng gắn một AI LLM agent gần như miễn phí trực tiếp vào thư mục để xử lý các công việc liên quan.

Nếu dùng LLM thì chi phí token chẳng phải sẽ rất tốn sao?

Đúng là nếu giao cho nó những chỉnh sửa diện rộng mà không hiểu mã hay luồng xử lý, lại không tối ưu gì cả, nó sẽ tiêu tốn token vào những việc thừa và cả những việc bạn không yêu cầu. Nhưng tài liệu trong kho lưu trữ số và white paper mà chúng tôi quản lý đều có phạm vi xác định, và vốn dĩ đây là những việc con người cũng có thể làm được. Bằng cách gắn worker, hay agent, vào những lĩnh vực trước đây chỉ các tổ chức có ngân sách hoặc các cơ quan lớn mới làm được, chúng tôi đã tạo ra một con đường để nhà nghiên cứu cá nhân cũng có thể tiếp tục tiến lên.

1) Công việc của agent để sắp xếp hồ sơ

(Lịch sử truyền khẩu) Để nguyên bản chép lời phỏng vấn và để agent tự suy ra ngữ cảnh. (Ảnh) Thêm mô tả cho ảnh và hiểu bối cảnh của nó. (PDF, Hangul, txt) Chuyển tài liệu sang dạng có thể đọc và để agent đọc các dự án, văn bản đã tạo trước đó. (Video) Hiểu nội dung video, bao gồm âm thanh và cả chữ bên trong. (Video không có âm thanh) Nếu không chép lời, thì vẫn hiểu nội dung video và mô tả nó như footage. (Link, website) Chụp lại trang web và đọc nội dung để giải thích đó là gì.

2) Công việc của agent tạo nội dung mới từ hồ sơ

(Người dùng phổ thông) Cung cấp tìm kiếm và duyệt để mọi người hiểu tổ chức đã làm gì theo từng năm thông qua kho lưu trữ số. (Nhà nghiên cứu) Xuất bản research guide để nhà nghiên cứu có thể đọc sâu vào các tư liệu liên quan. (Nhà nghiên cứu) Đối chiếu chéo tư liệu liên quan và cung cấp tư liệu nền có thể dùng cho bài nghiên cứu. (Nội dung) Xuất bản blog content dựa trên tư liệu được tạo ra. (Nội dung) Xuất bản triển lãm có chủ đề và ý đồ bằng cách kết hợp nhiều loại media theo hướng tổ chức mong muốn. (Nội dung) Xuất bản nhiều collection dựa trên các keyword đã công bố.

3) Công việc dịch thuật và đa ngôn ngữ hóa

(Dịch thuật) Thông qua hệ thống này, chỉ khoảng 2-3 giờ làm việc và dịch thuật có thể tạo ra khoảng 1.000 trang tư liệu đã dịch. Đây không chỉ là dịch câu chữ đơn thuần, mà còn bao gồm thông tin cơ bản của item, các keyword đã thu thập, các trang liên quan theo từng ngôn ngữ, và toàn bộ nội dung đã tạo. (Dịch thuật và website) Nếu có 10.000 item được lưu trữ, hệ thống có thể phục vụ đủ 10.000 item ở từng ngôn ngữ. (Dịch thuật) Bao gồm cả Google Translate lẫn dịch trực tiếp, chúng ta có thể xuất bản giá trị liên quan dễ dàng hơn bằng nhiều ngôn ngữ.

4) Công việc hiện tại và giới hạn

(Cải thiện) Chủ sở hữu archive và đội phát triển cùng trao đổi, sắp xếp chỉ dẫn, nhiệm vụ và bối cảnh của tư liệu, rồi AI agent sẽ tham chiếu vào đó. (Giới hạn) AI agents không thể làm mọi thứ hoàn hảo. Cần tiếp tục đầu tư thời gian và công sức để con người đặt ra hướng dẫn và nhiệm vụ chính xác, giúp chúng hoạt động tốt hơn. (Mở rộng) Khi hệ thống lớn dần, nhà nghiên cứu và khách hàng sẽ muốn tạo thêm nhiều archive hơn. Nhưng việc tinh chỉnh nội dung và chỉ dẫn cũng sẽ cần thêm nhiều thời gian.

13/06/2026 TCG

Kinh doanh

Duyệt

Bộ sưu tập

Đường dẫn duyệt

Ra mắt archiveJ.