Trường Hợp Sử Dụng – 5 Triệu Đầu Tiên Khó Nhất: Cisco Đã Tăng Từ 0 Lên 5 Triệu Hiện Vật Như Thế Nào

Talk Transcription:

Chào các bạn. Cảm ơn mọi người đã đến với buổi chia sẻ hôm nay để tìm hiểu cách chúng tôi mở rộng từ một lên năm triệu artifact chỉ trong một năm với đội ngũ chỉ có năm kỹ sư.

Trước khi bắt đầu, tôi muốn giới thiệu nhanh về tổ chức, lĩnh vực hoạt động, cũng như vai trò của chúng tôi trong hệ sinh thái của Cisco.

Tôi thuộc bộ phận Global Architecture and Technological Services (GATS). Tại Cisco, chúng tôi thuộc arc Global Architecture and Technology Services, cung cấp dịch vụ công nghệ, đặc biệt hướng đến các giải pháp tự động hóa công cụ cho các kỹ sư. Dù là cung cấp dịch vụ cho các đội ngũ phát triển sản phẩm cốt lõi của Cisco, chúng tôi vẫn chính là những kỹ sư am hiểu chuyên môn sâu rộng.

Tôi là Prathibha Ayyappan, đã đồng hành cùng Cisco qua 5 năm và hiện là năm thứ 4 tôi tập trung vào CI/CD tools sau thời gian làm Java full stack developer. Nhóm của tôi, Build Management Services, chuyên về các giải pháp tích hợp và vận hành CI/CD như Jenkins, Artifactory, SonarQube, Bamboo, Coverity và sẽ tiếp tục mở rộng danh mục này.

Mục tiêu phục vụ của chúng tôi là toàn bộ cộng đồng kỹ sư tại Cisco. Một đặc trưng của Cisco là sự linh hoạt cho từng team – chúng tôi luôn khuyến khích các nhóm tự lựa chọn giải pháp phù hợp. Khi các giải pháp của chúng tôi chứng minh hiệu quả, những team khác cũng nhanh chóng tham gia sử dụng.

Các hình ảnh bên dưới là số liệu mới nhất của hệ thống Artifactory master: hơn 8,2 triệu artifact với 1.200 kho lưu trữ nội bộ. Đỉnh điểm, hệ thống ghi nhận gần 10 triệu request chỉ trong một ngày, bao gồm hàng chục triệu lượt download/upload – chỉ riêng tại site San Jose. Quy mô vận hành lớn này đang chứng minh độ tin cậy của giải pháp chúng tôi phát triển.

Chủ đề hôm nay sẽ tập trung vào hành trình triển khai, tối ưu Artifactory như một dịch vụ có khả năng đáp ứng tiêu chuẩn uptime gần như 100%. Nếu doanh nghiệp của bạn mong muốn giải pháp CI/CD không downtime, phù hợp cho các đội phát triển toàn cầu, hoặc muốn đổi mới cách quản lý artifact mà không bị ràng buộc vào các mô hình hỗ trợ truyền thống (tier 1, 2, 3) thì bài chia sẻ này rất phù hợp để tham khảo.

Xem lại quá trình phát triển: ban đầu, một thành viên tự vận hành hệ thống Nexus khoảng 500GB data cho một vài tổ chức nhỏ. Khi chúng tôi thành lập team CI/CD, chúng tôi đánh giá các công cụ trên thị trường và chọn Artifactory vì hỗ trợ nhiều loại artifact hơn, bao gồm cả Yum (rất quan trọng với phát triển nhúng tại Cisco). Bước đầu, chúng tôi triển khai instance Artifactory độc lập trên nền hệ điều hành tùy biến của Red Hat với cấu hình 2TB storage và kết nối Oracle Database.

Ban đầu, nhiều nhóm kỹ sư ở San Jose gặp vấn đề hiệu năng do server đặt tại RDP (Raleigh-Durham). Để khắc phục, chúng tôi nhanh chóng triển khai replication lên site San Jose, biến site này thành primary để tối ưu hóa trải nghiệm người dùng nội địa Mỹ.

Khi hệ thống mở rộng, chúng tôi tích hợp Global Site Selector (GSS) của Cisco để tự động failover trên quy mô toàn cầu dựa vào DNS, geolocation và các cấu hình failover logic. Nhờ đó, từng khu vực được định tuyến đến site tối ưu, đảm bảo sự ổn định khi có sự cố.

Dù dịch vụ đã mang tính toàn cầu (San Jose, RDP, Bangalore, Green Park), việc failover và replication với khối lượng lớn dữ liệu vẫn tốn thời gian đáng kể khi gặp sự cố. Để nâng cao tính sẵn sàng, chúng tôi triển khai Artifactory HA với hai node tại các tòa nhà khác nhau cùng hệ thống HA proxy & ACE load balancer để phòng tránh single point of failure. Storage nâng cấp lên 50TB để phục vụ nhu cầu tăng trưởng mạnh mẽ.

Điểm nghẽn duy nhất lúc này là database, song chúng tôi đang phối hợp với đội ngũ quản trị để xây dựng các phương án dự phòng linh hoạt, đảm bảo hệ thống luôn sẵn sàng failover khi cần thiết.

Kiến trúc hiện tại: mọi ghi nhận từ Green Park, Bangalore… sẽ replicate trực tiếp lên repository địa phương và lên master site, client hoàn toàn được trừu tượng hóa việc phân biệt master là San Jose hay RDP. Chúng tôi tận dụng mạnh mẽ remote repository và virtual repository trong Artifactory để chỉ replicate những gì cần thiết, giảm thiểu chi phí lưu trữ và băng thông.

Trong quá trình vận hành, khó khăn chủ yếu nằm ở đào tạo người dùng và tự động hóa quy trình provisioning artifact repository để tránh lỗi thao tác thủ công và tiết kiệm thời gian. Ví dụ: trước đây tạo mới một repository Maven mất tới 45 thao tác click chuột, với Docker thậm chí lên đến 90 phút do phải cấu hình các cổng và Apache proxy.

Giải pháp: Chúng tôi xây dựng nền tảng tự động hóa (dựa trên plugin, REST API, Spring Framework, AngularJS và tích hợp database Oracle), cho phép quản lý tài khoản, provisioning repository chỉ trong vài phút. Hệ thống quản lý tập trung này có tính mở rộng cao và cung cấp đầy đủ audit trail cùng khả năng phân quyền tự động cho từng nhóm dự án hay khách hàng nội bộ qua LDAP.

Người dùng có thể tự tạo và quản trị repository, truy xuất thông tin chi tiết liên quan đến URLs, cấu hình build, metadata… cho từng loại repository như Maven, Yum, hoặc Docker. Toàn bộ lịch sử thao tác được ghi lại, tăng tính minh bạch và khả năng kiểm soát rủi ro.

Kết quả đạt được: Chúng tôi rút ngắn thời gian provisioning mỗi repository xuống chỉ còn 2 phút, tiết kiệm hơn 1800 giờ công, gia tăng hiệu suất nội bộ và nâng tổng số người dùng từ dưới 100 lên hơn 4.500 chỉ trong thời gian ngắn.

Tương lai: Chúng tôi dự kiến sẽ tích hợp nền tảng này với Mission Control – tận dụng tối đa API mạnh mẽ của Artifactory để tối ưu các luồng provisioning, đồng thời vẫn duy trì vai trò quản lý tập trung và tracking nhóm dự án nội bộ.

Quý doanh nghiệp, tổ chức công nghệ đang tìm kiếm giải pháp CI/CD, Artifactory hoặc tối ưu quy trình quản lý artifact cho phát triển toàn cầu, vui lòng liên hệ Softribution để nhận tư vấn chuyên sâu hoặc trải nghiệm các giải pháp hàng đầu phù hợp với nhu cầu của bạn.

Trường Hợp Sử Dụng – 5 Triệu Đầu Tiên Khó Nhất: Cisco Đã Tăng Từ 0 Lên 5 Triệu Hiện Vật Như Thế Nào