Perluasan Layanan F5 dan NVIDIA untuk Mempercepat Infrastruktur Inferensi AI
F5, perusahaan yang bergerak dalam pengiriman dan perlindungan aplikasi serta API, telah memperluas layanannya guna mempercepat dan mengoptimalkan infrastruktur inferensi AI melalui kolaborasi dengan NVIDIA. Kolaborasi ini bertujuan untuk meningkatkan efisiensi dan kinerja infrastruktur teknologi yang mendukung model kecerdasan buatan (AI) dalam menjalankan tugas-tugas seperti menghasilkan teks, mengklasifikasikan gambar, atau melakukan prediksi.
Fase-Fase dalam Pengembangan AI
Dalam dunia AI, terdapat dua fase utama yaitu fase “sekolah” dan fase “bekerja”. Pada fase “sekolah”, model AI memproses data besar untuk belajar pola-pola tertentu. Setelah selesai, model tersebut masuk ke fase “bekerja”, di mana model yang sudah matang menerima data baru dari pengguna dan memberikan respons secara real-time.
Seiring berkembangnya penggunaan AI, perusahaan dan penyedia layanan GPU-as-a-Service semakin fokus pada monetisasi AI dan beralih dari fase eksperimen ke fase penyediaan layanan yang menghasilkan pendapatan. Dalam konteks ini, efisiensi infrastruktur menjadi metrik penting yang menentukan keberhasilan suatu organisasi.
Metrik yang Menentukan Keberhasilan
Keberhasilan tidak lagi diukur dari kapasitas GPU yang tersedia, tetapi dari beberapa metrik seperti ekonomi token, throughput token yang berkelanjutan, time to first token (TTFT), biaya per token, hingga pendapatan per akselerator GPU. Solusi yang dikembangkan oleh F5 dan NVIDIA dirancang untuk menjawab metrik-metrik ini secara langsung.
Kunal Anand, Chief Product Officer F5, menjelaskan bahwa selama ini banyak organisasi cenderung melakukan overprovisioning atau penyediaan sumber daya berlebihan untuk menutupi inefisiensi sistem. Hal ini menyebabkan biaya operasional meningkat tanpa adanya peningkatan throughput yang signifikan.
Infrastruktur yang lambat dalam memproses data tidak hanya merusak pengalaman pengguna, tetapi juga membatasi potensi pendapatan per akselerator GPU. Untuk mengatasi kendala ini, F5 dan NVIDIA berkolaborasi menciptakan solusi infrastruktur cerdas.
Integrasi BIG-IP Next for Kubernetes dengan NVIDIA BlueField-3 DPU
Melalui integrasi F5 BIG-IP Next for Kubernetes dengan NVIDIA BlueField-3 DPU, kedua perusahaan menciptakan lapisan telemetri cerdas. Sistem ini memungkinkan pengambilan keputusan routing berbasis inferensi sebelum eksekusi dilakukan, sehingga beban kerja mendapatkan akselerator paling tepat secara real-time.
Menurut Kunal, infrastruktur AI kini bukan hanya tentang akses ke GPU atau peningkatan skala implementasinya, tetapi telah berevolusi menjadi upaya memaksimalkan output ekonomi per akselerator. BIG-IP Next for Kubernetes menyediakan intelligence dan tata kelola yang dibutuhkan untuk meningkatkan GPU yield, mengurangi biaya per token, dan mengembangkan platform AI dengan lebih percaya diri.
Hasil yang Terukur dari Kolaborasi
Pendekatan ini memberikan keuntungan teknis yang terukur. Berdasarkan pengujian oleh The Tolly Group, infrastruktur yang dipercepat oleh NVIDIA BlueField-3 DPU mampu menghasilkan peningkatan token throughput hingga 40%, mempercepat time to first token (TTFT) sebesar 61%, serta menekan latensi permintaan keseluruhan hingga 34%.
Peningkatan performa ini terjadi dengan mengalihkan fungsi berat seperti networking, enkripsi TLS, hingga manajemen trafik ke DPU. Langkah ini membebaskan GPU untuk fokus pada fungsi utamanya, yakni inferensi berkelanjutan dengan skala besar.
Seluruh peningkatan performa ini tidak memerlukan modifikasi model sama sekali, sehingga solusi ini dapat langsung diterapkan pada infrastruktur yang sudah berjalan.
Potensi Tokenomics AI Factory
Kevin Deierling, SVP Networking, NVIDIA, menjelaskan bahwa infrastruktur komputasi terakselerasi dari NVIDIA yang dipadukan dengan Application Delivery and Security Platform berbasis AI dari F5 membuka potensi “tokenomics” AI factory. Solusi ini menghadirkan inferensi yang skalabel dan hemat biaya tanpa perlu melakukan perubahan apa pun pada model.
Solusi ini menjadi jawaban bagi kebutuhan arsitektur masa depan yang mendukung AI berbasis agen (agentic AI). Dengan kemampuan mengelola multi-tenancy yang aman dan kontrol trafik cerdas, organisasi kini memiliki control planestrategis untuk mengelola konsumsi token.
Pada akhirnya, inovasi ini membantu perusahaan meraih nilai ekonomi lebih besar dari setiap GPU yang ada, sekaligus menekan biaya operasional untuk mendukung pertumbuhan bisnis jangka panjang.
Tinggalkan Balasan