Dapatkan analisis, berita, dan tutorial AI & Django terkini di sini. Jasa pembuatan web Hubungi kami untuk info lebih lanjut

Claude 3.7 Memimpin dalam Pemrograman, Tapi Seberapa Terjangkau?

Claude 3.7 Memimpin dalam Pemrograman, Tapi Seberapa Terjangkau?

Di tengah persaingan model AI yang semakin ketat, Anthropic baru saja meluncurkan model terbarunya yang langsung menarik perhatian seluruh komunitas teknologi global. Claude 3.7, model yang dinamai demikian setelah Claude 3.5 October Edition yang dianggap sebagai Claude 3.6, telah resmi diluncurkan dan membawa perubahan signifikan dalam dunia kecerdasan buatan. Model ini tidak hanya menawarkan peningkatan kemampuan, tetapi juga fitur-fitur baru yang belum pernah ada sebelumnya.

## Melangkah Lebih Jauh dengan Kemampuan Luar Biasa

Claude 3.7 hadir dengan kemampuan yang mengejutkan, terutama untuk tugas pemrograman dan pengembangan aplikasi. Menurut pengujian komprehensif yang dilakukan oleh berbagai pakar teknologi, model ini dinobatkan sebagai "model kode terbaik yang pernah dibuat". Pernyataan ini bukan hanya sekedar klaim marketing, tetapi didukung oleh berbagai benchmark dan pengujian langsung pada kasus penggunaan nyata.

"Saya telah menggunakan model ini seharian untuk berbagai tugas nyata dan jujur saja, saya sangat kagum," ungkap Theo yang telah menguji Claude 3.7. "Ini adalah lompatan besar dibandingkan model-model sebelumnya."

Saat ini, dunia kecerdasan buatan sedang dalam fase perkembangan yang sangat cepat. Setiap beberapa bulan, model baru diluncurkan dengan kemampuan yang terus meningkat. Namun, Claude 3.7 tampaknya telah membawa peningkatan yang jauh lebih signifikan dibanding yang diperkirakan banyak orang.

## Fitur Revolusioner: Mode Thinking dan Claude Code

Salah satu inovasi paling menarik dari Claude 3.7 adalah pengenalan mode "thinking" atau berpikir. Tidak seperti model AI lain yang menyembunyikan proses pemikiran mereka, Claude 3.7 menampilkan proses berpikirnya secara transparan kepada pengguna. Ini adalah langkah berani dalam industri yang sering dikritik karena kurangnya transparansi.

"Mode thinking Claude 3.7 sangat transparan. Saya tidak tahu apakah mereka melakukan pemfilteran pesan aneh seperti yang OpenAI lakukan, tapi sepertinya tidak karena teks yang dihasilkan sangat langsung menunjukkan apa yang sedang dipikirkannya," jelas Theo.

Contoh konkret dari kemampuan mode thinking ini terlihat ketika Claude 3.7 diberikan tugas untuk memecahkan masalah Advent of Code yang kompleks. Meskipun tidak selalu berhasil memecahkan semua masalah, model ini menunjukkan alur pemikiran yang jelas dan tidak lagi berhalusinasi tentang API yang tidak ada, seperti yang sering terjadi pada model-model sebelumnya.

Selain itu, Anthropic juga meluncurkan "Claude Code", sebuah Command Line Interface (CLI) baru yang dirancang khusus untuk bekerja dengan basis kode melalui Claude langsung. Ini merupakan gerakan strategis untuk bersaing dengan alat pengembangan seperti Cursor. Claude Code memungkinkan pengembang untuk melakukan refaktor kode dan mengimplementasikan fitur baru langsung dari terminal mereka.

Contoh penggunaan Claude Code terlihat ketika Theo mencoba melakukan refaktor pada kode backend chat API mereka untuk menggunakan package "never throw". CLI ini berhasil mengubah semua file terkait dengan benar dan menghasilkan kode yang berfungsi, meskipun prosesnya sedikit lebih lambat dibandingkan menggunakan IDE seperti Cursor.


// Contoh kode sebelum refaktor
async function verifyFingerprint(token: string): Promise<string> {
  try {
    const result = await api.verify(token);
    return result;
  } catch (error) {
    throw new Error('Verification failed');
  }
}

// Kode setelah refaktor oleh Claude 3.7 menggunakan never-throw
import { ok, error, type Result } from 'never-throw';

async function verifyFingerprint(token: string): Promise<Result<string, FingerprintError>> {
  try {
    const result = await api.verify(token);
    return ok(result);
  } catch (err) {
    return error(new FingerprintError('Verification failed', { cause: err }));
  }
}


## Performa Unggul dalam Benchmark

Salah satu bukti kuat kemampuan Claude 3.7 adalah performanya dalam berbagai benchmark industri. Dalam benchmark SWE-Lancer, sebuah pengujian yang menggunakan satu juta dolar tugas nyata dari platform Upwork, Claude 3.5 sudah menunjukkan performa yang lebih baik dibandingkan GPT-4o dan Claude 01.

Untuk masalah logika aplikasi, GPT-4o hanya mampu menyelesaikan 8% tugas, Claude 01 menyelesaikan 16%, sementara Claude 3.5 menyelesaikan 24%. Untuk logika sisi server, GPT-4o dan Claude 01 keduanya berada di bawah 25%, sementara Claude 3.5 Sonnet mencapai lebih dari 40%. Dan ini adalah hasil sebelum Claude 3.7 dengan kemampuan reasoning-nya diluncurkan.

"Mereka sudah memimpin dan saya bisa katakan setelah menggunakan model ini seharian, Claude 3.7 jauh lebih baik dari yang saya harapkan," ungkap Theo.

Claude 3.7 juga sangat unggul dalam kemampuan menggunakan tools atau alat. Dalam benchmark penggunaan alat, Claude 3.7 mencapai akurasi 81%, jauh di atas kompetitor terdekatnya yang hanya mencapai 73%. Perbedaan 8% ini mungkin terlihat kecil, tetapi dalam alur kerja yang melibatkan banyak penggunaan alat, perbedaan ini dapat menghasilkan peningkatan akurasi keseluruhan hingga 50%.

"Jika Anda memiliki alur yang menggunakan empat alat atau lebih, perbedaan antara akurasi 81% dan 73% per alat dapat menghasilkan perbedaan keberhasilan keseluruhan yang sangat besar," jelas Theo.

Claude 3.7 juga sangat unggul dalam tanya-jawab multibahasa dan kemampuan mengikuti instruksi. Namun, menariknya, model ini menunjukkan kelemahan dalam pemecahan masalah matematika dibandingkan dengan GPT-4o, Claude 03 mini, dan Claude R1.

Untuk matematika tingkat sekolah menengah, tanpa menggunakan mode thinking, Claude 3.7 hanya mencapai akurasi sekitar 20%. Namun, ketika mode thinking diaktifkan, akurasinya melonjak ke kisaran 80%. Ini menunjukkan betapa pentingnya fitur reasoning untuk tugas-tugas tertentu.


## Pengujian Praktis: Melihat Claude 3.7 Beraksi

Untuk memahami kemampuan Claude 3.7 secara nyata, beberapa pengembang telah melakukan pengujian dengan kasus penggunaan praktis. Salah satu pengujian yang mengesankan adalah refaktor kode backend untuk manajemen pesan chat.

Seorang engineer dari Anthropic dalam video demo mencoba menggunakan Claude 3.7 untuk mengubah seluruh kode manajemen chat mereka agar menggunakan package "never throw", yang merupakan pendekatan berbeda untuk penanganan kesalahan. Alih-alih melempar kesalahan (throw errors), pendekatan ini mengembalikan objek hasil yang dapat berisi nilai sukses atau objek kesalahan.

Tanpa instruksi detail, Claude 3.7 berhasil mengidentifikasi semua file yang relevan dan mengubah kode dengan benar. Model ini bahkan mampu mengenali fungsi async eksternal dan membungkusnya dengan benar dalam pola never-throw. Yang lebih mengesankan, kode yang dihasilkan berhasil berjalan tanpa masalah, sesuatu yang jarang terjadi untuk perubahan besar semacam ini.


// Contoh transformasi fungsi process request
// Sebelum:
async function processRequest(req: Request) {
  const token = getTokenFromRequest(req);
  const userData = await verifyToken(token);
 
  if (!userData) {
    throw new Error('Invalid token');
  }
 
  return await processUserData(userData);
}

// Setelah refaktor oleh Claude 3.7:
import { ok, error, type Result } from 'never-throw';

async function processRequest(req: Request): Promise<Result<ProcessedData, RequestError>> {
  const tokenResult = getTokenFromRequest(req);
  if (tokenResult.isError()) {
    return error(new RequestError('Failed to extract token', { cause: tokenResult.error }));
  }
 
  const verifyResult = await verifyToken(tokenResult.value);
  if (verifyResult.isError()) {
    return error(new RequestError('Token verification failed', { cause: verifyResult.error }));
  }
 
  const processResult = await processUserData(verifyResult.value);
  if (processResult.isError()) {
    return error(new RequestError('Processing failed', { cause: processResult.error }));
  }
 
  return ok(processResult.value);
}

Biaya untuk operasi refaktor kompleks ini menggunakan Claude Code CLI hanya sekitar $0,73, yang menunjukkan bahwa meskipun model ini mahal per token, untuk tugas-tugas kompleks nilai yang diberikan bisa sangat tinggi.


## Tantangan Harga di Tengah Kemampuan Luar Biasa

Meskipun Claude 3.7 menawarkan kemampuan yang luar biasa, ada satu masalah besar yang perlu dihadapi: harganya. Claude 3.7 dikenakan biaya $3 per juta token input dan $15 per juta token output, sama dengan harga Claude 3.5 sebelumnya.

Harga ini lebih dari tiga kali lipat harga Claude 03 mini, yang hanya dikenakan biaya $1,10 per juta token input dan $4,40 per juta token output. Untuk banyak pengembang dan perusahaan, perbedaan harga ini sangat signifikan, terutama untuk aplikasi dengan volume penggunaan yang tinggi.

"Akhirnya mereka bisa membenarkan harga yang konyol, yang sekarang lebih konyol dari sebelumnya. Ini tiga kali lebih mahal dari 03 mini dan performanya sebanding di banyak waktu, tapi untuk hal-hal kode khususnya, ini adalah model terbaik yang pernah dibuat," komentar Theo.

Situasi ini menciptakan dilema bagi pengguna. Di satu sisi, Claude 3.7 menawarkan kemampuan yang jauh lebih baik, terutama untuk tugas-tugas kompleks. Di sisi lain, biaya penggunaannya bisa menjadi penghalang besar, terutama untuk startup dan pengembang independen.

Beberapa platform telah mencoba mengatasi masalah ini dengan menawarkan akses ke Claude 3.7 dengan harga berlangganan yang lebih terjangkau. Misalnya, T3 Chat menawarkan akses ke Claude 3.7 dengan harga $8 per bulan, yang bisa menjadi alternatif yang lebih ekonomis dibandingkan menggunakan API secara langsung untuk volume penggunaan yang tinggi.


## Mode Thinking: Kelebihan dan Kelemahan

Mode thinking merupakan salah satu fitur paling inovatif dari Claude 3.7, tetapi pengujian menunjukkan bahwa fitur ini memiliki kelebihan dan kelemahan yang menarik.

Dalam beberapa kasus, mode thinking justru menyebabkan model "menggaslighting dirinya sendiri" atau meyakinkan dirinya bahwa pendekatan yang benar adalah salah. Contohnya terlihat ketika model ini mencoba memecahkan masalah bola pantul (bouncing ball) dalam permainan.

Ketika menggunakan mode thinking dengan pengaturan high, Claude 3.7 berakhir merusak deteksi tabrakan (collision detection) dan menghasilkan kode yang tidak berfungsi dengan benar. Namun, ketika menggunakan mode thinking dengan pengaturan low atau bahkan tanpa mode thinking sama sekali, model ini menghasilkan kode yang berfungsi dengan sempurna.


# Contoh kode game bola pantul yang dibuat Claude 3.7 tanpa mode thinking
import pygame
import sys

pygame.init()
width, height = 800, 600
screen = pygame.display.set_mode((width, height))
pygame.display.set_caption("Bouncing Ball")

# Warna
WHITE = (255, 255, 255)
RED = (255, 0, 0)

# Parameter bola
ball_radius = 30
ball_x = width // 2
ball_y = height // 2
ball_speed_x = 5
ball_speed_y = 5

clock = pygame.time.Clock()

while True:
    for event in pygame.event.get():
        if event.type == pygame.QUIT:
            pygame.quit()
            sys.exit()
    
    # Perbarui posisi bola
    ball_x += ball_speed_x
    ball_y += ball_speed_y
    
    # Cek tabrakan dengan dinding
    if ball_x <= ball_radius or ball_x >= width - ball_radius:
        ball_speed_x = -ball_speed_x
    if ball_y <= ball_radius or ball_y >= height - ball_radius:
        ball_speed_y = -ball_speed_y
    
    # Gambar
    screen.fill(WHITE)
    pygame.draw.circle(screen, RED, (ball_x, ball_y), ball_radius)
    pygame.display.flip()
    
    clock.tick(60)

Ini menunjukkan fenomena menarik bahwa untuk beberapa tugas, terutama yang lebih sederhana atau langsung, terlalu banyak "berpikir" bisa kontraproduktif. Ini adalah pelajaran penting untuk pengembang yang menggunakan model-model AI: kadang-kadang pendekatan yang lebih langsung bisa lebih efektif.


## Claude 3.7 vs. Kompetitor: Lanskap AI yang Berubah Cepat

Peluncuran Claude 3.7 terjadi di tengah persaingan yang semakin ketat di industri AI. OpenAI dengan GPT-4o dan GPT-4o mini, Google dengan Gemini, dan model-model lain seperti Grok 3 dari xAI, semuanya bersaing untuk dominasi di pasar model bahasa besar.

Claude 3.7 memiliki keunggulan signifikan dalam beberapa area, terutama pemrograman dan penggunaan alat, tetapi ada trade-off yang perlu dipertimbangkan. Sebagai contoh, Claude 03 mini, meskipun jauh lebih murah, tetap mengungguli Claude 3.7 dalam beberapa benchmark matematika.

Hal ini menciptakan situasi di mana tidak ada "model terbaik" yang absolut, tetapi hanya model yang paling sesuai untuk tugas tertentu. Untuk tugas pemrograman yang kompleks, Claude 3.7 mungkin menjadi pilihan terbaik. Untuk pemecahan masalah matematika, model lain mungkin lebih unggul. Dan untuk penggunaan sehari-hari yang membutuhkan respons cepat dengan biaya rendah, Gemini atau Claude 03 mini bisa menjadi pilihan yang lebih baik.

"Untuk sekarang, default saya tetap Gemini. Saya sangat menyukai kecepatannya. Namun, Claude 3.7, bahkan yang non-reasoning, sangat bagus sehingga mungkin akan menjadi default saya ke depan," ungkap seorang pengembang yang telah mengujicoba berbagai model.


## Pengalaman Pengguna dengan Claude Code

Claude Code, CLI baru dari Anthropic, menawarkan cara alternatif untuk berinteraksi dengan basis kode melalui Claude 3.7. Namun, pengujian menunjukkan bahwa meskipun alat ini mampu, ada beberapa keterbatasan yang perlu diperhatikan.

Saat menggunakan Claude Code untuk tugas refaktor besar, proses ini cenderung lebih lambat dibandingkan menggunakan IDE dengan integrasi AI seperti Cursor. Selain itu, UI terminal, meskipun terlihat bagus, memiliki beberapa masalah seperti scrolling yang tidak mulus dan padding yang kurang optimal.

Satu masalah yang diamati adalah Claude Code tidak menerapkan pemformatan kode dengan Prettier atau alat serupa, sehingga kode yang dihasilkan mungkin tidak sesuai dengan standar pemformatan proyek. Ini adalah detail kecil tetapi penting untuk alur kerja pengembangan profesional.


# Contoh penggunaan Claude Code CLI
$ claud "Overhaul the code in source/backend/chat/processRequest.ts and all its imports to use never-throw"

# Claude akan menganalisis kode dan menunjukkan perubahan yang akan dibuat
# Setelah konfirmasi, Claude akan melakukan perubahan pada file

$ pnpm run dev
# Aplikasi dimulai dengan kode yang telah direfaktor

Meski memiliki beberapa keterbatasan, fakta bahwa Claude Code dapat menghasilkan kode yang berfungsi untuk perubahan arsitektur yang signifikan menunjukkan potensi besar alat ini untuk pengembangan aplikasi nyata.


## Masa Depan AI dalam Pengembangan Perangkat Lunak

Peluncuran Claude 3.7 dan Claude Code merepresentasikan langkah besar menuju masa depan di mana AI menjadi mitra yang semakin integral dalam proses pengembangan perangkat lunak. Kita sudah melihat contoh di mana model ini dapat mengimplementasikan perubahan arsitektur yang signifikan dengan minimal bantuan manusia.

Namun, masih ada pertanyaan tentang seberapa jauh AI dapat mengambil alih tugas pengembangan perangkat lunak. Pengalaman menunjukkan bahwa meskipun model seperti Claude 3.7 sangat mampu untuk banyak tugas, masih ada situasi di mana pengetahuan dan pengalaman manusia tidak tergantikan.

"Saya baru-baru ini memiliki beberapa hal di mana AI tidak banyak membantu. Saya membangun layanan lucu untuk diri saya sendiri... dan meskipun salah satu generator situs membawa saya sedikit jauh, itu tidak membawa saya sangat jauh dan saya harus menarik kode dan melakukannya sendiri," berbagi seorang pengembang.

Masa depan kemungkinan besar adalah kolaborasi, di mana AI seperti Claude 3.7 menangani tugas-tugas yang repititif, implementasi pola, dan refaktor, sementara pengembang manusia fokus pada desain tingkat tinggi, pengalaman pengguna, dan masalah kompleks yang membutuhkan pemahaman mendalam tentang konteks bisnis dan kebutuhan pengguna.


## Kesimpulan: Langkah Besar dengan Tantangan Nyata

Claude 3.7 mewakili lompatan besar dalam kemampuan AI, terutama untuk pengembangan perangkat lunak. Dengan mode thinking yang transparan dan kemampuan superior dalam menggunakan alat dan mengikuti instruksi kompleks, model ini membuka kemungkinan baru untuk apa yang dapat dicapai dengan bantuan AI.

Namun, tantangan harga tetap menjadi penghalang signifikan untuk adopsi luas. Dengan biaya lebih dari tiga kali lipat dibandingkan beberapa alternatif yang kompetitif, Claude 3.7 mungkin tetap menjadi alat untuk situasi di mana kemampuan ekstremnya benar-benar diperlukan, bukan untuk penggunaan sehari-hari.

Bagi pengembang perangkat lunak, Claude 3.7 menawarkan kemampuan yang layak untuk dipertimbangkan dalam alur kerja mereka. Namun, seperti halnya semua alat, penting untuk memahami kapan menggunakannya dan kapan alternatif yang lebih sederhana atau lebih murah mungkin lebih sesuai.

Pada akhirnya, Claude 3.7 merepresentasikan langkah penting dalam evolusi AI yang terus berlanjut. Dengan setiap model baru, kita melihat kemungkinan yang semakin luas untuk apa yang dapat dicapai ketika kecerdasan manusia diperkuat dengan kecerdasan buatan. Tantangannya sekarang adalah bagaimana membuat kemampuan luar biasa ini lebih terjangkau dan tersedia untuk pengembang di semua tingkatan.

"Claude 3.7 adalah model pekerja, saya pikir itulah yang mereka tuju. Mereka membangun model yang disukai semua orang untuk digunakan untuk kode mereka dan untuk pekerjaan mereka, dan mereka mempertahankan posisinya dengan kuat. Tapi, Tuhan, saya harap mereka menurunkan harganya segera."

Sumber: https://youtu.be/a3j4olgIjk8?si=KoiFbeGCVPnHtjaL