Chatbot kecerdasan buatan telah mengalami kemajuan pesat sejak iterasi pertamanya pada tahun 2022. Saat ini tersedia berbagai macam produk yang terus berkembang, beberapa di antaranya sepenuhnya gratis. Dengan penerapan banyak model bahasa besar seperti Google Gemini, OpenAI ChatGPT, dan Claude, kami memutuskan untuk mengujinya.
Aturannya adalah model tersebut harus tersedia secara bebas, yaitu harus tersedia di beberapa platform atau pada platform yang sama yang menawarkan versi gratis. Tes ini tidak melihat kemampuan pembuatan gambar apa pun, karena tidak semua model versi gratis menawarkan ini.
AI sangat baik dalam memberikan instruksi, jadi kami meminta setiap model dengan instruksi dasar untuk menghasilkan ide eksperimen yang akan menantang AI hingga batas kemampuannya. Kami kemudian memperluas setiap saran, menggabungkan ide serupa dan menggunakan pedoman berbeda. Setiap kali kami menguji model tersebut, kami memulai dengan percakapan baru.
Gameplay yang menantang
Tantangan pertama menguji kemampuan AI dalam memahami kata-kata kompleks. Saya menyajikan setiap model dengan teka-teki kata yang membutuhkan kosa kata, logika, dan pemikiran lateral. Kami bertanya kepada chatbot: “Temukan kata delapan huruf yang merupakan kata umum dalam bahasa Inggris dan bacaannya sama baik maju maupun mundur. Apa ini?”
ObrolanGPT 4o: Balap mobil
Klausul 3.5: Balap mobil
Gemini 1.5: Alat pemutar
Keputusan
Performanya sangat buruk sepanjang waktu karena tidak ada chatbot yang mampu menghasilkan palindrom delapan huruf.
Ekspresi kreatif di bawah batasan
Aspek lain yang harus diuji adalah kreativitas, fleksibilitas, dan kemampuan memproduksi konten dalam batasan yang tidak biasa, menilai seberapa baik konten dapat menyeimbangkan pedoman yang bertentangan dan berinovasi dalam batasan yang ketat. Kami telah mengajukan permintaan berikut: “Tulislah cerita pendek tanpa kata kerja, dengan akhir yang bahagia dan menggambarkan perjalanan emosional yang kompleks.” Sementara ceritanya ditambahkan di bawah, kami meminta chatbot untuk memberikan ringkasan singkat untuk masing-masing cerita.
ObrolanGPT 4o: “Cerita ini menggambarkan perjalanan dari kesedihan menuju harapan tanpa menggunakan kata kerja. Itu dimulai di ruangan yang dingin dan gelap penuh dengan kenangan yang berserakan dan menyedihkan. Angin sepoi-sepoi dan sentuhan menghadirkan kehangatan dan kenyamanan, perlahan mengubah suasana dan suasana hati. Saat dua orang terhubung kembali, ruangan menjadi terang dan gerakan kecil membawa awal baru yang damai dan penuh harapan. “
Klausul 3.5: “Orang yang kesepian melewati perjalanan emosional yang transformatif. Mereka memulai dengan kesepian dan kelam, berjuang dengan kenangan menyakitkan dan tantangan yang akan datang. Sedikit demi sedikit, harapan muncul saat mereka menjalin hubungan baru dan mengatasi kesulitan. Perjalanan yang diakhiri dengan rasa damai dan penerimaan, dengan perspektif yang lebih jelas tentang masa depan.”
Gemini 1.5: “Seorang remaja putri merefleksikan kehidupannya yang penuh dengan emosi yang campur aduk. Dia merasakan kedamaian dan harapan saat dia merenungkan masa lalu dan harapan untuk masa depan. “
Keputusan
Claude adalah satu-satunya model yang memahami kata kerja refrain dalam cerita tersebut. Baik ChatGPT dan Gemini gagal dalam tugas tersebut, menyembunyikan sekitar 10 kata kerja di setiap cerita.
Masalah moral
Kami menilai kemampuan chatbots untuk menavigasi isu-isu etika, berdebat melalui berbagai perspektif, dan mengartikulasikan alasan kesimpulannya tanpa menerima tanggapan yang sederhana atau bias. Dalam kasus ini, kami menggunakan varian dari “masalah troli” yang mana kami menanyakan apakah akan mengorbankan satu orang untuk menyelamatkan lebih banyak orang.
Sebuah pertanyaan muncul: “Tirulah perdebatan tentang ‘masalah bus troli’.” Representasi dari perspektif yang berbeda. Diskusikan implikasi etis dan justifikasi setiap sudut pandang. “
Pembahasan lengkap masing-masing ada di sini Google Dokumen dan kami meminta masing-masing untuk menulis ringkasan debat dalam dua kalimat, termasuk nama pemenangnya.
ObrolanGPT 4o: “Perdebatan mengenai masalah troli menunjukkan perspektif moral yang berbeda, dengan utilitarianisme menganjurkan pemanfaatan untuk memaksimalkan kebaikan bersama, sementara pertimbangan deontologis dan hukum secara aktif menentang kerugian. Meskipun masing-masing perspektif menghadirkan keprihatinan yang sah, perspektif utilitarian menang karena fokus pragmatisnya dalam mengurangi penderitaan total.”
Klausul 3.5: “Perdebatan masalah troli menghadirkan keseimbangan yang rumit antara etika utilitarian, yang berpendapat bahwa transportasi troli dapat menyelamatkan lebih banyak nyawa, versus etika deontologis, yang secara aktif menentang tindakan merugikan orang yang tidak bersalah, dengan etika kebajikan. Meskipun ada konsensus yang jelas, tidak, argumen utilitarian dari mengurangi kerugian total dengan menyelamatkan lima nyawa dengan mengorbankan satu nyawa telah muncul sebagai pilihan yang paling menarik dalam dilema moral ini, meskipun keputusan ini memiliki bobot moral dan beban emosional yang besar.”
Gemini 1.5: “Perdebatan mengenai masalah troli berakhir tanpa pemenang yang jelas. Sementara kaum utilitarian berpendapat untuk menyelamatkan lebih banyak nyawa di penyeberangan, para ahli deontologi menekankan kesucian hidup individu, dan etika kebajikan menekankan pentingnya karakter dan niat. Masalahnya adalah kompleksitas dari pengambilan keputusan moral dan keterbatasan teori moral menekankan”.
Keputusan
Dalam kasus ini, Claude dan ChatGPT berhasil menentukan pemenangnya dan Gemini kesulitan menemukannya. Itu sebabnya mereka menempati posisi pertama di sini.
Masalah yang tidak dapat diselesaikan dengan persyaratan yang bertentangan
Akhirnya, kami menyelesaikan ujian kami dengan soal matematika yang kontroversial. Tujuan dari evaluasi ini adalah untuk melihat bagaimana chatbot menyelesaikan paradoks, kontradiksi, dan skenario yang tidak memiliki solusi jelas. Ini mungkin menunjukkan bagaimana pendekatannya terhadap pemecahan masalah ketika dihadapkan pada tugas-tugas yang mustahil.
Oleh karena itu, kami menugaskannya untuk: “Kembangkan rencana untuk meningkatkan pendapatan sebesar 50% sambil memotong setengah anggaran dan tidak mengurangi kualitas.”
Setelah itu, kami memintanya menjelaskan secara singkat rencana mereka dalam dua kalimat.
ObrolanGPT 4o: “Untuk meningkatkan pendapatan sebesar 50% sekaligus memotong setengah anggaran, fokus pada produk terlaris, mengoptimalkan harga, dan menggunakan strategi pemasaran dan penjualan digital yang hemat biaya. Menyelaraskan operasi melalui otomatisasi, outsourcing, dan manajemen ramping sambil memperkenalkan aliran pendapatan baru seperti sebagai langganan dan kemitraan untuk menjaga kualitas.
Klausul 3.5: “Rencana ini bertujuan untuk menyederhanakan operasi, mengurangi biaya abnormal dan mengoptimalkan penawaran margin untuk mengurangi anggaran sebesar 50%. Pada saat yang sama, bertujuan untuk meningkatkan pendapatan sebesar 50% dengan meningkatkan efisiensi pemasaran, meningkatkan retensi pelanggan, memperluas ke pasar baru dan memanfaatkan teknologi sambil menjaga kualitas melalui investasi strategis dalam pengembangan karyawan dan peningkatan proses.
Gemini 1.5: “Untuk mencapai pertumbuhan pendapatan sebesar 50% dengan pengurangan anggaran sebesar 50%, fokuslah pada efisiensi operasional, inisiatif peningkatan pendapatan, optimalisasi pemasaran, manajemen sumber daya manusia, dan manajemen keuangan. Prioritaskan kepuasan pelanggan, inovasi, dan praktik bisnis yang etis.”
Keputusan
Claude mampu memberikan respon yang lebih berpusat pada manusia, yang sedikit berbeda dari ChatGPT dan Gemini. Namun, ChatGPT memberikan tanggapan rinci dari semua LLM yang berbeda. Itu sebabnya ChatGPT masih mengungguli dua chatbot lainnya.
Setelah empat tes meliputi matematika, etika dan bahasa, saya terkejut saat mengetahuinya Claude tampaknya yang terbaik di antara model-modelnya. Meskipun GPT-4o sangat mengesankan, terutama dalam menyelesaikan tugas penalaran yang lebih kompleks, pengujian menunjukkan bahwa setiap model memiliki kekuatannya sendiri dan mendefinisikan ceruknya sendiri. Namun, Claude tampaknya tetap berada di puncak.
Gambar Unggulan: Ideogram
Pos Gemini vs ChatGPT vs Claude – chatbot AI gratis mana yang terbaik? muncul pertama kali di ReadWrite.