Gemini, GPT-4o et Ask Photo: survol des dernières avancées en IA

Nous venons de franchir un nouveau pas dans le monde de l’intelligence artificielle avec l’annonce des nouvelles versions de ChatGPT et de Gemini, sans oublier la venue de Ask Photo, le nouvel assistant visuel qui intégrera le service Google Photos cet été. Voici un survol des trois logiciels.

Annoncée le 14 mai dernier lors de la conférence annuelle Google I/O, et accessible au public depuis le 24 mai, la mise à jour de Gemini 1.5, modèle de langage (LLM) disponible sur le web, se divise principalement en deux sous-versions. Une amélioration de Gemini 1.5 Pro, qui se spécialise dans la résolution de tâches plus complexes, et la venue de Gemini 1,5 Flash, qui peut répondre à des questions moins complexes, mais plus rapidement et à un moindre prix que la version Pro.

Également, les nouvelles fonctionnalités de Gemini seront intégrées à Google Photos, sous le nom d’Ask Photo, un outil de recherche et d’analyse avancé ayant pour but entre autres de faciliter l’organisation des photos et la navigation dans les albums. De nombreux autres projets d’IA ont été annoncés par Google, notamment PaliGemma, un modèle ouvert de vision-langage (VLM) capable de réaliser des analyses d’images.

Du côté d’OpenAI, annoncé le 13 mai, GPT-4o, ou GPT-4 omni, est plus rapide et plus « humain » que son prédécesseur. Lorsqu’on survole les promesses de ces deux grands compétiteurs en IA, on remarque que ChatGPT et Gemini semblent évoluer en parallèle : tous deux promettent de meilleurs résultats, plus de rapidité, des interactions plus fluides avec l’outil, et un assistant visuel capable d’analyses diverses. Est-ce que l’un aurait pourtant plus de poids que l’autre sur une balance mesurant valeur et prouesse ?

Le combat des géants

Gemini 1.5 et GPT-4o possèdent plusieurs attributs en commun. Ce qui les fait rayonner dans les médias depuis la semaine dernière, c’est leur capacité à écouter les commandes vocales et y répondre avec fluidité. En consultant la page de présentation de GPT-4o sur le site web d’OpenAI, on peut observer à travers plusieurs vidéos la capacité du logiciel à entretenir une conversation à voix haute avec un humain ou un autre appareil utilisant ChatGPT, chanter et même parler avec un ton sarcastique.

À travers l’utilisation de la caméra d’un cellulaire, le logiciel peut également arbitrer une partie de roche-papier-ciseaux, décrire l’environnement qui lui est montré, et plus encore. Gemini 1.5 peut être utilisé à des fins similaires. Des vidéos présentées par Google lors de leur conférence du 14 mai démontrent les prouesses de Gemini 1.5 en analyse de scène. Le logiciel peut retrouver un objet vu précédemment dans le champ de vision de la caméra, et analyser une chaîne de code qui lui est montrée sur un écran.

Une démo de GPT4-o arbitrant une partie de roche-papier-ciseaux (crédits: OpenAI).

Benoît Raphaël, conférencier et journaliste spécialisé dans les usages de l’intelligence artificielle, explique que « la force de Gemini 1.5, c’est son contexte (sa mémoire de travail), qui est 6 fois supérieur à celle de ChatGPT, lui [permettant] de traiter de plus grands volumes de documents et de faire preuve d’une plus grande cohérence ». Il ajoute également que « la force de Gemini c’est son intégration dans la gamme d’outils de Google ».

Cet accès aux autres logiciels de Google déjà bien imbriqués dans nos vies tels que Google Disque et Gmail est un avantage indéniable de Gemini. Cela dit, de manière générale, GPT-4o semble répondre aux questions qui lui sont posées plus rapidement que Gemini. Dans son analyse des deux produits, MyScale, une base de données vectorielle pour les applications et solutions d’IA, affirme que « lors de récents tests de performance, GPT-4o a systématiquement surpassé Gemini dans les tâches nécessitant des réponses rapides et des calculs complexes ».

« La force de Gemini c’est son intégration dans la gamme d’outils de Google. »

– Benoît Raphaël, journaliste spécialisé en IA

GPT-4o sera également disponible en 50 langues différentes, alors que Gemini n’en est qu’à 35. Qui plus est, suite à la controverse qui a touché Gemini en février dernier, après que de nombreux utilisateurs aient noté le refus récurrent du logiciel d’illustrer des personnes blanches ainsi que sa tendance à changer la couleur de peau de personnages historiques, Google lui a temporairement enlevé sa capacité de générer des images, et ne lui a toujours pas redonné.

GPT-4o ne souffre pas de cette lacune. Dans une analyse publiée sur Beebom, média spécialisé en actualités technologiques, le journaliste techno Arjun Sha affirme que les seules caractéristiques qui permettent à Gemini de se démarquer de GPT-4o sont sa mémoire de travail et sa capacité à recevoir des vidéos dans sa boîte de saisie.

Ask Photos: Une IA dans vos albums photos

Le but de Google avec Ask Photos est simple ; utiliser son modèle Gemini pour alléger la recherche d’images dans Google Photos. La multinationale explique le fonctionnement de son nouvel assistant en deux étapes distinctes. La première étape consiste à comprendre la question demandée par l’utilisateur, en analysant les mots clés et les concepts. Ensuite, le logiciel parcourt la collection d’images disponibles, analyse celles qui semblent correspondre le mieux à la description demandée, les sélectionne, et fournit le résultat final.

Dans une démo présentée à la conférence Google I/O, Ask Photo est capable de retrouver toutes les photos d’une fillette qui nage, et de les mettre en ordre chronologique pour montrer son amélioration en natation.

Améliorations parsemées d’hallucinations

M. Raphaël rappelle qu’à chaque mise à jour dans les modèles de langage, une lacune persiste toujours, soit le problème de l’hallucination. Les IA, comme les humains qui les programment, sont promptes à faire des gaffes. « Leur principal défaut est leur comportement erratique, et leur taux d’hallucination qui reste très fort (20 %) et freine l’automatisation.

C’est donc le principal défaut à régler, et ce n’est pas un mince défaut puisqu’il est natif », dit Raphaël. Le journaliste en IA ajoute aussi qu’il est peut-être erroné de dire que ces nouvelles versions de LLM sont plus humaines. « Ils “pensent” différemment, dit-il, et les antropomorphiser peuvent nous pousser à leur faire trop confiance ou à faire des erreurs. »

Les amateurs d’IA ont donc le choix entre deux outils très similaires qui peuvent tous deux accomplir sensiblement les mêmes tâches. Il en revient donc à l’utilisateur de tester les options et choisir celle qui convient le mieux à ses besoins. Lisa Lacy, journaliste chez CNET, explique dans son article comparant les deux LLM qu’ils peuvent être vus comme « le Coke et le Pepsi de l’IA générative ».

« Le Coca et le Pepsi sont tous deux des colas, mais fabriqués avec des formules différentes, et comme tout buveur de soda vous le dira, ils n’ont pas le même goût », dit-elle. Il reste donc à voir si une formule répondra mieux aux besoins du marché que l’autre.

Crédit Image à la Une : Istock