Testele sugerează că AI Overviews de la Google spune milioane de minciuni pe oră
Informațiile căutate pe Google astăzi sunt însoțite de AI Overviews, robotul de căutare propulsat de Gemini, care apare la începutul paginii de rezultate. Deși AI Overviews a avut dificultăți de la lansarea din 2024, o nouă analiză realizată de The New York Times sugerează că acesta oferă răspunsuri corecte doar în 90% din cazuri, ceea ce înseamnă sute de mii de erori pe minut, potrivit arstechnica.com.
👉 Controverse și evaluări privind acuratețea AI Overviews
AI Overviews a generat controverse de-a lungul timpului, utilizatorii exprimându-și nemulțumirea față de acuratețea sa incertă. O analiză realizată de The New York Times, în colaborare cu o companie de startup numită Oumi, a evaluat această acuratețe, concluzionând că AI Overviews oferă răspunsuri corecte în 90% din cazuri. Cu toate acestea, asta înseamnă că 1 din 10 răspunsuri generate de AI sunt greșite, ceea ce se traduce prin sute de mii de minciuni furnizate în fiecare minut.
Oumi a utilizat instrumente AI pentru a evalua AI Overviews folosind testul SimpleQA, care este un test comun destinat evaluării factualității modelelor generative precum Gemini. SimpleQA, lansat de OpenAI în 2024, constă într-o listă de peste 4.000 de întrebări cu răspunsuri verificabile care pot fi date unui AI. Testele au început anul trecut, când Gemini 2.5 era modelul de top al companiei, având un procent de acuratețe de 85%. După actualizarea Gemini 3, AI Overviews a răspuns corect la 91% din întrebări.
👉 Exemple de erori și reacția Google față de evaluări
Raportul include exemple de erori ale AI Overviews, cum ar fi răspunsurile greșite date la întrebări simple de factualitate. De exemplu, la întrebarea despre data la care fosta casă a lui Bob Marley a devenit muzeu, AI Overviews a indicat trei pagini, dintre care două nu discutau deloc despre dată, iar ultima, Wikipedia, a oferit doi ani contradictorii, alegând pe cel greșit. De asemenea, la întrebarea legată de data la care Yo Yo Ma a fost inclus în Hall of Fame al muzicii clasice, AI Overviews a invocat website-ul organizației care lista această includere, dar a susținut că nu există așa ceva ca Hall of Fame al muzicii clasice.
Reprezentanții Google, precum purtătorul de cuvânt Ned Adriance, contestă aceste teste, afirmând că SimpleQA conține informații incorecte. Grupul folosește adesea un test similar numit SimpleQA Verified, care se bazează pe un set mai mic de întrebări, verificate mai amănunțit. "Acest studiu are lacune serioase", a declarat Adriance. "Nu reflectă ce caută oamenii pe Google." Evaluarea noilor modele AI pare uneori mai degrabă o artă decât o știință, iar natura non-deterministică a AI generativ poate face verificarea rezultatelor o provocare.
Google a declarat pentru Ars Technica că AI Overviews nu este un model monolitic și utilizează "modelul corect" pentru fiecare întrebare. De obicei, modelele mai rapide, Gemini Flash, sunt utilizate pentru a oferi răspunsuri rapid, având în vedere viteza cerută de utilizatori. Răspunsul Google la acest raport sugerează că pentru AI, 9 din 10 nu este chiar atât de rău, având în vedere că evaluările recente pentru modelele noi indică o acuratețe între 60-80%, fără a folosi instrumente ca căutările pe web.
Cu toate acestea, utilizarea unor date suplimentare de pe internet ajută la îmbunătățirea acurateței AI, însă AI Overviews tinde să încurajeze utilizatorii să accepte rezumate uneori inexacte în loc să verifice sursele acestea manual. Deși Google sugerează că rezultatele The Times nu corespund experienței utilizatorilor, este îngrijorător cum ar putea ști compania acest lucru. E greu să nu observăm greșelile din AI Overviews – le vedem cu toții, deoarece așa funcționează AI generativ. Așa cum ne amintește Google la finalul fiecărui overview: "AI poate face greșeli, așa că verifică răspunsurile."