Înapoi la știri

Testele sugerează că AI Overviews de la Google spune milioane de minciuni pe oră

1 oră în urmă
6 minute min
Cristina Preda
Testele sugerează că AI Overviews de la Google spune milioane de minciuni pe oră

Informațiile căutate pe Google astăzi sunt însoțite de AI Overviews, robotul de căutare propulsat de Gemini, care apare la începutul paginii de rezultate. Deși AI Overviews a avut dificultăți de la lansarea din 2024, o nouă analiză realizată de The New York Times sugerează că acesta oferă răspunsuri corecte doar în 90% din cazuri, ceea ce înseamnă sute de mii de erori pe minut, potrivit arstechnica.com.

👉 Controverse și evaluări privind acuratețea AI Overviews

AI Overviews a generat controverse de-a lungul timpului, utilizatorii exprimându-și nemulțumirea față de acuratețea sa incertă. O analiză realizată de The New York Times, în colaborare cu o companie de startup numită Oumi, a evaluat această acuratețe, concluzionând că AI Overviews oferă răspunsuri corecte în 90% din cazuri. Cu toate acestea, asta înseamnă că 1 din 10 răspunsuri generate de AI sunt greșite, ceea ce se traduce prin sute de mii de minciuni furnizate în fiecare minut.

Oumi a utilizat instrumente AI pentru a evalua AI Overviews folosind testul SimpleQA, care este un test comun destinat evaluării factualității modelelor generative precum Gemini. SimpleQA, lansat de OpenAI în 2024, constă într-o listă de peste 4.000 de întrebări cu răspunsuri verificabile care pot fi date unui AI. Testele au început anul trecut, când Gemini 2.5 era modelul de top al companiei, având un procent de acuratețe de 85%. După actualizarea Gemini 3, AI Overviews a răspuns corect la 91% din întrebări.

👉 Exemple de erori și reacția Google față de evaluări

Raportul include exemple de erori ale AI Overviews, cum ar fi răspunsurile greșite date la întrebări simple de factualitate. De exemplu, la întrebarea despre data la care fosta casă a lui Bob Marley a devenit muzeu, AI Overviews a indicat trei pagini, dintre care două nu discutau deloc despre dată, iar ultima, Wikipedia, a oferit doi ani contradictorii, alegând pe cel greșit. De asemenea, la întrebarea legată de data la care Yo Yo Ma a fost inclus în Hall of Fame al muzicii clasice, AI Overviews a invocat website-ul organizației care lista această includere, dar a susținut că nu există așa ceva ca Hall of Fame al muzicii clasice.

Reprezentanții Google, precum purtătorul de cuvânt Ned Adriance, contestă aceste teste, afirmând că SimpleQA conține informații incorecte. Grupul folosește adesea un test similar numit SimpleQA Verified, care se bazează pe un set mai mic de întrebări, verificate mai amănunțit. "Acest studiu are lacune serioase", a declarat Adriance. "Nu reflectă ce caută oamenii pe Google." Evaluarea noilor modele AI pare uneori mai degrabă o artă decât o știință, iar natura non-deterministică a AI generativ poate face verificarea rezultatelor o provocare.

Google a declarat pentru Ars Technica că AI Overviews nu este un model monolitic și utilizează "modelul corect" pentru fiecare întrebare. De obicei, modelele mai rapide, Gemini Flash, sunt utilizate pentru a oferi răspunsuri rapid, având în vedere viteza cerută de utilizatori. Răspunsul Google la acest raport sugerează că pentru AI, 9 din 10 nu este chiar atât de rău, având în vedere că evaluările recente pentru modelele noi indică o acuratețe între 60-80%, fără a folosi instrumente ca căutările pe web.

Cu toate acestea, utilizarea unor date suplimentare de pe internet ajută la îmbunătățirea acurateței AI, însă AI Overviews tinde să încurajeze utilizatorii să accepte rezumate uneori inexacte în loc să verifice sursele acestea manual. Deși Google sugerează că rezultatele The Times nu corespund experienței utilizatorilor, este îngrijorător cum ar putea ști compania acest lucru. E greu să nu observăm greșelile din AI Overviews – le vedem cu toții, deoarece așa funcționează AI generativ. Așa cum ne amintește Google la finalul fiecărui overview: "AI poate face greșeli, așa că verifică răspunsurile."

Alte postari din Economie
Economie

Oale de sote vândute la Costco, retrase după ce capacul metalic de pe mânere se încălzește și „iese cu forța”

Potrivit cbsnews.com, o pereche de oale de sote populare vândute la nivel național la Costco, Walmart.com și alte magazine au fost retrase de pe piață după ce clienții au raportat că capacul metalic de pe mânere a fost ejectat după ce a fost încălzit. Cel puțin 98 de incidente au fost raportate companiei E Mishan, care produce oalele Granitestone Diamond Pro Blue Stainless Sauté.

Economie

Judge halts Nexstar/Tegna merger after FCC let firms exceed TV ownership limit - Ars Technica

Restraining order Judge halts Nexstar/Tegna merger after FCC let firms exceed TV ownership limit “Defendants must immediately cease” actions to integrate and consolidate the firms. 47 Credit: Getty Images | SimpleImages Credit: Getty Images | SimpleImages Text settings Story text Size Small Standard Large Width * Standard Wide Links Standard Orange * Subscribers only Learn more Minimize to nav Although the Trump administration approved Nexstar Media Group’s $6.2 billion purchase of Tegna, a US judge has ordered the two companies to stop integrating their assets and operations.

Economie

Google anunță că „apocalipsa quantum” care ar putea distruge internetul se apropie

Google afirmă că „apocalipsa quantum”, care ar putea compromite securitatea internetului așa cum o cunoaștem, vine mai repede decât se anticipa. Aceasta a fost menționată într-un raport conform căruia calculatoarele cuantice se dezvoltă mai rapid decât se aștepta, iar amenințarea la adresa securității informatice actuale devine tot mai reală, potrivit the-independent.com.

Economie

Statele Unite interzic routerele pentru consumatori noi fabricate în străinătate

Citează temeri legate de securitatea națională, America interzice practic orice nou router de rețea pentru consumatori fabricat în străinătate. Conform Federal Communications Commission (FCC), lista acoperită a fost actualizată pentru a include toate routerele pentru consumatori fabricate în străinătate, interzicând aprobarea oricăror noi modele.

Acasa Recente Radio Județe