కృత్రిమ మేధస్సు లేదా AGI ఇప్పుడు ఊహించిన దానికంటే చాలా వాస్తవంగా, అత్యవసరంగా మరియు దగ్గరగా కనిపిస్తోంది.
“సాధారణ మేధస్సు”ని కొలవడానికి రూపొందించిన పరీక్షలో కొత్త కృత్రిమ మేధస్సు (AI) మోడల్ ఇప్పుడే మానవ-స్థాయి ఫలితాలను సాధించింది .
డిసెంబర్ 20న, OpenAI యొక్క o3 సిస్టమ్ ARC-AGI బెంచ్మార్క్పై 85% స్కోర్ చేసింది , ఇది మునుపటి AI బెస్ట్ స్కోర్ 55% కంటే ఎక్కువగా ఉంది మరియు సగటు మానవ స్కోర్తో సమానంగా ఉంది. చాలా కష్టమైన గణిత పరీక్షలో కూడా మంచి స్కోర్ సాధించింది.
ఆర్టిఫిషియల్ జనరల్ ఇంటెలిజెన్స్ లేదా AGIని సృష్టించడం అనేది అన్ని ప్రధాన AI రీసెర్చ్ ల్యాబ్ల యొక్క లక్ష్యం. OpenAI కనీసం ఈ లక్ష్యం వైపు ఒక ముఖ్యమైన అడుగు వేసినట్లు కనిపిస్తుంది.
సందేహాలు ఉన్నప్పటికీ, చాలా మంది AI పరిశోధకులు మరియు డెవలపర్లు ఇప్పుడే ఏదో మారినట్లు భావిస్తున్నారు. చాలా మందికి, AGI ఇప్పుడు ఊహించిన దానికంటే చాలా వాస్తవమైనది, అత్యవసరమైనదిగా మరియు దగ్గరగా కనిపిస్తుంది. ఇది సరైనదేనా?
సాధారణీకరణ మరియు మేధస్సు
O3 ఫలితం అంటే ఏమిటో అర్థం చేసుకోవడానికి, మీరు ARC-AGI పరీక్ష అంటే ఏమిటో అర్థం చేసుకోవాలి. సాంకేతిక పరంగా, ఇది కొత్తదానికి అనుగుణంగా AI సిస్టమ్ యొక్క “నమూనా సామర్థ్యం” యొక్క పరీక్ష – సిస్టమ్ ఎలా పనిచేస్తుందో గుర్తించడానికి ఎన్ని ఉదాహరణలు చూడాలి. ChatGPT (GPT-4) వంటి AI వ్యవస్థ చాలా వాటి లాగా సమర్థవంతమైనది కాదు. ఇది మానవ టెక్స్ట్ యొక్క మిలియన్ల ఉదాహరణలపై “శిక్షణ” పొందింది, పదాల కలయికలు ఎక్కువగా ఉండే సంభావ్యత “నియమాలను” నిర్మిస్తుంది. సాధారణ పనులలో దీని ఫలితం చాలా బాగుంది, కొన్ని అసాధారణ పనులలో సరిగా పని చేయదు ,ఎందుకంటే ఇది ఆ పనుల గురించి తక్కువ డేటా (తక్కువ నమూనాలు) కలిగి ఉంది.
AI సిస్టమ్లు తక్కువ సంఖ్యలో ఉదాహరణల నుండి నేర్చుకునే వరకు మరియు మరింత నమూనా సామర్థ్యంతో స్వీకరించే వరకు, అవి చాలా పునరావృతమయ్యే పనులు మరియు అప్పుడప్పుడు వైఫల్యాలను భరించగలిగే వాటి కోసం మాత్రమే ఉపయోగించబడతాయి.
డేటా యొక్క పరిమిత నమూనాల నుండి గతంలో తెలియని సమస్యలను ఖచ్చితంగా పరిష్కరించగల సామర్థ్యాన్ని సాధారణీకరించే సామర్థ్యం అంటారు. ఇది మేధస్సు యొక్క అవసరమైన, ప్రాథమికమైన అంశంగా పరిగణించబడుతుంది.
గ్రిడ్లు మరియు నమూనాలు
ARC-AGI బెంచ్మార్క్ చిన్న గ్రిడ్ స్క్వేర్ సమస్యలను ఉపయోగించి నమూనా సమర్థవంతమైన అనుసరణ కోసం పరీక్షిస్తుంది. ఎడమవైపు ఉన్న గ్రిడ్ను కుడివైపున ఉన్న గ్రిడ్గా మార్చే నమూనాను AI గుర్తించాలి.
ప్రతి ప్రశ్న నేర్చుకోవడానికి మూడు ఉదాహరణలను ఇస్తుంది. AI సిస్టమ్ అప్పుడు మూడు ఉదాహరణల నుండి నాల్గవ వరకు “సాధారణీకరించే” నియమాలను గుర్తించాలి. ఇవి చాలా వరకు IQ పరీక్షల వంటివి
బలహీనమైన నియమాలు మరియు అనుసరణ
OpenAI దీన్ని ఎలా చేసిందో మాకు ఖచ్చితంగా తెలియదు, కానీ ఫలితాలు o3 మోడల్ అత్యంత అనుకూలమైనదని సూచిస్తున్నాయి. కేవలం కొన్ని ఉదాహరణల నుండి, ఇది సాధారణీకరించబడే నియమాలను కనుగొంటుంది.
ఒక నమూనాను గుర్తించడానికి, మనం ఎటువంటి అనవసరమైన ఊహలను చేయకూడదు లేదా మనం నిజంగా ఉండవలసిన దానికంటే మరింత నిర్దిష్టంగా ఉండకూడదు. సిద్ధాంతంలో , మీరు కోరుకున్నది చేసే “బలహీనమైన” నియమాలను మీరు గుర్తించగలిగితే, మీరు కొత్త పరిస్థితులకు అనుగుణంగా మీ సామర్థ్యాన్ని పెంచుకున్నారు.
బలహీనమైన నియమాలు అంటే ఏమిటి? సాంకేతిక నిర్వచనం సంక్లిష్టంగా ఉంటుంది, కానీ బలహీనమైన నియమాలు సాధారణంగా సరళమైన ప్రకటనలలో వివరించబడతాయి .
పై ఉదాహరణలో, నియమం యొక్క సాదా ఆంగ్ల వ్యక్తీకరణ ఇలా ఉండవచ్చు: “పొడుచుకు వచ్చిన రేఖతో ఉన్న ఏదైనా ఆకారం ఆ పంక్తి చివరకి కదులుతుంది మరియు అది అతివ్యాప్తి చెందుతున్న ఏవైనా ఇతర ఆకృతులను ‘కవర్ అప్’ చేస్తుంది.”
ఆలోచనల గొలుసులను శోధిస్తున్నారా?
OpenAI ఈ ఫలితాన్ని ఇంకా ఎలా సాధించిందో మాకు తెలియనప్పటికీ, బలహీనమైన నియమాలను కనుగొనడానికి వారు ఉద్దేశపూర్వకంగా o3 సిస్టమ్ని ఆప్టిమైజ్ చేసినట్లు అనిపించదు. అయితే, ARC-AGI టాస్క్లలో విజయం సాధించాలంటే అది తప్పనిసరిగా వాటిని కనుగొనాలి.
OpenAI O3 మోడల్ యొక్క సాధారణ-ప్రయోజన వెర్షన్తో ప్రారంభించబడిందని మాకు తెలుసు (ఇది చాలా ఇతర మోడల్ల నుండి భిన్నంగా ఉంటుంది, ఎందుకంటే ఇది కష్టమైన ప్రశ్నల గురించి “ఆలోచించడానికి” ఎక్కువ సమయం వెచ్చించగలదు) ఆపై దానిని ARC-AGI పరీక్ష కోసం ప్రత్యేకంగా శిక్షణ ఇచ్చింది.
బెంచ్మార్క్ను రూపొందించిన ఫ్రెంచ్ AI పరిశోధకుడు ఫ్రాంకోయిస్ చొల్లెట్, పనిని పరిష్కరించడానికి దశలను వివరించే విభిన్న “ఆలోచనల గొలుసుల” ద్వారా o3 శోధనలను విశ్వసించారు . ఇది కొన్ని వదులుగా నిర్వచించబడిన నియమం లేదా “హ్యూరిస్టిక్” ప్రకారం “ఉత్తమమైనది” ఎంపిక చేస్తుంది
ప్రపంచ గో ఛాంపియన్ను ఓడించడానికి Google యొక్క ఆల్ఫాగో సిస్టమ్ వివిధ రకాల కదలికల ద్వారా శోధించిన దానికి ఇది “విరుద్ధం కాదు”.
ఉదాహరణలకు సరిపోయే ప్రోగ్రామ్ల వంటి ఈ ఆలోచనల గొలుసుల గురించి మీరు ఆలోచించవచ్చు. వాస్తవానికి, ఇది గో-ప్లేయింగ్ AI లాగా ఉంటే, ఏ ప్రోగ్రామ్ ఉత్తమమో నిర్ణయించడానికి దానికి హ్యూరిస్టిక్ లేదా వదులుగా ఉండే నియమం అవసరం.
వేలకొద్దీ విభిన్నంగా సమానంగా చెల్లుబాటు అయ్యే ప్రోగ్రామ్లు రూపొందించబడి ఉండవచ్చు. ఆ హ్యూరిస్టిక్ “బలహీనమైనదాన్ని ఎంచుకోండి” లేదా “సరళమైనదాన్ని ఎంచుకోండి” కావచ్చు.
అయినప్పటికీ, ఇది ఆల్ఫాగో లాగా ఉంటే, వారు కేవలం AI ఒక హ్యూరిస్టిక్ను సృష్టించారు. ఇది ఆల్ఫాగోకు సంబంధించిన ప్రక్రియ. విభిన్న కదలికల క్రమాలను ఇతరుల కంటే మెరుగైనవి లేదా అధ్వాన్నంగా రేట్ చేయడానికి Google ఒక మోడల్కు శిక్షణ ఇచ్చింది.
మనకు ఇంకా ఏమి తెలియదు
ప్రశ్న ఏమిటంటే, ఇది నిజంగా AGIకి దగ్గరగా ఉందా? o3 ఆ విధంగా పని చేస్తే, అంతర్లీన మోడల్ మునుపటి మోడల్ల కంటే మెరుగ్గా ఉండకపోవచ్చు.
భాష నుండి మోడల్ నేర్చుకునే భావనలు మునుపటి కంటే సాధారణీకరణకు అనుకూలంగా ఉండకపోవచ్చు. బదులుగా, ఈ పరీక్షకు ప్రత్యేకమైన హ్యూరిస్టిక్కు శిక్షణ ఇచ్చే అదనపు దశల ద్వారా మరింత సాధారణీకరించదగిన “ఆలోచనల గొలుసు”ను మనం చూడవచ్చు. రుజువు, ఎప్పటిలాగే, పుడ్డింగ్లో ఉంటుంది.
O3 గురించి దాదాపు ప్రతిదీ తెలియదు. OpenAI కొన్ని మీడియా ప్రెజెంటేషన్లకు పరిమిత బహిర్గతం మరియు కొన్ని పరిశోధకులు, ప్రయోగశాలలు మరియు AI భద్రతా సంస్థలకు ముందస్తు పరీక్షలను కలిగి ఉంది.
o3 యొక్క సంభావ్యతను నిజంగా అర్థం చేసుకోవడానికి మూల్యాంకనాలు, దాని సామర్థ్యాల పంపిణీపై అవగాహన, ఎంత తరచుగా విఫలమవుతుంది మరియు ఎంత తరచుగా విజయవంతమవుతుంది వంటి విస్తృతమైన పని అవసరం.
చివరకు o3 విడుదలైనప్పుడు, ఇది సగటు మానవుని వలె దాదాపుగా అనుకూలించదగినదా అనే దాని గురించి మాకు మెరుగైన ఆలోచన ఉంటుంది.
అలా అయితే, ఇది భారీ, విప్లవాత్మక, ఆర్థిక ప్రభావాన్ని కలిగి ఉంటుంది, స్వీయ-మెరుగుదల వేగవంతమైన మేధస్సు యొక్క కొత్త శకానికి నాంది పలికింది. AGI కోసం మాకు కొత్త బెంచ్మార్క్లు అవసరం మరియు అది ఎలా నిర్వహించబడాలి అనే విషయాన్ని తీవ్రంగా పరిగణించాలి.
కాకపోతే, ఇది ఇప్పటికీ అద్భుతమైన ఫలితం అవుతుంది. అయితే, రోజువారీ జీవితం చాలా వరకు అలాగే ఉంటుంది.
మైఖేల్ తిమోతీ బెన్నెట్ ఆస్ట్రేలియన్ నేషనల్ యూనివర్శిటీలోని స్కూల్ ఆఫ్ కంప్యూటింగ్లో PhD విద్యార్థి మరియు ఎలిజా పెరియర్ స్టాన్ఫోర్డ్ సెంటర్ ఫర్ రెస్పాన్సిబుల్ క్వాంటం టెక్నాలజీ, స్టాన్ఫోర్డ్ విశ్వవిద్యాలయంలో పరిశోధనా సహచరుడు.