ÐÂÖÇÔª±¨µÀ ±à¼£ºÓ¢ÖÇ ¡¾ÐÂÖÇÔªµ¼¶Á¡¿ LMMÔÚÈËÀà·´À¡Ï±íÏÖÈçºÎ£¿Ð¼ÓƹúÁ¢´óѧ»ªÈËÍŶÓÌá³öInterFeedback¿ò¼Ü£¬½á¹ûÏÔʾ£¬×îÏȽøµÄLMMͨ¹ýÈËÀà·´À¡¾ÀÕý½á¹ûµÄ±ÈÀý²»µ½50%£¡ ´ó¹æÄ£¶àģ̬ģÐÍ£¨Large Multimodal Models£¬LMM£©ÔÚÈËÀà·´À¡ÏµıíÏÖÈçºÎ£¿ ÕâÒ»ÎÊÌâ¶ÔÓÚÀûÓÃLMM¿ª·¢Í¨ÓÃAIÖúÊÖÖÁ¹ØÖØÒª£¬ÏÖÓеĻù×¼²âÊÔ²¢Î´Õë¶ÔLMMÓëÈËÀàµÄ½»»¥ÖÇÄܽøÐвâÊÔ¡£ À´×ÔмÓƹúÁ¢´óѧµÄ»ªÈËÍŶÓÌá³öÁËInterFeedback£¬Ò»¸ö¿ÉÓ¦ÓÃÈκÎLMMºÍÊý¾Ý¼¯µÄ½»»¥Ê½¿ò¼Ü¡£ ÂÛÎÄÁ´½Ó£ºhttps://arxiv.org/abs/2502.15027 ÔÚ´Ë»ù´¡ÉÏ£¬ÍŶÓÒýÈëÁËInterFeedback-Bench£¬ÓÃÁ½¸ö¾ßÓдú±íÐÔµÄÊý¾Ý¼¯£¨MMMU-ProºÍMathVerse£©À´ÆÀ¹À½»»¥ÖÇÄÜ£¬²¢¶Ô10ÖÖ²»Í¬µÄLMM½øÐвâÊÔ¡£ InterFeedback-BenchÖ¼ÔÚÈ«ÃæÆÀ¹ÀLMM£º 1£©½»»¥Ê½½â¾öÎÊÌâµÄÄÜÁ¦£» 2£©½âÊÍ·´À¡ÒÔÌáÉý×ÔÉíµÄÄÜÁ¦¡£ ÆÀ¹À½á¹û±íÃ÷£¬×îÏȽøµÄLMMͨ¹ýÈËÀà·´À¡¾ÀÕý½á¹ûµÄ±ÈÀý²»µ½50%£¡ ½»»¥Ê½¹ý³Ì¿ÉÌáÉý´ó¶àÊýLMM½â¾öÄÑÌâµÄÐÔÄÜ£¬ÏÖÓÐLMMÔÚ½âÊͺÍÕûºÏ·´À¡·½Ãæ±íÏÖÇ·¼Ñ¡£½øÐжîÍâµü´ú²»Ò»¶¨ÄܵóöÕýÈ·µÄ½â¾ö·½°¸£¬¸ßÖÊÁ¿·´À¡ÖÁ¹ØÖØÒª¡£ ÈËÀàÔÚ½â¾öÎÊÌâʱ£¬¾ßÓкÜÇ¿µÄÊÊÓ¦ÐÔ£¬Äܹ»´Ó·´À¡Ö⻶ÏѧϰÍêÉÆ¡£Í¬Ñù£¬ÏȽøµÄLMMÒ²Ó¦¸ÃÄÜ´Ó·´À¡ÖÐѧϰ£¬Ìá¸ß½â¾öÎÊÌâµÄÄÜÁ¦¡£ ÆÀ¹ÀLMM½»»¥ÖÇÄܵĹؼüÌôÕ½ÔÚÓÚ×Ô¶¯Ä£ÐͲâÊÔ£¬²»Í¬Ä£ÐͶÔÏàͬ²éѯµÄÏìÓ¦²»Í¬£¬ÐèÒªÈËÀàÔÚÿ¸ö¶Ô»°ÂÖ´ÎÖÐÌṩ¶¨ÖÆ»¯·´À¡¡£ InterFeedback¿ò¼ÜÉè¼ÆÔÀí Ñо¿ÈËÔ±Ìá³öÁËInterFeedback£¬ÕâÊÇÒ»¸ö»ùÓÚ½»»¥Ê½ÎÊÌâ½â¾öµÄ¿ò¼Ü£¬Í¨¹ýGPT-4oµÈÄ£ÐÍÄ£ÄâÈËÀà·´À¡£¬ÈÃLMMÔÚ¶¯Ì¬µÄ½»»¥»·¾³ÖнøÐвâÊÔºÍѧϰ¡£ InterFeedback-Bench½«´øÓз´À¡µÄ½»»¥Ê½ÎÊÌâ½â¾ö¹ý³Ì£¬±ä³ÉÁËÒ»ÖÖÊýѧģÐÍ£¬½Ð²¿·Ö¿É¹Û²âÂí¶û¿É·ò¾ö²ß¹ý³Ì£¨POMDP£©¡£ ͨ¹ý״̬¿Õ¼ä¡¢¹Û²âÖµ¡¢¶¯×÷¿Õ¼ä¡¢×ªÒƺ¯ÊýºÍ½±Àøº¯ÊýµÈÒªËØ£¬¾«È·µØÃèÊöÄ£ÐÍÔÚ½»»¥¹ý³ÌÖеÄÐÐΪºÍ¾ö²ß¡£ ÔÚʵ¼ÊÓ¦ÓÃÖУ¬µ±¸ø¶¨×ÔÈ»ÓïÑÔÎÊÌâºÍÊäÈëͼÏñʱ£¬Ä£ÐÍ»ùÓÚµ±Ç°×´Ì¬»ñÈ¡¹Û²âÖµ£¬Éú³É×ÔÈ»ÓïÑԻظ´¡£½±Àøº¯Êýͨ¹ý¾«È·Æ¥ÅäµÄ·½Ê½ÅжÏÈÎÎñµÄÕýÈ·ÐÔ£¬ÎªÄ£ÐÍÌṩ·´À¡Ðźš£ Êý¾Ý¼¯¹¹½¨ InterFeedback-Bench²ÉÓÃÁËÁ½¸öÓÐÌôÕ½ÐÔµÄÊý¾Ý¼¯£ºMathVerseºÍMMMU-Pro¡£ MathVerseÊÇÒ»¸öÊÓ¾õÊýѧÎÊÌâÊý¾Ý¼¯£¬ÆäÖаüº¬Á˸÷ÖÖÐèÒª½áºÏͼÏñºÍÊýѧ֪ʶ²ÅÄܽâ¾öµÄÎÊÌâ¡£ MMMU-ProÔòÊÇ×ÛºÏÐԵĶàģ̬»ù×¼²âÊÔ£¬º¸ÇÁ˶à¸öÁìÓòµÄר¼Ò¼¶ÎÊÌ⣬°üÀ¨¿Æѧ¡¢¼¼Êõ¡¢¹¤³ÌºÍÊýѧµÈ¡£ ͨ¹ýÇÉÃîµØÀûÓÃLMM£¨ÀýÈçGPT-4o£©À´Ä£ÄâÈË»ú½»»¥£¬¹¹½¨³ö¾ßÓÐÕë¶ÔÐԵIJâÊÔÊý¾Ý¼¯¡£ ¾ßÌå¶øÑÔ£¬Í¨¹ýÑ¡Ôñ·´À¡ÌṩģÐÍM_p´ð¶Ô£¬¶ø·´À¡½ÓÊÕÄ£ÐÍM_r´ð´íµÄ½»¼¯£¬È·±£·´À¡µÄÏà¹ØÐԺͿɿ¿ÐÔ¡£ InterFeedback¿ò¼Ü InterFeedback¿ò¼ÜÓÐÁ½¸ö½ÇÉ«£º·´À¡½ÓÊÕÕßM_rºÍ·´À¡ÌṩÕßM_p¡£ M_rÊÇ×¼±¸½ÓÊÜ»ù×¼²âÊÔµÄLMM£¬ÈçQwen2-VL£¬M_pÊǵ±Ç°×îÓŵÄLMM£¬ÈçGPT-4o£¬ÓÃÓÚÔÚÿ¸öʱ¼ä²½´úÌæÈËÀàÌṩ·´À¡¡£ µ±M_rÄ£ÐÍÉú³ÉÊä³öºó£¬M_p»á¸ù¾ÝÓ³Éä²ßÂÔÌṩ·´À¡£¬Ä£ÐÍÔò¸ù¾Ý·´À¡½øÐиĽø£¬Èç´ËÑ»·£¬Ö±µ½µÃµ½ÕýÈ·´ð°¸»ò´ïµ½Ô¤ÉèµÄµü´ú´ÎÊý¡£ ÔÚÕâ¸ö¹ý³ÌÖУ¬M_r¸ù¾Ýµ±Ç°µÄ״̬ºÍ¹Û²âÐÅÏ¢£¬Éú³ÉÏàÓ¦µÄ¶¯×÷¡£M_pÔò¸ù¾ÝÄ£Ð͵Ļشð£¬Ìṩ·´À¡ÐÅÏ¢£¬°ïÖúÄ£Ð͸Ľø×Ô¼ºµÄ»Ø´ð¡£ »ùÓÚInterFeedback¿ò¼Ü£¬ÍŶӹ¹½¨ÁËInterFeedback-Bench»ù×¼²âÊÔ¡£Õâ¸ö»ù×¼²âÊÔÖ¼ÔÚÈ«ÃæÆÀ¹ÀLMM½»»¥Ê½ÎÊÌâ½â¾öºÍ·´À¡Ñ§Ï°µÄÄÜÁ¦¡£ ÈËÀàÆÀ¹À»ù×¼²âÊÔ ³ýÁË×Ô¶¯»ù×¼²âÊÔ£¬Ñо¿ÍŶӻ¹ÊÕ¼¯ÁËInterFeedback-HumanÊý¾Ý¼¯£¬ÓÃÓÚÈ˹¤ÆÀ¹À±ÕÔ´Ä£ÐÍ¡£ Óë×Ô¶¯»ù×¼²âÊÔ²»Í¬£¬InterFeedback-HumanÊý¾Ý¼¯µÄÆÀ¹À¹ý³Ì¸ü×¢ÖØÈËÀàµÄ²ÎÓëºÍ·´À¡¡£Óû§¸ù¾ÝÄ£Ð͵Ļشð£¬ÌṩÏêϸµÄ·´À¡ÐÅÏ¢£¬°üÀ¨ÎÊÌâµÄ·ÖÎö¡¢ÕýÈ·µÄ˼·ºÍ´ð°¸µÈ¡£ ͨ¹ýÕâÖÖ·½Ê½£¬¿ÉÒÔ¸üÉîÈëµØÁ˽âÄ£ÐÍÔÚʵ¼ÊÈË»ú½»»¥ÖеıíÏÖ£¬ÒÔ¼°ËüÃÇÀí½âºÍ´¦ÀíÈËÀà·´À¡µÄÄÜÁ¦¡£ ʵÑé½á¹ûÓë·ÖÎö Ñо¿ÈËÔ±Éè¼ÆÁËһϵÁÐʵÑ飬ÔÚMathVerseºÍMMMU-ProÁ½¸ö¾ßÓдú±íÐÔµÄÊý¾Ý¼¯ÉÏ£¬¶Ô¶à¸ö¿ªÔ´LMM½øÐÐÁËÈ«ÃæÆÀ¹À¡£ ÓÃ׼ȷÂʺ;À´íÂÊÀ´ÆÀ¹À½á¹û£¬¾À´íÂʶ¨ÒåΪËùÓдíÎóÑù±¾Öб»¾ÀÕý´ð°¸µÄÑù±¾ËùÕ¼µÄ°Ù·Ö±È¡£N±íʾÑù±¾×ÜÊý£¬N_e±íʾ´íÎóÑù±¾µÄÊýÁ¿£¬N_c±íʾÒѱ»¾ÀÕýµÄÑù±¾ÊýÁ¿¡£ ׼ȷÂʺ;À´íÂÊ¿ÉÒÔÓÃÒÔϹ«Ê½±íʾ£º ½»»¥¹ý³ÌÄÜÌá¸ßÐÔÄÜ ÊµÑé½á¹û±íÃ÷£¬½»»¥Ê½¹ý³Ì¶Ô´ó¶àÊýLMMµÄÐÔÄÜÌáÉýÓÐÏÔÖøµÄ´Ù½ø×÷ÓᣠInterFeedback¿ò¼ÜÄÜʹ´ó¶àÊýÄ£ÐÍ´ÓGPT-4oºÍClaude-3.5-SonnetµÈÌṩµÄ·´À¡ÖÐÊÜÒæ¡£ ÀýÈ磬¼´Ê¹ÊÇÐÔÄܽÏÈõµÄFuyu-8BÄ£ÐÍ£¬Í¨¹ýGPT-4oµÄ·´À¡Ò²ÄܾÀÕý24.1%µÄ´íÎóÑù±¾¡£Õâ±íÃ÷½»»¥¹ý³Ì¿ÉÒÔÓÐЧÌá¸ß´ó¶àÊýLMM½â¾öÎÊÌâµÄÄÜÁ¦¡£ ÄÑÒÔͨ¹ý·´À¡ÌáÉýÐÔÄÜ ¾¡¹ÜÓÐÏȽøÄ£ÐÍÌṩµÄ·´À¡£¬µ«´ó¶àÊýLMMÈÔÄÑÒÔ¾ÀÕýËùÓдíÎóÑù±¾¡£ ÒÔQwen2-VL-7BºÍMolmoΪÀý£¬Qwen2-VL-7BÔÚMathVerseÊý¾Ý¼¯ÉÏʹÓÃGPT-4oµÄ·´À¡Ê±£¬¾À´íÂÊΪ66.8%£¬µ«ÔÚMMMU-ProÊý¾Ý¼¯ÉϽöΪ50.4%¡£ Molmo-7BÔÚMathVerseºÍMMMU-ProÊý¾Ý¼¯ÉϵľÀ´íÂÊ·Ö±ðΪ55.1%ºÍ51.7%£¬ÆäÓàÄ£Ð͵ľÀ´íÂÊÆÕ±éµÍÓÚ50%¡£ ¼´Ê¹ÓÐLMMÌṩµÄ·´À¡£¬µ±Ç°µÄÄ£ÐÍÔÚͨ¹ý·´À¡ÌáÉý×ÔÉíÐÔÄÜ·½ÃæÈÔ´æÔڽϴóÀ§ÄÑ¡£ ׼ȷÂÊ¿ÉÄÜÎÞ·¨·´Ó³Ä£ÐÍÄÜÁ¦ ʵÑé·¢ÏÖ£¬×¼È·ÂÊ¿ÉÄÜÎÞ·¨Õæʵ¡¢È«ÃæµØ·´Ó³Ä£Ð͵Äʵ¼ÊÄÜÁ¦¡£ ÀýÈ磬InternVL2-8BµÄ׼ȷÂʽϸߣ¨38.1%£©£¬µ«Æä¾À´íÂʽöΪ49.6%¡£¶ø׼ȷÂʽϵͣ¨22.5%£©µÄQwen2-VL-7BÔÚʹÓÃGPT-4oµÄ·´À¡Ê±£¬È´´ïµ½ÁË×î¸ßµÄ¾À´íÂÊ66.8%¡£ ÔÚMMMU-ProÊý¾Ý¼¯ÉÏÒ²ÓÐÀàËÆÇé¿ö£¬LLaVA-OneVision-7BµÄ׼ȷÂÊÅÅÃûµÚ¶þ£¨47.1%£©£¬µ«Æä¾À´íÂʽöΪ 31.7%£¬µÍÓÚ¼¸¸ö׼ȷÂʽϵ͵ÄÄ£ÐÍ¡£ Õâ±íÃ÷½öͨ¹ý׼ȷÂÊÆÀ¹ÀÄ£ÐÍ£¬¿ÉÄÜÎÞ·¨È«ÃæÌåÏÖÆäÕæʵÄÜÁ¦¡£ ·´À¡ÖÊÁ¿ÖÁ¹ØÖØÒª ÁîÈ˾ªÑȵÄÊÇ£¬ËùÓÐÄ£ÐͶ¼ÄÜ´Ó¼òµ¥µÄ¶þÔª£¨0/1£©·´À¡ÖÐÊÜÒæ¡£ ͬʱ£¬Ñо¿·¢ÏÖ·´À¡ÖÊÁ¿ÖÁ¹ØÖØÒª£¬µÍÖÊÁ¿·´À¡¶ÔÐÔÄܵÄË𺦱ȼòµ¥µÄ¶þÔª·´À¡¸ü´ó¡£ ÔÚMathVerseÊý¾Ý¼¯ÉÏ£¬¶ÔÓÚһЩģÐÍ£¬Ê¹ÓôÎÓÅÄ£ÐÍ£¨Gemini-1.5-Flash£©ÌṩµÄ¼òµ¥¶þÔª·´À¡£¬ÆäЧ¹ûÓÅÓÚLMMÉú³ÉµÄÏêϸ·´À¡¡£ È˹¤»ù×¼²âÊԵķÖÎö ÔÚ¶ÔOpenAI-o1¡¢GPT-4o¡¢Gemini-2.0ºÍClaude-3.5-SonnetµÈ±ÕÔ´Ä£Ð͵ÄÈ˹¤ÆÀ¹ÀÖУ¬Claude-3.5µÄƽ¾ù׼ȷÂÊ×î¸ß£¬´ïµ½ÁË48.3%¡£ ´Ó¾ÀÕýÂʽá¹û·ÖÎöÀ´¿´£¬²»Í¬Ä£ÐÍ´ÓÈËÀà·´À¡ÖлñÒæµÄÂִκͳ̶ȴæÔÚÃ÷ÏÔ²îÒì¡£ GPT-4oÔÚµÚÒ»ÂÖ·´À¡ÖÐÄܹ»¾ÀÕý41.9%µÄ´íÎóÑù±¾£¬ÏÔʾ³öÆä¶ÔÈËÀà·´À¡µÄ¿ìËÙÏìÓ¦ºÍѧϰÄÜÁ¦¡£ Claude-3.5ÔòÔÚµÚ¶þÂÖ·´À¡ÖÐÕ¹ÏÖ³öÇ¿´óµÄ¾ÀÕýÐÔÄÜ£¬³É¹¦¾ÀÕýÁË30.6%µÄ´íÎóÑù±¾¡£ÔÚµÚÈýÂÖ£¬ÓÉÓÚÌṩÁËÕæʵ´ð°¸£¬ËùÓÐLMM¶¼Äܹ»¸ø³öÑ¡ÔñÕýÈ·´ð°¸µÄÍÆÀí²½Öè¡£ ´ËÍ⣬²»Í¬ÈÎÎñÀà±ðÖб»¾ÀÕýÑù±¾µÄ·Ö²¼Ò²ÓÐËù²»Í¬¡£ ÊÓ¾õÂß¼ÈÎÎñ´ó¶àÔÚÇ°Á½ÂÖ¾ÍÄܹ»µÃµ½ÓÐЧ½â¾ö£¬¶ø´¿Îı¾ÊýѧÈÎÎñºÍMMMU-ProÈÎÎñÔÚÇ°Á½ÂֵľÀÕýÏà¶Ô½ÏÉÙ¡£ Ïà±È֮ϣ¬´¿Îı¾±àÂëÈÎÎñºÍMathVerseÈÎÎñÔÚÇ°Á½ÂÖÒ²³öÏÖÁËÒ»¶¨±ÈÀýµÄ¾ÀÕý£¬ËµÃ÷Ä£ÐÍÔÚÕâЩÁìÓò¾ßÓÐÒ»¶¨µÄѧϰºÍ¸Ä½øÄÜÁ¦¡£ ²Î¿¼×ÊÁÏ£º https://huggingface.co/papers/2502.15027 https://arxiv.org/pdf/2502.15027