ÐÂÖÇÔª±¨µÀ ±à¼£º±à¼²¿ NJY ¡¾ÐÂÖÇÔªµ¼¶Á¡¿ ¹È¸èÍŶӷ¢ÏÖÁËÈ«ÐÂScaling Law£¡Ð·½·¨DiLoCo±»Ö¤Ã÷¸üºÃ¡¢¸ü¿ì¡¢¸üÇ¿£¬¿ÉÔÚ¶à¸öÊý¾ÝÖÐÐÄѵÁ·Ô½À´Ô½´óµÄLLM¡£ ²âÊÔʱ¼ÆËãÖ®ºó£¬¹È¸èÈý´óÍŶӼ¯ÖÚÈËÖ®Á¦£¬·¢ÏÖÁËȫеÄScaling Law£¡ ¸Õ¸Õ£¬¹È¸èÑо¿Ô±Zachary CharlesÐû²¼£º¡¸ÔÚÔ½À´Ô½´óµÄÄ£ÐÍÉÏ£¬·Ö²¼Ê½ÑµÁ·È¡µÃÖØ´óÍ»ÆÆ¡¹¡£ Õâ¸öºËÐÄËã·¨£¬±ãÊÇ¡ª¡ªDiLoCoµÄScaling Law¡£ еÄѵÁ··½·¨ÎÞ¾åÄ£Ð͹æÄ££¬Î´À´£¬ÔÚ¡¸¶à¸öÊý¾ÝÖÐÐÄ¡¹ÑµÁ·´óÄ£Ð͵ĹæÄ£²»ÔÙÊÇÎÊÌâ¡£ ÂÛÎĵóöËÄ´ó·¢ÏÖ£¬DiLoCoѵÁ··½·¨µÄScaling law£¬Ð§¹ûÔ¶³¬¡¸Êý¾Ý²¢ÐС¹£º ¸üÎȽ¡£¨Harder£© £ºÔÚ²»Í¬Ä£Ð͹æģϣ¬DiLoCoµÄ³¬²ÎÊýÒÀÈ»±£³ÖÎȶ¨ÇÒ¿ÉÔ¤²â¡£ ¸üÓÅÔ½£¨Better£© £ºËæ×ÅÄ£Ð͹æÄ£À©´ó£¬DiLoCoÏà½ÏÓÚÊý¾Ý²¢ÐÐѵÁ·µÄÓÅÊƽøÒ»²½ÌáÉý¡£ ¸ü¸ßЧ£¨Faster£© £ºDiLoCoËùÐèµÄ´ø¿í±ÈÊý¾Ý²¢ÐÐѵÁ·ÉÙ¼¸¸öÊýÁ¿¼¶¡£ ¸üÇ¿´ó£¨Stronger£© £ºDiLoCoÄܹ»ÈÝÈ̱ÈÊý¾Ý²¢ÐÐѵÁ·´óµÃ¶àµÄÅú´óС¡£ ÖµµÃÒ»ÌáµÄÊÇ£¬Õâƪ¾Þ×÷¼¯½áÁ˹ȸèÈý´óÍŶӣº¹È¸èResearch¡¢¹È¸èSearch¡¢¹È¸èDeepMind¡£ ÂÛÎĵØÖ·£ºhttps://arxiv.org/pdf/2503.09799 Ôڹ̶¨¼ÆËãÔ¤ËãÏ£¬Ñо¿ÈËԱ̽ÌÖÁËDiLoCoÔÚѵÁ·´óÄ£ÐÍʱµÄScaling law¡£ ÂÛÎÄÖУ¬Öصã·ÖÎöÁËËã·¨ÒòËØ£¨ÈçÄ£Ð͸±±¾ÊýÁ¿¡¢³¬²ÎÊýÉèÖá¢tokenÔ¤Ë㣩ÈçºÎÓ°ÏìѵÁ·¹ý³Ì£¬²¢Ö¤Ã÷ÕâЩӰÏì¿Éͨ¹ýScaling law׼ȷԤ²â¡£ ½á¹û±íÃ÷£¬DiLoCoÔÚÄ£Ð͹æÄ£Ôö³¤Ê±£¬±íÏÖ³öÎȶ¨ÇÒ¿ÉÔ¤²âµÄÀ©Õ¹ÐÔ¡£ÂÛÎĺÏÖøÕßArthur DouillardÔÙ´ÎÇ¿µ÷£ºDiLoCoÉúЧÁË£¡ ÖÇÄܵÄδÀ´½«ÊÇ·Ö²¼Ê½µÄ£¬¶øDiLoCo¿ÉÄÜÕýÊÇÄǸö¹Ø¼üµÄÒªËØ ÔÚºÏÀíµ÷ÓŵÄÇé¿öÏ£¬DiLoCo±ÈÊý¾Ý²¢ÐÐѵÁ·¸ü¾ßÀ©Õ¹ÓÅÊÆ£¬¼´Ê¹ÔÚС¹æģģÐÍÉÏÒ²¿ÉÄÜÓÅÓÚÊý¾Ý²¢ÐÐѵÁ·¡£ ÕâЩ·¢ÏÖ£¬½ÒʾÁËDiLoCoµÄÇ¿´óÓÅÊÆ£º²»½ö½â¾öÁËͨÐÅÆ¿¾±£¬»¹Îª´ó¹æģģÐÍѵÁ·¿ª±ÙÁËȫеĿÉÄÜ¡£ ÓÐÍøÓѾªÌ¾µØ±íʾ£¬¡¸DiLoCo¿ÉÄÜ»áÖØж¨ÒåLLM ScalingµÄ·½Ê½£¡¸üÉٵĴø¿íÐèÇ󣬸ü¸ßµÄЧÂÊ¡¹¡£ ×óÓÒ»¬¶¯²é¿´ ¡¸Êý¾Ý²¢ÐС¹ÑµÁ·Öս᣿ Êý¾Ý²¢ÐÐѵÁ·ÔÚ´óÄ£ÐÍÉϱíÏÖ³öÉ«£¬Ç°ÌáÊÇÔÚ¼ÆËã×ÊÔ´¼¯ÖзÖÉ¢µÄÇé¿öÏ£¬²ÅÄÜʵÏÖ¡£ Èç¹û¼ÆËã·Ö²¼½Ï¹ã£¬Í¨ÐžͿÉÄܳÉΪ¾Þ´óµÄÆ¿¾±£¬ÓÈÆäÊǵ±Ä£Ð͹æÄ£Ôö³¤Ê±£¬ÎÊÌâ»á¸ü¼ÓÑÏÖØ£¡ »úÆ÷ѧϰ²ÉÓõĽâ¾ö·½°¸£¬ÀýÈçÔÚÁª°îѧϰºÍÊý¾ÝÖÐÐÄѵÁ·ÖУ¬¾ÍÊÇÈöà¸ö¶ÀÁ¢Ä£ÐͽøÐÐѵÁ·£¬²¢¶¨ÆÚͬ²½¡£ Ëæ×Å»úÆ÷ѧϰģÐ͹æÄ£µÄÀ©´ó£¬Êý¾Ý²¢Ðз½·¨¹ÌÓеÄƵ·±Í¬²½ÐèÇó»áµ¼ÖÂÏÔÖøµÄÐÔÄÜϽµ£¬Õâ¶Ô½øÒ»²½À©Õ¹Ä£Ð͹¹³ÉÁ˹ؼüÌôÕ½¡£ ÄÇô£¬ÈçºÎÔÚ±£³ÖÄ£ÐÍÖÊÁ¿µÄͬʱ£¬½µµÍͬ²½ÐèÇó£¬ÒÔÍ»ÆÆÕâһƿ¾±ÄØ£¿ ´ð°¸»òÐí¾ÍÔÚ£¬DiLoCo£¨Distributed Low-Communication£©ÕâÒ»´´Ð·½·¨ÖС£ ÂÛÎÄÁ´½Ó£ºhttps://arxiv.org/abs/2311.08105 ÿ¸öDiLoCoÄ£Ð͸±±¾¶¼»á¶ÀÁ¢ÑµÁ·H¸öÄÚ²¿ÓÅ»¯£¨inner optimization£©²½Öè¡£ ÕâЩģÐÍͨ¹ýÍⲿÓÅ»¯£¨outer optimization£©²½Öè½øÐÐͬ²½£¬Í¨³£ÔÚÍⲿÓÅ»¯²½ÖèÖ®¼äÒýÈ붯Á¿»úÖÆ¡£ ÔÚÏÂͼÖУ¬Ê¾ÀýÖй²ÓÐM=4¸öÄ£Ð͸±±¾¡£ DiLoCoµÄ³É¹¦ÒѾ±»·´¸´ÑéÖ¤¡£ËüµÄÔË×÷·½Ê½ÓëÁª°îѧϰµÄFedOpt·½·¨ÀàËÆ¡£ ´ËÍ⣬Ñо¿ÈËÔ±Ò²¶à´ÎÖ¤Ã÷DiLoCoÔÚ´óÄ£ÐÍ£¨LLM£©ÑµÁ·ÖеÄ׿Խ±íÏÖ¡£ ÄÇôDiLoCoÓÐʲôÎÊÌ⣿¼òµ¥À´Ëµ¡ª¡ª¹æÄ£ ¡£ DiLoCoÓëÊý¾Ý²¢ÐÐѵÁ·²»Í¬£¬ËüÒýÈëÁ˶îÍâµÄ¡¸Íⲿ¡¹³¬²ÎÊý£¬²¢ÇÒʵ¼ÊÉϵıíÏÖºÍÀíÂÛÉÏÃ÷ÏÔ²»Í¬¡£ ÕâÕýÊÇÑо¿scaling lawsµÄÄ¿µÄ£¡ Õâ´ÎÑо¿´ÓÁ㿪ʼ¹¹½¨ÁËDiLoCoºÍÊý¾Ý²¢ÐÐѵÁ·µÄScaling law£¬ÓÃÓÚÔ¤²âËüÃÇÔÚ´ó¹æģģÐÍÉϵıíÏֶԱȡ£ ÔÚÊý¾Ý²¢ÐÐѵÁ·ÖУ¬Ã¿¸öѵÁ·²½³¤¶¼»á´¦ÀíÒ»¸ö´óСΪBµÄÊý¾ÝÅú¡£ ÔÚ±¾Ñо¿ÖУ¬Åú´óСָµÄÊÇÅúÖеÄtokenÊýÁ¿£¨¶ø²»ÊÇÐòÁÐÊýÁ¿£©¡£ ¼ÆËãÅúÌݶȣ¬²¢Ê¹ÓÃѧϰÂʦýøÐÐÓÅ»¯¡£ ÔÚDiLoCoѵÁ·¹ý³ÌÖУ¬Ã¿¸öʱ¼ä²½t´¦ÀíÒ»¸öÈ«¾ÖÅú´óСΪBµÄÊý¾Ý£¬²¢ÔÚÐòÁ춱ð½«Æä¾ùÔÈ·ÖÅäµ½M¸öDiLoCo¸±±¾ÖС£ Òò´Ë£¬È«¾ÖÅú´óСÈÔÈ»ÊÇB£¬¶øÿ¸öDiLoCo¸±±¾µÄ±¾µØÅú´óСΪB/M¡£ÓëÊý¾Ý²¢ÐÐѵÁ·ÀàËÆ£¬Ã¿¸ö¸±±¾¶¼»á¼ÆËãÅúÌݶȣ¬²¢Ê¹ÓÃѧϰÂʦÃÖ´ÐÐÒ»´ÎÄÚ²¿ÓÅ»¯£¨inner optimization£©¡£ µ«ÓëÊý¾Ý²¢Ðв»Í¬µÄÊÇ£¬DiLoCoÿH²½»áÖ´ÐÐÒ»´Î¡¸ÍⲿÓÅ»¯¡¹£¨outer optimization£©£¬»ùÓÚ²ÎÊý¿Õ¼ä¼ÆËãµÄÍⲿÌݶȣ¨outer-gradients£©£¬²¢Ê¹ÓÃѧϰÂʦǽøÐиüС£ Ò»¸öÖØÒªµÄ¶Ô±ÈÊÇÊý¾Ý²¢ÐÐvs.DiLoCo£¨M=1£©¡£ ËäÈ»ËüÃÇÏàËÆ£¬µ«²¢²»ÍêÈ«Ïàͬ¡£ DiLoCoÔÚM=1µÄÇé¿öÏ£¬ÈÔÈ»°üº¬Ò»¸öÍⲿÓÅ»¯Æ÷£¨OuterOpt£©²½Ö裬Òò´ËËü¿ÉÒÔ±»ÊÓΪLookaheadÓÅ»¯Æ÷µÄ±äÌå¡£ ¶øÔÚDiLoCoÖУ¬OuterOptͨ³£Ê¹ÓôøÓÐNesterov¶¯Á¿µÄGD£¬ÕâÒâζ×ÅDiLoCo£¨M=1£©Êµ¼ÊÉÏÊÇÊý¾Ý²¢ÐÐѵÁ·µÄÒ»¸ö±äÌ壬µ«¶¯Á¿²Ù×÷½öÿH²½Ö´ÐÐÒ»´Î¡£ »¹½øÐÐÁË´óÁ¿ÊµÑ飬º¸ÇѵÁ·¹ý³ÌµÄ¸÷¸ö·½Ã棬ȫÃæ·ÖÎöÁËËüÃǵÄÀ©Õ¹ÐÐΪ¡£ ʵÑé·½·¨ ´ó²¿·ÖʵÑéÀÑо¿ÍŶÓʹÓÃC4Êý¾Ý¼¯µÄѵÁ·¼¯À´ÑµÁ·Ä£ÐÍ£¬ÆÀ¹ÀÖ¸±êÓÃC4µÄÑéÖ¤¼¯¡£ ÁíÍ⣬»¹ÔÚÈý¸öÏÂÓÎÈÎÎñÉÏËãÁËÁãÑù±¾ÆÀ¹ÀÖ¸±ê£ºHellaSwag¡¢PiqaºÍArc-Easy¡£ Ä£Ðͼܹ¹£ºChinchilla±äÌå Ñо¿ÍŶÓÓõÄÊÇÒ»¸öÀàËÆ¡¸Chinchilla¡¹µÄ´¿½âÂëÆ÷Transformer¼Ü¹¹£¬¼ÓÈëÁËQK-LayerNorm£¬»¹Ê¹ÓÃÁËz-lossÕýÔò»¯À´ÈÃѵÁ·¸üÎȶ¨¡£ ËûÃǰѶà¸öÐòÁдò°üµ½Ã¿¸öÅúÀ×î´óÐòÁ㤶ÈÈ«³Ì¹Ì¶¨Îª2,048¡£ ËùÓÐÄ£ÐͶ¼ÊÇ´ÓÁ㿪ʼѵÁ·µÄ£¬ÒòΪÕâ´ÎÖ÷ÒªÏëÑо¿Ô¤ÑµÁ·½×¶ÎµÄ¹æÄ£¹æÂÉ¡£ Ñо¿ÍŶÓѵÁ·ÁËÒ»¶ÑÄ£ÐÍ£¬µ÷ÕûÁËTransformer²ãÊý¡¢×¢ÒâÁ¦Í·µÄÊýÁ¿¡¢QKVά¶ÈºÍÇ°À¡²ãµÄÒþ²Øά¶È¡£ ³ý·ÇÌرð˵Ã÷£¬ËûÃǶ¼ÓÃChinchillaµÄtokenÔ¤Ë㣬²¢ÇÒ¶Ô³ýÁË×î´óµÄÁ½¸öÄ£ÐÍ£¨4BºÍ10B²ÎÊý£©Í⣬ÆäËûÄ£ÐͶ¼×öÁË´óÁ¿µÄ³¬²ÎÊýµ÷Õû¡£ Ëã·¨ºÍÓÅ»¯Æ÷ Ñо¿ÍŶÓÓÃAdamW×÷ΪÊý¾Ý²¢ÐУ¨Data-Parallel£©µÄÓÅ»¯Æ÷£¬Ò²ÊÇDiLoCoµÄÄÚ²ãÓÅ»¯Æ÷¡£Á½¸öËã·¨µÄ¦Â1ÉèΪ0.9£¬¦Â2ÉèΪ0.99¡£ ѵÁ·¿ªÊ¼ÓÐ1000²½µÄÔ¤ÈÈ£¬È»ºóÓÃÓàÏÒѧϰÂÊË¥¼õ¡£È¨ÖØË¥¼õ²ÎÊý¦ËÉèΪT??£¬ÆäÖÐTÊÇ×ÜѵÁ·²½Êý£¨È¡¾öÓÚÅú´óСºÍtokenÔ¤Ë㣩¡£µ½ÑµÁ·½áÊøʱ£¬Ñ§Ï°ÂÊË¥¼õµ½·åÖµµÄ5%¡£ ΪÁËѵÁ·Îȶ¨£¬ËûÃÇ°Ñ£¨Äڲ㣩ÌݶȵÄÈ«¾Ö?2·¶Êý¼ô²Ãµ½1£¬Íâ²ãÌݶȲ»¼ô²Ã¡£ ¶ÔÓÚDiLoCo£¬ËûÃÇÓôøNesterov¶¯Á¿µÄSGD×÷ΪÍâ²ãÓÅ»¯Æ÷¡£¶¯Á¿ÉèΪ0.9£¬Íâ²ãѧϰÂʱ£³Ö²»±ä¡£ ´Ó0¹¹½¨£¬È«ÐÂScaling LawÒÑÀ´ ·¢ÏÖ1£º¹æÄ£ DiLoCoµÄÆÀ¹ÀËðʧËæ×ÅNµÄÔö¼Ó£¬Ïà¶ÔÓÚÊý¾Ý²¢ÐУ¨Data-Parallel£©ÓÐËù¸ÄÉÆ¡£ Scaling lawÔ¤²â£¬µ±M=2ʱ£¬DiLoCoÔÚ²ÎÊý´ïµ½¼¸Ê®ÒÚÒÔÉÏʱ£¬Ëðʧ»á±ÈÊý¾Ý²¢ÐиüµÍ¡£ÕâÒ»ÏÖÏóÔÚÑо¿µ÷ÓŵÄ×î´óÄ£ÐÍÒÔ¼°4BºÍ10BÄ£Ð͵ÄѵÁ·Öж¼µÃµ½ÁËÑéÖ¤¡£ ÏÂͼ2չʾÁËDiLoCoºÍData-ParallelÁ½ÖÖËã·¨ÔÚ²»Í¬Ä£Ð͹æÄ££¨N£©ÏµıíÏֶԱȡ£ ͼ(a)ÏÔʾ£¬Ëæ×ÅÄ£Ð͹æÄ£´Ó2^25µ½2^31Öð½¥Ôö´ó£¬DiLoCo£¨·Ö±ðÔÚM=1¡¢2¡¢4¡¢8ʱ£©ºÍData-ParallelµÄÆÀ¹ÀËðʧ£¨EvalLoss£©¶¼ÔÚϽµ£¬µ«DiLoCoµÄËðʧϽµµÃ¸üÃ÷ÏÔ£¬ÓÈÆäÊÇÔÚMÖµ½Ï´óʱ¡£ ͼ(b)½øÒ»²½Õ¹Ê¾ÁËDiLoCoÏà¶ÔÓÚData-ParallelµÄÆÀ¹ÀËðʧµÄ°Ù·Ö±È²îÒ죬¿ÉÒÔ¿´³ö£¬Ëæ×ÅÄ£Ð͹æÄ£Ôö¼Ó£¬DiLoCoµÄËðʧ±ÈData-ParallelµÍµÃÔ½À´Ô½¶à£¬ËµÃ÷DiLoCoÔÚÄ£Ð͹æÄ£À©´óʱ±íÏÖ¸üÓÅÔ½¡£ Õâ¸ö·¢ÏÖÓÐÁ½¸ö¶ÀÁ¢µ«Ïà¹ØµÄ²¿·Ö£º DiLoCo(M=1)±íÏÖ¸üºÃ£º¾ÍÏñÉÏÃæÌáµ½µÄ£¬DiLoCoÔÚM=1ʱ£¬ËùÓÐÄ£Ð͹æÄ£µÄÆÀ¹ÀËðʧ¶¼±ÈData-ParallelµÍ¡£¶øÇÒËæ×ÅÄ£ÐͲÎÊý¹æÄ£NÔö¼Ó£¬Data-ParallelºÍDiLoCo(M=1)Ö®¼äµÄ²î¾àÔ½À´Ô½´ó¡£ DiLoCo(M¡Ý2)µÄ±íÏÖ£ºÔÚ´ó¶àÊýÄ£Ð͹æģϣ¬DiLoCoÔÚM¡Ý2ʱÆÀ¹ÀËðʧ»á¸ü¸ß¡£²»¹ý£¬Èç¹û¿´DiLoCoºÍData-ParallelÖ®¼äµÄ°Ù·Ö±È²îÒ죨´øÕý¸ººÅ£©£¬»á·¢ÏÖËæ×ÅNÔö´ó£¬DiLoCoÏà¶ÔData-ParallelµÄ±íÏÖÔ½À´Ô½ºÃ£¬ÉõÖÁÔÚM=2¡¢N=2.4ÒÚ²ÎÊýʱ³¬¹ýÁËData-Parallel¡£ ±ÈÈ磬Ñо¿ÍŶÓÔÚϱí4ÖÐÁгöÁËData-ParallelºÍDiLoCoÔÚ²»Í¬Ä£Ð͹æÄ£NϵÄÆÀ¹ÀËðʧ¡£ ¿ÉÒÔ¿´³ö£¬²»¹ÜMÊǶàÉÙ£¬°Ù·Ö±È²îÒ춼Ëæ×ÅNÔö¼ÓÑϸñ¼õС¡£ Õâ¸öÇ÷ÊÆÔÚͼ2ÖÐÒ²ÓÐչʾ£ºËæ×ÅNÔö¼Ó£¬DiLoCoµÄÏà¶ÔÆÀ¹ÀËðʧÖð½¥½µµÍ¡£ Ñо¿ÍŶӻ¹Í¨¹ýÓÃËõ·Å·¨Ôòµ÷ºÃµÄ³¬²ÎÊý£¬ÑµÁ·ÁË40ÒÚºÍ100ÒÚ²ÎÊýµÄÄ£ÐÍÀ´ÑéÖ¤ÕâÒ»µã¡£ ËäȻͼ2ÏÔʾµÄÊÇ¡¸²åÖµ¡¹·¶Î§µÄ½á¹û£¨»ùÓÚ´óÁ¿ÊµÑéɨÃ裩£¬µ«ÕâЩ·¢ÏÖÒ²¿ÉÒÔÍƹ㵽ÍâÍÆ״̬£¬ÄÜÔÚM=1»ò2ʱÓÃDiLoCoѵÁ·³öÆÀ¹ÀËðʧ¸üµÍµÄ40ÒÚºÍ100ÒÚ²ÎÊýÄ£ÐÍ¡£ ϱí5չʾÁËÓÃÍâÍƳ¬²ÎÊýѵÁ·µÄ½á¹û£¬Õ¹Ê¾ÁËÔڽϴó¹æÄ£µÄ4BºÍ10BÄ£ÐÍÉÏ£¬DiLoCoºÍData-ParallelËã·¨µÄÆÀ¹ÀËðʧ¶Ô±È£¬±íÃ÷DiLoCoÔÚ¸ü´ó¹æÄ£ÏÂÕûÌå±íÏÖ³öÉ«¡£ ·¢ÏÖ2£ºµ¥¸±±¾DiLoCo µ±¸±±¾ÊýM=1ʱ£¬DiLoCoÔÚ²»Í¬Ä£Ð͹æģϻñµÃµÄÆÀ¹ÀËðʧ¶¼±ÈData-ParallelµÍ¡£ ÏÂͼ3չʾÁ˵±¸±±¾ÊýM=1ʱ£¬DiLoCoÓëData-ParallelÔÚ²»Í¬Ä£Ð͹æÄ££¨35M¡¢550M¡¢1.3B¡¢2.4B£©ºÍÈ«¾ÖÅú´óС£¨ÒÔtoken¼Æ£¬´Ó2^16µ½2^20£©ÏµÄÆÀ¹ÀËðʧºÍHellaSwagÁãÑù±¾×¼È·ÂʶԱȡ£ ͼ(a)ÏÔʾDiLoCoµÄÆÀ¹ÀËðʧʼÖÕµÍÓÚData-Parallel£¬ÇÒ²î¾àËæ×ÅÅú´óСÔö¼Ó¶øÀ©´ó£»Í¼(b)±íÃ÷DiLoCoÔÚHellaSwagÁãÑù±¾×¼È·ÂÊÉÏÒ²ÓÅÓÚData-Parallel£¬Ç÷ÊÆÏàËÆ¡£ ÔÚ¼¸ºõËùÓÐÇé¿öÏ£¬ÔÚM=1ʱ£¬DiLoCo²»½öÆÀ¹ÀËðʧ¸üµÍ£¬ÏÂÓÎÈÎÎñµÄÁãÑù±¾×¼È·ÂÊÒ²±ÈData-Parallel¸ß¡£ ¶øÇÒ£¬DiLoCo(M=1)µÄ±íÏÖ¶ÔÅú´óС£¨batch size£©µÄÎȶ¨ÐÔ¸üÇ¿£º°ÑÅú´óС·±¶»ò·Ëı¶£¬¶ÔData-ParallelµÄÐÔÄÜÓ°ÏìºÜ´ó£¬µ«¶ÔDiLoCo(M=1)¼¸ºõûɶӰÏ죬ͼ3ÀﻵúÜÇå³þ¡£ ·¢ÏÖ3£ºÅú´óС¶ÔÐÔÄܵÄÓ°Ïì DiLoCoÌá¸ßÁË×î¼ÑÅú´óС£¬¶øÇÒ×î¼ÑÈ«¾ÖÅú´óСËæן±±¾ÊýMµÄÔö¼Ó¶ø±ä´ó¡£ÕâÒâζ×ÅDiLoCoÏà±ÈData-Parallel¸ÄÉÆÁ˺áÏòÀ©Õ¹ÄÜÁ¦¡£ ËäÈ»DiLoCoÔÚÅú´óСM>1ʱ£¬ÌôÑ¡ËùÓг¬²ÎÊýÖÐ×îºÃµÄʵÑé½á¹û£¬ÆÀ¹ÀËðʧÍùÍùÂÔÑ·Ò»³ï£¬µ«ËüÔÚÅú´óС·½ÃæµÄ±íÏÖÏÔÖøÌáÉý¡£ Data-ParallelºÍDiLoCo(M=1)ÔÚСÅúʱ±íÏÖ¶¼²»´í£¬µ«Ëæ×ÅÅú´óСÔö¼Ó£¬Data-ParallelµÄÐÔÄÜϽµºÜ¿ì¡£ Ïà±È֮ϣ¬²»¹ÜÅú´óСMÊǶàÉÙ£¬DiLoCoµÄ±íÏÖ¶ÔÅú´óС¶¼Îȶ¨µÃ¶à¡£ ÏÂͼ4չʾÁËÆÀ¹ÀËðʧµÄÀý×Ó£¬½á¹û±íÃ÷£¬¶ÔÓÚËùÓÐMÖµ£¬DiLoCoµÄ×î¼ÑÅú´óС¶¼±ÈData-Parallel¸ü´ó£¬ÇÒËæ×ÅMµÄÔö¼Ó£¬DiLoCoµÄ×î¼ÑÅú´óС½øÒ»²½Ôö´ó¡£ ÀýÈ磬ÔÚ550MÄ£ÐÍÖУ¬Data-ParallelµÄÆÀ¹ÀËðʧÔÚÅú´óС½ÏСʱ×îµÍ£¬¶øDiLoCoÔÚÅú´óС¸ü´óʱ±íÏÖ¸üÓÅ£¬ÀàËÆÇ÷ÊÆÔÚ1.3BºÍ2.4BÄ£ÐÍÖÐÒ²³ÉÁ¢¡£ ÏÂͼ5չʾÁËÔÚHellaSwagÊý¾Ý¼¯ÉϵÄÁãÑù±¾×¼È·ÂÊ¡£½á¹ûÏÔʾ¼´Ê¹ÔÚ½ÏСµÄÄ£Ð͹æģϣ¬DiLoCoÔÚM=2ʱҲÄÜÔÚ¸ü´óµÄÈ«¾ÖÅú´óСÏÂʵÏÖ¸ü¸ßµÄ׼ȷÂÊ¡£ ÀýÈçÔÚ550MÄ£ÐÍÖУ¬DiLoCoµÄ׼ȷÂÊÇúÏßÔÚÅú´óСÔö¼ÓʱÓÅÓÚData-Parallel£»1.3BºÍ2.4BÄ£ÐÍÒ²±íÏÖ³öÀàËÆÇ÷ÊÆ¡£ ·¢ÏÖ4£ºÍⲿѧϰÂÊ ×î¼ÑÍⲿѧϰÂÊ»ù±¾ÉÏÓëÄ£Ð͹æÄ£NÎ޹أ¬µ«»áËæן±±¾ÊýMµÄ±ä»¯¶ø±ä»¯¡£ Ò»¸öÖØÒª½á¹ûÊÇ£¬DiLoCoÔÚˮƽÀ©Õ¹Éϸü×ÔÈ»¡£ÔÚËùÓÐÇé¿öÏ£¬tokenÔ¤ËãD£¬Ö»¸úÄ£Ð͹æÄ£NÓйء£ÕâÒâζ×ÅÈç¹ûÓÃ4±¶´óµÄÅú´óС£¬ÑµÁ·²½Êý»á¼õÉÙµ½1/4¡£ ¶ÔDiLoCoÀ´Ëµ£¬ÕâÒÀÈ»Äܱ£³Ö²»´íµÄÐÔÄÜ£¬»¹ÄÜÒ»´ÎÐÔÓøü¶à×ÊÔ´£¬Ëõ¶Ì×ÜѵÁ·Ê±¼ä¡£¶øData-ParallelËƺõ¸üÒÀÀµ´®ÐÐѵÁ·¡£ÕâÖÖѵÁ·Ê±¼äµÄ¼õÉÙ»¹ÒòΪͨÐÅÁ¿½µµÍ¶ø¼Ó±¶Ã÷ÏÔ¡£ ÏÂͼ6չʾÁËÀíÏëµÄѵÁ·Ê±¼ä£¨wall-clock time£©£¬Ä£ÄⲻͬÍøÂç´ø¿íϵÄÇé¿ö¡£ ¿ÉÒÔ¿´µ½£¬DiLoCo¶Ô½Ï´óÅú´óСµÄÈÝÈ̶ÈʹÆäÄܹ»ÏÔÖø¸ü¿ìµØʵÏÖÓëData-ParallelÏ൱µÄÐÔÄÜËðʧ£¬¶øÇÒÔڵʹø¿íÉèÖÃÖÐÕâÖÖЧ¹û¸üΪÃ÷ÏÔ¡£ ·¢ÏÖ5£ºÍⲿѧϰÂÊ ÈçÏÂͼ7Ëùʾ£¬¶ÔÓÚ×ã¹»´óµÄÄ£ÐÍ£¨N¡Ý3.35ÒÚ²ÎÊý£©£¬Ã¿¸öMµÄ×î¼Ñ¦ÇÊǹ̶¨µÄ¡£MÔ½´ó£¬¦ÇËƺõÒ²Ô½´ó¡£Õâ¸ú֮ǰÁª°îѧϰµÄÑо¿Ò»Ö£ºÍâ²ãѧϰÂÊÓ¦¸ÃËæ×Å¿Í»§¶ËÊýÁ¿Ôö¼Ó¶øÔö¼Ó¡£ ʵ¼ÊÉÏ£¬ÍⲿѧϰÂʽöÈ¡¾öÓÚDiLoCoÄ£Ð͵ÄÊýÁ¿ÒÔ¼°Í¬²½µÄƵÂÊ¡£ Ò²¾ÍÊÇ˵£¬ËäÈ»×îÓŵÄÄÚ²ãѧϰÂÊ»áËæÄ£Ð͹æÄ£N±ä»¯£¬µ«DiLoCoµÄ×îÓÅÍâ²ãѧϰÂʦDz»ÒÀÀµN£¬Ö»¸úMÓйء£ DiLoCoͬÑùÓÐÖúÓÚ½â¾ö¹ý¶ÈѵÁ·µÄÎÊÌ⣡ ¹ý¶ÈѵÁ·¿ÉÄÜ»áÏ൱°º¹ó£¬µ«ÊÇÔö¼ÓÁËÅú´óС²¢¼õÉÙÁËͨÐÅÁ¿Òâζ×Å£¬Í¨³£¿ÉÒÔÔÚÏàͬµÄʱ¼äÄÚÓÃDiLoCo½øÐÐ4±¶µÄ¹ý¶ÈѵÁ·£¨OT£©£¬¶øʹÓÃÊý¾Ý²¢ÐÐѵÁ·Ö»ÄܽøÐÐ1±¶µÄ¹ý¶ÈѵÁ·¡£ ÂÛÎÄÖл¹Óиü¶àÄÚÈÝ¡£ÆäÖаüÀ¨Scaling law±¾Éí£¬ÒÔ¼°ÉõÖÁÌṩÁËÔ¤²â×îÓų¬²ÎÊýµÄ·½·¨¡£ Scaling law±íÃ÷£¬¶ÔÓÚ²ÎÊý³¬¹ý20ÒÚµÄÄ£ÐÍ£¬Ê¹ÓÃ2¸öÄ£Ð͵ÄDiLoCoÓÅÓÚÊý¾Ý²¢Ðз½·¨ ¸ü¶àʵÑéϸ½ÚºÍÄÚÈÝ£¬Çë²ÎÔÄÔÎÄ¡£ Chinchilla½«ËÀ£¿AI 3ÍòÒÚÃÀÔªµÄ²í· DiLoCoʹµÃµ÷Õû³¬²ÎÊýºÍѵÁ·Ä£ÐͱäµÃ¸ü¼Ó¼òµ¥¡£µ«ÎÊÌâÔÚÓÚ£¬AIÄ£Ðͱ¾Éí¡¸»»ÌÀ²»»»Ò©¡¹¡ª¡ª»¹ÊÇChinchillaÄÇÒ»Ìס£ ±Ï¾¹£¬¹ýÈ¥µÄԤѵÁ·Scaling LawÒѽøÈëβÉù£¬¶øеÄAI Scaling LawÓëѵÁ·Î޹ء£ Èç½ñ£¬Ëæ×ÅÐÂÐÍ¡¸ÍÆÀíÄ£ÐÍ¡¹µÄÐËÆð£¬Ò»¸öÎÊÌ⸡³öË®Ã棺Èç¹ûChinchillaËÀÁË£¬AIδÀ´»áÔõÑù£¿ ´óÔ¼5ÄêÇ°£¬OpenAIÑо¿Ô±·¢ÏÖ£¬½«¸ü¶àµÄËãÁ¦¡¢Êý¾ÝͶÈëµ½´ó¹æģѵÁ·ÖУ¬¿ÉÒÔÏÔÖøÌáÉýAIÄ£Ð͵ÄÐÔÄÜ¡£ ¼¸Äêºó£¬¹È¸èÑо¿ÈËÔ±¸ü½øÒ»²½£¬Í¨¹ý¹¹½¨ÃûΪ¡¸Chinchilla¡¹µÄÄ£ÐÍÖ¤Ã÷£¬Ôö¼ÓÊý¾ÝÁ¿ÄÜ´øÀ´¸üºÃµÄЧ¹û¡£ ÕâÖÖ¡¸¼ÆËã+Êý¾Ý¡¹µÄ×éºÏ´ßÉúÁËÈç½ñµÄ¾ÞÐÍÄ£ÐÍ£¬±ÈÈçGPT-4¡£ ÂÛÎĵØÖ·£ºhttps://arxiv.org/pdf/2203.15556 È»¶ø£¬ÕâÖÖ²ßÂԵijɹ¦ÒÀÀµÓÚ¾Þ´óµÄÇ°ÆÚͶÈë¡£ º£Á¿Êý¾Ý±»Èû½ø¸´ÔÓÇÒºÄÄܵÄԤѵÁ·¹ý³Ì£¬¿Æ¼¼´ó³§·è¿ñ½¨ÔìÊý¾ÝÖÐÐÄ£¬ÈûÂúÁËӢΰ´ïGPU¡£ µ«ÎÊÌâÀ´ÁË£ºÕâÖÖÔÒÇ®ÔÒÊý¾ÝµÄģʽ£¬»¹ÄÜ×߶àÔ¶£¿ °Í¿ËÀ³×ʱ¾µÄ¶¥¼¶·ÖÎöʦRoss SandlerÖ¸³ö£¬Î´À´¿ÉÄÜÃæÁÙÁ½ÖÖ½ØÈ»²»Í¬µÄÇé¾°£º Ò»ÊÇ£¬¡¸Chinchilla¡¹¼ÌÐøÖ÷µ¼£¬¾Þ¶îËãÁ¦ºÍÊý¾ÝͶÈë³ÖÐøÅÊÉý£» ¶þÊÇ£¬¡¸Í£ÖÍ¡¹Ìæ´ú·½°¸£¬ÐÂÐͼ¼ÊõºÍÄ£ÐÍÒÔ¸üÉÙµÄ×ÊԴʵÏÖ¸üÇ¿ÐÔÄÜ¡£ ÕâÁ½ÖÖ·¾¶µÄ×ʱ¾Ö§³ö²î¾à¸ß´ï3ÍòÒÚÃÀÔªÒÔÉÏ£¬×ãÒÔÓ°ÏìÕû¸öÐÐÒµµÄ×ßÏò¡£ ¡¸ÍÆÀíÄ£ÐÍ¡¹áÈÆð Íƶ¯ÕâһDZÔÚ±ä¸ïµÄ£¬ÊÇ¡¸ÍÆÀíÄ£ÐÍ¡¹µÄÐËÆð¡£ OpenAIµÄo1¡¢o3¡¢DeepSeek R1¡¢¹È¸èGemini 2.0 Flash ThinkingµÈÐÂÄ£ÐÍ£¬²ÉÓÃÁËÒ»ÖÖÃûΪ¡¸²âÊÔʱ¼ÆË㡹£¨test-time compute£©µÄ¼¼Êõ¡£ ÕâÖÖ·½·¨½«¸´ÔÓ²éѯ·Ö½âΪСÈÎÎñ£¬ÖðÒ»´¦Àí£¬²»ÔÙÒÀÀµ³¤Ê±¼äµÄԤѵÁ·¡£ Ïà½ÏÓÚ´«Í³Ä£ÐÍ£¬ÍÆÀíÄ£ÐÍ¿ÉÄÜÏìÓ¦ÉÔÂý£¬µ«ËüÃÇÊä³ö¸ü׼ȷ£¬ÔËÐгɱ¾Ò²¸üµÍ¡£ ¸üÖØÒªµÄÊÇ£¬ËüÃÇ°ÚÍÑÁ˶Դó¹æģԤѵÁ·µÄÒÀÀµ¡£ DeepSeek R1ÉõÖÁչʾÁËÒ»ÖÖ¿ÉÄÜ£º¿ªÔ´ÍÆÀíÄ£ÐÍÄÜÔÚ¶Ìʱ¼äÄÚʵÏÖÐÔÄÜ·ÉÔ¾¡£ ÕâÒâζ×Å£¬AI¹«Ë¾¿ÉÄܲ»ÔÙÐèÒª»¨·Ñ18-24¸öÔº;Þ×ÊÈ¥´òÔìÏÂÒ»¸ö¡¸¾ÞÎÞ°Ô¡¹Ä£ÐÍ¡£ ´ËÍ⣬»ìºÏר¼ÒÄ£ÐÍ£¨MoE£©Ò²³ÉΪ±»¹ã·º²ÉÓõļ¼Êõ£¬Í¨¹ýѵÁ·¶à¸öСÐÍ¡¸×¨¼Ò¡¹Ä£ÐÍ£¬ÈÃËüÃÇÓë´óÄ£ÐÍÐͬ¹¤×÷£¬Ö»ÔÚÐèҪʱµ÷Óò¿·ÖËãÁ¦¡£ ÕâÖÖ·½Ê½£¬Ò»²½½µµÍÁË»ù´¡ÉèÊ©ÐèÇó¡£ ChinchillaºÎÈ¥ºÎ´Ó£¿ ¹ýÈ¥ÎåÄ꣬Chinchilla²ßÂÔÍƶ¯ÁËAI¹©Ó¦Á´µÄ·±ÈÙ£¬Ðí¶à¹«Ë¾¹É¼ÛÒò´ËìÉý¡£ µ«Èç½ñ£¬ËüµÄ¿É³ÖÐøÐÔÕýÊܵ½ÖÊÒÉ¡£ °Í¿ËÀ³·ÖÎöʦָ³ö£¬¡¸Ëæ×ÅͶÈë³É±¾¼¤Ôö£¬±ÈÈçÒ»´ÎԤѵÁ·ºÄ×Ê100ÒÚÃÀÔª£¬ÐÔÄÜÔöÒæÈ´¿ÉÄÜÔ½À´Ô½Ð¡£¬ÕâÖÖģʽµÄÐÔ¼Û±ÈÕýÔÚϽµ¡¹¡£ ¸üÑϾþµÄÊÇ£¬ÑµÁ·Êý¾Ý¿ÉÄÜÕýÔڿݽߡ£ ¸ßÖÊÁ¿Êý¾ÝµÄ¹©Ó¦ÓÐÏÞ£¬¶øAI¶ÔÊý¾ÝµÄ¡¸Î¸¿Ú¡¹È´Ô½À´Ô½´ó¡£Èç¹ûûÓÐ×ã¹»µÄ¡¸Ê³Î£¬Chinchilla»¹ÄÜ»î¶à¾Ã£¿ ÉõÖÁ£¬ÒµÄÚһЩ´óÀÐÔ¤²â£¬ÏñOpenAIÕâÑùµÄ¹«Ë¾£¬¿ÉÄÜ»áÔÚGPT-5Ö®ºóÍ£Ö¹ÎÞÐÝÖ¹µÄ¹æÄ£Scaling¡£ Ãæ¶ÔÊý¾Ý¿Ý½ß£¬AIÐÐÒµ½«Ï£Íû¼ÄÍÐÓÚ¡¸ºÏ³ÉÊý¾Ý¡¹¡£Ñо¿ÕßÈÏΪ£¬ÕâÖÖ¡¸×Ô¸ø×Ô×㡹µÄ·´À¡Ñ»·ÄÜÈÃÄ£ÐͲ»¶Ï×ÔÎÒ½ø»¯£¬Íƶ¯¼¼ÊõÂõÏòи߶ȡ£ ChinchillaÃDZ¾ÖÊÉÏ¿ÉÒÔͨ¹ý¡¸×ÔÎÒιÑø¡¹À´Éú´æ¡£ ¡¸Èç¹ûAIÐÐÒµÔںϳÉÊý¾ÝºÍµÝ¹é×ÔÎҸĽø·½ÃæÈ¡µÃÍ»ÆÆ£¬ÄÇôag¿·¢_¿·¢Ò»´¥¼´·¢½«ÖØÐÂ×ßÉÏChinchilla scaling·¾¶£¬¼ÆËãÐèÇ󽫼ÌÐøѸËÙÉÏÉý¡¹¡£ ChinchillaËÀÁËÂð£¿Õâ¸öÎÊÌ⣬AIÊг¡»á¸ø³ö×îÖմ𰸡£ Èç¹ûÍÆÀíÄ£ÐÍ¡¢MoE¼¼Êõ³ÉÊ죬AI¿ÉÄÜ×ßÏòÇáÁ¿»¯£¬¸ßЧÂʵÄδÀ´£¬ÊýÍòÒÚÃÀ½ðµÄ»ù´¡ÉèʩͶ×Ê£¬»òÐí²»ÔÙ±ØÒª¡£ µ«£¬Èç¹û¡¸ºÏ³ÉÊý¾Ý¡¹ÈÃChinchillaÖØ»ÀÉú»ú£¬ËãÁ¦¾ºÈü½«¾íÍÁÖØÀ´¡£ ÎÞÂÛÄÄÖÖδÀ´µ½À´£¬AIµÄÑݽø¶¼ÔÚÖØËÜÕû¸öÊÀ½ç¡£ ²Î¿¼×ÊÁÏ£º https://arxiv.org/pdf/2503.09799 https://x.com/MatharyCharles/status/1900593694216253827 https://www.businessinsider.com/ai-chinchilla-openai-google-anthropic-compute-demand-capex-scaling-laws-2025-3