阿里巴巴员工分享中国制造LLM的一瞥
中国科技公司正在收集各种资源和人才,以缩小与OpenAI的差距,同时,太平洋两岸的研究人员的经验也会出奇地相似。阿里巴巴一位研究人员最近发表的一篇文章提供了一个难得的机会,让人们一窥在这家电商公司开发大型语言模型的生活情况,而这家公司是众多中国互联网巨头之一,正在努力匹敌ChatGPT的能力。
阿里巴巴大规模语言模型团队Qwen的自然语言处理研究员边源辉在X上分享了他的日常时间表,仿效了最近风靡一时的OpenAI研究员魏建华的帖子。
他们典型一天的平行视角揭示出惊人的相似之处,起床时间都是上午9点,睡觉时间大约在凌晨1点左右。两人都是以会议开始一天,然后进行编码、模型培训和与同事头脑风暴。即使回家后,他们仍然在晚上进行实验,并思考如何在睡前进一步增强他们的模型。
在如何选择休闲时间方面,明显的区别就是。阿里巴巴员工慧提到他会阅读研究论文,浏览X网站来了解“世界上正在发生的事情”。正如一位评论者指出的,慧回到家后不会像魏那样喝一杯葡萄酒。
中国当前的LLM领域中,这种紧张的工作模式并不罕见。拥有顶尖大学学位的科技人才纷纷加入科技公司,致力于打造具有竞争力的人工智能模型。
在某种程度上,惠的繁忙日程似乎反映出一种个人动力,即要与硅谷公司在人工智能领域的工作节奏相匹配(或至少在社交媒体上如此呈现),甚至超越。这似乎与更多“传统”的中国互联网企业相关的强制性“996”工作时间不同,这些企业涉及诸如视频游戏和电子商务等繁重运营工作。
实际上,即使是著名的人工智能投资者和计算机科学家李开复也十分努力。我在十一月的时候采访李开复关于他新成立的独角兽企业01.AI,他承认加班很普遍,但员工们都是自愿努力的。那天,他的一名员工在凌晨2点15分给他发消息,表达对参与01.AI使命的兴奋之情。
国内科技公司制定的任务紧迫,员工展示出的强烈工作道德表明了这一点,这些公司现在以更快的速度推出LLM。
例如,Qwen已经开源了一系列使用英文和中文数据训练的基础模型。其中最大的模型的参数数量为720亿。参数数量代表了模型从历史训练数据中获得的知识,定义了其生成上下文相关响应能力。 (作为对比,OpenAI的GPT3被认为有1750亿个参数;其最新的LLM,GPT4,有1.7万亿个参数。然而,可以争论的是,特定LLM的目标将是解码高参数数量价值的更重要关键。)
团队还迅速推出了商业应用。去年四月,阿里巴巴开始将Qwen整合到其企业通讯平台钉钉和在线零售商天猫中。
目前在中国的 LLM 领域还没有出现明确的领导者,风险投资公司和企业投资者正在向多个竞争者分散投注。除了在内部建立自己的 LLM 外,阿里巴巴还积极投资于新创公司,比如 Moonshot AI、智谱 AI、百川和 01.AI。
面对竞争,阿里巴巴一直在努力开辟市场,而其多语言举措可能成为一个卖点。去年12月,该公司发布了几种东南亚语言的LLM。这个名为SeaLLM的模型能够处理越南语、印尼语、泰语、马来语、高棉语、老挝语、菲律宾语和缅甸语的信息。通过其云计算业务和对电商平台Lazada的收购,阿里巴巴在该地区建立了庞大的影响力,并有望将SeaLLM引入这些服务中。