nbsp
AI技术、操作系统AI研究、去中心化AIDeAI努力与开源历史
作者:@ybeffect
编译:白话区块链想象一下,你已经盯着这副超酷的拼图很久了,终于决定买下来。它就摆在你面前,所有的拼图块都齐全。你已经准备好咖啡,开着背景音乐,屋里没人,只有你和这副拼图,你有什么想法?问题是它实在是太让人不知所措了。该从哪里开始呢?我是不是很傻为什么这些拼图块怎么都不合?不过,冷静下来理智地想了想,我发现首先我得先根据拼图块属于哪个区域进行初步的分类。然后,先连接一些简单的部分,获得一些小小的启发,再依此类推深入探索。这基本上就是我过去一周的经历。这副既让人沮丧又令人愉快的拼图叫做“去中心化与开源AI”。我未来几个月的目标是成为“去中心化AIDeAI”的专家,而且我想成为能将这两个领域粘合在一起的主题专家,通过深入了解开源AI和去中心化AI前沿的最新发展,来实现这一目标。这意味着既要有深度,也要有广度我不希望在这个领域有任何一个知识点是我不了解的。今天的帖子,我想分享一下我如何实现这个目标的框架。下面是我认为最有意义的“拼图区域”,以及每个区域的简短思考和待办事项清单。主要分为以下几个部分:AI基础:赶上进度并不难开源AI社区:开源到底落后多少?去中心化AI:黄金篮子是什么?开源历史:有哪些关键的学习经验?让我们深入探讨一下。
OK交易所nbsp
1、AI基础:赶上进度并不难
nbsp
我本周开始尝试写一篇关于Nous Psyche的文章。显然,我是从阅读文档开始的,甚至在高层次上大致理解了大部分内容。但我并没有真正理解它。于是,我决定阅读Nous Distro的论文,认为这可能对我有所帮助。即使这样借助ChatGPT的帮助我也能在高层次上理解它。但我还是没有没有真正弄明白。这让我意识到,自己在AI知识上有个明显的空白。如果没有掌握基本的AI概念,我是无法得出新的见解的。于是,我决定跳进深水区。我从Karpathy的著名LLM大语言模型入门讲座开始。做了笔记后,我信心大增。很多在Twitter和播客中听到的术语开始变得更有感觉。作为一个天生的数学爱好者,我决定更深入地理解神经网络和变换器Transformers的工作原理。于是,我疯狂观看了3blue1brown关于LLM的完整系列。到这个时候,我已经非常兴奋了,对许多AI概念开始有了清晰的认知。如果你和我一样,你一定能理解,当你无法完全理解一个新概念的整个体系时,那种烦躁的感觉我当时还没完全搞明白,但终于进入了那个兔子洞。然后!就好像技术之神在听我的心声一样。当我刚看完那些视频,Andrej Karpathy就发布了一段35小时的视频,内容涵盖了你可能想了解的所有关于LLM的中级知识,简直是太及时了。相信我,当我说这句话时如果你正感到AI领域的冒充者综合症,我保证这段视频能单枪匹马地帮你解决这个问题。我才看了2个小时进度很慢,还在做笔记,但我已经可以说,这是我看过的最棒的教程视频之一。看到他在视频中使用的工具和资源,真的帮助了我很多:
FineWeb:基本上是通过爬虫为你压缩的“互联网数据”。Common Crawler:一个开放的仓库,用来抓取所有的互联网数据。Tiktokenizer:选择一个模型,你可以在纯文本和token之间转换。BBY Croft:一个出色的LLM可视化工具,帮助理解训练过程。GPT2 from scratch:Karpathy的仓库,可以从零开始做一切。Hyperbolic:无需设置即可访问预先托管的模型。UltraChat:用于后训练过程的合成数据改进仓库。Nielsens Textbook:跟着3blue1brown的例子做,进行实际操作。在完成了上面LLM教程的最后一小时后,接下来的计划如下:
熟悉Hugging Face跟随ChatGPT2教程,从零开始运行简要阅读Llama和Deepseek论文,了解开源SOTA模型阅读Leopold的情境意识论文澄清一下,AI基础部分是一个需要更大预热的阶段,我现在正处在这个阶段。一旦我的基础知识清晰了,接下来就是跟进最新的论文和发布内容。就像学习加密货币时,你也得先进入那个“兔子洞”。
nbsp
2、开源AI社区:闭源竞争者落后多少?
nbsp
我知道最近围绕Deepseek和开源的炒作很多,但我仍在努力弄清楚我们在开源AI发展的具体进展到了哪里。幸运的是,Lex Fridman本周的播客让我认识了Nathan Lambert和他在Ai2的工作。Nathan过去几年一直是开源AI的倡导者,他写了一篇出色的Substack文章《Interconnects》,涵盖了开源AI世界中的许多动态。就在昨天,他发布了一篇文章,讲述了为什么他认为最近的Deepseek新闻应该成为美国人加大对开源投资的一个巨大警钟。文章的核心观点是,过去30年里,中国一直在复制西方的技术并改善其边际效益。但在这场当前的AI竞赛中,很明显,他们正试图成为传播创新的一方。所以,如果美国公司不努力开源他们的模型,其他国家包括美国人将很快采纳中国的技术。文章中让我意识到现实的一段话是:
构建强大的AI模型要比围绕AI建立一个可持续的开源生态系统容易得多。建立一个更好、真正开放的AI生态系统是我过去几年的毕生事业,我显然希望它能够进一步繁荣,但越接近当前开源生态系统的核心,你就越知道,这并不是理所当然的,因为进行相关AI训练的成本正在飙升看,我知道DeepSeek的计算成本很低,但这些组织可不是轻易就能成立的,而且许多监管机构正在迅速行动,以便在AI领域抢占先机,这可能无意中阻碍了开放的进程。是的,效率在不断提高,成本也会下降,正如DeepSeek V3所展示的那样,但在前沿训练真正开放的模型并没有变得更容易。
具体来说,“越接近当前开源生态系统的核心,你就越知道,在进行相关AI训练时,成本并非理所当然。”说实话,我第一个承认,我对开源AI领域的具体情况并不完全了解。但!我必须说,令我感到惊讶的是,本周我阅读的像Nathan和Tim Dettmers这样的开源AI研究者的文章中,竟然完全没有提到加密货币的任何内容。他们可能并不看重加密行业,觉得它充满了骗局、骗局、各种问题。但我并不认同这种看法。在阅读Nathan的文章时,我不禁注意到,他提出的核心问题其实是一个成本问题。如果真是这样,那么毫无疑问,加密激励机制能够大大提升开源研究的效率。那么,难道他们已经考虑过加密货币,并得出了“不值得投入”的结论吗?还是他们只是普遍回避加密领域?如果是前者,我希望能看到一些实际的例子。如果是后者,那就是他们的盲点,我希望能加以强化。不管怎样,我才刚刚触及开源AI领域的表面,但Lambert的工作无疑是一个很好的起点。有一点让我十分清楚,那就是这些开源AI研究者与加密行业的从业者其实在讨论着相似的问题。我在上周五的文章中提到过,开源AI面临的挑战与比特币非常相似,毫无疑问,这两个社区加密和开源AI需要更多的合作。希望我能在这方面做出贡献,帮助弥合这个鸿沟。这个象限的任务清单:
观看Lambert在哈佛法学院关于开源AI的演讲了解Ai2的工作和目前的进展找到和Nathan/Ai2类似的公司和研究人员,全面了解开源AI的现状并建立Twitter列表理解不同类型的许可证及其影响例如,Amazon需要为Llama支付Meta费用,而Deepseek使用MIT许可证,更加“自由”从Lambert类型研究者的角度,形成一个关于开源AI现状的观点。尽量搞清楚目前的主要瓶颈,并了解他们认为哪些解决方案是有效的排除加密货币的偏见nbsp
3、去中心化AI:什么是“黄金篮子”?
nbsp
在开始这一部分之前,我建议大家花10分钟阅读这篇文章,了解为什么AI特别需要加密货币。我在之前的文章中已经讲过核心观点,但我认为@dbarabander做得非常棒,清楚地把过去、现在和未来的关系讲解得很明白。来源:https//variantfund/articles/whygoodaineedscrypto/他精准地指出了开源AI面临的资源问题,并解释了为什么加密货币能够解决这个问题。有一点引起了我的注意,那就是在审阅和编辑这篇文章的人。在感谢部分,我得到了一个很有价值的公司名单,这将成为我在掌握AI基础知识后,深入了解去中心化AI领域的起点。需要注意的是,我知道这些信息因为个人利益关系可能会有一些偏见,因为Daniel在Variant工作,但无论如何,这些信息对我还是很有帮助的。最近我一直在思考一个问题,那就是AI领域的人们对去中心化AI我们所说的加密货币公司有多了解?我现在还没有答案,但我得承认,看到Andrej Karpathy在他的新LLM教程视频中使用Hyperbolic,真的很酷感谢@YuchenjUW提醒我这一点。你可能会想YB,为什么你理解这些去中心化AI公司要这么久?好吧,正如我之前提到的,像Nous Psyche一样,我被我的AI知识瓶颈所限制。例如,48小时前,我根本无法理解下面这条推文的意思。但是!我可以自信地说,随着我完成AI基础知识的快速学习,我将在接下来的两周内快速了解这些公司,并形成自己的观点。我的目标是创建一个去中心化AI公司的“黄金篮子”。如果我只能投资这5家初创公司,我会选择哪些?为什么?接下来,我的计划是成为这些团队最大的支持者。到目前为止,我已经在过去几个月的文章中多次提到的两家公司Nous和Prime,可能会在我的投资名单上。@0xPrismatic,一位朋友和加密与AI领域的同行,正在通过他的新闻通讯精彩地介绍这些公司,我也迫不及待地想开始阅读他的入门文章。如果你还没看过《Chain of Thought》,一定要去读,非常值得!总的来说,去中心化AI的核心论点是:我们的任务就是让这一切成为现实。具体来说,这是@krybharat的完美总结,两个具体领域是:1去中心化和激励型开源模型聚合器2提供近实时数据访问的去中心化数据提供者因此,以下是这一部分的待办事项清单:

nbsp
4、开源历史:有哪些关键的学习经验?
nbsp
最后,聊聊开源。我会简短说一下这一部分。虽然严格来说了解开源历史不是必需的,但我认为花时间学习开源的历史,能帮助我更好地理解为什么DeAI的斗争如此重要。说实话,我不够老,记不住Linux时代或2000年代初期那个开源是常态的计算机时代。我是在Facebook、Twitter和Uber时代长大的,对我来说,中心化平台一直是默认选择。所以,我想了解一下过去开源发生了什么,从那些例子中学到些什么。前几天,我在听BG2播客时,Bill Gurley将Meta的Llama战略与MongoDB等公司的历史做了比较。我觉得这个对比非常有趣,真的想深入了解其中的细节。很多老读者知道,我对技术历史充满兴趣,所以这一部分刚好能让我把过去与现在的情况做一些对比。我相信,这不仅能帮助我在这个领域获得独特的见解,还能让我在成为加密与AI交叉领域的专家时,更加与之契合。我还要阅读《Working in Public》 和《Cathedral and Bazaar》。如果你看到了这里,我猜你和我一样,对DeAI领域充满激情和兴奋。如果你想加入一个讨论组,和我们这些疯子一起学习DeAI、探索上述资源,可以私信作者。