Page 2 | Bojie Li

2024-02-03

我们在韩国艺匠的婚纱照

早在 2021 年就预订了韩国艺匠的婚纱照，想去科大拍婚纱照，但是疫情之后科大就一直不让校外人员进校了。好在韩国艺匠是全国连锁的，2023 年 8 月我们就改到北京拍了，没有加钱，北京的拍摄环境还比合肥更好。

视频电子相册（03:54，150 MB）

2024-02-03

生成式 AI 的下一站：更有趣还是更有用？

（本文是 2024 年 1 月 6 日笔者在知乎首届 AI 先行者沙龙上的演讲实录）

非常荣幸能够认识大家，非常荣幸能够来知乎 AI 的先行者沙龙来做分享，我是李博杰，Logenic AI 联合创始人。我们知道目前 AI Agent 非常火，比如说参加路演 70 多个项目，一半多都是跟 AI Agents 相关的项目， AI Agents 的未来会是什么样子呢？它未来应该是更有趣还是更有用呢？

我们知道 AI 的发展目前一直有两个方向，一个是有趣的 AI，一个是更像人的 AI，另外一个方向就是更有用的 AI，也就是 AI 应该更像人还是更像工具呢？其实是有很多争议的。比如说 OpenAI 的 CEO Sam Altman 他就说 AI 应该是一个工具，它不应该是一个生命，但是我们现在所做的事正好相反，我们现在是让 AI 其实更像人，其实很多科幻电影里的 AI 其实更像人，比如说 Her 里面的 Samantha，还有《流浪地球 2》里面的图丫丫，黑镜里面的 Ash，所以我们希望能把这些科幻中的场景带到现实。

除了有趣和有用这两个方向之外，还有另外一个上下的维度，就是快思考和慢思考，有一本书叫《思考，快与慢》，它里面就说人的思考可以分为快思考和慢思考，也就是所谓的快思考就是人下意识的想，不需要过脑子的，像 ChatGPT 这种一问一答的可以认为是一种快思考，因为你不问它问题的时候，它不会主动去找你，而慢思考呢，就是有状态的这种复杂的思考，也就是说如何去规划和解决一个复杂的问题，做什么、后做什么。

2024-01-27

我的 2023 美国之行

（视频包含 96 张照片，06:24，190 MB）

2024-01-08

投身 AI 的年轻人：华为天才放弃百万年薪，00 后休学创业，不惧失败最怕赚不到钱

（转载自搜狐科技，作者：梁昌均）

编者按：

人生重燃，如春柳抽芽，历经寒冬的磨砺，终焕生机。

每个人都是航行者，在人生的旅途中，我们难免遭遇困境、挫折和失败。面对风浪的洗礼，我们不断调整航向，坚定前行，寻找属于自己的彼岸。

人生重燃，亦是对自我价值的重新认识。我们要学会欣赏自己的优点，如琴瑟之和谐，亦接受自己的不足，如同璞玉需经琢磨方显光华。

此路虽不易，但如清泉之在石，日积月累，终汇聚成海。

值此跨年之际，搜狐财经、搜狐科技联合推出策划报道，聚焦个体小人物的人生重燃之旅，一起勇敢面对人生挑战。

2023-12-23

AI Agent & 大模型经典论文推荐

经常有人让我推荐一些 AI Agent 和大模型相关的经典论文，在这里列一些对我比较有启发的 paper，可以作为 Reading List。

这里面大部分的 paper 都是今年刚发表的，但是也有一些文本大模型、图片视频生成模型的经典论文，把这些经典论文读明白是理解大模型的关键。

这些论文如果都读完了，哪怕是只领会了论文的核心 idea，也保证能让你不再仅仅是一名 prompt 工程师，而能够跟大模型的专业研究者深入讨论了。

2023-12-22

连续暴击，一起调戏天才少年？12月21日北京AI沙龙

（转载自科大新创校友基金会）

12 月 21 日，中国科大北京校友 AI 沙龙在中国科学院网络信息中心进行，曾经的华为“天才少年”、Logenic AI 联合创始人李博杰 (1000)做《AI Agent 的下一站:有趣还是有用?》主题报告，与线上、线下累计近 200 位同学、校友分享。

主题报告

报告围绕《AI Agent：有用还是有趣》主题展开，结合具体的生活、工作场景，在 “有趣” 角度，分析了如何低成本地实现 AI agent 的长期记忆以及如何建模人的内部思考过程等问题；在 “有用” 角度，对于如何实现 AI agent 的图片理解、复杂任务规划与分解和如何减少幻觉等问题展开讨论。此外，他还对于如何降低大模型的推理成本提出了自己的看法。

2023-12-16

国内 AI 大模型哪个最有前途？

（本文首发于知乎）

利益无关：因为我没有在做基础大模型（做的是 infra 和应用层），目前也没有做国内市场，所以可以从相对中立的角度提供一些信息。

创业几个月，发现可以比普通大厂员工拿到多很多的信息，从投资人和全球 top AI 公司的核心成员那里可以学到很多。综合在美国三个月得到的信息，感觉大厂里面最有前途的是字节和百度，已经公开发布大模型的创业公司里面最有前途的是智谱和 moonshot。

虽然 Robin 说国内已经有上百家做基础大模型的，但由于基础大模型本身是相对同质化的产品，最后基础大模型的市场很可能像公有云一样，top 3 占据大部分的市场，其他的市场份额只能算是 others。

目前国内大多数大模型创业公司才刚开始半年，一切都还没有尘埃落定，有些隐藏的高手还在默默憋大招。大模型的时代才刚刚开始，留得青山在，不怕没柴烧。

2023-12-08

Gemini 简直成了大模型发布的段子

（本文首发于知乎）

演示视频剪辑，技术报告刷榜，模型 API 关键词过滤，Gemini 简直成了大模型发布的段子……

技术报告刷榜

刚刚跟我们 co-founder 思源讨论了下，他是 evaluation 的老手，印证了我的猜测。

首先跟 GPT-4 对比的时候，竟然是自己用 CoT，GPT-4 用 few-shot，这本身就不公平。CoT（思维链）可以显著提升推理能力。有没有 CoT 的区别，就好像考试的时候一个人允许用草稿纸，另一个人只允许口算。

更夸张的是，用了 CoT@32，也就是每个问题回答 32 次，选出其中出现次数最多的那个答案作为输出。也就是说明 Gemini 的幻觉很严重，同一个问题回答准确率不高，所以才需要重复回答 32 次选出现次数最多的。生产环境中真要这么搞，成本得多高呀！

2023-12-06

如何评价 UC 伯克利提出的 LVM？

（本文首发于知乎）

GPT 时刻还难说，但是 LVM 确实是个很有趣的工作。之所以这个工作还没发布源码就已经收获这么多关注，这两天跟我聊的很多人都提到这个工作，根本原因是 LVM 跟大家想象中的端到端视觉大模型架构很类似，我猜测 GPT-4V 可能也是类似的架构。

现在的多模态大模型原理基本上都是一个固定的文本大模型（比如 llama）接上一个固定的 encoder，一个固定的 decoder，中间训练一个薄薄的 projection layer（胶水层）把 encoder/decoder 和中间的 transformer 粘起来。MiniGPT-4，LLaVA，最近的 MiniGPT-v2（还加了 Meta 的作者，值得看看）都是这个思路。

这些现有的多模态大模型 demo 效果不错，但是有一些根本的问题。例如，语音识别的准确率不高，语音合成的清晰度也不高，比不上专门干这个的 Whisper 和 vits。图片生成的精细度也比不上 stable diffusion。更别谈输入和输出图像或语音之间需要做精确对应的任务了，例如把输入图像中的 logo 放到根据 prompt 生成的输出图像上，或者做 xtts-v2 这样的 voice style transfer。这是一个有趣的现象，虽然理论上这个 projection layer 可以建模更复杂的信息，但实际效果还不如使用文本作为中间表达的准确率高。

其根本原因就是文本大模型训练的过程中缺失图像信息，导致编码空间不匹配。就好像一个先天盲人，就算读了再多文字，有些关于色彩的信息仍然是缺失的。

所以我一直认为多模态大模型应该在预训练阶段就引入文本、图像和语音数据，而不是分别预训练各种模态的模型，再把不同模态的模型拼接起来。

2023-11-24

Chat 向左，Agent 向右——我对 AI Agent 的思考｜嘉程创业流水席 197 席精彩回顾

（本文转载自嘉程资本 NextCapital 公众号）

AI Agent 面临的关键挑战有两类。第一类是它的多模态、记忆、任务规划能力以及个性、情感；另外一类是它的成本和它如何做评估。

2023 年 11 月 5 日，嘉程创业流水席第 197 席【深度探讨 AI 的最新认知与华人创业公司在海外市场拓展】，邀请了华为“天才少年”李博杰分享，主题是《 Chat 向左，Agent 向右——我对 AI Agent 的思考》。

下载演讲 Slides PDF

下载演讲 Slides PPT

以下为正文部分：

非常荣幸能和大家分享一些我对 AI Agent 的认知和看法。

我是今年七月份开始创业做 AI Agent 的项目。我们主要做的是陪伴类的 AI Agent。AI Agent 有些技术含量较高，有些技术含量较低。比如我认为像 Inflection 的 Pi 和 Minimax 的 Talkie，这些做的都比较不错的。但是有些 AI Agent，比如像 Janitor.AI，它可能有点软色情的倾向，它的 Agent 是很简单的，可以看到基本上就是把 GPT-3.5 的提示直接输入，就出来一个 AI Agent。像 Character.AI 还有很多的都是类似的，他们可能只是把提示输入就可以了，当然 Character AI 有自己的基础模型，这是他们的核心竞争力。可以认为 AI Agent 是一个入门比较容易的事情，你只要有个提示，它就可以扮演一个 AI Agent，但是同时它的上限又非常高，你可以做很多的增强，比如包括记忆、情感、个性等等，这也是我后面要讲的一些内容。

RSS

Bojie Li (李博杰)

2024-02-03

我们在韩国艺匠的婚纱照

2024-02-03

生成式 AI 的下一站：更有趣还是更有用？

2024-01-27

我的 2023 美国之行

2024-01-08

投身 AI 的年轻人：华为天才放弃百万年薪，00 后休学创业，不惧失败最怕赚不到钱

2023-12-23

AI Agent & 大模型经典论文推荐

2023-12-22

连续暴击，一起调戏天才少年？12月21日北京AI沙龙

主题报告

2023-12-16

国内 AI 大模型哪个最有前途？

2023-12-08

Gemini 简直成了大模型发布的段子

技术报告刷榜

2023-12-06

如何评价 UC 伯克利提出的 LVM？

2023-11-24

Chat 向左，Agent 向右——我对 AI Agent 的思考｜嘉程创业流水席 197 席精彩回顾

Links

Bojie Li (李博杰)

2024-02-03 我们在韩国艺匠的婚纱照

2024-02-03 生成式 AI 的下一站：更有趣还是更有用？

2024-01-27 我的 2023 美国之行

2024-01-08 投身 AI 的年轻人：华为天才放弃百万年薪，00 后休学创业，不惧失败最怕赚不到钱

2023-12-23 AI Agent & 大模型经典论文推荐

2023-12-22 连续暴击，一起调戏天才少年？12月21日北京AI沙龙

主题报告

2023-12-16 国内 AI 大模型哪个最有前途？

2023-12-08 Gemini 简直成了大模型发布的段子

技术报告刷榜

2023-12-06 如何评价 UC 伯克利提出的 LVM？

2023-11-24 Chat 向左，Agent 向右——我对 AI Agent 的思考｜嘉程创业流水席 197 席精彩回顾

Links

2024-02-03

我们在韩国艺匠的婚纱照

2024-02-03

生成式 AI 的下一站：更有趣还是更有用？

2024-01-27

我的 2023 美国之行

2024-01-08

投身 AI 的年轻人：华为天才放弃百万年薪，00 后休学创业，不惧失败最怕赚不到钱

2023-12-23

AI Agent & 大模型经典论文推荐

2023-12-22

连续暴击，一起调戏天才少年？12月21日北京AI沙龙

2023-12-16

国内 AI 大模型哪个最有前途？

2023-12-08

Gemini 简直成了大模型发布的段子

2023-12-06

如何评价 UC 伯克利提出的 LVM？

2023-11-24

Chat 向左，Agent 向右——我对 AI Agent 的思考｜嘉程创业流水席 197 席精彩回顾