深潮TechFlow

Posted on Sep 18, 2023Read on Mirror.xyz

对话 Kaito CEO:搭建 Web3 的终极 GPT

在新的数据分发范式下,我深信 Web3 带来的机遇会完全改变科技公司垄断数据的经济逻辑。

深潮:Sunny

Kaito: Yu Hu

“在新的数据分发范式下,我深信Web3带来的机遇会完全改变科技公司垄断数据的经济逻辑。”

-- Yu Hu

如何高效获取Web3信息?对于普通用户而言,推特、Discord、Telegram及媒体网站是获取信息的主要途径。对于更有分析能力的用户来说,他们可能会选择使用链上数据浏览器、治理论坛、播客或者咨询报告。Web3信息相对于Web2更碎片化,主要分散在多个加密原生的社交应用和区块链上,就像是寻宝一样,与以谷歌为代表的搜索路径大相径庭。

每个行业的发展都会经历从混乱到有序的过程。在传统世界的搜索引擎诞生之前,信息同样极度分散,用户需要成为搜索的专家,知道要去哪些不同的网站获取什么样的信息。谷歌的出现让全世界普通用户可以极其高效地索引整个互联网的信息,而大语言模型的出现则更是将信息索引的效率提升到了一个新的维度。

今天的Web3信息检索在什么阶段呢?相比于几年之前,我们已经获得了长足的发展:在Etherscan,Dune,Nansen出现之前,普通用户要查找区块链信息就像大海捞针一样困难。然而即便在今天,当传统世界的信息已经在从搜索引擎时代跨越入大语言模型时代的时候,Web3的信息索引因为没有原生支持的搜索引擎,仍然停留在信息极度分散的前搜索引擎时代:用户需要是获取信息的专家,需要知道存仓量, 用户日活,协议收入,社区观点,治理提案分别都要去哪些不同的渠道获得。Kaito的创始人兼CEO Yu Hu深信,几年后当我们回看今天,这样的原始状态会是我们几乎不敢想象的。

Yu Hu早在2020年就看到了Web3信息索引的痛点:极度分散,缺乏组织,并且不被以谷歌为代表的传统搜索引擎兼容。当时,他发现自己的需求实际上正是整个行业的需求。因此,他果断地辞去了工作,全身心地投入到打造Web3搜索引擎的事业中。正如Yu所言:“我希望引领Web3的信息索引模式从前搜索引擎时代,进入到搜索引擎时代,最终跨越至大语言模型时代,为全行业的从业者以及下一个10亿Web3用户提供一个全新的,高效的信息索引方式。”

Kaito的搜索引擎通过运用Auto GPT框架和多个ChatGPT后端,共同构建了一个代理网络,可以处理各种任务,包括搜索、信息处理、数据清洗和标注,旨在提供更高质量的Web3信息服务,并积极探索以用户共创的方式来优化体验和扩大经济收益。

在与Yu的深度对话中,我们讨论了如何通过AI大语言模型来助力Web3用户,并探讨了如何构建基于社区共创去中心化AI搜索引擎的未来发展。作为媒体,我们还与Yu探讨了如何将传统媒体与人工智能相结合,以提升信息的真实性和独特性的途径。

精彩摘要

  1. 在新的数据分发范式下,我深信Web3带来的机遇会完全改变科技公司垄断数据的经济逻辑。

  2. 在WEB2时代,信息大多存储在互联网上。而在WEB3的世界中,很多信息存在于区块链上,区块链是和互联网完全不同的信息架构。爬取区块链上的信息需要设置节点,而不能像Google那样使用通用的爬虫体系。

  3. 我们希望未来能与用户深度共创。如果用户在我们的平台上看到不实信息,我们能有一个反馈机制,让用户参与其中,共同改进信息的质量。

  4. 在Web3的环境下,我们重视数据的所有权,因此希望用户能参与到数据处理过程以及产品的共创中来。只有用户更多地使用,我们的模型能力才会更加地强大。

  5. 搜索引擎****和媒体之间本质上是一个上下游的关系,媒体是合作引擎信息源的一部分,这是最本质的关系。

掉入加密兔子洞

TechFlow: 你是如何从剑桥的优秀学生,到Citadel基金经理,再到Cryptopunk持有者,最后创办一家专注Web3和AI创业公司的?

Yu:

我的背景是商科经济系背景,在传统金融领域工作了约十年。我先后在投资银行和对冲基金工作,最后在Citadel等公司从事二级市场投资。然而,我在2017年左右接触到加密货币,对这项新兴技术产生浓厚兴趣,并开始在业余时间进行相关研究,因为这不仅涉及到新技术,还是全新的资产类别。

在2020年的DeFi夏季,我投入大量时间进行研究。DeFi是一个相对基础的概念,不同于其他的点,因为在DeFi中,你可以看到所有的存仓量、收入和其他指标数据,从而进行基本面分析。我当时做了很多这方面的研究,并寻找机会。

当时,我深刻感受到信息在加密行业中的传播非常混乱和散乱,类似于我在传统金融市场中遇到的信息差异很大。在传统金融领域,有很多优秀的金融工具可以帮助大家检索信息。

但在区块链领域,连搜索引擎都无法有效地检索区块链相关信息,比如推特、Discord等社交平台上的信息。这让信息收集变得非常痛苦。

到了2021年,我购买了CryptoPunk,这个NFT标志着整个行业的一个重要时刻。我对Web3的未来充满信心,这个信心一直延续到现在。

在考虑了行业的发展和自己的兴趣后,我在2021年底决定辞职,创业开发一款产品。我希望开发一款能够解决信息检索难题的产品,帮助像我这样的人。这就是我创业的初衷。

TechFlow: 2017-2021年间,你的研究重点是什么?有哪些关键的启示?自2017年以来,你对行业的启发有何变化?

Yu:

我觉得他对我来说最大的启发是对整个历程的长线思维。

  • 最早期的启发是关于不同金融交互方式的认知,因为我之前从事金融领域。这个启发在基础框架下引发了对所有权概念不同定价的思考。

我认为这是一个深刻的观点,因为它演化成了各个行业方面的基本属性。

  • 在2020年和2021年,我开始思考过去20年科技巨头崛起的科技红利,比如Google、Facebook等科技巨头的发展。

然而,我更深层次的想法是,如果延续这种模式,再往后50年、100年,科技的格局可能会完全改变,其中最重要的部分可能就是数据的所有权。

我们现在可以免费使用Google、Instagram、Facebook等科技产品,但真正的价值在于这些产品背后巨大的数据。用户没有真正意识到数据的价值,而这些数据完全掌握在科技公司手中。

在新的数据分发范式下,我深信Web3带来的机遇会完全改变这种经济逻辑。

数据的所有权将回到用户手中,新产品将以社区共创的方式出现。这些新产品会在不同层面上影响我们对未来的看法,也会改变数据和用户交互的逻辑和关系。

TechFlow:在Kaito,你如何整合并实现Web3信息的互操作性?这与Web2时代的方法有何不同?

Yu:

我先简单介绍一下,Kaito有两个核心的产品。

  • 一个是面向机构用户的的专业搜索平台,为专业人士提供服务(包括研究学者、媒体人员和行业建设者等)。他们需要花大量时间查阅相关信息。

  • 另一个面向全体C端用户市场的搜索引擎,类似于Web3的Google。

我们主要的整合过程可以分为三个方面。

  • 首先是源头,我们要了解哪些数据与Web3相关。例如,我们要筛选出推特和Discord等平台上的相关信息,然后通过技术整合它们。

  • 第二步是整理,我们对这些数据进行清洗和标注,将非结构化的数据转化为结构化的数据。我们会在自己的数据库中进行标注,也可能利用AI和大模型进行理解。

  • 第三步是让这些数据可读,即如何与用户交互。这可能采用不同的形式,如检索、信息流、图表甚至是聊天。最终目标是与用户建立紧密的互动,让这些数据更易于操作。

这三个步骤是我们整合数据并提供可操作性的关键。

Web3和Web2 的信息不同主要有三个方面。

  1. 首先,信息传播方式完全不同。在WEB3时代,信息本质上更加去中心化和混乱。与Web2时代不同,信息在Web3时代通常不仅仅依赖官方媒体发布,即使是官方账号,如FTX,在发布重大事件时也更多关注来自社区的账号。例如,在Discord等平台上,信息传播就会更加去中心化。

  2. 第二个不同在于信息承载的基建。在WEB2时代,信息大多储存于互联网上。而在WEB3的世界中,很多信息存在于区块链上,区块链是和互联网完全不同的信息架构。爬取区块链上的信息需要设置节点,而不能像Google那样使用通用的爬虫体系。

  3. 第三个不同在于信息交互方式。在WEB2时代,数据清洗和标注等过程是高度中心化进行的,像Google和ChatGPT等都有大团队来进行这些工作。而在WEB3时代,很多东西可以与用户共创,通过激励共创行为来实现。比如在Web3的范畴内,社区和开发者共同创造了全新的搜索引擎,为Web3社区带来新的搜索体验。

TechFlow:Web3的公有领域和私有领域数据的当前规模是多大?预计未来会有怎样的变化?

Yu:

从我们自己收集的数据来看,我们每天会处理约百万条来自机构的信息。如果加上公域数据,这个数字可能会扩大到千万级别,而一旦再加上私域数据,如Telegram、Discord等,这个数目肯定会超过亿级别。这是我们每天的数据量。至于未来的发展趋势,我们可以预见到这一数据量将会继续增长,因为随着用户数量的增加以及信息来源的日益增多,无论是区块链还是相关的中心化企业,都将面临这一趋势。

另外,信息的性质也可能发生变化。目前,大多数信息涉及交易等方面,但随着区块链应用范围的扩大,其他领域的信息也将迅速增加。

人工智能助力Web3

TechFlow: 你们是如何利用大语言模型模型构建你们的AI工作系统的?此外,你们是如何处理各种数据源并确定最佳答案的?

Yu:

目前,我们采用了Auto GPT的架构,将多个ChatGPT模型部署在后端,这些模型一起构成了一个代理工作系统。

  • 每个代理负责不同的任务。当用户提出一个搜索请求时,我们的第一个代理会分析其语义和需求,并确定应在哪个数据源中搜索答案。我们可能拥有多个代理,每个代理在不同领域有其专长,比如在推特、Discord、研究等不同的数据源中搜索信息。

  • 这些代理之间会交流,找到最佳答案,然后我们会评估这个答案是否符合用户的问题。在这个框架下,我们目前使用ChatGPT作为底层的大模型,但同时也在探索微调自己的模型或完全自主训练我们的模型。

ChatGPT是一个预训练的模型。它可以利用自身的知识库回答用户的问题,但是对于超出其知识范围的内容,它就无法回答。我们和ChatGPT的对接方式是利用它的语义理解和逻辑推理能力,让它学习当前正在发生的事件,这就是所谓的上下文学习。

我们需要优化的内容很多,因此有必要使用代理网络。对于某些问题,我们可能需要使用更复杂的模型,如GPT-4,而一般来说,比较简单的模型就可以满足需求。这与人类在处理信息时根据不同情况调用不同的认知能力类似。对于深度文献,我们可能需要高度集中去理解,而对于简单问题,则更容易获取答案。

同样地,在数据库的层面,我们会根据需求方的网络来运行。未来我们可能会将数据库也纳入去中心化管理,这样能更高效地进行扩容。

在数据的清洗、标注和处理过程中,我们希望与用户共同创造价值,因为数据对于任何AI公司来说都非常重要。

在Web3的环境下,我们重视数据的所有权,因此希望用户能参与到数据处理过程中,与我们共同打造我们的产品。只有用户越多地使用,我们的模型能力才会更加强大。用户体验也会更好,进而吸引更多用户使用产品,而大家也能在这个过程中分享经济收益,这是我们希望实现的共创理念。

**TechFlow:**Kaito如何帮助用户应对区块链行业中的虚假信息并保证数据质量?

Yu:

我们目前的重点工作有三个方面。

首先,我们对信息源进行筛选。以推特为例,我们利用社交图谱的方法来筛选用户以排除垃圾信息。

其次,我们注重提供信息的来源。平时用户使用大型语言模型,如ChatGPT时,用户并不知道搜索结果是如何生成的,而我们为搜索结果都标注了信息来源,以帮助用户更好地判断信息的可信度。这一点是我们在传统大语言模型上做出的重要技术优化。

最后,我们希望能与用户共创。如果用户在我们的平台上发现无用或虚假信息,我们也会提供一个反馈机制,让用户参与其中,共同提高信息的质量。

去中心化助力人工智能

TechFlow:你如何看待AI在Web3时代的发展潜力,特别是关于其自我学习和数据共享的能力?同时,您认为区块链的哪些核心特性可能对AI的未来发展产生影响?

Yu:

OpenAI和区块链之间实际上没有直接关系,OpenAI是一个非常重要的AI产出。其训练模型是通过大量数据和文献进行训练,并且人工标注也是通过雇佣和人来进行的,训练过程是中心化的运营。而Web3在其本身可能打开了一个新的格局,并且具有颠覆性。现在,有一些人还没有完全意识到Web3的颠覆性内核

人工智能的潜力

最近,人工智能领域的教父Geoff Hinton指出:“humanity is just a 'passing phase' in the evolution of intelligence”。ChatGPT尽管已经非常厉害,但依然只是AI产物的一小部分。所以长远来看,人工智能产业有非常大的发展潜力。

不同于我们人类,AI同一模型的多个副本可以共享新学习到的东西,这是AI的潜在优势。

现阶段,AI尚未完成自己的使命,但我相信它的未来不可限量。其中,有一项重要的假设:AI的发展不可能放缓,因为发展AI有着强大的驱动力,即使一个国家放缓了AI的研究,其他国家也会继续推进AI技术的发展。因此,AI的发展趋势将是稳定、持久、而且不可遏制的。

区块链的属性

在这个过程中,区块链的核心是什么?公平、可信、稳定和个人掌控权,我认为这些是区块链最重要的核心,因为任何中心化的组织都有可能带来巨大的危险。这也可以解释为什么马斯克对于OpenAI已经变成了Close AI感到非常不满。

在某种程度上,我能理解他的观点。然而,在这个框架下,如果我们能够从另一个角度对这些东西进行一些限制,比如数据的所有者,或者其他方面的限制,那么我们整个系统将会有一个比较强大的负反馈原则。

这个思考可能更多是哲学性和抽象性的,但我认为有很多可以验证的方向。Web3在AI市场崛起之后变得越来越重要,我认为这是最近我得到的一个思考。

时间将揭示真正的去中心化

在Web3中,我认为本质上并没有太多的中心化因素,它是一个非常去中心化的东西。比如行业中有一些负面的例子,从去年到现在发生了许多灾难性的事件,比如FTX的问题,还有一些新闻报道,或者是USDC的Depeg事件,它们本质上都涉及到中心化本质。

但真正完全去中心化的东西,比如比特币和以太坊等协议,运行非常稳定,它们本身有一个非常强的服务原则,这是非常重要的。而在刚才讲到的一些衍生出来的东西中,可能还包括公平的社区共创等,这些都是在非常去中心化的基础上产生的。

传统媒体与AI搜索引擎****的关系

TechFlow: AI搜索引擎****将如何影响媒体行业?你认为AI能够取代媒体,让每个人都能创造高质量内容吗?

Yu:

搜索引擎****和媒体之间本质上是一个上下游的关系,就好比媒体是合作引擎信息源的一部分,这是最本质的关系。

在大型语言模型出现之前,搜索引擎一直存在,甚至包括国内的今日头条等媒体聚合平台也在使用AI公司进行一些浅层的快讯、梳理和总结等工作,这些都已经应用了AI的能力。

但我认为一些东西永远不会或者不太会被取代,例如一些专有的信息,比如专访、调查报道等,这些都是媒体的独家价值。

区块链私有数据的隐私保护与数据共创

TechFlow: 你能分享一下就是对未来链上数据和行为隐私保护的看法。Kaito有什么策略来应对这些挑战?

Yu:

我认为这个话题本身是非常重要的。

在这个问题上,我们是一个中立的引擎,简单来说,无论是在互联网上还是区块链上,我们会收录任何公开的信息。但是,对于私有或受保护的信息,我们现在及将来都不会进行收录。因为这些信息并非所有人都能够访问。

在共创数据的过程中,我们非常希望站在区块链和人工智能的交叉点上,与用户一起共同努力,创造新的数据价值。我们将目标定位为解决区块链这个领域的问题,因此本质上更像一家人工智能公司。我们目前的团队成员大多来自较成熟的科技公司,拥有人工智能相关的背景,同时他们对Web3的前景充满信心。我们早期的团队成员多数来自Web3社区,聚在一起齐心协力创造我们自己的产品。

至于AI和区块链的平衡,我认为在我们的发展过程中,并不存在一个明确的平衡点。我们运用AI技术解决我们热爱的垂直领域的需求,无论是信息索引、分发,还是其他可能涉足的领域,都是为了服务于特定的行业。我们运用新技术,以更有效率和好的方式提供有用的服务,将其纳入相应行业中。

传统商业模式Vs.基于社区共创的经济模型

TechFlow: 所以你目前团队有考虑过的一种就是社区共建有哪些方式,就是有哪些激励用户的方式?

Yu:

我认为最简单直白的方式就是让所有用户贡献的数据具有一定的经济效益,并且在监管和合规范围内运作。在这个平台上,每个用户的搜索、浏览和行为都帮助优化平台的模型,从而提供更好的用户体验。通过这种正向激励,我们鼓励每个用户积极参与社区共创。这正是我们的目标所在。

目前,Kaito有两种商业模式。一种是机构版,采用传统的订阅方式,为机构提供付费服务。另一种是大众版,完全免费,但可能会存在一些额外的付费功能,例如类似于ChatGPT的模式。另外,我们还提供一些数据的API服务,为行业中的其他去中心化协议提供数据支持,这是另外一套商业模式。

**TechFlow:**你们是否考虑采用其他激励方式或使用代币收款来吸引用户?

Yu:

我认为这实际上是两个问题。

首先,我们是否需要代币,以及在整个生态中代币有什么用途?

我觉得代币是有价值的。虽然如果没有代币,项目肯定可以正常运转,只要能提供出色的产品和自给自足的盈利模式,比如通过数据或广告收入,就可以实现良好的营收。

但是对我们来说,更令人兴奋的是在早期阶段就能打造出与社区共创的概念。在这样的框架下,我们认为需要代币。

具体如何操作,或者后续的想法,需要根据发展情况来决定。至于订阅等收费模式是否可以通过代币来支持,这可能是另一个话题。对我们而言,代币的好处显而易见,无论是从效率还是商业价值的角度来看,代币都比其他方式更简单。

另外,从商业角度来看,我们可以完全跳过第三方中介,不必依赖像Stripe这样的支付公司。然而,我们也面临一个挑战,就是在整个行业中,我们还没有找到特别好的第三方服务公司,能够让我们轻松与所有合规平台,包括政府和税务机构进行申报。

在当前行业阶段,这可能是我们遇到的一个问题。

TechFlow: 那么就是在代币的社区治理方面,你最近有研究到什么比较有意思的经济模型吗?

Yu:

最近在加密行业发生了一些大的变化,特别是在代币治理方面。以前很多代币被视为纯粹的治理代币,但现在越来越多的代币能捕获经济价值,例如DYDX等。这引发了一些担忧,大家希望能实现一个社区能捕获经济价值的状态,而不仅仅是治理价值。

深潮独家新闻

**TechFlow:**最后一个问题就是能否提供给我们一些独家内容,比如揭示一下kaito即将到来的里程碑和发展计划,有没有什么我们能期待看到的特别激动人心的新功能或新合作?

Yu:

我们计划在未来使用户能够以全新的方式应用搜索引擎,比如通过截取价格走势图进行分析,甚至与链下信息源进行交互,实现多模态搜索。

我们的愿景是为所有人提供一个完全不同的、最好的、最便捷的访问所有相关信息的方式。我们相信未来的潜力非常巨大,我们将逐步完善并实现这个愿景。我们希望未来的搜索引擎能够带来与现在截然不同的全新体验。目前整个行业仍处于早期阶段,我们正在探索如何更好地将大语言模型与搜索引擎结合,以提供简单而颠覆性的用户体验。

搜索引擎的进步和创新已经产生了翻天覆地的变化。十几年前,旅行者没有Google地图,在探索世界时只能依赖于Lonely Planet这样的纸质指南书籍。现在随着Google搜索引擎的出现,我们现在已经可以轻松便捷地搜索到所需的信息。然而,我们相信未来的搜索引擎将以一种超越我们的想象力的方式,带来更加激动人心和颠覆性的变革。

引用:

  1. https://www.kaito.ai/

  2. https://www.youtube.com/watch?v=rGgGOccMEiY&t=21s

https://www.techflowpost.com/article/detail_14017.html

深潮 TechFlow 是由社区驱动的深度内容平台,致力于提供有价值的信息,有态度的思考。

社区:

订阅频道:https://t.me/TechFlowDaily

电报:https://t.me/TechFlowPost

推特:@TechFlowPost

进微信群添加助手微信:blocktheworld

Web3