当前位置:首页|资讯|生成式AI

科技瞭望|从智能分发到分发智能,生成式AI如何影响信息和应用的分发方式

作者:Rokid发布时间:2024-11-07

以生成式 AI 为起点的这一轮智能革命,带来了一个重要的转变 —— 我们不再需要去适应机器的逻辑,而是让机器来理解我们的思维。这个变化正在影响我们现有的内容生产和分发方式。同时,新的信息和应用分发的生态也正在酝酿。

本文将回顾互联网信息分发方式的变迁,探讨生成式 AI 如何通过提供个性化内容影响信息和应用的生产分发方式,最后展望新一轮的内容分发入口。以及它如何在数字世界和在现实世界之间建立更紧密的联系。

01互联网信息分发的变迁

自上一次互联网革命以来,我们见证了信息分发方式的显著转变,本文中将这一过程概括为三个主要发展阶段:

  1. 门户网站时代:在早期,普通用户很难在互联网上发布信息,所以互联网上的信息总量并不多。门户网站如雅虎(Yahoo)成为用户获取信息的主要渠道。这些网站通过人工编辑的方式整理和展示信息,每个用户则接受网站分发的相同内容。
  2. 搜索和订阅时代:随着网民数量的增加,内容创作生态开始出现。互联网信息量的增加,使用户从被动接收转变为主动搜索和筛选信息。谷歌等搜索引擎开始出现,帮助用户提升查找信息的效率。用户还能通过 RSS 主动订阅感兴趣的内容。
  3. 推荐算法时代:最近十几年,移动互联网和社交媒体的普及使信息开始泛滥,用户筛选信息的成本变得高昂。面对海量信息,用户不仅需要花费时间和精力筛选出对自己有价值的内容,同时还需过滤掉无关的和低质量的信息,这无疑增加了信息获取的难度。于是推荐算法开始流行,如 Facebook、今日头条、小红书等平台,开始主导信息流。这些平台通过分析用户的行为模式、偏好和历史数据,为每位用户分发最符合他们喜好的的个性化内容。推荐算法提高了用户和信息间的匹配效率。将用户“选择”内容的过程简化为“判断”,减小了认知负荷,降低了用户获取目标信息的成本,提高了信息的可访问性,也更有效的应对了长尾需求。

信息泛滥造就了推荐算法的盛行。这种变化悄无声息地重塑了我们的内容消费习惯。用户越来越多地采取被动消费的方式,减少基于特定需求主动获取信息的行为,转而接受算法推送的个性化内容,享受更轻松、更简单的内容消费过程。

推荐算法虽然在提供个性化内容方面表现出色,但它们并没有从根本上解决用户在海量信息中进行主动筛选的挑战。当用户需要解决复杂问题或寻求深入信息时,推荐算法的局限便显而易见。

我们会想到搜索引擎,这曾经是用户主动获取信息的途径,但它也只能提供一般性的答案,缺少针对性和个性化的解答。为了从搜索结果的众多相似的网页中筛选出精准、匹配的信息或服务,用户往往需要消耗大量的时间和精力。

这种局限性凸显了用户对新一代搜索引擎的需求——一个能够提供更精准、更个性化服务的搜索工具。

02AI搜索的潜力与挑战

ChatGPT 曾被认为是新一代搜索引擎,因为他似乎无所不知,而且可以针对具体的问题提供个性化的解答。然而,用户很快发现其存在严重的幻觉(Hallucination)问题,并且无法得知最近发生的事件信息。为了应对这些问题,微软推出了第一个 AI 搜索引擎 New Bing,采用了 RAG(Retrieval Augmented Generation 检索增强生成)技术,New Bing通过自动浏览和总结Bing搜索结果中的网页内容,生成精准且个性化的答案。

New Bing

与传统搜索相比,AI 搜索避开了垃圾信息与广告,个性化的针对具体问题给出结构化的回答,还能在话题上继续追问。极大的降低了用户获取信息的成本。

然而,随着推荐算法的普及,用户已经养成了被动接收信息的习惯,主动使用搜索引擎的需求在逐渐减少。即使 AI 搜索在很多方面优于传统搜索引擎,但它仍然依赖于用户主动发起的查询请求,使用率并不会很高。为了进一步拓展更多使用场景,AI搜索产品也开始寻求平台化转型。鉴于其强大的信息总结和归纳能力, AI 搜索可否转变为内容创作和分发平台?信息分发的中心曾经是搜索引擎,那么AI搜索能否成为新的分发中心?

已经有产品开始在这个方向尝试。例如,Perplexity的Pages功能允许用户将搜索结果整理成标准化的文章;Genspark的Sparkpage功能则进一步根据用户的搜索结果生成结构化内容,包括文字、图片等富媒体信息。Sparkpage的共享和编辑特性,使得任何人都能参与到内容的丰富和完善中,共同构建一个动态更新的知识库;“快找找kFind”则更像典型的信息流产品,用户可以通过“左滑” 看到他人搜索的问题和答案。没有评论功能,而是通过在答案下方追问来增加用户间的互动。还有一些垂直领域的产品,如专利搜索或时政新闻,通过订阅关键词,用户可以接收到定时推送的相关信息。

Perplexity Pages(左) Sparkpage(右)

AI 搜索产品在平台化转型的过程中最大的挑战在于数据获取。现在的互联网内容平台都是“内容分享+社交媒体”的综合体,其商业模式往往建立在规模效应和社交关系之上,已经形成了基于“流量经济”的竞争优势。这些平台倾向于将优质数据和内容保留在自己的生态系统内,以维护其市场地位。例如,腾讯的公众号数据、小红书的生活攻略、知乎的时事评论等,都是各自平台数据护城河的重要组成部分。这些数据不仅丰富,而且具有高度的相关性和针对性,是AI搜索高质量的信息源。

另外,AI搜索引擎在生成内容时如果缺乏有效的鉴别机制,就可能导致它们陷入自产自销的恶性循环,从而使回答质量越来越低。

尽管独立AI搜索产品在用户基础和数据资源方面可能处于劣势,难以撼动现有市场格局。但这个方向还有更多的潜力等待挖掘。这种潜力不仅限于信息分发,而是扩展到了更广阔的领域——分发一切能够帮助用户解决问题的资源。

这些资源可以是一个网站、一个应用程序,或者只是一次简短的“智能服务”。

03从信息的分发到应用的分发

在我们日常使用搜索引擎的过程中,大约只有30%的查询是为了解答疑问。而更常见的需求,实际上在于寻找特定的网站或实用工具。比如找到一个记不清域名的网站、临时需要将图片转成另一种格式,或是寻找电影、游戏资源。

工具和应用的分发同样需要应对长尾需求的挑战。某个需求在大众市场上可能并不常见,但对于特定用户群体来说却非常重要。

现实情况是,与分发信息相比,分发应用程序要困难得多。例如,当用户发现一篇文章时,他们可以立即阅读和理解信息;而应用通常需要下载、安装,并学习如何与新的界面交互。而且因为应用商店的 App 数量在增加,应用间的功能重叠度高,所以对比筛选的难度和成本也非常高。

很少人乐意投入额外的时间和精力去适应新的工具,这也导致现在大家常用的应用趋于稳定。用户更倾向于坚持使用他们已经熟悉的应用,而不是探索新的选择。即使这些应用已经变得臃肿而难以使用。

来源:William Hook

有优势的应用为了进一步提高用户的使用时长和日活(DAU),会通过增加新功能和信息流来吸引用户更多的注意力。例如,一个简单的笔记应用可能集成了社交分享、多媒体编辑等复杂功能,以期提高用户粘性。然而,这种自发的复杂度增加并没有本质上提升用户体验,反而可能导致应用变得臃肿,难以使用。

在目前的应用开发模式下,应用所有的功能和界面布局都是“静态”的,是所有目标用户需求的最大公约数,因此应用无法满足所有用户个性化的需求和偏好。开发者在面对用户反馈时,往往只能进行折衷的调整,以免劣化已有功能,尽量达到帕累托最优。

就像传统搜索引擎只能帮忙定位到现有的网页,不能针对具体情况解答。应用也不会根据每个用户的具体需要提供服务。长尾需求被忽视了。

于是在实际使用场景中,完成一个任务往往需要多个应用的协同工作。例如,编写一份包含图表和数据分析的报告可能需要在文本编辑器、制图软件和数据分析软件之间频繁切换,复制粘贴数据,每次切换时可能还需要看三秒开屏广告,然后不小心点到短视频里直到完全忘记刚才要做的事。

效率工具型应用的设计初衷是帮助用户高效地完成任务。但如果为了让用户可以顺畅的在一个应用内完成任务流,开发者也就只能不断增加程序的复杂度,但这对于另外一些用户来说又造成了功能的冗余,这些额外的功能占用了宝贵的屏幕空间。为了保持界面的简洁,应用不会将所有功能都放在一级界面,所以用户想要访问深层内容时,需要经过多个步骤。这导致功能的可发现性也变差了,有时我们会在使用 App 时惊讶的发现:“居然还有个功能藏在这里”。

来源:Marketoonist

TABREZ SYED 曾在他的博客中深刻的讨论过这一点:在当前的开发生态下,应用的臃肿化似乎是一个不可避免的趋势。随着复杂度的增加,维护和更新的成本也随之上升。开发商还需要应对高昂的渠道分成,这些经济压力最终可能转嫁给用户。在成本控制的约束下,开发商很难保障优质的用户体验。

04从应用的分发到智能的分发

随着AI的进化,我们正在探索一种全新的应用分发模式——从传统的应用分发转向智能的分发。那么,智能分发能否拯救现有的应用生态?

大语言模型(LLM)可以通过深入理解用户的需求和习惯,推理出用户当前的需求,从而智能的推荐用户需要的功能和内容。和推荐算法一样,这种智能分发方式可以提高应用分发的效率和匹配度,使得用户能够更快地找到他们真正需要的应用。

对于那些尚未被现有应用满足的小众或临时需求,生成式AI展现了其独特的价值。这种价值可能来自具体的信息、数据,或高效的交互式体验。而应用将变得更加灵活和智能,能够根据需求动态生成和调整。现在,用户只需用自然语言描述需求,AI就能将需求转化为可运行的代码。

在Claude 3.5中使用Artifacts创建程序的过程

来源@balajis

这种分发模式的核心在于分发智能本身,不仅是现有的应用程序和静态信息内容。系统将“按需分配”应用的功能,甚至“奢侈”的创建一个临时的智能体来满足一次性的使用场景,而新功能的设计和开发周期趋近于零。智能服务的范围可以小到在用户撰写邮件时主动提供措辞优化,大到交互式地辅助用户制定一份完整的旅行计划。

智能体(Agent):能够感知其环境并采取行动以实现某些目标或任务的自主实体。

例如:在制作一道精美的料理的场景下,传统应用可能只是呈现一份静态的菜谱界面。而智能分发系统则可以根据用户的情境上下文信息和偏好来提供实时指导服务,可以是语音逐步指导,也可以是交互式的多媒体界面。在这个场景下,菜谱本身只是一段普通的信息,只有理解菜谱的内容并能够提供给用户个性化的指导才是智能服务。

更进一步,智能用户界面(Intelligent User Interfaces)还可以根据用户的偏好,动态调整界面的外观样式和交互方式,从而提供深度个性化的用户体验,更好地满足用户的个性化需求。

当然,你也可以把临时生成的智能体保存下来。再下次有类似需要时,再根据需要来修改。或者直接基于其他人创建的智能体进行修改。就像Claude的Artifacts工坊那样。

Artifacts工坊

来源@AnthropicAI

通过这种形式,更多的人能够参与到“软件”的创造过程中。由AI生成的微服务可能会逐渐取代传统的应用开发技术栈。而这些 AI 微服务需要频繁的重新组合和再构。

那么如何构建这样一个用于分发智能的系统呢。

Andrej Karpathy曾在 X(原Twitter) 上抛砖引玉式的提出了一个 LLM OS 的概念。他认为可以把 LLM 视为系统的 CPU,并与各种外部工具连接,按需取用。

LLM OS

来源@karpathy

分发智能的过程涉及几个关键步骤:

  1. 意图识别和任务确定:构建智能分发系统的首要步骤是对用户输入进行解析,精确识别其意图和目标。例如当用户询问天气时,系统需要识别这是一个对实时天气信息的需求。
  2. 工具选择和任务规划:为了实现用户的需求,系统需将需求分解为一系列可执行的子任务,并规划执行步骤。这涉及到选择合适的工具或智能体来满足用户需求。例如对天气查询,系统可能会选择一个天气服务工具,从用户输入中提取必要的参数,以便调用外部工具。在天气查询任务中可能是用户关心的城市或地区。
  3. 分发智能服务:对于简单任务,系统可以通过检索信息,或调用相应的工具来提供服务。然而,面对复杂的任务,当现有功能库无法满足特定需求时,系统需要具备创造新解决方案的能力。这要求系统不仅要有访问和整合现有资源的能力,还要有创新和适应新情况的能力。系统可能需要创造性地整合不同的工具和服务,形成一个为特定需求定制的临时程序或智能体。

除了一个高度响应用户需求的系统架构之外,一个开放的平台同样重要,它能够促进开发者轻松集成和部署新的功能与服务。

这类概念正在逐步从理论走向实际应用。从 ReAct(Reasoning and Acting)模式的提出,到OpenAI的“Function Calling”,再到LangChain的“Tool use” 提供的完整工程级能力。

iOS 13推出的App Intents框架允许开发者将自己 App 的功能暴露给系统,使用户能够通过Siri语音命令和“highlight”执行这些功能。

在过去的 5 年里,App Intents 需要用户使用 Shortcuts 这一类似编程自动化的 app,根据自己的使用习惯定制自动化体验。

WWDC24,苹果终于发布了Apple Intelligence,让App Intents真正发挥出了它应有的作用。和OpenAI定义的schema接口类似,现在可以利用App Entities,通过App Intents将应用内容暴露给Apple Intelligence的语义索引。

新的 in-app actions 功能。让Siri有望成为一个真正的智能助手,通过理解用户的个人信息和当下的情境(Personal context),从已有的 App 中调取信息,也可以参考当前屏幕中发生的内容。来智能化的跨应用分发功能和信息,完成个性化的任务。让 Siri 穿梭在系统中,随时听候差遣。

苹果承诺增加 Siri 在应用程序中执行操作的方式

资料来源:Apple

发布会上也展示了一些实用场景,比如“Priority Notifications”功能可以自动筛选更重要的通知,推送到比较靠前的屏幕位置上,邮件的摘要也可以不仅是显示开头的一行字,而是自动总结生成的摘要。还有很多“in-app actions”示例:比如用户询问如果临时修改了会议时间,还能不能赶上晚上孩子的活动。Siri 会先查看“邮件”App中的会议时间,在“日历”App 查看会议地点,在“信息”App 中查看活动的时间地点信息,然后在“地图”App 中计算路程所需时间,最后回答用户到底能不能赶上。

助手模式的生命周期。来源:developer.apple.com

目前在 iOS 18.1 Beta 版本中只开放了文本总结、改写等能力。而应用调度等高级能力还尚未开放,我们暂时无法体验其实际效果。但可以预见的是,在特定的工作流和场景下,新Siri会非常靠谱和智能,它会始终伺服在后台,在用户可能需要帮助时主动分发智能服务。

但它缺乏和现实世界的联系,虽然苹果针对每个场景都专门制作了 LoRA 适配器,以提高 3B 的端侧小模型能力。但App intents只能调用已安装 App 的能力,如果用户的某个临时需求超出了苹果所画的这个“圈”,Siri 就会变得无能为力。

AFM 的 LoRA 适配器(Adapter),来源:Apple

另外,正如 AI 搜索面临的困境,掌握数据的超级应用不见得愿意把能力和信息交给 iOS。他们可能更倾向于在应用内部建立自己的AI分发系统。

05Web得天独厚

Web生态的开放特质让AI能够更自由地访问和解析浏览器中的页面元素与数据。以Monica、豆包电脑版这类浏览器插件为例,它们的主要功能是读取页面内容,并在此基础上提供翻译、总结、追问或AI代写服务。尽管这些插件的能力尚有限,但它们已经展示了一种基于情境上下文来分发智能的初步形态。

Monica chrome插件

Web 浏览器是在我们的台式电脑上渐渐流行起来的,彼时要在电脑上安装上一个软件对于普通用户来说十分不易,但通过浏览器,只需要输入一个网址(URL)便可轻松获取信息、发布内容以及与其他网友互动。

然而,在当今的移动互联网时代,内容分发的主导权早就从浏览器转移到了App Store中的一个个超级应用,用户在移动设备上使用浏览器的频率要远小于桌面设备,Web技术在移动端更多地以Webview的形式存在,嵌入到各种应用中,如营销页面、移动广告和电子请柬等。

现在,当我们讨论分发智能时,我们需要的不仅是一个个单一而封闭的应用,而是需要能够灵活重组和再构的一个个AI微服务。此时,Web 技术栈的优势便显现出来。

  • 高度标准化的动态能力:用户无需下载安装即可访问任何 Web 应用,实现了真正的用完即走:“悄悄的我走了,正如我悄悄的来,我挥一挥衣袖,不带走一片云彩”。
  • 高度标准化的跨端:Web 技术栈的跨端特性不受设备形态和系统架构的限制。无论是手机、电脑、平板,还是电视、智能汽车或XR眼镜,都可以顺畅的使用同一套Web应用,这种跨平台的能力极大地扩展了智能分发系统的覆盖范围和用户的便利性。

尽管任何技术理论上都能实现动态能力和跨端,但Web的真正价值在于其深厚的标准化基础。这意味着不同设备之间的Web生态是完全互通的。

HTML DOM Tree 来源:Birger Eriksson

除了这些必要条件,再来说说为什么Web 更适合 AI 智能分发

  • Web浏览器通过HTML作为其主要的入口点,其设计本质上是为了定义内容。熟悉HTML的开发者都知道,它不仅包含了网站的基础元信息,如标题、关键词、作者等,还通过一系列语义化标签提供了对内容结构的清晰指示,例如h1用于一级标题,b p用于段落,header用于网站的头部,而footer用于尾部。这种对内容的精细划分,与那些主要关注交互和细节定义的App开发框架相比,更有助于AI理解和解析网页内容。AI的精准内容理解是实现高效、个性化分发的前提。
  • 开发者可以将任何粒度的控件或内容封装到一个 Web Component 中,然后作为一个新的 HTML 标签被调用和组合,这种灵活性,不仅使得AI能够进行内容分发,还能够根据用户的具体需求,智能地选择并组合最终的结果显示给用户。比如开发者创建了多个 Web Component,AI可以根据用户的情境和偏好,动态地挑选并优化这些组件的组合,提供更加个性化和响应迅速的用户体验。

下面展示一个简单的示例:通过 intent 标签定义提示词(Prompt),在提示词中会写出要求返回的格式为IntentEvent类型,这样当用户希望获取新闻时,AI 就会将内容按照指定格式生成好,并调起这个页面。

<html><head><title>AI News</title><meta name="deion" content="You're an AI news curator"><meta name="keywords" content="News, Tech"><intenttitle="locate latest news"action="https://ar.rokid.com/system-intents/news/latest" type="text"><!-- 每个 Intent 对应一个 Skill --><!-- Skill 的具体内容定义在 action 的文本中 -->< type="text/type">import type { News } from 'https://ar.rokid.com/system-intents/news/latest';

window.addEventListener('intent', (event: IntentEvent) {const intent: Intent = event.intent;const news: News = intent.input;document.setTemplateInput('news.title', news.title);document.setTemplateInput('news.content', news.content);});</></intent></head><body><div>Latest News: {news.title}</div><p>{news.content}</p></body></html>

我们还可以使用同样的方式来实现样式的生成,比如在提示词中添加一个布局或者样式的结构定义:

interface NewsStyle {fontSize: number;fontFamily: string;background: string;...}

并在提示词中声明具备调整样式的能力,这样当 AI 理解了用户的样式需求(例如老人模式、少女模式、极客模式等),同样会返回对应的样式数据给到应用:

import type { News, NewsStyle } from 'https://ar.rokid.com/system-intents/news/latest';

window.addEventListener('intent', (event: IntentEvent) {const intent: Intent = event.intent;const news: News = intent.input[0];const style: NewsStyle = intent.input[1];document.setTemplateInput('news.title', news.title);document.setTemplateInput('news.content', news.content);

const bodyStyle = document.getElementById('body').style;bodyStyle.fontSize = style.fontSize;bodyStyle.fontFamily = style.fontFamily;bodyStyle.background = style.background;});

通过上面的两个例子可以看到在 Web 技术栈上,用 AI 分发智能的可能性与方式,它基于当前的大模型能力就可以轻松实现。

现在我们开始理解到新技术的出现并非是为了取代那些“旧”的,而是“旧”的要容纳新的,这样一来,我们做出选择的余地也就更大了。

——原研哉《设计中的设计》

Web 技术的发展从来都是渐进式的和扩张式的,这次 AI 的加入也不例外。它不会取代原有Web开发者的工作,反而需要在新领域做更多的工作,提高渗透率,把技术拓展到更多的场景。

目前,像Monica这类浏览器插件只能围绕桌面设备的使用场景提供服务,而我们提到的使用 intent 标签分发智能的方式,则有潜力将使用场景扩展到移动端和其他平台。

然而,这种分发方式仍然局限于数字世界,与Apple Intelligence面临相同的挑战——缺乏和现实世界的联系。

想要突破这个“次元壁”,我们需要重新审视硬件入口。

06硬件终端决定分发内容

Open AI 高调发布 GPTs 的时候被认为是 AI 的 Apple Store 时刻。在今年年初,用户创建的GPTs数量就迅速突破了300万个,然而半年过去了,GPTs 的数量并没有继续保持高速增长。

探究GPTs熄火的主要原因是它的使用入口在桌面端,特定的网页里,这就限制了它们的应用场景。尽管有300万个GPTs被创建,但它们的功能和用途却高度同质化。

而且由于缺乏主动分发机制,GPTs商店里仅有约5%的bot能够每天吸引到150至500个用户,而绝大多数bot的日活用户不足十个。大部分人根本不会有耐心去尝试每一个 bot,导致大部分GPTs的使用率和可见度都不尽如人意。

这种局面清楚地表明,我们迫切需要一种更高效的分发机制。为了有效应对这一需求,我们需要更深入地探索硬件终端的角色和潜力。

硬件终端作为用户接触数字服务的第一入口,决定了使用场景,进而决定了分发内容的类型。我们从以下三类典型的终端开始讨论:桌面设备、移动设备和全天候可穿戴设备。以电脑和电视为代表的桌面设备,通常被用于长时间集中精力完成单一任务。这种使用场景在一定程度上限制了AI服务展现其多样性的能力。因此,我们看到最多的是AI辅助创作工具的使用,如绘图、编程或写作助手。

而用户的一些临时性的需求会优先选择通过手机解决。

智能手机增加了用户接触互联网的时间,使用场景也变得更加多样化和碎片化。更多碎片化时间通常会用来刷信息流,以快速满足消遣和获取信息的需求。我们看到推荐算法的信息流产品大多更侧重于移动端。

从单纯的分发信息转向更高层次的分发智能,手机看来也是目前最佳的入口。

然而,虽然手机可以覆盖数字世界中的大部分场景,但无法很好的服务于现实生活。主要的挑战在于,手机缺乏对用户现实情境上下文的感知,从而无法判断用户在当前情境下的需求。

极客公园创始人&总裁 张鹏在 Founder Park AGI Palyground 2024 的演讲中提到了一个精彩的例子

比如我们现在正在会场交流,突然来了一个电话,假定你当时忘了把手机设定成静音,这种场景是不是很尴尬?在手机设计的历史中,人们经过了几轮交互改进。比如最早的手机可能没有静音功能,后来增加了一个按钮来设定。再后来像苹果这样的公司甚至给你设置了勿扰模式、专注模式等更高级的功能。再后来还有手机做了设计,如果电话来了你忘了静音,把手机翻过来它就自动静音了。

这看起来都是交互的演进,但如果我们今天放在通用智能时代来看,难道手机不应该知道我今天所处的环境,自动判断是否应该响铃?比如我正在和朋友热烈,过程中进来了一个不是很重要的电话,为什么还需要我去做一个操作呢?或者要求用户提前记得把它设成静音。如果智能手机真的智能,难道不应该来自动处理这种情况吗?

如果我们把机器的智能设定为应该主动的去建立与人的默契,那么主动的,个性化的交付就是对用户最重要的能力。当然,这个梦想的前序是,机器需要在用户的生活流中分享更高分辨率的上下文信息,而非仅仅依赖用户的指令。

07增强现实

我们不能指望一直举着手机来采集环境信息,像 ChatGPT App 和 GoogleIO 2024 展示的 Project Astra 那样。

ChatGPT 的高级视觉和语音模式 来源:@ManuVision

Project Astra演示

@Google

所以全天候可穿戴设备是更好的载体,可以更方便的通过获取多模态的情境信息和用户“对齐”,但如果缺少历史上下文,对用户需求的理解程度就要打折扣,仍然解决不了功能的可发现性问题。

以Meta和雷朋合作的第二代智能眼镜为例,尽管配备了高质量的摄像头和收音设备,能够实现免提操作,但这些传感器不是始终处于激活状态。所以 AI 仍然无法主动分发智能。所以我们会看到它的使用场景还是和 rabbitR1 这种移动设备一样,仍局限于询问天气、翻译和识别眼前事物。这些功能虽然实用,但并未充分发挥全天候可穿戴设备的潜力。

“如果我问人们想要什么,他们会说更快的马。”

亨利·福特的名言揭示了一个深刻的现象:用户自己可能也无法明确的知道自己实际需要什么。在许多情况下,人们只能基于现有的经验和知识来描述他们想要的东西,而无法预见更多的可能性。这种局限性要求智能系统不仅要响应用户的显性需求,还要能够洞察和预测他们的隐性需求。

只有"Always on"的全天候可穿戴设备具备这样的条件。设备需要至少包括视觉模态和听觉模态,才能实现实时的感知用户现实情境的能力,包括位置、活动、情绪状态和社交互动等多模态的上下文信息。这种实时感知能力是实现主动发起服务的基础,使得设备能够在用户意识到需求之前,就提供相应的帮助。就像信息流的推荐算法一样,主动的根据用户所需和偏好,个性化的分发智能。

这种感知和分发机制能够更紧密地连接数字世界与现实世界。这种服务的无缝整合,使得用户在任何时候、任何地点都能获得他们所需的智能支持。

08风险与挑战

然而,目前想完全实现这一愿景还面临诸多挑战。

首先,硬件技术的成熟周期是一个关键因素。目前可穿戴设备的电池容量很难支撑全天候使用的条件。直接增加电池容量又会导致体积和重量的增加,性能和穿戴的舒适度很难平衡。

尽管基于Transformer的大语言模型(LLM)在处理自然语言方面表现出色,但它们实际上并没有真正的推理能力。有个很恰当的比喻是这些模型只是在依靠“语感”解答问题。这导致模型在面对复杂情境时可能导致决策失误,这个缺陷早在AutoGPT项目中已经表露无疑。即使Scaling law真能通往“AGI”,但为了降低延迟、保护用户隐私并确保在多种场景下的鲁棒性,模型应该部署在端侧,这就限制了模型的规模,而小语言模型(SLM)的局限性更加明显。和现在的微服务架构面临的挑战类似,AI 也需要妥善调度服务间的通信、处理故障和保持数据一致性和安全。

而且智能分发系统的成本和商业模式还尚不明确。当多个同类服务的schema非常相似时,如何在分发时做出选择,是否会出现针对智能分发的新SEO优化策略,这些都是需要进一步探讨的问题。

让我们先期待苹果的AFM(Apple Foundation Model)能在多大程度上克服这些挑战。

另外,新系统的内容生态建设往往是最困难的,需要考虑如何利用好现有的工具和数据。我们希望能实现渐进式的演化,而不是革命式的颠覆。

虽然我们还未掌握实现这一终极目标的技术,但随着越来越多的人认识到其价值和潜力,我们有理由相信,实现它的时刻已在不远处。

新时代需要新生态,新生态需要新共识。


Copyright © 2025 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1