
(原标题:Nano Banana团队谈居品和图像模子:但愿多样模态能交融在一王人)
在好意思国红点创投的播客Unsupervised Learning最新一期节目中,红点创投结伴东说念主Jacob Effron对话了认真Nano Banana的两位Google磋议员Nicole Brichtova和Oliver Wang。有计划认为,Nano Banana的流行,归功于这款模子收场了前所未有的“扮装一致性”。
Nano Banana在8月26日“匿名”发布,其后证明这款模子即是谷歌的Gemini 2.5 Flash Image模子。Nano Banana的见效也使得谷歌的Gemini APP的下载量飙升。
据行使数据分析公司Appfigures提供的最新数据,这款行使照旧攀升至全球行使商店排名榜的榜首,而况在九月份下载量环比增长了45%。固然九月份才过了一半,Gemini行使本月照旧获取了1260万次下载,远高于八月份的870万次。在此之前,Gemini仅在2025年1月28日达到过好意思国App Store的第三名。谷歌母公司Alphabet(GOOG.US)在8月26日至9月17日收盘的股价涨幅为19.56%。
Gemini下载量数据(来源:Appfigures、TechCrunch)
在居品除外,这期播客访谈内容涵盖了模子如何融入创意责任经过,为什么尽管现时AI图像智商照旧让东说念主嗅觉很苍劲但“仍处于AI图像发展的早期阶段”,以及图像与视频生成如何正趋向和解。
在访谈中,Nicole Brichtova和Oliver Wang分还享了现时模子的局限性、安全计谋,以及为什么“从指示一步到生成可平直用于坐蓐的内容”这一期待其实被严重高估了。
以下为「亮堂公司」编译的访谈正文(有删省):
Nicole(左)、Oliver(中),主理东说念主Jacob(右)
Nano Banana的见效归功于扮装的一致性
Jacob:Nicole和Oliver,绝顶感谢你们来到节目。我一直很期待此次对话。嗅觉你们照旧占据了我统共这个词Twitter动态、还有我统共的稳定时期,都是Nano Banana。
今天咱们会深刻探讨许多话题。也许咱们可以先从这个问题运转——你们在居品和模子发布前就照旧斗殴并体验了它,我记起最初可能是匿名发布的。但你们是最早一批玩转它的东说念主,我很好奇,你们最初认为哪些用例会最流行或让你们最欢快?而目下发布后,内容情况又如何?
Nicole:Oliver照旧见过许多我脸部的多样迭代图片。对我来说,最清翠东说念主心的是扮装一致性,以及能在新场景中看到我方——是以我的确有一堆幻灯片,都是我的脸,比如通缉海报、考古学家,还有我童年联想的行状。
基本上,咱们目下创建了一个包含我的脸和团队其他成员的评估数据集,每当咱们设置新模子时都会用来测试。
Jacob:在AI鸿沟,这简直是最高荣誉了。
Nicole:我的确很欢快。是以我绝顶敬重扮装一致性,因为它给了东说念主们一种全新的方式去想象我方,往常很难作念到。这亦然寰球最终绝顶清翠的原因之一。咱们看到许多东说念主把我方变成了手办,这诟谇常受迎接的用例之一。还有一个让我感到惊喜但其实也合理的用法——东说念主们为老相片上色,这诟谇常多情感价值的用例。比如:目下我能看到我方小时候真实的款式,或者能看到父母从詈骂相片中规复出来的真实面貌。
Jacob:这的确很道理。我笃信看到寰球的多样用法亦然你们领有热点居品的乐趣之一。我在Twitter上也见过,你们一定收到无数功能苦求吧?每个东说念主都但愿模子能作念这或那。最常见的需求有哪些?你们如何看待这些居品和模子的下一个里程碑或发展的方针?
Nicole:Twitter上最多的需求是更高分辨率。目下许多专科用户都在苦求1K分辨率以上的图像。还有许多苦求但愿支撑透明配景,这是专科用户很常见的需求。这两点是我见到最多的,还有更好的文本渲染。
Jacob:扮装一致性也曾是很难贬责的大问题,你们在这方面作念得绝顶棒。你们认为图像模子更正的下一个前沿是什么?
Oliver:对我来说,这个模子最令东说念主欢快的少量是它可以运转给与更难的问题。往常你必须界说你想要的图像的每个细节,目下你可以像问言语模子不异寻求匡助。举例,有东说念主用它来从头装修房间,但我方莫得主意,让模子给出提议。模子能凭据配色决策等给出合理提议。
我认为最道理的是连合言语模子的寰宇学问,让图像模子委果匡助用户,致使展示他们没料到的东西。比如信息检索苦求——我想知说念某个东西是如何责任的,模子能生成解释图片。我以为这是将来很重要的用例。
Jacob:在这方面进展如何?
Oliver:审好意思方面永久比较难办,因为需要深度个性化能力给出有用的信息。我认为个性化是本领侧还在不休更正的鸿沟。咱们还需要一段时期能力委果相识用户的需求,但如果能和模子对话,不休澄莹和细化,我以为很令东说念主期待。比如可以在对话线程中反复疏导,直到生成你想要的图片。
Jacob:你以为个性化会只发生在指示层面吗?即是通过有余的描摹,给模子有余的高下文来收场个性化?如故寰球会有不同的好意思学模子?
Oliver:我认为会更多发生在指示层面。比如用户告诉你的信息,可以让咱们作念出更理智的决策。但愿能这样,毕竟每个东说念主都有我方的模子并分别行状,听起来很复杂,但也许将来即是这样。
Nicole:但我照实认为好意思学会有很大各别。我以为在某种进度上,个性化必须在阿谁层面收场。你在Google购物标签页就能看到,比如你在找毛衣,系统会给你保举一堆,但你其实但愿聚焦于我方的好意思学,致使能从你的衣柜中选出搭配。我但愿这些都能在模子的高下文窗口里收场。咱们应该能把你衣柜里的图片喂给模子,然后帮你找出合适的搭配。我对此很期待,但愿能作念到。也许还需要更高等的好意思学法例,但我以为那可能更多发生在专科用户层面。
在言语模子鸿沟,致使在图像鸿沟,许多决定其实都取决于预检修时用的数据,这平直影响了模子的最终智商和好意思学格调。是以我也很好奇,将来会不会有一个全能模子,通过指示就能袒护统共图像用例?如故会有多样格调的模子?
Nicole:咱们一直对现成模子能支撑的用例范围感到诧异。你说得很对,许多面向消费者的用例,比如你仅仅想画出房间的效果图,这些都可以。但一朝进入更高等的功能,就需要集成其他器用来让它成为最终居品,在营销或遐想等责任经过中默契作用。
Jacob:寰球确定很好奇,这些模子为什么会变得这样好?
Nicole:有许多绝顶的原因。
Oliver:其实莫得某个单一成分,而是把统共细节都作念好了,委果调试好配方,还要有一个耐久专注于这个问题的团队。咱们其实也被模子的见效进度吓了一跳。咱们知说念模子很酷,很期待发布。但当咱们在LM Arena上线后,不仅Elo分数很高,这天然很好。分数高是模子有用的好迹象,但对我来说,委果的谋划是有大宗用户涌入LM Arena使用模子。咱们不得不不休加多每秒查询量,王人备没预感到。这是第一次意志到,这照实诟谇常有用的东西。有许多东说念主都需要这样的模子。
上线后Nano Banana的Elo分数显著起头(来源:LM Arena网站)
Jacob:我以为这是这个生态系统最道理的部分。你们我方构建模子时有些预期,但独一委果发布到用户手中,能力发现它的苍劲和影响力,此次显著激励了精深反响。
显著,模子的推理智商很猛进度上受益于言语模子自身的逾越。你能否先容一下图像模子从言语模子逾越中获取了些许克己?你认为这种趋势会跟着LLM发展赓续吗?
Oliver:天然受益,险些100%依赖言语模子的寰宇学问。比如Gemini 2.5 Flash Image(即是这个模子的名字)。
Jacob:名字道理少量就好了。
Nicole:(Nano Banana)照实更容易读。
Oliver:我有点好奇咱们的见效是不是因为寰球心爱说Nano Banana这个名字。但它照实是Gemini模子的一部分,你可以像和Gemini对话不异和它交流,它懂Gemini懂的统共东西。这是这些模子迈向实用性的瑕疵一步,即是和言语模子整合。
Nicole:你可能还记起,两三年前你必须绝顶具体地描摹需求。比如“桌子上的猫,配景是什么,这些热诚”,目下无须那么预防了。很大原因即是言语模子变得更强了。
Jacob:不再是后台魔法指示诊治了。往常你输入一句话,系统会自动推广成十句话的预防指示,目下模子自身就有余聪慧,能相识你的意图,这的确很让东说念主欢快。
如何打磨居品、多模态和语音AI的后劲
Jacob:从居品角度看,你们有多样不同类型的用户。有些是各人,一上线就去LM Arena玩模子,他们很懂若何用;还有许多通俗Gemini用户,濒临“空缺画布”王人备不知说念该作念什么。你们是若何接头为这两类用户打造居品的?
Nicole:咱们还有许多可以作念的。你说得对,LM Arena的用户和设置者都很专科,能用这些器用创造咱们没料到的新用例。比如有东说念主在相片里把物体变周到息影像,咱们根底没检修过这种场景,但模子说明得很好。关于通俗消费者来说,易用性极其重要。目下你进入Gemini行使,会发现到处都是香蕉热诚。咱们这样作念是因为寰球据说Nano Banana后去找,但行使里莫得显著进口。
咱们作念了许多责任,比如和创作家互助预置一些用例,放出平直衔接到Gemini行使的示例,指示会自动填充。我以为“零气象”问题还有很大更正空间,比如用视觉领导用户。将来还可以让手势成为裁剪图片的方式,不仅仅靠翰墨指示。
无意你想要很具体的效果,如故需要很长的指示,但这对大多数用户来说并不天然。是以我会用“父母测试法”——如果我父母能用,那就及格了,目下还没作念到,是以还有很长路要走。
许多问题其实即是要“展示而不是说明”,给用户易于复制的示例,让分享变得肤浅。莫得一个魔法谜底,需要多方面共同奋发。
Oliver:咱们还发现酬酢分享在贬责“空缺画布”问题上很重要。用户看到别东说念主作念的东西,因为模子默许就能个性化,可以用我方的相片、一又友、宠物尝试,绝顶容易就能师法,这亦然模子传播的重要方式。
Jacob:目下寰球都是用文本和模子互动,你们对将来还有什么新式遐想界面感到欢快吗?
Nicole:我以为咱们才刚刚运转探索可能性。最终我但愿多样模态能交融在一王人,界面能凭据任务自动切换最合适的方式。目下大模子不仅能输出文本,还能输出图片和视觉解释,得志用户需求。
我以为语音很有后劲,是很天然的交互方式,但还没东说念主委果作念出很棒的语音界面。目下咱们如故在输入翰墨,是以将来可能连合暂停、手势等,比如你想擦除图片中的物体,应该能像在草稿本上不异操作。如安在不同模态间无缝切换,是我绝顶期待的方针,还有许多空间去探索内容形态。
Jacob:你以为语音的法例是什么?我王人备能想象和图片对话。
Nicole:有些问题是优先级的,咱们还在鼓动模子智商,语音这两年也逾越很大。我以为很快会有东说念主尝试,也许咱们也会作念一些干系责任。
问题在于如何检测用户意图,然后凭据意图切换不同模式,因为并不显著。你可能又回到“空缺画布”问题,若何向用户展示功能?咱们发现用户进来后对聊天机器东说念主祈望很高,以为它什么都能作念,内容上很深邃释法例,也很难展示统共功能,尤其器用智商越来越强时。是以要想办法规则范围,在UI里展示可能性,匡助用户完成任务。
Jacob:而且你教会用户某个时刻机器东说念主能作念什么,三个月后又得从头教,因为功能照旧变了,这亦然很极端念念的居品挑战。
许多居品都有评估机制,你们有我方的评估数据集,比如Nicole我方的相片。图像模子的评估通常是什么样?除了放到LM Arena让用户体验外,你们在跟踪模子逾越方面有哪些熏陶?
Oliver:言语模子和视觉言语模子逾越的一个克己是能酿成反应环,用言语模子的智能来评估我方生成的内容。这酿成了良性轮回,可以同期擢升两个维度。
但最终,用户才是他们想要图片的裁判。是以像LM Arena这种用户我方输入指示的场景,是评估模子的最好方式。
Nicole:试吃也很重要。Oliver不会夸我方,其实他在团队里很擅长判断图片效果,能发现问题和劣势。咱们团队有几个东说念主专门作念这种“眼球评估”,即是本领性地看模子输出效果,这在初期仍然很重要。咱们也会汇集用户反应,包括X(推特)上的意见,望望哪些场所有用,哪些场所需要更正,然后诊治评估法子,既保证已有功能不衰竭,也推动社区温雅的方针。迎接寰球赓续反应。
Jacob:嗅觉这比言语模子难多了,比如法律用例有法子谜底,模子偏离时有纯正的评估数据集。但图片很主不雅,很难明确爬坡方针。比如扮装一致性能量化,但主不雅性照实让优化变得很难。对了,Nano Banana这个名字有什么故事?
Nicole:咱们团队有个PM叫Nana,她凌晨两点半在准备发布时想出了这个名字,然后寰球以为很道理就用上了,目下致使成了半官方名字。毕竟Gemini 2.5 flash image太难念了。
Jacob:照实很见效,连Google CEO都在发香蕉热诚,名字的影响力很大。
Alphabet CEO Pichai在模子发布后的酬酢媒体信息(来源:X.com)
Nicole:品牌提议即是名字最好有合适的热诚标记,这样更容易传播。
Jacob:嗅觉Hugging Face是AI界最早用热诚作念品牌的,目下咱们离公司股票代码都是热诚的时间也不远了。
专科用户的潜在行使场景
Jacob:回到刚才的话题,你们有许多专科用户,也有许多濒临空缺屏幕不知说念作念什么的通俗用户。你们见过最专科的用户有哪些用法?
Oliver:我最心爱的高等用例是视频干系的。我大部分行状生计都在作念视频器用,发现Nano Banana在AI生成视频方面绝顶有用。比如连合视频模子(VO3)可以更快地构念念、筹算镜头,这其实亦然电影制作的经过,先作念分镜,再拍摄。目下寰球用它构建更连贯、更长的视频内容。
Nicole:我对寰球用它在建筑遐想经过中的说明印象很深。可以从蓝图到类似三维模子,再到遐想图,快速迭代,简易了繁琐的经过,让东说念主专注于创意和乐趣。这种效果出乎我的预感,模子开箱即用就能作念到。
Jacob:嗅觉是多样“五分钟编码”图像用例,帮你快速搭建基础内容。
Nicole:还有网站遐想,往常从指示平直生成网站代码,总以为中间少了一个身手,目下可以先快速迭代遐想,满足后再编码。
Jacob:你以为这会成为将来的责任流吗?照实很合理,为什么要先糟践算力生成代码,如果审好意思王人备不悦足,还得重来?
Nicole:而且这样更道理。往常寰球就在现存经过里用本领,目下大模子发展太快,能平直从指示到网站,绝顶惊东说念主。但我以为寰球如故很心爱在中间瑕疵迭代,确保格调适当我方需求。
Jacob:你们既有模子也有API,将来会有多样接口和用例。你们如何分手哪些功能妥贴放在Gemini聊天器用里,哪些妥贴通过其他居品收场?
Nicole:体验很不同。咱们看到寰球会用Gemini作念快速迭代,比如团队成员在从头遐想花圃时,会用Gemini想象效果图。然后再和景不雅遐想师互助,把想法进一步完善。这是创意过程的第一步,很少是最终制品。而专科设置者会用更复杂的器用,串联多个模子,责任流更复杂。聊天机器东说念主妥贴启发、灵感和分享,专科用户如故更需要视觉化的UI。
Jacob:裁剪经过会如何交融进来?你们的API照旧集成到Adobe等器用了,传统裁剪经过会变得很不不异吗?如故临了从95%到100%完成度,如故需要传统裁剪器用?
Oliver:很猛进度上取决于用户。有些东说念主对细节条款极高,像素级法例,这种场景必须和现存器用深度集成,比如Adobe居品。有些用户仅仅找灵感,条款没那么严格,聊天机器东说念主快速生成想法就够了。是以两者都是模子的重要行使。
Nicole:像素级法例让我最近学到一个新点,比如作念告白时,不同品牌对视野的位置有严格条款,因为视野影响告白传达的信息。这种法例很难用聊天机器东说念主收场,是以专科用户如故需要专门的精准器用。
Oliver:归根结底,看能否用言语描摹。如果仅仅高头绪想法,言语很合适,但如果要左移三像素,言语就不太优雅了。两种方式都有存在真义。
Jacob:看委果的艺术家或创作家的完整经过,他们很难用言语精准描摹我方的操作,许多时候是凭嗅觉。Google里面也有许多团队对图像模子感兴味,你们最期待它在Google各居品中的行使有哪些?
Nicole:创意方面,比如在Google Photos作念相片裁剪很有远景,毕竟你的图库就在何处。比如把家庭相片平直变成生辰卡片,我每年都用得上。如果能平直在Photos里作念很棒。
还有像一运转说的“事实性”用例也很道理,比如让模子用妥贴五岁孩子的方式解释光互助用,并生成视觉化内容,这在网上可能都找不到。这样能为用户开启个性化、视觉化的学习体验。
Oliver:还有Workspace,比如PowerPoint和Google Slides。让寰球能作念出更有眩惑力的演示文稿,不再千人一面。
Jacob:行动前参议行业东说念主士,如果能收场就太棒了,寰球都花太多时期在排版上了。
Nicole:往常都是先在白板上画出幻灯片结构,写好标题。比如左侧放某个数据集的图表,然后把这些信断交给大模子,让它帮你完成许多责任,我对此绝顶期待。
图像模子的将来:小团队有契机,但调用寰宇学问需要大模子支撑
Jacob:回来近几年图像模子的发展,从Stable Diffusion到Mid Journey,Oliver你若何看这几年的主要里程碑?统共这个词旅途和变化你若何总结?
Oliver:这几年发展简直像火箭不异。我早期作念这方面时,GAN(生成抵抗汇集)是主流方法,咱们对GAN能作念的事很诧异,但它只可生成很窄散布的图片。
比如可以生成看起来可以的东说念主脸,但只但是正面照。其后出现能泛化、王人备由文本法例的模子,固然起步时很小很暗昧,但许多东说念主都以为这会变嫌一切,于是寰球都全力参加,但没东说念主能预感到逾越速率如斯之快。
我认为这收货于许多顶尖团队的良性竞争。寰球看到其他团队出色的模子,比如Mid Journey一度,效果惊东说念主,寰球都很受激励,想知说念他们若何作念到的。
尤其Stable Diffusion开源后,展示了设置者社区的限制,许多东说念主欢畅在这些模子上构建居品,这是另一个重要节点。从那以后,统共这个词鸿沟发展绝顶快,固然无意压力很大,因为不仅模子变强了,用户祈望也越来越高。目下寰球会怀恨一些小问题,但一年前咱们还在为不真实的图片感到诧异。东说念主类对新本领的恰当力的确很强。
Jacob:照实,如果2017年有东说念主告诉咱们会有如斯苍劲的本领,咱们确定会颤抖,但目下寰球老是怀恨不及。这亦然东说念主性道理的场所。你若何看Mid Journey当初能起头一步的原因?他们一度是行业标杆,统共东说念主都盯着它。
Oliver:Mid Journey比其他团队更早掌捏了后检修技能,尤其是让模子生成格调化、艺术化图像。他们一直专注于格调法例,确保生成的图片都很漂亮。刚运转时,聚焦于高质料图片的小鸿沟是很好的计谋。其后统共模子,包括Midjourney和Flux等,都推广到更泛泛的类别,同期保持高质料。
Jacob:是什么让模子能生成更泛泛的图片,不再只挑选完竣作品?
Oliver:有许多原因,寰球都不休完善细节,尤其是数据质料。同期,模子限制天然扩大,算力擢升,许多往常作念不到的事目下都能收场了。
Jacob:你刚才也提到,咱们在图像模子上取得了精深逾越,我很难判断还剩些许擢腾飞间。你若何看将来三年?咱们会不会回头以为目下的模子其实还很一般?
Oliver:我王人备支撑后者不雅点。仅就图像质料而言,还有很大擢腾飞间。将来的更正点在于模子的抒发智商。目下咱们能完竣生成一些常见内容,王人备无法分辨是生成的如故履行的。但只须超出通例场景,质料就会速即下落,尤其是需要更多想象力、组合多宗旨的指示。这类场景模子很快就崩溃了。
将来模子最好的图片可能和目下不异好,但最差的图片会大幅擢升,模子会更有用、适用范围更广。咱们发现模子越泛化,可支撑的用例越多,价值也越大。
Jacob:你若何看图像模子鸿沟的将来样子?比较大模子鸿沟,主如若你们、OpenAI、Anthropic等大玩家,图像模子会类似吗?
Oliver:这是个好问题。到目下为止,图像鸿沟小团队也能作念出顶级模子。咱们看到一些小实验室的作品绝顶惊艳。我但愿这种情况能赓续,因为我心爱小团队的革命。
但模子的寰宇学问、实用性很需要限制,尤其是言语模子的限制。是以我猜将来如故大型团队能同期检修苍劲的言语和图像模子。咱们看到中国的大型实验室也在推出很棒的模子,和言语模子不异,是以将来他们也会成为图像鸿沟的重要玩家。
Jacob:如果用最好的开源模子而不是闭源模子,会有很大劣势吗?
Oliver:这很难说,取决于开源模子的将来,变化很快。一年前可能以为开源很安全,目下不一定。但开源照实有可能撑持许多小团队赓续革命。好模子确定可以。
Jacob:Oliver,想问你一个问题。你之前作念视频许多年,我一直想弄瓦解图像模子和视频模子的关系。你们团队在视频方面也有很大打破。两者是孤独的吗?如故相互鉴戒?目下图像和视频鸿沟是若何互动的?
Oliver:绝顶密切干系。将来寰球都在向“全能模子”发展,即是能作念统共事情的模子。这些模子有许多上风,可能最终会胜出。
我以为咱们在图像生成鸿沟学到的许多本领都行使到了视频生成模子,反之亦然。这亦然视频生成能速即发展的原因之一,因为统共这个词社区都在学习如何贬责这些问题。是以我以为两者诟谇常亲密的“一又友”,许多本领分享,将来可能会王人备交融。
Jacob:你说的本领,即是许多底层方法在不同模子间都很相似吧?
Nicole:连责任流也很像。许多用户会把这些模子连合使用。比如电影制作,最初的构念念在大模子鸿沟,然后在图片或帧空间迭代,因为更快更低廉,临了才进入视频阶段。是以从责任流和可用性角度看,图像和视频模子之间有许多互补性。许多用例和问题都是共通的,比如扮装、物体、场景一致性,图像和视频都有,仅仅视频更复杂。
Jacob:你以为视频鸿沟下一个要贬责的弯曲是什么?
Oliver:我以为在视频鸿沟获取和最新图像模子不异的法例力,会绝顶有影响力,这是值得关注的方针。视频团队也在擢升分辨率和时期一致性,天然还有跨场景扮装一致性,寰球最温雅的即是这个。将来确定会朝着更长、更连贯的内容发展。
Jacob:这些问题可以在图像鸿沟先贬责,许多方法都能迁徙到视频鸿沟,这很酷。今天聊得很精彩,咱们临了有一组快问快答。
起头,你们认为目下AI鸿沟有什么被高估,什么被低估?
Nicole:我以为被高估的是“一个或者指示就能生成可用于坐蓐的恶果”。其实还需要许多迭代。即使是酬酢媒体上寰球分享的内容,背后也有许多责任。是以这个有点被过度宣传了。被低估的是将来的交融,咱们照旧聊过了,即是如何让寰球更容易使用这些模子,展示可能性,并针对具体责任流提供匡助。
Jacob:你见过哪些居品,在UI遐想上有新颖的想法?
Nicole:我还在等,暂时没看到。
Oliver:我心爱节点式界面,但这不是群众化的遐想。
Jacob:将来每个东说念主都能有我方的UI,也许会进入个性化时间。你以为来岁图像模子的逾越会比本年更快,如故差未几?
Nicole:但愿更快。
Oliver:有更多聪慧东说念主参加,更多资源,确定会加快逾越。
Jacob:你们照旧让Nano Banana火遍全网,还有哪些AI图像鸿沟的趋势是你们关注的,但寰球莫得有余酷好?
Nicole:我以为是“事实性”维度。比如寰球用Nano Banana作念信息图或给尼亚加拉瀑布标注,固然演示效果可以,但仔细看翰墨如故有点杂沓词语,不够准确,会访佛信息。是以这是下一个前沿,寰球还没太关注。
Oliver:这和文本言语模子很像。GPT-1和2刚出来时,寰球以为很酷,可以写俳句、作念创意任务,谜底范围很广。目下寰球都用言语模子作念信息检索、对话、伴随等。是以我以为图像鸿沟也会有类似变化,从创意器用到信息检索器用,将来致使会有东说念主和视频模子对话,这很有可能出现。
Nicole:模子也应该更主动,目下都是用户主动苦求图片。如果查询自身妥贴用图片复兴,模子应该主动生成。咱们在搜索中照旧民俗了,无意复返文本,无意复返图片,无意两者都有。是以我也期待模子能更主动、更智能地凭据需求采用模态。
Jacob:我很心爱这种无缝切换的将来。正如你说的,可靠性是瑕疵。早期言语模子偶尔很惊艳,但远不够踏实,责任场景用不了。图像模子也会经验类似的进化。
最重要的问题:你们最心爱用Nano Banana生成的内容是什么?
Oliver:我最心爱的是和孩子一王人玩模子,把他们放到多样道理场景里,让他们的玩偶“活”起来。这些内容绝顶个东说念主化,孩子们很心爱,对我来说最有价值。
作家:MD
出品:亮堂公司
开云kaiyun.com
