2024-09-20 12:15:47|已浏览:11次
a16z 最新 AI 应用 TOP100 榜单公布:消费者最爱用谁家应用?_Viggle_视频 当我和大模型做了一次视频通话,
a16z 最新 AI 应用 TOP100 榜单公布:消费者最爱用谁家应用?_Viggle_视频
AI 大模型应用正处在爆发阶段,据第三方机构 IDC 预测,到 2024 年,全球将涌现出超过 5 亿个新应用,相当于过去 40 年间出现的应用数总和。市面上的 AI 应用可谓是「眼花缭乱」,实际上用户更多地在使用哪些 AI 应用?哪类应用更受欢迎?
近日,顶级风投机构 a16z 发布了其最新的「AI 消费应用 Top 100」报告,分别对月独立访问量前 50 的 AI Web 产品和月活前 50 的 AI 移动应用进行了排名。
报告核心结论:
1、在 Web 端,榜单上有一半(52%)的应用是内容生成、编辑应用。与今年 3 月发布的上一期「AI 消费应用 Top 100」报告相比,新上榜的 12 个应用中,有 58% 属于创意工具领域;在移动端,图片、视频编辑应用占比最多(22%)。
2、与 a16z 上一期发布的榜单相比,有近三成新上榜公司。
3、OpenAI 的 ChatGPT 在 Web 端和移动端均排名第一,但 AI Chat 应用竞争激烈,Anthropic 的 Claude 是有力竞争对手。
4、来自中国的字节跳动公司有三款 AI 应用首次上榜,分别为 教育平台 Gauth、机器人生成器 Coze 和通用助手 Doubao。
5、在移动榜单中,出现了美学与约会的新类别应用。
01Web 端&移动端上榜应用总体情况一览
表:Web 端&移动端上榜应用前五大类型
Web 端上榜的 Top50 应用中,AI 图像生成&编辑和 AI 聊天机器人类应用占比最多,均占比 18%。其次是 AI 视频生成&编辑、AI 角色生成和 AI 音乐&音频生成类应用。
移动端上榜的 Top50 应用中,AI 图像生成&编辑类工具应用占比最多,占 34%。AI 聊天机器人类应用次之,占比 28%,多为 ChatGPT 应用。再次是 AI 教育相关、AI 智能助手和 AI 搜索引擎类应用。
图:Web 端 Top50 上榜应用
图:移动端 Top50 上榜应用
02近三成新上榜的应用都有哪些?有哪些共性特征?
与今年 3 月发布的上一期「AI 消费应用 Top 100」报告相比,Web 端新上榜的应用有 12 款,移动端有 15 款。
在 Web 端:创意类工具占据「大头」
图:Web 端新上榜应用
在 Web 端新上榜的 12 款应用中,其中 58% 的应用属于创意工具领域。在 AI 视频领域,新上榜的应用分别为 Luma、Viggle 和 Vidnoz。
Luma 是一款 AI 视频生成工具,被称为「Sora」的最强竞品。今年 6 月,其背后的同名公司 Luma AI 推出了 Dream Machine 的视频生成模型,能够根据文字或图片生成高质量的逼真视频。随后,又新增了关键帧功能,允许用户通过上传两张关键帧图像和简单的文字描述来生成视频内容。今年 8 月,进一步迭代,推出了其 代 Dream Machine,相较于此前版本,整体更加智能,且所有用户在线可玩。据实测, Dream Machine v 效果良好,但在添加文字能力、画面手部等部分细节仍需改进。
自 OpenAI 的「Sora」推出以来,AI 视频生成赛道一直受到热捧。Luma AI 推出 Dream Machine 的同期,同类型产品 Runway 也推出了 Gen-3 Alpha 模型,在光影、质量、构图以及文本语义还原等方面实现了提升。此外,国内公司也陆续推出了对标 Sora 的视频生成工具,例如字节的「即梦」、快手的「可灵」、达摩院的「寻光」等。
Viggle 是一款 3D 动画视频生成工具,将静态图像转化为动态、逼真的 3D 动画,主要用户面向创作者、电影制作人和内容爱好者。用户通过在 Viggle 上传动作视频,及替换的图像,即可获得新的动画视频。同时,用户还可以上传角色图像加上文字 prompt,或全部用文字 prompt 创建动画角色。此外,Viggle 还能风格化真人照片,增加动效。尽管如此,Viggle 生成的动画角色也存在缺陷,包括角色抖动、生成角色无表情等。
今年 3 月,Viggle 上线了独立的 App 产品,基于自研的 JST-1 模型,支持创建更逼真的人物动作和表情。据官网信息显示,其注册会员已超过 400 万。Viggle 背后的公司 Viggle AI 具有华人背景,创始人兼 CEO Chu Hang 是一位华人。近期公司完成了 1900 万美元的早期投资,由 Andreessen Horowitz 领投。
另一款新上榜的 AI 视频应用 Vidnoz 是一款数字人视频工具,用户可以从零开始或基于现有模板快速生成数字人视频,选择人物头像、合成声音、视频布局、背景音乐、语言等,内含很多编辑工具。Vidnoz 的功能包括:
数字人类:照片数字人、2D 数字人。
音频类:声音克隆、文字转音频、AI 变声、AI 声音分离。
视频类:模板生成视频、视频换脸、视频翻译、文字生成视频、图片生成视频、AI 视频增强、图片生成跳舞视频。
图片类:图片换脸、AI 图片合成、AI 头像生成、图片转卡通、图片背景消除。
与 Vidnoz 相似的应用还包括 HeyGen,HeyGen 和 Vidnoz 功能类似,用户可以创建各种类型的数字人视频,在此基础之上,HeyGen 可以通过 AI 语音和唇语同步将现有视频本地化到 175 种语言和地区方言。
在 AI 音乐领域,新上榜的应用 Udio 能够根据用户要求生成高质量的音乐,同时具备简单的视频生成能力,用于创建带有动态效果的专辑封面。同时,Udio 支持用户通过文字描述生成音乐,包括模仿艺术家风格、自定义歌词、remix 已有曲目等功能。
今年 7 月,其推出了音乐模型 Udio v,与上个版本相比,提高了音频质量,同时增加了关键控制功能,使用者可在提示词中添加调性,例如 C 小调,Ab 大调等。此外,还增加了支持多语言等功能。Udio 背后的公司的核心成员来自谷歌 Deepmind,其中,核心技术人员在谷歌工作期间主要负责 AI 音乐生成软件 Lyria 的工作。
此外,AI 音乐生成应用 Suno 也在 Top 50 的榜单之上,由上次榜单的排名第 36 位上升至本次 Web 榜单的第 5 位。Suno 可以根据文本提示直接在浏览器中生成原创歌曲,包括歌词和多种音乐风格,能够根据文本提示生成各种风格的原创歌曲。Suno 最初在 Discord 上推出,后来扩展到独立网站和 Copilot 扩展。
在首次上榜的创意工具里,还包括 AI 图像生成工具 SeaArt。SeaArt 是一款 AI 绘画工具,包括场景化生图、修图等功能。值得注意的是,SeaArt 还是一款来自国内的出海产品。SeaArt 背后的公司是一家来自成都的游戏公司「海艺互娱」,是 SLG 游戏《小小蚁国》的开发者。
名叫海艺互娱,总部位于四川成都。而了解游戏的读者,对孵化它的星合互娱可能更加熟悉,前两年在海外火了一波的 SLG 游戏《小小蚁国》的开发者。
除了以上介绍的应用外,在 Web 端,新上榜的应用还包括 AI 写作工具 、AI Bot 开发平台 COZE、AI 聊天机器人应用平台 Chatbot、AI 聊天机器人应用 Doubao、AI 图像编辑工具 PicWish、AI 作业辅导工具 Gauth 和 AI 小说生成工具 AI Novelist。
在移动端:图像、视频内容编辑等实用性工具更受欢迎
图:Web 端新上榜应用
在移动端新上榜有 15 款应用中,占比最多的是图像或视频内容编辑工具。同时,在新上榜中排名较高的应用均是由引入生成式 AI 技术的传统创意工具,例如美图秀秀(排名第 9 位)、SNOW(排名第 30 位)和 Adobe Express(排名第 35 位)。
美图旗下的美图秀秀可以说是国内用户较为熟知的美图工具,在生成式 AI 技术的浪潮下,美图也自研大模型 MiracleVision(奇想智能),在大部分产品融入了其自研大模型。今年 6 月,美图推出了一系列 AI 工具,包括 AI 短片创作平台「MOKI」、游戏物料 AI 创作和投放平台「奇觅」、服务专业设计师的「站酷」、专业批量修图的「美图云修」、口播视频 AI 制作平台「开拍」、专注于电商的 AI 设计工具「美图设计室」。
美图的盈利模式主要以会员订阅模式收费为主。据统计,截至 2024 年 5 月,付费用户在美图系列产品中使用 AI 功能的比例为 87%、使用生成式 AI 的比例为 41%。
同样是传统创意软件公司的 Adobe,也在转型拥抱生成式 AI 技术。Adobe 旗下的多款软件应用均进行了 AI 创新或更新,包括矢量图形软件 Adobe Illustrator、图像编辑软件 Adobe Photoshop、在线照片编辑器 Adobe Lightroom 等。此次上榜的应用 Adobe Express,是一款一体化 AI 内容创建应用程序,允许用户快速创建和编辑图片、视频和社交媒体帖子,同时还包括音频生成动画功能。
此外,今年 4 月,Adobe 还宣布了 Premiere Pro 的全新更新计划,计划将 OpenAI 的 Sora、Runway 的 Gen-2 和 Pika 等第三方 AI 视频生成模型引入。
另一款应用 SNOW 是一款美图工具,类似于美图秀秀,包括美颜、修图、贴纸、滤镜等功能。SNOW 背后的同名公司旗下产品还包括 b612、foodie 等美图相机工具。
除了图像或视频内容编辑类型的工具外,在新上榜的应用中,还有照片美学、约会相关的应用类型值得关注,分别为 LooksMax AI、Umax 和 Umax。
LooksMax 和 Umax 通过深入分析用户上传的照片,提供定制化的评分和改善建议,帮助用户提升个人魅力。Umax 能够根据用户特征创造出理想中的完美形象图片,而 LooksMax 则专注于分析用户声音的吸引力。这两款应用主要通过订阅服务来实现盈利。
另一款应用 RIZZ 则专注于提升用户在约会应用中的沟通技巧。用户上传对话截图或个人资料,RIZZ 会提供智能回复建议,帮助用户在约会交流中更加得心应手。同时,建议内容还可以一键复制并直接粘贴到约会应用中,为用户提供了一种简便有效的方式来提升他们的沟通能力。
除了上述介绍的应用外,在移动端,首次上榜的应用还包括:
Photo AI:图片编辑工具,主要用于修复和增强旧的、损坏的或模糊的照片;
豆包:字节跳动推出的一款 AI 聊天机器人应用;
Cici:AI 聊天机器人助手,「豆包」的海外版;
Luzia:一款 AI 智能助手;
Perplexity:一款 AI 知识搜索引擎;
Chatbot AI:基于 GPT-4o 开发的 AI 聊天机器人
Hi Translate:由公司「传音控股」推出 AI 翻译工具;
Microsoft SwiftKey:微软推出的 AI 输入法,集成了 New Bing 和 DALL-E 3 模型,使用者可以输入提示词生成图片等;
Talkie:由中国大模型创企 MiniMax 推出的 AI 陪伴式角色聊天机器人;
03字节多款 AI 应用上榜,中国公司的 AI 应用出海情况如何?
在 a16z 此次发布的「AI 消费应用 Top 100」,字节跳动在 Web 端、移动端两个榜单中有 5 款应用上榜(豆包在 Web 端、移动端榜单上榜两次),且其中三款应用首次上榜,上榜应用之多,引发关注。
字节跳动于 2023 年底成立了专注于生成式 AI 应用的研发部门 Flow,其产品应用涉猎非常广泛,在应用层面,涉及聊天、社交、图像/视频、办公、教育、电商等领域。而且,字节的部分产品在海外和国内均有发行,通常在一侧先上线,完成对市场和用户数据分析后,在另一侧上线类似的产品。近日,据媒体报道,字节跳动正在秘密筹备成立大模型研究院,招揽了原序智科技创始人秦禹嘉和零一万物核心成员黄文灏等 AI 领域专家加入。
字节的 AI 应用主要基于其「云雀大模型」,后被称为「豆包大模型」。字节陆续推出了 AI 对话助手「豆包」、AI 应用开发平台「扣子」、大模型服务平台「火山方舟」、豆包 MarsCode 智能开发工具、AI 社交 APP 「话炉」等 AI 应用。
此次上榜的 AI 应用分别为 AI 通用助手豆包(在 Web 端、移动端两个榜单均上榜)、AI 通用助手 Cici、教育科技平台 Gauth、AI Bot 开发平台 COZE、照片和视频编辑器 Hypic、。
「豆包」是基于字节自研的「云雀大模型」开发的 AI 机器人,提供聊天机器人、写作助手以及英语学习助手等功能,它可以回答各种问题并进行对话,帮助人们获取信息。后续,字节还推出了「豆包」的 PC 客户端版本,支持 Windows 和 MAC 系统。同时,发布了豆包的浏览器插件版本,允许用户在浏览网页时享受一键总结、写作辅助和文本编辑等功能。
「Cici」是 AI 通用助手「豆包」的海外版本,「Cici」 根据场景不同包含了多种功能的聊天机器人,比如 AI 绘画生成、编程助手、塔罗牌等,与「豆包」不同的是,「Cici」是基于 OpenAI 的 GPT 模型系列。
Gauth 是字节推出的一款专攻数学问题解决的 AI 应用,最初核心功能为拍照搜题,在后续的更新中,Gauth 在给出答案的基础之上,提供详细的解题步骤。AI 教育应用是国内公司出海较为成功的一类 AI 应用,还包括作业帮旗下的问答和作业助手 、Cyber mobile 推出的 Answer AI 等。同样,在榜单上的 AI 教育应用还有 Photomath。
COZE 是字节推出的 AI Bot 开发平台,用户可在该平台上快速创建各类聊天机器人,并将成果部署在不同社交媒体与消息应用中。今年年初,字节推出了其国内版本「扣子」,支持无代码生成 AI Bot。随后,今年 6 月,「扣子」上线了一个新功能「模型广场」,允许不同 AI 大模型在匿名条件下直接 PK 效果。
字节上榜的另一款应用 Hypic 是一个拥有 AI 智能功能的一体化照片编辑工具。Hypic 提供的功能包括一键 AI 魔法去除和剪切、照片质量增强、AI 肖像美化以及一系列时尚效果、滤镜和模板等。
除了上述的 5 款 AI 应用外,字节出海较为成功的 AI 应用还有 CapCut,即剪映的海外版。借助于 TikTok ,CapCut 吸引了大量在 TikTok 平台的创作者使用。据 Sensor Tower 估计,截至 7 月底,CapCut 在移动应用上的累计收入已达 亿美元。
同样,出海成功的 AI 应用还有......
订阅机器之心Pro会员通讯??,查看完整解读返回搜狐,查看更多
责任编辑:
当我和大模型做了一次视频通话
我的智能助手又get了一项新技能。
文|周享玥
编|牛慧
OpenAI带着GPT-4o的AI实时视频通话功能深夜炸场三个月后,国内首个面向C端开放的AI视频通话终于要来了。
8月29日,智谱宣布,清言App将于8月30日正式上线“视频通话”功能,首批面向清言部分用户开放,并同时开放外部申请。“我们会持续迭代并逐步放开规模,尽快让全员都可以使用。”智谱方面表示。
今年5月,OpenAI率先掀起波浪,其全新一代旗舰生成模型 GPT-4o,无需借助语音转文字功能,即可直接通过实时音视频,实现“真人般”地丝滑交互。随后,多家国内外大模型厂商纷纷迅速跟进,开始推出各种支持端到端实时多模态的AI功能。
6月,AI初创公司Character.AI推出一项通话功能,允许用户与其人工智能角色进行语音对话。7月,商汤科技在WAIC 2024上,现场演示新模型日日新5o的实时音视频交互能力。8月9日,字节跳动旗下火山引擎宣布,豆包大模型支持实时语音通话。而微软AI据称将在今年年底拥有实时的语音界面,允许完全动态的交互……
不过,这些或都暂时不涉及实时视频功能,又或暂未对C端开放。智谱最新上线的视频通话功能,也因此成为国内首个面向C端个人用户开放的AI视频通话。
这一功能的实际使用效果到底如何?都有哪些优缺点?数智前线提前试了试。
优点一,入口显眼,操作简单。在进行最新版本更新后,打开清言APP,即可在主界面上的输入框旁看到一个“电话”图标,点击可进入实时音频通话,再点击通话界面的“视频”按钮,则可进入视频通话模式。
优点二,通话流畅,可随时打断。这个名叫“小智”的助理,在通话过程中表现得更加“像真人”,能理解摄像头拍摄到的内容,也能听懂指令并准确执行,基本在听到语音一两秒内即能给到回复,且即便频繁打断“小智”的话,它也能迅速反应。
比如当我们将视频画面对准一本书时,它能迅速识别出这本书的名字、作者,并进行相关背景介绍。当选中“画笔”按钮,还可以在视频中圈出对应的物体或文字段落,实现更精准的提问和回答。
优点三,有记忆能力,情绪价值拉满。比如,当我们在前一次通话中,与“小智”交流过绿植养护的话题,一段时间后再次打开视频通话时,它会主动打招呼,并发起话题——“家里的桂花长得怎么样了?”
当然,这个AI助理,也有不足之处。
比如,它并不是每一次识别都能十分准确,当我们让它分辨一些盆栽时,它可能会将金鱼草误认为豆瓣绿,将未在花期的桂花树误认为茉莉花。
又比如,它暂时“只读到了初中水平”,也还没有联网搜索的能力,当被问及一些超出范围的问题时,则无法作答。
但不难预见,随着技术的快速发展和更多厂商对AI实时音视频方向的押注,类似的AI助理会越来越智能化。比如,通过与AI的实时音视频互动,用户可以让其充当生活助手,提供穿搭技巧、识别场景讲述背景故事;也可以让它成为工作伙伴,进行面试指导、实时解读电脑屏幕代码、完成会议纪要、分析复杂数据图表;还可以作为学习搭子,实时读屏翻译、辅导各科作业……
除了视频通话功能正式上线,智谱的大模型技术也在最近迎来了一次大上新。
8月25日至29日,为期5天的国际知识发现与数据挖掘大会KDD 2024在西班牙巴塞罗那举办。作为全球数据挖掘领域历史最悠久、规模最大的国际顶级学术会议,KDD 2024吸引了数千名来自世界各地的顶尖学者和知名企业代表参会,智谱 GLM 团队也在这场大会上,介绍了自己新一代的基座大模型——GLM-4-Plus。
据介绍,GLM-4-Plus 使用了大量模型辅助构造高质量合成数据,以提升模型性能;同时,利用PPO(Proximal Policy Optimization)有效有效提升模型推理(数学、代码算法题等)表现。这也让其在语言理解、指令遵循、长文本处理等方面的性能,都有进一步提升。
例如,在语言文本能力方面,智谱方面表示,GLM-4-Plus已经取得与GPT4o及405B参数量的Llama3.1相当的成绩。
目前,GLM-4-Plus 已在智谱大模型开放平台部署,企业和开发者即日起可以通过智谱开放平台 bigmodel.cn 上的 API 调用智谱最新的基座大模型。GLM-4V-Plus也将上线开放平台,提供国内首个通用视频理解模型 API。
就在这两天,CogVideoX-5B正式开源,同时此前已开源的CogVideoX-2B 也调整为了更加开放的Apache 2.0协议,任何企业与个人均可自由使用。CogVideoX是由智谱AI开发的视频生成大模型,而CogVideoX-5B 模型相较于 CogVideoX-2B 拥有更高的视频生成质量。
另外,GLM-4-Flash目前也已完全免费,成为智谱开放平台首个完全免费的大模型API。“智谱开源模型累计下载量现已突破2000万次。”智谱方面表示。[db:内容]