首个公测的大模型,阿里云“通义听悟”火力全开?

139次阅读

原标题:首个公测的大模型,阿里云“通义听悟”火力全开?

音视频内容作为当下最流行的信息传播方式之一,从海量的音视频中提取有效的知识,却不是一件容易的事情。有没有一种方式,可以让音视频可以被轻松阅读、整理和分享呢?阿里云给出了答案。

首个公测的大模型,阿里云“通义听悟”火力全开?插图

6 月 1 日,阿里云宣布聚焦音视频内容的 AI 新品“通义听悟”正式上线,成为国内首个开放公测的大模型应用产品。

阿里云的通义听悟“全能”在哪里?

“换一种方式,让音视频可以被轻松阅读、整理和分享。”阿里云 CTO 周靖人介绍,听悟是一款工作学习 AI 助手,它瞄准具有高知识附加值的音视频内容场景,比如开会、上课、访谈、培训、面试、直播、看视频、听播客等,能通过大模型等最新 AI 技术快速提炼和沉淀知识。

此次,通义听悟还接入了通义千问大模型的理解与摘要能力,可成为用户工作学习中的得力 AI 助手,帮助随时随地高效完成对音视频内容的转写、检索、摘要和整理,比如用大模型自动做笔记、整理访谈、提取 PPT 等。

比如,实时记录及字幕上屏:通义听悟可以在各类对话场景中,实现实时记录及字幕上屏、中英互译等功能,融合自研语音语义多模态说话人算法,能对 10 人以上说话场景进行角色区分;接入通义千问大模型后,能够对上万字的音视频内容进行摘要总结,事实准确与要点完备性国内领先,支持跨多音视频内容的精准问答理解。

针对一些细分场景,听悟还设置了不少“宝藏功能”:打开 Chrome 插件,外语学习者和听障人士可以借助双语悬浮字幕条随时随地看无字幕视频,日程冲突时,听悟还可成为职场人士的“开会替身”,在静音情况下入会 AI 可代为记录会议、整理要点;转写结果可下载为字幕文件,方便新媒体从业者视频后期制作;听悟梳理的问答回顾可以让记者、分析师、律师、HR 等群体整理访谈更高效。

另一显著优势是,听悟与阿里云盘打通,一键就能转写云盘上的音视频内容,公测期间注册的听悟用户后续还将获得更大的阿里云盘存储空间,在云盘内在线播放视频时也可自动出字幕。

同时,听悟会以个人版和企业版两种形式提供服务,未来一段时间就将在夸克 APP、阿里云盘等端口提供服务。据阿里云消息,听悟企业版当前已在阿里集团内部被广泛使用,帮助减少了大量会议记录和整理的工作。

从通义听悟的发布可以看出,国内大模型厂商除了在底层大模型搭建上快马加鞭外,AI 应用也已经成为他们必须抓住的机遇——AI 音视频转写、内容理解等功能,背后意味着通用能力,厂商们可以覆盖包括开会、上课、培训、面试、直播、看视频、听播客等音视频场景,嵌入到不同的应用软件当中。

有阿里在的通义听悟,势必惊喜不断

阿里云“通义听悟”的发布,是阿里云在大模型领域的重要布局。这是继阿里云在今年 4 月发布了超大规模预训练语言模型——通义千问后的有一动作。通义千问的发布,标志着阿里云在大模型领域的领先地位。那么,阿里云为什么要发布“通义听悟”这样一个面向音视频内容的 AI 产品呢?我们可以从以下两个方面来分析:

一方面是音视频内容的市场需求。随着互联网技术的发展,音视频内容已经成为人们获取信息和知识的重要渠道,尤其是在过去两年,线上教育、远程办公、直播电商等场景的兴起,使得音视频内容的产生和消费呈现爆发式增长。阿里云“通义听悟”的发布,正是为了满足这一市场需求,提供更高效、更智能、更便捷的音视频内容处理服务。

另一方面是大模型的技术优势。阿里云“通义听悟”的核心技术是通义千问大模型,它是阿里云在自然语言处理领域的重要成果。通义千问大模型不仅拥有超大规模的参数和数据,还具有强大的泛化能力和迁移能力,可以适应不同的语言、领域和任务。而阿里云“通义听悟”是通义千问大模型的首个落地产品,它展示了大模型在音视频内容场景中的强大应用能力,也为未来更多的大模型应用打开了新的可能。

阿里云“通义听悟”的发布,是阿里云在音视频内容领域的重要创新,也是阿里云在大模型领域的重要布局。阿里云“通义听悟”不仅为用户提供了一款全能的音视频内容 AI 助手,还为音视频内容的知识提炼和沉淀提供了一种新的方式。未来,或许还会给我们带来更多的想象空间。

比如更多的场景和功能,提供会议、教育、访谈、直播等多种 AI 功能,当然还有很多未被发掘和满足的需求,比如音视频内容的编辑、合成、生成、翻译、配音等。阿里云“通义听悟”未来将继续扩展更多的场景和功能,为用户提供更全面、更丰富、更个性化的音视频内容服务。

还有更深的理解和创新。阿里云“通义听悟”目前已经展示了通义千问大模型在音视频内容理解和摘要方面的强大能力,但是,音视频内容的理解和摘要还有很多未被解决和突破的难题,比如音视频内容的情感、语调、风格、逻辑、推理等。这都将是阿里云未来努力的方向。

结语

阿里云“通义听悟”未来将不仅是音视频内容的 AI 助手,还将是音视频内容的 AI 伙伴。阿里云“通义听悟”不仅满足了音视频内容的市场需求,还为音视频内容的知识提炼和沉淀提供了一种新的方式。 返回搜狐,查看更多

责任编辑:

原文链接:https://it.sohu.com/a/682258689_120773109

正文完
 
不知道
版权声明:本站原创文章,由 不知道 2023-08-28发表,共计2052字。
转载说明:声明:本站内容均来自互联网,归原创作者所有,如有侵权必删除。 本站文章皆由CC-4.0协议发布,如无来源则为原创,转载请注明出处。