当前位置:首页 > 科技 > 正文

RTE 年度场景三强专访:实时语音、多模态 Agent,创业机会在哪里?

  • 科技
  • 2024-11-10 07:56:02
  • 6

以下是 Founder Park 与 Infiniflow 创始人 & CEO 张颖峰的对话。

RTE 年度场景三强专访:实时语音、多模态 Agent,创业机会在哪里?

Q:不到 7 个月的时间,你们的开源项目 RAGFlow 就在 GitHub 上获得了超过 2 万星标。表现很亮眼,你们自己内部是怎么复盘的,做对了哪些事情?

A: 我们的主要任务是挖掘并解决用户在处理多模态非结构化文档时遇到的最大难题。我们的核心优势在于针对复杂文档的痛点提供解决方案。处理复杂文档是企业引入大模型功能后的首要任务。如果不能从这些非结构化的多模态文档中准确提取内容,我们就无法提供准确的问答服务。这是我们从 RAG 或大模型的角度出发,帮助企业实现 AI 转型和内部升级的关键点。

在我们开源之前,并没有类似的项目专注于这一领域,而在我们开源之后,已经有其他开源系统在类似的方向上借鉴我们的思路。

Q:你们的开发者画像和使用场景是怎么样的?

A: 我们自己没有直接分析 RAGFlow 开发者的地域分布,但通过一些机构的反馈,我们了解到了一些项目活跃度的指标,显示海外和国内用户的分布,大体维持在 4:6 的比例。海外有大量的 SaaS 用户和开发者,用户遍布全球,包括欧洲、东亚和北美,国内则来自甲方和乙方都有,行业分布也非常广泛,涵盖 IT,金融,制造,医疗生物,教育等等行业。

Q:RAG 有很多争论,比如认为它是一个阶段性技术,长文本、微调都在取代 RAG 的价值。你是怎么看这些讨论的?

A: RAG 的争论目前已经基本平息。去年,RAG 甚至被称为外挂。今年的争论焦点是 RAG 与长上下文的处理能力,这场争论从年初持续到年中,之后逐渐减弱。这些争论部分是由于媒体的宣传需求,部分可能是模型公司或学术机构的公关手段。

企业从未参与这些争论。从一开始,企业关注的是模型的实用性和效果是否达到预期,而不是是否使用的问题。去年关于微调的争论结果很明显:大多数情况下我们不需要微调,少数情况下需要微调,但也需要与 RAG 结合使用。今年关于上下文的争论虽然激烈,但结论也很明确: RAG 和长上下文处理不应是对立的,而是互补的。我认为争论本身是积极的,因为它帮助人们更清晰地理解大模型的边界。最初人们对大模型的期望过高,而反复的争论让人们认识到模型能力的局限,这对模型的实际应用有积极影响。

以下是 Founder Park 与聊会小天联合创始人俞佳的对话。

Q:「聊会小天」是一款专注于心理健康的人工智能产品,而在这波大模型技术浪潮前,你们也曾开发相关产品。现在看,「聊会小天」与以往的产品相比,其核心区别是什么?

A: 在我们采用大型模型之前,我们就坚定的选择了自监督这个技术路线,并且在实验室中进行了大约一年到一年半的孵化。随着 ChatGPT 的出现,我们我们更是进一步的对于模型在心理领域的独特性有了坚定的信心。从技术角度来看,我们肯定走的是大型模型的路线。在业务层面,我们通过训练或工程化手段将业务理解融入大模型。

现有技术相较于上一代技术的优势主要体现在以下几个方面:首先是语言运用能力的提升,其次是对用户表达内容和期望回复的理解能力。这包括两个层面:一是理解用户的实际需求,二是将咨询师的业务理解注入模型回答中的能力。随着模型规模的增大,我们能够更好地遵循业务专家或心理咨询专家的建议。现有技术的泛化能力更强, 对于用户的非标准问题和上下文连接,尤其是在长对话中的表现也有所增强。

Q:目前「聊会小天」这个产品上线了,在产品上你们得到了哪些正反馈?

A: 我们从两个方面获得了积极的反馈。

我们收到了用户的一些实际留言,有些用户甚至给我们写信,或者亲手制作了代表我们品牌的吉祥物或造型泥塑,这些行为让我们感到非常感动。在数据层面,尽管我们在国内的 C 端产品目前是以公益形式运营,但我们的产品在政府和学校以及杭州市第一人民医院的问诊界面中得到了应用,并且有大量用户正在使用。我们的注册用户数量接近百万。

以下是 Founder Park 与 Traini 创始人孙邻家 Arvin 的对话。

Q:你们的产品现在的用户规模数据大概是多少?

A: 目前拥有大约几十万的用户,其中北美和欧洲的用户占比达到 70%,而非洲、拉丁美洲、亚太地区(不包括中国)的用户大约占 30%。我们的产品主要面向英语用户群体。

Q:市场上的宠物相关应用大多聚焦于宠物训练,而 Traini 则选择了从情感关怀的角度切入。当时有什么不同的观察和思考吗?

A: 我们的思考和观察主要基于两个方面。

随着年轻一代对婚育需求的减少,他们更倾向于选择宠物作为情感伴侣,这一趋势在美国宠物消费市场的增长数据中得到了体现。2018 年市场规模为 910 亿美元,预计到 2024 年将增长至 1510 亿至 1560 亿美元。

年轻一代与宠物的交流日益增多,尤其是希望以人话方式与宠物沟通,这在很大程度上受到社交媒体的影响。社交媒体提供了许多工具,使得与宠物的互动变得有趣和有效。市场上缺乏能够帮助用户实现个性化沟通和护理需求的工具。传统社区仅限于在线交流,无法直接与宠物建立联系。

除此之外,我们关注新技术迭代后能在哪些方面创新以及如何实现。重点考虑的是 AI 原生应用,即如何将抽象概念转化为具体产品。过去的狗叫声只是一种声音或符号,并未具体化为可交互的产品。 我们考虑的是如何基于用户的真实生活场景开发产品,而非仅仅创建情感陪伴类的虚拟产品。

另一个重点是交互方式,我们认为语音交互是 AI 领域中最好的方式,简单易用、情感丰富、信息量大,且可解放双手。当前的语音代理技术已经非常成熟,可以实现声音克隆、角色生成等多样化交互,满足用户需求。我们从这两大需求出发,探索如何将需求转化为真正的 AI 原生产品。

Q:狗语翻译最大的挑战,我理解不在于需求洞察,而是如何将技术产品化。你们当时具体思路是怎样的?

A: 您的观点非常准确,需求始终存在。据调查,84% 的美国宠物主人每天都会与宠物交流,Quora 平台上也有数百万用户讨论如何理解宠物行为和与宠物沟通的问题。我们首先定义了产品的技术路径。在产品层面,我们明确了产品定义为宠物行为翻译器,而非仅仅是叫声翻译器,这一定义背后有科学依据支撑——仅依靠叫声进行训练的准确度和情感行为的丰富度有限。通过分析宠物的表情、动作和肢体语言等行为,我们可以更准确地理解宠物的表达,这是我们在产品科学路径上的第一个确认点。

过去两三年,我们实际上花费了一年时间进行 prompt engineering,即编写提示词,通过这种方式构建产品,并验证它是否满足需求。那时,我们开发的 AI 聊天功能允许宠物主人输入问题,我们帮助回答和分析,但当时还无法实现翻译功能,只能做到文字分析。到了今年年初,我们确定了产品和技术路径后,迅速行动。4 月底启动项目,6 月底照片翻译功能上线,7 月底叫声翻译功能上线,8 月底视频翻译功能上线。虽然翻译的种类和准确度仍有提升空间,但已经可以供用户使用,开发速度显著加快。这就是我们的思考路径。

随机文章