2024AI应用进展与市场潜力分析报告

1.kimi+:引领AI长文本处理新纪元,技术革新与市场潜力并进

Kimi+是KimiChat 中的智能体商店,包括二十余种特定场景模板化的智能体,如文案生成、研报撰写、200万字无损上下文阅读理解和分析、服务推荐、学术搜索等,不仅致力于解决各类特定问题,专业性进一步凸显,更是构建起了强大的AI生产线,为用户提供前所未有的智能支持,在提高用户体验和扩展市场应用上发挥了关键作用。


Kimi核心技术:解决长上下文序列问题的新经营机制。多模态能力,包括图像和视频处理。当前版本已融合文本和图像解析能力,能够处理扫描文档并运用OCR等技术。无损压缩技术。Kimi的部分技术如图生图技术、XL模型和糖系列解决方案已开源,但无损压缩技术尚未开源,构成技术壁垒。Kimi+ 支持200万字的无损上下文阅读理解和分析,引领AI发展聚焦长文本处理。公司在半年时间里将模型处理规模从20万字拓展到200万字,从国内AI市场中脱引而出,获得大量关注。这种能力使Kimi能在10分钟内针对新领域内容达到初级专家水平的理解,显著扩展了其在复杂问题解决和决策支持方面的应用。通过优秀的记忆能力和注意力分配,Kimi成功模拟人脑处理大量信息的过程,同时依赖于大数据训练和标注以关注核心信息,构建了一定的技术壁垒,使其在长文本处理领域保持领先。此外,Kimi 基于transform-attention 架构,通过类结构化设计和系统化外挂,让用户能够匹配相关关键词。Kimi 的参数量达到了2000 亿左右,这为其强大的长文本处理能力提供了坚实的基础。长文本处理技术愈加普及,专注长文本处理的Kimi发展暗含风险。随着Kimi在长文本处理领域取得显著的技术突破,其他行业巨头也开始积极响应,例如阿里巴巴的通义千问项目扩展了其长文本处理能力至1000万字。随着技术普及,技术壁垒逐渐降低,如何继续保持创新和领先是Kimi面临的主要挑战。

2024AI应用进展与市场潜力分析报告

资本市场反映积极,Kimi市场吸引力和技术潜力强大。Kimi超长上下文处理能力的技术突破使得Kimi行业应用广泛,相关股票显著上涨。据金融投资报统计,3月份Kimi相关概念股延续涨势,3月22日,Kimi指数上涨4.34%,多只个股涨停,部分股票5个交易日涨幅达100%。融资活动上,月之暗面科技在2月份完成了超过10亿美元的融资,刷新了国内AI领域的融资记录,彰显了资本市场对公司长远发展潜力的认可,为其技术创新和市场扩张提供有力保障。Kimi用户持续增长,交互活跃,市场对Kimi有着极高的接受度和兴趣。根据AI产品榜aicpb.com统计,目前国内访问量前十的产品中,Kimi在3月以12.61M的访问量、环比321.58%的增长排在第二,仅次于文心一言。Similar web数据显示,3月Kimi的月访问量迅速增至近1063万,同比增加303.39%;4月,Kimi模型的日活跃用户数已达1824万人,同比增加71.57%,增长迅速。

2.Med-Gemini:专注于医疗领域的多模态AI临床先进应用

Med-Gemini 是基于Google 强大的Gemini 模型构建的多模态医学AI模型家族,具备高级的临床推理能力,通过自我训练和网络搜索集成,能更准确地进行诊断和推理。模型在多个医学基准测试中,如MedQA(USMLE),展现了优异性能。研究人员用了14个医疗基准测试Med-Gemini的能力。结果发现,它在10个基准上都取得了最佳表现,远超之前最强的GPT-4模型。


在多模态医学数据处理方面,Med-Gemini通过精细的微调和定制编码器,有效地处理了文本、图像、视频和生物信号等多种数据形式,提高了处理这些数据的准确性和效率。此外,Med-Gemini具有强大的长文本处理能力,能够有效地提取关键信息,分析和理解长篇医学信息。Med-Gemini不仅用于医学教育,帮助医学生和专业人员理解复杂的医学程序,也为临床医生提供提供基于文本和图像的诊断,同时解释推理过程并提出决策支持,改进诊断准确性和治疗建议。模型利用超过700万个样本和370万个医疗案例进行训练,包括大量自由文本,这使其能广泛应用于各种临床场景,降低专家标注的成本。


根据AI寒武纪,在处理3D医学图像数据方面,Med-Gemini采用创新方法处理如头部CT扫描的3D数据,生成详尽的诊断报告。尽管处于早期阶段,已有53%的头部CT扫描经由美国认证的放射科医师评定,认为其能够提供等同于专业医生的患者护理水平。这预示着在MRI、超声波等其他体积或时间序列数据上的应用前景广阔。Med-Gemini-2D在胸部X光报告生成方面也有不俗表现,数据显示,对于正常情况下的报告,AI撰写与放射科医师撰写的报告相比,有57%至96%被认为同样出色或更优。此外,Med-Gemini-2D还在医疗视觉问答领域达到新高度,并在组织病理学、眼科、放射学和皮肤科等多个领域的图像分类任务上表现出色。Med-Gemini-Polygenic是首个利用多基因风险评分预测健康结果的线性混合模型,它超越了传统PRS线性模型,甚至能预测出未被训练过的健康结果。这展现了其在精准医疗领域的巨大潜力。Med-Gemini已成功应用于皮肤科和放射科的多模态诊断,且将继续结合2D和3D放射学、组织病理学、眼科等专业学科知识和数据,持续为医疗用途设计,这显示出其在实际医疗环境中的专业性应用潜力。目前已有真实的临床案例,例如Med-Gemini 在皮肤科场景下的多模态诊断对话、在放射科场景下的多模态诊断辅助对话、在长篇EHR 理解任务中的长文本处理、在手术视频理解中的长文本处理、在医学教学视频理解中的长文本处理、在手术动作视频分割和标注中的长文本处理、在科学信息综合中的长文本处理,展示出Med-Gemini-M 1.5 强大的能力。

3.商汤科技接连发布SenseNova 4.0和5.0大模型:全面升级与多领域应用突破

SenseNova 4.02024年2月,商汤科技发布了全面升级的大模型体系SenseNova 4.0。该模型体系的更新主要围绕提升处理能力和功能多样性,具体包括增强的知识覆盖,推理能力,代码生成能力,对长文本的处理能力和跨模态交互能力。商汤推出“日日新SenseNova”大模型体系及其相关产品和工具,促进了全场景、多产业“大模型+”应用,进一步扩展了大模型的应用范围。“日日新SenseNova 4.0”提供多种灵活的API接口和服务,便于开发人员调用模型各项AI技术能力,以更低成本、更高效率实现各类AI应用。SenseChat V4具备128K语境窗口长度,其综合性能与GPT-4相匹敌,并在多个领域超越了GPT-3.5。该模型特别强化了在知识理解、阅读理解、综合推理、数理分析及代码生成等领域的能力,确保能够处理更复杂的逻辑和数据分析任务。在权威的HumanEval Coding测试中,SenseChat V4的一次通过率达到了75.6%,表现优于GPT-4的74.4%。基于大模型评测平台OpenCompass全集测试,SenseChat V4,综合整体评测成绩水平比肩GPT-4。

2024AI应用进展与市场潜力分析报告

SenseChat-DataAnalysis V4在数据分析场景下的数据测试集中以85.71%的正确率超过GPT-4,能够有效处理复杂的数值计算和数据分析任务,。SenseChat-Medical V4针对医疗行业需求进行优化,增强了多轮对话和上下文理解能力,有效实现专业医学问答及复杂医学任务推理,并支持更多模态医学文件的智能解读和交互问答。性能逼近GPT-4,其中职业药剂师考试大模型评测中的两个细分方向性能已超越GPT-4。


SenseChat-Vision V4拥有300亿参数,能够在多模态场景中进行高效的信息处理和解析。这一模型在MME Benchmark基准测试中的综合得分达到2199.5,显著高于GPT-4V(1926.57)。该多模态大模型已在智能驾驶、智能车舱、电力等行业得到应用,极大地推动了行业的智能化升级。SenseMirage V4在图像生成领域表现出显著进步,其参数规模扩大至百亿级别。这一升级利用了Mixture of text experts、Spatial-aware CFG和Adversarial Distillation算法,显著提升了模型的语义解析能力和图像细节质量,并实现速度的十倍提升。Function call & Assistants API版本的大语言模型为开发者提供了灵活、高度可定制的工具调用框架,支持不同模态的工具调用,大幅降低了开发者使用大模型的技术门槛,使得集成AI功能变得更为简单和高效。


SenseNova 5.04月23日,商汤科技举办技术交流日活动,发布行业首个“云、端、边”全栈大模型产品矩阵,以满足不同规模场景的应用需求,并且全新升级“日日新SenseNova 5.0”大模型体系,推出了一系列生成式AI 模型及应用。此版本在多方面实现了显著的技术升级,特别是在知识深度、推理能力、数学处理及编程能力等方面,综合性能全面对标GPT-4 Turbo,并在主流客观评测上达到或超越GPT-4 Turbo。同时,日日新5.0瞄准本土化应用场景,有效实现行业差异化,适应国内语境下的应用。


日日新5.0采用MoE架构,基于10TB的token进行训练,使用大量合成数据来增强模型的推理上下文窗口,现在支持高达200K的长度,大幅提高了在复杂任务处理中的性能和效率。根据商汤科技SenseTime,在主流客观评测中,该模型展现出强大的竞争力,综合性能全面对标GPT-4 Turbo,并在主流客观评测上达到或超越GPT-4 Turbo。根据商汤科技SenseTime,SenseCore商汤大装置赋能,显著提升人工智能生产效率。该装置拥有12,000 petaFLOPS的算力和4.5万GPU,支持万亿参数大模型的全周期生成。其GPU互联技术在大规模集群中实现了90%的高加速效率,同时维护超过30天的稳定训练能力,并能在半小时内完成训练中断的诊断恢复。根据国际知名调研机构弗若斯特沙利文(Frost & Sullivan)联合头豹研究院发布的《2023年中国AI开发平台市场报告》,商汤大装置在全球AI开发平台市场中表现卓越,国内排名第一,全球第二,仅次于亚马逊云。


日日新5.0具有优秀的自然语言能力、文生图能力、多模态和数据分析能力。自然语言能力方面,利用广泛的中文语料库,模型显著提升了文本理解、创作和总结能力,使其在教育和内容产业中尤为有效。图像生成方面,该模型在人像生成和图文一致性上取得了重大进展,尤其是在细节和纹理表现上。多模态能力方面,日日新5.0支持高清长图的解析和理解以及文生图交互式生成,还可以实现复杂的跨文档知识抽取及总结问答展示,具备丰富的多模态交互能力。性能全球领先,在权威综合基准测试MMBench中综合得分排名首位,在多个知名多模态榜单MathVista, AI2D, ChartQA, TextVQA, DocVQA, MMMU 取得领先成绩。数据分析能力上,该模型通过自然语言和模糊的人类交互方法,就能够精确分析导入的表格,并自动生成雷达图实现可视化。


端侧大模型提供即时响应,有望进一步提高应用渗透率。端侧模型版本SenseChat-Lite 1.8B在性能上实现了跨级领先,提供了快速且高效的AI处理能力,适用于多种端侧应用。搭载1.8B 商汤端侧模型在中端手机上能够实现18.3 字/秒的速度,而在旗舰手机则最高支持78.3 字/秒,成为业内最快推理速度。采用端云协同策略,通过智能化分配系统优化端侧和云端的任务处理,极大地降低了成本并提高了效率。这一策略使得端侧大模型不仅能够快速生成复杂文档和图像,还能在没有网络连接的情况下独立运作,极大地提高了AI应用的灵活性和可靠性。


日日新5.0 大模型体系有效推动行业AI应用,具有强大市场潜力。商汤推出高性价比、开箱即用、数据安全、全国产化的企业级应用一体机,强化金融、医疗、政务、代码生成等多领域AI应用,显著降低AI技术的应用门槛。根据大模型之家,相比行业同类产品,推理成本节约80%,检索大大加速,CPU工作负载50%。积极与各行业开展合作,实现AI应用落地:与金山办公合作,允许WPS 365利用日日新大模型增强办公软件的智能化处理能力;与海通证券合作,推动金融行业AI技术的深度融合和创新应用。这些合作不仅优化了客户体验,还加速了数字化转型的步伐,反映出商汤科技在推动AI 2.0时代产品应用和新质生产力构建中的战略视角。商汤科技的端侧大模型SDK服务的开放,使得AI技术的整合更加灵活。模型全面覆盖智能手机、平板电脑、VR眼镜、车载系统等多样化的设备场景,进一步拓宽了AI应用的范围。这一开放性策略将加速AI技术的普及和行业应用的创新。

4.阿里巴巴AI技术全面升级:通义大模型引领行业革新,赋能多领域智能化转型

通义大模型是由阿里云研发的一系列人工智能预训练模型,这在自然语言处理、多模态理解和生成等领域展现出卓越的性能。这也意味着阿里巴巴正在构建一个完整的AI 模型生态体系,并着手于产品服务优化,以实现产品的智能化升级和用户体验提升。

2024AI应用进展与市场潜力分析报告

通义大模型下的模型汇总:通义千问:具备强大的语言理解、生成能力和长文本处理能力,能够支持单次最长1000万字文档的处理,同时处理多达100个文档,且支持对PDF、Word、图表等多种不同格式的文档,极大提高工作效率。根据硅星GenAI,目前通义千问的API日调用量已突破亿次大关,企业用户数也成功跃过9万家,展示了阿里云在AI技术领域的深厚实力。根据阿里云,阿里云的通义千问大模型深度融入营销、客服、编码等多种应用场景,以及多种智能终端如手机、电脑、芯片、座舱等。与多家企业的合作,例如新东方、同程旅行等等,达到良好的市场效果,商业作用凸显。

通义万相:场景化智能绘画创作平台。它基于强大的AI技术,实现了多种图片创作方式,如文生图、图生图、涂鸦作画等等,为广大创作者提供了多场景的图片创作能力,实现创作者高自由度创作。通义听悟:音视频记录阅读分享工具,集成了阿里最先进的语音和语言技术,能够帮助用户高效出色地完成对音视频内容的转写、翻译、检索、摘要和整理。通义灵码:智能编码助手。基于通义大模型的强大能力,提供代码智能生成和研发智能问答服务,能够帮助开发者提高编程效率,优化编码体验。通义星尘:个性化角色创作平台。为用户提供了创建、定制和管理个性化角色的能力,并通过记忆、关系、情感等模块深度链接用户。通义晓蜜:深度整合AI应用,为企业提供全渠道的智能服务解决方案,提供更好的客户服务。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)


上一篇

2024年A股市场行业投资策略报告

2024-06-22
下一篇

2024非金属新材料行业市场分析与投资机会报告

2024-06-22