如果说ChatGPT让全球人民直接感受到了人工智能的过人之处,那中国目前一百多个陆续公开发布的人工智能大模型,即“百模大战”,也许会以难以想象的方式,在未来改变你我生活的方方面面。
这一百多个人工智能大模型中,既包括通用大模型,又包括垂直大模型,分别作用于未来生活的地基与专业赛道。无论通用还是垂直,这些大模型的智能程度如何测评,修正改进该往何处去,是行业内重要而紧急的问题。
2023人工智能大模型基准测试科创发展大会暨中西部数字经济大会分别从两个赛道对行业展开了评测。截至12月20日,垂类大模型报名企业近20家,它们分布金融、教育、电商、医疗等各个领域,经过评委专家的初筛,最终选出13家优秀大模型企业参加了评委线下答辩环节。
12月23日,在苏州工业园区东沙湖基金小镇元禾辰坤,评委与13家企业分别开展了深度的交流,当前创新应用优秀案例的评选名单已经产生,将于12月28日在2023人工智能大模型基准测试科创发展大会暨中西部数字经济大会上揭晓。
多维度评估
综合考量企业的创新能力和发展潜力
相比通用大模型的普适性,垂直大模型更专精于一个领域,对其测评既需要专业的行业知识,也需要市场化的丰富经验。
10月22日,大模型基准评测专家委员会第一次评测预备会在成都成功召开。会上,专家委员会围绕评测方法、评测维度、评测的主体范围等细节问题展开了激烈讨论,并结合各方意见形成了大会测试标准,也是国内首次对垂直大模型进行评测。
此次评测维度包括:项目团队背景、市场潜力、技术水平评估、商业模式可行性和融资安排评估等多个方面,综合考量参与评测的项目团队的行业经验、专业背景、团队分工;项目目标市场需求空间及潜力;产品技术水平、相比竞争对手的优势及创新性、产业化可行性;以及盈利模式可行性、可持续性;项目投资计划和进度安排合理性等方面。
线下答辩采取评委现场评估打分的形式,由一名主席以及多名技术专家、企业专家、投资人组成决赛评委各自对参评企业进行打分,计算截尾平均分数,最终决出此次垂直大模型创新应用优秀案例的名单。
参与此次垂直大模型创新应用优秀案例的评选专家,既有来自人工智能行业的资深工程师与专家学者,又有来自创投和咨询行业的专业人士。他们分别从各自行业出发,多维度评选出更符合行业需求的垂直大模型应用优秀案例。
以下是此次垂直大模型创新应用评测评委(排名不分先后):
【天津大学“语言智能与技术”中外联合研究中心主任、智能与计算学部教授熊德意】
【中国软件评测中心(工业和信息化部软件与集成电路促进中心) 梁斌】
【上海交通大学约翰·霍普克罗夫特计算机科学中心林洲汉】
【郑州大学计算机与人工智能学院昝红英】
【驰星创投董事总经理李一心】
【德勤中国资本市场服务部上市业务华西区主管合伙人刘洋】
各领域垂直大模型齐聚一堂
多维度评测交流助推行业进步
中国软件评测中心(工业和信息化部软件与集成电路促进中心)梁斌告诉红星新闻:“参与此次垂直大模型答辩评审会,我最大的感受是各行各业垂直领域大模型都在蓬勃发展。这些企业对于大模型的行业应用探索都很深入,但是针对自身大模型的检验检测技术的重视程度还需加强。在参与答辩的13家企业中,上海财经大学金融大模型实验室团队不仅开发了FinEval金融大模型,还同步构建了评估金融大模型的‘评测数据集’。这是一个让我觉得特别亮眼的地方。我认为无论是垂直还是通用的大模型,在发展大模型行业应用的同时,还应关注到相应大模型的检验检测技术。这两者要如同矛与盾,相克相生,才能共同成长。”
驰星创投董事总经理李一心向红星新闻表示:“这次参与的垂直大模型应用方向涵盖了包括金融、工业、法律、医疗、营销和零售等在内的各个场景。基础大模型在知识复刻的商业生态中,占据了核心位置,短期来看还有Scale-Up的可能性。而对垂直大模型公司来说,重要是找准差异化的生态位置,抓住AI创造的增量价值,即便是GPT4这种水平的多模态模型离直接应用都还有比较远的距离。数据壁垒、模型finetune水平和工程能力都会是创业公司的机会。”
截至发稿,此次垂直大模型创新应用优秀案例名单已经产生,该名单将为市场提供多元、客观的垂直大模型性能评估,促进行业创新,共同推动人工智能技术进步。让我们共同期待12月28日,该名单在2023人工智能大模型基准测试科创发展大会暨中西部数字经济大会上揭晓。
以下是此次参与答辩的企业及大模型产品(排名不分先后):
1 摸象科技:金磐大模型 (零售金融行业)
2 达观数据:达观曹植大语言模型 (金融行业)
3 微盟集团:微盟WAI (电商行业)
4 赛灵力:实时数字互动人
5 左手医生:GPT诊前服务(智能云客服行业)、专家数字分身(医疗行业)
6 得理科技:得理法律大模型(法律行业)
7 极睿科技:ECGPT+FashionCLIP(电商行业)
8 中科闻歌:雅意2.0(媒体、舆情、金融等行业)
9 北京交通大学交通大模型团队:多模态交通大模型(交通领域)
10 晓多科技:晓模型XPT(电商行业)
11 上海财经大学金融大模型实验室团队:FinEval (金融行业)
12 考拉悠然:悠然产业通用大模型(企业服务)
13 盛世君联:干湿试验结合的大分子AI药物研发平台BioAI(生物医药行业)