橘子百科-橘子都知道橘子百科-橘子都知道

王欣:通用大模型最后只会变成 少量的一两家

王欣:通用大模型最后只会变成 少量的一两家

专 题:2024中国AIGC创新(xīn)发展论坛

  2024年服贸会专题论坛之一——“2024中国AIGC创新发展论坛”于9月13日-14日 在北京举行。安恒(héng)信息中(zhōng)央(yāng)研究(jiū)院院长王欣出席并演讲。

  王欣认为,国内有(yǒu)很多厂商在做通用大模型,但通用大模型最后(hòu)只(zhǐ)会剩下成少量的一两家,“我们看到各个垂直(zhí)领域反而在(zài)做各类的垂直模型,我(wǒ)认为这路是对(duì)的”,他认为,最终是围绕(rào)通用大模型或者(zhě)相对小参数的模型围绕业务下沉的模型。

  以下为演讲实(shí)录:

  王欣:大家下午好,刚才两位专家都介绍了围绕AI大(dà)模型运营这块的很多时间,我今天围绕这个话题继(jì)续延(yán)伸。

  过去两年多时(shí)间AI很火,AI破圈,我不是做人工智能,我是(shì)做攻防出身(shēn)的,但(dàn)现在我也(yě)加入(rù)到人工智能序列里,因(yīn)为各(gè)行各业在看到(dào)AI这块技术的革新之后,我们看到了原来做(zuò)不好的技术围绕着现(xiàn)在整个大模(mó)型出现可以达(dá)到 非常好的效果(guǒ)。

  我在 比较(jiào)早(zǎo)期的时候针对于AI已经做了很多(duō)战略 层面的铺垫。但客观地 讲,从大模型(xíng)这件(jiàn)事情上,我们距离国外(wài)还是有比较(jiào)远的距离。从ChatGPT出现(xiàn)之后,我国(guó)各大互(hù)联(lián)网公司、各(gè)大行业在训练(liàn)自己(jǐ)的大模型(xíng),去年的时(shí)候可以理解为是国内外大模型的技术元年,去年一年时间内,我看(kàn)到最多的 是几乎(hū)每天都(dōu)有新的(de)大模型出现,在每(měi)天技术不断更新过程中,我们思考我们为什么要去做这件事情(qíng)。所以这个PPT里面第一页看到所有浪潮(cháo)退去之后要回归到价值本质。

  对于AI来说,本质是一个工具,工(gōng)具的核(hé)心是(shì)解(jiě)决业务问题,无论(lùn)是在安全行业(yè)还是在其他行(xíng)业,包括前一段时(shí)间我参(cān)加了Gartner一个会,在很(hěn)多企业里面,大 家对(duì)于AI有什么期(qī)待?核心总结起来(lái)是三个 方面(miàn):第一是降低生产成(chéng)本,第二(èr)是提(tí)高(gāo)产品质量,第三(sān)是推动产业转型。

  我们看到各个垂直领域 反而在做各类的垂直模型,我认为这路是对(duì)的,我们(men)可以看到国内有很(hěn)多厂(chǎng)商过(guò)去在做通(tōng)用大模型,我认为通用大模型最后只会变成少量的一(yī)两家,最终围(wéi)绕通用大模型或者相对(duì)小参数的模(mó)型围绕业务往下走的模(mó)型。

  安全行业(yè)也(yě)一样,安全(quán)行业发展了二十多年,我大学毕业前就(jiù)开 始接触安全,也将近(jìn)二十年左右的(de)时间,在整个感触里面,其实安全是存在一个天(tiān)平的问(wèn)题,很(hěn)多时候我们希望告警比(bǐ)较少,但(dàn)又不希望(wàng)有漏洞(dòng),我们希(xī)望业务(wù)优先但又希望安全第(dì)一,我们(men)希望用更少的成本又希望安 全 整体(tǐ)防御做的更好。

  在整个技术迭代过程中可以看到,原来出现了很多安(ān)全产品,但这些安(ān)全产 品有时候不能(néng)完全去解决客户问题,在这个情况(kuàng)下怎么办?堆人。但人(rén)是 不(bù)是一个(gè)最优解?很多,包括后面会讲到一(yī)些(xiē)case,我们铺了很多(duō)产(chǎn)品不够人去凑,但人(rén)的成本持续上升,很难通过人去填补最后(hòu)一公里。所以我(wǒ)们就在看,围绕着安全现在这样一个(gè)痛点现状(zhuàng),我们大 模型能否带(dài)来这里面的变化,我们把AI作为一(yī)个工(gōng)具,我们核(hé)心分(fēn)析了痛点,看大模型(xíng)能不能解决。

  大模型我总(zǒng)结了几个点,第(dì)一个,就(jiù)之(zhī)前人工智(zhì)能技术有更强的理解(jiě)指令(lìng)的能力,这里我(wǒ)认为是两层:一是本(běn)身为软件工(gōng)程,对机器理解的指令更强;二是人工智能为拟人化的学(xué)科,本身更接近(jìn)于跟人的(de)对话(huà)。第二(èr)个,理解意(yì)志。就是它有更(gèng)强的泛(fàn)化能力,所以我们(men)在安全很多的业务很难 做到非常标准的SOP。所以我们是希望掌握一些知(zhī)识之后还有更强(qiáng)的泛化能力。第三个,具有更强(qiáng)的COT能(néng)力,因(yīn)为(wèi)很多安全 任务不是一个简单的问题,其实是(shì)一个复(fù)杂问题,所以在很多安(ān)全任务处理过(guò)程中需要加一(yī)个复杂(zá)问题把(bǎ)它拆解成更加简单的(de)问题、多个问题(tí),大模型思维链的问题本身比(bǐ)较适合做安全相关任务。第四(sì)个,有快速 的学习(xí)成长跟复制的能力。很多安全行业里面,人的经验复制是很难的,如何从数据驱动到知识驱动,到变成一个(gè)平台级的能力,这个(gè)层面我觉得(dé)是大模(mó)型对(duì)这个(gè)行业来说很大的价值。

  所以围绕着上面所有,我认为人(rén)工智能可以填(tián)补这里(lǐ)面的(de)鸿沟,建立起(qǐ)一座(zuò)桥梁(liáng)之后,向左可以提高(gāo)我(wǒ)们整个产品质量,向右可以提(tí)高整(zhěng)个服务的能效。所以我 们不断地在思考、在探索 ,在具(jù)体的(de)每个业(yè)务链上到底有什么样的安全问题。

  在另外一个层面,刚才余总也(yě)介绍到,大模型本身偏向于是(shì)人的大脑,偏(piān)向于类似于咨询(xún)专(zhuān)家(jiā)。但我们更希望(wàng),具体的一些(xiē)咨询专家(jiā)能不(bù)能动手帮(bāng)助完成所(suǒ)有任务(wù),所以我们这上面(miàn)的思考是通过智能体的放(fàng),通过(guò)连(lián)接下层原来的产品,围(wéi)绕着上述业务场景构建相关智(zhì)能体 ,融入原来的安全体系(xì)。

  所以(yǐ)这里我想抛一个观点,新的技术出现不是(shì)去解决新的问题,而是更多和原来产品进行结合(hé),解(jiě)决原来传统解决不好的问题,这(zhè)是王道、是正道。另外(wài),很(hěn)多(duō)时候对于大模型来说,是不是可以提高很高的效率?在(zài)这个点(diǎn)上,我原来跟(gēn)很多业内专家去聊(liáo),其实它提升的是机器(qì)做不好的、需要人介入的(de)这一块的工作效率,对于现(xiàn)在大模型本身推理和各方面性能原因,原来机器性能已经 这样,在机器性能(néng)上再(zài)叠加,这在 当前(qián)技术阶段不是特别成熟。

  第二 个层面,在整个AI这一块,我在很多客户聊,大模型(xíng)是 不(bù)是很多原来解决不了(le)的问题现在都可以通过(guò)人工智能来解决了?其实远远不够,我们的梦想非常高,但大模型现(xiàn)在还在(zài)一个技术的爬坡阶段,有很多问题,无论是幻 觉问题(tí)、性能问题(tí)、指令遵循问题等等(děng)一系列(liè),并不是在所有任务上都能处理得很好(hǎo),但不能(néng)低估(gū)了这个(gè)技术未来发展空间。所(suǒ)以当前阶段要看有哪些痛点,大模型当前阶段最合适做(zuò)什么工作(zuò),主编边(biān)走边爬坡,边跟现在的业务结合,给现在业务痛点带来相关价值。

  过(guò)去我们(men)内部做了很(hěn)多头脑风暴(bào),思考现在有什么样的痛点,大(dà)模型能否解决什么问题,如果可以(yǐ),我们就开始组织预(yù)演,组织预演可以,然后工程化,工程化(huà)再可以给客户一个持续的优化(huà)过程。所以我(wǒ)们其实(shí)做了 好多好多的尝试(shì),这里面有很多(duō)也是失败了(le),包括最(zuì)早的时候我们想(xiǎng)说原(yuán)始流量是否可以直接丢 给大模型,大模型是否能够独立针对于大型的软(ruǎn)件工程,然后进行源代码(mǎ)的挖掘,包括能不能做全自动化(huà)复(fù)杂(zá)场景的渗透。刚才我说的这个场景分别代表了大模型(xíng)现(xiàn)在的三个缺陷。这 里不展开(kāi)详细去聊这个话题了(le)。

  实践过程中(zhōng)有几个点做的还可以,第(dì)一个是(shì)安全运营相关的场景,安全运营,刚才两位专家也提到,我们越来越关注安(ān)全 ,整个法律体系的构建越来越完善,采集到的日志越来越多(duō),形成的告警越来越多。第二个(gè)是我们对手整个攻(gōng)击越来越智能化、自动化,包括互联(lián)网上攻击攻防之间的博弈越来越强烈,所以我们其实(shí)在现在发现告警越来(lái)越多,我(wǒ)走访了很多客户,一天告(gào)警可能在几十万到(dào)几百万,但是一个工(gōng)程师一(yī)天大概只能处理个一千个左右的告(gào)警,所以我看了很多客户(hù)招了几十个人专门做安全运营(yíng),但是几十个(gè)人,假设我们要把所有的日志告警分析的话,远远不够。我们(men)在思考大模型在这个点上可以解(jiě)决很好的问题,因(yīn)为它本身的分析逻辑、它的技能是可以相对(duì)的通(tōng)过一些知识经验传递的方式(shì)给到大(dà)模型(xíng)。但这一块,就不展开讲了,因为前面两位专家主(zhǔ)要是围绕这个话题来讲。

  大家对于安全运营期待的(de)第二点是未知威胁的发现。今年(nián)8月份我们(men)团队去BlackHat(全球一个(gè)顶尖的(de)黑帽(mào)子大会),当时(shí)做了 一个(gè)分享,就是利用大模型进行威胁狩猎。这个相 关技术成果在2024年国家网络安全宣传周上进行了公布,这个赛(sài)道我们也是拿(ná)到了第一名。因(yīn)为大模型 有比较强的(de)泛化的能力,对于原来很多规则都是从已知到已知问(wèn)题的(de)发现,但是(shì)大模型可以在(zài)一(yī)定程度(dù)上做的一(yī)个已知到未知的发现,通过这(zhè)样的方式极大提(tí)升了(le)我们整个(gè)狩猎能力包括过去很多APT的线索,通过(guò)这样的方式得到了有效的产出。

  这些相(xiāng)关成果我就不展开讲了,因为文字比较多,全部阐述清楚需(xū)要比较长的时间。

  前面讲的东西(xī)都偏向安全(quán)运营,后面讲数(shù)据安全相关的东西。业 界 做数据安(ān)全国内已经推了很多年,但整体落地存在挑战,这里(lǐ)本身有数据安(ān)全跟业务更加连接(jiē),跟(gēn)业务更(gèng)加相关,不(bù)同客户整(zhěng)个数据安(ān)全需求也(yě)不一样。另外一个层面,过去很多传统技术无法很(hěn)好的支持数据安全的落地(dì),比如分类和分级,过去客户侧结构化数据有不同的业务类型和不同程序员(yuán)开发,数据库涉及方式不一样,表字段命名不一样(yàng),很难通过 原(yuán)来通过规则或者关键字的方式形成一套识别的工具,我们过(guò)去看(kàn)过很多数据 分类分级的产品(pǐn),识别率(lǜ)是比较(jiào)低的只有(yǒu)对于(yú)他认识的(de),之前做过关键词这类的识别(bié)的比较(jiào)高,相对业(yè)务更新一点(diǎn)或者整个数据库设计、命名有(yǒu)一(yī)些特殊(shū)性或者有其他差异就识别不出来(lái)。

  围绕(rào)这个,就是我画的图,前(qián)面产品,后面堆人,通(tōng)过这样的(de)方式堆了很多人,数据分类分级,我们知道很多客户 非结(jié)构化数据,然后一个数据库可能就几千张几(jǐ)万(wàn)张表甚至十几万表,或者一个客户现场,一天一个(gè)人(rén),分析的大概也是差不(bù)多一千个。

  我们有(yǒu)一个(gè)运营商的客户跟我们说了一个事情,说我(wǒ)这边有(yǒu)1500万个(gè)字(zì)段,能不能做相关的数据分类分(fēn)级(jí)。用传统(tǒng)的方式,不知道大家有没有概念(niàn),但做(zuò)了计算,如果按照(zhào)传统的方式(shì),大概需要把两(liǎng)到三(sān)个人从实习阶段直接干到退休。我们去推动这个点,我觉得是(shì)打开(kāi)数据(jù)安(ān)全的基(jī)础,我们也做了很多实践(jiàn),其实本身(shēn)是对于自然语言的理解,结构化数据(jù)里面本身字段表(biǎo)之间有关系,所以我们通过AI的方式让它自动化的去(qù)推测每一个字段里的含义,并且归到相应的内容。这里面我们识别到(dào)的(de)准确率,其实比人工专家还要高,因为专家有(yǒu王欣:通用大模型最后只会变成少量的一两家)时候是带情(qíng)绪的(de),有时候不是理性的,认为这(zhè)一(yī)秒应该分到这里,下一秒做类似工作(zuò)认为应该在另外一边,整个思维更加跳(tiào)跃。

  在具体案(àn)例里面我们做了很多的(de)客户实践发(fā)现,整体效率提升(shēng)30倍左右,虽然这里面百万个字段(duàn)除1000个字段,10万字段除(chú)以1000个(gè)字(zì)段,效率提升不仅30倍,但因为整个(gè)项目交付有其他环节,所以我们整(zhěng)体算下(xià)来(lái)大概有30倍效(xiào)率的提升(shēng)。这后(hòu)面是具体的项目,我不展开讲了。

  刚刚讲的是结构化数据,数据安全里面非结构化数据,过去这一块也是老大难的问题,因为我们肯定知道有很多终端的DLP包括网络的DLP去针对于文(wén)本的内容进行 识别,过去(qù)DLP的初代、二代(dài)更多是通(tōng)过一些(xiē)文件(jiàn)的格式、编码、关键词,后面又增加(jiā)了一些NLP的技术,其实整体的识别(bié)率是很低的,误报率很高的。

  今天是安(ān)全场(chǎng),在座很多人(rén)可能是知道这(zhè)一块(kuài)的现状,所以我就不展开(kāi)讲了。大模型本身有(yǒu)很强的文(wén)本理解能力、有很强的总结归(guī)纳(nà)的能(néng)力。所以我们对于不(bù)同的业务数(shù)据进去之后,这边分(fēn)析完一个文档之后,认为是一个(gè)员工(gōng)工资表,所以认为是一(yī)个4级文档。后面分析完认为是一个技术设计(jì)文档(dàng),所以属于4级高敏感(gǎn)等等。通过这种方式 ,原来是把(bǎ)人的思维抽象王欣:通用大模型最后只会变成少量的一两家成了(le)一个规则,而(ér)现在(zài)是用借助人的(de)思考方(fāng)式、阅读方式、总结(jié)归纳(nà)的能力让它去识别相关的信(xìn)息(xī)。所以我认为在(zài)过去原 来传统技术(shù)叠加是一代二代三(sān)代,大模型在这个点上的价值是跨代的。如果有(yǒu)兴趣后面再详(xiáng)细交流(liú)。

  关于API安全也是一样,在整(zhěng)个(gè)API安全这一块也是围绕数据安全这几年比较火的一个点,过去 API安全里面(miàn)存在一些问题,比如API接口识别的准确率,包括API脆弱性的一些识别以及研判能力,包括API接口调(diào)用 的敏(mǐn)感(gǎn)数据以及敏感数据所对应的行为(wèi)事件(jiàn)所分析出来的(de)一些异(yì)常行为之类等等(děng)安(ān)全相关的维度,但过去在(zài)这里面处理的都不是特别好,然后我们 通(tōng)过让大(dà)模(mó)型去做API的提纯,包(bāo)括(kuò)做异常行为的(de)分析。这是一个真(zhēn)实的例子(PPT图),央企(qǐ)的例子,通过这样的方式识(shí)别到真正某一个IP在夜间拖取相关(guān)数据大概(gài)达到多(duō)少条,API的安(ān)全其实有很多的产品功能(néng),但是我认(rèn)为对于客户来说,这是最最关(guān)心的,就因为API安全建好(hǎo)之(zhī)后,到底有谁(shuí)通过我这个API接口偷数据和(hé)爬(pá)数据。

  最后一页我快速(sù)讲(jiǎng)一下,整个数据大模型这一块针对于安全,包(bāo)括大模型本身技(jì)术当前现状,我们认为还是在爬坡阶段。过去我们提到的是(shì)偏向(xiàng)于一个智能问答到现在的一个 辅助驾驶,可以做大部分工作,最后人工做一(yī)些check。我相信在不远的将来,在(zài)一些关键的任务上可以实现无人驾驶的效果,因为目前我们在(zài)一些新的领域(yù)上(shàng)已经看到了,已经实践出来了,后(hòu)面找 机(jī)会再跟各位再做(zuò)进(jìn)一步的汇报,我的汇报(bào)就是这些,谢谢大家。

  新浪声明:所(suǒ)有会(huì)议实(shí)录均为现场速记整理,未经演讲者审阅,新浪网登载此文出(chū)于传递更(gèng)多信息(xī)之目的,并不意味着(zhe)赞同其观点或证实其描述。

责任 编辑(jí):梁斌(bīn) SF055

未经允许不得转载:橘子百科-橘子都知道 王欣:通用大模型最后只会变成少量的一两家

评论

5+2=