全能模型GPT-4o惊艳发布!AI可提供情绪价值还结婚么?
时间: 2024-05-19 11:06:15 | 作者: 案例展示
山姆奥特曼,OpenAI的创始人,他不愧是全球顶级的PR高手+产品经理,我不知道他会不会打麻将,但如果会,一定是一个好手,因为人家会“截胡”。
比如,Google其实早早就宣布,他们会在15号举办开发者大会,结果OpenAI就把发布会从9号推迟到14号,也就是放到了Google的前一天。我相信Google的产品团队压力巨大,前一晚应该注定无眠。
好多朋友跟我一样都会去看发布会,虽然在半夜,但实际上很短,也就半个多小时,奥特曼自己并没有上,由他的CTO Murati 穆姐做了一个简单介绍,然后是现场实时演示。
但恰恰就因为发布会上出现的是一位女性,把我带入一个著名的科幻电影《her》。
OpenAI到底发布了啥?核心就是它的新模型:GPT-4o,以及基于GPT-4o打造的一个全新的ChatGPT。注意,这个不是4.0,而是4“O”,字母O。这个O实际上代表着Omni,它是个拉丁语的词根,意思就是全体或者全面。比如我经常讲的这句话,“学习不会让您变成全知全能”,英文翻译用的就是“omni-scient”。
这个模型凭啥敢叫全能?我们大家都知道,之前的ChatGPT主要是文字,今年大年初七发布的Sora是视频,这次它
把相关的输入一锅烩了。GPT-4o是把文字、语音、图片甚至视频全部包容在内的一个模型,跟以前的完全不同,也应该算是首个原生的多模态模型。
你可能会说:明白了,又能看字,又能听声,还能够看视频,但这有什么了不起的呢?我说一个大家熟悉的场景,比如这段电影,流浪地球里面的Moss。
你琢磨一下,咱们人和人之间,除了身体接触以外的、人类主要的智能交流,不都在这个模型里了吗?更要命的是,如果说Moss在交互的时候还有比较生硬的机械感,这次的模型至少在发布会上实现的效果已经妥妥地接近人类,达到人类,甚至很多方面已经是超越人类的存在。
不管是你输入的硬件(包括摄像头、麦克风等),甚至你的喘息声、你的呼吸,它都考虑在内,都可以用自己的方式去读懂人的情绪,并且经过计算,它还可以设定自己的情绪跟你交互,跟真人几乎一致,这个细思极恐!
要知道在ChatGPT出来的时候,我们都认为它大概率是读不懂话外音的,现在是时候收回这句话了。目前我们已看到了,只要你的输入是恰当的,甚至都不用充分,它就会用一个不同于人类的思维方法,直接进行人类能够理解的共情!它没有神经元,但这样的形式我们居然也能够理解。所以这就是为什么,当我看到发布会演示录像的时候直接就倒吸一口凉气了。
我看了个参数,这个模型对于音频输入的响应时间短至0.232秒,平均大概是0.32秒,和我们人类日常交谈的时序非常接近,而且它可以更快,但我们人类的神经信号传导速度可能已没太多进步空间。
这还都是常规内容,如果是复杂点的,比如说几十种语言无缝切换,高位的计算,包括知识检索呢?如果限定时间,真的就比任何一个人类,甚至所有人类,都厉害多了。
这应该算是人类历史上最强大的语音合成,我们叫TTS软件,尹哥最早接触还是在2000年初,微软当时就有,更不用说今天的Siri或者Claude。我也不知道,会不会有很多高级接线员或者资深客服经理被“豪替”而不是“平替”。你还可以想象,以后输入一本《西游记》或者《红楼梦》,它分析完了,可以直接分角色进行朗读,听声音就知道谁在讲,那么配音师的职业是否也岌岌可危?
当然也有评论说:发布会就是样板间,实际使用不可能这么丝滑。确实,有一些已经试用的网友说了:目前还不能够实现发布会上可以每时每刻打断它说线o至少在当下版本还是一个“话唠”,再加一个“麦霸”。
还有很多理工科的妈妈问我,这个能体会情绪的GPT-4o以后是不是能替代她们,去远程辅导作业?从而解决从母慈子孝到鸡飞狗跳的窘境,以及随时心梗的风险我估计吧,人类毕竟还是有同理心的,若孩子知道你在偷懒,而辅导他的又只是个程序的话,这个逆反效果可能更显著教育上目前你是偷不了懒的。
再就是尹哥身边一群IT宅男们也纷纷咨询,说GPT-4o如果真的和《her》一样,提供情绪价值,再整合到肤白貌美大长腿的机械模型中,就别找女朋友了我直接反问道,人家女生就更没有找你们的必要了,“直男”往往连情绪价值都提供不了
讲真,如果AI这么体贴,年轻人会不会更不想去恋爱、结婚、生娃了,几代人以后机器人都自己玩了?而且都是智性恋?这一刻我只能说,儿孙自有儿孙福,碳基退场硅基接。恐龙们自然无法预计今天哺乳动物的迷惑行为,我们也放宽心吧,别为未来的人类操心了,先想想当下的事儿,主要咱也没这个预测能力。
此刻再回忆1962年,亚瑟克拉克的这句话,“任何足够先进的技术,其实都与魔法无异”。奥特曼也在未来系列的GPT预告当中多次用了“magic”这个词,我相信他还有很多大招没出,比如说Sora,三维模型的整合都还没有放进去。
这次的GPT-4o,进一步强化了“免费+收费”的商业模型,免费的人人都能用,收费的功能就强大。我相信在维持它商业收益的同时,会极大且很快地增加它的市场渗透率。在全球使用者享受“免费午餐”时,也源源不断地为它提供了新语料去完善它的模型,进而也慢慢地增加。它设定了“开源+闭源”的技术框架壁垒,开源的是较落后的,但还有一个好的在闭源。
所以我不止一次地讲过,AI是一个时代,不单单是一个周期,周期还会回归,而时代却只能呼啸而过。面对新技术的这种纷至沓来,是勇敢面对、积极拥抱,还是因循守旧、刻舟求剑,这将决定企业、民族、国家,甚至人类的命运。
就在5月2日,由陶哲轩领衔发布的一个62页的美国AI“登月报告”,非常有料。对于AI的应用,他在宏观层面上强调,“使用AI不是作弊,但需要注明哪一部分是AI做的”。我觉得这是很好的拥抱技术的态度,是真正的管促结合。不能因为AI是新技术,你没见过就说是作弊。如果这个算作弊,那使用搜索引擎就算是对翻纸质书的作弊了,用计算器算不算是对用算盘的作弊,用算盘的又算不算是对用结绳计数、用石子计数的作弊,甚至骑自行车就是对走步的作弊了五十步笑百步,大抵如此。
技术一直前进,只是我们每一代人都在变老,当你不接受新技术时,你就变老了。
最后,想问一句,何时咱们也能用上GPT-4o?国内的大模型,何时能够迎头赶上呢?
上一篇:工业40时代--正确认知机器视觉 下一篇:“看透”工业生产机器视觉让制造更精准