【 ChatGPT 】 写 代码 、 作 诗词 、 编 文章 , 火爆 全网 的 它 真的 会 取代 打 工人 吗 ? - YouTube (1)
2022 年 11 月份
注定 是 要 改变 人类 社会 的 日子
这个 月份 啊
OpenAi 推出 了 他 的 聊天 性 人工智能
chatGPT 仅用 一个月 时间
用户 就 达到 了 1 亿 用户
微软 为了 打赢 搜索 大战
他 把 chatGPT 接入 他 的 newbing 搜索引擎 中
但是 仅仅 公测 了 一周 后
用户 就 发现 了
许多 令人 不寒而栗 的 情况 啊
chat GPT 居然 具有 主观 意识
newBing 不仅 会 示爱 还会 PUA
甚至 会 威胁 人类
这 不禁 令人 感到 害怕
chatGPT 如果 再 这么 发展 下去
是否 会 凌驾于 人类 的 意志 之上
甚至 反过来 诱导 甚至 统治 我们 人类
今天 呢 我们 就 来 讲讲 chatGPT
大家 好 我 是 老克
一个 永远 分不清 前后 鼻音 的 up 主
旁边 是 人工智能 AI 小仙
大家 好 哈哈哈
今天 呢 我们 从 三个 方面 啊
让 大家 一个 视频 了解 完整 chatGPT
第一个 呢
就是 chatGPT 是 如何 发展 起来 的
它 又 是 如何 运作 的
第二个 就是 我们 中国
离 我们 自己 的 chatGPT 有多远
第三个 呢
就是 我们 真的 会 被 chatGPT 所 取代 吗
要说 清楚 chatGPT 啊
首先 就要 理 清楚 GPT 和 chatGPT
我们 首先 说 chatGPT 啊
chatGPT 是 在 GPT3.5 的 基础 上
加 了 一些 互动 和 UI 设计 的 东西
让 它 呢 变成 一个 能 跟 人 聊天 的 AI 产品
也就是说 啊 GPT 其实 是 chatGPT 的 大脑
而 chatGPT 呢 是 GPT 的 脸
而 其实 使用 GPT 这个 模型 的 产品 啊
不 只是 有 chatGPT 还有 很多 东西
比如说 啊 Checklist
还有 Checkboat 还有 code grantion 等等
在 网上 呢
差不多 能 找到 600 多个
使用 GPT 模型 开发 的 工具
那 我 刚才 说 到 的 GPT 模型 又 是 啥 呢
GPT 啊 是 一个 学习型 语言 模型
它 是 属于 自然语言 模型 的 分支
GPT 的 全称 是
中文 意思 是 生成式 预 训练 模型
它 的 原理 啊
是 先用 大量 的 文本 资料 来 进行 训练
然后 呢 根据
前面 的 文字 来 猜测 后面 应该 接 什么 字
我们 平时 用 的 输入法 就
跟 这个 有点 相像 啊
我们 打 一个 字
他 就 会 提示 我们 后面 哎
可能 要 打 什么 字
但是 GPT 模型 比 输入法 可 就 牛 逼 多 了
他 不 只能 猜测出 下 一个 字
还 能 猜出 下 一句 话 甚至 是 下 一段 故事
举个 例子 啊
如果 你 在 我们 现在 的 输入法 里面 输入
老克 分不清
手机 输入法 可能 只能 根据 最后 的 清字
给 你 一个 清楚
清除 清晰 哎 等等 相关 的 东西
但是 GPT 则 能 在 学习 我们 的 视频 之后
计算 出 哎 老克 分不清
前后 鼻音 的 概率 是 30%
平 翘舌音 的 概率 是 20%
NL 的 概率 是 10%
那 是 我
那 都 是 你 哈哈哈
根据 各个 回答 的 概率 呢 给出 他 的 答案
这 就是 为什么 每 一次 GPT
回答 的 都 不 一样 的 原因 了
open Ai 在 给 GPT1 为了 大概 5G 的 文本
1.17 亿 的 参数 相当于 7,000 本书 以后 啊
基本上
GPT 就 能 生成 完整 且 合乎逻辑 的
故事 了 短 故事 啊
GPT1 虽然 很 厉害 但是 也 有 个 致命 的 弱点
就是 每 一次 做 新 的 任务 都 要
重新 训练 一遍
啥 概念
就是说 比如说 我 让 他 写 一个 故事
写篇 小说
哎 你 要 拿 一堆 小说 让 他 训练
哎 你 要 让 他 写 一段 Java 程序
你 就要 拿 一堆 的 Java 程序
让 他 训练 一遍
每 一次 这样 做 一个 新 的 任务
他 就要 训练 一遍
写 散文 你 就要 丢 一堆 散文 进去
这样 很 麻烦 也 很耗 资源 嘛 对 不 对
OpenAi 呢 为了 解决 这个 问题
就 提出 了 一个 叫做 zero short 的 概念
然后 呢 他们 就 将 这个 zero short
整合 到 了 GPT1 里面
开发 出 了 GPT2
什么 是 zero short
说白了 就是 在 机械学习 学会 推理
学会 举一反三
在 GPT2 之前 啊
我们 要 让 AI 知道 什么 叫做 斑马
那 就 只能 拿 各种各样 的 斑马 给 AI
让 他 不停 的 训练
大量 的 训练
给 他 一张 他 从 没有 见 过 的 斑马 图片
AI 就 可能 可以 把
图片 中 的 斑马 给 认出来
或者 圈 出来
但是 有 了 zero short,GPT 就 不同 了
我用 一个 例子 来 说明
假设 小明 和 爸爸 到 动物园
到 动物园 去 玩 看到 了 马
然后 爸爸 告诉 小明
这 叫做 马
之后 呢 又 看到 了 老虎
又 告诉 小明
看 这种 身上 有条纹 的 动物 叫做 老虎
最后 呢 又 去 看 了 熊猫
对 他 说 你 看 这个 熊猫 是 黑白 的
然后 呢 爸爸 给 小明 安排 了 个 任务
让 他 在 动物园 里 找 一种 他 从 没有 见 过 的 动物
叫 斑马 并 告诉 小明 啊
有关 斑马 的 信息 是 这样 的
斑马 呢 有着 马 的 轮廓
身上 有 老虎 一样 的 条纹
而且 呢 他 像 熊猫 一样 是 黑 白色
最后 小明 根据 爸爸 的 提示
在 动物园 里面 找到 了 斑马
这件 事情 的 关键点 是 有 两
第一 小明 在此之前 是 没有 见过 斑马 的
第二
小明 是 根据 其中 几个 事物 的 特点
进行 揉合 以后
辨认出 斑马 的
这 就 叫做 推理
或者 这 就 叫做 zero short
就是 这个 人工智能
在 没有 经过 相应 的 训练
甚至 没有 见过 之前 的 这个 任务 的 时候
也 能 完成 这个 任务
这个 在 人工智能 领域 啊
就是 一次 非常 大 的 飞跃
我们 人 和 机械学习
或者 我们 人 和 现在 的 人工智能
一个 巨大 的 区别 就 在于 啊
我们 能够 根据 自己 以前 的 经验
去 创造 或者 认识 一些 之前 没有 的 东西
这 叫 发明 这 叫 推理
而 机械学习 是 不能 的
而 现在
AI 也 具有 了 我们 人类 的 一些 创造 能力
在 喂给 GPT2 约 四十 G 十五 亿 参数 之后
GPT2 在 文本 生成 上 有 惊人 的 表现 啊
其中 生成 的 文本 在 上下文 连贯性 和 情感 表达 上
都 超越 了 人们 的 预期
不过 呢
GPT2 在 音乐 方面 和 长 文本 生成 方面 啊
不是 那么 优秀
尤其 是 让 他 生成 一个 长 一点 的 故事
很快 就 放飞 自我 了
其实 这 一点 哈
到 现在 GPT3.5 也 没有 解决
他们 是 怎么 放飞 自我 的 长 故事
简单 的 说 吧
我 跟 你 这么 说
举个 例子 啊
小明 有 一天 去 了 动物园
他 看见 了 狮子 老虎
他 觉得 方便面 很 好吃
吃 起来 方便面 有点 皱皱巴巴 的
学差 了 这 是 学杂 了 呀
这 是 对 他 自己 根本 没有 办法 去
理解 这种 长 文本 是 吧
逻辑 所以 现在 即
使 是 GPC3.5 他 也 限制 500 个 字
太长 的 他 是 没 办法 生成 的
为啥 呢 其实 不是 他 不能
而是 因为 太长 的 对 太 容易 乱 你 知道 吧
容易 放飞 自我
最后 导致 前言不搭后语
其实 还有 一个 致命 的 问题
反而 是 来自 于 Zeroshot 这个 模式 啊
就是 还是 回到 刚才 那个 斑马 的 例子 啊
如果 GPT2 识别 斑马
那 就 必须 每次 都 告诉 GPT2 哎
那 是 马 那 是 老虎 那 是 熊猫
哎 他们 混合 起来 叫 斑马
也 就是 每 一次 给 GPT2 解决 一个 问题
虽然 不用 再 对 他 进行 训练 了
但是 每 一次 都 必须 告诉 GPT2
那个 推理 的 前置 提示
比如说 上面 说 的 马 老虎 熊猫
如果 你 换成 了 马 老虎 豹子 就 不行
为了 解决 这些 问题 呢
研究 人员 做 了 两件事
第一件 事情 呢 是 引入 了 一个 新 的 模式
叫做 few shot
也 就是 少 样本 模式
让 模型 能够 从 少量 的 标签 数据 中
快速 的 适应 新 任务
并且 呢 能够 处理 未见 过 的 类别 和 样本
就是 啥意思 呢
就是 把 我们 上面 说 的
马 老虎 熊猫 这些 提示 也 变成 训练
给 到 AI 进行 训练
同时 呢
也 给 AI 一些 斑马 的 图片 进行 训练
下次 遇到 类似 的 问题 啊
我们 就 不用 每次 都 说 马 老虎 熊猫
而是 可以 使用 一些 类似 的 类比
比如说 马 豹子 黑白 棋子
合 起来 他 也 是 斑马
甚至 只要 说 黑白 条纹 的 马
AI 也 能 推理 出 斑马
在 引入 few-shot 的 这个 概念 之后 啊
GBT3 也 就 诞生 了
第二件 事 呢
就是 乘 10 倍 100 倍 的 扩大 了 GPT3 的 训练 参数
2020 年 5 月
GPT3 被 喂 了 约 45TB
1,750 亿 参数 后
GPT3 就 基本 做到 了 无所不知
到 了 2022 年 3 月
GPT3 又 进行 了 多次 升级 和 训练 后
就 变成 了 我们 现在 看到 的 这个
强大 的 GPT3.5
他 的 知识 是 丰富 了 你 知道 吧
相当 丰富 了 吗
这个 其实 我们 人 就算 你 天天
对 我们 天天 看书 也 看 不了 那么 多 的
但是 同样 上身 的 还有 另外 一个 东西
就是 花费
GPT3.5 一次 训练 就 超过 了 1,200 万美元
这 烧钱 的 速度
只有 微软 能 扛得住 了
到 了 2022 年 就 加上 了 UI 交互 界面
chat GPT 也 就 正式 诞生 了
和 正式 和 大家 见面
后面 的 事情 呢 大家 都 知道
其实 恰 的 GPD 的 诞生 啊 有 三个 关键点
第一 是 GPT 模型 的 提出
第二则 是 few short 和 zero short 的 加入
第三 则 是 大量 的 数据 训练
这 三件 事
共同 的 促使 了 我们 现在 看到 的
chart GPT 的 诞生
也 可能 这是 人类 的 一个 奇点 的 诞生
中国 离 chatGPT 到底 有多远
有 的 人 说 不远
因为 3 月 16 号
百度 就 将 发布 他 的 百度 chatGPT
取名 文心 一 言
其实 呢
百度 的 文心 易言 并 不是 chatGPT
推出 之后
百度 才 赶鸭子上架 干
早 在 2019 年
百度 就 已经 在 研发 自己 的 文心 大 模型 了
到 现在 呢 已经 有 4 年 的 历史 了
具体 效果 怎么样 我们 只能 拭目以待
那 我们 到底 离 chatGPT 有多远 呢
那 我们 就要 从 chatGPT
或者说 GPT 的 三大 要素 来 分析 了
第一个 要素 是 算法
第二个 是 要素 是 算力 也 就是 芯片
第三个 要素 就是 大 数据
算法 我们 上面 已经 大致 讲过 了
基础 算法
论文 和 方法 其实 在 网上 都 能 找 得到
而且 呢
GPT3 以前 的 代码 都 已经 是 开源 的 了
所以 我 相信
在 我国 的 那些 天才 能力 面前 啊
算法 应该 不是 什么 问题
第二 部分 就是 算力
这部分 啊 我 认为 是 差距 最大 最大 的
为啥 呢 因为 2019 年 微软 投资 OpenAi 的 时候
就 建设 了 一个 拥有 28.5 万个 CPU
1 万个 GPU 的 超算 中心
专门 供 GPT 训练 使用
而 之后 的 GPT
需要 的 算力 只会 越来越 多
这些 芯片 的 核心技术
都 掌握 在 美国 手里
他们 正在 封锁 我们 啊 对 吧
而 高端 的 人工智能 芯片 比如说 TPU
就 更是 禁止 出口 的 啦
所以 这 就 成 了
我们
中国 在 人工智能 领域 里面 的 最大 短板
如果 能 突破 芯片 的 阻碍
相信 我们 离 自己 的 chatGPT
甚至 超过 chatGPT
应该 会进 一大步
而 最后 说 的 就是 数据
这个 点 呢 就 比较 玄妙 了
因为 数据 是 整个 训练 的 核心 啊
所谓 垃圾 进 垃圾 出
也 就是 英文 所说 的 garbage in garbage out
如果 在 训练 中 存在 着 重复 内容
敏感 词 隐私 词汇
非 完整 句子
都 会 导致 训练 级 的 失真
最终 呢 导致 整个 训练 的 失败
如果 训练 集中 充斥 着 各种 广告
各种 是 兄弟 就 来 砍 我
那 哪怕 是 再 精妙 的 算法
再 强大 的 算力 都 是 白搭 的
但是 结合 百度 之前 的 所作所为 啊
在 这方面 我 是 着实 捏把汗 的
现在 我国 主流 的 AICG 模型
也 就是 类 chat GPT 模型