×

LingQをより快適にするためCookieを使用しています。サイトの訪問により同意したと見なされます クッキーポリシー.


image

絮言.狂想 Rhapsody in Lingo Podcast, RiL Podcast #012: Cloning RiL Podcast

RiL Podcast #012: Cloning RiL Podcast

以 : 其實 我 哋 個腦 都 係 電腦 嚟 㗎 。 苗 : 係 啊 , 肉腦 啊 , 我 哋 係 。

以 : 我 哋 係 機械 人 。

靳 : 肉腦 啦 。

以 : 都 有 電 喺 裏面 。

苗 : 有 。

靳 : 有 有 有 。

苗 : 你 啱 。

以 :YES! 我 唔 係 醫生 都 可以 講到 呢 個 。

[jingle]

以 : 歡迎 返到 嚟 《 絮言 . 狂想 》 第十二 集 啊 。 我 係 以色列 。

苗 : 我 係 三秒 。

靳 : 我 係 靳尼 啊 。

以 : 噉 我 諗 呢 , 大家 一 開始 聽 呢 一集 嘅 時候 呢 , 都 應該 最 緊張 嘅 就 係 , 到底 上 一集 搞 乜 鬼 呢 ? 噉 …… 噉 唔 知 大家 有 冇 睇 返 我 哋 後來 Facebook 嗰 個 更新 啦 , 噉 就 話 , 哦 , 其實 就 係 愚人節 嘅 一個 笑話 嚟 嘅 。 噉 當然 我 哋 呢 一個 嘅 笑話 , 都 非常 非常之 同 語言 有 關係 啦 。 我 哋 都 精心 佈置 咗 好 耐 嘅 。 但 係 我 哋 而家 講下 先 啦 , 點解 會 有 呢 一個 玩 愚人節 嘅 諗 頭 嘅 呢 ?

苗 : 噉 呢 , 呢 個 愚人節 呢 , 就 好多 地方 都 有 個 習俗 啦 , 就 係 尤其 是 係 一 啲 科技 公司 啦 , 咁 佢 哋 就 好多 時會 喺 愚人節 度 推出 一 啲 搞笑 嘅 嘢 啦 , 或者 係 …… 唔 一定 係 搞笑 , 或者 唔 一定 係 呃 人 嘅 , 有時 係 一 啲 比較 …… 比較 好玩 嘅 一 啲 嘢 啦 。 譬如 Google 呢 , 即 係 往年 啦 , 咁 今年 同埋 上年 都 冇 做到 啦 。

以 : 唉 。

苗 : 咁 但 係 往年 呢 ,Google 啊 、 其他 公司 啊 、Amazon 啊 嗰 啲 …… 嗰 啲 公司 呢 , 都 會 去 做 一 啲 得意 嘢 啦 。 譬如 有 一次 係 咩 …… 咩 Google Gnome 呀 , 係 咪 啊 ? 有個 類似 Amazon Echo 咁 嘅 物體 , 咁 就 係 一個 地精 形狀 嘅 , 噉 就 係 …… 就 係 你 可以 擺 喺 個 …… 擺 喺 間 屋 裏面 啊 , 定 係 擺 喺 個 花園 度 , 咁 樣 就 可以 幫 你 解答 問題 噉 樣 , 嗰 啲 奇怪 嘢 囉 。

以 : 我 記得 好似 2014 年 呢 , 佢 喺 Google Maps 上面 整 咗 個 搵 寵物 小精靈 嘅 遊戲 囉 。

靳 : 啊 , 係 啊 。

以 : 之後 呢 個 就 後來 變成 咗 Pokémon Go 囉 , 係 啊 。

苗 : 哦 。

以 : 嗰 陣 時 我 冇 玩 。 係 啦 , 好衰 啦 , 因為 疫情 關係 而 取消 咗 愚人節 , 連 苦中作樂 都 冇 。

苗 : 係 啊 。

以 : 咁 於是 呢 , 都 係 因為 我 哋 幾個 係 比較 鐘意 睇 科技 嘢 嘅 人 啦 , 所以 就 決定 就學 佢 玩 下 呢 啲 嘢 。 咁 我 哋 呢 一個 笑話 , 係 介乎 整蠱 同埋 笑話 之間 , 我 諗 。 咁 希望 唔 會 整蠱 得 大家 太 緊要 啦 。

苗 : 點樣 整蠱 啊 ? 即 係 聽 完 之後 :「 咦 ? 點解 咁 垃圾 嘅 , 呢 集 ? 」 噉 樣 ,「 完全 唔 知 噏 乜 啊 ! 」 靳 :「 點解 聽 唔 明 嘅 , 呢 集 ? 」 咁 樣 ,「 我科勞 唔 到 啊 , 你講 啲 嘢 太深 啊 」 噉 樣 。

以 : 好 混淆 , 係 啊 。 我 見到 有 啲 講 廣東話 , 或者 學 廣東話 學到 咁 上下 嘅 人 呢 , 都 走 嚟 聽 , 之後 就 話 :「 啊 , 好似 返返 到 去 一 開始 學 廣東話 嘅 時候 , 即 係 好似 又 聽 得明 啲 字 , 但 係 又 聽 唔 明 係 講緊 乜嘢 」 噉 樣 。

苗 : 係 啊 , 咁 就 解釋 下 做 緊 咩 啦 。 咁 呢 一個 係 一個 完全 係 電腦 gen 出 嚟 嘅 一集 啦 。 噉 點樣 gen 呢 , 就 係 用 一個 叫做 n-gram 嘅 …… 嘅 嘢 啦 。 噉 呢 個 嘢 係 …… 如果 有人 聽過 複製 陳雲 呢 , 咁 係 一個 類似 嘅 嘢 嚟 嘅 。 咁 佢 就 係 ……

靳 : 複製 陳雲 真 係 好 正 。

苗 : 噉 類似 搜集 咗 陳雲 喺 Facebook 上面 嘅 所有 嘅 post 啦 , 噉 擺落 一個 文件 度 , 然 之後 呢 , 就 再 去 用 呢 啲 統計 , 咁 樣 就 睇 下 每 一串 字 , 究竟 出現 咗 幾多次 呢 ? 咁 就 計返 …… 類似 計返 一個 機率 出 嚟 。 咁 再 用 呢 一個 咁 樣 嘅 機率 呢 , 就 再 去 重新 生成 一 啲 字 出 嚟 囉 。 咁 就 可以 生成 到 一 啲 …… 一 啲 新 嘅 陳雲 文章 出 嚟 啦 , 咁 就 係 …… 所以 就 叫做 複製 陳雲 。 咁 我 哋 呢 一個 呢 , 就 差 唔 多 嘅 概念 啦 。 咁 就 ……

靳 : 我 哋 複製 嘅 唔 係 陳雲 啦 。

苗 : 係 喇 。 咁 我 哋 複製 嘅 呢 , 就 係 我 哋 之前 咁 多集 嘅 逐字 稿 啦 。 噉 以色列 好 辛苦 咁 打 咗 好多好多 咁 嘅 字 啦 。 呢 啲 …… 有 幾多 字 啊 ? 係 咪 ……

以 : 十七萬 字 。

苗 : 十七萬 字 喇 , 係 喇 。 好多好多 嘅 字 啦 。

靳 : 嘩 , 獨力 嘅 十七萬 字 。

苗 : 係 啊 , 粒粒皆辛苦 啊 。

靳 : 真 係 。

苗 :…… 嘅 十七萬 字 。 咁 呢 啲 咁 多 字 呢 , 我 哋 就 三個 三個 字 , 咁樣 為 一個 單位 啦 。 咁 就 去 統計 每 三個 字 , 即 係 究竟 數起 上 嚟 有 幾 多個 呢 ? 然 之後 再 …… 我 哋 再數 嘞 。 噉 我 就 嘗試 解釋 下 呢 一個 n-gram 呢 個 嘢 係 點樣 運作 啦 。 即 係 用 一個 n-gram 嘅 叫做 language model 啦 , 即 係 一個 語言 模型 , 去 生成 一篇 嘢 出 嚟 , 係 點樣 嘅 呢 ? 咁 我 就 首先 解釋 下 咩 叫做 language model 啦 。 咁 佢 嘅 作用 呢 , 就 係 根據 一句 嘢 , 你 之前 見到 嘅 字 呢 , 就 推測 下 一個 字 係 乜嘢 。 咁 而 n-gram 呢 , 就 係 其中 一種 language model 喇 。 咁 呢 個 係 一個 比較簡單 嘅 language model, 即 係 可能 你 讀 一 啲 比較 入門 嘅 電腦 語言學 嘅 課程 呢 , 都 會 介紹 呢 樣 嘢 嘅 。 咁 譬如 我 哋 個 稿 裏面 呢 , 有 一句 嘢 係 「 今日 天氣 好好 」 咁 樣 啦 。 咁 我 哋 就 三個 、 三個 字 咁 樣去 統計 , 究竟 「 今日 天 」 跟 住 「 日 天氣 」……

以 :「 天氣 好 」

苗 : 係 喇 , 係 喇 。 咁 呢 幾個 字 , 究竟 出現 咗 幾 多次 啦 。 咁 一路 一路 一路 咁 樣去 統計 。 咁 如果 呢 …… 因為 好 難 去 解釋 , 冇 visual 係 好 難解 釋 嘅 , 呢 樣 嘢 。

以 : 我 哋 手語 都 做到 啦 !

靳 :ok 嘅 !

苗 : 係 嘞 。 噉 你數 咗 咁 多 呢 一 啲 三個 、 三個 字 之後 呢 , 咁 你 就 去 再 將 佢 變成 一個 機率 啦 。 咁 點樣 變 呢 ? 就 係 睇 下 頭 兩個 字 。 如果 頭 兩個 字 係 一樣 嘅 話 呢 , 就當 係 同一 group 啦 。 假設 即 係 篇 文 裏面 有 「 今日 我 」、「 今日 你 」、「 今日 去 」 咁 樣 , 有 三組 唔 同 嘅 字 , 譬如 「 今日 我 」 出現 咗 九十 次 , 跟 住 「 今日 你 」 呢 , 出現 咗 五次 ,「 今日 佢 」 出現 咗 五次 。 咁 嘅 話 呢 , 就 係 你將 呢 幾個 數字 加埋 , 咁 就 係 一百 啦 。 咁 你 就 將 嗰 個數 目 呢 , 就 除 返 一百 。 例如 「 今日 我 」 呢 , 咁 就 係 九十 除 一百 啦 , 咁 就 係 0.9 嘞 。 咁 呢 個數 字 表達 緊 啲 咩 呢 ? 就 係 話 , 只要 你頭 兩個 字 係 「 今日 」 嘅 話 呢 , 後面 一個 字 係 「 我 」 嗰 個 機率 , 就 有 0.9 嘞 , 即 係 90% 喇 。 咁 而 其他 字 呢 , 就 係 分別 係 5% 啦 。 即 係 呢 個例 子 只 係 得 三個 可能性 , 咁 就 冇 其他 可能性 㗎 喇 喎 。 即 係 「 今日 」 之後 呢 , 你 淨 係 可以 講 「 我 」、「 你 」 同埋 「 佢 」。 咁 呢 一個 就 係 n-gram model 嘅 一個 唔 好處 啦 , 就 係 你好 難去 …… 你好 難去 模擬 一 啲 好 複雜 嘅 語言 。 一 啲 你 嗰 個 source 裏面 冇 嘅 嘢 囉 。 即 係 一定 要 出現 過 , 你 先 可以 有 囉 。 咁 除非 你 係 有 做 咗 其他 smoothing 啊 , 類似 咁 樣 嘅 嘢 呢 , 咁 你 先 可以 即 係 解決 到 呢 個 問題 啦 , 叫做 。 噉 但 係 我 哋 就 用 咗 一個 好 簡單 好 簡單 嘅 一個 模型 , 咁 就 去 整 啲 字 出 嚟 。 咁 所以 你 見到 呢 , 聽到 嗰 啲 字 , 如果 大家 係 比較 忠實 少 少 嘅 聽 眾 呢 , 就 會 聽得出 , 係 我 哋 之前 講 過 嘅 嘢 嚟 , 全部 都 係 我 哋 之前 講 過 嘅 嘢 嚟 嘅 。

靳 : 可能 可以 搵 到 係 邊 一集 講 。

苗 : 係 啊 , 係 啊 。

以 : 可以 …… 係 , 可以 估下 、 揾 返出 嚟 。 日光 之下 無新事 。

苗 : 可能 成句 係 新 嘅 。 但 係 呢 , 如果 你 係 每 三個 、 三個 字 咁 樣 睇 呢 , 係 會 喺 我 哋 以前 嘅 稿 度 出現 過 嘅 。 係 喇 , 咁 呢 個 就 係 我 哋 做 咗 嘅 嘢 。 咁 所以 你 哋 見到 …… 你 見到 有 啲 九 唔 搭 八 , 但 係 又 好似 有少少 make sense 咁 樣 , 咁 就 因為 我 哋 就 揀 咗 三個 字 呢 一個 咁 樣 嘅 window 啦 , 就 聽 落 去 會 比較 有少少 合理 , 但 係 又 唔 知 …… 好似 唔 知講 乜 噉 樣 。

以 : 你 係 點樣 決定 咗 揀 三個 字 㗎 ?

苗 : 三個 字 , 其實 係 一個 …… 其實 都 係 一個 choice 嚟 嘅 啫 。 因為 好多 時 , 如果 英文 嘅 話 呢 , 一 啲 真 係 會 用 呢 啲 language model 嘅 人 呢 , 就 通常 最盡 係 去 到 5-gram 嘅 啫 , 最盡 係 五個 字 嘅 啫 。 咁 因為 再 多 字 呢 , 你 有 一個 …… 你 所 需要 嘅 輸入 嗰 啲 字 呢 , 係 好多好多 好多 嘅 。 即 係 你好 少會 有 一 啲 好 嘅 數據 囉 。 如果 你 有 …… 你 係 用 五個 、 五個 字 。 如果 你 用 …… 淨 係 用 一個 字 , 即 係 叫 所謂 unigram, 你 就 用 一個 字 。 咁 即 係 其實 你 係 計緊 成篇文 有 幾 多個 字 囉 , 即 係 幾 多個 某 一個 字 囉 。 即 係 譬如 有 一百個 「 我 」 字 , 有 十個 「 佢 」 字 咁 樣 , 咁 呢 啲 呢 啲 囉 。 但 係 如果 你 嗰 個 n 越大 啊 , 你 係 bigram、trigram、4-gram, 一路 越 嚟 越 大 嘅 話 呢 , 你 嗰 啲 資料 就 越 嚟 越 少 囉 。 咁 所以 你 係 要 喺 嗰 個 n 同埋 你 有 嘅 輸入 資料 嗰 個 大 細 , 做 一個 平衡 。 噉 3 係 一個 好 常見 嘅 數 囉 , 就 係 。 通常 trigram 都 係 就算 係 英文 同 中文 都 係 …… 都 係 成日 出現 。

以 : 哦 , 噉 假如 你轉 咗 做 4 嘅 話 , 會 有 咩 唔 同 呢 ? 有 咩 後果 呢 ?

苗 : 係 喇 。 4 嘅 話 呢 , 就 即 係 咩 呢 ? 就 即 係 你 要 估下 一個 字 係 咩 呢 , 你 就要 睇 頭 三個 字 。 你 要 睇 前 三個 字 係 乜嘢 , 你 先 可以 決定 到 第四 , 你 先 有 第四個 字 嗰 個 機率 囉 。 如果 你 嗰 個 n 越細 呢 , 你 就 淨 係 睇 前面 更加 少 嘅 字 。 如果 你 係 bigram 呢 , 你 淨 係 根據 前 一個 字 去 推測 下 一個 字 。 即 係 有 少少似 譬如 你 打字 呢 , 如果 你 打 一 啲 比較 舊 嘅 輸入法 啦 , 佢 係 會 逐個 逐個 字 咁 樣去 類似 suggest 畀 你 :「 哦 , 下 一個 字 打 咩 好 啊 ? 」 咁 樣 㗎 嘛 。 手機 好多 時 都 會 囉 。

以 :「 舊 嘅 輸入法 」。

苗 : 係 喇 。 即 係 咁 嗰 啲 就 係 類似 一個 叫做 bigram 嘅 model, 咁 就 係 根據 前 一個 字 , 直接 推測 下 一個 字 。 所以 你 不斷 㩒㩒㩒㩒 中間 呢 , 你 㩒 佢 推測 啲 字 呢 , 你 打出 嚟 嗰 句 嘢 , 其實 都 係 唔 係 好 make sense 㗎 , 都 係 冇 乜 意思 㗎 。

靳 : 冇 乜 意思 。

以 : 哦 ,嗱, 咁 我 哋 廣東話 呢 , 我 哋 啲 逐字 稿 呢 , 就 係 用 方塊字 做 單位 啦 。 咁 如果 換着 係 英文 啊 , 嗰 啲 拼音 語言 嘅 話 , 咁 佢 個 做法 會 有 咩 唔 同 , 即 係 會 係 都 係 用 返 一個 字 元 做 單位 吖 , 定 係 用 成個 word 做 一個 單位 呢 ?

The rest of the transcript is available to Patreon members. Join at: patreon.com/rhapsodyinlingo

RiL Podcast #012: Cloning RiL Podcast RiL Podcast #012: Cloning RiL Podcast RiL Podcast #012: Cloning RiL Podcast

以 : 其實 我 哋 個腦 都 係 電腦 嚟 㗎 。 苗 : 係 啊 , 肉腦 啊 , 我 哋 係 。

以 : 我 哋 係 機械 人 。

靳 : 肉腦 啦 。

以 : 都 有 電 喺 裏面 。

苗 : 有 。

靳 : 有 有 有 。

苗 : 你 啱 。

以 :YES! 我 唔 係 醫生 都 可以 講到 呢 個 。

[jingle]

以 : 歡迎 返到 嚟 《 絮言 . 狂想 》 第十二 集 啊 。 我 係 以色列 。 私はイスラエルです。

苗 : 我 係 三秒 。

靳 : 我 係 靳尼 啊 。

以 : 噉 我 諗 呢 , 大家 一 開始 聽 呢 一集 嘅 時候 呢 , 都 應該 最 緊張 嘅 就 係 , 到底 上 一集 搞 乜 鬼 呢 ? だから:あなたがこのエピソードを最初に聞いたとき、あなたは最も緊張しているべきだと思います、あなたは最後のエピソードで何をしましたか? 噉 …… 噉 唔 知 大家 有 冇 睇 返 我 哋 後來 Facebook 嗰 個 更新 啦 , 噉 就 話 , 哦 , 其實 就 係 愚人節 嘅 一個 笑話 嚟 嘅 。 ...... I don't know if you've seen our last Facebook update, but it's actually a joke for April Fool's Day. ねえ...Facebookの更新に気付いたかどうかはわかりませんが、実際にはエイプリルフールのジョークだと言っておきましょう。 噉 當然 我 哋 呢 一個 嘅 笑話 , 都 非常 非常之 同 語言 有 關係 啦 。 もちろん、私たちのジョークは言語に非常に関連しています。 我 哋 都 精心 佈置 咗 好 耐 嘅 。 丁寧に丁寧にアレンジしました。 但 係 我 哋 而家 講下 先 啦 , 點解 會 有 呢 一個 玩 愚人節 嘅 諗 頭 嘅 呢 ? But let's talk about it first, why do we have an idea of how to spend April Fool's Day? しかし、最初にそれについて話しましょう、エイプリルフールをプレイするというアイデアはどうですか?

苗 : 噉 呢 , 呢 個 愚人節 呢 , 就 好多 地方 都 有 個 習俗 啦 , 就 係 尤其 是 係 一 啲 科技 公司 啦 , 咁 佢 哋 就 好多 時會 喺 愚人節 度 推出 一 啲 搞笑 嘅 嘢 啦 , 或者 係 …… 唔 一定 係 搞笑 , 或者 唔 一定 係 呃 人 嘅 , 有時 係 一 啲 比較 …… 比較 好玩 嘅 一 啲 嘢 啦 。 ミャオ:ええと、エイプリルフールには多くの場所、特にテクノロジー会社に習慣があり、エイプリルフールに面白いものをリリースすることがよくあります。それは...必ずしも面白いとは限りません。必然的に人間、時にはそれは比較です...楽しいこと。 譬如 Google 呢 , 即 係 往年 啦 , 咁 今年 同埋 上年 都 冇 做到 啦 。 Google, for example, did not do it in the past years, and it did not do it this year or the year before that. たとえば、グーグル、つまり前年なので、今年と前年はそれを行うことができませんでした。

以 : 唉 。

苗 : 咁 但 係 往年 呢 ,Google 啊 、 其他 公司 啊 、Amazon 啊 嗰 啲 …… 嗰 啲 公司 呢 , 都 會 去 做 一 啲 得意 嘢 啦 。 譬如 有 一次 係 咩 …… 咩 Google Gnome 呀 , 係 咪 啊 ? 有個 類似 Amazon Echo 咁 嘅 物體 , 咁 就 係 一個 地精 形狀 嘅 , 噉 就 係 …… 就 係 你 可以 擺 喺 個 …… 擺 喺 間 屋 裏面 啊 , 定 係 擺 喺 個 花園 度 , 咁 樣 就 可以 幫 你 解答 問題 噉 樣 , 嗰 啲 奇怪 嘢 囉 。 アマゾンエコーのようなものがあるので、それはゴブリンの形をしたものなので、それは...あなたがそれを置くことができるように...部屋に、それは庭になければなりません、そしてそれはあなたがあなたに答えるのを手伝うのは奇妙です質問。

以 : 我 記得 好似 2014 年 呢 , 佢 喺 Google Maps 上面 整 咗 個 搵 寵物 小精靈 嘅 遊戲 囉 。 I remember that in 2014, he made a game on Google Maps to find a pet elf.

靳 : 啊 , 係 啊 。

以 : 之後 呢 個 就 後來 變成 咗 Pokémon Go 囉 , 係 啊 。

苗 : 哦 。

以 : 嗰 陣 時 我 冇 玩 。 係 啦 , 好衰 啦 , 因為 疫情 關係 而 取消 咗 愚人節 , 連 苦中作樂 都 冇 。 Well, it’s so bad, April Fool’s Day was canceled due to the epidemic, and there is no joy in the bitterness.

苗 : 係 啊 。

以 : 咁 於是 呢 , 都 係 因為 我 哋 幾個 係 比較 鐘意 睇 科技 嘢 嘅 人 啦 , 所以 就 決定 就學 佢 玩 下 呢 啲 嘢 。 Yi: So, it is because some of us are people who like to watch technology, so we decided to learn from her to play these things. 咁 我 哋 呢 一個 笑話 , 係 介乎 整蠱 同埋 笑話 之間 , 我 諗 。 So we're a joke, somewhere between a prank and a joke, I think. 咁 希望 唔 會 整蠱 得 大家 太 緊要 啦 。 So I hope it won't make everyone too nervous.

苗 : 點樣 整蠱 啊 ? Miao: Are you being tricky? 即 係 聽 完 之後 :「 咦 ? In other words, after listening to it, I said, "Huh? 點解 咁 垃圾 嘅 , 呢 集 ? How to explain such rubbish, this episode? 」 噉 樣 ,「 完全 唔 知 噏 乜 啊 ! In this way, "I don't know what to do at all!" 」 靳 :「 點解 聽 唔 明 嘅 , 呢 集 ? Jin: "I don't understand the explanation, which episode?" 」 咁 樣 ,「 我科勞 唔 到 啊 , 你講 啲 嘢 太深 啊 」 噉 樣 。 "It's like, "I can't do it, but what you're talking about is too deep."

以 : 好 混淆 , 係 啊 。 我 見到 有 啲 講 廣東話 , 或者 學 廣東話 學到 咁 上下 嘅 人 呢 , 都 走 嚟 聽 , 之後 就 話 :「 啊 , 好似 返返 到 去 一 開始 學 廣東話 嘅 時候 , 即 係 好似 又 聽 得明 啲 字 , 但 係 又 聽 唔 明 係 講緊 乜嘢 」 噉 樣 。 I saw some people who speak Cantonese, or who have learned Cantonese so much, they came to listen, and then said: "Ah, it seems to go back to the time when I first learned Cantonese. I can hear some words clearly, but I can't understand what is being said." 広東語を話している人や広東語を学んだ人を見て、みんな歩いて聞いて、「ああ、広東語を最初に学んだ時のことだと思います。言葉が聞こえてきそうです。はっきりとは言えますが、言葉がはっきり聞こえません。」

苗 : 係 啊 , 咁 就 解釋 下 做 緊 咩 啦 。 Miao: Yes, let me explain how tight it is. ミャオ:いいえ、それがどれほどきついか説明させてください。 咁 呢 一個 係 一個 完全 係 電腦 gen 出 嚟 嘅 一集 啦 。 So this one is an episode completely produced by computer gen. つまり、これは完全にコンピューター世代のエピソードです。 噉 點樣 gen 呢 , 就 係 用 一個 叫做 n-gram 嘅 …… 嘅 嘢 啦 。 n-gramと呼ばれるものを使用するgenを見てみましょう。 噉 呢 個 嘢 係 …… 如果 有人 聽過 複製 陳雲 呢 , 咁 係 一個 類似 嘅 嘢 嚟 嘅 。 So this thing is... If anyone has heard of copying Chen Yun, this is a similar thing. ここに物語があります...誰かが陳雲をコピーすることを聞いたことがあるなら、それは同様の物語です。 咁 佢 就 係 …… だからそれはただ...

靳 : 複製 陳雲 真 係 好 正 。 Dr. Ken: The reproduction of Chen Yun is really good.

苗 : 噉 類似 搜集 咗 陳雲 喺 Facebook 上面 嘅 所有 嘅 post 啦 , 噉 擺落 一個 文件 度 , 然 之後 呢 , 就 再 去 用 呢 啲 統計 , 咁 樣 就 睇 下 每 一串 字 , 究竟 出現 咗 幾多次 呢 ? MILLER: It's like collecting all of Chen Yun's posts on Facebook, setting up a file, and then using the statistics again to see how many times each string of words has appeared. Miao:これは、Chen YunのFacebookですべての投稿を収集し、ファイルに入れてから、この統計を再度使用するのと似ています。これにより、単語の各文字列が何回表示されるかを確認できます。 咁 就 計返 …… 類似 計返 一個 機率 出 嚟 。 Then count back... It's like counting a probability. だからカウントバック...出てくるチャンスをカウントバックするのと同じです。 咁 再 用 呢 一個 咁 樣 嘅 機率 呢 , 就 再 去 重新 生成 一 啲 字 出 嚟 囉 。 Then, if you want to use the same chance again, you have to generate some words again. もう一度そのチャンスを利用して、単語の再生に行きましょう。 咁 就 可以 生成 到 一 啲 …… 一 啲 新 嘅 陳雲 文章 出 嚟 啦 , 咁 就 係 …… 所以 就 叫做 複製 陳雲 。 咁 我 哋 呢 一個 呢 , 就 差 唔 多 嘅 概念 啦 。 咁 就 ……

靳 : 我 哋 複製 嘅 唔 係 陳雲 啦 。

苗 : 係 喇 。 咁 我 哋 複製 嘅 呢 , 就 係 我 哋 之前 咁 多集 嘅 逐字 稿 啦 。 噉 以色列 好 辛苦 咁 打 咗 好多好多 咁 嘅 字 啦 。 呢 啲 …… 有 幾多 字 啊 ? 係 咪 ……

以 : 十七萬 字 。

苗 : 十七萬 字 喇 , 係 喇 。 好多好多 嘅 字 啦 。

靳 : 嘩 , 獨力 嘅 十七萬 字 。

苗 : 係 啊 , 粒粒皆辛苦 啊 。 MILLER: Relationships, every grain is hard work.

靳 : 真 係 。

苗 :…… 嘅 十七萬 字 。 咁 呢 啲 咁 多 字 呢 , 我 哋 就 三個 三個 字 , 咁樣 為 一個 單位 啦 。 So, we have three words, so we have one unit. キャラクターが多すぎて3人しかいないのでユニットです。 咁 就 去 統計 每 三個 字 , 即 係 究竟 數起 上 嚟 有 幾 多個 呢 ? では、3語ごとに数えましょう。つまり、いくつあるのでしょうか。 然 之後 再 …… 我 哋 再數 嘞 。 そして...もう一度数えましょう。 噉 我 就 嘗試 解釋 下 呢 一個 n-gram 呢 個 嘢 係 點樣 運作 啦 。 So I will try to explain how an n-gram works. それでは、このn-gramシステムがどのように機能するかを説明してみましょう。 即 係 用 一個 n-gram 嘅 叫做 language model 啦 , 即 係 一個 語言 模型 , 去 生成 一篇 嘢 出 嚟 , 係 點樣 嘅 呢 ? That is to say, an n-gram called language model, that is to say, a language model, is used to generate a piece of writing, what is it like? つまり、n-gramは言語モデル、つまり言語モデルと呼ばれ、記事を生成するのですが、どのようなものですか? 咁 我 就 首先 解釋 下 咩 叫做 language model 啦 。 それでは、最初に言語モデルと呼ばれるものについて説明しましょう。 咁 佢 嘅 作用 呢 , 就 係 根據 一句 嘢 , 你 之前 見到 嘅 字 呢 , 就 推測 下 一個 字 係 乜嘢 。 これの機能は、あなたが前に見た単語に基づいて次の単語が何であるかを推測することです。 咁 而 n-gram 呢 , 就 係 其中 一種 language model 喇 。 ええと、n-gramは言語モデルの1つです。 咁 呢 個 係 一個 比較簡單 嘅 language model, 即 係 可能 你 讀 一 啲 比較 入門 嘅 電腦 語言學 嘅 課程 呢 , 都 會 介紹 呢 樣 嘢 嘅 。 これは比較的単純な言語モデルです。つまり、比較的入門的なコンピュータ言語学のコースを読むと、それを紹介します。 咁 譬如 我 哋 個 稿 裏面 呢 , 有 一句 嘢 係 「 今日 天氣 好好 」 咁 樣 啦 。 たとえば、私たちの原稿の1つに、「今日は天気がいい」という文があります。 咁 我 哋 就 三個 、 三個 字 咁 樣去 統計 , 究竟 「 今日 天 」 跟 住 「 日 天氣 」…… それでは、「今日の日」と「今日の天気」という3、3語を頼りにしましょう...

以 :「 天氣 好 」

苗 : 係 喇 , 係 喇 。 咁 呢 幾個 字 , 究竟 出現 咗 幾 多次 啦 。 これらの単語は何回表示されますか? 咁 一路 一路 一路 咁 樣去 統計 。 咁 如果 呢 …… 因為 好 難 去 解釋 , 冇 visual 係 好 難解 釋 嘅 , 呢 樣 嘢 。

以 : 我 哋 手語 都 做到 啦 !

靳 :ok 嘅 !

苗 : 係 嘞 。 噉 你數 咗 咁 多 呢 一 啲 三個 、 三個 字 之後 呢 , 咁 你 就 去 再 將 佢 變成 一個 機率 啦 。 キャラクターの数、1、3、3を数えたら、それをチャンスに変えることができます。 咁 點樣 變 呢 ? 就 係 睇 下 頭 兩個 字 。 如果 頭 兩個 字 係 一樣 嘅 話 呢 , 就當 係 同一 group 啦 。 假設 即 係 篇 文 裏面 有 「 今日 我 」、「 今日 你 」、「 今日 去 」 咁 樣 , 有 三組 唔 同 嘅 字 , 譬如 「 今日 我 」 出現 咗 九十 次 , 跟 住 「 今日 你 」 呢 , 出現 咗 五次 ,「 今日 佢 」 出現 咗 五次 。 咁 嘅 話 呢 , 就 係 你將 呢 幾個 數字 加埋 , 咁 就 係 一百 啦 。 咁 你 就 將 嗰 個數 目 呢 , 就 除 返 一百 。 例如 「 今日 我 」 呢 , 咁 就 係 九十 除 一百 啦 , 咁 就 係 0.9 嘞 。 咁 呢 個數 字 表達 緊 啲 咩 呢 ? 就 係 話 , 只要 你頭 兩個 字 係 「 今日 」 嘅 話 呢 , 後面 一個 字 係 「 我 」 嗰 個 機率 , 就 有 0.9 嘞 , 即 係 90% 喇 。 咁 而 其他 字 呢 , 就 係 分別 係 5% 啦 。 即 係 呢 個例 子 只 係 得 三個 可能性 , 咁 就 冇 其他 可能性 㗎 喇 喎 。 即 係 「 今日 」 之後 呢 , 你 淨 係 可以 講 「 我 」、「 你 」 同埋 「 佢 」。 咁 呢 一個 就 係 n-gram model 嘅 一個 唔 好處 啦 , 就 係 你好 難去 …… 你好 難去 模擬 一 啲 好 複雜 嘅 語言 。 一 啲 你 嗰 個 source 裏面 冇 嘅 嘢 囉 。 即 係 一定 要 出現 過 , 你 先 可以 有 囉 。 咁 除非 你 係 有 做 咗 其他 smoothing 啊 , 類似 咁 樣 嘅 嘢 呢 , 咁 你 先 可以 即 係 解決 到 呢 個 問題 啦 , 叫做 。 噉 但 係 我 哋 就 用 咗 一個 好 簡單 好 簡單 嘅 一個 模型 , 咁 就 去 整 啲 字 出 嚟 。 咁 所以 你 見到 呢 , 聽到 嗰 啲 字 , 如果 大家 係 比較 忠實 少 少 嘅 聽 眾 呢 , 就 會 聽得出 , 係 我 哋 之前 講 過 嘅 嘢 嚟 , 全部 都 係 我 哋 之前 講 過 嘅 嘢 嚟 嘅 。

靳 : 可能 可以 搵 到 係 邊 一集 講 。

苗 : 係 啊 , 係 啊 。

以 : 可以 …… 係 , 可以 估下 、 揾 返出 嚟 。 日光 之下 無新事 。 There is nothing new under the sun.

苗 : 可能 成句 係 新 嘅 。 Miao: Maybe the sentence is new. 但 係 呢 , 如果 你 係 每 三個 、 三個 字 咁 樣 睇 呢 , 係 會 喺 我 哋 以前 嘅 稿 度 出現 過 嘅 。 But, if you look at every three or three words, it will appear in our previous manuscripts. 係 喇 , 咁 呢 個 就 係 我 哋 做 咗 嘅 嘢 。 咁 所以 你 哋 見到 …… 你 見到 有 啲 九 唔 搭 八 , 但 係 又 好似 有少少 make sense 咁 樣 , 咁 就 因為 我 哋 就 揀 咗 三個 字 呢 一個 咁 樣 嘅 window 啦 , 就 聽 落 去 會 比較 有少少 合理 , 但 係 又 唔 知 …… 好似 唔 知講 乜 噉 樣 。

以 : 你 係 點樣 決定 咗 揀 三個 字 㗎 ?

苗 : 三個 字 , 其實 係 一個 …… 其實 都 係 一個 choice 嚟 嘅 啫 。 因為 好多 時 , 如果 英文 嘅 話 呢 , 一 啲 真 係 會 用 呢 啲 language model 嘅 人 呢 , 就 通常 最盡 係 去 到 5-gram 嘅 啫 , 最盡 係 五個 字 嘅 啫 。 咁 因為 再 多 字 呢 , 你 有 一個 …… 你 所 需要 嘅 輸入 嗰 啲 字 呢 , 係 好多好多 好多 嘅 。 即 係 你好 少會 有 一 啲 好 嘅 數據 囉 。 如果 你 有 …… 你 係 用 五個 、 五個 字 。 如果 你 用 …… 淨 係 用 一個 字 , 即 係 叫 所謂 unigram, 你 就 用 一個 字 。 咁 即 係 其實 你 係 計緊 成篇文 有 幾 多個 字 囉 , 即 係 幾 多個 某 一個 字 囉 。 即 係 譬如 有 一百個 「 我 」 字 , 有 十個 「 佢 」 字 咁 樣 , 咁 呢 啲 呢 啲 囉 。 但 係 如果 你 嗰 個 n 越大 啊 , 你 係 bigram、trigram、4-gram, 一路 越 嚟 越 大 嘅 話 呢 , 你 嗰 啲 資料 就 越 嚟 越 少 囉 。 咁 所以 你 係 要 喺 嗰 個 n 同埋 你 有 嘅 輸入 資料 嗰 個 大 細 , 做 一個 平衡 。 噉 3 係 一個 好 常見 嘅 數 囉 , 就 係 。 はい、3が非常に一般的な数字だとしましょう。 通常 trigram 都 係 就算 係 英文 同 中文 都 係 …… 都 係 成日 出現 。 通常、トライグラムは英語と中国語の両方で書かれています...それらはすべて毎日表示されます。

以 : 哦 , 噉 假如 你轉 咗 做 4 嘅 話 , 會 有 咩 唔 同 呢 ? テイク:ああ、4に切り替えた場合の違いは何ですか? 有 咩 後果 呢 ?

苗 : 係 喇 。 4 嘅 話 呢 , 就 即 係 咩 呢 ? 就 即 係 你 要 估下 一個 字 係 咩 呢 , 你 就要 睇 頭 三個 字 。 你 要 睇 前 三個 字 係 乜嘢 , 你 先 可以 決定 到 第四 , 你 先 有 第四個 字 嗰 個 機率 囉 。 如果 你 嗰 個 n 越細 呢 , 你 就 淨 係 睇 前面 更加 少 嘅 字 。 如果 你 係 bigram 呢 , 你 淨 係 根據 前 一個 字 去 推測 下 一個 字 。 即 係 有 少少似 譬如 你 打字 呢 , 如果 你 打 一 啲 比較 舊 嘅 輸入法 啦 , 佢 係 會 逐個 逐個 字 咁 樣去 類似 suggest 畀 你 :「 哦 , 下 一個 字 打 咩 好 啊 ? 」 咁 樣 㗎 嘛 。 手機 好多 時 都 會 囉 。

以 :「 舊 嘅 輸入法 」。

苗 : 係 喇 。 即 係 咁 嗰 啲 就 係 類似 一個 叫做 bigram 嘅 model, 咁 就 係 根據 前 一個 字 , 直接 推測 下 一個 字 。 所以 你 不斷 㩒㩒㩒㩒 中間 呢 , 你 㩒 佢 推測 啲 字 呢 , 你 打出 嚟 嗰 句 嘢 , 其實 都 係 唔 係 好 make sense 㗎 , 都 係 冇 乜 意思 㗎 。

靳 : 冇 乜 意思 。

以 : 哦 ,嗱, 咁 我 哋 廣東話 呢 , 我 哋 啲 逐字 稿 呢 , 就 係 用 方塊字 做 單位 啦 。 咁 如果 換着 係 英文 啊 , 嗰 啲 拼音 語言 嘅 話 , 咁 佢 個 做法 會 有 咩 唔 同 , 即 係 會 係 都 係 用 返 一個 字 元 做 單位 吖 , 定 係 用 成個 word 做 一個 單位 呢 ?

The rest of the transcript is available to Patreon members. Join at: patreon.com/rhapsodyinlingo