[1] "生成型預訓練變換模型 3 (英語: Generative Pre-trained Transformer 3 ,簡稱 GPT-3 )是一個 自迴歸 語言模型 ,目的是為了使用 深度學習 生成人類可以理解的自然語言 [1] 。. GPT-3是由在 舊金山 的 人工智慧 公司 OpenAI 訓練與開發,模型設計基於 谷歌 開發的 變換語言模型 。. GPT-3的 神經網路 包含1750億個參數,需要800GB來存儲, 為有史以來參數最多的神經網路模型 [2] 。. 該模型在 ..."
URL: https://zh.wikipedia.org/zh-tw/GPT-3

[2] "Transformer模型的基本構建單元是縮放點積注意力(scaled dot-product attention)單元。. 當一個句子被傳遞到一個Transformer模型中時,可以同時計算所有標記互相之間的注意力權重。. 注意力單元為上下文中的每個標記生成嵌入,其中包含有關標記本身的資訊以及由注意力權重加權得到的其他相關標記的資訊。. 對於每個注意力單元,Transformer模型學習三個權重矩陣,分別為查詢 ..."
URL: https://zh.wikipedia.org/zh-tw/Transformer%E6%A8%A1%E5%9E%8B

[3] "Transformer 是 2017 年推出的深度學習模型,主要用於自然語言處理領域(NLP)。. 像遞歸神經網絡(RNN)一樣,Transformer 旨在處理連續資料(例如自然語言中的句子),以執行翻譯和文本摘要之類的任務。. 但是,與 RNN 不同,Transformer 不需要依照順序處理資料。. 例如,如果輸入數據是自然語言語句,則 Transformer 不需要按造順序處理文字。. 由於此功能,與 RNN 相比,Transformer ..."
URL: https://ckip.iis.sinica.edu.tw/project/language_model

[4] "Sentence Transformers 使用方法介紹. 近三年來在NLP(自然語言處理)的研究領域中,大多數的Model都跟一個名字有關,那就是BERT。. BERT的威力大多數人一直都知道,但是其實並不多人使用過它,最主要有2個困難. BERT跟以往的NLP model(像是RNN、或是Tfidf+ML model) 使用起來相對麻煩 ,大部分ML..."
URL: https://axk51013.medium.com/%E5%BF%AB%E9%80%9F%E4%BD%BF%E7%94%A8%E8%B6%85%E5%BC%B7nlp-model-bert-db9c2a331b0f

[5] "Pre-trained Language Model. 1. 初始化. from transformers import AutoModel, BertModel model_bert = BertModel.from_pretrained(bert-base-cased) model_other = AutoModel.from_pretrained(emilyalsentzer/Bio_ClinicalBERT) 與 Tokenizer 的機制相同, Transformers 中也包含了各種預先定義好的 Model (例如 BertModel ),以及方便使用其他開源模型的泛用Model ( AutoModel )。."
URL: https://www.minglunwu.com/notes/2020/transformers-tutorial.html

[6] "簡介. NLP(Natural Language Preprocessing)又稱為自然語言處理,由於工作專案中需要處理跨語言語料的問題(e.g. 文本當中包含了英文、法文、德文),因此開啟了 Cross-Lingual Word Embedding(跨語言詞嵌入) 的研究領域,Word embedding 是將字詞映射到一個向量空間,是一種 Word representation 的方式。. 下面是 2018 年自從 BERT 問世以來,與預訓練語言模型相關的代表性工作,本篇設定為跨 ..."
URL: https://tw.alphacamp.co/blog/nlp-cross-lingual-word-embedding-models

[7] "一句话,语言模型是这样一个模型: 对于任意的词序列,它能够计算出这个序列是一句话的概率 。. 举俩例子就明白了,比如词序列A:知乎|的|文章|真|水|啊,这个明显是一句话,一个好的语言模型也会给出很高的概率,再看词序列B:知乎|的|睡觉|苹果|好快,这明显不是一句话,如果语言模型训练的好,那么序列B的概率就很小很小。. 大概知道了语言模型是怎么 ..."
URL: https://zhuanlan.zhihu.com/p/32292060

[8] "關於Transformer網路上可以學習的資源很多,在 Tensorflow官網 也有非常詳細的介紹。. 回到GPT-2,模型本身是基於Transformer的Decoder ,對layer normalization以及residual layer的初始化稍作修改。. 訓練使用從800萬個網頁爬來的WebText資料集,容量高達40 GB。. 模型的參數量也來到驚人的15億之多,要知道,在差不多時間點發表的BERT-Large參數量也「只有」3.4億而已 (不得不說,貧窮 ..."
URL: https://edge.aif.tw/chinese-text-generation-using-gpt-2-and-an-overview-of-gpt-3/

[9] "自注意力機制有三大主角: Query, Key, Value ,分別表示用來匹配的值、被匹配的值、以及抽取出來的資訊。. 接著詳細來介紹自注意力機制的運算細節, Input x 經由矩陣 W 轉換成 Embedding a ,乘以三個不同的矩陣得到 Query q, Key k, Value v ,也就是說每個輸入的詞,都會同時被轉換成 q, k, v 三種向量。. 接著,我們將每個 Query q 對每個 Key k 做 Attention,也就是求兩者的內積,並將內 ..."
URL: https://tw.coderbridge.com/series/2ec9cf0af3f74ed99371952f4849ae33/posts/5c495ca5e46e40bc98ff623e87919c9a

[10] "GPT 採用 Transformer 作為解碼器(decoder),Transformer 由 Google Brain 所推出,主要是處理自然語言的順序輸入資料,用於翻譯、文字摘要等任務上,而在這邊,編碼器的意義是透過輸入逐一生成出結果,所以才叫做生成式預訓練。"
URL: https://blog.infuseai.io/gpt-model-past-introduction-1e2558462e41