欧美色操,一本久久久,超碰在线1,yourporn国产精品,久久午夜夜伦鲁鲁片不卡,热99在线,视频国产精品

大模型的token究竟是什么?一文讀懂!

摘要:在大模型的語(yǔ)境中,token是一個(gè)基本的數(shù)據(jù)處理單元,它可以是一個(gè)單詞、一個(gè)字符,或者是一個(gè)子詞等,以下從其定義、作用及常見(jiàn)的token劃分方式等方面進(jìn)行具體介紹:

公眾號(hào)/招文袋  作者/龍只

在大模型的語(yǔ)境中,token是一個(gè)基本的數(shù)據(jù)處理單元,它可以是一個(gè)單詞、一個(gè)字符,或者是一個(gè)子詞等,以下從其定義、作用及常見(jiàn)的token劃分方式等方面進(jìn)行具體介紹:

定義:簡(jiǎn)單來(lái)說(shuō),token是對(duì)文本進(jìn)行分割后的最小單元。大模型在處理文本時(shí),無(wú)法直接處理人類(lèi)自然語(yǔ)言中的文字,需要將文本拆分成一個(gè)個(gè)的token,以便模型能夠理解和處理。例如,對(duì)于句子 “歡迎關(guān)注訂閱招文袋公眾號(hào)”,可以將其拆分成多個(gè)token:“歡迎”“關(guān)注”“訂閱”“招文袋”“公眾號(hào)”。

作用將文本數(shù)字化:把自然語(yǔ)言文本轉(zhuǎn)化為模型可以處理的數(shù)字向量形式。每個(gè)token會(huì)被映射為一個(gè)唯一的數(shù)字編號(hào),模型通過(guò)處理這些數(shù)字來(lái)學(xué)習(xí)語(yǔ)言的模式和規(guī)律。如在一個(gè)簡(jiǎn)單的詞匯表中,“歡迎”可能被編碼為1,“關(guān)注”編碼為2,“訂閱”編碼為3,“招文袋”編碼為4,“公眾號(hào)”編碼為5。這樣句子 “歡迎關(guān)注訂閱招文袋公眾號(hào)”就可以表示為 [1, 2, 3,4,5],便于模型進(jìn)行計(jì)算和分析。

控制模型輸入輸出長(zhǎng)度:模型處理的token數(shù)量是有限制的,通過(guò)對(duì)文本進(jìn)行token化,可以將輸入文本截?cái)嗷蜓a(bǔ)齊到合適的長(zhǎng)度,使模型能夠有效地處理。例如,某模型的輸入長(zhǎng)度限制為512個(gè)token,對(duì)于較長(zhǎng)的文本,就需要截?cái)喽嘤嗖糠郑粚?duì)于較短的文本,可能需要添加特殊的填充token,使其達(dá)到規(guī)定長(zhǎng)度。

提高語(yǔ)言理解精度:將文本細(xì)分為token后,模型可以更精確地捕捉語(yǔ)言中的語(yǔ)義和語(yǔ)法信息。比如,對(duì)于一些具有多種含義的詞,通過(guò)上下文的其他 token,模型能更準(zhǔn)確地判斷其在具體語(yǔ)境中的意思。

常見(jiàn)的token劃分方式單詞級(jí)別:將文本按照空格等分隔符拆分成多個(gè)單獨(dú)的詞匯作為token。如 “加入招文袋知識(shí)星球一起學(xué)習(xí)AI” 會(huì)被拆分為 “加入”“招文袋”“知識(shí)星球”“一起” “學(xué)習(xí)”“AI”六個(gè)token。這種方式簡(jiǎn)單直接,但對(duì)于一些復(fù)雜的語(yǔ)言現(xiàn)象,如復(fù)合詞、詞的變形等處理可能不夠精細(xì)。

字符級(jí)別:把文本中的每個(gè)字符都作為一個(gè)token。例如,“關(guān)注招文袋” 會(huì)被拆分為“關(guān)”“注”“招”“文”“袋”五個(gè)token。字符級(jí)別的token化可以處理任何未知的詞匯,但會(huì)導(dǎo)致輸入序列過(guò)長(zhǎng),增加模型的計(jì)算量和訓(xùn)練難度。

子詞級(jí)別:結(jié)合了單詞級(jí)別和字符級(jí)別的優(yōu)點(diǎn),將單詞拆分成更小的子詞單元。例如,“招文袋知識(shí)星球” 可能被拆分成 “招文”“袋”“知識(shí)”“星球”四個(gè)token。這種方式既能處理一些罕見(jiàn)詞和復(fù)合詞,又能保持相對(duì)合理的token數(shù)量和序列長(zhǎng)度。

如何計(jì)算token的數(shù)量?

計(jì)算token數(shù)量的方法會(huì)因tokenization的方式不同而有所差異,常見(jiàn)的有基于空格或標(biāo)點(diǎn)符號(hào)的簡(jiǎn)單統(tǒng)計(jì)、基于預(yù)訓(xùn)練模型的工具包統(tǒng)計(jì)、基于字符的統(tǒng)計(jì)等方法,以下是具體介紹:

基于空格和標(biāo)點(diǎn)符號(hào)的簡(jiǎn)單統(tǒng)計(jì)

對(duì)于以單詞為token的情況,可以通過(guò)統(tǒng)計(jì)文本中的空格和標(biāo)點(diǎn)符號(hào)來(lái)大致計(jì)算token數(shù)量。例如,對(duì)于文本 “知識(shí)星球名:招文袋 星球號(hào):75873546。”,可以通過(guò)計(jì)算空格和標(biāo)點(diǎn)符號(hào)的數(shù)量來(lái)確定 token 的數(shù)量。一般來(lái)說(shuō),空格將單個(gè)詞匯分隔開(kāi),標(biāo)點(diǎn)符號(hào)也可以作為分隔的標(biāo)志。在這個(gè)例子中,有四個(gè)token,分別是“知識(shí)星球名”“招文袋”“星球號(hào)”“75873546”。不過(guò)這種方法對(duì)于一些復(fù)雜的語(yǔ)言現(xiàn)象可能會(huì)不準(zhǔn)確。

基于預(yù)訓(xùn)練模型的工具包統(tǒng)計(jì)

使用Hugging Face(一個(gè)專(zhuān)注于自然語(yǔ)言處理的開(kāi)源社區(qū))的tokenizers庫(kù):許多預(yù)訓(xùn)練語(yǔ)言模型都有相應(yīng)的tokenizer工具,以Hugging Face的transformers庫(kù)為例,它提供了各種預(yù)訓(xùn)練模型的tokenizer,可以方便地對(duì)文本進(jìn)行token化并計(jì)算token數(shù)量。如對(duì)于BERT模型(一種語(yǔ)言表示模型),可以使用BertTokenizer(對(duì)文本進(jìn)行分詞和編碼的工具)來(lái)處理文本。

使用AllenNLP(一個(gè)自然語(yǔ)言處理的模型框架)的tokenizers:AllenNLP也提供了豐富的自然語(yǔ)言處理工具,包括tokenizer??梢允褂肧pacyTokenizer或WordTokenizer等對(duì)文本進(jìn)行處理和 token 數(shù)量計(jì)算。

基于字符的統(tǒng)計(jì)

如果是基于字符的tokenization,那么直接統(tǒng)計(jì)文本中的字符數(shù)量即可。例如,對(duì)于文本 “知識(shí)星球名:招文袋”,字符數(shù)量為8,即token數(shù)量為8。但需要注意一些特殊情況,如是否將空格、標(biāo)點(diǎn)符號(hào)等也算作token。如果要將空格也算作token,那么 “知識(shí)星球名:招文袋” 的token數(shù)量就是9。

基于特定規(guī)則的統(tǒng)計(jì)

對(duì)于一些特定的領(lǐng)域或任務(wù),可能會(huì)有自定義的token定義和計(jì)算規(guī)則。例如,在處理代碼時(shí),可以將每個(gè)關(guān)鍵字、變量名、運(yùn)算符等作為一個(gè) token(小白不用處理代碼,了解即可)。

最后,簡(jiǎn)單直白總結(jié)如下:

- token定義:大語(yǔ)言模型接收到文字后,分詞器將其切成的小塊就是token,它可以是單個(gè)漢字、詞語(yǔ)、短語(yǔ)、標(biāo)點(diǎn)符號(hào)、單詞或詞綴等。大模型輸出文字時(shí)也是逐個(gè)token生成,所以看起來(lái)像打字。

- token存在的原因:類(lèi)比人腦處理信息方式,為提高效率、節(jié)省腦力,人腦常把有意義的詞語(yǔ)或短語(yǔ)作為整體對(duì)待,人工智能也借鑒了這一思路,通過(guò)分詞器把大段文字拆解成大小合適的token。

- 分詞器分詞方法:分詞器通過(guò)統(tǒng)計(jì)大量文字,把經(jīng)常一起出現(xiàn)的組合(如“招文袋” )、單個(gè)常用字(如“請(qǐng)”)、常見(jiàn)字母組合(如“ing” )、標(biāo)點(diǎn)符號(hào)等,分別打包成token,配上編號(hào),形成龐大的token表。大模型輸入和輸出時(shí),處理的是token編號(hào),再由分詞器轉(zhuǎn)換為人類(lèi)可看懂的內(nèi)容。

- token的作用及計(jì)費(fèi)方式:token是大模型理解和生成文字的基礎(chǔ),大模型通過(guò)計(jì)算token之間的關(guān)系推算下一個(gè)可能的token。幾乎所有大模型公司按token數(shù)量計(jì)費(fèi),因?yàn)槠鋵?duì)應(yīng)背后的計(jì)算量。

這里有些AI大模型說(shuō)是免費(fèi),其實(shí)是免費(fèi)一部分token,超過(guò)后就要收費(fèi)。比如,有平臺(tái)就出了政策,說(shuō)新注冊(cè)或者拉新會(huì)員注冊(cè)就免費(fèi)送你50萬(wàn)token??粗鴶?shù)字好像很多都用不完的樣子,但其實(shí)如果天天用的話(huà),幾天也就用沒(méi)了。

- 不同模型分詞差異:不同模型分詞結(jié)果不同,如“請(qǐng)關(guān)注訂閱招文袋公眾號(hào)”在DeepSeek和其他模型里分詞結(jié)果不同,所以分詞的數(shù)量也就不同了。此外,token在人工智能領(lǐng)域外也有出現(xiàn),但含義不同。

就說(shuō)到這里,如果耐心看完,也就對(duì)token的概念基本清晰無(wú)誤了。

#誠(chéng)意推薦#需要下載和及時(shí)了解學(xué)習(xí)人工智能的小伙伴們,可以加入我們的招文袋知識(shí)星球社群,最新最全的學(xué)習(xí)資料,我們會(huì)優(yōu)先分享至星球社群內(nèi),加入即可下載閱覽全部報(bào)告。AI時(shí)代,加入我們,一起學(xué)習(xí),共同進(jìn)步!

640 (1)

星球內(nèi)部分學(xué)習(xí)資料(持續(xù)更新中)

北京大學(xué)AI教程第一版-DeepSeek提示詞工程和落地場(chǎng)景.pdf-頁(yè)面提取.pdf

北京大學(xué)AI教程第二版-DeepSeek與AIGC應(yīng)用.pdf

北京大學(xué)AI教程第三版-DeepSeek-R1及類(lèi)強(qiáng)推理模型開(kāi)發(fā)解讀.pdf

北京大學(xué):DeepSeek-R1、Kimi 1.5及類(lèi)強(qiáng)推理模型開(kāi)發(fā)解讀報(bào)告.pdf

清華大學(xué)第一版:DeepSeek從入門(mén)到精通.pdf

清華大學(xué)第二版:DeepSeek如何賦能職場(chǎng)應(yīng)用.pdf

清華大學(xué)第三版:普通人如何抓住DeepSeek紅利.pdf

清華大學(xué)第四版:DeepSeek+DeepResearch 讓科研像聊天一樣簡(jiǎn)單.pdf

清華大學(xué)第五版:DeepSeek與AI幻覺(jué).pdf

清華大學(xué)第六版:AIGC發(fā)展研究3.0版.pdf

清華大學(xué):AIGC理論與實(shí)踐2025-AIGC如何幫助工作和學(xué)習(xí).pdf

普通人的AI通識(shí)課-第一章(1)什么是 AI? 

普通人的AI通識(shí)課-第一章(2)AI發(fā)展簡(jiǎn)史 

普通人的AI通識(shí)課-第一章(3)輕松讀懂 AI 技術(shù):開(kāi)啟智能世界大門(mén)  ...

50 個(gè)常用的 DeepSeek提示詞

湖南大學(xué):我們?cè)撊绾慰创鼶eepSeek.pdf

DeepSeek_VL2_paper.pdf

DeepSeek_V3.pdf

DeepSeek_R1.pdf

112頁(yè)!DeepSeek+7大場(chǎng)景+50大案例+全套提示詞+從入門(mén)到精通干貨-覺(jué)醒學(xué)院xAI流量坊

詳解DeepSeek:+模型訓(xùn)練、優(yōu)化及數(shù)據(jù)處理的技術(shù)精髓-km

浙江大學(xué)2025年DeepSeek行業(yè)應(yīng)用案例集解鎖智能變革密碼153頁(yè)

DeepSeek模型優(yōu)勢(shì):算力、成本角度解讀報(bào)告.pdf

大模型的token究竟是什么?一文讀懂!

給小伙伴們推薦幾個(gè)適合AI初學(xué)者的學(xué)習(xí)平臺(tái)

2024年AI工具類(lèi)應(yīng)用盤(pán)點(diǎn)報(bào)告.pdf

DeepSeek核心十問(wèn)十答.pdf

DeepSeek自學(xué)手冊(cè):從理論到實(shí)踐.pdf

浙江大學(xué):DeepSeek行業(yè)應(yīng)用案例集.pdf

DeepSeek中小學(xué)生使用手冊(cè).pdf

DeepSeek入門(mén)寶典-行業(yè)應(yīng)用篇.pdf

DeepSeek入門(mén)寶典-個(gè)人使用篇.pdf

DeepSeek入門(mén)寶典-技術(shù)解析篇.pdf

廈門(mén)大學(xué)科普 PPT:大模型概念、技術(shù)與應(yīng)用實(shí)踐(140頁(yè))

100種利用AI賺錢(qián)的方法!

AI-R-SDLayer AI就緒的安全數(shù)據(jù)通層白皮書(shū)

14個(gè)好用且低門(mén)檻的工具,涵蓋音頻、視頻、字幕、簡(jiǎn)歷、摳圖、搜索等領(lǐng)域,均為自用推薦

穩(wěn)定使用 DeepSeek 的工具

吳偉:進(jìn)階版提示詞更能提高效果, 怎么讓DeepSeek更好用?

吳偉:用AI做副業(yè),有這幾個(gè)大的方向

DeepSeek 加剪映,做出個(gè)人的專(zhuān)屬數(shù)字人

吳飛教授《回望AI三大主義與加強(qiáng)通識(shí)教育》

陳文智教授《Chatting or Acting?——DeepSeek 的突破邊界與 “浙大先生” 的未來(lái)圖景》

13個(gè)自媒體平臺(tái)的區(qū)別及三大流量平臺(tái)現(xiàn)狀

怎樣增強(qiáng)我們對(duì)AI生成內(nèi)容真實(shí)性和可靠性的辨別能力?

怎樣平衡AI幻覺(jué)創(chuàng)意靈感的利弊?

如何利用AI幻覺(jué)帶來(lái)的創(chuàng)意靈感?

普通人究竟有沒(méi)有必要本地部署AI?

馬斯克發(fā)布的 AI 模型Grok3和國(guó)產(chǎn)大模型DeepSeek究竟誰(shuí)更厲害?

ChatGPT究竟有沒(méi)有中文版本的官方應(yīng)用下載?

DeepSeek 最常用九大類(lèi)提示詞及典型示例(覆蓋全行業(yè)主流應(yīng)用場(chǎng)景)

AI創(chuàng)作短視頻、數(shù)字人合成、語(yǔ)音合成的方法(保姆級(jí)教程)

DeepSeek、Kimi和豆包三個(gè)AI軟件的優(yōu)缺點(diǎn)和使用區(qū)別

通過(guò)AI生成視頻短片的幾種方法

AI輔助EXCEL做數(shù)據(jù)分析的方法

AI直接或輔助生成各類(lèi)短中長(zhǎng)文案的方法

微信接入deepseek后,將對(duì)我們的工作生活帶來(lái)什么變化

人工智能大模型賦能數(shù)字化轉(zhuǎn)型新范式.pdf

九紫離火運(yùn)來(lái)臨,投資哪些行業(yè)前景最被看好?

AIGC (生成式人工智能) 的基本概念及實(shí)用價(jià)值

deepseek最常用的七種提示詞樣例

抖音快速起號(hào),年入百萬(wàn)的方法秘籍!

30張可以直接拿去用的情感美文小紅書(shū)封面

新媒體領(lǐng)域最容易持續(xù)爆火的內(nèi)容是什么?

如何使用deepseek高效提問(wèn)?

怎么認(rèn)識(shí)即將全面到來(lái)的AI時(shí)代?

AI會(huì)取代哪些行業(yè)?

DeepSeek 為什么總是顯示服務(wù)器繁忙,請(qǐng)稍后再試?

編輯/趙俊陽(yáng)
未標(biāo)明由印象慶陽(yáng)網(wǎng)(www.domenalius.com)原創(chuàng)的文章,均為公益轉(zhuǎn)載或由網(wǎng)民自行上傳發(fā)布。網(wǎng)站所有文章均不代表我站任何觀點(diǎn),請(qǐng)大家自行判斷閱讀。文章內(nèi)容包括圖片、音視頻等如有侵犯您的合法權(quán)益,請(qǐng)及時(shí)聯(lián)系我站刪除。感謝理解,致敬原創(chuàng)!站務(wù)郵箱:931548454@qq.com

您可能感興趣的文章