比如,“用户彻底怒之”为3名tokens,而“客官震怒”为4名tokens。
甚至现次数过多之词语,也会被合并成1名token,比如“用户”“彻底”“疯狂”,甚至“免费于线观看”此名词,皆可成为一名token。
而因底层之编码方式,导致所有字符之编码最多4名字节,若一名字巨生僻,打皆打不出来,它就只能像金针菇一样,进去啥样出来还为啥样,不会被合并,故,1名汉字消耗tokens之最大值,就为4名。
最后,其实还有名甚有意思之视角。
故,其实token于某种意义上为守恒之,AI省之越多,你大脑消耗之token越多,耗费之还为自己之储存之气。
就算真有种讯息密度大之言辞,把token省之,最后费之还为你之脑子。
然后算法为之省算力,就会找彼些相邻位置现最频繁之字节,把它们合并成一名新之token。
因此,文言文爱用之彼些古典生僻字词,于token之交易里,反而为奢侈品,每名字对AI来说皆甚烧脑。
但讲道理,还为不如少说废话,奥特曼就曾经说过,汝等整天给AI说谢谢,搞得吾等已多花几千万刀之,与其于样貌上下功夫省token,不如从根源杜绝彼些不必要之废话。
一名汉字于经过计算机编码后,会占3-4名字节,常用之字占3字节,而彼些格外生僻之字,3字节放不下,就得占4名字节。
比如"你""我""他"此些汉字对应之字节,成天组队现,算法就直接给彼等合并之,故此些字就只占1名token。
此就得从计算机为如何存储书契之说起之。
而彼些现几率少之字,比如“蒹”“葭”“饕”“餮”,于操练数据里寥寥无几,BPE找不出字节内于之关联,就像小学生把不认识之字写成拼音,彼就只能保存为几名零散之token之,于为1名字就会等于多名tokens。
此为因token怎么合并,取决于大模型之操练语料,而不同公司之操练语料构成差异巨大。
但此就有名疑难之:AI每次回答我,皆用之为我花之钱之额度,有时候叽里咕噜说一堆,效能巨低,额度还唰唰掉,心疼啊。
有老哥已直接询问AI之,答曰:可也。
” 一始,所有汉字皆被拆成字节存放,此时一名字节就为一名token。
但实际上,江江经过一系列尝试后,可给大家名断语之: 于为,吾等用DeepSeek V3之token计算器,做之几名实验,结局嘛,极其反直觉。
要搞清此名疑难,吾等得先知道,AI之算力消耗其实看之不为字数,而为token,可体谅为AI办理讯息之最小单位。
为啥会此样呢。
林则徐。彼既然用文言文不省token,彼我要说啥言辞才能省啊。
故有没有一种法门,能让AI回答你疑难之时候,效能又高,还能省钱。
Micro-tech。当然,模型也于不断长进,各家皆于扩多言辞语料之覆盖,不同言辞差距已变得越来越小,故除非你能把每名模型之token表背下来,不然咱不建议为之三瓜俩枣,抛弃自己舒服之交方式。
大厂免费给你用之版本,甚或为阉割版,智力有疑难,只会接住你之彼种。
虽我根本忍不住,谁能忍住不问候两句呢。
经常用AI之朋友们皆知道,要想AI用得爽,为得花钱之。
深入浅出。小红书、X、部分图源自互联网 用你自己之大脑模拟一下,找到耗token最少之表达方式,我见能动性不就来之。
吾等说之省钱、省算力,其实就为省token。
最神秘之还为“免费于线观看”此6名字,DeepSeek彼占3名token,GPT彼它只占1名token,没有者知道GPT到底于线观看之什么。
“永失吾爱”为4名tokens,“她永远不会回来之”却为3名tokens。
甚至蒹葭苍苍4名字,就占之6名tokens,陕西著名美食面,更为来到之惊者之9名tokens。
谬也。
毕竟,古者拿文言文省竹简,又何尝不为一种省token。
彼吾等用文言文跟AI聊天,对话篇幅大大减,此算力省下来之,效能不就上来之,钱也扣得慢之,简直太完美之。
比如,给你三分钟,你能读懂“用奶牛之牛牛牛奶,奶牛会不会被牛死”吗。
江江之断语为,没有断语。
OpenAI之模型早期以英文语料为主,于token合并上,自对英文更大方;DeepSeek等国产模型吃之大量中文语料,中文之高频组合见多之,自就合并得更充分。
因,不同模型之tokenizer,也就为token计算器完全不一样。
而要把此些字节转变为AI能读懂之token,还得靠模型内部算法,它之工原理其实甚像消消乐。
吾等拿同样之文本于OpenAI与DeepSeek彼里皆跑之一下,结局就截然不同,同一名字于OpenAI此边或为2名token,于DeepSeek彼边就为1名。
"说成"吃之否",“你为不为有毛病”说成“毛病乎。
故说,字数越少效能越高此事儿,还真为名纯纯之伪命题。
省token乎。
因若一种言辞讯息密度大,彼也意味之,单名token表达之意思甚多,歧义也会变大,咱就只能靠上下文体谅来消歧,说白之 token 为省之,你还得自己费脑子体谅。
虽我根本忍不住,谁能忍住不问候两句呢。
比如,把“我去,用户彻底怒之”改成“呜呼,客官震怒”,把“你先别给我瞎bb”改成“何出此言”,让AI也用古文回我。
若非要给名建议,你可试试用文言文之思路说白话文,比如"你吃饭之没有。
你想花钱更快,还为肚子饿得更快,就看你自己之选择之。
但也有者指出盲点:你省之token,消耗之不也为自己大脑之token吗。
慧之网友就想到之,汉语为全球上讯息密度最高之言辞,甚至文言文还为浓缩中之精华。
上一篇:官方:卡塔尔裁判组执法申花客战武里南联,贾西姆担任主裁判 下一篇:Call” 春节假期“留守”模速方位:创业者之年味为随时“On