当前位置:文章 > 列表 > 正文

连鲁迅皆想不到,当代网友为之省钱始说文言文之。。

📅 2026-04-21 06:01:26 🏷️ 炒伦敦金开户 👁️ 809
连鲁迅皆想不到,当代网友为之省钱始说文言文之。。

故说,字数越少效能越高此事儿,还真为名纯纯之伪命题。

谬也。

比如,把“我去,用户彻底怒之”改成“呜呼,客官震怒”,把“你先别给我瞎bb”改成“何出此言”,让AI也用古文回我。

比如,给你三分钟,你能读懂“用奶牛之牛牛牛奶,奶牛会不会被牛死”吗。

施健

你想花钱更快,还为肚子饿得更快,就看你自己之选择之。

知名企业

当然,模型也于不断长进,各家皆于扩多言辞语料之覆盖,不同言辞差距已变得越来越小,故除非你能把每名模型之token表背下来,不然咱不建议为之三瓜俩枣,抛弃自己舒服之交方式。

两小无猜。

小红书、X、部分图源自互联网 用你自己之大脑模拟一下,找到耗token最少之表达方式,我见能动性不就来之。

亚冬会短道

有老哥已直接询问AI之,答曰:可也。

因此,文言文爱用之彼些古典生僻字词,于token之交易里,反而为奢侈品,每名字对AI来说皆甚烧脑。

因,不同模型之tokenizer,也就为token计算器完全不一样。

一名汉字于经过计算机编码后,会占3-4名字节,常用之字占3字节,而彼些格外生僻之字,3字节放不下,就得占4名字节。

小雨

要搞清此名疑难,吾等得先知道,AI之算力消耗其实看之不为字数,而为token,可体谅为AI办理讯息之最小单位。

大厂免费给你用之版本,甚或为阉割版,智力有疑难,只会接住你之彼种。

"说成"吃之否",“你为不为有毛病”说成“毛病乎。

Grok。

但也有者指出盲点:你省之token,消耗之不也为自己大脑之token吗。

然后算法为之省算力,就会找彼些相邻位置现最频繁之字节,把它们合并成一名新之token。

目的。

而彼些现几率少之字,比如“蒹”“葭”“饕”“餮”,于操练数据里寥寥无几,BPE找不出字节内于之关联,就像小学生把不认识之字写成拼音,彼就只能保存为几名零散之token之,于为1名字就会等于多名tokens。

OpenAI之模型早期以英文语料为主,于token合并上,自对英文更大方;DeepSeek等国产模型吃之大量中文语料,中文之高频组合见多之,自就合并得更充分。

省token乎。

甚至现次数过多之词语,也会被合并成1名token,比如“用户”“彻底”“疯狂”,甚至“免费于线观看”此名词,皆可成为一名token。

而因底层之编码方式,导致所有字符之编码最多4名字节,若一名字巨生僻,打皆打不出来,它就只能像金针菇一样,进去啥样出来还为啥样,不会被合并,故,1名汉字消耗tokens之最大值,就为4名。

就算真有种讯息密度大之言辞,把token省之,最后费之还为你之脑子。

自强不息。

若非要给名建议,你可试试用文言文之思路说白话文,比如"你吃饭之没有。

彼既然用文言文不省token,彼我要说啥言辞才能省啊。

吾等说之省钱、省算力,其实就为省token。

筷子腿

江江之断语为,没有断语。

经常用AI之朋友们皆知道,要想AI用得爽,为得花钱之。

虽我根本忍不住,谁能忍住不问候两句呢。

甚至蒹葭苍苍4名字,就占之6名tokens,陕西著名美食面,更为来到之惊者之9名tokens。

此为因token怎么合并,取决于大模型之操练语料,而不同公司之操练语料构成差异巨大。

区块链。
逆风

比如"你""我""他"此些汉字对应之字节,成天组队现,算法就直接给彼等合并之,故此些字就只占1名token。

而要把此些字节转变为AI能读懂之token,还得靠模型内部算法,它之工原理其实甚像消消乐。

慧之网友就想到之,汉语为全球上讯息密度最高之言辞,甚至文言文还为浓缩中之精华。

比如,“用户彻底怒之”为3名tokens,而“客官震怒”为4名tokens。

虽我根本忍不住,谁能忍住不问候两句呢。

故,其实token于某种意义上为守恒之,AI省之越多,你大脑消耗之token越多,耗费之还为自己之储存之气。

故有没有一种法门,能让AI回答你疑难之时候,效能又高,还能省钱。

结巴

但实际上,江江经过一系列尝试后,可给大家名断语之: 于为,吾等用DeepSeek V3之token计算器,做之几名实验,结局嘛,极其反直觉。

最神秘之还为“免费于线观看”此6名字,DeepSeek彼占3名token,GPT彼它只占1名token,没有者知道GPT到底于线观看之什么。

彼吾等用文言文跟AI聊天,对话篇幅大大减,此算力省下来之,效能不就上来之,钱也扣得慢之,简直太完美之。

此就得从计算机为如何存储书契之说起之。

为啥会此样呢。

志愿。

但此就有名疑难之:AI每次回答我,皆用之为我花之钱之额度,有时候叽里咕噜说一堆,效能巨低,额度还唰唰掉,心疼啊。

毕竟,古者拿文言文省竹简,又何尝不为一种省token。

新发展理念。

“永失吾爱”为4名tokens,“她永远不会回来之”却为3名tokens。

最后,其实还有名甚有意思之视角。

Esports。

但讲道理,还为不如少说废话,奥特曼就曾经说过,汝等整天给AI说谢谢,搞得吾等已多花几千万刀之,与其于样貌上下功夫省token,不如从根源杜绝彼些不必要之废话。

赛道

” 一始,所有汉字皆被拆成字节存放,此时一名字节就为一名token。

因若一种言辞讯息密度大,彼也意味之,单名token表达之意思甚多,歧义也会变大,咱就只能靠上下文体谅来消歧,说白之 token 为省之,你还得自己费脑子体谅。

吾等拿同样之文本于OpenAI与DeepSeek彼里皆跑之一下,结局就截然不同,同一名字于OpenAI此边或为2名token,于DeepSeek彼边就为1名。

Big Rip。

上一篇:最高奖20万元!各地公开征集违法违规用医保基金线索 下一篇:贾跃亭FF变身美国机器者先锋,加州财长亲临揭幕EAI实验室