GPT中什么tokens是指什么?

0 188
GPT中什么tokens是指什么?GPT 不是适⽤于某⼀⻔语⾔的⼤型语⾔模型,它适⽤于⼏乎所有流⾏的⾃然语⾔。为了能够掌握这么多语⾔,GPT将所有⼈类的语⾔⽂字...

GPT中什么tokens是指什么?

GPT 不是适⽤于某⼀⻔语⾔的⼤型语⾔模型,它适⽤于⼏乎所有流⾏的⾃然语⾔。为了能够掌握这么多语⾔,GPT将所有⼈类的语⾔⽂字分解为tokens(中⽂译名:令牌或者词元,个⼈感觉词元更加诗意)。

Token 就是⾃然语⾔处理的最细粒度。简单点说就是,GPT 的输⼊是⼀个个的 Token,输出也是⼀个个的 Tokentokens可以被认为是单词⽚段。这些tokens并不是在单词开始或结束的地⽅被分割的――tokens可以包括尾随空格甚⾄⼦单词。GPT 的背后原理是将我们输⼊的⽂字转换成 token,然后通过 GPT 模型预测 token,再将 token 转换成⽂字,最后再输出给我们。

GPT中什么tokens是指什么? ChatGPT4.0 ChatGPT GPT tokens 第1张


以下是⼀些有⽤的经验法则,可⽤于了解tokens的⻓度:

1 token ~= 4 chars in English

1 token ~= ¾ words

100 tokens ~= 75 words

或者

1-2 sentence ~= 30 tokens

1 paragraph ~= 100 tokens

1,500 words ~= 2048 tokens

1K tokens对应⼤约是250-300个汉字,600-700个英⽂单词(⼤概统计,不包含中间损耗等随机因素)⼈类⽂字的复杂程度越⾼,所消耗的tokens越⼤。

打赏
收藏
点赞
最后修改时间:
AI副业资源网
上一篇 2024年03月09日 17:31
下一篇 2024年03月10日 21:14

相关文章

发表评论

  • 验证码

评论列表

暂无评论

服务热线

17637547557

工作时间:09:00--17:00

微信客服

微信客服