https://t.me/s/moreality🌐 一些本人的碎碎念,汇聚了几个主要的日常分享渠道📝 内容包括但不限于:🏃 日常生活,👨💻 工具分享,📖 书影音,体育赛事(⚽️曼城球迷)💡 所有内容均为在曾经某一时刻的观点。
#bb
支持账号系统的 cursor 居然连配置同步的能力都没有.
账号就是用来开通 API 权限的吗😂
● https://forum.cursor.com/t/sync-of-keybindings-and-settings/31/40
via Memos
支持账号系统的 cursor 居然连配置同步的能力都没有.
账号就是用来开通 API 权限的吗😂
● https://forum.cursor.com/t/sync-of-keybindings-and-settings/31/40
via Memos
#bob #plugin
简单搞了个 bob -> 欧路词典的插件: 在 https://github.com/yuhaowin/wordbook-bob-plugin 的基础上添加了一个 自动单词验证 的功能.
https://github.com/Lincest/wordbook-bob-plugin
via Memos
简单搞了个 bob -> 欧路词典的插件: 在 https://github.com/yuhaowin/wordbook-bob-plugin 的基础上添加了一个 自动单词验证 的功能.
https://github.com/Lincest/wordbook-bob-plugin
via Memos
#obsidian #tools
● https://github.com/Canna71/obsidian-janitor
一个 obsidian 用于清理孤立文件、空文件、大文件和过期笔记的插件
via Memos
● https://github.com/Canna71/obsidian-janitor
一个 obsidian 用于清理孤立文件、空文件、大文件和过期笔记的插件
via Memos
#mark
防止使用 US 节点时, Google 搜索时的时区错乱情况:
● https://www.google.com/preferences?hl=zh-CN⟨=1&prev=https://www.google.com/preferences?hl%3Dzh-CN
选择 搜索结果区域 为 香港 or 新加坡 (东 8 区)
via Memos
防止使用 US 节点时, Google 搜索时的时区错乱情况:
● https://www.google.com/preferences?hl=zh-CN⟨=1&prev=https://www.google.com/preferences?hl%3Dzh-CN
选择 搜索结果区域 为 香港 or 新加坡 (东 8 区)
via Memos
#llm #leaderboard
Artificial Analysis LLM Leaderboard
Artificial Analysis 的评测方法注重实际应用场景,尤其是 API 调用的性能表现,这与 LMSYS Chatbot Arena 等更注重输出质量的评测形成互补
https://artificialanalysis.ai/leaderboards/models
via Memos
Artificial Analysis LLM Leaderboard
Artificial Analysis 的评测方法注重实际应用场景,尤其是 API 调用的性能表现,这与 LMSYS Chatbot Arena 等更注重输出质量的评测形成互补
https://artificialanalysis.ai/leaderboards/models
via Memos
#llm
Bilibili 技术: 大模型推理加速的研究与分析
加速方案的主要思路
1 - 算子层优化:
● Operator Fusion:通过将多个算子融合为一个复杂算子,减少内存访存次数,加快计算速度。
● High-Performance Acceleration Library:使用如ONNX Runtime、TVM、cuBLAS、FasterTransformer等高性能加速库,优化常见的神经网络算子的计算性能。
● Layer Fusion:在多头注意力机制中,将所有操作合并到一个计算核中,减少数据传输并提高数学密度。
2 - 算法层优化:
● Quantization Techniques:使用精度更低的单位来表示模型的权重或激活值,以节省空间和加速模型推理速度。
● Speculative Decoding:通过使用一个简洁且反应迅速的小型模型来辅助解码,提升推理速度。
● Sharding Strategy Optimization:通过模型分片将不同部分的计算任务分布到多个设备上,减少单个设备的内存压力和计算瓶颈。
3 - 框架层优化:
● Contiguous Batching:通过在推理过程中保持请求的连续批量处理,减少上下文切换和内存调度带来的开销。
● PageAttention:优化Attention机制中的KV存储,减少内存占用,提高内存访问效率。
● TensorRT-LLM和MindelIE-LLM框架:通过支持多种Attention机制和流水线并行、跨层并行等技术,提高推理的吞吐量和响应速度。
via Memos
Bilibili 技术: 大模型推理加速的研究与分析
加速方案的主要思路
1 - 算子层优化:
● Operator Fusion:通过将多个算子融合为一个复杂算子,减少内存访存次数,加快计算速度。
● High-Performance Acceleration Library:使用如ONNX Runtime、TVM、cuBLAS、FasterTransformer等高性能加速库,优化常见的神经网络算子的计算性能。
● Layer Fusion:在多头注意力机制中,将所有操作合并到一个计算核中,减少数据传输并提高数学密度。
2 - 算法层优化:
● Quantization Techniques:使用精度更低的单位来表示模型的权重或激活值,以节省空间和加速模型推理速度。
● Speculative Decoding:通过使用一个简洁且反应迅速的小型模型来辅助解码,提升推理速度。
● Sharding Strategy Optimization:通过模型分片将不同部分的计算任务分布到多个设备上,减少单个设备的内存压力和计算瓶颈。
3 - 框架层优化:
● Contiguous Batching:通过在推理过程中保持请求的连续批量处理,减少上下文切换和内存调度带来的开销。
● PageAttention:优化Attention机制中的KV存储,减少内存占用,提高内存访问效率。
● TensorRT-LLM和MindelIE-LLM框架:通过支持多种Attention机制和流水线并行、跨层并行等技术,提高推理的吞吐量和响应速度。
via Memos
#mark
看到的一个非常不错的讲 deepseek v3 paper 的分析: https://www.youtube.com/watch?v=OM7Sa_BlDIk
包括 kv cache 都从 0 开始讲了, 很适合新手看
via Memos
看到的一个非常不错的讲 deepseek v3 paper 的分析: https://www.youtube.com/watch?v=OM7Sa_BlDIk
包括 kv cache 都从 0 开始讲了, 很适合新手看
via Memos
#tools #adguard
● https://github.com/AdGuardTeam/AdGuardBrowserExtension
adguard 浏览器插件版用起来不错, 适合一些轻量级的广告屏蔽需求
via Memos
● https://github.com/AdGuardTeam/AdGuardBrowserExtension
adguard 浏览器插件版用起来不错, 适合一些轻量级的广告屏蔽需求
via Memos
2025: 我的 AI 折腾日记 (不定期更新)
Changelog
2025-01-17
● 使用 obsidian 的一个 copilot AI 插件, 整体体验非常不错, 可以在上百篇笔记中比较准确的搜索出想要的问题的答案, 以及自动关联相关笔记. ● Embedding 使用 siliconflow (硅基流动) 的 BAAI/bge-m3 ● Chat 使用 deepseek-v3 API
2025-01-11
● 重新订阅 Claude Pro (20$ / 月), 并通过 fuclaude 的方式与两个朋友合租.
● 开通 oaipro 并充值了 10$, 自建了 NextChat 来使用 claude, gpt-4o, gemini 和 deepseek 的 API, 作为 claude / openai 官网不可用时的备选方案.
● 下载了 deepseek 的 ios 移动端, 体验良好
2025-01-09
● 开始使用 deepseek-v3, 在半年前使用豆包和kimi后很久没碰过国产模型了, 重新用起来感觉比以前强大了太多, 搜索和 deepthink 都很给力, 除了有些敏感问题无法询问, 没什么很大的缺点
2025-01-01
● 开始探索 cursor , 并在之后的几天用 cursor 写了 N 多个自用的小脚本和服务, 总结了一些 cursor 的用法
2024 年末
● 主力使用的 chatbot 是 gpt-4o (合租), 感觉 gpt 经常遇到故障和降智, 因此开始探索别的模型, 中间开过一个月的 Claude Pro, 体验不错, 但是不带 Search 功能比较遗憾, 并且因为价格比较贵没有继续续费.
● 在 Gemini 重磅更新后, 辅助使用 Gemini exp 1206
● 同时使用 perplexity pro 进行一些基本问题的搜索.
via Blog
AI / Chatbot 工具更新速度越来越快, 打算将 2025 年自己的 AI stack 更新在这个 Blog 下, 本文不定期更新, 主要为了好玩而记录, 同时可以和大家交流一下, 保持一点追求潮流的热情~
Changelog
2025-01-17
● 使用 obsidian 的一个 copilot AI 插件, 整体体验非常不错, 可以在上百篇笔记中比较准确的搜索出想要的问题的答案, 以及自动关联相关笔记. ● Embedding 使用 siliconflow (硅基流动) 的 BAAI/bge-m3 ● Chat 使用 deepseek-v3 API
2025-01-11
● 重新订阅 Claude Pro (20$ / 月), 并通过 fuclaude 的方式与两个朋友合租.
● 开通 oaipro 并充值了 10$, 自建了 NextChat 来使用 claude, gpt-4o, gemini 和 deepseek 的 API, 作为 claude / openai 官网不可用时的备选方案.
● 下载了 deepseek 的 ios 移动端, 体验良好
2025-01-09
● 开始使用 deepseek-v3, 在半年前使用豆包和kimi后很久没碰过国产模型了, 重新用起来感觉比以前强大了太多, 搜索和 deepthink 都很给力, 除了有些敏感问题无法询问, 没什么很大的缺点
2025-01-01
● 开始探索 cursor , 并在之后的几天用 cursor 写了 N 多个自用的小脚本和服务, 总结了一些 cursor 的用法
2024 年末
● 主力使用的 chatbot 是 gpt-4o (合租), 感觉 gpt 经常遇到故障和降智, 因此开始探索别的模型, 中间开过一个月的 Claude Pro, 体验不错, 但是不带 Search 功能比较遗憾, 并且因为价格比较贵没有继续续费.
● 在 Gemini 重磅更新后, 辅助使用 Gemini exp 1206
● 同时使用 perplexity pro 进行一些基本问题的搜索.
via Blog
#mark #ai #llm
MTEB 是一个用于评估文本嵌入(Text Embedding)模型性能的基准测试集。这个榜单展示了不同模型在文本嵌入任务上的表现。
● https://huggingface.co/spaces/mteb/leaderboard
via Memos
MTEB 是一个用于评估文本嵌入(Text Embedding)模型性能的基准测试集。这个榜单展示了不同模型在文本嵌入任务上的表现。
● https://huggingface.co/spaces/mteb/leaderboard
via Memos
#llm #cache
关于 LLM API 的 cache hit (缓存命中)
● deepseek 的解释(比较详细): https://api-docs.deepseek.com/zh-cn/guides/kv_cache
● 一篇知乎文章: LLM Best Practice:Prompt caching
via Memos
关于 LLM API 的 cache hit (缓存命中)
● deepseek 的解释(比较详细): https://api-docs.deepseek.com/zh-cn/guides/kv_cache
● 一篇知乎文章: LLM Best Practice:Prompt caching
via Memos