add 7-02 and 7-03 ai daily

Freelander · Jul 3, 2024 · 3d6423e · 3d6423e
1 parent 1e05af9
commit 3d6423e
Show file tree

Hide file tree

Showing 3 changed files with 176 additions and 0 deletions.
diff --git a/docs/.vitepress/utils/createSideBar.ts b/docs/.vitepress/utils/createSideBar.ts
@@ -4,6 +4,8 @@ export function createSideBarZH() {
       text: '2024年',
       collapsed: true,
       items: [
+        { text: '7 月 3 日', link: '/posts/2024/7-03' },
+        { text: '7 月 2 日', link: '/posts/2024/7-02' },
         { text: '7 月 1 日', link: '/posts/2024/7-01' },
         { text: '6 月 30 日', link: '/posts/2024/6-30' },
         { text: '6 月 29 日', link: '/posts/2024/6-29' },

diff --git a/docs/posts/2024/7-02.md b/docs/posts/2024/7-02.md
@@ -0,0 +1,95 @@
+---
+title: 7 月 2 日
+date: 2024-07-02
+cover: https://oss.justin3go.com/blogs/fav0-001.jpg
+
+---
+
+每天花 1 分钟获取最新 AI 信息。
+
+内容涵盖但不限于**前沿 AI 资讯**、**AI 工具**、**AI 绘画**、**开源项目**和**学习教程**等。
+
+简报主要特点是描述精简，但对于重要信息，还是通过独立帖子进行详细介绍。
+
+以下是 7 月 2 日的最新 AI 信息。
+
+### 前沿技术
+
+**1、Runway 已开放 Gen3 使用！**
+
+目前仅支持文本生成视频，付费用户可用，效果跟 Luma、可灵不相上下，各有优缺。
+
+Runway 主要价格太贵，算下来每 5 秒钟视频需耗费 1 美元。还是可灵比较香。
+
+官网：https://runwayml.com/
+
+不过，今天有网友使用 Gen3 实现了人物一致性，可在多次生成保持角色不变。
+
+![image-20240702231349788](https://p.ipic.vip/srnveb.png)
+
+**2、微软悄悄更新了 Phi3-mini。**
+
+模型各方面能力都有所提升，如指令遵循能力、代码能力等。
+
+模型下载：https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3
+
+![image-20240702231845162](https://p.ipic.vip/icyrc8.png)
+
+### 前沿技术
+
+**1、腾讯开源了可指定动作视频生成项目 MinmicMotion。**
+
+与阿里的 AnimateAnyone 类似，同样输入指定动作+角色图片，生成该角色的动作视频。
+
+效果看起来比阿里的好很多，面部特征保持一致以及唇形同步，不但可以搞跳舞视频还可以做数字人。
+
+项目介绍：https://tencent.github.io/MimicMotion/
+
+GitHub：https://github.com/tencent/MimicMotion
+
+非官方 ComfyUI 工作流：https://github.com/AIFSH/ComfyUI-MimicMotion
+
+![model architecture](https://github.com/Tencent/MimicMotion/raw/main/assets/figures/model_structure.png)
+
+
+
+### AI 绘画
+
+**1、有人花费 3 个月时间，完全使用 SD 制作了一本漫画小说。**
+
+作者分享的制作教程：
+
+- 绘画模型是 iComix；
+- 提示词中混合著名演员以保持人脸一致性；
+- ControlNet Reference 模型实现服装一致性；
+- ControlNet OpenPose 模型控制人物姿势；
+- 使用 Photoshop 处理对话气泡。
+
+原帖：https://www.reddit.com/r/StableDiffusion/comments/1dpo14t/i_finally_published_a_graphic_novel_made_100_with
+
+![image-20240702005718821](https://p.ipic.vip/yyuyh1.png)
+
+### 学习教程
+
+**1、手把手教你从零开始构建 AI 视频生成模型。**
+
+在 GitHub 上发现一篇教程，作者详细介绍了如何使用 Python 语言，从零开始构建一个文本到视频生成模型。
+
+涵盖了从理解理论概念到架构编码，最终实现输入文本提示即可生成视频的全过程。
+
+GitHub：https://github.com/FareedKhan-dev/AI-text-to-video-model-from-scratch
+
+感兴趣的可以看看。
+
+![AI-text-to-video-model](https://p.ipic.vip/ulcyn5.gif)
+
+### 开源项目
+
+**1、一个可以帮助你构建一系列网站的智能体 WebDesignAgent。**
+
+支持使用文本描述、图片和视觉线索转化为功能完备、设计精美的网站，用 AI 简化网站创建过程
+
+详细介绍：https://t.zsxq.com/3EIE3
+
+![img](https://raw.githubusercontent.com/DAMO-NLP-SG/WebDesignAgent/main/assets/gui.png)
+
diff --git a/docs/posts/2024/7-03.md b/docs/posts/2024/7-03.md
@@ -0,0 +1,79 @@
+---
+title: 7 月 3 日
+date: 2024-07-03
+cover: https://oss.justin3go.com/blogs/fav0-001.jpg
+---
+
+每天花 1 分钟获取最新 AI 信息。
+
+内容涵盖但不限于**前沿 AI 资讯**、**AI 工具**、**AI 绘画**、**开源项目**和**学习教程**等。
+
+简报主要特点是描述精简，但对于重要信息，还是通过独立帖子进行详细介绍。
+
+以下是 7 月 3 日的最新 AI 信息。
+
+### 前沿资讯
+
+**1、Meta AI 推出了一种新的、领先的、快速的文本到 3D 资产生成流程 Meta 3D Gen。**
+
+能够在不到一分钟内创建高质量的 3D 模型和纹理，支持物理基础渲染，并且在复杂文本提示下的视觉质量和提示忠实度上超过行业基准。
+
+详细介绍：https://ai.meta.com/research/publications/meta-3d-gen/
+
+![image-20240703011050125](https://p.ipic.vip/atn3ky.png)
+
+**2、Coze 结束了免费的策略！**
+
+开始收费，价格定的还挺高，估计也就只有刚需用户才订阅，国内版 Coze（扣子）暂时还免费。
+
+官网：https://www.coze.com/
+
+![image-20240703011858564](https://p.ipic.vip/ibd0y0.png)
+
+**3、Suno 推出了 iOS 客户端。**
+
+支持音乐创建和播放功能，还可以自己创建播单，需要在美区 App Store 下载。
+
+下载地址：https://apps.apple.com/us/app/suno-make-and-explore-music/id6480136315
+
+直接搜会出现非常多山寨 App，认准官方 Logo，或者直接点击如上链接跳转下载。
+
+![image-20240703020832645](https://p.ipic.vip/y2dj8b.png)
+
+### 前沿技术
+
+**1、强大无比的 RAG 技术来了！微软重磅开源了 GraphRAG。**
+
+与传统的 RAG 方法不同，它通过知识图谱、建立社区层次结构、生成社区摘要，并在执行 RAG 任务时利用这些结构，从而提供了显著的问答性能提升。
+
+详细介绍：https://microsoft.github.io/graphrag/
+
+GitHub：https://github.com/microsoft/graphrag
+
+简单来说，这是基于知识图谱的检索增强技术，有效提高大语言模型处理数据集的推理能力。
+
+![image-20240703215524009](https://p.ipic.vip/t0v2el.png)
+
+
+
+### AI 工具
+
+**1、又发现一款开源的 TTS 模型 Fish Speech。**
+
+经过 30 万小时的训练，能够熟练掌握中文、日语和英语，声音表现丰富，尤其中文效果非常好，还能够中英混合。
+
+详细介绍：https://t.zsxq.com/ZUveg
+
+![image-20240703015320716](https://p.ipic.vip/7omnmd.png)
+
+### 学习书籍
+
+**1、GitHub 上一份大规模预训练语言模型的教程《大模型理论基础》。**
+
+教程是基于斯坦福大学和李宏毅的课程，并结合开源贡献者的补充和最新研究进展，旨在为读者提供深入的理论知识和实践方法。
+
+详细介绍：https://t.zsxq.com/z3ULt
+
+详见可看如下目录图，想了解大模型基础知识的同学可看下。
+
+![img](https://wx3.sinaimg.cn/mw2000/006fiYtfgy1hraazulgejj30o30wuwo3.jpg)