Skip to content

Commit

Permalink
add 7-02 and 7-03 ai daily
Browse files Browse the repository at this point in the history
  • Loading branch information
Freelander committed Jul 3, 2024
1 parent 1e05af9 commit 3d6423e
Show file tree
Hide file tree
Showing 3 changed files with 176 additions and 0 deletions.
2 changes: 2 additions & 0 deletions docs/.vitepress/utils/createSideBar.ts
Original file line number Diff line number Diff line change
Expand Up @@ -4,6 +4,8 @@ export function createSideBarZH() {
text: '2024年',
collapsed: true,
items: [
{ text: '7 月 3 日', link: '/posts/2024/7-03' },
{ text: '7 月 2 日', link: '/posts/2024/7-02' },
{ text: '7 月 1 日', link: '/posts/2024/7-01' },
{ text: '6 月 30 日', link: '/posts/2024/6-30' },
{ text: '6 月 29 日', link: '/posts/2024/6-29' },
Expand Down
95 changes: 95 additions & 0 deletions docs/posts/2024/7-02.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,95 @@
---
title: 7 月 2 日
date: 2024-07-02
cover: https://oss.justin3go.com/blogs/fav0-001.jpg

---

每天花 1 分钟获取最新 AI 信息。

内容涵盖但不限于**前沿 AI 资讯****AI 工具****AI 绘画****开源项目****学习教程**等。

简报主要特点是描述精简,但对于重要信息,还是通过独立帖子进行详细介绍。

以下是 7 月 2 日的最新 AI 信息。

### 前沿技术

**1、Runway 已开放 Gen3 使用!**

目前仅支持文本生成视频,付费用户可用,效果跟 Luma、可灵不相上下,各有优缺。

Runway 主要价格太贵,算下来每 5 秒钟视频需耗费 1 美元。还是可灵比较香。

官网:https://runwayml.com/

不过,今天有网友使用 Gen3 实现了人物一致性,可在多次生成保持角色不变。

![image-20240702231349788](https://p.ipic.vip/srnveb.png)

**2、微软悄悄更新了 Phi3-mini。**

模型各方面能力都有所提升,如指令遵循能力、代码能力等。

模型下载:https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3

![image-20240702231845162](https://p.ipic.vip/icyrc8.png)

### 前沿技术

**1、腾讯开源了可指定动作视频生成项目 MinmicMotion。**

与阿里的 AnimateAnyone 类似,同样输入指定动作+角色图片,生成该角色的动作视频。

效果看起来比阿里的好很多,面部特征保持一致以及唇形同步,不但可以搞跳舞视频还可以做数字人。

项目介绍:https://tencent.github.io/MimicMotion/

GitHub:https://github.com/tencent/MimicMotion

非官方 ComfyUI 工作流:https://github.com/AIFSH/ComfyUI-MimicMotion

![model architecture](https://github.com/Tencent/MimicMotion/raw/main/assets/figures/model_structure.png)



### AI 绘画

**1、有人花费 3 个月时间,完全使用 SD 制作了一本漫画小说。**

作者分享的制作教程:

- 绘画模型是 iComix;
- 提示词中混合著名演员以保持人脸一致性;
- ControlNet Reference 模型实现服装一致性;
- ControlNet OpenPose 模型控制人物姿势;
- 使用 Photoshop 处理对话气泡。

原帖:https://www.reddit.com/r/StableDiffusion/comments/1dpo14t/i_finally_published_a_graphic_novel_made_100_with

![image-20240702005718821](https://p.ipic.vip/yyuyh1.png)

### 学习教程

**1、手把手教你从零开始构建 AI 视频生成模型。**

在 GitHub 上发现一篇教程,作者详细介绍了如何使用 Python 语言,从零开始构建一个文本到视频生成模型。

涵盖了从理解理论概念到架构编码,最终实现输入文本提示即可生成视频的全过程。

GitHub:https://github.com/FareedKhan-dev/AI-text-to-video-model-from-scratch

感兴趣的可以看看。

![AI-text-to-video-model](https://p.ipic.vip/ulcyn5.gif)

### 开源项目

**1、一个可以帮助你构建一系列网站的智能体 WebDesignAgent。**

支持使用文本描述、图片和视觉线索转化为功能完备、设计精美的网站,用 AI 简化网站创建过程

详细介绍:https://t.zsxq.com/3EIE3

![img](https://raw.githubusercontent.com/DAMO-NLP-SG/WebDesignAgent/main/assets/gui.png)

79 changes: 79 additions & 0 deletions docs/posts/2024/7-03.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,79 @@
---
title: 7 月 3 日
date: 2024-07-03
cover: https://oss.justin3go.com/blogs/fav0-001.jpg
---

每天花 1 分钟获取最新 AI 信息。

内容涵盖但不限于**前沿 AI 资讯****AI 工具****AI 绘画****开源项目****学习教程**等。

简报主要特点是描述精简,但对于重要信息,还是通过独立帖子进行详细介绍。

以下是 7 月 3 日的最新 AI 信息。

### 前沿资讯

**1、Meta AI 推出了一种新的、领先的、快速的文本到 3D 资产生成流程 Meta 3D Gen。**

能够在不到一分钟内创建高质量的 3D 模型和纹理,支持物理基础渲染,并且在复杂文本提示下的视觉质量和提示忠实度上超过行业基准。

详细介绍:https://ai.meta.com/research/publications/meta-3d-gen/

![image-20240703011050125](https://p.ipic.vip/atn3ky.png)

**2、Coze 结束了免费的策略!**

开始收费,价格定的还挺高,估计也就只有刚需用户才订阅,国内版 Coze(扣子)暂时还免费。

官网:https://www.coze.com/

![image-20240703011858564](https://p.ipic.vip/ibd0y0.png)

**3、Suno 推出了 iOS 客户端。**

支持音乐创建和播放功能,还可以自己创建播单,需要在美区 App Store 下载。

下载地址:https://apps.apple.com/us/app/suno-make-and-explore-music/id6480136315

直接搜会出现非常多山寨 App,认准官方 Logo,或者直接点击如上链接跳转下载。

![image-20240703020832645](https://p.ipic.vip/y2dj8b.png)

### 前沿技术

**1、强大无比的 RAG 技术来了!微软重磅开源了 GraphRAG。**

与传统的 RAG 方法不同,它通过知识图谱、建立社区层次结构、生成社区摘要,并在执行 RAG 任务时利用这些结构,从而提供了显著的问答性能提升。

详细介绍:https://microsoft.github.io/graphrag/

GitHub:https://github.com/microsoft/graphrag

简单来说,这是基于知识图谱的检索增强技术,有效提高大语言模型处理数据集的推理能力。

![image-20240703215524009](https://p.ipic.vip/t0v2el.png)



### AI 工具

**1、又发现一款开源的 TTS 模型 Fish Speech。**

经过 30 万小时的训练,能够熟练掌握中文、日语和英语,声音表现丰富,尤其中文效果非常好,还能够中英混合。

详细介绍:https://t.zsxq.com/ZUveg

![image-20240703015320716](https://p.ipic.vip/7omnmd.png)

### 学习书籍

**1、GitHub 上一份大规模预训练语言模型的教程《大模型理论基础》。**

教程是基于斯坦福大学和李宏毅的课程,并结合开源贡献者的补充和最新研究进展,旨在为读者提供深入的理论知识和实践方法。

详细介绍:https://t.zsxq.com/z3ULt

详见可看如下目录图,想了解大模型基础知识的同学可看下。

![img](https://wx3.sinaimg.cn/mw2000/006fiYtfgy1hraazulgejj30o30wuwo3.jpg)

0 comments on commit 3d6423e

Please sign in to comment.