久久久国产精品视频袁燕,99re久久精品国产,亚洲欧美日韩国产综合v,天天躁夜夜躁狠狠久久,激情五月婷婷激情五月婷婷

<code id="y2v5d"><strong id="y2v5d"></strong></code>

0

回復(fù)
收藏
點贊
分享
發(fā)新帖

論壇首頁
電源技術(shù)綜合區(qū)
【DigiKey年度寵粉】基于ESP32的DIY語音智能交互機器人：從選配到實現(xiàn)的全程記錄

【DigiKey年度寵粉】基于ESP32的DIY語音智能交互機器人：從選配到實現(xiàn)的全程記錄

作為一名電子愛好者和創(chuàng)客，我一直對智能語音交互技術(shù)充滿興趣。最近，我決定基于ESP32開發(fā)板，DIY一個語音智能交互機器人。這次項目不僅讓我深入了解了語音識別和交互技術(shù)下面，我將詳細分享我的開發(fā)過程以及最終成果。

其中感謝瑾sing 大佬的指點與幫助

一、項目規(guī)劃

1. 項目目標

我的目標是制作一個能夠通過語音指令交互的智能機器人，具備以下功能：

語音識別：通過麥克風(fēng)采集語音并轉(zhuǎn)換為文本。

語音反饋：通過喇叭播放語音回復(fù)。

顯示交互信息：通過TFT屏幕顯示當前狀態(tài)和交互內(nèi)容。

2. 所需元件

為了實現(xiàn)上述功能，我選擇了以下核心元件：

2.1 ESP32開發(fā)板：作為主控芯片，負責(zé)處理語音識別、交互邏輯和驅(qū)動外設(shè)。

2.2 1.8寸TFT彩屏（ST7735驅(qū)動）：用于顯示交互信息和狀態(tài)。

2.3 MAX98357音頻放大器：驅(qū)動喇叭播放語音反饋。

2.4 INMP441全向麥克風(fēng)模塊：用于高精度語音采集。

2.5 3W喇叭：播放語音回復(fù)。

二、元件展示

1. ESP32開發(fā)板ESP32是一款功能強大的Wi-Fi和藍牙雙模芯片，非常適合物聯(lián)網(wǎng)和智能交互項目。它的引腳豐富，支持多種外設(shè)接口。

2. 1.8寸TFT彩屏（ST7735驅(qū)動）這款屏幕分辨率高，色彩鮮艷，適合顯示交互信息。它的SPI接口與ESP32兼容，接線簡單。

3. MAX98357音頻放大器MAX98357是一款高效的I2S數(shù)字音頻放大器，可以直接驅(qū)動3W喇叭，音質(zhì)清晰。

4. INMP441全向麥克風(fēng)模塊INMP441是一款高性能的數(shù)字麥克風(fēng)，支持I2S接口，能夠高精度采集語音信號。

5. 3W喇叭這款喇叭體積小巧，但音量大，適合嵌入式項目。

三、API選擇與注冊

1. KIMI AI模型API

KIMI是一款強大的AI模型，支持自然語言處理和對話生成。通過其API，我可以實現(xiàn)智能對話功能。

官網(wǎng)：KIMI API官網(wǎng)

請求方式：POST

功能：發(fā)送用戶輸入的文本，獲取AI生成的回復(fù)。

2. 百度智能云語音服務(wù)

百度智能云提供了語音識別和語音合成服務(wù)，非常適合用于語音交互項目。

官網(wǎng)：百度智能云平臺

語音識別：POST請求，將語音文件轉(zhuǎn)換為文本。

語音合成：GET請求，將文本轉(zhuǎn)換為語音文件。

四、API調(diào)試工具推薦：Postman

Postman是一款非常流行的API調(diào)試工具，支持多種請求方式（GET、POST等），并且可以方便地查看請求和響應(yīng)數(shù)據(jù)。以下是使用Postman調(diào)試API的基本步驟：

下載并安裝Postman：Postman官網(wǎng)。

創(chuàng)建一個新的請求，選擇請求方式（GET或POST）。

填寫API的URL、請求頭和請求體。

發(fā)送請求并查看響應(yīng)結(jié)果。

五、、在ESP32中集成API調(diào)用

String get_kimi(String question)
{
HTTPClient http1 ;
http1.setTimeout(20000);
http1.begin(Kimi_url);
http1.addHeader("Content-Type", "application/json");
http1.addHeader("Authorization", "sk-4cyiL5............................................................."); //注意得填寫你的碼
 String body="{\"model\":\"moonshot-v1-8k\",\"messages\":[{\"role\":\"system\",\"content\":\"你是我的AI助手小愛，你必須用中文回答且字數(shù)不超過85個\"},{\"role\":\"user\",\"content\":\"" + question + "\"},{\"role\": \"assistant\",\"name\":\" 小南\", \"content\":\"\", \"partial\": true}],\"temperature\":0.3}";

int httpResponseCode = http1.POST(body);
  if(httpResponseCode == 200)
  {
    String response = http1.getString();
    http1.end();
    //Serial.println(response);
    StaticJsonDocument<1024> json1;
    deserializeJson(json1,response);
    String json_get1 = json1["choices"];
     deserializeJson(json1,json_get1);
    String message = json1[0]["message"].as<String>();
     deserializeJson(json1,message);
     String respone = json1["content"];
    //Serial.println(respone);
    return respone ;
  }
  else
  {
    http1.end();
    //Serial.println("error");
    return "你問的太快了詢問不能頻繁當前為一分鐘三到四次詢問)";//（kimi的api比較菜一分鐘只能問他3個問題）
  }
}

void callBaiduTextToSpeech(String text) {
    HTTPClient http;
    String url = "https://tsn.baidu.com/text2audio?tex=" + text + "&tok=YOUR_ACCESS_TOKEN&cuid=YOUR_DEVICE_ID&ctp=1&lan=zh";
    http.begin(url);

    int httpResponseCode = http.GET();

    if (httpResponseCode == 200) {
        // 保存語音文件并播放
        File file = SPIFFS.open("/output.mp3", FILE_WRITE);
        http.writeToStream(&file);
        file.close();
        playAudio("/output.mp3");
    } else {
        Serial.println("Error calling Baidu Text-to-Speech API");
    }
    http.end();
}

六、語音數(shù)據(jù)采集

1. 使用driver/i2s.h庫與INMP441麥克風(fēng)

INMP441是一款高性能的數(shù)字麥克風(fēng)，支持I2S接口。為了采集語音數(shù)據(jù)，我使用了ESP32的driver/i2s.h庫。以下是具體實現(xiàn)步驟：

1.1 初始化I2S

#include <driver/i2s.h>

void setupI2S() {
    i2s_config_t i2s_config = {
        .mode = (i2s_mode_t)(I2S_MODE_MASTER | I2S_MODE_RX),
        .sample_rate = 8000,
        .bits_per_sample = I2S_BITS_PER_SAMPLE_16BIT,
        .channel_format = I2S_CHANNEL_FMT_ONLY_LEFT,
        .communication_format = I2S_COMM_FORMAT_STAND_I2S,
        .intr_alloc_flags = 0,
        .dma_buf_count = 8,
        .dma_buf_len = 64,
        .use_apll = false
    };

    i2s_driver_install(I2S_NUM_0, &i2s_config, 0, NULL);
    i2s_set_pin(I2S_NUM_0, NULL);
}

1.2 采集語音數(shù)據(jù)

由于driver/i2s.h庫是雙聲道設(shè)計，而INMP441是單聲道麥克風(fēng)，因此采集到的數(shù)據(jù)只有左聲道有效，右聲道數(shù)據(jù)為0。為了解決這個問題，我采用了以下兩種方法：

方法1：增加數(shù)據(jù)量

將采樣數(shù)據(jù)量增加到兩倍（例如3200個數(shù)據(jù)），這樣可以確保采集到足夠的有效數(shù)據(jù)，但會浪費資源。

方法2：設(shè)置兩倍長度的數(shù)組

在接口函數(shù)中填入兩倍長度的數(shù)組，確保采集到足夠的有效數(shù)據(jù)。

void captureAudio(int16_t* buffer, size_t bufferSize) {
    size_t bytesRead;
    i2s_read(I2S_NUM_0, buffer, bufferSize * 2, &bytesRead, portMAX_DELAY);
}

2、數(shù)據(jù)上傳

2.1. 編碼為Base64

百度智能云的語音識別API要求上傳的音頻數(shù)據(jù)必須為Base64編碼。以下是編碼實現(xiàn)的代碼：

#include <base64.h>

String encodeAudioToBase64(int16_t* audioData, size_t dataSize) {
    size_t encodedSize = Base64.encodedLength(dataSize * 2);
    char encodedData[encodedSize];
    Base64.encode((uint8_t*)audioData, dataSize * 2, encodedData);
    return String(encodedData);
}

2. 上傳音頻數(shù)據(jù)

以下是上傳音頻數(shù)據(jù)到百度智能云的代碼：

#include <WiFi.h>
#include <HTTPClient.h>

void uploadAudioToBaidu(String base64Data) {
    HTTPClient http;
    http.begin("https://vop.baidu.com/server_api");
    http.addHeader("Content-Type", "application/json");

    String requestBody = "{\"format\":\"wav\",\"rate\":16000,\"channel\":1,\"token\":\"YOUR_ACCESS_TOKEN\",\"cuid\":\"YOUR_DEVICE_ID\",\"speech\":\"" + base64Data + "\"}";
    int httpResponseCode = http.POST(requestBody);

    if (httpResponseCode == 200) {
        String response = http.getString();
        Serial.println("Baidu Speech Recognition: " + response);
    } else {
        Serial.println("Error calling Baidu Speech Recognition API");
    }
    http.end();
}

七、文字轉(zhuǎn)語音

1. 使用audio.h庫播放MP3

百度智能云的語音合成API返回的是MP3格式的音頻文件，我使用了audio.h庫來播放這些文件。以下是實現(xiàn)代碼：

#include <Audio.h>

Audio audio;

void playTextToSpeech(String text) {
    String url = "https://tsn.baidu.com/text2audio?tex=" + text + "&tok=YOUR_ACCESS_TOKEN&cuid=YOUR_DEVICE_ID&ctp=1&lan=zh";
    audio.connecttohost(url.c_str());
}

void loop() {
    audio.loop();
}

八、硬件連接與引腳配置

1. MAX98357音頻放大器（語音輸出）

MAX98357是一款I(lǐng)2S數(shù)字音頻放大器，用于驅(qū)動喇叭播放語音。以下是其接線方法：

I2S_DOUT：連接到ESP32的GPIO 25（數(shù)據(jù)輸出）。

I2S_BCLK：連接到ESP32的GPIO 27（位時鐘）。

I2S_LRC：連接到ESP32的GPIO 26（左右聲道時鐘）。

喇叭：連接到MAX98357的喇叭輸出端子（正負極不分）。

#define I2S_DOUT 25 #define I2S_BCLK 27 #define I2S_LRC 26

2. INMP441麥克風(fēng)（語音輸入）

INMP441是一款高性能的數(shù)字麥克風(fēng)，用于采集語音信號。以下是其接線方法：

I2S_WS：連接到ESP32的GPIO 32（字選擇）。

I2S_SD：連接到ESP32的GPIO 35（數(shù)據(jù)輸入）。

I2S_SCK：連接到ESP32的GPIO 33（串行時鐘）。

L/R：接地（選擇左聲道）。

#define I2S_WS        32
#define I2S_SD        35
#define I2S_SCK       33

3. TFT屏幕（顯示交互信息）

TFT屏幕用于顯示語音交互信息和系統(tǒng)狀態(tài)。以下是其接線方法：

TFT_MOSI：連接到ESP32的GPIO 2（主輸出從輸入）。

TFT_SCLK：連接到ESP32的GPIO 15（串行時鐘）。

TFT_CS：連接到ESP32的GPIO 17（片選）。

TFT_DC：連接到ESP32的GPIO 16（數(shù)據(jù)/命令選擇）。

TFT_RST：連接到ESP32的GPIO 4（復(fù)位）。

#define TFT_MOSI      2
#define TFT_SCLK      15
#define TFT_CS        17
#define TFT_DC        16
#define TFT_RST       4

4. LED（狀態(tài)指示）

LED用于指示系統(tǒng)狀態(tài)。以下是其接線方法：

LED正極：連接到ESP32的GPIO 21。

LED負極：接地。

#define ledPin        21

5. 按鍵（用戶輸入）

按鍵用于用戶輸入操作。以下是其接線方法：

按鍵引腳：連接到ESP32的GPIO 18。

按鍵另一端：接地。

上拉電阻：在GPIO 18和3.3V之間接一個10kΩ的上拉電阻。

#define keyPin        18

八、硬件連接圖

以下是硬件連接的示意圖：

ESP32 GPIO 25 (I2S_DOUT)  -> MAX98357 DIN
ESP32 GPIO 27 (I2S_BCLK)  -> MAX98357 BCLK
ESP32 GPIO 26 (I2S_LRC)   -> MAX98357 LRC
MAX98357 SPK+/-           -> 喇叭

ESP32 GPIO 32 (I2S_WS)    -> INMP441 WS
ESP32 GPIO 35 (I2S_SD)    -> INMP441 SD
ESP32 GPIO 33 (I2S_SCK)   -> INMP441 SCK
INMP441 L/R               -> GND

ESP32 GPIO 2 (TFT_MOSI)   -> TFT MOSI
ESP32 GPIO 15 (TFT_SCLK)  -> TFT SCK
ESP32 GPIO 17 (TFT_CS)    -> TFT CS
ESP32 GPIO 16 (TFT_DC)    -> TFT DC
ESP32 GPIO 4 (TFT_RST)    -> TFT RST

ESP32 GPIO 21 (ledPin)    -> LED正極
LED負極                   -> GND

ESP32 GPIO 18 (keyPin)    -> 按鍵引腳
按鍵另一端                -> GND
ESP32 GPIO 18             -> 10kΩ上拉電阻 -> 3.3V

九、開始測試

1. 硬件準備

確保以下硬件已正確連接：

ESP32開發(fā)板：主控芯片。

MAX98357音頻放大器：連接喇叭，用于語音輸出。

INMP441麥克風(fēng)：用于語音輸入。

TFT屏幕：顯示交互信息。

LED：用于狀態(tài)指示。

按鍵：用于觸發(fā)語音輸入。

2. 上電啟動

將ESP32開發(fā)板連接到電源，系統(tǒng)會自動啟動并初始化所有硬件。TFT屏幕會顯示歡迎信息，LED會亮起表示系統(tǒng)已就緒。

十、交互流程

1. 按住按鈕開始說話

操作：按住按鍵（GPIO 18）。

提示：TFT屏幕會顯示“聆聽中...”，LED會閃爍表示正在錄音。

錄音：系統(tǒng)通過INMP441麥克風(fēng)采集語音數(shù)據(jù)。

2. 釋放按鈕結(jié)束錄音

操作：釋放按鍵。

提示：TFT屏幕會顯示“思考中...”，LED保持常亮。

處理：系統(tǒng)將采集到的語音數(shù)據(jù)上傳至百度智能云進行語音識別。

3. 獲取語音識別結(jié)果

操作：等待系統(tǒng)處理。

提示：TFT屏幕會顯示識別結(jié)果（例如“你說：你好”）。

處理：系統(tǒng)將識別結(jié)果發(fā)送至KIMI API，獲取AI生成的回復(fù)。

4. 播放語音回復(fù)

操作：系統(tǒng)自動播放語音回復(fù)。

提示：TFT屏幕會顯示回復(fù)內(nèi)容（例如“回復(fù)：你好，我是智能機器人！”）。

播放：通過MAX98357音頻放大器驅(qū)動喇叭播放語音回復(fù)。

視頻展示：

全部回復(fù)(0)

只看樓主

正序查看

倒序查看

現(xiàn)在還沒有回復(fù)呢，說說你的想法

工程師都在看

設(shè)計電源要注意的幾個重點

【論壇精選推薦】論壇優(yōu)質(zhì)帖匯總（2025.05.13）

電源網(wǎng)-fqd

最近開始學(xué)習(xí)反激電源求學(xué)習(xí)思路

學(xué)習(xí)黨

LLC的Q值問題求解

LED電源電感計算

立

即

發(fā)

帖

<thead id="iyuy1"><acronym id="iyuy1"><em id="iyuy1"></em></acronym></thead>

<code id="iyuy1"></code>

<bdo id="iyuy1"></bdo>