TWI845430B

TWI845430B - 互動式語言教學系統

Info

Publication number: TWI845430B
Application number: TW112138499A
Authority: TW
Inventors: 陸清達; 曾崑福
Original assignee: 陸清達; 曾崑福
Filing date: 2023-10-06
Publication date: 2024-06-11

Abstract

一種互動式語言教學系統，包括：登入模組，使用者以密碼及帳號進行登入；影片資料庫，儲存多部語言教學影片；影片播放模組，讓使用者選擇一部語言教學影片及難易等級並播放語言教學影片；影像擷取模組，擷取使用者的影像並辨識使用者的目前學習狀態；語音讀取辨識模組，對使用者在與語言教學影片互動時的語音內容進行辨識；處理單元，將使用者回應的語音內容轉換成相應的文字，並與預設值比對以判斷文字的正確率，並同時判斷使用者是否完成語言教學影片的所有內容；及資料輸出模組，根據文字的正確率及語言教學影片的完成度輸出檢核結果。

Description

互動式語言教學系統

本發明涉及一種語言教學系統，特別是有關於一種透過人工智慧技術實現虛擬語言學習環境的互動式語言教學系統。

由於網路的發展普及化，學習語言的方式不再像過去需要以面對面的方式實體上課，網路線上教學成為現代人選擇的一種教學型態。也由於網路上有許多語言學習的教學影片，改變了語言學習的生態，同時也改變了許多人在學習語言的學習方式。以英文為例，許多人學習語言都是以觀看影片自學為主，但是卻只能顧及聽、讀等能力，未能加強口說對話能力，造成學習者雖然看得懂英文卻無法開口對話，甚至出現不會說的情形發生，且無法將英文有效地應用於現實生活中。

雖然市面上有許多真人學習語言對話平台，但還是有許多人擔心自己的外國語言的口說能力不佳，害怕使用外國語言與他人交談，會羞於開口而無法像說母語一樣流暢地與人溝通。

根據現有技術的缺點，本發明的目的是提出了一種透過人工智慧(AI，artificial intelligence)的互動式語言教學系統，此教學系統可以讓使用者經由非真人練習外國語言對話，透過AI技術實現虛擬外國語言學習情境，讓學習者可以線上與AI agent互動式地用外國語言對話，且透過語音辨識技術，可以辨識學習者口說的正確性。

本發明的目的在於，互動式語言教學系統沒有真人在線上，使用者可以大膽地說外國語言，克服與真人對話的恐懼而提升口說能力。

本發明的目的在於，互動式語言教學系統的外國語言口說訓練的難度分為三個等級，主要是讓使用者在線進行學習時，可以依據自己的外國語文構句與對話能力決定上課的內容。如果發現難度太高，無法通過本發明的互動式語言教學系統的檢核，本發明的互動式語言教學系統可以讓使用者反覆練習並且重複進行相同等級的檢核，直到檢核通過為止。當使用者仍然無法通過檢核時，本發明的互動式語言教學系統會詢問使用者難易度是否需要調整，並且學習者可直接用母語進行回答，來決定是否調整學習難易度，以達到適性學習的目的。

本發明的目的在於，互動式語言教學系統可以透過影像擷取裝置來辨識使用者的肢體語言、情緒及/或眼睛，來判斷使用者目前的學習狀態，如果判斷使用者目前的學習狀態不佳，則會暫停上課，避免使用者跟不上進度，且本發明的互動式語言教學系統可以記憶學習者前一次暫停學習的播放位置，在啟動下一次學習時，可以快速地找到前一次暫停播放的位置，節省花費時間找反覆尋找前一次的播放位置。

本發明的目的在於，互動式語言教學系統為AI互動系統，可以讓使用者練習語言對話，互動式語言教學系統會辨識使用者說出的語音內容，並進行正確率的評分及記錄，有效地幫助使用者了解自己的學習狀況，反覆練習達到有效率的學習成效。

本發明的目的在於，在學習語言的過程中沒有真人出現，使用者可以根據自己的口說與構句能力反覆練習，不會有面對真人而羞於開口的窘境，所以使用者的外國語言的口述能力可以大幅地提升。

根據上述種種目的，本發明提供一種互動式語言教學系統，包括：登入模組，讓使用者以密碼及帳號進行登入；影片資料庫，用以儲存多部語言教學影片；影片播放模組，用以讓使用者選擇其中一部語言教學影片及難易等級並播放語言教學影片；影像擷取模組，擷取使用者的影像並辨識使用者的目前狀態；語音讀取辨識模組，對使用者在與語言教學影片互動時的語音內容進行辨識；處理單元，將使用者回應的語音內容轉換成相應的文字，並將文字與預設值比對以判斷文字的正確率，並同時判斷使用者是否完成語言教學影片的所有內容；以及資料輸出模組，根據文字的正確率及語言教學影片的完成度輸出檢核結果。

本發明還提供一種使用互動式語言教學系統的互動式語言教學方法，其步驟包括：啟動互動式語言教學系統；輸入對應使用者的使用者帳號及密碼以登入互動式語言教學系統；播放語言教學影片並透過語言教學影片進行互動式對話；擷取使用者影像以辨識使用者的目前狀態；辨識使用者在與語言教學影片對話的語音內容並將語音內容轉換成文字；比對文字與預設值的差異，以判斷正確率是否超過預設正確率，並根據文字判斷使用者是否完成語言教學影片以及輸出檢核結果。

S10-S26:互動式語言教學方法步驟

1:互動式語言教學系統

12:登入模組

14:處理單元

16:影片資料庫

18:影片播放模組

20:影像擷取模組

22:語音讀取辨識模組

24:資料輸出模組

2:使用者介面

31:學習階數欄位

32:使用者名稱欄位

33:影片播放欄位

34:輸入使用者姓名欄位

35:輸入學習階數欄位

36:AI agent欄位

37:關鍵字提示欄位

38:使用者回答辨識結果欄位

39:語音辨識存取文字欄位

40:顯示辨識結果欄位

41:開始欄位

42:繼續欄位

43:肢體辨識欄位

44:眼睛辨識欄位

45:臉部情緒辨識欄位

圖1是根據本發明所揭露的技術，表示互動式語言教學方法的步驟流程圖。

圖2是根據本發明所揭露的技術，表示互動式語言教學系統的方塊圖。

圖3A是根據本發明所揭露的技術，表示互動式語言教學系統的使用者介面示意圖。

圖3B是根據本發明所揭露的技術，表示在使用互動式語言教學系統時，辨識使用者的目前狀態顯示在使用者介面的示意圖。

圖3C是根據本發明所揭露的技術，表示在使用互動式語言教學系統時，辨識到使用者離開座位時顯示在使用者介面的示意圖。

圖3D是根據本發明所揭露的技術，表示在使用互動式語言教學系統時，辨識到使用者分心時顯示在使用者介面的示意圖。

圖3E是根據本發明所揭露的技術，表示在使用互動式語言教學系統時，辨識到使用者有困惑時顯示在使用者介面的示意圖。

圖4是根據本發明所揭露的技術，表示互動式語言教學系統的難易等級流程圖。

請同時參考圖1及圖2。圖1是表示互動式語言教學方法的步驟流程圖及圖2是表示互動式語言教學系統的方塊圖。步驟S10：啟動互動式語言教學系統。在此步驟中，互動式語言教學系統1可以是應用程式(APP，application)或是設置在網站中使用執行程式，因此使用者可以由雲端(未在圖中表示)將互動式語言教學系統1的應用程式(APP，application)下載至使用者裝置(未在圖中表示)，例如可以是手機、平板、桌上型電腦或是筆記型電腦。於另一實施例中，使用者可透過網際網路進入具有互動式語言教學系統1的網站執行此互動式語言教學系統1。另外，要說明的是，本發明所指的語言是指除了使用者的母語之外的其他語言，例如英語、法語、日語、韓語、德語、西班牙語等等，在本發明中對語言並不進行限制。

步驟S12：輸入使用者帳號及密碼。於此步驟中，使用者在執行搭載有互動式語言教學系統1的應用程式或是從網站上執行此互動式語言教學系統1之後，互動式語言教學系統1的登入模組12要求使用者輸入使用者的帳號及密碼，在成功登入之後即可開始使用此互動式語言教學系統1。

步驟S14：選擇語言教學影片類型及難易等級。於此步驟中，使用者可以依據自己的喜好由影片資料庫16中選擇語言教學影片類型，以及適合自己語言能力的難易等級，其中語言教學影片的類型包括有：交通/旅遊類、商務類、購物/生活類、求職/工作類、運動/休閒類等。於本發明的互動式語言教學系統1對於語言教學影片的難易等級設計了三個等級，包括：第一等級、第二等級及第三等級，其中第一等級(level 1)是簡單等級，互動式語言教學系統1會顯示並提供使用者需要回答的完整句子，使用者只須要照著回答即可。舉例來說：語言教學影片中說出「Do you have any plans for this weekend？」，則互動式語言教學系統1會顯示「I want to arrange a trip this weekend」，使用者只要照著互動式語言教學系統1所顯示的句子回答即可通過。如果是第二等級(level 2)即普通等級，互動式語言教學系統1會提供一些關鍵字，例如「arrange、trip」以提示使用者利用這些關鍵字來回答完整的句子，同樣的使用者根據互動式語言教學系統1提供的關鍵字來回答「I want to arrange a trip this weekend」即可通過。第三等級(level 3)為進階等級，互動式語言教學系統1提供給使用者的關鍵字相較於第二等級更少，例如「trip」，使用者要利用較少的關鍵字來將整個句子回答出來。

步驟S16：播放語言教學影片。當使用者在前一個步驟選擇了語言教學影片的類型及難易等級之後，即可點選在使用者介面2(如圖3所示)上的「開始」，則影片播放模組18開始進行語言教學影片的播放。於語言教學影片播放的同時，也執行步驟S18：辨識使用者的目前狀態。於此步驟S18中，影像擷取模組20利用設置在使用者裝置端的相機鏡頭來辨識使用者的肢體狀態、互動式語言教學系統1會先使用網路攝影機(未在圖中表示)將正在觀看教學影片的使用者視訊取樣成一幀一幀影像，再運用COCO資料集訓練OpenPose深度學習神經網路來辨識。

具體來說，為了判斷使用者的肢體狀態，影像擷取模組20主要是利用深度學習神經網路來偵測使用者的人體骨架，並透過演算法偵測使用者的臉部和眼睛區域，以辨識使用者的眼睛是否閉合和辨識使用者的臉部表情，藉此可以透過影像擷取模組20偵測使用者的肢體狀態，從而判斷使用者是否離開座位。而影像擷取模組20也隨時地辨識使用者的眼睛是否闔上或是轉移注視焦點在其他物件上，例如低頭滑手機或是轉頭。此外，在本發明中，影像擷取模組20更用以辨識人體臉部情緒狀態，透過人體臉部的表情例如困惑及/或焦慮來判斷使用者目前的情緒狀態，從而控制語言教學影片的播放方式。

步驟S20：辨識使用者在與語言教學影片對話的語音內容並將語音內容轉換成文字。於此步驟中，語音讀取辨識模組22會先辨識使用者在與語言教學影片的對話的語音內容，然後將這些語音內容轉換成文字，進一步地執行步驟S22及步驟S24，其中步驟S22：判斷正確率是否超過Pi%及步驟S24：判斷使用者是否完成該語言教學影片。於步驟S22中，處理單元14將語音內容轉換成文字之後再與預設值進行比對，以判斷正確率，其中預設值為正確答案，將文字與正確答案相比對可以得到正確率Pi%，其中i表示難度等級，i=1-3，其中正確率Pi%可以由使用者根據自己的語言能力程度來預先設定，例如預設正確率在每個等級可以分別為P1%=50%、P2%=45%、P3%=40%；若使用者語言能力程度較佳，可以適當提高預設正確率以通過檢核，則預設正確率可以分別為P1%=70%、P2%=65%、P3%=60%。相對的，若使用者的語言能力程度不佳，可以適當調降預設正確率，讓使用者較容易通過檢測，建立學習信心，例如將預設正確率分別設定為P1%=45%、P2%=40%、P3%=35%。於步驟S24，本發明所提供的語言教學影片都是有完整的情境設計，而每一個等級的檢核標準是根據使用者的期望標準做設定，每個對話片段必須通過預設正確率Pi%，才會播放下一個片段的語言教學影片，並且使用者要完成該等級的所有片段的語言教學影片才會被判斷是全部完成，因此完成率也是檢核的依據。所以本發明的互動式語言教學系統1會將使用者回答的內容、對話時間長度記錄下來，最後再計算學習分數，以便讓使用者了解自我的學習狀態。

要說明的是，當正確率過低時，處理單元14則會在使用者介面如圖3所示)顯示出對話框來詢問使用者是否要調整難易等級，即步驟S222，使用者可以直接以語音回答「Yes」、「是」、「好」、「需要」等字詞時，語音讀取辨識模組22接收到使用者的語音回覆之後，則將此語音回覆傳送至處理單元14，處理單元14判斷使用者要調整學習等級的難易度之後，步驟流程則是回到前述步驟S14：選擇語言教學影片及難易等級，也就是讓使用者使用相同的語言教學影片及調整符合自己等級的難度來進行學習。如果使用者認為不需要調降學習等級，回答「不需要」、「不用」等字詞，語音讀取辨識模組22接收到使用者回答的語音內容之後，互動式語言教學系統1則是維持在目前的學習等級，使用者仍然可以與當前的語言教學影片進行對話，直到通過為止。

於另一實施例中，在前述步驟S24：判斷使用者是否完成語言教學影片中，若是使用者一直無法完成語言教學影片的對話或者是檢核都無法通過，此時處理單元14也會在使用者介面(如圖3所示)彈跳出對話框來詢問使用者是否要調整難易等級，即步驟S242，如果使用者回答「Yes」、「是」、「好」、「好啊」、「可以」、「需要」等字詞時，則回到前述步驟S14，讓使用者重新選擇學習的難易等級。

步驟S26：輸出檢核結果。當使用者完成語言教學影片的學習之後，處理單元14會將前述步驟S22及步驟S24所得到的結果輸出，將學習過程中的正確率與對話時間長度記錄起來，做成表格供使用者參考及分析學習成效的參考依據。

根據上述，本發明舉一實施例來說明。請參考圖3A為本發明所揭露的互動式語言教學系統的使用者介面示意圖。在圖3A中，當使用者輸入帳號及密碼之後就會進入到這個使用者介面2，在使用者介面2的左上角會顯示「學習階數」欄位31，在右上角顯示「使用者名稱」欄位32。在使用者介面2的「影片播放」欄位33用以播放語言教學影片。於使用者介面2的左下角則分別是「輸入使用者姓名」欄位34、「輸入學習階數」欄位35、「AI agent」欄位36、「關鍵字提示」欄位37、「使用者回答辨識結果」欄位38及「語音辨識存取文字」欄位39。使用者介面2的右下角顯分別是「顯示辨識結果」欄位40、「開始」欄位41、「繼續」欄位42、「肢體辨識」欄位43、「眼睛辨識」欄位44及「臉部情緒辨識」欄位45。在執行本發明的互動式語言教學系統1之後，所有的欄位皆為空白狀態。

首先，使用者要在「輸入使用者姓名」欄位34輸入使用者姓名和在「輸入學習階數」欄位35輸入想要學習的難易等級，例如：1、2或3，輸入完畢之後，在使用者介面2的右上角會顯示「使用者名稱」欄位32顯示使用者姓名「Nina」，左上角的「學習階數」欄位31則是顯示「Level 3」。使用者點擊「開始」欄位41，則系統的「影片播放」欄位33開始播放語言教學影片。互動式語言教學系統1的影像擷取模組20(如圖2所示)開始擷取使用者的即時影像，並進行肢體辨識、眼睛和臉部情緒辨識，辨識中的影像都會即時地顯示在「顯示辨識結果」欄位40。影像經由本發明的互動式語言教學系統1辨識後所產生的辨識結果，會透過文字呈現在「肢體辨識」欄位43、「眼睛辨識」欄位44及「臉部情緒辨識」欄位45，如圖3B中在「肢體辨識」欄位43、「眼睛辨識」欄位44及「臉部情緒辨識」欄位45分別顯示「正常」的文字。「AI agent」欄位36會顯示系統和使用者互動的文字，例如：「再嘗試一次」、「是否需要調降難易度？」。「關鍵字提示」欄位37則是會在第二等級和第三等級時顯示用來提示使用者的關鍵字，使用者的回答結果會透過語音辨識，轉換成文字之後顯示在下方的「使用者回答辨識結果」欄位38，並存取。

於另一實施例中，當使用者觀看語言教學影片時，臨時離開座位，系統的肢體辨識會辨識不到使用者的肢體關鍵點，此時辨識結果為使用者可能離開座位，在「肢體辨識」欄位43會顯示「離開座位」，如圖3C所示，同時本發明的互動式語言教學系統1會自動將語言教學影片暫停，待使用者回到座位後再點選「繼續」欄位42，繼續觀看。

於另一實施例中，當使用者觀看語言教學影片時分心滑手機，或是感到疲倦而打瞌睡，本發明的互動式語言教學系統1的CNN眼睛情緒辨識會辨識出使用者的眼睛為閉闔，「顯示辨識結果」欄位40顯示「可能分心」，於「眼睛辨識」欄位44顯示「閉眼」，如圖3D所示，待使用者的專注力回到螢幕之後再點選「繼續」欄位42，繼續觀看。

於再一實施例，當使用者觀看語言教學影片時，對課程內容聽不懂、不理解或是困惑時，本發明的互動式語言教學系統1會透過影像擷取模組20來擷取使用者的臉部影像，並使用臉部CNN進行臉部表情的辨識，再將辨識結果顯示在使用者介面2的「臉部情緒辨識」欄位45，若辨識結果為「困惑」，則互動式語言教學系統1會在「顯示辨識結果」欄位40上顯示「可能有困惑」的文字，同時，互動式語言教學系統1也會暫停語言教學影片的播放，等待使用者了解學習內容之後，再按下「繼續」欄位42即可繼續觀看，如圖3E示。

關於臉部情緒辨識、肢體辨識及眼睛辨識，本發明的互動式語言教學系統1是利用OpenPose深度學習神經網路用來擷取使用者的肢體關鍵點，透過演算法例如Viola Jones演算法偵測人臉的眼睛區域和臉部區域，最後利用卷積神經網路(Convolutional Neural Network，CNN)訓練及辨識使用者眼睛是否閉闔及是否有困惑的表情，將以上的功能結合之後，能夠準確判斷使用者的即時狀態，並根據判斷結果自動控制當前影片暫停，減少了使用者必須以手動的方式來暫停影片的不便。只要使用者睡著、離開座位、低頭滑手機或是情緒上感到困惑，影片就會自動暫停，等到使用者想繼續學習時，可以從原本暫停的地方繼續播放影片，互動式語言教學系統1也會持續地偵測使用者的學習狀態。

具體來說，本發明的互動式語言教學系統1是透過影像擷取模組20將正在觀看教學影片的使用者的視訊取樣成一幀一幀的影像，再運用COCO(Common Objects in Context)資料及訓練OpenPose深度學習神經網路來辨識，COCO資料集是一個提供大型開源圖片的數據庫，用來訓練OpenPose，OpenPose結合了身體和足部關鍵點數據集和檢測器，可偵測使用者姿態並擷取關鍵點，再將關鍵點相連起來，頭部及身體分別有五個及十二個關鍵點，共有十七組數值，關鍵點會存取關鍵點的座標(X，Y)，以及是否有偵測到該關鍵點的數值，其中數值1表示有偵測到關鍵點，數值0表示沒有偵測到關鍵點，如表1所列。

除了使用者閉眼時的狀態以外，透過OpenPose可以辨識出使用者可能是趴下或是離開位置而使得互動式語言教學系統1暫停播放影片。若是關鍵點前列數值為0，則可以判斷使用者可能是趴下休息或是離開座位，代表尚未偵測到臉部眼睛、鼻子和耳朵的關鍵點，如表2所列：

相較於表1，可以得到前三列關鍵點的差異。若是使用者正在使用手機，臉部並未完全朝下，影像擷取模組20還是有可能會偵測到眼睛及鼻子的關鍵點，如表3所列：

此時就必須要使用Viola Jones演算法和CNN來進行辨識，即使使用者的臉部不完全朝下，只要是正在使用手機，眼睛也會自然地往下看，透過影像擷取模組20擷取眼睛的眼像看起來就像是閉著眼，辨識結果會呈現偵測不到眼睛，即便是眼睛微閉闔狀態，互動式語言教學系統1會暫停影片播放。

因此，本發明所揭露的互動式語言教學系統1利用網路攝影機擷取使用者影像的同時，透過OpenPose抓取關鍵點，並判斷眼睛及鼻子的數值來辨識使用者是否離開座位。若是眼睛及鼻子的數值皆為0，即代表未偵測到使用者的臉部影像，此時本發明的互動式語言教學系統1就可以判斷使用者離開座位，且辨識的準確性可以高達100%。當然地，為了避免偵測錯誤，提高辨識準確率，本發明的互動式語言教學系統1預設了影像擷取模組20連續N次(例如N=5)判斷到使用者的眼睛、鼻子數值皆為0，則影像擷取模組20的辨識結果就是使用者確認離開座位、趴下休息或是轉頭未面向螢幕，沒有持續再觀看影片。相對的，若是眼睛及鼻子的數值皆為1，則判斷使用者正在座位上，且面向螢幕，此時會透過擷取下來的影像再進行眼睛情緒的辨識。

而臉部情緒的CNN辨識與前述眼睛辨識的方法是一樣的，先透過影像擷取模組20將使用者的影像擷取下來，在運用Viola Jones演算法將臉部區域框選並切割擷取下來，臉部圖像會先進行臉部CNN的訓練，再把當下擷取下來的臉部圖像和CNN訓練的結果進行辨識，本發明的互動式語言教學系統1蒐集了許多臉部的訓練圖像，每一個臉部的訓練圖像大小固定在80x120解析度，分為正常表情和困惑表情兩種類別。CNN人臉辨識能辨識出使用者當下的情緒，判斷使用者是否困惑或是正常學習，並將結果傳回互動式語言教學系統1內，並且顯示在使用者介面2的右下角的「臉部情緒辨識」欄位45，讓使用者可以即時看到自己的情緒辨識狀態，達到自動控制影片暫停的效果。

針對學習難易等級，如圖4所示，圖4是表示互動式語言教學系統的難易等級的步驟流程圖。在圖4中，當使用者選擇求職/工作類及難易程度為第一等級(簡單等級)，預設正確率Pi%設定為50%，互動式語言教學系統1透過影像擷取模組20擷取使用者的即時影像，經由人工智慧技術來判斷使用者的即時狀態，語音讀取辨識模組22例如：麥克風會接收來自使用者的音訊，互動式語言教學系統1再將此音訊透過網際網路傳送到後端伺服器或是雲端(未在圖中表示)進行語音辨識，並將此音訊轉換為文字，互動式語言教學系統1針對轉換後的文字進行關鍵字比對，並計算正確率，如果使用者對話的正確率超過第一等級的預設正確率P₁%=50，則互動式語言教學系統1會繼續播放下一個片段的語音教學影片，藉由判斷使用者與目前所播放的語言教學影片的對話的正確率來做為是否播放下一個片段的語言教學影片的依據。當使用者完成此等級的所有影片之後，互動式語言教學系統1會計算使用者在學習過程的正確率，若正確率Pi%超過50%，則互動式語言教學系統1會使用者進到下一個等級，例如普通等級。

要說明的是，本發明的互動式語言教學系統1中的三個等級：第一等級(簡單等級)、第二等級(普通等級)及第三等級(進階等級)各具有至少19個片段的語言教學影片，當使用者在此等級的學習過程中，發現課程過於困難或是不知道該如何回應時，只要在與本發明所揭露的互動式語言教學系統1的語言教學影片的互動過程中，其正確率低於預設值或者是使用者的對話內容並未通過標準達預設次數，例如3次，本發明的互動式語言教學系統1的AI agent就會透過圖3A的使用者介面2中的「AI agent」欄位36會顯示「你是否覺得太難？」、「需要調整學習等級嗎？」、「需要繼續嘗試嗎？要繼續嘗試請按繼續鍵」等詢問對話來讓使用者進行自我評估目前的學習狀態，如果使用者回應「好」、「可以」、「需要」或「要」等肯定的詞彙，此時互動式語言教學系統1則判斷使用者需要調整學習等級，並協助使用者調整至難度較低的等級，即從第二等級調整至第一等級，並且從第一部語言學習影片的片段開始學習。如圖4的互動式語言教學系統1的難易等級流程圖所示，當使用者在執行本發明所揭露的互動式語言教學系統1時，選擇第二等級(普通等級)，在該片段的語言教學影片播放完畢之後，使用者必須使用語音讀取辨識模組(麥克風)22(如圖2所示)回應，語音讀取辨識模組 (麥克風)22(如圖2所示)會讀取並辨識使用者對話的語音內容，並將語音內容轉換成文字，再將文字與預設的正確答案比對，當正確率Pi%超過50%時，互動式語言教學系統1會繼續播放下一個片段的影片。當正確率Pi%不超過50%、且不通過的次數達到互動式語言教學系統1所預設的次數(例如3次)時，互動式語言教學系統1就會先暫停當前正在播放的影片，並且透過使用者介面2的左下角的「AI agent」欄位36詢問使用者是否需要調整難易等級，如果使用者回答「不要」、「不」等詞彙時，互動式語言教學系統1的語音讀取辨識模組22就會判斷使用者要繼續維持在此學習等級，則互動式語言教學系統1就會繼續播放該片段影片。同樣的，語音讀取辨識模組(麥克風)22會讀取並辨識使用者對話的語音內容之後其正確率超過50%，則互動式語言教學系統1就會繼續播放下一個片段的影片。當正確率不超過50%、且不通過的次數達到互動式語言教學系統1所預設的次數(例如3次)時，「AI agent」欄位36詢問使用者是否需要調整難易等級，如果使用者選擇「好」、「需要」、「可以」等詞彙時，互動式語言教學系統1的語音讀取辨識模組22就會根據使用者的回答來判斷使用者要調整難易等級，此時互動式語言教學系統1就會將學習等級調整至第一等級(簡單等級)，語言教學影片則會從頭開始播放，藉此來達到即時根據使用者的學習程度來調整難易程度的效果。

因此，本發明的互動式語言教學系統1可以讓使用者可以根據自身的語言能力來選擇，調整難易程度，不會因為課程超過了使用者的學習能力而讓使用者放棄學習，失去學習動力。每完成一次學習課程，本發明的互動式語言教學系統1都會將使用者在學習過程中所回答的內容、與語言教學影片互動對話所花費的時間、正確關鍵字的比例、回答正確率等數據紀錄下來，作為後續學習成效分析，讓使用者更能了解自己的學習狀態。

綜上所述，本發明的互動式語言教學系統1可以即時辨識使用者當前的學習狀態，並且隨時判斷使用者是否確實專注在學習，也同時提供調適學習難度的方法，讓使用者可以在適合的學習難度進行語言的學習，提高使用者的口說能力。本發明的互動式語言教學系統1沒有真人出現，使用者不會因為面對「人」而有不好意思開口說外國語言的窘境，讓使用者的語言口述能力提升。