首頁資訊 kismet

kismet

來源：泰然健康網時間：2025年08月18日 08:10

項目簡介

播報

編輯

Kismet,是一款較早出現的社交機器人，由美國麻省理工大學人工智能實驗室仿人機器小組（Humanoid Robotics Group）負責開發(fā)的。

仿人機器人，是對于傳統(tǒng)機器人概念的一種巨大的轉變。傳統(tǒng)的機器人，經常在遠離人的惡劣環(huán)境下進行一些工作。比如說，救災，超長時間重復工作，這些人類很難勝任的，而機器人卻得心應手。但是，健康，管家，娛樂這方面的需求的增加，所以必然需要機器人能夠與人進行近距離的交談，學習，互動娛樂等等。

Kismet其實就是這樣一款的仿人機器人，它具有視覺，聽覺，觸覺輸入，位置感應。然后，他可以進行對話，表情，體態(tài)等與人互動。

Kismet的樣子也是十分可愛的，整個形象還是很有卡通感覺的，也因該很受小朋友們的喜愛喔。彎彎的眉毛，大大的眼睛和耳朵，還有嘴巴，但是沒有鼻子，如果加上一個氣味的識別傳感器，也可以有味道識別的功能哦，小編在想，氣味識別也是有很多用處的，比如液化氣和有害物質報警等等，這樣他就可以第一時間把信息傳遞給我們了。

Kismet具有平靜，感興趣，生氣，開心，沮喪，驚喜，惡心等表情定義，通過面部表情使我們覺得，他很具有感情表達的能力。 [1]

以下是Kismet設計的簡化視圖。

簡化視圖

系統(tǒng)架構由六個子系統(tǒng)組成：低級特征提取系統(tǒng)，高級感知系統(tǒng)，注意系統(tǒng)，動力系統(tǒng)，行為系統(tǒng)和電機系統(tǒng)。低級特征提取系統(tǒng)從世界中提取基于傳感器的特征，高級感知系統(tǒng)將這些特征封裝到可影響行為，動機和運動過程的感知中。注意系統(tǒng)隨時確定環(huán)境中最顯著和相關的刺激是什么，以便機器人可以組織其關于它的行為。動機系統(tǒng)以穩(wěn)態(tài)調節(jié)過程和情緒反應的形式調節(jié)和維持機器人的“健康狀態(tài)”。行為系統(tǒng)在競爭行為之間實現和仲裁。獲勝行為定義了當前任務（即目標）。機器人。機器人在其保留曲目中有許多行為，以及滿足的幾種動機，因此它的目標隨著時間而變化。電機系統(tǒng)通過協調輸出模式（致動器或聲音）來實現這些目標。對于Kismet，這些動作被實現為完成物理任務的運動技能，或通過社交信號完成任務的表達運動行為。

設計架構

播報

編輯

為了能使Kismet與人類正常地交流互動，它具有聽覺，視覺和本體感受的能力輸入設備。 Kismet通過各種面部的表情，會發(fā)聲和移動來模擬人類的情緒。面部表情則是通過耳朵、眉毛、眼皮、嘴唇、下巴和頭部的運動產生的。這些物質材料的成本估計為25,000美元。此外，還有四個摩托羅拉68332處理器，九個400兆赫的計算機和一個500兆赫的計算機。

Kismet是一種富有表現力的機器人生物，它的感知和運動方式適合于人類的自然交流渠道。為了方便嬰兒和照顧者之間的自然互動，機器人配備了視覺、聽覺和本體感知感官輸入。運動輸出包括發(fā)聲、面部表情和調整眼睛注視方向和頭部方向的運動能力。注意，這些運動系統(tǒng)可以引導視覺和聽覺傳感器到達刺激源，也可以用來顯示交流線索。

我們的硬件和軟件控制結構被設計來滿足實時處理視覺信號(接近30 Hz)和聽覺信號(8 kHz采樣率和10 ms幀窗口)的挑戰(zhàn)，最小延遲(小于500 ms)。高級感知系統(tǒng)、激勵系統(tǒng)、行為系統(tǒng)、運動技能系統(tǒng)和面部運動系統(tǒng)在我們實驗室開發(fā)的多線程Lisp的四臺摩托羅拉68332微處理器上運行。視覺處理、視覺注意和眼/頸控制由9臺運行QNX(實時Unix操作系統(tǒng))的聯網400 MHz個人計算機完成。表達性語音合成和語音情感意圖識別工作在雙450 MHz PC機上運行NT，語音識別系統(tǒng)運行在運行Linux的500 MHz PC機上。 [2]

軟件系統(tǒng)

播報

編輯

Kismet的社交智能軟件系統(tǒng)(SNS)是按人類智能行為的模型為基礎而設計的。它包含如下六個子系統(tǒng)。

基本特征提取系統(tǒng)

該系統(tǒng)被用來處理來自相機和麥克風的原始視覺和聽覺信息。 Kismet的視覺系統(tǒng)可以執(zhí)行眼睛檢測，運動檢測，以及膚色檢測(盡管有爭議)。當Kismet移動頭時，它會暫時禁用其運動檢測系統(tǒng)，以避免檢測自身的運動。它還使用立體相機來估計物體在其視野中的距離，例如檢測威脅 - 迅速移動的大而近的物體。

Kismet的聽覺系統(tǒng)主要是為了識別嬰幼兒講話中的情感。特別的，它可以檢測五種不同類型的情感意圖：批準，禁止，注意，安慰和中立。情感意圖分類器處理步驟如下：從記錄的語音樣本中提取音調平均值和能量（音量）方差等低級特征。然后將情感意圖的類別建模為高斯混合模型，并使用期望最大化算法將這些樣本進行分類。分類是通過多個階段完成的，首先將一個話語分為兩個一般組（例如安慰/中立與禁止/關注/批準）之一，然后進行更詳細的分類。這種系統(tǒng)架構顯著提高了情感分類的性能，如“批準”（“你是一個聰明的機器人”）與“注意”（“嘿，Kismet，我在這里”）。

動機系統(tǒng)

Breazeal博士把自己與機器人的關系形容為“像幼兒與看守人的互動，我本人就是看守者，而機器人就像一個嬰兒”。這概述了在一個學習框架內設置的人機關系，Breazeal博士為Kismet的發(fā)展提供了支撐。它提供了Kismet能力的展示機會，描述了情緒與表情，表達了機器人的“動機狀態(tài)”，Brazeal博士說：“這是一種憤怒（笑）極度的憤怒，厭惡，興奮，恐懼，這是幸福，這是一個興趣，這個是悲傷，驚喜，這個是疲倦，這個在酣睡。

在任何時候，Kismet一次只能處于一種情緒狀態(tài)。然而，Breazeal指出Kismet沒有意識，所以沒有觸覺。

語言系統(tǒng)

Kismet用各種各樣的音素說出初始語言，類似于嬰兒的咿呀聲。它使用DECtalk語音合成器，改變音高，時間，發(fā)音等來表達各種情緒。語調用于在問題和陳述式的話語之間變化。嘴形同步對現實化很重要，因此開發(fā)者使用動畫策略：“簡單是成功的嘴唇動畫的秘訣”。因此，他們并不是完全模仿嘴唇的動作，而是“創(chuàng)造一個不受觀眾挑戰(zhàn)的視覺short hand”。

視覺系統(tǒng)

機器人的視覺系統(tǒng)由安裝在立體聲主動視覺頭上的四個彩色CCD相機組成。兩個寬視場（fov）攝像機安裝在中央并相對于頭部移動。這些是由Elmo Corporation制造的具有2.2mm鏡片的0.25英寸CCD口紅相機。它們用于決定機器人應該注意什么，以及計算距離估計。還有一個攝像頭安裝在每只眼睛的瞳孔內。這些是具有8mm焦距鏡頭的0.5英寸CCD中央凹相機，用于更高分辨率的注意后處理，例如眼睛檢測。

Kismet有三個自由度來控制凝視方向和三個自由度來控制它的頸部。 Maxon DC伺服電機采用高分辨率光學編碼器驅動自由度，實現精確的位置控制。這使得機器人能夠像人類一樣移動和定向其眼睛，從事各種人類視覺行為。這不僅從視覺處理的角度來看是有利的，而且人類也將通信價值歸因于這些眼睛運動。

聽覺系統(tǒng)

看護員可以通過佩戴小型不顯眼的無線麥克風來通過語音來影響機器人的行為。該聽覺信號被送入運行Linux的500 MHz PC。實時，低級語音處理和識別軟件由麻省理工學院的語言系統(tǒng)組開發(fā)。這些聽覺功能被發(fā)送到運行NT的雙450 mHz PC。 NT機器實時處理這些特征以識別護理人員的口頭情感意圖。

富有表現力的表情系統(tǒng)

Kismet擁有15個DoF面部，可以顯示各種各樣的面部表情，以反映其“情緒化”狀態(tài)以及服務于其他交際目的。每只耳朵都有兩個自由度，讓Kismet以感興趣的方式振作耳朵，或者以一種讓人想起憤怒動物的方式折回它們。每一條眉毛都可以在挫折中降低和皺起，向上抬起以獲得驚喜，或者向上傾斜眉毛的內角以獲得悲傷。每個眼瞼都可以獨立打開和關閉，讓機器人眨眼或眨眼。機器人有四個唇部執(zhí)行器，每個角部有一個，可以向上卷曲以獲得微笑，向下卷曲可以皺眉。下頜也有一個自由度。

發(fā)聲系統(tǒng)

機器人的發(fā)聲功能是通過發(fā)音合成器生成的。底層軟件（DECtalk v4.5）基于Klatt合成器，該合成器模擬人類關節(jié)道的生理特征。通過調整合成器的參數，可以傳達說話人的個性（Kismet聽起來像一個小孩）以及為合成語音添加情感品質（Cahn 1990）。 [3]

研究進展

播報

編輯

在人機游戲中學習社會行為

我們正在探索如何通過利用培養(yǎng)看護人和未成熟學習者之間產生的互動類型來實現社會地位的學習。對我們來說，學習者是一個擬人化的機器人平臺。它的主要感官輸入包括視覺，試鏡和其自由度的聯合旋轉。其輸出包括發(fā)聲，頭部和眼睛方向以及面部表情。機器人被設計成一個復雜的系統(tǒng)，在精神上類似于人類嬰兒。也就是說，機器人以一種相當無助和原始的狀態(tài)開始，并需要一位老練和仁慈的看護人員的幫助來學習和發(fā)展。看護機器人之間的互動純粹是社交的，就像母親與嬰兒的互動方式一樣。針對學習的各種能力是人類嬰兒在出生后第一年展示的社交和溝通技巧。

這項工作的目標是如何建立一個更開放的學習系統(tǒng)的更大問題。許多基于學習的機器人研究都是針對訓練機器人來學習特定任務，模型，表示等等。通常，研究人員先驗地確定機器人要學習什么任務（例如在辦公室環(huán)境中導航），然后相應地設計學習任務。一旦機器人可以執(zhí)行任務以達到期望的成功度，則完成學習任務。但是，由于學習算法是針對特定任務精心定制的，因此必須精心設計新的學習算法，以便機器人學習不同的任務。機器人學習算法的設計是一個勞動密集型過程，并且證明難以在更復雜的環(huán)境中將當前技術擴展到更復雜的任務。

相比之下，這項工作探討了如何設計一個更開放的學習系統(tǒng)。為此，它深受兒童發(fā)展心理學的理論，觀察和實驗結果的啟發(fā)。這項研究的核心是弄清楚如何設計一個綜合學習系統(tǒng)，使學習者能夠從先前獲得的技能和認知結構中引導，以學習新的，更多樣化和更復雜的技能。人類嬰兒是我們希望我們的系統(tǒng)模仿的學習類型的主要參展者，通常被描述為具有發(fā)展形象，其中早期技能和能力被逐步修改，調整和構建，以產生更復雜，多樣或新的能力。

方法

我們的方法旨在利用人類嬰兒在學習與照顧者互動時可以獲得的許多相同的社會線索，約束和偏見。在學習早期技能時，可以使用從相對原始狀態(tài)開始，特別是當系統(tǒng)位于極其復雜的環(huán)境中時。與新生兒一樣，早期學習問題被簡化，因為粗略的初始感知能力和有限的運動技能限制了系統(tǒng)必須處理和學習的信息的復雜性。這使嬰兒有機會學習與其當前的感知，運動和認知能力相稱的技能，而不是用麻煩的復雜性轟炸新生兒。此外，看護人通過仁慈地設計環(huán)境和滿足嬰兒當前能力的任務，幫助簡化嬰兒的學習問題。例子包括使用顏色鮮艷的物體，吸引嬰兒注意顯著因素，協助嬰兒完成手頭的任務，等等。

學習者和看護者之間的互動形成了一個相互調節(jié)的過程。使用來自嬰兒的情緒反饋，護理人員協調學習情節(jié)以適應學習者當前的復雜程度。例如，如果學習者過度刺激（過于環(huán)境復雜性不堪重負），看護人必須簡化甚至暫停學習情節(jié)?；蛘?，如果學習者看起來很無聊，那么看護人會對學習情節(jié)引入更多種類或更多難度。在學習過程中，學習者構建內部結構以實現更復雜的技能和能力。因此，它能夠處理稍微復雜的環(huán)境。因此，保持平衡，學習者總是有足夠的挑戰(zhàn)去學習已經擁有的東西，但是從來沒有完全被淹沒，所以幾乎沒有機會學習任何東西。隨著發(fā)展的進行，新的目標被學習，因為發(fā)現了有趣的結果以及實現它們的不同方法。

挑戰(zhàn)

這項工作必須解決許多困難問題。兩個主要問題是建立學習者和看護者之間自然，實時的互動動態(tài)，并提出一套適當的學習機制和基礎，以建立內部結構。僅僅感知方面是眾所周知的難題，我們將不得不將感知復雜性與實時性能進行權衡，以便將研究重點放在問題的學習和交互方面（而不是沉浸在復雜的視覺和聽覺處理中））。這種權衡還有待確定。

從更廣泛的角度來看，這項研究不僅旨在建立一個開放式學習系統(tǒng)，而且還旨在建立一個人類可以與自然，本能的方式進行互動和訓練的系統(tǒng)。人類是高度社會化的生物，并使用各種線索和方式相互溝通。構建可以利用和理解類似社交線索的系統(tǒng)可以使人們更容易使用機器，并使人們能夠以更豐富的方式與機器進行通信。 [4]

相關知識

AI簡史：從1308年到2016年人工智能緩步走來
 人工智能

網址: kismet http://www.gysdgmq.cn/newsview1695282.html