목록으로
DolphinGemma: How Google AI is helping decode dolphin communication
Blog2025.04.20

DolphinGemma: How Google AI is helping decode dolphin communication

요약

Google은 Wild Dolphin Project와의 협력으로 야생 돌고래의 복잡한 의사소통 구조를 학습하고 새로운 돌고래 소리 시퀀스를 생성하는 AI 모델인 DolphinGemma를 개발했습니다.
이 약 400M 파라미터 모델은 수십 년간 축적된 돌고래 음향 데이터를 기반으로 훈련되었으며, 인간 언어 모델처럼 소리 패턴을 분석하여 다음 소리를 예측함으로써 숨겨진 의미를 파악하는 데 도움을 줍니다.
DolphinGemma는 Pixel 폰에서 현장 분석이 가능하며, 돌고래와 간단한 공유 어휘를 구축하기 위한 CHAT 시스템과 함께 이종 간의 소통을 가능하게 하는 중요한 발전을 이루고 있습니다.

상세 내용

Google은 Wild Dolphin Project (WDP) 및 Georgia Tech과의 협력을 통해 돌고래 의사소통 연구를 돕기 위한 대규모 언어 모델(LLM)인 DolphinGemma의 개발 진행 상황을 발표했습니다.

이 연구는 수십 년간 지속된 WDP의 야생 대서양 점박이돌고래(Stenella frontalis) 연구 데이터를 기반으로 합니다. WDP는 1985년부터 바하마에서 돌고래들의 개체별 행동과 소리를 연계하여 방대한 수중 비디오 및 오디오 데이터셋을 구축해왔습니다. 이 데이터셋에는 엄마와 새끼가 재회할 때 사용하는 Signature whistles(고유한 이름), 싸움 중에 관찰되는 Burst-pulse "squawks", 구애나 상어 추격 시 사용되는 Click "buzzes" 등 특정 행동과 연관된 다양한 돌고래 소리 유형이 포함되어 있습니다.

DolphinGemma의 핵심 방법론:

DolphinGemma는 Google이 개발한 약 400M parameters 규모의 AI 모델로, Google의 Gemma 및 Gemini 모델을 구동하는 동일한 연구 및 기술을 기반으로 합니다. 이 모델은 WDP의 야생 대서양 점박이돌고래 음향 데이터베이스로 광범위하게 훈련되었습니다.

  • SoundStream tokenizer: 돌고래 소리를 효율적으로 표현하기 위해 Google의 audio technologies 중 하나인 SoundStream tokenizer를 사용하여 원시 오디오를 이산적인 tokens으로 변환합니다. 이는 텍스트 LLM이 단어를 tokens으로 변환하는 방식과 유사하게, 모델이 음향 시퀀스를 처리할 수 있도록 합니다.
  • Model Architecture: 복잡한 시퀀스 처리에 적합한 모델 architecture를 사용합니다. 인간 언어 LLM이 다음 단어나 token을 예측하는 방식과 매우 흡사하게, 자연적인 돌고래 소리 시퀀스를 처리하여 패턴, 구조를 식별하고 시퀀스에서 다음으로 나올 가능성이 있는 소리를 예측하는 audio-in, audio-out 모델로 기능합니다.
  • 기능: DolphinGemma는 반복되는 소리 패턴, clusters 및 신뢰할 수 있는 시퀀스를 식별하여 돌고래의 자연스러운 의사소통 내부에 숨겨진 구조와 잠재적 의미를 uncover하는 데 기여합니다. 이는 이전에는 방대한 인간의 노력이 필요했던 작업입니다.
  • CHAT 시스템과의 통합 및 Pixel Phones 활용:

    DolphinGemma의 개발과 병행하여, WDP는 Georgia Institute of Technology와 협력하여 해양에서 양방향 상호작용을 탐색하기 위한 CHAT (Cetacean Hearing Augmentation Telemetry) 시스템도 개발했습니다. CHAT은 돌고래의 복잡한 자연 언어를 직접 해독하는 대신, 인위적으로 생성된 합성 휘슬(synthetic whistles)을 사용하여 돌고래가 좋아하는 sargassum, seagrass, scarves와 같은 특정 사물과 연관시킴으로써 단순화된 공유 vocabulary를 구축하는 것을 목표로 합니다.

    CHAT 시스템은 다음을 위해 설계되었습니다:
    * 해양 소음 속에서 모방된 휘슬을 정확하게 듣기.
    * 실시간으로 어떤 휘슬이 모방되었는지 식별하기.
    * 골전도 헤드폰(bone-conducting headphones)을 통해 연구자에게 돌고래가 요청한 사물을 알리기.
    * 연구자가 즉시 올바른 사물을 제공하여 연결을 강화할 수 있도록 지원.

    Google Pixel 스마트폰(현재 Pixel 6, 향후 Pixel 9)은 CHAT 시스템의 핵심 하드웨어로 활용됩니다. Pixel 폰의 advanced processing 능력은 deep learning models와 template matching algorithms를 동시에 실행하며, 실시간으로 돌고래 소리를 high-fidelity로 분석할 수 있게 합니다. 이는 custom hardware의 필요성을 줄이고, 시스템 유지보수성을 향상시키며, 전력 소비와 장치 비용 및 크기를 절감하는 중요한 이점을 제공합니다. DolphinGemma의 predictive power는 연구자들이 돌고래의 vocalization sequence에서 잠재적 모방을 더 일찍 예측하고 식별할 수 있도록 하여, 반응 속도를 높이고 상호작용을 더욱 fluid하게 만들 수 있습니다.

    오픈 모델 공유:

    Google은 과학적 발견에서의 협력 가치를 인식하여 올여름 DolphinGemma를 open model로 공유할 계획입니다. 이 모델은 대서양 점박이돌고래 소리에 훈련되었지만, bottlenose 또는 spinner dolphins와 같은 다른 고래류 종을 연구하는 연구자들에게도 잠재적인 유용성을 가질 것으로 예상됩니다. 다른 종의 vocalizations에 대해서는 fine-tuning이 필요할 수 있으며, 모델의 개방성은 이러한 adaptation을 용이하게 합니다.

    이러한 기술의 조합은 돌고래 의사소통 이해를 위한 새로운 가능성을 열고 있으며, 장기적으로 인간과 돌고래 간의 의사소통 격차를 줄이는 데 기여할 것으로 기대됩니다.

    원본 보기
    Web
    Shared by Anonymous