パスワードを忘れた? アカウント作成
297885 journal

aitoの日記: SIGMUS89@九州大学 2月12日まとめ

日記 by aito
■セッション4「コンテンツ創作支援」【9:00~10:00】
(14)CodeDrummer: プログラム実行における関数呼び出しの可聴化手法(電通大)
プログラムの可聴化。関数の呼び出し関係をドラムパターンで表現する。プログラムの呼び出し関係とドラムパターンを対応付けるための手法を3つ提案している(関数とドラムパターンを対応させる/命令シーケンスとドラムパターンを対応させる/関数呼び出しパターンとドラムパターンを対応させる)が、デモの音を聞いた限りでは、音だけでは何が起きているのか理解しにくい。可視化手法とうまく組み合わせると面白いのではないかと思った。

(15)音楽と映像の同期手法に基づくダンス動画生成システム(早稲田大)
音楽を与えると、それに同期した映像を作るシステム。主観評価実験によって、「音楽のテンポにあわせて動く」よりも「音の大きさに合わせて動く」方が同期している感じが強いことを確認。次にシステムの基本要素として、動画の断片(動画素片)のオプティカルフローの大きさと音の大きさの変動の相関を測り、相関が高い動画を貼りあわせて動画を作る。探索は小節ごとに行うので、シーンが変わることに対してペナルティを与え、頻繁にシーンチェンジが起きないように制御する。それにしても、この手の研究ではアイドルマスターが標準素材なのか。

(16)音楽のムード分類結果を利用したホームビデオへのBGM付与支援システム(早稲田大)
映像に対してBGMを付与するための支援システム。ビデオに付与したいムードの印象語をまず選び、次にその印象語に対応する音楽のクラスタから曲を選ぶ。次に、映像の動きに同期した音楽区間を自動的に選んで映像に合わせる。被験者による操作実験および主観評価によって、楽曲をリストで表示するよりも効率的にBGMを選ぶことができることが示された。

■セッション5「楽音解析」【10:15~11:35】
(17)LESを用いた2次元および3次元エッジトーンの数値解析(九工大)
エアリード楽器の音の発生(エッジトーン)に関する流体解析シミュレーション。2次元と3次元のシミュレーションをしているが、3次元では5並列で3週間かかったそうだ。数値計算結果は従来知られている予測式に良く合う。シミュレーション結果から、ジェットと音の関連などを調べた。

(18)確率スペクトル包絡に基づくNMF基底生成モデルを用いた混合楽音解析(神戸大)
有木研。NMFによる混合音の分解。単一楽器の楽音のスペクトル包絡を拡張ガウシアンプロセスでモデル化し、これを使ってNMFの基底行列を生成する。完全にデータだけからNMFで音とイベントを分解すると、かならずしも本当の音スペクトルに対応しない基底が生成されることへの対処法である。基底行列を実際に選ぶためにGAを利用。いろいろな技術を投入しているので精度はよさそうだけど、時間はかかりそうだ。

(19)学習により自己チューニング可能なRadial-Basis Function Networksによる声紋認証手法の提案(高知工科大)
RBFネットワークを使った話者認証。特徴量はFFTパワースペクトルそのまま。この手の技術には詳しくないようなので、もう少し基本技術を勉強してからやってほしいところ。

(20)統計的信号処理を用いた合奏音からの楽器パート音の分離(新居浜高専)
混合音について、同じ音高で複数の音が混ざった場合の分離を目指す。時間領域で、ある音を抽出するための(最小二乗的に)最適なフィルタを設計する。どんな音(音色、高さ)が混ざっているかは既知。導出が面倒なのだが、要するに高さまで既知の音のパワースペクトルの重みつき和で観測音を近似する問題を解いていることに相当するようだ。

■セッション6「検索への応用」【13:00~14:40】
(21)協調フィルタリングを用いた音楽推薦とマッピング手法(中京大)
ユーザの再生履歴を使った音楽推薦。過去の再生履歴から協調フィルタリング手法で曲間の距離を計算し、それを2次元に配置して音楽マップを作る。それをユーザに提示して、マップから再生したい曲を選ぶという枠組み。曲間距離は、過去のプレイリストにおいて一緒に再生した頻度に基づく。マップを作るときには、曲と曲の間がばねで接続されているというモデルを使ってエネルギー最小の2次元マップを作成する。また、ある程度曲を再生した後、それと似ている過去の再生履歴を持ってきて、そこの中の曲を推薦する。通常の音楽推薦はユーザが知らない曲を推薦するんだと思うが、これは昔聞いた曲をもう一度聴くためのもの。協調フィルタリング手法を使うならLast.fmのデータを使ったらいいんでないのという後藤さんのコメント。

(22)フィルタバンク特徴量とEarth Mover's Distanceを用いた音楽検索(大同大)
柘植先生。MFCCを使う音楽検索。特徴量はMFCCに基づくVQヒストグラム(コードブックは曲ごとに作る)。特徴量間の距離にEMDを使う。このとき、ある曲のVQヒストグラムを別な曲のVQヒストグラムに変換するとき(セントロイドを動かし、さらに個数を変える)ときのコストをEMDとして表現する。これだけだとAudio Fingerprintよりも性能が悪いので、コードブックを共通で設計しておいて、曲ごとにその中の一部のセントロイドを使う方法を提案。ユニバーサルなコードブックを使うのならEMDを使う必要がないのではないかという嵯峨山先生のコメント。

(23)音楽検索のための楽曲印象値の自動付与手法(徳島大)
「明るさ」「にぎやかさ」などの楽曲印象値の自動推定。特徴量は割とポピュラーなもの(音量、音色、リズム、和音に関するもの)。推定手法はニューラルネット。個人の印象に適応ということもやっている。さまざまな人に共通な「ユニバーサル印象」というのはありうるのか?という長嶋先生のコメント。

(24)旋律からの単語抽出による文書モデルベースの旋律検索(立命館大学)
ハミング検索。検索を文書検索と同じモデルで行うための研究。メロディを「文字」「単語」単位に区切る。ここでの「単語」に相当する単位はスライディングウインドウで区切ったメロディ断片。楽譜から抽出した特徴ベクトル系列の3つ組をVQでコードに直し(これが「文字」)、文字の連続として「単語」を定義する。あとはTF-IDFベースの文書検索を行う。民族音楽に対してはまったく効果がないところが面白い。

(25)聴感による旋律の演奏表情の類似性評価-ピアノロール画像の比較による旋律類似性評価結果との比較-(芝浦工大)
Kagurame phase-IIIを作っているグループ。Kagurameは与えられた曲の断片と類似した曲をコーパスから検索して、その演奏表情を曲に付与する方式なので、「類似した曲の表情が似ている」かどうかが肝になる。今回の研究では、似た旋律の曲の演奏表情が「似ている」と人間が判断するかどうかを調べた。その結果、旋律の類似性は必ずしも関係なく、テンポやvelocityが似ている曲が「似た演奏表情」と判定される傾向。類似度を計算するときに、単にスペクトルの重なりの多さを見ているだけなので、短調・長調など音楽的な近さを測れていないのが問題だという話。

■セッション7「音楽信号処理」【14:55~16:15】
(26)時間周波数平面上の倍音パターンと自己相関に着目した採譜システム(新居浜高専)
ピアノなどの音の採譜。ある基音に対して、次の基音を観測する確率と、基音から観測音を生成する観測行列の2つを使い、カルマンフィルタとして実現する。周波数分析はガボールウェーブレット。分析結果に対して(割とナイーブな方法で)テンポ推定も行う。

(27)音圧関数の低周波フーリエ・スペクトルにおける楽曲構造の反映(福岡教育大)
長時間のスペクトルを計算すると、非常に低い周波数領域に1/f型のスペクトルが現れるという話。しかし、非常に低い領域については、AD変換器に入っているハイパスフィルタに依存しそうな気がするのだが。

(28)対数周波数領域における調波構造に着目したピアノ多重音の自動採譜(電気通信大)
ピアノ音の自動採譜。周波数分析はフィルタバンク。調波構造のキャンセルにはSpecmurt分析を使う。基音の系列からパートへの割り当てはアドホック。音価の推定はHMM。きちんとやっている感じだが、特に新しい方法は使われていない気がする。

(29)HMMを用いた音響演奏の楽譜追跡による弾き直しに追従可能な自動伴奏(東大)
嵯峨山研。HMMベースで楽譜と実演奏の対応を取る。音符の弾き飛ばし、弾きなおしに相当するバスを導入することで、それらに対応できる。音響信号に対応するため、各状態での自己遷移の回数を音符の長さに比例させるような細工をする。特徴量はクロマベクトル。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

犯人は巨人ファンでA型で眼鏡をかけている -- あるハッカー

読み込み中...